Data clustering has attracted a lot

Data clustering has attracted a lot of research attention in the field of computational statistics and data mining. In most related studies, the dissimilarity between two clusters is defined as the distance between their centroids or the distance between two closest (or farthest) data points. However, all of these measures are vulnerable to outliers and removing the outliers precisely is yet another difficult task. In view of this, we propose a new similarity measure, referred to as cohesion, to measure the intercluster distances. By using this new measure of cohesion, we have designed a two-phase clustering algorithm, called cohesion-based self-merging (abbreviated as CSM), which runs in time linear to the size of input data set. Combining the features of partitional and hierarchical clustering methods, algorithm CSM partitions the input data set into several small subclusters in the first phase and then continuously merges the subclusters based on cohesion in a hierarchical manner in the second phase. The time and the space complexities of algorithm CSM are analyzed. As shown by our performance studies, the cohesion-based clustering is very robust and possesses excellent tolerance to outliers in various workloads. More importantly, algorithm CSM is shown to be able to cluster the data sets of arbitrary shapes very efficiently and provide better clustering results than those by prior methods.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

ข้อมูลคลัสเตอร์ได้ดึงดูดความสนใจวิจัยในด้านการคำนวณสถิติและการทำเหมืองข้อมูลมาก ในการศึกษาที่เกี่ยวข้องมากที่สุด dissimilarity ระหว่างคลัสเตอร์ที่สองถูกกำหนดเป็นระยะห่างระหว่าง centroids ของพวกเขาหรือระยะห่างระหว่างจุดสองข้อมูลใกล้เคียงที่สุด (หรือมากที่สุด) อย่างไรก็ตาม มาตรการเหล่านี้เป็นความเสี่ยงต่อการเป็น outliers และยังเอา outliers แม่นยำเป็นอีกงานที่ยาก มุมมองนี้ เราเสนอแบบใหม่คล้ายวัด เรียกว่าสามัคคี วัดระยะทาง intercluster โดยใช้วัดสามัคคีนี้ใหม่ เราได้ออกแบบเป็น two-phase ระบบคลัสเตอร์อัลกอริทึม เรียกว่าสามัคคีตามตนเองผสาน (ย่อเป็นร่วม), ซึ่งวิ่งในเส้นเวลาขนาดของชุดข้อมูลป้อนเข้า รวมคุณลักษณะ partitional และลำดับชั้นระบบคลัสเตอร์วิธี อัลกอริทึมร่วมกั้นข้อมูลการป้อนเข้าที่ตั้งใน subclusters หลายขนาดเล็กที่แรกระยะ และต่อเนื่องผสาน subclusters ตามรอบสามัคคีในลักษณะลำดับชั้นในการ วิเคราะห์เวลาและเนื้อที่ความซับซ้อนของอัลกอริทึมร่วม แสดง โดยศึกษาประสิทธิภาพของเรา คลัสเตอร์ตามสามัคคีจะแข็งแกร่งมาก และมีค่าเผื่อ outliers ในเวิร์กต่าง ๆ แห่ง ที่สำคัญ อัลกอริทึมร่วมแสดงสามารถคลัสเตอร์ชุดข้อมูลของรูปร่างที่กำหนดอย่างมีประสิทธิภาพ และให้ผลลัพธ์ที่ดีกว่าระบบคลัสเตอร์กว่าได้ทราบวิธีการ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

การจัดกลุ่มข้อมูลได้ดึงดูดความสนใจมากในการวิจัยในด้านการคำนวณและสถิติการทำเหมืองข้อมูล ในการศึกษาที่เกี่ยวข้องมากที่สุดความแตกต่างกันระหว่างสองกลุ่มมีการกำหนดเป็นระยะห่างระหว่าง centroids หรือระยะทางระหว่างสองของพวกเขาที่ใกล้เคียงที่สุด (หรือมากที่สุด) จุดข้อมูล แต่ทั้งหมดของมาตรการเหล่านี้มีความเสี่ยงที่จะผิดปกติและลบค่าผิดปกติได้อย่างแม่นยำเป็นอีกหนึ่งงานที่ยาก ในมุมมองนี้เรานำเสนอตัวชี้วัดความคล้ายคลึงกันใหม่เรียกว่าการทำงานร่วมกันเพื่อวัดระยะทาง intercluster โดยใช้ตัวชี้วัดใหม่ของการทำงานร่วมกันเราได้ออกแบบวิธีการจัดกลุ่มสองเฟสที่เรียกว่าการทำงานร่วมกันตามที่ตัวเองรวมกัน (โดยย่อว่า CSM) ซึ่งทำงานในเวลาเชิงเส้นกับขนาดของข้อมูลชุดข้อมูล รวมคุณสมบัติของ partitional ลำดับชั้นและวิธีการจัดกลุ่มอัลกอริทึม CSM พาร์ติชันข้อมูลเข้าที่ตั้งใน subclusters ขนาดเล็กหลายแห่งในระยะแรกแล้วอย่างต่อเนื่องดังกล่าว subclusters อยู่บนพื้นฐานของการทำงานร่วมกันในลักษณะลำดับชั้นในระยะที่สอง เวลาและความซับซ้อนของขั้นตอนวิธีพื้นที่ CSM มีการวิเคราะห์ ที่แสดงโดยการศึกษาผลการดำเนินงานของเราจัดกลุ่มการทำงานร่วมกันตามที่มีประสิทธิภาพมากและมีความอดทนที่ดีในการค่าผิดปกติในปริมาณงานต่างๆ ที่สำคัญขั้นตอนวิธี CSM แสดงให้เห็นว่าสามารถที่จะจัดกลุ่มข้อมูลชุดของรูปร่างโดยพลการอย่างมีประสิทธิภาพและให้ผลลัพธ์ที่ดีกว่าการจัดกลุ่มเหล่านั้นด้วยวิธีการก่อน

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

การจัดกลุ่มข้อมูลได้ดึงดูดความสนใจมากในงานวิจัยทางด้านสถิติ คอมพิวเตอร์ และการทำเหมืองข้อมูล ในส่วนที่เกี่ยวข้องกับการศึกษา ความแตกต่างระหว่างสองกลุ่ม หมายถึง ระยะห่างระหว่างจุดเซนทรอยด์ หรือระยะห่างระหว่างสอง ( หรือใกล้ไกล ) จุดข้อมูล อย่างไรก็ตามทั้งหมดของมาตรการเหล่านี้ มีความเสี่ยงที่จะผิดปกติและลบค่าผิดปกติแน่นอน เป็นอีกหนึ่งงานยาก . ในมุมมองนี้เราเสนอวัดความคล้ายคลึงกันใหม่ เรียกว่า สามัคคี , วัด intercluster ระยะทาง โดยการใช้มาตรการใหม่ของการทำงานร่วมกัน เราได้ออกแบบขั้นตอนวิธีการแบ่งกลุ่ม เรียกว่า สามัคคี รวมจากตนเอง ( ย่อเป็น CSM )ที่วิ่งในเวลาเชิงเส้นกับขนาดของข้อมูลชุดข้อมูล รวมคุณสมบัติของ partitional การจัดกลุ่มลำดับชั้นและวิธี CSM ขั้นตอนวิธีพาร์ทิชันข้อมูลตั้งเป็น subclusters เล็กๆในเฟสแรกแล้วอย่างต่อเนื่อง ผสาน subclusters ขึ้นอยู่กับการทำงานร่วมกันในลักษณะลำดับชั้นในขั้นตอนที่สองเวลาและพื้นที่ซับซ้อนของขั้นตอนวิธี CSM เป็นวิเคราะห์ ที่แสดงโดยการศึกษาการปฏิบัติของเรา การแบ่งกลุ่มตามเป็นมีเสถียรภาพมากและมีคุณสมบัติที่ดีต่อผิดปกติในระบบต่างๆ ที่สำคัญ , CSM ขั้นตอนวิธีแสดงสามารถกลุ่มข้อมูลชุดหนึ่งรูปร่างอย่างมีประสิทธิภาพและมีการจัดกลุ่มผลลัพธ์ที่ดีกว่าด้วยวิธีเดิม

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.