Hierarchical clustering
From Wikipedia, the free encyclopedia
Machine learning and
data mining
Kernel Machine.svg
Problems[show]
Supervised learning
(classification • regression)
[show]
Clustering[show]
Dimensionality reduction[show]
Structured prediction[show]
Anomaly detection[show]
Neural nets[show]
Reinforcement Learning[show]
Theory[show]
Machine learning venues[show]
Machine learning portal
v t e
In data mining and statistics, hierarchical clustering (also called hierarchical cluster analysis or HCA) is a method of cluster analysis which seeks to build a hierarchy of clusters. Strategies for hierarchical clustering generally fall into two types:[1]
Agglomerative: This is a "bottom up" approach: each observation starts in its own cluster, and pairs of clusters are merged as one moves up the hierarchy.
Divisive: This is a "top down" approach: all observations start in one cluster, and splits are performed recursively as one moves down the hierarchy.
In general, the merges and splits are determined in a greedy manner. The results of hierarchical clustering are usually presented in a dendrogram.
In the general case, the complexity of agglomerative clustering is {displaystyle O(n^{2}log(n))} {displaystyle O(n^{2}log(n))},[1] which makes them too slow for large data sets. Divisive clustering with an exhaustive search is {displaystyle O(2^{n})} O(2^{n}), which is even worse. However, for some special cases, optimal efficient agglomerative methods (of complexity {displaystyle O(n^{2}))} {displaystyle O(n^{2}))}) are known: SLINK[2] for single-linkage and CLINK[3] for complete-linkage clustering.
Contents [hide]
1 Cluster dissimilarity
1.1 Metric
1.2 Linkage criteria
2 Discussion
3 Agglomerative clustering example
4 Divisive clustering
5 Software
5.1 Open source implementations
5.2 Commercial
6 See also
7 References
8 Further reading
Cluster dissimilarity[edit]
In order to decide which clusters should be combined (for agglomerative), or where a cluster should be split (for divisive), a measure of dissimilarity between sets of observations is required. In most methods of hierarchical clustering, this is achieved by use of an appropriate metric (a measure of distance between pairs of observations), and a linkage criterion which specifies the dissimilarity of sets as a function of the pairwise distances of observations in the sets.
Metric[edit]
Further information: Metric (mathematics)
The choice of an appropriate metric will influence the shape of the clusters, as some elements may be close to one another according to one distance and farther away according to another. For example, in a 2-dimensional space, the distance between the point (1,0) and the origin (0,0) is always 1 according to the usual norms, but the distance between the point (1,1) and the origin (0,0) can be 2 under Manhattan distance, {displaystyle scriptstyle {sqrt {2}}} scriptstyle {sqrt {2}} under Euclidean distance, or 1 under maximum distance.
Some commonly used metrics for hierarchical clustering are:[4]
Names Formula
Euclidean distance {displaystyle |a-b|_{2}={sqrt {sum _{i}(a_{i}-b_{i})^{2}}}} |a-b|_{2}={sqrt {sum _{i}(a_{i}-b_{i})^{2}}}
Squared Euclidean distance {displaystyle |a-b|_{2}^{2}=sum _{i}(a_{i}-b_{i})^{2}} |a-b|_{2}^{2}=sum _{i}(a_{i}-b_{i})^{2}
Manhattan distance {displaystyle |a-b|_{1}=sum _{i}|a_{i}-b_{i}|} |a-b|_{1}=sum _{i}|a_{i}-b_{i}|
maximum distance {displaystyle |a-b|_{infty }=max _{i}|a_{i}-b_{i}|} |a-b|_{infty }=max _{i}|a_{i}-b_{i}|
Mahalanobis distance {displaystyle {sqrt {(a-b)^{ op }S^{-1}(a-b)}}} {sqrt {(a-b)^{{ op }}S^{{-1}}(a-b)}} where S is the Covariance matrix
For text or other non-numeric data, metrics such as the Hamming distance or Levenshtein distance are often used.
A review of cluster analysis in health psychology research found that the most common distance measure in published studies in that research area is the Euclidean distance or the squared Euclidean distance.[citation needed]
Linkage criteria[edit]
The linkage criterion determines the distance between sets of observations as a function of the pairwise distances between observations.
Some commonly used linkage criteria between two sets of observations A and B are:[5][6]
Names Formula
Maximum or complete-linkage clustering {displaystyle max ,{,d(a,b):ain A,,bin B,}.} max ,{,d(a,b):ain A,,bin B,}.
Minimum or single-linkage clustering {displaystyle min ,{,d(a,b):ain A,,bin B,}.} min ,{,d(a,b):ain A,,bin B,}.
Mean or average linkage clustering, or UPGMA {displaystyle {frac {1}{|A||B|}}sum _{ain A}sum _{bin B}d(a,b).} {frac {1}{|A||B|}}sum _{{ain A}}sum _{{bin B}}d(a,b).
Centroid linkage clustering, or UPGMC {displaystyle |c_{s}-c_{t}|} {displaystyle |c_{s}-c_{t}|} where {displaystyle c_{s}} c_{s} and {displaystyle c_{t}} c_{t} are the centroids of clusters s and t, respectively.
ลำดับชั้นคลัสเตอร์จากวิกิพีเดีย วิกิพีเดียเครื่องจักรการเรียนรู้ และการทำเหมืองข้อมูลเคอร์เนล Machine.svgปัญหา [แสดง]เรียนรู้ดูแล(การจัดประเภท•ถดถอย)[แสดง]คลัสเตอร์ [แสดง]ลดมิติ [แสดง]คาดเดาโครงสร้าง [แสดง]การตรวจหาความผิดปกติ [แสดง]ตาข่ายประสาท [แสดง]เสริมการเรียนรู้ [แสดง]ทฤษฎี [แสดง]เครื่องเรียนรู้สถานที่ [แสดง] เว็บไซต์การเรียนรู้ของเครื่องv t eในการทำเหมืองข้อมูลและสถิติ คลัสเตอร์แบบลำดับชั้น (เรียกว่าการวิเคราะห์คลัสเตอร์ลำดับชั้นหรือ HCA) เป็นวิธีการวิเคราะห์ของคลัสเตอร์ที่สร้างลำดับชั้นของคลัสเตอร์ กลยุทธ์สำหรับคลัสเตอร์ตามลำดับชั้นโดยทั่วไปแบ่งออกเป็นสองชนิด: [1]Agglomerative: นี่คือวิธีการแบบ "ล่างขึ้น": สังเกตแต่ละครั้งเริ่มในคลัสเตอร์ของตัวเอง และคู่ของคลัสเตอร์จะถูกผสานเป็นหนึ่งย้ายค่าลำดับชั้นแตกแยก: นี่คือแนวทาง "top ลง": สังเกตเริ่มในคลัสเตอร์เดียว และดำเนินการแยก recursively เป็นเลื่อนลงลำดับชั้นทั่วไป เวียนและแยกจะถูกกำหนดในลักษณะโลภ ผลลัพธ์ของคลัสเตอร์ตามลำดับชั้นจะแสดงในแบบ dendrogramในกรณีทั่วไป ความซับซ้อนของ agglomerative clustering เป็น {displaystyle O(n^{2}log(n)) } {displaystyle O(n^{2}log(n)) }, [1] ซึ่งทำให้พวกเขาช้าเกินไปสำหรับชุดข้อมูลขนาดใหญ่ คลัสเตอร์ที่แตกแยก ด้วยการค้นหาที่ครบถ้วนสมบูรณ์อยู่ {displaystyle O(2^{n}) } O(2^{n}) ซึ่งจะยิ่งแย่ลง อย่างไรก็ตาม สำหรับบางกรณีพิเศษ วิธีการ agglomerative มีประสิทธิภาพสูงสุด (ความซับซ้อน {displaystyle O(n^{2})) } {เป็นที่รู้จักกัน displaystyle O(n^{2}))}): หลบลี้หนีหน้า [2] สำหรับการเชื่อมโยงเดียวและกริ๊ง [3] สำหรับดำเนินการเชื่อมโยงคลัสเตอร์เนื้อหา [ซ่อน] ความแตกต่างกัน 1 ในคลัสเตอร์1.1 ตัวชี้วัด1.2 ความเชื่อมโยงเกณฑ์สนทนา 2ตัวอย่างระบบคลัสเตอร์ agglomerative 3คลัสเตอร์แตกแยก 45 ซอฟต์แวร์5.1 ใช้งานเปิดแหล่งที่มา5.2 พาณิชย์6 ดูอ้างอิง 7อ่านเพิ่มเติม 8ความแตกต่างกันของคลัสเตอร์ [แก้]เพื่อตัดสินใจว่า ควรจะรวมกลุ่มใด (สำหรับ agglomerative), หรือที่ควรแยกคลัสเตอร์ (สำหรับแตกแยก), จำเป็นต้องมีการวัดความแตกต่างกันระหว่างชุดของการสังเกต ในวิธีการส่วนใหญ่ของคลัสเตอร์ตามลำดับชั้น นี้จะทำได้ โดยใช้ตัวชี้วัดที่เหมาะสม (การวัดระยะห่างระหว่างคู่ของการสังเกต), เงื่อนไขการเชื่อมโยงที่ระบุความแตกต่างกันของชุดเป็นฟังก์ชันของระยะทางของการสังเกตในชุดแพร์ไวส์[แก้] การวัดข้อมูลเพิ่มเติม: วัด (คณิตศาสตร์)ทางเลือกของการวัดที่เหมาะสมจะมีอิทธิพลต่อรูปร่างของ clusters บางองค์ประกอบอาจจะใกล้กัน ตามระยะหนึ่ง และไกลออกไป ตามอีก ตัวอย่างเช่น ในพื้นที่ 2 มิติ ระยะห่างระหว่างจุด (1.0) และจุดเริ่มต้น (0,0) เป็น 1 ตามบรรทัดฐานตามปกติเสมอ แต่ระยะห่างระหว่างจุด (1.1) มา (0,0) สามารถ 2 ห่างจากแมนฮัตตัน, { displaystyle scriptstyle { sqrt { 2 } } } scriptstyle { sqrt { 2 } } ภายใต้ระยะทางแบบยุคลิด หรือ 1 ภายใต้ระยะทางสูงสุดบางวัดที่ใช้กันทั่วไปสำหรับคลัสเตอร์แบบลำดับชั้นเป็น: [4]ชื่อสูตรระยะทางแบบยุคลิด { displaystyle |a-b|_{2}={sqrt { sum _ {ผม} (a_ {i } -b_ {i }) ^ { 2 } } } |a-b|_{2}={sqrt { sum _ {ผม} (a_ {i } -b_ {i }) ^ { 2 } } }ระยะทางแบบยุคลิด squared { displaystyle |a-b|_{2}^{2}=sum _ {ผม} (a_ {i } -b_ {i }) ^ { 2 } } |a-b|_{2}^{2}=sum _ {ผม} (a_ {i } -b_ {i }) ^ { 2 }ห่างจากแมนฮัตตัน {_ displaystyle |a-b|_{1}=sum {i } | a_ {i } -b_ {i } | } _ |a-b|_{1}=sum {i } | a_ {i } -b_ {i } |ระยะทางสูงสุด {displaystyle |a-b|_{infty } =_ max {i } | a_ {i } -b_ {i } | } |a-b|_{infty } =_ max {i } | a_ {i } -b_ {i } |ระยะทาง Mahalanobis { displaystyle { sqrt {(a-b) ^ { op } S^{-1}(a-b) } } } { sqrt {(a-b) ^ {{ op } } S^{{-1}}(a-b) } } โดยที่ S คือ เมทริกซ์ความแปรปรวนสำหรับข้อความหรือข้อมูลอื่น ๆ ที่ไม่ใช่เลข เกณฑ์ชี้วัดเช่นระยะทาง Hamming หรือแหล่งมักใช้การของการวิเคราะห์คลัสเตอร์สุขภาพจิตวิทยาวิจัยพบที่ระยะทั่วไปวัดในการศึกษาเผยแพร่ในที่พื้นที่วิจัย ระยะทางแบบยุคลิดหรือระยะทางแบบยุคลิดที่ยกกำลังสอง [แก้]เชื่อมโยงเงื่อนไข [แก้]ความเชื่อมโยงเกณฑ์กำหนดระยะห่างระหว่างชุดของการสังเกตเป็นฟังก์ชันของระยะทางระหว่างสังเกตแพร์ไวส์บางคนนิยมใช้เงื่อนไขเชื่อมโยงระหว่างสองชุด A และ B เป็นข้อสังเกต: [5] [6]ชื่อสูตรสูงสุด หรือเชื่อม โยงทำ clustering { displaystyle max ,{,d(a,b):ain A, , bin B, } . } max ,{,d(a,b):ain A, , bin B, }ขั้นต่ำหรือคลัสเตอร์เชื่อมโยงเดียว { displaystyle min ,{,d(a,b):ain A, , bin B, } . } min ,{,d(a,b):ain A, , bin B, }เฉลี่ย หรือหมายถึงการเชื่อมโยงคลัสเตอร์ หรือ UPGMA { displaystyle { frac { 1 } {กรุนด์ฟอส A || บี | } } sum _ {ain A } sum _ {bin B}d(a,b) } { frac { 1 } {กรุนด์ฟอส A || บี | } } sum _ {{ain A } } sum _ {{bin B}}d(a,b)เซนทรอยด์เชื่อมโยงคลัสเตอร์ หรือ UPGMC {displaystyle |c_{s}-c_{t}| } {displaystyle |c_{s}-c_{t}| } ที่ c_ {displaystyle c_ {s } } {s } และ {displaystyle c_ {t } } c_ {t } คือ centroids ของกลุ่ม s และ t ตามลำดับ
การแปล กรุณารอสักครู่..

การจัดกลุ่มตามลำดับชั้น
จากวิกิพีเดียสารานุกรมเสรี
การเรียนรู้เครื่องจักรและ
การทำเหมืองข้อมูล
เคอร์เนล Machine.svg
ปัญหา [แสดง]
ภายใต้การดูแลการเรียนรู้
(การจัดหมวดหมู่•การถดถอย)
[แสดง]
Clustering [แสดง]
ลดมิติ [แสดง]
ทำนายโครงสร้าง [แสดง]
ความผิดปกติของการตรวจสอบ [แสดง]
ประสาท [แสดง]
เสริมสร้างการเรียนรู้ [แสดง]
ทฤษฎี [แสดง]
เครื่องการเรียนรู้สถานที่จัดงาน [แสดง]
การเรียนรู้เครื่องพอร์ทัล
V Te
ในการทำเหมืองข้อมูลและสถิติการจัดกลุ่มตามลำดับชั้น (การวิเคราะห์กลุ่มที่เรียกว่าลำดับชั้นหรือ HCA) เป็นวิธีการของการวิเคราะห์กลุ่มที่พยายาม สร้างลำดับชั้นของแสงเฉพาะจุด กลยุทธ์สำหรับการจัดกลุ่มตามลำดับชั้นโดยทั่วไปตกอยู่ในสองประเภท: [1]
Agglomerative: นี่คือ "ด้านล่างขึ้น" วิธีการ: การสังเกตแต่ละเริ่มต้นในคลัสเตอร์ของตัวเองและคู่ของกลุ่มจะถูกผสานเป็นหนึ่งเคลื่อนขึ้นลำดับชั้น
แตกแยก: นี่คือ "บนลงล่าง" วิธีการ: การสังเกตเริ่มต้นทั้งหมดในคลัสเตอร์หนึ่งและแยกจะดำเนินการซ้ำเป็นหนึ่งเลื่อนลงลำดับชั้น
โดยทั่วไปแล้วการผสานและแยกจะถูกกำหนดในลักษณะที่โลภ ผลที่ได้จากการจัดกลุ่มตามลำดับชั้นมักจะถูกนำเสนอใน dendrogram
ในกรณีทั่วไปความซับซ้อนของการจัดกลุ่ม agglomerative คือ { displaystyle O (n ^ {2} Log (N))} { displaystyle O (n ^ {2} Log (N))} [1] ซึ่ง ทำให้พวกเขาช้าเกินไปสำหรับชุดข้อมูลขนาดใหญ่ การจัดกลุ่มแตกแยกกับการค้นหาหมดจดเป็น { displaystyle O (2 ^ {n})} O (2 ^ {n}) ซึ่งเป็นยิ่งแย่ลง อย่างไรก็ตามสำหรับกรณีพิเศษบางอย่างที่ดีที่สุดวิธีการ agglomerative ที่มีประสิทธิภาพ (ของความซับซ้อน { displaystyle O (n ^ {2}))} { displaystyle O (n ^ {2}))}) เป็นที่รู้จักกัน: หลบลี้หนีหน้า [2] เดียว คุก -linkage และ [3] สำหรับสมบูรณ์เชื่อมโยงการจัดกลุ่ม
เนื้อหา [ซ่อน]
ความแตกต่างกัน 1 คลัสเตอร์
1.1 เมตริก
1.2 เกณฑ์การเชื่อมโยง
2 อภิปราย
การจัดกลุ่ม Agglomerative 3 ตัวอย่างที่
4 การจัดกลุ่มแตกแยก
5 ซอฟแวร์
5.1 การใช้งานโอเพนซอร์ส
5.2 เชิงพาณิชย์
6 ดูเพิ่มเติม
7 อ้างอิง
8 อ่านเพิ่มเติม
ความแตกต่างกันคลัสเตอร์ [แก้ไข]
เพื่อที่จะตัดสินใจว่ากลุ่มที่ควรจะเป็น รวม (สำหรับ agglomerative) หรือที่คลัสเตอร์ควรจะแยก (สำหรับแตกแยก) ซึ่งเป็นตัวชี้วัดของความแตกต่างระหว่างชุดของการสังเกตเป็นสิ่งจำเป็น ในวิธีการส่วนใหญ่ของการจัดกลุ่มตามลำดับชั้นนี้จะทำได้โดยการใช้ตัวชี้วัดที่เหมาะสม (วัดระยะห่างระหว่างคู่ของการสังเกต) และเกณฑ์การเชื่อมโยงซึ่งระบุความแตกต่างของชุดเป็นหน้าที่ของระยะทางจากจำนวนของการสังเกตในชุดที่
เมตริก [แก้ไข]
ข้อมูลเพิ่มเติม: เมตริก (คณิตศาสตร์)
ทางเลือกของตัวชี้วัดที่เหมาะสมจะมีผลต่อรูปร่างของกลุ่มที่เป็นองค์ประกอบบางอย่างอาจจะใกล้เคียงกับอีกคนหนึ่งตามหนึ่งระยะทางและห่างไกลออกไปตามอีก ยกตัวอย่างเช่นในพื้นที่ 2 มิติระยะห่างระหว่างจุด (1,0) และต้นกำเนิด (0,0) เสมอ 1 ตามบรรทัดฐานปกติ แต่ระยะห่างระหว่างจุด (1,1) และที่ แหล่งกำเนิด (0,0) อาจเป็น 2 ภายใต้ระยะทางแมนฮัตตัน { displaystyle scriptstyle { sqrt {2}}} scriptstyle { sqrt {2}} ภายใต้ระยะทางยุคลิดหรือ 1 ภายใต้ระยะทางสูงสุด
บางตัวชี้วัดที่ใช้กันทั่วไปสำหรับการจัดกลุ่มตามลำดับชั้นคือ: [4]
ชื่อสูตร
ระยะทางยุคลิด { displaystyle | AB | _ {2} = { sqrt { รวม _ {i} (a_ {i} -b_ {i}) ^ {2}}}} | AB | _ {2} = { sqrt { รวม _ {i} (a_ {i} -b_ {i}) ^ {2}}}
Squared ระยะทางยุคลิด { displaystyle | AB | _ {2} ^ {2} = รวม _ {i} (a_ {i} -b_ {i}) ^ {2}} | AB | _ {2} ^ {2} = รวม _ {i} (a_ {i} -b_ {i}) ^ {2}
ระยะทางแมนฮัตตัน { displaystyle | AB | _ {1} = รวม _ {i} | a_ {i} {-b_ i} |} | AB | _ {1} = รวม _ {i} | a_ {i} -b_ {i} |
ระยะทางสูงสุด { displaystyle | AB | _ { infty} = สูงสุด _ {i} | a_ {i} -b_ {i} |} | AB | _ { infty} = สูงสุด _ {i } | a_ {i} -b_ {i} |
Mahalanobis ระยะทาง { displaystyle { sqrt {(AB) ^ { ด้านบน} S ^ {- 1} (AB)}}} { sqrt {(AB) ^ {{ ด้านบน}} S ^ {{- 1} } (AB)}} ที่ S เป็นเมทริกซ์ความแปรปรวนร่วม
สำหรับข้อความหรือข้อมูลที่ไม่ใช่ตัวเลขอื่น ๆ , ตัวชี้วัดเช่นระยะทาง Hamming หรือ Levenshtein ระยะทางมักจะใช้
การทบทวนการวิเคราะห์กลุ่มในการวิจัยทางจิตวิทยาสุขภาพพบว่าการวัดระยะทางที่พบมากที่สุดในการศึกษาที่ตีพิมพ์ในพื้นที่การวิจัยที่เป็นระยะทางยุคลิดหรือระยะทางยุคลิดสแควร์. [อ้างจำเป็น]
เกณฑ์การเชื่อมโยง [แก้ไข]
เกณฑ์การเชื่อมโยงกำหนดระยะห่างระหว่างชุด ของการสังเกตเป็นหน้าที่ของระยะทางระหว่างคู่สังเกต
บางเกณฑ์การเชื่อมโยงที่ใช้กันทั่วไประหว่างสองชุดของการสังเกต A และ B คือ: [5] [6]
ชื่อสูตร
สูงสุดหรือการจัดกลุ่มสมบูรณ์เชื่อมโยง { displaystyle สูงสุด , {, D (A, B): เป็น ใน A, , B in B , }} สูงสุด , {, D (A, B): a. A, , B in B , }
ขั้นต่ำเดียวหรือการเชื่อมโยงการจัดกลุ่ม { displaystyle นาที , {, D (A, B): a. A, , B in B , }} นาที , {, D (A, B): เป็น A, , B in B , }
หมายถึงการเชื่อมโยงหรือเฉลี่ยการจัดกลุ่มหรือ UPGMA { displaystyle { frac {1} {| || B |}} รวม _ {a in A} รวม _ {B in B} D (A, B) .} { frac {1} {| || B |}} รวม _ {{a in A}} รวม _ {{B in B}} D (A, B)
การจัดกลุ่มเชื่อมโยงเซนทรอยด์หรือ UPGMC { displaystyle | c_ {s} -c_ {t} |} { displaystyle | c_ {s} -c_ {t} |} ที่ { displaystyle c_ {s}} c_ {s} และ { displaystyle c_ {t}} c_ {t} มี centroids กลุ่มและ T ตามลำดับ
การแปล กรุณารอสักครู่..

การจัดกลุ่มลำดับชั้นจากวิกิพีเดีย , สารานุกรมฟรีการเรียนรู้เครื่องและการทําเหมืองข้อมูลmachine.svg เคอร์เนลปัญหา [ แสดง ]การเรียนรู้แบบมีผู้สอนหมวดหมู่ - การถดถอย )[ แสดง ]การจัดกลุ่ม [ แสดง ]แสดงการลดลง [ dimensionality ]โครงสร้างการพยากรณ์ [ แสดง ]แสดงการตรวจสอบ [ ปกติ ]ตาข่ายประสาท [ แสดง ]การเสริมแรงการเรียนรู้ [ แสดง ]ทฤษฎี [ แสดง ]การเรียนรู้เครื่องสถานที่ [ แสดง ]การเรียนรู้เครื่องพอร์ทัลวี ที อีในสถิติเหมืองแร่และข้อมูลการจัดกลุ่มลำดับชั้น ( เรียกว่าการวิเคราะห์กลุ่มลำดับชั้นหรือ HCA ) คือ วิธีการของการวิเคราะห์การเกาะกลุ่มที่พยายามจะสร้างลำดับชั้นของกลุ่ม กลยุทธ์การจัดกลุ่มลำดับชั้นโดยทั่วไปตกอยู่ในสองประเภท : [ 1 ]agglomerative : นี่คือ " ล่างขึ้นบน " วิธีการสังเกตแต่ละเริ่มต้นในกลุ่มของตัวเอง และคู่ของกลุ่มจะผสานเป็นหนึ่งย้ายขึ้นลำดับขั้นแบ่ง : นี่คือ " บนลงล่าง " วิธีการสังเกตทั้งหมดเริ่มต้นในกลุ่มและแยกออกเป็นกระทำ recursively เป็นหนึ่งย้ายลงลำดับขั้นโดยทั่วไป , ผสานและแยกพิจารณาในลักษณะที่เป็นโลภ ผลของการจัดกลุ่มลำดับชั้นมักจะนำเสนอในพันธุกรรม .ในกรณีทั่วไป ความซับซ้อนของ agglomerative clustering คือ { displaystyle O ( n ^ { 2 } log ( n ) ) } { displaystyle O ( n ^ { 2 } log ( n ) ) } , [ 1 ] ซึ่งทำให้พวกเขาช้าเกินไปสำหรับชุดข้อมูลที่มีขนาดใหญ่ แบ่งการจัดกลุ่มที่มีการค้นหาที่ละเอียดถี่ถ้วนเป็น displaystyle o ( { 2 ^ { n } ) o ( } 2 ^ { n } ) ซึ่งจะทำให้แย่ลงไปอีก อย่างไรก็ตาม บางกรณีพิเศษสูงสุด ที่มีประสิทธิภาพวิธีการ agglomerative ( ความซับซ้อน { displaystyle O ( n ^ { 2 } ) } { displaystyle O ( n ^ { 2 } ) } ) ว่า : สลิง [ 2 ] เดี่ยวการเชื่อมโยงและกริ๊ง [ 3 ] เพื่อเชื่อมโยงข้อมูลที่สมบูรณ์ .เนื้อหา [ ซ่อน ]1 กลุ่มจะ1.1 เมตริก1.2 ค่าเกณฑ์2 การอภิปราย3 agglomerative การจัดกลุ่มตัวอย่าง4 แบ่งการจัดกลุ่ม5 ซอฟต์แวร์5.1 เปิดแหล่งที่มาของระบบ5.2 พาณิชย์6 ดู7 อ้างอิงอ่าน 8 เพิ่มเติมกลุ่มจะ [ แก้ไข ]เพื่อที่จะตัดสินใจ ซึ่งกลุ่มควรจะรวม ( สำหรับ agglomerative ) หรือที่กลุ่มควรจะแยก ( แบ่ง ) , วัดความแตกต่างระหว่างชุดของการสังเกตที่ถูกต้อง ในวิธีการส่วนใหญ่ของการจัดกลุ่มลำดับชั้น นี้ได้โดยการใช้ที่เหมาะสมของตัวชี้วัด ( วัดระยะห่างระหว่างคู่ของการสังเกต ) และการเชื่อมโยงเกณฑ์ซึ่งกำหนดความแตกต่างของชุดเป็นฟังก์ชันของระยะทางคู่ของตัวอย่างในชุดระบบเมตริก [ แก้ไข ]ข้อมูลเพิ่มเติม : เมตริก ( คณิตศาสตร์ )ทางเลือกของตัวชี้วัดที่เหมาะสมจะมีผลต่อรูปร่างของกลุ่มเป็นองค์ประกอบบางอย่างอาจจะใกล้กัน ตามระยะทางที่ไกลจากหนึ่งไปยังอีก . ตัวอย่างเช่น ในพื้นที่ 2 มิติ ระยะทางระหว่างจุด ( 1,0 ) และที่มา ( 0,0 ) เป็น 1 เสมอ ตามกฎเกณฑ์ปกติ แต่ระยะห่างระหว่างจุด ( 1 , 1 ) และที่มา ( 0,0 ) สามารถ 2 ในแมนฮัตตันระยะทาง displaystyle scriptstyle { { { 2 } } } scriptstyle SQRT { { 2 } } ภายใต้ SQRT ระยะทางแบบยุคลิด หรือ 1 ภายใต้ระยะทางสูงสุดบางคนนิยมใช้วัดสำหรับการจัดกลุ่มลำดับชั้น : [ 5 ]ชื่อสูตรระยะทางแบบยุคลิด { displaystyle | A-B | _ { 2 } = { { { ผม } ผลรวม _ SQRT ( a_ { i } - b_ { ผม } ^ { 2 } } } } | A-B | _ { 2 } = { { { ผม } ผลรวม _ SQRT ( a_ { ผม } { ฉัน } - b_ ) ^ { 2 } } }ยกกำลังสองระยะทางแบบยุคลิด { displaystyle | A-B | _ { 2 } ^ { 2 } = ผลรวม _ { ผม } ( a_ { i } - b_ { ผม } ^ { 2 } } | A-B | _ { 2 } ^ { 2 } = ผลรวม _ { ผม } ( a_ { i } - b_ { ฉัน } ^ { 2 }แมนฮัตตันระยะทาง { displaystyle | A-B | _ { 1 } { ฉัน } = ผลรวม _ | a_ { ผม } { ฉัน } } - b_ | | A-B | _ { 1 } { ฉัน } = ผลรวม _ | a_ { ผม } { ฉัน } - b_ |ระยะห่างสูงสุด { displaystyle | A-B | _ { infty } { ฉัน } = แม็กซ์ _ | a_ { ผม } { ฉัน } } - b_ | | A-B | _ { infty } { ฉัน } = แม็กซ์ _ | a_ { ผม } { ฉัน } - b_ |{ { { mahalanobis ระยะทาง displaystyle SQRT ( A-B ) ^ { } ^ { - s OP 1 } ( A-B ) } } } { { SQRT ( A-B ) ^ { { ที่ } } { { - S ^ 1 } } ( A-B ) } } ที่เป็นเมทริกซ์ความแปรปรวนร่วมข้อความหรืออื่นๆที่ไม่ใช่ตัวเลข ข้อมูล ตัวชี้วัด เช่น แฮม หรือ levenshtein ระยะทางระยะทางมักจะใช้ทบทวนการวิเคราะห์คลัสเตอร์วิจัยจิตวิทยาสุขภาพ พบว่า ส่วนใหญ่วัดระยะห่างในการเผยแพร่การศึกษาวิจัยพื้นที่เป็นระยะทางแบบยุคลิดหรือยกกำลังสองระยะทางแบบยุคลิด . [ อ้างอิงที่จำเป็น ]โดยเกณฑ์ [ แก้ไข ]ค่าเกณฑ์กำหนดระยะห่างระหว่างชุดของค่าสังเกตเป็นฟังก์ชันของระยะทางคู่ระหว่างการสังเกตบางคนมักใช้เกณฑ์ที่เชื่อมโยงระหว่างสองชุดของค่า A และ B : [ 5 ] [ 6 ]ชื่อสูตรสูงสุดหรือการเชื่อมโยงข้อมูลสมบูรณ์ { displaystyle แม็กซ์ , { , D ( A , B ) : Ain , บิน B , } . } Max , { , D ( A , B ) : Ain , บิน B , }ขั้นต่ำหรือการเชื่อมโยงข้อมูลเดียว { displaystyle มิน { , D ( A , B ) : Ain , บิน B , } . } มิน { , D ( A , B ) : Ain , บิน B , }หมายถึงการเชื่อมโยงหรือมีข้อมูลหรือวิธี displaystyle frac { { { 1 } { | เป็น | | B | } } ผลรวม _ { มันเป็น } { b } ผลรวม _ บิน D ( A , B ) } { frac { 1 } { | เป็น | | B | } } { { จะเป็น _ ผลรวม } } { { ผลรวม _ บิน B } } D ( A , B )เซนทรอยด์เชื่อมโยงข้อมูลหรือ upgmc { displaystyle | c_ { S } - c_ { T } } { displaystyle | | c_ { S } - c_ { T } | } ที่ { displaystyle c_ { S } } { S } { displaystyle c_ และ c_ { T } } c_ { T } เป็นจุดเซนทรอยด์ของกลุ่มของ และ T ตามลำดับ
การแปล กรุณารอสักครู่..
