The goal is to partition a set of r

The goal is to partition a set of records into groups such that records within a group are similar to each other and records that belong to two different groups are dissimilar. Each such group is called a cluster and each record belongs to exactly one cluster.1 Similarity between records is measured computationally by a distance function. A distance function takes two input records and returns a value that is a measure of their similarity. Different applications have different notions of similarity and there is no one measure that works for all domains.

As an example, consider the schema of the CustomerInfo view:

CustomerInfo(age: int, salary: real)

The two coordinates of a record are the values of the record's salary and age fields. We can visually identify three clusters: Young customers who have low salaries, young customers with high salaries, and older customers with high salaries. Usually, the output of a clustering algorithm consists of a summarized representation of each cluster. The type of summarized representation depends strongly on the type and shape of clusters the algorithm computes. For example, assume that we have spherical clusters as in the example shown in Figure 24.12. We can summarize each cluster by its center (often also called the mean) and its radius which are dened as follows. Given a collection of records r1,r2......rn , their center C and radius R are defined as follows:

There are two types of clustering algorithms. A partitional clustering algorithm partitions the data into k groups such that some criterion that evaluates the clustering quality is optimized. The number of clusters k is a parameter whose value is specfied by the user. A hierarchical clustering algorithm generates a sequence of partitions of the records. Starting with a partition in which each cluster consists of one single record, the algorithm merges two partitions in each step until only one single partition remains in the end.

As an example, consider the schema of the CustomerInfo view:

CustomerInfo(age: int, salary: real)

The two coordinates of a record are the values of the record's salary and age fields. We can visually identify three clusters: Young customers who have low salaries, young customers with high salaries, and older customers with high salaries. Usually, the output of a clustering algorithm consists of a summarized representation of each cluster. The type of summarized representation depends strongly on the type and shape of clusters the algorithm computes. For example, assume that we have spherical clusters as in the example shown in Figure 24.12. We can summarize each cluster by its center (often also called the mean) and its radius which are dened as follows. Given a collection of records r1,r2......rn , their center C and radius R are defined as follows:

There are two types of clustering algorithms. A partitional clustering algorithm partitions the data into k groups such that some criterion that evaluates the clustering quality is optimized. The number of clusters k is a parameter whose value is specfied by the user. A hierarchical clustering algorithm generates a sequence of partitions of the records. Starting with a partition in which each cluster consists of one single record, the algorithm merges two partitions in each step until only one single partition remains in the end.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

เป้าหมายคือการ แบ่งพาร์ติชันชุดของระเบียนเป็นกลุ่มเช่นให้ระเบียนภายในกลุ่มจะคล้ายคลึงกัน และเรกคอร์ดที่เป็นของสองกลุ่มแตกต่างกันไม่เหมือน แต่ละกลุ่มดังกล่าวเรียกว่าคลัสเตอร์ และแต่ละระเบียนอยู่ใน cluster.1 หนึ่งที่คล้ายคลึงระหว่างเรกคอร์ดเป็นวัด computationally ฟังก์ชันระยะทาง ฟังก์ชันระยะเวลาสองเรกคอร์ดที่นำเข้า และส่งกลับค่าที่วัดความคล้ายคลึงกันของพวกเขา ต่างมีความเข้าใจแตกต่างกันของความคล้ายคลึงกัน และมีวัดหนึ่งไม่ทำงานสำหรับโดเมนทั้งหมด

เป็นตัวอย่าง พิจารณาเค้าร่างมุมมอง CustomerInfo:

CustomerInfo (อายุ: int เงินเดือน: จริง)

พิกัดสองของเรกคอร์ดเป็นค่าเงินเดือนของระเบียนและเขตข้อมูลอายุ เราสามารถเห็นระบุคลัสเตอร์ 3: ลูกค้าหนุ่มสาวที่มีเงินเดือนต่ำ ลูกค้าหนุ่มสาว มีเงินเดือนสูง และลูกค้าเก่าที่ มีเงินเดือนสูงได้ ปกติ ของอัลกอริทึมระบบคลัสเตอร์ประกอบด้วยการแสดงสรุปของแต่ละคลัสเตอร์ ชนิดของการนำเสนอสรุปขึ้นอยู่อย่างยิ่งกับชนิดและรูปร่างของอัลกอริทึมการคำนวณคลัสเตอร์ ตัวอย่าง สมมติว่า เรามีคลัสเตอร์ทรงกลมตัวอย่างแสดงในรูป 24.12 เราสามารถสรุปแต่ละคลัสเตอร์ โดยจุดศูนย์กลางที่ (มักเรียกว่ามัชฌิม) และรัศมีความดัง dened กำหนดชุดของระเบียน r1, r2... rn ของศูนย์ C และรัศมี R ถูกกำหนดเป็นดังนี้:

มีสองชนิดคืออัลกอริทึมระบบคลัสเตอร์ ขั้นตอนวิธีระบบคลัสเตอร์ partitional กั้นข้อมูลเป็น k กลุ่มที่สุดบางเกณฑ์ที่ประเมินคุณภาพระบบคลัสเตอร์ จำนวนกลุ่ม k คือ พารามิเตอร์มีค่าเป็น specfied โดยผู้ใช้ อัลกอริทึมเป็นลำดับชั้นระบบคลัสเตอร์สร้างลำดับของพาร์ติชันของเรกคอร์ด เริ่มต้น ด้วยพาร์ติชันแต่ละคลัสเตอร์ประกอบด้วยระเบียนหนึ่งเดียว อัลกอริทึมการผสานพาร์ทิชันที่สองในแต่ละขั้นตอนจนเหลือเพียงหนึ่งพาร์ติชันเดียวในสุด

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

เป้าหมายคือการแบ่งพาร์ติชันชุดระเบียนเป็นกลุ่มดังกล่าวที่บันทึกอยู่ในกลุ่มที่มีความคล้ายคลึงกันและมีการบันทึกที่อยู่ในทั้งสองกลุ่มที่แตกต่างกันจะแตกต่างกัน แต่ละกลุ่มดังกล่าวเรียกว่าคลัสเตอร์และแต่ละระเบียนเป็นสิ่งที่คล้ายคลึงกัน cluster.1 หนึ่งระหว่างระเบียนคอมพิวเตอร์เป็นวัดโดยการทำงานระยะไกล ฟังก์ชั่นระยะเวลาสองบันทึกเข้าและส่งกลับค่าที่เป็นตัวชี้วัดของความคล้ายคลึงกันของพวกเขา การใช้งานที่แตกต่างกันมีความคิดที่แตกต่างกันของความคล้ายคลึงกันและไม่มีมาตรการอย่างใดอย่างหนึ่งที่เหมาะกับทุกโดเมนเป็นตัวอย่างให้พิจารณาร่างของมุมมอง CustomerInfo: CustomerInfo (อายุ int เงินเดือน: จริง) พิกัดสองของการบันทึกเป็นค่า ของเงินเดือนและอายุฟิลด์ของระเบียน เราเห็นสามารถระบุสามกลุ่มลูกค้าหนุ่มสาวที่มีเงินเดือนต่ำลูกค้าหนุ่มสาวที่มีเงินเดือนสูงและลูกค้าเก่าที่มีเงินเดือนสูง โดยปกติการส่งออกของขั้นตอนวิธีการจัดกลุ่มประกอบด้วยการแสดงสรุปของแต่ละกลุ่ม ประเภทของการแสดงสรุปค่าขึ้นอยู่กับชนิดและรูปร่างของกลุ่มขั้นตอนวิธีการคำนวณ ตัวอย่างเช่นสมมติว่าเรามีกลุ่มทรงกลมในขณะที่ตัวอย่างที่แสดงในรูปที่ 24.12 เราสามารถสรุปแต่ละกลุ่มโดยศูนย์ (มักจะเรียกว่าเฉลี่ย) และรัศมีของที่ dened ดังต่อไปนี้ ให้เก็บบันทึก r1, r2 ...... rn ศูนย์ของพวกเขา C และรัศมี R ที่กำหนดไว้ดังต่อไปนี้มีสองประเภทของขั้นตอนวิธีการจัดกลุ่มเป็น ขั้นตอนวิธีการจัดกลุ่ม partitional พาร์ติชันข้อมูลลงในกลุ่ม k ดังกล่าวว่าเกณฑ์ที่ประเมินคุณภาพการจัดกลุ่มบางคนได้รับการปรับปรุง จำนวนของกลุ่ม k เป็นพารามิเตอร์ที่มีค่าเป็น specfied โดยผู้ใช้ ขั้นตอนวิธีการจัดกลุ่มตามลำดับชั้นลำดับของการสร้างพาร์ทิชันของระเบียน เริ่มต้นด้วยพาร์ทิชันที่แต่ละกลุ่มประกอบด้วยบันทึกหนึ่งเดียวขั้นตอนวิธีการผสานสองพาร์ทิชันในแต่ละขั้นตอนจนเหลือเพียงหนึ่งพาร์ทิชันเดียวที่ยังคงอยู่ในท้ายที่สุด

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

เป้าหมายคือการแบ่งชุดของระเบียนลงในกลุ่มดังกล่าวที่บันทึกภายในกลุ่มมีลักษณะคล้ายคลึงกับแต่ละอื่น ๆและบันทึกไว้ว่าเป็นสองกลุ่มที่แตกต่างกันจะแตกต่างกัน . แต่ละกลุ่มเรียกว่ากลุ่มดังกล่าว และแต่ละระเบียนเป็นของอีกหนึ่งกลุ่ม ที่ 1 ความคล้ายคลึงระหว่างประวัติวัด computationally ด้วยระยะทางฟังก์ชันระยะการทำงานใช้เวลาสองใส่ประวัติและส่งกลับค่าที่วัดความคล้ายคลึงกันของพวกเขา การใช้งานที่แตกต่างกันมีความคิดที่แตกต่างกันของความเหมือน และไม่มีมาตรการหนึ่งที่ใช้ได้กับทุกโดเมน .

เป็นตัวอย่างให้พิจารณารูปแบบของมุมมอง customerinfo :

customerinfo ( อายุ : 1 เงินเดือน : จริง )

สองพิกัดของบันทึกค่าของเงินเดือนของระเบียนและเขตข้อมูลอายุ เราสามารถมองเห็นระบุสามกลุ่ม ลูกค้าหนุ่มที่ได้เงินเดือนต่ำ ลูกค้าหนุ่มที่มีเงินเดือนสูง และลูกค้าเก่าที่มีเงินเดือนสูง โดยปกติแล้ว ผลลัพธ์ของอัลกอริทึมประกอบด้วยข้อมูลสรุปการเป็นตัวแทนของแต่ละกลุ่มสรุปประเภทของการแสดงยังขึ้นอยู่กับชนิดและรูปร่างของกลุ่มชุดคำสั่งคอมพิวเตอร์ ตัวอย่างเช่น สมมติว่าเรามีกลุ่มทรงกลมเหมือนในตัวอย่างที่แสดงในรูปเดียวก . เราสามารถสรุปแต่ละกลุ่มโดยศูนย์ ( มักเรียกว่าหมายถึง ) และรัศมีที่ dened ดังนี้ ได้รับชุดของระเบียน R1 , R2 . . . . . . . RN ,ของ ศูนย์ ซี และ รัศมี R มีดังนี้ :

มีสองประเภทของการจัดกลุ่มขั้นตอนวิธี เป็น partitional ขั้นตอนวิธีการจัดกลุ่มข้อมูลในพาร์ทิชันของกลุ่มดังกล่าวบางเกณฑ์ประเมินคุณภาพ ที่สามารถปรับให้เหมาะสม จำนวนของกลุ่ม K คือตัวแปรที่มีค่าเป็น specfied โดยผู้ใช้มีการจัดกลุ่มลำดับชั้นขั้นตอนวิธีการสร้างลำดับของพาร์ทิชันของระเบียน เริ่มด้วย ฉากกั้นห้อง ซึ่งในแต่ละกลุ่มประกอบด้วยเตียงเดี่ยวหนึ่งบันทึก , ขั้นตอนวิธีผสานสองพาร์ทิชันในแต่ละขั้นตอนจนเดียว พาร์ทิชันที่ยังคงอยู่ในตอนท้าย

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.