Clustering is a very old problem an

Clustering is a very old problem and numerous algorithms have been developed to cluster a collection of records. Traditionally, the number of records in the input database was assumed to be relatively small and the complete database was assumed to t into main memory. In this section we describe a clustering algorithm called BIRCH that handles very large databases.

The design of BIRCH re�?ects the following two assumptions:

The number of records is potentially very large and therefore we want to make only one scan over the database. We have only a limited amount of main memory available.

A user can set two parameters to control the BIRCH

parameter is a threshold on the amount of main memory available. This main memory threshold translates into a maximum number of cluster summaries k that can be maintained in memory. The second parameter is an initial threshold for the radius of any cluster. The value of is an upper bound on the radius of any cluster and controls the number of clusters that the algorithm discovers. If

small, we discover many small clusters; if is large, we discover very few clusters, each of which is relatively large. We say that a cluster is compact if its radius is smaller than .BIRCH always maintains k or fewer cluster summaries (C i ;R i ) in main memory, where C i is the center of cluster i and R i is the radius of cluster The algorithm always maintains compact clusters, i.e., the radius of each cluster is less than . If this invariant cannot be maintained with the given amount of main memory, is increased as

The algorithm reads records from the database sequentially and processes them as follows:

The second step above presents a problem if we already have the maximum number of cluster summaries, k. If we now read a record that requires us to create a new cluster, we don't have the main memory required to hold its summary. In this case, we increase the radius threshold |using some heuristic to determine the increase|in order to merge existing clusters: An increase of

two consequences. First, existing clusters can accommodate `more' records, since their maximum radius has increased. Second, it might be possible to merge existing clusters such that the resulting cluster is still compact. Thus, an increase in

existing clusters. The complete BIRCH algorithm uses a balanced in-memory tree, which is similar to a B tree in structure, to quickly identify the closest cluster center for a new record.

The design of BIRCH re�?ects the following two assumptions:

The number of records is potentially very large and therefore we want to make only one scan over the database. We have only a limited amount of main memory available.

A user can set two parameters to control the BIRCH

parameter is a threshold on the amount of main memory available. This main memory threshold translates into a maximum number of cluster summaries k that can be maintained in memory. The second parameter is an initial threshold for the radius of any cluster. The value of is an upper bound on the radius of any cluster and controls the number of clusters that the algorithm discovers. If

small, we discover many small clusters; if is large, we discover very few clusters, each of which is relatively large. We say that a cluster is compact if its radius is smaller than .BIRCH always maintains k or fewer cluster summaries (C i ;R i ) in main memory, where C i is the center of cluster i and R i is the radius of cluster The algorithm always maintains compact clusters, i.e., the radius of each cluster is less than . If this invariant cannot be maintained with the given amount of main memory, is increased as

The algorithm reads records from the database sequentially and processes them as follows:

The second step above presents a problem if we already have the maximum number of cluster summaries, k. If we now read a record that requires us to create a new cluster, we don't have the main memory required to hold its summary. In this case, we increase the radius threshold |using some heuristic to determine the increase|in order to merge existing clusters: An increase of

two consequences. First, existing clusters can accommodate `more' records, since their maximum radius has increased. Second, it might be possible to merge existing clusters such that the resulting cluster is still compact. Thus, an increase in

existing clusters. The complete BIRCH algorithm uses a balanced in-memory tree, which is similar to a B tree in structure, to quickly identify the closest cluster center for a new record.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

คลัสเตอร์มีปัญหามาก และได้รับการพัฒนาอัลกอริทึมต่าง ๆ การคลัสเตอร์กลุ่มของระเบียน ประเพณี จำนวนของระเบียนในฐานข้อมูลป้อนเข้าได้ถือว่ามีขนาดค่อนข้างเล็ก และฐานข้อมูลทั้งหมดถูกถือว่า t เป็นหน่วยความจำหลัก ในส่วนนี้ เราอธิบายอัลกอริทึมระบบคลัสเตอร์เรียกว่าเบิร์ชที่จัดการฐานข้อมูลมีขนาดใหญ่มากด้วย

การออกแบบของเบิร์ชอีกครั้งects สมมติฐานสองต่อไปนี้:

จำนวนเรกคอร์ดที่เป็นอาจมาก และดังนั้น เราต้องทำการสแกนเดียวผ่านฐานข้อมูล เรามีเพียงจำนวนจำกัดของหน่วยความจำหลักได้

ผู้ใช้สามารถตั้งค่าพารามิเตอร์ที่สองจะควบคุมเบิร์ช

พารามิเตอร์เป็นขีดจำกัดยอดเงินของหน่วยความจำหลักได้ ขีดจำกัดของหน่วยความจำหลักนี้แปลเป็นจำนวน k สรุปคลัสเตอร์ที่สามารถเก็บในหน่วยความจำ พารามิเตอร์ที่สองคือ ขีดจำกัดการเริ่มต้นสำหรับรัศมีของคลัสเตอร์ใด ๆ ค่าของจะมีขอบเขตบนในรัศมีของคลัสเตอร์ใด ๆ และควบคุมจำนวนคลัสเตอร์ที่พบในอัลกอริทึม ถ้า

ขนาดเล็ก เราค้นพบคลัสเตอร์ขนาดเล็กมาก ถ้ามีขนาดใหญ่ เราค้นพบคลัสเตอร์น้อยมาก ซึ่งมีขนาดค่อนข้างใหญ่ เราบอกว่า คลัสเตอร์มีขนาดเล็กว่าเล็กกว่ารัศมีของเบิร์ชเสมอรักษา k หรือสรุปคลัสเตอร์น้อยลง (C iR ฉัน) ในหน่วยความจำหลัก ที่ C ฉันเป็นศูนย์กลางของคลัสเตอร์ R และฉันฉันคือรัศมีของอัลกอริทึมเสมอรักษากระชับคลัสเตอร์ เช่น รัศมีของคลัสเตอร์แต่ละคลัสเตอร์น้อยกว่า ถ้าบล็อกนี้ไม่สามารถรักษา ด้วยจำนวนหน่วยความจำหลักที่กำหนด จะเพิ่มขึ้นเป็น

อ่านระเบียนจากฐานข้อมูลตามลำดับขั้นตอนวิธีการ และกระบวนดัง:

ด้านบนของขั้นตอนที่สองนำเสนอปัญหาถ้าเรามีจำนวนของคลัสเตอร์สรุป คุณถ้าเราขณะอ่านระเบียนที่ทำให้เราต้องสร้างคลัสเตอร์ใหม่, เราไม่มีหน่วยความจำหลักที่ต้องถือเป็นบทสรุป ในกรณีนี้ เราเพิ่ม |using จำกัดรัศมีบาง heuristic เพื่อกำหนด increase|in ลำดับการผสานคลัสเตอร์ที่มีอยู่: การเพิ่มขึ้นของ

ลำดับสอง ครั้งแรก คลัสเตอร์ที่มีอยู่สามารถรองรับระเบียน 'เพิ่มเติม' เนื่องจากรัศมีของพวกเขาสูงขึ้นได้ ที่สอง มันอาจเป็นไปได้การรวมคลัสเตอร์ที่มีอยู่ให้เกิดคลัสเตอร์มีขนาดเล็กยัง ดังนั้น การเพิ่ม

คลัสเตอร์ที่มีอยู่ อัลกอริทึมเบิร์ชสมบูรณ์ใช้ต้นไม้ในสมดุล ซึ่งคล้ายกับต้นไม้ B ในโครงสร้าง ระบุตัวคลัสเตอร์สุดสำหรับเรกคอร์ดใหม่ได้อย่างรวดเร็ว

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

การจัดกลุ่มเป็นปัญหาเก่ามากและขั้นตอนวิธีการจำนวนมากได้รับการพัฒนาเพื่อการเก็บรวบรวมกลุ่มของระเบียน เดิมจำนวนของระเบียนในฐานข้อมูลของท่านได้รับการสันนิษฐานว่าจะเป็นขนาดที่ค่อนข้างเล็กและฐานข้อมูลที่สมบูรณ์ได้รับการสันนิษฐานว่าเป็น t หน่วยความจำหลัก ในส่วนนี้เราจะอธิบายขั้นตอนวิธีการจัดกลุ่มที่เรียกว่า BIRCH ที่จัดการฐานข้อมูลขนาดใหญ่มากการออกแบบของ BIRCH ใหม่ ECTS ต่อไปนี้สองสมมติฐาน: จำนวนของระเบียนที่อาจมีขนาดใหญ่มากและดังนั้นเราจึงต้องการที่จะทำเพียงหนึ่งสแกนผ่านฐานข้อมูล เรามีเพียงจำนวน จำกัด ของหน่วยความจำหลักที่มีผู้ใช้สามารถตั้งค่าพารามิเตอร์ที่สองในการควบคุม BIRCH พารามิเตอร์เป็นเกณฑ์อยู่กับปริมาณของหน่วยความจำที่มีอยู่ เกณฑ์หน่วยความจำหลักนี้แปลเป็นจำนวนสูงสุดของคลัสเตอร์สรุป k ที่สามารถรักษาในหน่วยความจำ พารามิเตอร์ที่สองคือเกณฑ์เริ่มต้นสำหรับรัศมีของกลุ่มใด ๆ ค่าของเป็นขอบเขตบนรัศมีของกลุ่มใด ๆ และการควบคุมจำนวนของกลุ่มที่ขั้นตอนวิธีการค้นพบ ถ้าขนาดเล็กเราค้นพบกลุ่มเล็ก ๆ จำนวนมาก ถ้ามีขนาดใหญ่เราพบน้อยมากที่กลุ่มแต่ละที่ค่อนข้างใหญ่ เราบอกว่ากลุ่มมีขนาดเล็กถ้ารัศมีมีขนาดเล็กกว่า BIRCH เสมอรักษา k หรือน้อยกว่าสรุปคลัสเตอร์ (C i; R i). ในหน่วยความจำหลักที่ C ฉันเป็นศูนย์กลางของกลุ่มผมและ R i เป็นรัศมีของคลัสเตอร์ ขั้นตอนวิธีการก็ยังคงเป็นกลุ่มที่มีขนาดกะทัดรัดคือรัศมีของแต่ละกลุ่มมีค่าน้อยกว่า ถ้าคงที่นี้จะไม่ได้รับการรักษาที่มีจำนวนที่กำหนดของหน่วยความจำหลักจะเพิ่มขึ้นเป็นขั้นตอนวิธีการอ่านข้อมูลจากลำดับฐานข้อมูลและประมวลผลได้ดังนี้ขั้นตอนที่สองดังกล่าวข้างต้นนำเสนอปัญหาถ้าเรามีจำนวนสูงสุดของการสรุปกลุ่ม k . ถ้าตอนนี้เราอ่านบันทึกที่เราต้องสร้างคลัสเตอร์ใหม่ที่เราไม่ได้มีหน่วยความจำหลักที่จำเป็นในการถือสรุป ในกรณีนี้เราเพิ่มเกณฑ์รัศมี | ใช้แก้ปัญหาบางอย่างในการตรวจสอบเพิ่มขึ้น | ในการสั่งซื้อที่จะรวมกลุ่มที่มีอยู่เพิ่มขึ้นสองผล ขั้นแรกให้กลุ่มที่มีอยู่สามารถรองรับได้มากขึ้น `'บันทึกตั้งแต่รัศมีสูงสุดของพวกเขาได้เพิ่มขึ้น ประการที่สองก็อาจจะเป็นไปได้ที่จะรวมกลุ่มที่มีอยู่ดังกล่าวว่ากลุ่มที่เกิดขึ้นยังคงเป็นที่มีขนาดกะทัดรัด ดังนั้นการเพิ่มขึ้นของกลุ่มที่มีอยู่ ขั้นตอนวิธีการ BIRCH สมบูรณ์ใช้ต้นไม้สมดุลในหน่วยความจำซึ่งจะคล้ายกับต้นไม้ B ในโครงสร้างได้อย่างรวดเร็วระบุศูนย์กลุ่มที่ใกล้เคียงที่สุดสำหรับการบันทึกใหม่

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

การจัดกลุ่มเป็นปัญหาเก่ามากและมากมายได้ถูกพัฒนาขึ้นเพื่อกลุ่มคอลเลกชันของระเบียน ตามธรรมเนียม , จำนวนของระเบียนในฐานข้อมูลป้อนก็ถือว่ามีขนาดค่อนข้างเล็ก และมีฐานข้อมูลที่สมบูรณ์ก็ถือว่าไม่เข้าไปในหน่วยความจำหลัก ในส่วนนี้เราจะอธิบายขั้นตอนวิธีการจัดกลุ่มเรียกไม้เรียวที่จัดการฐานข้อมูลขนาดใหญ่มาก

ออกแบบ�ไม้เรียวอีกครั้ง ?ผลต่อไปนี้สองสมมติฐาน :

จำนวนระเบียนอาจ ขนาดใหญ่มาก ดังนั้นเราจึงต้องการที่จะให้เพียงหนึ่งสแกนผ่านฐานข้อมูล ขณะนี้มีเพียงจำนวน จำกัด ของหน่วยความจำหลักใช้ได้

ผู้ใช้สามารถตั้งสองพารามิเตอร์การควบคุมไม้เรียว

เป็นค่าเกณฑ์จํานวนหน่วยความจําหลักที่มีอยู่หน่วยความจําหลักเกณฑ์นี้แปลเป็นเลขสูงสุดของกลุ่มสรุป K ที่สามารถเก็บรักษาไว้ในหน่วยความจำ พารามิเตอร์ตัวที่สองเป็นเกณฑ์เบื้องต้นสำหรับรัศมีของกลุ่ม ค่าขอบเขตบนของเป็นในรัศมีของกลุ่ม และกลุ่มควบคุมจำนวนที่ขั้นตอนวิธีการค้นพบ . ถ้า

เล็ก พบกลุ่มขนาดเล็กมาก ถ้าเป็นขนาดใหญ่เราพบน้อยมาก กลุ่ม ซึ่งแต่ละคนจะมีขนาดค่อนข้างใหญ่ เรากล่าวว่า กลุ่มมีขนาดเล็กถ้ารัศมีเล็กกว่า เบิร์ชเสมอรักษา K หรือสรุปกลุ่มน้อยลง ( C I ; R ) ในหน่วยความจำหลักที่ ซี ฉันเป็นศูนย์กลางของกลุ่มผมและ r เป็นรัศมีของกลุ่ม ขั้นตอนวิธีการเสมอรักษากลุ่มเล็ก คือ รัศมีของแต่ละกลุ่ม ไม่น้อยกว่าถ้าไม่แปลงนี้จะยังคงมีให้จำนวนหน่วยความจำหลัก คือ เพิ่มขึ้น

วิธีอ่านข้อมูลจากฐานข้อมูลและกระบวนการพวกเขาตามลำดับดังนี้

สองขั้นตอนข้างต้น เสนอปัญหา ถ้าเราได้จำนวนสูงสุดของกลุ่ม สรุป แล้ว เค ถ้าตอนนี้เราอ่านบันทึกที่กำหนดให้ สร้างกลุ่มใหม่เราไม่ได้มีหน่วยความจําหลักต้องถือของบทสรุป ในกรณีนี้เราเพิ่มรัศมีของ | ใช้ฮิวริสติกเพื่อศึกษาเพิ่ม | เพื่อผสานกลุ่มที่มีอยู่ : เพิ่ม

สองผล แรกกลุ่มที่มีอยู่สามารถรองรับ ` ' ประวัติ เนื่องจากรัศมีสูงสุดของพวกเขาได้เพิ่มขึ้น ประการที่สองมันอาจเป็นไปได้ที่จะผสานที่มีอยู่กลุ่มเช่นที่เป็นผลกลุ่มยังคงมีขนาดกะทัดรัด ดังนั้น การเพิ่ม

กลุ่มที่มีอยู่ ขั้นตอนวิธีใช้ไม้เรียวสมบูรณ์สมดุลในต้นไม้แห่งความทรงจำ ซึ่งจะคล้ายกับต้นไม้บีในโครงสร้างได้อย่างรวดเร็วระบุใกล้ศูนย์การบันทึกใหม่

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.