Partitioning a large set of objects

Partitioning a large set of objects into homogeneous clusters is a
fundamental operation in data mining. The k-means algorithm is
best suited for implementing this operation because of its
efficiency in clustering large data sets. However, working only on
numeric values limits its use in data mining because data sets in
data mining often contain categorical values. In this paper we
present an algorithm, called k-modes, to extend the k-means
paradigm to categorical domains. We introduce new dissimilarity
measures to deal with categorical objects, replace means of
clusters with modes, and use a frequency based method to update
modes in the clustering process to minimise the clustering cost
function. Tested with the well known soybean disease data set
the algorithm has demonstrated a very good classification
performance. Experiments on a very large health insurance data
set consisting of half a million records and 34 categorical
attributes show that the algorithm is scalable in terms of both the
number of clusters and the number of records.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

Partitioning a large set of objects into homogeneous clusters is afundamental operation in data mining. The k-means algorithm isbest suited for implementing this operation because of itsefficiency in clustering large data sets. However, working only onnumeric values limits its use in data mining because data sets indata mining often contain categorical values. In this paper wepresent an algorithm, called k-modes, to extend the k-meansparadigm to categorical domains. We introduce new dissimilaritymeasures to deal with categorical objects, replace means ofclusters with modes, and use a frequency based method to updatemodes in the clustering process to minimise the clustering costfunction. Tested with the well known soybean disease data setthe algorithm has demonstrated a very good classificationperformance. Experiments on a very large health insurance dataset consisting of half a million records and 34 categoricalattributes show that the algorithm is scalable in terms of both thenumber of clusters and the number of records.

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

แบ่งเป็นชุดใหญ่ของวัตถุลงในกลุ่มที่เป็นเนื้อเดียวกันคือการดำเนินงานพื้นฐานในการทำเหมืองข้อมูล อัลกอริทึม k หมายถึงเป็นที่เหมาะสมที่สุดสำหรับการดำเนินการดำเนินการนี้เนื่องจากการที่มีประสิทธิภาพในการจัดกลุ่มชุดข้อมูลขนาดใหญ่ อย่างไรก็ตามการทำงานเฉพาะในค่าตัวเลข จำกัด การใช้งานในการทำเหมืองข้อมูลเพราะชุดข้อมูลในการทำเหมืองข้อมูลมักจะมีค่าเด็ดขาด ในบทความนี้เรานำเสนอขั้นตอนวิธีการที่เรียกว่าโหมด k เพื่อขยาย k หมายถึงกระบวนทัศน์โดเมนเด็ดขาด เราแนะนำความแตกต่างใหม่มาตรการที่จะจัดการกับวัตถุเด็ดขาดเปลี่ยนวิธีการของกลุ่มด้วยโหมดและใช้ความถี่วิธีการที่ใช้ในการปรับปรุงรูปแบบในขั้นตอนการจัดกลุ่มเพื่อลดค่าใช้จ่ายในการจัดกลุ่มฟังก์ชั่น ผ่านการทดสอบกับข้อมูลโรคถั่วเหลืองที่รู้จักกันดีที่กำหนดขั้นตอนวิธีการได้แสดงให้เห็นถึงการจัดหมวดหมู่ที่ดีมากประสิทธิภาพ การทดลองในการประกันสุขภาพที่มีขนาดใหญ่มากข้อมูลชุดประกอบด้วยครึ่งล้านแผ่นและ 34 เด็ดขาดคุณลักษณะที่แสดงให้เห็นว่าอัลกอริทึมสามารถปรับได้ในแง่ของทั้งสองจำนวนกลุ่มและจำนวนของระเบียน

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

จัดชุดใหญ่ของวัตถุที่เป็นเนื้อเดียวกันกลุ่มเป็น
ปฏิบัติการพื้นฐานของการทำเหมืองข้อมูล การ k-means ขั้นตอนวิธีที่ดีที่สุดเหมาะสำหรับการใช้งานนี้

เพราะประสิทธิภาพในการจัดกลุ่มข้อมูลขนาดใหญ่ชุด อย่างไรก็ตาม การทำงานเฉพาะใน
ค่าตัวเลขจำกัดการใช้ในการทำเหมืองข้อมูล เพราะข้อมูลใน
การทำเหมืองข้อมูลมักจะประกอบด้วยค่าเป็นเด็ดขาด ในกระดาษนี้เรา
ใช้วิธีที่เรียกว่า k-modes เพื่อขยาย k-means
กระบวนทัศน์เพื่อโดเมนเป็นเด็ดขาด เราแนะนำมาตรการใหม่ที่จะจัดการกับความแตกต่าง

หมายความว่าวัตถุอย่างแท้จริง แทนของกลุ่มที่มีโหมด และใช้วิธีความถี่ขึ้นอยู่กับการปรับปรุง
โหมดในการจัดกลุ่มการจัดกลุ่มกระบวนการเพื่อลดต้นทุน
ฟังก์ชัน ทดสอบกับชุดข้อมูล
ถั่วเหลืองโรคที่รู้จักกันดีขั้นตอนวิธีนี้ได้แสดงให้เห็นประสิทธิภาพการจำแนก
ดีมาก การทดลองเกี่ยวกับประกันสุขภาพ ข้อมูลที่มีขนาดใหญ่มากประกอบด้วย
ตั้งครึ่งล้านระเบียน และ 34 เด็ดขาด
คุณลักษณะแสดงให้เห็นว่าวิธีการยืดหยุ่นในแง่ของทั้ง
จำนวนกลุ่มและจำนวนของระเบียน

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.