A number of issues with clustering

A number of issues with clustering algorithms have resulted in them being less
widely used in practice than classification algorithms. These issues include the
computational costs, as well as the difficulty of interpreting and evaluating the
clusters. Clustering has been used in a number of search engines for organizing
the results, as we discussed in section 6.3.3. There are very few results for a search
compared to the size of the document collection, so the efficiency of clustering is
less of a problem. Clustering is also able to discover structure in the result set for
arbitrary queries that would not be possible with a classification algorithm.
Topic modeling, which we discussed in section 7.6.2, can also be viewed as
an application of clustering with the goal of improving the ranking effectiveness
of the search engine. In fact, most of the information retrieval research involving
clustering has focused on this goal. The basis for this research is the well-known
cluster hypothesis. As originally stated by van Rijsbergen (1979), the cluster hypothesis
is:
Closely associated documents tend to be relevant to the same requests.
Note that this hypothesis doesn’t actually mention clusters. However, “closely associated”
or similar documents will generally be in the same cluster. So the hypothesis
is usually interpreted as saying that documents in the same cluster tend
to be relevant to the same queries.
Two different tests have been used to verify whether the cluster hypothesis
holds for a given collection of documents. The first compares the distribution of
similarity scores for pairs of relevant documents (for a set of queries) to the distribution
for pairs consisting of a non-relevant and a relevant document. If the
cluster hypothesis holds, we might expect to see a separation between these two
distributions. On some smaller corpora, such as the CACM corpus mentioned

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

จำนวนปัญหาด้วยอัลกอริทึมคลัสเตอร์ทำให้พวกเขามีน้อยใช้แพร่หลายในทางปฏิบัติกว่าอัลกอริทึมการจำแนกประเภท ปัญหาเหล่านี้รวมถึงการคำนวณค่าใช้จ่าย เป็นความยากของการตีความ และประเมินการคลัสเตอร์ คลัสเตอร์ถูกใช้ในจำนวนของเครื่องมือค้นหาการจัดระเบียบผล เรากล่าวไว้ในส่วน 6.3.3 มีผลน้อยมากสำหรับการค้นหาเมื่อเทียบกับขนาดของคอลเลกชันเอกสาร ดังนั้นประสิทธิภาพของคลัสเตอร์คือน้อยมีปัญหา คลัสเตอร์ก็สามารถที่จะค้นพบโครงสร้างในชุดสำหรับผลลัพธ์แบบสอบถามที่กำหนดที่เป็นไปไม่ได้กับอัลกอริทึมการจำแนกประเภทนอกจากนี้ยังสามารถดูหัวข้อการสร้างโมเดล ซึ่งเรากล่าวถึงในส่วน 7.6.2 เป็นโปรแกรมประยุกต์ของคลัสเตอร์มีเป้าหมายในการปรับปรุงประสิทธิภาพการจัดอันดับเครื่องมือค้นหา ในความเป็นจริง ส่วนใหญ่ของการเรียกข้อมูลงานวิจัยที่เกี่ยวข้องกับคลัสเตอร์เน้นเป้าหมายนี้ ข้อมูลพื้นฐานสำหรับการวิจัยครั้งนี้เป็นรู้จักสมมติฐานของคลัสเตอร์ ระบุไว้ว่า โดย van Rijsbergen (1979), สมมติฐานคลัสเตอร์คือ:เอกสารที่เกี่ยวข้องอย่างใกล้ชิดมีแนวโน้มที่ จะเกี่ยวข้องกับการร้องขอเดียวกันหมายเหตุว่า สมมุติฐานนี้ไม่จริงพูดถึงคลัสเตอร์ อย่างไรก็ตาม อย่างใกล้ชิดร่วม"หรือเอกสารที่คล้ายกันโดยทั่วไปจะให้ใช้ในคลัสเตอร์เดียวกัน ดังนั้นสมมติฐานมักจะมีการตีความคำว่า เอกสารในคลัสเตอร์เดียวกันมีแนวโน้มจะเกี่ยวข้องกับการสอบถามเดียวกันมีการใช้การทดสอบที่แตกต่างกันสองเพื่อตรวจสอบว่า สมมติฐานคลัสเตอร์ถือสำหรับคอลเลกชันที่กำหนดของเอกสาร ครั้งแรกเปรียบเทียบการกระจายของคะแนนความคล้ายคลึงกันสำหรับคู่ของเอกสารที่เกี่ยวข้อง (สำหรับชุดของแบบสอบถาม) การแจกสำหรับคู่ไม่ใช่ที่เกี่ยวข้องและเอกสารที่เกี่ยวข้อง ถ้าการคลัสเตอร์สมมติฐานเก็บ เราอาจจะเห็นแยกระหว่างสองคนนี้การกระจาย บนซีกบางเล็กลง เช่น corpus CACM กล่าวถึง

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

จำนวนของปัญหากับขั้นตอนวิธีการจัดกลุ่มที่มีผลในพวกเขาจะถูกน้อย
ใช้กันอย่างแพร่หลายในทางปฏิบัติกว่าขั้นตอนวิธีการจัดหมวดหมู่ ปัญหาเหล่านี้รวมถึง
ค่าใช้จ่ายในการคำนวณเช่นเดียวกับความยากลำบากในการตีความและการประเมินผลที่
กลุ่ม การจัดกลุ่มได้ถูกนำมาใช้ในจำนวนของเครื่องมือค้นหาสำหรับการจัดระเบียบ
ผลที่เรากล่าวถึงในส่วน 6.3.3 มีผลน้อยมากสำหรับการค้นหาเป็น
เมื่อเทียบกับขนาดของการเก็บรวบรวมเอกสารเพื่อประสิทธิภาพของการจัดกลุ่มเป็น
น้อยของปัญหา Clustering ยังสามารถที่จะค้นพบโครงสร้างในผลการตั้งค่าสำหรับ
คำสั่งโดยพลการไม่ว่าจะเป็นไปได้ด้วยขั้นตอนวิธีการจัดหมวดหมู่.
การสร้างแบบจำลองหัวข้อที่เรากล่าวถึงในส่วน 7.6.2 ยังสามารถมองได้ว่า
การประยุกต์ใช้การจัดกลุ่มที่มีเป้าหมายในการปรับปรุงด้วย ประสิทธิภาพการจัดอันดับ
ของเครื่องมือค้นหา ในความเป็นจริงมากที่สุดของการวิจัยการดึงข้อมูลที่เกี่ยวข้องกับ
การจัดกลุ่มได้มุ่งเน้นเป้าหมายนี้ พื้นฐานสำหรับการวิจัยครั้งนี้เป็นที่รู้จักกันดี
สมมติฐานคลัสเตอร์ ตามที่ระบุไว้เดิมโดยรถตู้ Rijsbergen (1979) สมมติฐานคลัสเตอร์
คือ
เอกสารที่เกี่ยวข้องอย่างใกล้ชิดมีแนวโน้มที่จะมีความเกี่ยวข้องกับการร้องขอเดียวกัน.
โปรดทราบว่าสมมติฐานนี้ไม่จริงพูดถึงกลุ่ม อย่างไรก็ตาม "ที่เกี่ยวข้องอย่างใกล้ชิด"
หรือเอกสารที่คล้ายกันโดยทั่วไปจะอยู่ในคลัสเตอร์เดียวกัน ดังนั้นสมมติฐานที่
มักจะถูกตีความว่าเป็นเอกสารในคลัสเตอร์เดียวกันมีแนวโน้มที่
จะเกี่ยวข้องกับคำสั่งเดียวกัน.
สองการทดสอบที่แตกต่างกันได้ถูกนำมาใช้เพื่อตรวจสอบว่าสมมติฐานคลัสเตอร์
ถือสำหรับคอลเลกชันที่กำหนดของเอกสาร ครั้งแรกที่เปรียบเทียบการกระจายของ
คะแนนความคล้ายคลึงกันสำหรับคู่ของเอกสารที่เกี่ยวข้อง (สำหรับชุดของคำสั่ง) เพื่อกระจาย
คู่ประกอบด้วยที่ไม่เกี่ยวข้องและเอกสารที่เกี่ยวข้อง หาก
สมมติฐานคลัสเตอร์ถือเราอาจจะคาดว่าจะเห็นการแยกระหว่างทั้งสอง
กระจาย ในบาง corpora ขนาดเล็กเช่นคลัง CACM ดังกล่าว

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

จำนวนของปัญหาที่มีการจัดกลุ่มขั้นตอนวิธีมีผลในการน้อยลงใช้กันอย่างแพร่หลายในการปฏิบัติมากกว่าขั้นตอนวิธีการจำแนก ปัญหาเหล่านี้ได้แก่ค่าใช้จ่ายในการคำนวณ ตลอดจนความยากของการตีความและการประเมินผลกลุ่ม สามารถถูกใช้ในหมายเลขของเครื่องมือค้นหา จัดระเบียบผลลัพธ์ที่เรากล่าวถึงในส่วน 6.3.3 . มีผลน้อยมากสำหรับการค้นหาเมื่อเทียบกับขนาดของเอกสารคอลเลกชัน ดังนั้นประสิทธิภาพของ clustering คือน้อยของปัญหา การจัดกลุ่มยังสามารถค้นพบโครงสร้างในการตั้งค่าสำหรับเปิดแบบสอบถามที่จะเป็นไปได้ด้วยการจำแนกขั้นตอนวิธีแบบหัวข้อที่เรากล่าวถึงในส่วน 7.6.2 ยังสามารถดูเป็นการแบ่งกลุ่มโดยมีเป้าหมายในการปรับปรุงประสิทธิภาพการจัดอันดับของเครื่องมือค้นหา ในความเป็นจริงมากที่สุดของการสืบค้นงานวิจัยที่เกี่ยวข้องกับการจัดกลุ่มจะเน้นเป้าหมายนี้ พื้นฐานสำหรับการวิจัยนี้ เป็น ที่รู้จักกันดีสมมติฐานของกลุ่ม เป็นครั้งแรกที่ระบุโดยรถตู้ rijsbergen ( 1979 ) , กลุ่มสมมติฐานคือ :อย่างใกล้ชิดเอกสารมีแนวโน้มที่จะเกี่ยวข้องกับการร้องขอเดียวกันทราบว่าสมมติฐานนี้ไม่ได้จริง ๆ พูดถึงกลุ่ม อย่างไรก็ตาม " อย่างใกล้ชิด "หรือเอกสารที่คล้ายกันโดยทั่วไปจะอยู่ในกลุ่มเดียวกัน ดังนั้นสมมติฐานมักจะถูกตีความเป็นว่าเอกสารในกลุ่มเดียวกันมักจะจะเกี่ยวข้องกับคำถามเดียวกันสองการทดสอบที่แตกต่างกันจะถูกใช้เพื่อตรวจสอบว่าสมมติฐานของคลัสเตอร์ถือเพื่อให้คอลเลกชันของเอกสาร เปรียบเทียบการกระจายของแรกความเหมือนคะแนนคู่ของเอกสารที่เกี่ยวข้อง ( สำหรับชุดของแบบสอบถาม ) กระจายสำหรับคู่ประกอบด้วยไม่เกี่ยวข้อง และเอกสารที่เกี่ยวข้อง ถ้าสมมติฐาน กลุ่มเดิม เราอาจจะคาดหวังว่าจะเห็นการแยกระหว่างสองคนนี้การแจกแจง . ในคลังข้อมูลที่มีขนาดเล็กบาง เช่น cacm คอร์ปัส กล่าว

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.