A number of issues with clustering

A number of issues with clustering algorithms have resulted in them being less
widely used in practice than classification algorithms. These issues include the
computational costs, as well as the difficulty of interpreting and evaluating the
clusters. Clustering has been used in a number of search engines for organizing
the results, as we discussed in section 6.3.3. There are very few results for a search
compared to the size of the document collection, so the efficiency of clustering is
less of a problem. Clustering is also able to discover structure in the result set for
arbitrary queries that would not be possible with a classification algorithm.
Topic modeling, which we discussed in section 7.6.2, can also be viewed as
an application of clustering with the goal of improving the ranking effectiveness
of the search engine. In fact, most of the information retrieval research involving
clustering has focused on this goal. The basis for this research is the well-known
cluster hypothesis. As originally stated by van Rijsbergen (1979), the cluster hypothesis
is:
Closely associated documents tend to be relevant to the same requests.
Note that this hypothesis doesn’t actually mention clusters. However, “closely associated”
or similar documents will generally be in the same cluster. So the hypothesis
is usually interpreted as saying that documents in the same cluster tend
to be relevant to the same queries.
Two different tests have been used to verify whether the cluster hypothesis
holds for a given collection of documents. The first compares the distribution of
similarity scores for pairs of relevant documents (for a set of queries) to the distribution
for pairs consisting of a non-relevant and a relevant document. If the
cluster hypothesis holds, we might expect to see a separation between these two
distributions. On some smaller corpora, such as the CACM corpus mentioned
in Chapter 8, this is indeed the case. If there were a number of clusters of relevant
documents, however, which were not similar to each other, then this test may
fail to show any separation. To address this potential problem, Voorhees (1985)
proposed a test based on the assumption that if the cluster hypothesis holds, relevant
documents would have high local precision, even if they were scattered in
many clusters. Local precision simply measures the number of relevant documents
found in the top five nearest neighbors for each relevant document.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

จำนวนปัญหาด้วยอัลกอริทึมคลัสเตอร์ทำให้พวกเขามีน้อยใช้แพร่หลายในทางปฏิบัติกว่าอัลกอริทึมการจำแนกประเภท ปัญหาเหล่านี้รวมถึงการคำนวณค่าใช้จ่าย เป็นความยากของการตีความ และประเมินการคลัสเตอร์ คลัสเตอร์ถูกใช้ในจำนวนของเครื่องมือค้นหาการจัดระเบียบผล เรากล่าวไว้ในส่วน 6.3.3 มีผลน้อยมากสำหรับการค้นหาเมื่อเทียบกับขนาดของคอลเลกชันเอกสาร ดังนั้นประสิทธิภาพของคลัสเตอร์คือน้อยมีปัญหา คลัสเตอร์ก็สามารถที่จะค้นพบโครงสร้างในชุดสำหรับผลลัพธ์แบบสอบถามที่กำหนดที่เป็นไปไม่ได้กับอัลกอริทึมการจำแนกประเภทนอกจากนี้ยังสามารถดูหัวข้อการสร้างโมเดล ซึ่งเรากล่าวถึงในส่วน 7.6.2 เป็นโปรแกรมประยุกต์ของคลัสเตอร์มีเป้าหมายในการปรับปรุงประสิทธิภาพการจัดอันดับเครื่องมือค้นหา ในความเป็นจริง ส่วนใหญ่ของการเรียกข้อมูลงานวิจัยที่เกี่ยวข้องกับคลัสเตอร์เน้นเป้าหมายนี้ ข้อมูลพื้นฐานสำหรับการวิจัยครั้งนี้เป็นรู้จักสมมติฐานของคลัสเตอร์ ระบุไว้ว่า โดย van Rijsbergen (1979), สมมติฐานคลัสเตอร์คือ:เอกสารที่เกี่ยวข้องอย่างใกล้ชิดมีแนวโน้มที่ จะเกี่ยวข้องกับการร้องขอเดียวกันหมายเหตุว่า สมมุติฐานนี้ไม่จริงพูดถึงคลัสเตอร์ อย่างไรก็ตาม อย่างใกล้ชิดร่วม"หรือเอกสารที่คล้ายกันโดยทั่วไปจะให้ใช้ในคลัสเตอร์เดียวกัน ดังนั้นสมมติฐานมักจะมีการตีความคำว่า เอกสารในคลัสเตอร์เดียวกันมีแนวโน้มจะเกี่ยวข้องกับการสอบถามเดียวกันมีการใช้การทดสอบที่แตกต่างกันสองเพื่อตรวจสอบว่า สมมติฐานคลัสเตอร์ถือสำหรับคอลเลกชันที่กำหนดของเอกสาร ครั้งแรกเปรียบเทียบการกระจายของคะแนนความคล้ายคลึงกันสำหรับคู่ของเอกสารที่เกี่ยวข้อง (สำหรับชุดของแบบสอบถาม) การแจกสำหรับคู่ไม่ใช่ที่เกี่ยวข้องและเอกสารที่เกี่ยวข้อง ถ้าการคลัสเตอร์สมมติฐานเก็บ เราอาจจะเห็นแยกระหว่างสองคนนี้การกระจาย บนซีกบางเล็กลง เช่น corpus CACM กล่าวถึงในบทที่ 8 เป็นจริงกรณีนี้ ถ้ามีจำนวนของกลุ่มที่เกี่ยวข้องเอกสาร อย่างไรก็ตาม ที่ไม่เหมือนกัน แล้วการทดสอบนี้อาจล้มเหลวในการแสดงแยกใด ๆ เพื่อแก้ปัญหานี้อาจเกิดขึ้น หา (1985)นำเสนอการทดสอบตามสมมติฐานที่ว่าถ้าถือสมมติฐานคลัสเตอร์ ที่เกี่ยวข้องเอกสารจะมีความแม่นยำสูงในท้องถิ่น แม้ว่าพวกเขากระจัดกระจายในกลุ่มหลาย แม่นยำภายในวัดเพียงแค่จำนวนของเอกสารที่เกี่ยวข้องพบในเพื่อนบ้านที่ใกล้ที่สุดห้าด้านบนสำหรับแต่ละเอกสารที่เกี่ยวข้อง

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

จำนวนของปัญหากับขั้นตอนวิธีการจัดกลุ่มที่มีผลในพวกเขาจะถูกน้อย
ใช้กันอย่างแพร่หลายในทางปฏิบัติกว่าขั้นตอนวิธีการจัดหมวดหมู่ ปัญหาเหล่านี้รวมถึง
ค่าใช้จ่ายในการคำนวณเช่นเดียวกับความยากลำบากในการตีความและการประเมินผลที่
กลุ่ม การจัดกลุ่มได้ถูกนำมาใช้ในจำนวนของเครื่องมือค้นหาสำหรับการจัดระเบียบ
ผลที่เรากล่าวถึงในส่วน 6.3.3 มีผลน้อยมากสำหรับการค้นหาเป็น
เมื่อเทียบกับขนาดของการเก็บรวบรวมเอกสารเพื่อประสิทธิภาพของการจัดกลุ่มเป็น
น้อยของปัญหา Clustering ยังสามารถที่จะค้นพบโครงสร้างในผลการตั้งค่าสำหรับ
คำสั่งโดยพลการไม่ว่าจะเป็นไปได้ด้วยขั้นตอนวิธีการจัดหมวดหมู่.
การสร้างแบบจำลองหัวข้อที่เรากล่าวถึงในส่วน 7.6.2 ยังสามารถมองได้ว่า
การประยุกต์ใช้การจัดกลุ่มที่มีเป้าหมายในการปรับปรุงด้วย ประสิทธิภาพการจัดอันดับ
ของเครื่องมือค้นหา ในความเป็นจริงมากที่สุดของการวิจัยการดึงข้อมูลที่เกี่ยวข้องกับ
การจัดกลุ่มได้มุ่งเน้นเป้าหมายนี้ พื้นฐานสำหรับการวิจัยครั้งนี้เป็นที่รู้จักกันดี
สมมติฐานคลัสเตอร์ ตามที่ระบุไว้เดิมโดยรถตู้ Rijsbergen (1979) สมมติฐานคลัสเตอร์
คือ
เอกสารที่เกี่ยวข้องอย่างใกล้ชิดมีแนวโน้มที่จะมีความเกี่ยวข้องกับการร้องขอเดียวกัน.
โปรดทราบว่าสมมติฐานนี้ไม่จริงพูดถึงกลุ่ม อย่างไรก็ตาม "ที่เกี่ยวข้องอย่างใกล้ชิด"
หรือเอกสารที่คล้ายกันโดยทั่วไปจะอยู่ในคลัสเตอร์เดียวกัน ดังนั้นสมมติฐานที่
มักจะถูกตีความว่าเป็นเอกสารในคลัสเตอร์เดียวกันมีแนวโน้มที่
จะเกี่ยวข้องกับคำสั่งเดียวกัน.
สองการทดสอบที่แตกต่างกันได้ถูกนำมาใช้เพื่อตรวจสอบว่าสมมติฐานคลัสเตอร์
ถือสำหรับคอลเลกชันที่กำหนดของเอกสาร ครั้งแรกที่เปรียบเทียบการกระจายของ
คะแนนความคล้ายคลึงกันสำหรับคู่ของเอกสารที่เกี่ยวข้อง (สำหรับชุดของคำสั่ง) เพื่อกระจาย
คู่ประกอบด้วยที่ไม่เกี่ยวข้องและเอกสารที่เกี่ยวข้อง หาก
สมมติฐานคลัสเตอร์ถือเราอาจจะคาดว่าจะเห็นการแยกระหว่างทั้งสอง
กระจาย ในบาง corpora ขนาดเล็กเช่นคลัง CACM ที่กล่าวถึง
ในบทที่ 8 นี่เป็นกรณีที่ ถ้ามีจำนวนของกลุ่มที่เกี่ยวข้อง
เอกสาร แต่ที่ไม่ได้คล้าย ๆ กันแล้วการทดสอบนี้อาจ
ล้มเหลวที่จะแสดงแยกใด ๆ เพื่อแก้ไขปัญหาที่อาจเกิดขึ้นนี้ฮี (1985)
เสนอให้มีการทดสอบอยู่บนสมมติฐานที่ว่าถ้าสมมติฐานคลัสเตอร์ถือที่เกี่ยวข้อง
เอกสารจะมีความแม่นยำสูงในท้องถิ่นแม้ว่าพวกเขาจะถูกกระจายอยู่ใน
กลุ่มหลายคน ความแม่นยำในท้องถิ่นก็มีขนาดจำนวนของเอกสารที่เกี่ยวข้อง
พบว่าในห้าอันดับแรกเพื่อนบ้านที่ใกล้ที่สุดสำหรับเอกสารที่เกี่ยวข้องในแต่ละ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.