Abstract— Document clustering as an

Abstract— Document clustering as an unsupervised approach
extensively used to navigate, filter, summarize and manage large
collection of document repositories like the World Wide Web
(WWW). Recently, focuses in this domain shifted from
traditional vector based document similarity for clustering to
suffix tree based document similarity, as it offers more semantic
representation of the text present in the document. In this paper,
we compare and contrast two recently introduced approaches to
document clustering based on suffix tree data model. The first is
an Efficient Phrase based document clustering, which extracts
phrases from documents to form compact document
representation and uses a similarity measure based on common
suffix tree to cluster the documents. The second approach is a
frequent word/word meaning sequence based document
clustering, it similarly extracts the common word sequence from
the document and uses the common sequence/ common word
meaning sequence to perform the compact representation, and
finally, it uses document clustering approach to cluster the
compact documents. These algorithms are using agglomerative
hierarchical document clustering to perform the actual clustering
step, the difference in these approaches are mainly based on
extraction of phrases, model representation as a compact
document, and the similarity measures used for clustering. This
paper investigates the computational aspect of the two
algorithms, and the quality of results they produced.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

การจัดกลุ่มเอกสารบทคัดเป็นวิธีหากิน
ใช้อย่างกว้างขวางเพื่อนำทางกรองสรุปและการบริหารจัดการที่มีขนาดใหญ่
คอลเลกชันที่เก็บเอกสารเช่นเวิลด์ไวด์เว็บ
(WWW) เมื่อเร็ว ๆ นี้จะมุ่งเน้นไปในโดเมนนี้เปลี่ยนจาก
เวกเตอร์แบบดั้งเดิมคล้ายคลึงกันเอกสารที่ใช้สำหรับการจัดกลุ่มเพื่อ
ต้นไม้ต่อท้ายความคล้ายคลึงกันตามเอกสารตามที่มันมีความหมายมากขึ้น
ในปัจจุบันเป็นตัวแทนของข้อความในเอกสาร ในบทความนี้
เราเปรียบเทียบและความคมชัดทั้งสองแนะนำวิธีการเมื่อเร็ว ๆ นี้
เอกสารการจัดกลุ่มขึ้นอยู่กับรูปแบบข้อมูลต่อท้ายต้นไม้ แรกคือ
การจัดกลุ่มที่มีประสิทธิภาพเอกสารตามวลีซึ่งสารสกัดจาก
วลีจากเอกสารในรูปแบบเอกสารที่มีขนาดกะทัดรัด
และใช้แทนการวัดความคล้ายคลึงกันขึ้นอยู่กับที่พบ
ต้นไม้ต่อท้ายกลุ่มเอกสาร วิธีที่สองคือ
คำที่ใช้บ่อย / คำความหมายลำดับเอกสารตาม
การจัดกลุ่มก็ทำนองเดียวกันสารสกัดจากลำดับคำทั่วไปจาก
เอกสารและใช้ลำดับที่พบบ่อย / คำทั่วไป
หมายถึงลำดับที่จะดำเนินการเป็นตัวแทนที่มีขนาดกะทัดรัดและ
ในที่สุดก็จะใช้วิธีการจัดกลุ่มเอกสาร กลุ่ม
เอกสารที่มีขนาดกะทัดรัด ขั้นตอนวิธีการเหล่านี้จะถูกใช้ agglomerative
การจัดกลุ่มเอกสารลำดับชั้นในการดำเนินการจัดกลุ่มที่เกิดขึ้นจริง
ขั้นตอนที่แตกต่างในวิธีการเหล่านี้จะขึ้นอยู่ส่วนใหญ่ใน
การสกัดวลีแสดงรูปแบบเป็นขนาดกะทัดรัด
เอกสารและมาตรการคล้ายคลึงกันที่ใช้สำหรับการจัดกลุ่ม นี้
กระดาษสำรวจด้านการคำนวณของทั้งสอง
ขั้นตอนวิธีการและคุณภาพของผลที่พวกเขาผลิต

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

นามธรรม - การจัดกลุ่มเอกสารเป็นวิธีการ unsupervised
ใช้อย่างกว้างขวางเพื่อนำทาง , กรอง , สรุปและจัดการคอลเลกชันขนาดใหญ่ของเอกสารที่เก็บชอบ

เวิลด์ไวด์เว็บ ( www ) เมื่อเร็ว ๆนี้เน้นในเกมนี้ เปลี่ยนจากแบบดั้งเดิมที่ใช้สำหรับความเหมือน
เวกเตอร์เอกสารการจัดกลุ่มต้นไม้กัน

ต่อท้ายเอกสารตาม มันมีความหมายมากกว่า
การเป็นตัวแทนของข้อความที่มีอยู่ในเอกสาร ในกระดาษนี้
เราเปรียบเทียบและความคมชัดสองแนะนำเมื่อเร็ว ๆนี้วิธีการ
การจัดกลุ่มเอกสารตามรูปแบบข้อมูลต้นไม้วิภัตติ อย่างแรกคือ
ที่มีวลีการจัดกลุ่มเอกสารอยู่ ซึ่งสารสกัดจากเอกสารแบบฟอร์ม
วลีแทนเอกสาร
ขนาดกะทัดรัด และใช้มาตรการตามทั่วไป
คล้ายคลึงต่อท้ายต้นไม้กลุ่มเอกสาร วิธีที่สองคือคำ / คำที่ความหมายบ่อย

ลำดับเอกสารการจัดกลุ่มตาม มันเหมือนกับแยกลำดับคำทั่วไปจาก
เอกสารและใช้สามัญ / สามัญว่าลำดับ
ความหมายลำดับแสดงการแสดงขนาดเล็กและ
สุดท้ายก็ใช้การจัดกลุ่มเอกสารแบบ cluster
เอกสารขนาดเล็กขั้นตอนวิธีการเหล่านี้จะใช้ agglomerative
ลำดับชั้นการจัดกลุ่มเอกสารแสดงขั้นตอนการจัดกลุ่ม
จริง ความแตกต่างในวิธีการเหล่านี้ส่วนใหญ่ขึ้นอยู่กับ
การสกัดวลี รูปแบบการแสดงเป็นเอกสารกระชับ
และความเหมือนมาตรการที่ใช้สำหรับการจัดกลุ่ม . บทความนี้เป็นการศึกษาด้านการคำนวณของ

สองขั้นตอนวิธีการและคุณภาพของผลลัพธ์ที่พวกเขาผลิต

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.