Near-duplicate documents are found

Near-duplicate documents are found by comparing the fingerprints that represent them.

Near-duplicate pairs are defined by the number of shared fingerprints or the ratio of shared fingerprints to the total number of fingerprints used to represent the pair of documents.

Fingerprints do not capture all of the information in the document,
however,
and consequently this leads to errors in the detection of near-duplicates.
Appropriate selection techniques can reduce these errors,
but not eliminate them.
As we mentioned,
evaluations have shown that comparing word-based representations using a similarity measure such as the cosine correlation (see section 7.1.2) is generally significantly more effective than fingerprinting methods for finding near-duplicates.
The problem with these methods is their efficiency.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

เอกสารใกล้ซ้ำที่พบ โดยการเปรียบเทียบลายนิ้วมือที่เป็นตัวแทน คู่ใกล้ซ้ำถูกกำหนด โดยจำนวนลายนิ้วมือที่ใช้ร่วมกันหรืออัตราส่วนของลายนิ้วมือร่วมกับจำนวนรวมของลายนิ้วมือที่ใช้ในการแสดงคู่ของเอกสาร ลายนิ้วมือไม่สามารถจับข้อมูลในเอกสาร ทั้งหมด อย่างไรก็ตาม และเหตุ นี้นำไปสู่ข้อผิดพลาดในการตรวจหาใกล้ซ้ำ เทคนิคการเลือกที่เหมาะสมสามารถลดข้อผิดพลาดเหล่านี้ แต่ไม่กำจัดพวกเขา ดังกล่าว ประเมินได้แสดงให้เห็นว่า ตามคำแทนเปรียบเทียบความคล้ายคลึงกันที่ใช้วัดเช่นความสัมพันธ์โคไซน์ (ดูส่วน 7.1.2) โดยทั่วไปอย่างมีประสิทธิภาพมากกว่าวิธีหาใกล้ซ้ำลายพิมพ์ ปัญหาของวิธีการเหล่านี้คือ ประสิทธิภาพของ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

เอกสารที่อยู่ใกล้ที่ซ้ำกันจะถูกพบโดยการเปรียบเทียบลายนิ้วมือที่เป็นตัวแทนของพวกเขา. คู่ใกล้ที่ซ้ำกันจะถูกกำหนดโดยจำนวนลายนิ้วมือที่ใช้ร่วมกันหรืออัตราการใช้ลายนิ้วมือที่ใช้ร่วมกันกับจำนวนของลายนิ้วมือใช้แทนคู่ของเอกสารได้. ลายนิ้วมือไม่จับ ข้อมูลทั้งหมดในเอกสารอย่างไรจึงจะนำไปสู่ข้อผิดพลาดในการตรวจสอบที่อยู่ใกล้ที่ซ้ำกัน. เทคนิคการเลือกที่เหมาะสมสามารถลดข้อผิดพลาดเหล่านี้แต่ไม่กำจัดพวกเขา. ในฐานะที่เรากล่าวถึงการประเมินผลแสดงให้เห็นว่าการเปรียบเทียบการแสดงคำตาม โดยใช้มาตรการที่คล้ายคลึงกันเช่นความสัมพันธ์โคไซน์ (ดูหัวข้อ 7.1.2) โดยทั่วไปอย่างมีนัยสำคัญมีประสิทธิภาพมากกว่าการพิมพ์ลายนิ้วมือวิธีการสำหรับการหาที่อยู่ใกล้ที่ซ้ำกัน. ปัญหาด้วยวิธีการเหล่านี้คือประสิทธิภาพของพวกเขา

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

ใกล้กันพบเอกสารโดยการเปรียบเทียบลายนิ้วมือ ที่เป็นตัวแทนของพวกเขาใกล้คู่ซ้ำถูกกำหนดโดยจำนวนของใช้ลายนิ้วมือ หรือ อัตราส่วนใช้ลายนิ้วมือเพื่อจำนวนลายนิ้วมือที่ใช้เพื่อแสดงถึงคู่ของเอกสารลายนิ้วมือไม่จับข้อมูลทั้งหมดในเอกสารอย่างไรก็ตามและจึงทำให้เกิดข้อผิดพลาดในการตรวจสอบใกล้กัน .เทคนิคการคัดเลือกที่เหมาะสมสามารถลดข้อผิดพลาดเหล่านี้แต่ไม่ขจัดพวกเขาในฐานะที่เรากล่าวถึงการเปรียบเทียบคำที่ใช้แสดงแทนการใช้ความเหมือนวัดเช่นโคไซน์ความสัมพันธ์ ( ดูส่วนการขอ ) โดยทั่วไปมากขึ้นมีประสิทธิภาพกว่าวิธีหาใกล้ลายซ้ำกันปัญหา ด้วยวิธีการเหล่านี้ คือ ประสิทธิภาพของพวกเขา

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.