There are a number of fingerprintin

There are a number of fingerprinting algorithms that use this general approach,
and they differ mainly in how subsets of the n-grams are selected.
Selecting a fixed number of n-grams at random does not lead to good performance in terms of finding near-duplicates.
Consider two near-identical documents,D1 andD2.
The fingerprints generated from n-grams selected randomly from document D1 are unlikely to have a high overlap with the fingerprints generated from a different set of n-grams selected randomly from D2.
A more effective technique uses prespecified combinations of characters, and selects n-grams that begin with those characters.
Another popular technique, called 0 mod p, is to select all n-grams whose hash value modulo p is zero, where p is a parameter.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

มีจำนวนอัลกอริทึมลายพิมพ์ที่ใช้วิธีการนี้ทั่วไป และพวกเขาแตกต่างในวิธีเลือกชุดย่อยของ n-กรัม เลือกจำนวนกรัม n ที่สุ่มนำไปสู่ประสิทธิภาพที่ดีในแง่ของการค้นหาใกล้ซ้ำ พิจารณาเอกสารใกล้เหมือนสอง D1 andD2 ลายนิ้วมือจาก n กรัมเลือกสุ่มจากเอกสาร D1 ไม่น่าจะมีทับซ้อนสูงกับลายนิ้วมือที่สร้างขึ้นจากชุดของ n กรัมเลือกสุ่มจาก D2 เทคนิคที่มีประสิทธิภาพมากขึ้นใช้ชุด prespecified ของตัวละคร และเลือก n กรัมที่ขึ้นต้น ด้วยตัวอักษรเหล่านั้น อีกเทคนิคที่นิยม เรียกว่า 0 mod p คือการ เลือกที่มีค่าแฮ modulo p เป็นศูนย์ โดยที่ p คือ พารามิเตอร์กรัม n ทั้งหมด

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

มีจำนวนของขั้นตอนวิธีการพิมพ์ลายนิ้วมือที่ใช้วิธีการทั่วไปเช่นนี้
และพวกเขาแตกต่างกันส่วนใหญ่ในวิธีการย่อยของ n-กรัมจะถูกเลือก.
เลือกจำนวนคงที่ของ N-กรัมที่สุ่มไม่นำไปสู่ผลงานที่ดีในแง่ของการหาจาหน่าย ซ้ำกัน.
พิจารณาเอกสารทั้งสองใกล้เหมือน, D1 andD2.
ลายนิ้วมือที่เกิดจาก n-กรัมสุ่มเลือกจากเอกสาร D1 ไม่น่าจะมีการทับซ้อนกันสูงที่มีลายนิ้วมือที่เกิดจากชุดที่แตกต่างกันของ n-กรัมสุ่มเลือกจาก D2.
ขึ้น เทคนิคที่มีประสิทธิภาพใช้รวมกัน prespecified ของตัวอักษรและเลือก n-กรัมที่ขึ้นต้นด้วยตัวอักษรเหล่านั้น.
อีกเทคนิคหนึ่งที่นิยมเรียกว่า 0 mod p, คือการเลือกทั้งหมด n-กรัมกัญชาที่มีค่าโมดูโล P เป็นศูนย์ P คือพารามิเตอร์

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

มีจำนวนของรูปแบบขั้นตอนวิธีที่ใช้โดยทั่วไปนี้และพวกเขาแตกต่างกันส่วนใหญ่ในวิธีการย่อยของ n-grams ถูกเลือกเลือกจำนวน n-grams สุ่มไม่ได้นำไปสู่ผลงานที่ดีในแง่ของการใกล้กัน .พิจารณาสองใกล้เอกสารเหมือนกัน D1 andd2 .ลายนิ้วมือที่สร้างขึ้นจาก n-grams สุ่มเลือกจาก D1 เอกสารไม่น่าจะมีซ้อนสูง ด้วยลายนิ้วมือ ที่สร้างขึ้นจากการตั้งค่าที่แตกต่างกันของ n-grams สุ่มเลือกจาก D2 .เป็นเทคนิคที่มีประสิทธิภาพมากใช้จรชุดของตัวละคร และเลือก n-grams ที่เริ่มต้นด้วยอักขระเหล่านั้นอีกเทคนิคที่นิยมเรียกว่า 0 mod p , คือการเลือกทั้งหมด n-grams ที่มีค่า hash มอดุโล p คือศูนย์ที่ P เป็นพารามิเตอร์

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.