The problem of matching records has

The problem of matching records has been studied under
various topics including record linkage [2, 3, 4, 5], duplicate
detection [6, 7], entity resolution [8, 9, 10], and merge/purge
[11]. While our work continues this rich lineage of work,
there are distinguishing traits in our setting that call for
fresh approaches and techniques. For instance, while the
work of Newcombe [4] (later formalized by Fellegi and Sunter
in [3]) pioneered the probabilistic approach to matching,
their work (and much of the subsequent record linkage literature)
tacitly assumes that the data to be matched consists
of properly structured records with a well-defined schema.
The work on duplicate detection, merge/purge, and entity
resolution is also targeted at structured and properly segmented
records. At the other end of the spectrum, the work
in the natural language processing[12] focuses on the detection
of mentions of the same entity in free text. In contrast,
in matching offers to products, there are components from
both bodies of work: the offers consist of only free text, while
the products are properly structured under a given schema.
Much of the prior work has relied on presence of values for
all attributes in the data records, and the goal has been to
design similarity metric either at the entire record level [13,
14] or at the attribute level that are subsequently combined
to measure record level match [15, 16]. This assumption
is not valid in our setting. Since offers are free text, their
tokens need to be mapped to attributes. However, not all
tokens may map to any attribute (e.g., the token ‘monitor’
in Offer-1 of Fig. 1), and when they do map, they can be
ambiguously mapped to multiple attributes (e.g., the token

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

มีการศึกษาปัญหาของระเบียนที่ตรงกันภายใต้หัวข้อต่าง ๆ รวมทั้งเชื่อมโยงระเบียน [2, 3, 4, 5], ซ้ำตรวจ [6, 7], ความละเอียดของเอนทิตี [8, 9, 10], และเวียน/ล้างข้อมูล[11] ขณะทำงานของเราต่อคนเชื้อสายนี้รวยงานมีลักษณะแตกต่างในการตั้งค่าของเราที่โทรสดวิธีและเทคนิค เช่น ในขณะทำงานของ Newcombe [4] (ในภายหลังอย่างเป็นทาง โดย Fellegi และ Sunterใน [3]) เป็นผู้บุกเบิกวิธี probabilistic การจับคู่งานของพวกเขา (และของวรรณคดีเชื่อมโยงระเบียนที่ตามมา)tacitly ถือว่า ข้อมูลที่จะสามารถจับคู่ประกอบด้วยของเรกคอร์ดที่มีโครงสร้างอย่างมีแบบแผนโดยงานตรวจหารายการซ้ำ เวียน/ล้างข้อมูล และเอนทิตีความละเอียดคือยังเป็นเป้าหมายที่โครงสร้าง และถูกต้องถูกแบ่งเป็นช่วงเรกคอร์ด ที่สุดของคลื่น การทำงานภาษาธรรมชาติ แปรรูป [12] มุ่งเน้นการตรวจพบของกล่าวถึงเอนทิตีเดียวกันในข้อความอิสระ ในทางตรงกันข้ามในการเสนอผลิตภัณฑ์ที่ตรงกัน มีส่วนประกอบจากทั้งเนื้องาน: ข้อเสนอประกอบด้วยเฉพาะอิสระ ในขณะที่มีการจัดโครงสร้างผลิตภัณฑ์ภายใต้แบบแผนกำหนดอย่างถูกต้องมากในการทำงานก่อนได้อาศัยในสถานะของค่าแอตทริบิวต์ทั้งหมดในระเบียนข้อมูล และเป้าหมายที่ได้รับการออกแบบการวัดความคล้ายคลึงกันในระดับระเบียนทั้งหมด [1314] หรือในระดับแอตทริบิวต์ ที่จะมารวมกันวัดตรงระดับระเบียน [15, 16] อัสสัมชัญนี้ไม่ถูกต้องในการตั้งค่าของเรา เนื่องจากมีจะข้อความฟรี ของพวกเขาโทเค็นการแม็ปแอตทริบิวต์ได้ อย่างไรก็ตาม ไม่ทั้งหมดสัญญาณอาจแมปแอตทริบิวต์ใด ๆ (เช่น โทเค็น 'ตรวจสอบ'ในข้อเสนอ-1 ของ Fig. 1), และเมื่อพวกเขาแผนที่ พวกเขาสามารถambiguously แมปกับหลายแอตทริบิวต์ (เช่น โทเค็น

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

ปัญหาของการบันทึกการจับคู่ได้รับการศึกษาภายใต้
หัวข้อต่างๆรวมถึงการเชื่อมโยงบันทึก [2, 3, 4, 5] ที่ซ้ำกัน
การตรวจสอบ [6, 7] ความละเอียดนิติบุคคล [8, 9, 10], และผสาน / ล้าง
[11] ในขณะที่การทำงานของเราอย่างต่อเนื่องนี้เชื้อสายที่อุดมไปด้วยการทำงาน
ที่มีลักษณะที่แตกต่างในการตั้งค่าของเราที่เรียกร้องให้
แนวทางสดและเทคนิค ยกตัวอย่างเช่นในขณะที่
การทำงานของ Newcombe [4] (อย่างเป็นทางการในภายหลังโดย Fellegi และ Sunter
ใน [3]) เป็นหัวหอกน่าจะเป็นวิธีการที่จะจับคู่
การทำงานของพวกเขา (และมากของการบันทึกวรรณกรรมเชื่อมโยงต่อมา)
โดยปริยายสันนิษฐานว่าข้อมูลที่จะถูกจับคู่ ประกอบด้วย
โครงสร้างของการบันทึกอย่างถูกต้องกับเค้าร่างที่ดีที่กำหนด.
การทำงานในการตรวจสอบซ้ำกันผสาน / ล้างและกิจการ
มติเป็นเป้าหมายยังอยู่ในระดับโครงสร้างและการแบ่งอย่างถูกต้อง
บันทึก ที่ปลายของสเปกตรัมของการทำงาน
ในการประมวลผลภาษาธรรมชาติ [12] มุ่งเน้นไปที่การตรวจสอบ
ของกล่าวถึงนิติบุคคลเดียวกันในข้อความฟรี ในทางตรงกันข้าม
ในการจับคู่ข้อเสนอให้กับผลิตภัณฑ์ที่มีส่วนประกอบจากมี
ร่างกายทั้งในการใช้งานข้อเสนอประกอบด้วยข้อความฟรีเท่านั้นในขณะที่
ผลิตภัณฑ์ที่มีโครงสร้างอย่างถูกต้องภายใต้คีมาให้.
มากของการทำงานก่อนได้อาศัยในการปรากฏตัวของค่าสำหรับ
ทุกคน คุณลักษณะในการบันทึกข้อมูลและเป้าหมายได้รับการ
ออกแบบที่คล้ายคลึงกันทั้งที่ตัวชี้วัดระดับการบันทึกทั้งหมด [13,
14] หรือในระดับแอตทริบิวต์ที่จะรวมกันในภายหลัง
ในการวัดระดับการบันทึกการแข่งขัน [15, 16] สมมติฐานนี้
ไม่ถูกต้องในการตั้งค่าของเรา ตั้งแต่ข้อเสนอเป็นข้อความฟรีของพวกเขา
สัญญาณจะต้องมีการแมปไปยังคุณลักษณะ แต่ไม่ทั้งหมด
สัญญาณอาจแมปไปแอตทริบิวต์ใด ๆ (เช่นโทเค็น 'จอภาพ'
เสนอ-1 จากรูปที่. 1) และเมื่อพวกเขาทำแผนที่พวกเขาสามารถ
แมปเลศนัยแอตทริบิวต์หลาย (เช่นโทเค็น

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

ปัญหาของระเบียนที่ตรงกันได้ศึกษาภายใต้หัวข้อต่างๆรวมถึงการบันทึกการเชื่อมโยง
[ 2 , 3 , 4 , 5 ] , ที่ซ้ำกันตรวจสอบ [ 6
7 ] , นิติบุคคล , ละเอียด [ 8 , 9 , 10 , และผสาน / ล้าง
[ 11 ] ในขณะที่งานของเราต่อไปโคตรรวยของงานมีลักษณะในการตั้งค่าที่แตกต่าง

ของเราที่เรียกวิธีการที่สดใหม่และเทคนิค ตัวอย่างเช่นในขณะที่
การทำงานของนูเคิ่ม [ 4 ] ( ต่อมาและเป็นทางการโดย fellegi ซุนเตอร์
ใน [ 3 ] ) เป็นผู้บุกเบิกแนวทางความน่าจะเป็นที่จะจับคู่
งานของตนเอง ( และมากต่อมาบันทึกการเชื่อมโยงวรรณกรรม )
โดยปริยายถือว่า ข้อมูลให้ตรงกันประกอบด้วย
ของโครงสร้างอย่างถูกต้องระเบียนที่มีแบบแผนชัดเจน .
งานตรวจจับ ซ้ำ , ผสาน / กำจัด และนิติบุคคล
ความละเอียดยังเป็นเป้าหมายที่มีโครงสร้างและถูกแบ่ง
ประวัติ ที่ปลายของสเปกตรัม ,
ในภาษาธรรมชาติการประมวลผล [ 12 ] เน้นตรวจจับ
ของกล่าวถึงขององค์กรเดียวกันในข้อความฟรี ในทางตรงกันข้าม
ในการจับคู่ให้กับผลิตภัณฑ์ที่มีส่วนประกอบจาก
ทั้งร่างกายของงาน : เสนอมีแต่ข้อความฟรีในขณะที่
ผลิตภัณฑ์ที่มีโครงสร้างอย่างถูกต้องภายใต้กำหนด schema .
มากของงานก่อนที่จะพึ่งตนของค่า
คุณลักษณะทั้งหมดในระเบียนข้อมูล และเป้าหมาย ได้รับการออกแบบทั้งในความเหมือน (

) บันทึกทั้งหมด [ 13 ]
14 หรือที่คุณลักษณะที่ระดับต่อมารวม
เพื่อวัดระดับการบันทึกราคา [ 15 , 16 ) แค่นี้
ไม่ถูกต้องในการตั้งค่าของเราเนื่องจากมีข้อความฟรีสัญญาณของพวกเขา
ต้องแมปแอตทริบิวต์ อย่างไรก็ตาม สัญญาณทั้งหมดไม่ได้
อาจใด ๆคุณลักษณะแผนที่ ( เช่นโทเค็น ' ตรวจสอบ '
offer-1 ของในรูปที่ 1 ) และเมื่อพวกเขาทำแผนที่ พวกเขาสามารถแมปไปยัง
การคุณลักษณะหลาย ( เช่นโทเค็น

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.