4.2.2. Coreference resolution
Coreference resolution is the task of finding all expressions
that refer to the same entity in a discourse [55]. In this domain,
improvements are not related to Big Data features and
are mainly focused on enrichment and precision of new lexical
and syntactic features and global inference [56,55,57].
Haghighi and Klein [56] introduce new syntactic, semantic
features and discourse phenomena to improve existing
systems. Their work has been completed by additional features
(e.g: Denonym, Word inclusion in [57], Speaker identification
in [55], Web features like General co-occurrence, Hearst
co-occurrence, Entity-based context, Pronoun context in [58], etc.).
Most models for this task determine if two mentions refer to
each other using a single function over a set of constraints
or features, but some recent approaches tend to use multitiers
methods where mentions are disambiguated gradually
in well-ordered tiers which apply each, a specific function
[55,57]. It is obvious that in a Big Data supply chain, such approaches
can be difficultly used without modification. Indeed,
analyzing billions of documents more than seven times is not
realistic. We note that (the direct) approach of [58] (direct) is
more scalable, but it is a pairwise disambiguation method.
Once more, we note that very few work have in mind Big
Data characteristics while addressing coreference resolution.
In challenges about indexing billions of RDF triples or reasoning
on them (see further), we see that scientists deal
with data formats which are quite easy to handle by a
computer (RDF/RDFS, OWL/OWL2). But the transformation
of pieces of natural language-written texts into computerunderstandable
formats have to be done first.
4.2.2 . coreference ละเอียดcoreference การแก้ปัญหาคือการหาทุกสำนวนที่อ้างถึงองค์กรเดียวกันในวาทกรรม [ 55 ] ในโดเมนนี้การปรับปรุงที่ไม่ได้เกี่ยวข้องกับคุณสมบัติของข้อมูลใหญ่ส่วนใหญ่จะเน้นไปที่การเสริมและความแม่นยำของศัพท์ใหม่และคุณสมบัติทางวากยสัมพันธ์และการ 56,55,57 [ สากล ]และ haghighi ไคลน์ [ 56 ] แนะนำใหม่ไวยากรณ์ ความหมายคุณสมบัติและปรากฏการณ์วาทกรรมเพื่อปรับปรุงที่มีอยู่ระบบ งานของพวกเขาได้เสร็จสมบูรณ์แล้ว โดยคุณสมบัติเพิ่มเติม( เช่น : denonym , รวมคำพูด [ 57 ] ระบุผู้พูดใน [ 55 ] เว็บ คุณสมบัติเช่นการทั่วไป , เฮสต์การใช้สรรพนามบุคคล , บริบท , บริบท [ 58 ] , ฯลฯ )แบบที่สุดสำหรับงานนี้ ระบุว่า หากสองเอ่ยอ้างถึงแต่ละอื่น ๆโดยใช้ฟังก์ชันเดียวผ่านชุดของข้อ จำกัดหรือคุณสมบัติ แต่บางวิธีล่าสุดมักจะใช้ multitiersวิธีการที่กล่าวถึงเป็น disambiguated ค่อย ๆในการสั่งแบบที่ใช้ในแต่ละฟังก์ชั่นที่เฉพาะเจาะจง[ 55,57 ] มันเป็นที่ชัดเจนว่าในโซ่อุปทานข้อมูลใหญ่ วิธีการดังกล่าวสามารถที่ยากมาใช้โดยไม่ดัดแปลง แน่นอนวิเคราะห์พันล้านของเอกสารมากกว่าเจ็ดครั้งไม่ได้ที่สมจริง เราทราบว่า ( โดยตรง ) วิธีการของ [ 58 ] ( โดยตรง )ยืดหยุ่นมากขึ้น แต่มันเป็นวิธีแก้ความกำกวมคู่ .อีกครั้งที่เราทราบว่าน้อยมากที่งานมีจิตใจใหญ่ข้อมูลลักษณะขณะที่อยู่ coreference ความละเอียดในความท้าทายเกี่ยวกับการพันล้านของอเนกประสงค์ RDF หรือเหตุผลพวกเขา ( ดูเพิ่มเติม ) เราเห็นว่านักวิทยาศาสตร์จัดการกับรูปแบบข้อมูลที่ค่อนข้างง่ายที่จะจัดการโดยคอมพิวเตอร์ ( RDF / rdfs , นกฮูก / owl2 ) แต่การเปลี่ยนแปลงชิ้นที่เขียนข้อความลงใน computerunderstandable ภาษาธรรมชาติรูปแบบมีให้เรียบร้อยก่อน
การแปล กรุณารอสักครู่..
