4.2.3. Information extraction
One of the intuitive ways to perform this task is to provide
hand-written regular expressions (REs) like [59,60]. The results
are promising but the number of manually-written REs
(165 REs for a 9-concept ontology [59]) makes it hard to handle.
More, their approach does not focus on scalability unlike
[61,40] who propose a REs pattern-based tool named OnTeA.
OnTeA takes advantage of Hadoop MapReduce to scale. More and
more, automatic approaches had been proposed. It is the case
of KNOWITALL [62] and TextRunner. The former uses predefined
patterns and rule templates to populate classes in a given ontology.
Though automatic, KNOWITALL does not scale: a webdocument
is processed several times for patterns matching
and many web-queries are done to assign a probability to a
concept, etc. Thus, TextRunner which implements the new
extraction paradigm of Open Information Extraction (OIE) had
been introduced. In OIE, we are not limited in a set of triples
but try to extract all of them [8,47]. More recently, following
REVERB, [63] present OLLIE. Unlike REVERB, OLLIE can extract relation
not mediated by verb and in certain case can provide
the context of a relation (e.g: “If he wins five key states, Romney
will be elected President.” −→ (the wining of key states determines
the election fact)).
In this facts harvesting task, some recent approaches focus
on scalability in addition to recall and precision. It is the
case of [41] which take advantage of Hadoop MapReduce to distribute
the patterns matching part of their algorithm. Now
focusing on the velocity, almost the same group of authors
has proposed a novel approach for population of knowledge
bases in [43]. Here, they propose to extract a certain set of
relations from documents in a given “time-slice”. This extraction
can be improved based on the topics covered by the document
(e.g do not try to extract music-domain relations from
a sport document) or by matching patterns of relations on an
index build from documents. More, since web is redundant
(a given fact is published by tens of sites), a small percentage
of documents can cover a significant part of facts. Likewise,
[42] RDF-format unstructured data during a time-slice
duration. It is important to note that the whole processing of
data gather during a period of time must be done during that
period of time, unless the processing cycle will be blocked.
Recall that relations could be n-ary. For instance, in [64]’s web
representative-corpus, n-ary relations represented 40% of all
relations. About n-ary relations extraction, [65,66] are very relevant
work. They both use Stanford CoreNLP typed dependencies
paths to extract arguments of different facts. To end with
information extraction, let us precise that is not all about
free text. Some work has thus focus on web tables or lists
[67–69].
4.2.3. ด่วนวิธีง่ายในการทำงานนี้อย่างใดอย่างหนึ่งคือการให้ลายมือนิพจน์ทั่วไป (ทรัพยากร) เช่น [59,60] ผลลัพธ์มีแนวโน้มแต่จำนวนคำที่เขียนด้วยตนเอง(165 ทรัพยากรสำหรับภววิทยา 9 แนวคิด [59]) ทำให้ยากที่จะจัดการเพิ่มเติม วิธีไม่เน้นภาระแตกต่างจาก[61,40] ที่เสนอความละเอียดตามรูปแบบเครื่องมือที่ชื่อ OnTeAOnTeA ใช้ประโยชน์ของ Hadoop MapReduce เพื่อปรับขนาด เพิ่มเติม และมีการเสนอแนวทางเพิ่มเติม อัตโนมัติ เป็นกรณีKNOWITALL [62] และ TextRunner ใช้เดิมที่กำหนดไว้ล่วงหน้ารูปแบบและแม่แบบกฎเพื่อใส่ชั้นในภววิทยากำหนดว่าอัตโนมัติ KNOWITALL ขนาด: webdocument การมีการประมวลผลหลายครั้งสำหรับรูปแบบที่ตรงกันและแบบสอบถามเว็บที่มากจะทำการกำหนดความน่าเป็นเพื่อการแนวคิด ฯลฯ ดังนั้น TextRunner ซึ่งใช้ใหม่ได้สกัดกระบวนทัศน์ของการสกัดข้อมูลเปิด (ต้อง)รับการแนะนำ ในต้อง เราจะไม่จำกัดเฉพาะในชุดของ triplesแต่พยายามที่จะดึงทั้งหมดของพวกเขา [8,47] เมื่อเร็ว ๆ นี้ ต่อไปนี้ก้อง OLLIE ปัจจุบัน [63] ซึ่งแตกต่างจากเสียงสะท้อน OLLIE สามารถแยกความสัมพันธ์ไม่มีคำกริยา และใน บางกรณีสามารถให้บริบทของความสัมพันธ์ (เช่น: ''ถ้าเขาชนะอเมริกาหลักห้า Romney−→จะเลือกตั้งประธานาธิบดี " (วินนิ่งของอเมริกาที่สำคัญกำหนดเลือกตั้งจริง))ในข้อเท็จจริงนี้เก็บงาน โฟกัสวิธีบางอย่างล่าสุดในภาระนอกเหนือจากการเรียกคืนและความแม่นยำ มันเป็นการกรณีของ [41] ซึ่งประโยชน์ของ Hadoop MapReduce การกระจายรูปแบบสัดส่วนของอัลกอริทึมของพวกเขา ตอนนี้เน้นความเร็ว เกือบกลุ่มเดียวของผู้เขียนได้เสนอวิธีการใหม่สำหรับประชากรความรู้ฐานใน [43] ที่นี่ พวกเขาเสนอการแยกชุดของความสัมพันธ์จากเอกสารในการกำหนด "เวลาตัก" สกัดนี้สามารถพัฒนาตามหัวข้อครอบคลุมถึงเอกสาร(เช่นไม่พยายามขยายความสัมพันธ์โดเมนเพลงจากเอกสารกีฬา) หรือ โดยการจับคู่รูปแบบของความสัมพันธ์ในการสร้างดัชนีจากเอกสาร อื่น ๆ เว็บเป็นซ้ำซ้อน(ความจริงกำหนดเผยแพร่ โดยหลายสิบของเว็บไซต์), เล็กน้อยเอกสารสามารถครอบคลุมเป็นส่วนสำคัญของข้อเท็จจริง ในทำนองเดียวกัน[42] RDF รูปแบบไม่มีโครงสร้างข้อมูลระหว่างชิ้นเวลาระยะเวลา หมายเหตุที่สำคัญคือการประมวลผลทั้งหมดรวบรวมข้อมูลในระหว่างรอบระยะเวลาต้องทำในช่วงที่ระยะเวลา เว้นแต่ว่ารอบการประมวลผลจะถูกบล็อกเรียกว่า ความสัมพันธ์อาจจะเกี่ยวกับ n เช่น ใน [64] ของเว็บตัวแทนคอร์ปัส สัมพันธ์เกี่ยวกับ n แทน 40% ของทั้งหมดความสัมพันธ์ทาง เกี่ยวกับการสกัดความสัมพันธ์เกี่ยวกับ n, [65,66] เกี่ยวข้องมากทำงาน จะใช้สแตนฟอร์ด CoreNLP พิมพ์อ้างอิงเส้นทางการแยกอาร์กิวเมนต์ของข้อเท็จจริงที่แตกต่างกัน จะจบด้วยการสกัดข้อมูล ให้เราแม่นยำที่ไม่เกี่ยวกับข้อความฟรี งานบางอย่างได้จึงเน้นเว็บตารางหรือรายการ[67 – 69]
การแปล กรุณารอสักครู่..