4.2.3. Information extraction
One of the intuitive ways to perform this task is to provide
hand-written regular expressions (REs) like [59,60]. The results
are promising but the number of manually-written REs
(165 REs for a 9-concept ontology [59]) makes it hard to handle.
More, their approach does not focus on scalability unlike
[61,40] who propose a REs pattern-based tool named OnTeA.
OnTeA takes advantage of Hadoop MapReduce to scale. More and
more, automatic approaches had been proposed. It is the case
of KNOWITALL [62] and TextRunner. The former uses predefined
patterns and rule templates to populate classes in a given ontology.
Though automatic, KNOWITALL does not scale: a webdocument
is processed several times for patterns matching
and many web-queries are done to assign a probability to a
concept, etc. Thus, TextRunner which implements the new
extraction paradigm of Open Information Extraction (OIE) had
been introduced. In OIE, we are not limited in a set of triples
but try to extract all of them [8,47]. More recently, following
REVERB, [63] present OLLIE. Unlike REVERB, OLLIE can extract relation
not mediated by verb and in certain case can provide
the context of a relation (e.g: “If he wins five key states, Romney
will be elected President.” −→ (the wining of key states determines
the election fact)).
In this facts harvesting task, some recent approaches focus
on scalability in addition to recall and precision. It is the
case of [41] which take advantage of Hadoop MapReduce to distribute
the patterns matching part of their algorithm. Now
focusing on the velocity, almost the same group of authors
has proposed a novel approach for population of knowledge
bases in [43]. Here, they propose to extract a certain set of
relations from documents in a given “time-slice”. This extraction
can be improved based on the topics covered by the document
(e.g do not try to extract music-domain relations from
a sport document) or by matching patterns of relations on an
index build from documents. More, since web is redundant
(a given fact is published by tens of sites), a small percentage
of documents can cover a significant part of facts. Likewise,
[42] RDF-format unstructured data during a time-slice
duration. It is important to note that the whole processing of
data gather during a period of time must be done during that
period of time, unless the processing cycle will be blocked.
Recall that relations could be n-ary. For instance, in [64]’s web
representative-corpus, n-ary relations represented 40% of all
relations. About n-ary relations extraction, [65,66] are very relevant
work. They both use Stanford CoreNLP typed dependencies
paths to extract arguments of different facts. To end with
information extraction, let us precise that is not all about
free text. Some work has thus focus on web tables or lists
[67–69].
4.2.3. ด่วนวิธีง่ายในการทำงานนี้อย่างใดอย่างหนึ่งคือการให้ลายมือนิพจน์ทั่วไป (ทรัพยากร) เช่น [59,60] ผลลัพธ์มีแนวโน้มแต่จำนวนคำที่เขียนด้วยตนเอง(165 ทรัพยากรสำหรับภววิทยา 9 แนวคิด [59]) ทำให้ยากที่จะจัดการเพิ่มเติม วิธีไม่เน้นภาระแตกต่างจาก[61,40] ที่เสนอความละเอียดตามรูปแบบเครื่องมือที่ชื่อ OnTeAOnTeA ใช้ประโยชน์ของ Hadoop MapReduce เพื่อปรับขนาด เพิ่มเติม และมีการเสนอแนวทางเพิ่มเติม อัตโนมัติ เป็นกรณีKNOWITALL [62] และ TextRunner ใช้เดิมที่กำหนดไว้ล่วงหน้ารูปแบบและแม่แบบกฎเพื่อใส่ชั้นในภววิทยากำหนดว่าอัตโนมัติ KNOWITALL ขนาด: webdocument การมีการประมวลผลหลายครั้งสำหรับรูปแบบที่ตรงกันและแบบสอบถามเว็บที่มากจะทำการกำหนดความน่าเป็นเพื่อการแนวคิด ฯลฯ ดังนั้น TextRunner ซึ่งใช้ใหม่ได้สกัดกระบวนทัศน์ของการสกัดข้อมูลเปิด (ต้อง)รับการแนะนำ ในต้อง เราจะไม่จำกัดเฉพาะในชุดของ triplesแต่พยายามที่จะดึงทั้งหมดของพวกเขา [8,47] เมื่อเร็ว ๆ นี้ ต่อไปนี้ก้อง OLLIE ปัจจุบัน [63] ซึ่งแตกต่างจากเสียงสะท้อน OLLIE สามารถแยกความสัมพันธ์ไม่มีคำกริยา และใน บางกรณีสามารถให้บริบทของความสัมพันธ์ (เช่น: ''ถ้าเขาชนะอเมริกาหลักห้า Romney−→จะเลือกตั้งประธานาธิบดี " (วินนิ่งของอเมริกาที่สำคัญกำหนดเลือกตั้งจริง))ในข้อเท็จจริงนี้เก็บงาน โฟกัสวิธีบางอย่างล่าสุดในภาระนอกเหนือจากการเรียกคืนและความแม่นยำ มันเป็นการกรณีของ [41] ซึ่งประโยชน์ของ Hadoop MapReduce การกระจายรูปแบบสัดส่วนของอัลกอริทึมของพวกเขา ตอนนี้เน้นความเร็ว เกือบกลุ่มเดียวของผู้เขียนได้เสนอวิธีการใหม่สำหรับประชากรความรู้ฐานใน [43] ที่นี่ พวกเขาเสนอการแยกชุดของความสัมพันธ์จากเอกสารในการกำหนด "เวลาตัก" สกัดนี้สามารถพัฒนาตามหัวข้อครอบคลุมถึงเอกสาร(เช่นไม่พยายามขยายความสัมพันธ์โดเมนเพลงจากเอกสารกีฬา) หรือ โดยการจับคู่รูปแบบของความสัมพันธ์ในการสร้างดัชนีจากเอกสาร อื่น ๆ เว็บเป็นซ้ำซ้อน(ความจริงกำหนดเผยแพร่ โดยหลายสิบของเว็บไซต์), เล็กน้อยเอกสารสามารถครอบคลุมเป็นส่วนสำคัญของข้อเท็จจริง ในทำนองเดียวกัน[42] RDF รูปแบบไม่มีโครงสร้างข้อมูลระหว่างชิ้นเวลาระยะเวลา หมายเหตุที่สำคัญคือการประมวลผลทั้งหมดรวบรวมข้อมูลในระหว่างรอบระยะเวลาต้องทำในช่วงที่ระยะเวลา เว้นแต่ว่ารอบการประมวลผลจะถูกบล็อกเรียกว่า ความสัมพันธ์อาจจะเกี่ยวกับ n เช่น ใน [64] ของเว็บตัวแทนคอร์ปัส สัมพันธ์เกี่ยวกับ n แทน 40% ของทั้งหมดความสัมพันธ์ทาง เกี่ยวกับการสกัดความสัมพันธ์เกี่ยวกับ n, [65,66] เกี่ยวข้องมากทำงาน จะใช้สแตนฟอร์ด CoreNLP พิมพ์อ้างอิงเส้นทางการแยกอาร์กิวเมนต์ของข้อเท็จจริงที่แตกต่างกัน จะจบด้วยการสกัดข้อมูล ให้เราแม่นยำที่ไม่เกี่ยวกับข้อความฟรี งานบางอย่างได้จึงเน้นเว็บตารางหรือรายการ[67 – 69]
การแปล กรุณารอสักครู่..

4.2.3 . การสกัดข้อมูลหนึ่งในวิธีที่ง่ายเพื่อดำเนินการงานนี้ให้มือเขียนนิพจน์ปกติ ( RES ) เช่น [ 59,60 ] ผลลัพธ์มีแวว แต่จำนวนที่ตนเองเขียน res( 165 res สำหรับ 9-concept อภิปรัชญา [ 59 ] ) ทำให้ยากที่จะจัดการเพิ่มเติม วิธีการของพวกเขาไม่เน้น scalability ซึ่งแตกต่างจาก[ 61,40 ] ที่เสนอรูปแบบโดยใช้เครื่องมือที่ชื่อ ontea res .ontea ใช้ประโยชน์จาก Hadoop mapreduce ขนาด มากขึ้น และเพิ่มเติมวิธีการโดยอัตโนมัติได้รับการเสนอ มันเป็นคดีของ knowitall [ 62 ] และ textrunner . อดีตใช้ที่กำหนดไว้ล่วงหน้ารูปแบบและแม่แบบกฎเพื่อใส่ในชั้นเรียนให้ภววิทยา .แม้ว่าอัตโนมัติ knowitall ไม่ได้ขนาด : webdocumentการประมวลผลหลายๆ ครั้ง สำหรับรูปแบบการจับคู่และแบบสอบถามหลายเว็บจะทำให้โอกาสที่จะเป็นแนวคิด ฯลฯ ดังนั้น textrunner ซึ่งใช้ใหม่การสกัดกระบวนทัศน์ของการสกัดข้อมูล ( OIE ) ได้เปิดแนะนำตัว ในองค์กรที่ เราไม่ จำกัด ในการตั้งค่าของอเนกประสงค์แต่พยายามที่จะดึงพวกเขาทั้งหมด [ 8,47 ] เมื่อเร็วๆ นี้ ดังต่อไปนี้เสียงสะท้อน [ 63 ] ปัจจุบัน ออลลี่ ซึ่งแตกต่างจาก reverb , ออลลี่สามารถแยกความสัมพันธ์ไม่ ) โดยกริยา และในบางกรณีสามารถให้บริบทของความสัมพันธ์ ( เช่น : " ถ้าเขาชนะห้า Key อเมริกา รอมนีย์จะเลือกประธาน " −→ ( วินนิ่งของสหรัฐอเมริกากำหนดคีย์การเลือกตั้งจริง ) )ในข้อเท็จจริงนี้เกี่ยวงานแนวทางล่าสุด โฟกัสในตลาดนอกเหนือจากการเรียกคืน และความแม่นยำ มันคือกรณี [ 41 ] ซึ่งใช้ประโยชน์จาก mapreduce Hadoop เพื่อแจกจ่ายรูปแบบการจับคู่ส่วนของอัลกอริทึมของพวกเขา ตอนนี้เน้นความเร็ว เกือบเหมือนกลุ่มของผู้เขียนได้เสนอแนวคิดใหม่ในประชากรของความรู้ฐานใน [ 43 ] ที่นี่ พวกเขาเสนอให้แยกชุดหนึ่งของประชาสัมพันธ์ จากเอกสารที่ระบุในเวลา " เฉือน " การสกัดนี้สามารถปรับปรุงตามหัวข้อที่ครอบคลุมโดยเอกสาร( เช่นอย่าพยายามที่จะดึงเพลงจากโดเมนของความสัมพันธ์กีฬาเอกสาร ) หรือโดยการจับคู่รูปแบบของความสัมพันธ์ในดัชนีสร้างจากเอกสาร เพิ่มเติม เนื่องจากเว็บแทน( ระบุข้อเท็จจริงเผยแพร่โดยนับหมื่นของเว็บไซต์ ) , เปอร์เซ็นต์เล็ก ๆของเอกสารสามารถครอบคลุมส่วนของข้อเท็จจริง อนึ่ง[ 42 ] รูปแบบ RDF โครงร่างข้อมูลในระหว่างเวลาฝานระยะเวลา มันเป็นสิ่งสำคัญที่จะทราบว่าทั้งการประมวลผลของข้อมูลที่รวบรวมในช่วงเวลาที่ต้องทำในช่วงที่ระยะเวลา เว้นแต่วัฏจักรการประมวลผลจะถูกบล็อกจำได้ว่า ความสัมพันธ์อาจจะ n-ary . ตัวอย่างเช่น ในเว็บ [ 64 ]คลังข้อมูล n-ary ประชาสัมพันธ์ เป็นตัวแทนตัวแทน , 40% ของทั้งหมดความสัมพันธ์ เกี่ยวกับความสัมพันธ์ n-ary การสกัด [ 65,66 ] มีมากที่เกี่ยวข้องงาน พวกเขาทั้งสองใช้แสตนฟอร์ด corenlp พิมพ์การอ้างอิงเส้นทางแยกอาร์กิวเมนต์ของข้อเท็จจริงที่แตกต่างกัน จะลงท้ายด้วยการสกัดข้อมูลให้ชัดเจนว่า ไม่ได้เป็นทั้งหมดเกี่ยวกับข้อความฟรี บางงานจึงโฟกัสบนเว็บตารางหรือรายการ67 – [ 69 ]
การแปล กรุณารอสักครู่..
