4.2.3. Information extractionOne of

4.2.3. Information extraction
One of the intuitive ways to perform this task is to provide
hand-written regular expressions (REs) like [59,60]. The results
are promising but the number of manually-written REs
(165 REs for a 9-concept ontology [59]) makes it hard to handle.
More, their approach does not focus on scalability unlike
[61,40] who propose a REs pattern-based tool named OnTeA.
OnTeA takes advantage of Hadoop MapReduce to scale. More and
more, automatic approaches had been proposed. It is the case
of KNOWITALL [62] and TextRunner. The former uses predefined
patterns and rule templates to populate classes in a given ontology.
Though automatic, KNOWITALL does not scale: a webdocument
is processed several times for patterns matching
and many web-queries are done to assign a probability to a
concept, etc. Thus, TextRunner which implements the new
extraction paradigm of Open Information Extraction (OIE) had
been introduced. In OIE, we are not limited in a set of triples
but try to extract all of them [8,47]. More recently, following
REVERB, [63] present OLLIE. Unlike REVERB, OLLIE can extract relation
not mediated by verb and in certain case can provide
the context of a relation (e.g: “If he wins five key states, Romney
will be elected President.” −→ (the wining of key states determines
the election fact)).
In this facts harvesting task, some recent approaches focus
on scalability in addition to recall and precision. It is the
case of [41] which take advantage of Hadoop MapReduce to distribute
the patterns matching part of their algorithm. Now
focusing on the velocity, almost the same group of authors
has proposed a novel approach for population of knowledge
bases in [43]. Here, they propose to extract a certain set of
relations from documents in a given “time-slice”. This extraction
can be improved based on the topics covered by the document
(e.g do not try to extract music-domain relations from
a sport document) or by matching patterns of relations on an
index build from documents. More, since web is redundant
(a given fact is published by tens of sites), a small percentage
of documents can cover a significant part of facts. Likewise,
[42] RDF-format unstructured data during a time-slice
duration. It is important to note that the whole processing of
data gather during a period of time must be done during that
period of time, unless the processing cycle will be blocked.
Recall that relations could be n-ary. For instance, in [64]’s web
representative-corpus, n-ary relations represented 40% of all
relations. About n-ary relations extraction, [65,66] are very relevant
work. They both use Stanford CoreNLP typed dependencies
paths to extract arguments of different facts. To end with
information extraction, let us precise that is not all about
free text. Some work has thus focus on web tables or lists
[67–69].

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

4.2.3. ด่วนวิธีง่ายในการทำงานนี้อย่างใดอย่างหนึ่งคือการให้ลายมือนิพจน์ทั่วไป (ทรัพยากร) เช่น [59,60] ผลลัพธ์มีแนวโน้มแต่จำนวนคำที่เขียนด้วยตนเอง(165 ทรัพยากรสำหรับภววิทยา 9 แนวคิด [59]) ทำให้ยากที่จะจัดการเพิ่มเติม วิธีไม่เน้นภาระแตกต่างจาก[61,40] ที่เสนอความละเอียดตามรูปแบบเครื่องมือที่ชื่อ OnTeAOnTeA ใช้ประโยชน์ของ Hadoop MapReduce เพื่อปรับขนาด เพิ่มเติม และมีการเสนอแนวทางเพิ่มเติม อัตโนมัติ เป็นกรณีKNOWITALL [62] และ TextRunner ใช้เดิมที่กำหนดไว้ล่วงหน้ารูปแบบและแม่แบบกฎเพื่อใส่ชั้นในภววิทยากำหนดว่าอัตโนมัติ KNOWITALL ขนาด: webdocument การมีการประมวลผลหลายครั้งสำหรับรูปแบบที่ตรงกันและแบบสอบถามเว็บที่มากจะทำการกำหนดความน่าเป็นเพื่อการแนวคิด ฯลฯ ดังนั้น TextRunner ซึ่งใช้ใหม่ได้สกัดกระบวนทัศน์ของการสกัดข้อมูลเปิด (ต้อง)รับการแนะนำ ในต้อง เราจะไม่จำกัดเฉพาะในชุดของ triplesแต่พยายามที่จะดึงทั้งหมดของพวกเขา [8,47] เมื่อเร็ว ๆ นี้ ต่อไปนี้ก้อง OLLIE ปัจจุบัน [63] ซึ่งแตกต่างจากเสียงสะท้อน OLLIE สามารถแยกความสัมพันธ์ไม่มีคำกริยา และใน บางกรณีสามารถให้บริบทของความสัมพันธ์ (เช่น: ''ถ้าเขาชนะอเมริกาหลักห้า Romney−→จะเลือกตั้งประธานาธิบดี " (วินนิ่งของอเมริกาที่สำคัญกำหนดเลือกตั้งจริง))ในข้อเท็จจริงนี้เก็บงาน โฟกัสวิธีบางอย่างล่าสุดในภาระนอกเหนือจากการเรียกคืนและความแม่นยำ มันเป็นการกรณีของ [41] ซึ่งประโยชน์ของ Hadoop MapReduce การกระจายรูปแบบสัดส่วนของอัลกอริทึมของพวกเขา ตอนนี้เน้นความเร็ว เกือบกลุ่มเดียวของผู้เขียนได้เสนอวิธีการใหม่สำหรับประชากรความรู้ฐานใน [43] ที่นี่ พวกเขาเสนอการแยกชุดของความสัมพันธ์จากเอกสารในการกำหนด "เวลาตัก" สกัดนี้สามารถพัฒนาตามหัวข้อครอบคลุมถึงเอกสาร(เช่นไม่พยายามขยายความสัมพันธ์โดเมนเพลงจากเอกสารกีฬา) หรือ โดยการจับคู่รูปแบบของความสัมพันธ์ในการสร้างดัชนีจากเอกสาร อื่น ๆ เว็บเป็นซ้ำซ้อน(ความจริงกำหนดเผยแพร่ โดยหลายสิบของเว็บไซต์), เล็กน้อยเอกสารสามารถครอบคลุมเป็นส่วนสำคัญของข้อเท็จจริง ในทำนองเดียวกัน[42] RDF รูปแบบไม่มีโครงสร้างข้อมูลระหว่างชิ้นเวลาระยะเวลา หมายเหตุที่สำคัญคือการประมวลผลทั้งหมดรวบรวมข้อมูลในระหว่างรอบระยะเวลาต้องทำในช่วงที่ระยะเวลา เว้นแต่ว่ารอบการประมวลผลจะถูกบล็อกเรียกว่า ความสัมพันธ์อาจจะเกี่ยวกับ n เช่น ใน [64] ของเว็บตัวแทนคอร์ปัส สัมพันธ์เกี่ยวกับ n แทน 40% ของทั้งหมดความสัมพันธ์ทาง เกี่ยวกับการสกัดความสัมพันธ์เกี่ยวกับ n, [65,66] เกี่ยวข้องมากทำงาน จะใช้สแตนฟอร์ด CoreNLP พิมพ์อ้างอิงเส้นทางการแยกอาร์กิวเมนต์ของข้อเท็จจริงที่แตกต่างกัน จะจบด้วยการสกัดข้อมูล ให้เราแม่นยำที่ไม่เกี่ยวกับข้อความฟรี งานบางอย่างได้จึงเน้นเว็บตารางหรือรายการ[67 – 69]

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

4.2.3 การสกัดข้อมูล
หนึ่งในวิธีที่ง่ายในการดำเนินการนี้คือการให้
การแสดงออกปกติที่เขียนด้วยมือ (REs) เช่น [59,60] ผล
มีแนวโน้ม แต่จำนวนโลว์ด้วยตนเองเขียน
(165 REs สำหรับอภิปรัชญา 9-CONCEPT [59]) ทำให้ยากที่จะจัดการ.
เพิ่มเติมแนวทางของพวกเขาไม่ได้มุ่งเน้นขยายขีดความสามารถแตกต่างจาก
[61,40] ที่เสนอ REs เครื่องมือรูปแบบตามชื่อ OnTeA.
OnTeA ใช้ประโยชน์จาก Hadoop MapReduce จะไต่ มากขึ้นและ
มากขึ้นวิธีการอัตโนมัติได้รับการเสนอชื่อ เป็นกรณี
ของ KNOWITALL [62] และ TextRunner อดีตที่กำหนดไว้ล่วงหน้าใช้
รูปแบบและแม่แบบการปกครองเพื่อเติมชั้นเรียนในอภิปรัชญาที่กำหนด.
แม้ว่าอัตโนมัติ KNOWITALL ไม่ได้ระดับที่: webdocument
มีการประมวลผลหลายครั้งสำหรับรูปแบบการจับคู่
และหลายเว็บแบบสอบถามจะดำเนินการเพื่อกำหนดความน่าจะเป็นกับ
แนวคิด ฯลฯ ดังนั้น TextRunner ซึ่งดำเนินการใหม่
กระบวนทัศน์การสกัดเปิดสกัดสารสนเทศ (OIE) ได้
รับการแนะนำ ใน OIE เราไม่ได้ จำกัด อยู่ในชุดของอเนกประสงค์
แต่พยายามที่จะดึงทั้งหมดของพวกเขา [8,47] เมื่อเร็ว ๆ นี้ต่อไป
พัดโบก [63] Ollie ปัจจุบัน ซึ่งแตกต่างจากพัดโบก Ollie สามารถแยกความสัมพันธ์
ไม่ไกล่เกลี่ยโดยคำกริยาและในกรณีที่บางอย่างสามารถให้
บริบทของความสัมพันธ์ (เช่น: "ถ้าเขาชนะห้ารัฐที่สำคัญรอมนีย์
- → (วินนิ่งของรัฐที่สำคัญในการพิจารณาว่าจะได้รับการเลือกตั้งเป็นประธานาธิบดี."
การเลือกตั้งจริง)).
ในงานนี้ข้อเท็จจริงเก็บเกี่ยวบางวิธีการที่ผ่านมามุ่งเน้น
ในการขยายขีดความสามารถนอกเหนือจากการจำและความแม่นยำ มันเป็น
กรณีของ [41] ซึ่งใช้ประโยชน์จาก Hadoop MapReduce เพื่อแจกจ่าย
รูปแบบการจับคู่เป็นส่วนหนึ่งของขั้นตอนวิธีการของพวกเขา ตอนนี้
มุ่งเน้นไปที่ความเร็วเกือบกลุ่มเดียวกันของผู้เขียน
ได้เสนอแนวทางใหม่สำหรับประชากรของความรู้
ในฐาน [43] ที่นี่พวกเขาเสนอที่จะดึงบางชุดของ
ความสัมพันธ์จากเอกสารในการให้ "เวลาชิ้น" สกัดนี้
สามารถปรับปรุงได้ตามหัวข้อที่ครอบคลุมโดยเอกสาร
(เช่นไม่พยายามที่จะดึงความสัมพันธ์เพลงโดเมนจาก
เอกสารกีฬา) หรือตรงกับรูปแบบของความสัมพันธ์ใน
ดัชนีสร้างจากเอกสาร มากขึ้นเนื่องจากเว็บเป็นซ้ำซ้อน
(ความจริงที่ได้รับการเผยแพร่โดยนับเว็บไซต์) ร้อยละขนาดเล็ก
ของเอกสารที่สามารถครอบคลุมเป็นส่วนสำคัญของข้อเท็จจริง ในทำนองเดียวกัน
ข้อมูลที่ไม่มีโครงสร้าง [42] RDF รูปแบบในช่วงเวลาที่-slice
ระยะเวลา มันเป็นสิ่งสำคัญที่จะต้องทราบว่าการประมวลผลทั้งหมดของ
ข้อมูลที่รวบรวมในช่วงระยะเวลาที่จะต้องทำในช่วง
ระยะเวลาเว้นแต่วงจรการประมวลผลจะถูกปิดกั้น.
จำได้ว่าอาจจะมีความสัมพันธ์ที่ N-Ary ยกตัวอย่างเช่นใน [64] ของเว็บ
สัมพันธ์ตัวแทน-คลัง n- เกี่ยวตัวแทน 40% ของ
ความสัมพันธ์ เกี่ยวกับ n- เกี่ยวสกัดความสัมพันธ์ [65,66] มีความเกี่ยวข้องมาก
ทำงาน พวกเขาทั้งสองใช้สแตนฟอ CoreNLP พิมพ์อ้างอิง
เส้นทางที่จะดึงข้อโต้แย้งของข้อเท็จจริงที่แตกต่างกัน จะจบลงด้วย
การสกัดข้อมูลให้เราได้อย่างแม่นยำว่าไม่ทั้งหมดเกี่ยวกับ
ข้อความฟรี บางคนทำงานจึงได้มุ่งเน้นไปที่ตารางเว็บหรือรายการ
[67-69]

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

4.2.3 . การสกัดข้อมูลหนึ่งในวิธีที่ง่ายเพื่อดำเนินการงานนี้ให้มือเขียนนิพจน์ปกติ ( RES ) เช่น [ 59,60 ] ผลลัพธ์มีแวว แต่จำนวนที่ตนเองเขียน res( 165 res สำหรับ 9-concept อภิปรัชญา [ 59 ] ) ทำให้ยากที่จะจัดการเพิ่มเติม วิธีการของพวกเขาไม่เน้น scalability ซึ่งแตกต่างจาก[ 61,40 ] ที่เสนอรูปแบบโดยใช้เครื่องมือที่ชื่อ ontea res .ontea ใช้ประโยชน์จาก Hadoop mapreduce ขนาด มากขึ้น และเพิ่มเติมวิธีการโดยอัตโนมัติได้รับการเสนอ มันเป็นคดีของ knowitall [ 62 ] และ textrunner . อดีตใช้ที่กำหนดไว้ล่วงหน้ารูปแบบและแม่แบบกฎเพื่อใส่ในชั้นเรียนให้ภววิทยา .แม้ว่าอัตโนมัติ knowitall ไม่ได้ขนาด : webdocumentการประมวลผลหลายๆ ครั้ง สำหรับรูปแบบการจับคู่และแบบสอบถามหลายเว็บจะทำให้โอกาสที่จะเป็นแนวคิด ฯลฯ ดังนั้น textrunner ซึ่งใช้ใหม่การสกัดกระบวนทัศน์ของการสกัดข้อมูล ( OIE ) ได้เปิดแนะนำตัว ในองค์กรที่ เราไม่ จำกัด ในการตั้งค่าของอเนกประสงค์แต่พยายามที่จะดึงพวกเขาทั้งหมด [ 8,47 ] เมื่อเร็วๆ นี้ ดังต่อไปนี้เสียงสะท้อน [ 63 ] ปัจจุบัน ออลลี่ ซึ่งแตกต่างจาก reverb , ออลลี่สามารถแยกความสัมพันธ์ไม่ ) โดยกริยา และในบางกรณีสามารถให้บริบทของความสัมพันธ์ ( เช่น : " ถ้าเขาชนะห้า Key อเมริกา รอมนีย์จะเลือกประธาน " −→ ( วินนิ่งของสหรัฐอเมริกากำหนดคีย์การเลือกตั้งจริง ) )ในข้อเท็จจริงนี้เกี่ยวงานแนวทางล่าสุด โฟกัสในตลาดนอกเหนือจากการเรียกคืน และความแม่นยำ มันคือกรณี [ 41 ] ซึ่งใช้ประโยชน์จาก mapreduce Hadoop เพื่อแจกจ่ายรูปแบบการจับคู่ส่วนของอัลกอริทึมของพวกเขา ตอนนี้เน้นความเร็ว เกือบเหมือนกลุ่มของผู้เขียนได้เสนอแนวคิดใหม่ในประชากรของความรู้ฐานใน [ 43 ] ที่นี่ พวกเขาเสนอให้แยกชุดหนึ่งของประชาสัมพันธ์ จากเอกสารที่ระบุในเวลา " เฉือน " การสกัดนี้สามารถปรับปรุงตามหัวข้อที่ครอบคลุมโดยเอกสาร( เช่นอย่าพยายามที่จะดึงเพลงจากโดเมนของความสัมพันธ์กีฬาเอกสาร ) หรือโดยการจับคู่รูปแบบของความสัมพันธ์ในดัชนีสร้างจากเอกสาร เพิ่มเติม เนื่องจากเว็บแทน( ระบุข้อเท็จจริงเผยแพร่โดยนับหมื่นของเว็บไซต์ ) , เปอร์เซ็นต์เล็ก ๆของเอกสารสามารถครอบคลุมส่วนของข้อเท็จจริง อนึ่ง[ 42 ] รูปแบบ RDF โครงร่างข้อมูลในระหว่างเวลาฝานระยะเวลา มันเป็นสิ่งสำคัญที่จะทราบว่าทั้งการประมวลผลของข้อมูลที่รวบรวมในช่วงเวลาที่ต้องทำในช่วงที่ระยะเวลา เว้นแต่วัฏจักรการประมวลผลจะถูกบล็อกจำได้ว่า ความสัมพันธ์อาจจะ n-ary . ตัวอย่างเช่น ในเว็บ [ 64 ]คลังข้อมูล n-ary ประชาสัมพันธ์ เป็นตัวแทนตัวแทน , 40% ของทั้งหมดความสัมพันธ์ เกี่ยวกับความสัมพันธ์ n-ary การสกัด [ 65,66 ] มีมากที่เกี่ยวข้องงาน พวกเขาทั้งสองใช้แสตนฟอร์ด corenlp พิมพ์การอ้างอิงเส้นทางแยกอาร์กิวเมนต์ของข้อเท็จจริงที่แตกต่างกัน จะลงท้ายด้วยการสกัดข้อมูลให้ชัดเจนว่า ไม่ได้เป็นทั้งหมดเกี่ยวกับข้อความฟรี บางงานจึงโฟกัสบนเว็บตารางหรือรายการ67 – [ 69 ]

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.