Once more, we note that very few wo

Once more, we note that very few work have in mind Big
Data characteristics while addressing coreference resolution.
In challenges about indexing billions of RDF triples or reasoning
on them (see further), we see that scientists deal
with data formats which are quite easy to handle by a
computer (RDF/RDFS, OWL/OWL2). But the transformation
of pieces of natural language-written texts into computerunderstandable
formats have to be done first.
4.2.3. Information extraction
One of the intuitive ways to perform this task is to provide
hand-written regular expressions (REs) like [59,60]. The results
are promising but the number of manually-written REs
(165 REs for a 9-concept ontology [59]) makes it hard to handle.
More, their approach does not focus on scalability unlike
[61,40] who propose a REs pattern-based tool named OnTeA.
OnTeA takes advantage of Hadoop MapReduce to scale. More and
more, automatic approaches had been proposed. It is the case
of KNOWITALL [62] and TextRunner. The former uses predefined
patterns and rule templates to populate classes in a given ontology.
Though automatic, KNOWITALL does not scale: a webdocument
is processed several times for patterns matching
and many web-queries are done to assign a probability to a
concept, etc. Thus, TextRunner which implements the new
extraction paradigm of Open Information Extraction (OIE) had
been introduced. In OIE, we are not limited in a set of triples
but try to extract all of them [8,47]. More recently, following
REVERB, [63] present OLLIE. Unlike REVERB, OLLIE can extract relation
not mediated by verb and in certain case can provide
the context of a relation (e.g: “If he wins five key states, Romney
will be elected President.” −→ (the wining of key states determines
the election fact)).
In this facts harvesting task, some recent approaches focus
on scalability in addition to recall and precision. It is the
case of [41] which take advantage of Hadoop MapReduce to distribute
the patterns matching part of their algorithm. Now
focusing on the velocity, almost the same group of authors
has proposed a novel approach for population of knowledge
bases in [43]. Here, they propose to extract a certain set of
relations from documents in a given “time-slice”. This extraction
can be improved based on the topics covered by the document
(e.g do not try to extract music-domain relations from
a sport document) or by matching patterns of relations on an
index build from documents. More, since web is redundant
(a given fact is published by tens of sites), a small percentage
of documents can cover a significant part of facts. Likewise,
[42] RDF-format unstructured data during a time-slice
duration. It is important to note that the whole processing of
data gather during a period of time must be done during that
period of time, unless the processing cycle will be blocked.
Recall that relations could be n-ary. For instance, in [64]’s web
representative-corpus, n-ary relations represented 40% of all
relations. About n-ary relations extraction, [65,66] are very relevant
work. They both use Stanford CoreNLP typed dependencies
paths to extract arguments of different facts. To end with
information extraction, let us precise that is not all about
free text. Some work has thus focus on web tables or lists

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

เมื่อเราทราบเพิ่มเติม ทำงานที่น้อยมากมีใจใหญ่ลักษณะข้อมูลในขณะที่จัดการกับ coreference ความละเอียดในความท้าทายเกี่ยวกับดัชนีพัน RDF triples หรือเหตุผลพวกเขา (ดูเพิ่มเติม), เราได้เห็นว่า นักวิทยาศาสตร์จัดการด้วยรูปแบบของข้อมูลซึ่งจะค่อนข้างง่ายโดยการคอมพิวเตอร์ (RDF/RDFS นก ฮูก/OWL2) แต่การเปลี่ยนแปลงของภาษาธรรมชาติเขียนข้อความลงใน computerunderstandableรูปแบบที่ต้องทำก่อน4.2.3. ด่วนวิธีง่ายในการทำงานนี้อย่างใดอย่างหนึ่งคือการให้ลายมือนิพจน์ทั่วไป (ทรัพยากร) เช่น [59,60] ผลลัพธ์มีแนวโน้มแต่จำนวนคำที่เขียนด้วยตนเอง(165 ทรัพยากรสำหรับภววิทยา 9 แนวคิด [59]) ทำให้ยากที่จะจัดการเพิ่มเติม วิธีไม่เน้นภาระแตกต่างจาก[61,40] ที่เสนอความละเอียดตามรูปแบบเครื่องมือที่ชื่อ OnTeAOnTeA ใช้ประโยชน์ของ Hadoop MapReduce เพื่อปรับขนาด เพิ่มเติม และมีการเสนอแนวทางเพิ่มเติม อัตโนมัติ เป็นกรณีKNOWITALL [62] และ TextRunner ใช้เดิมที่กำหนดไว้ล่วงหน้ารูปแบบและแม่แบบกฎเพื่อใส่ชั้นในภววิทยากำหนดว่าอัตโนมัติ KNOWITALL ขนาด: webdocument การมีการประมวลผลหลายครั้งสำหรับรูปแบบที่ตรงกันและแบบสอบถามเว็บที่มากจะทำการกำหนดความน่าเป็นเพื่อการแนวคิด ฯลฯ ดังนั้น TextRunner ซึ่งใช้ใหม่ได้สกัดกระบวนทัศน์ของการสกัดข้อมูลเปิด (ต้อง)รับการแนะนำ ในต้อง เราจะไม่จำกัดเฉพาะในชุดของ triplesแต่พยายามที่จะดึงทั้งหมดของพวกเขา [8,47] เมื่อเร็ว ๆ นี้ ต่อไปนี้ก้อง OLLIE ปัจจุบัน [63] ซึ่งแตกต่างจากเสียงสะท้อน OLLIE สามารถแยกความสัมพันธ์ไม่มีคำกริยา และใน บางกรณีสามารถให้บริบทของความสัมพันธ์ (เช่น: ''ถ้าเขาชนะอเมริกาหลักห้า Romney−→จะเลือกตั้งประธานาธิบดี " (วินนิ่งของอเมริกาที่สำคัญกำหนดเลือกตั้งจริง))ในข้อเท็จจริงนี้เก็บงาน โฟกัสวิธีบางอย่างล่าสุดในภาระนอกเหนือจากการเรียกคืนและความแม่นยำ มันเป็นการกรณีของ [41] ซึ่งประโยชน์ของ Hadoop MapReduce การกระจายรูปแบบสัดส่วนของอัลกอริทึมของพวกเขา ตอนนี้เน้นความเร็ว เกือบกลุ่มเดียวของผู้เขียนได้เสนอวิธีการใหม่สำหรับประชากรความรู้ฐานใน [43] ที่นี่ พวกเขาเสนอการแยกชุดของความสัมพันธ์จากเอกสารในการกำหนด "เวลาตัก" สกัดนี้สามารถพัฒนาตามหัวข้อครอบคลุมถึงเอกสาร(เช่นไม่พยายามขยายความสัมพันธ์โดเมนเพลงจากเอกสารกีฬา) หรือ โดยการจับคู่รูปแบบของความสัมพันธ์ในการสร้างดัชนีจากเอกสาร อื่น ๆ เว็บเป็นซ้ำซ้อน(ความจริงกำหนดเผยแพร่ โดยหลายสิบของเว็บไซต์), เล็กน้อยเอกสารสามารถครอบคลุมเป็นส่วนสำคัญของข้อเท็จจริง ในทำนองเดียวกัน[42] RDF รูปแบบไม่มีโครงสร้างข้อมูลระหว่างชิ้นเวลาระยะเวลา หมายเหตุที่สำคัญคือการประมวลผลทั้งหมดรวบรวมข้อมูลในระหว่างรอบระยะเวลาต้องทำในช่วงที่ระยะเวลา เว้นแต่ว่ารอบการประมวลผลจะถูกบล็อกเรียกว่า ความสัมพันธ์อาจจะเกี่ยวกับ n เช่น ใน [64] ของเว็บตัวแทนคอร์ปัส สัมพันธ์เกี่ยวกับ n แทน 40% ของทั้งหมดความสัมพันธ์ทาง เกี่ยวกับการสกัดความสัมพันธ์เกี่ยวกับ n, [65,66] เกี่ยวข้องมากทำงาน จะใช้สแตนฟอร์ด CoreNLP พิมพ์อ้างอิงเส้นทางการแยกอาร์กิวเมนต์ของข้อเท็จจริงที่แตกต่างกัน จะจบด้วยการสกัดข้อมูล ให้เราแม่นยำที่ไม่เกี่ยวกับข้อความฟรี งานบางอย่างได้จึงเน้นเว็บตารางหรือรายการ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

อีกครั้งหนึ่งที่เราทราบว่าการทำงานน้อยมากที่มีในใจบิ๊ก
ลักษณะข้อมูลในขณะที่ความละเอียด coreference.
ในความท้าทายที่เกี่ยวกับการจัดทำดัชนีพันล้านอเนกประสงค์ RDF หรือเหตุผล
ที่พวกเขา (ดูเพิ่มเติม) เราจะเห็นว่านักวิทยาศาสตร์จัดการ
กับรูปแบบข้อมูลที่ค่อนข้างง่ายต่อการ จัดการโดย
คอมพิวเตอร์ (RDF / RDFS นกฮูก / OWL2) แต่การเปลี่ยนแปลง
ของชิ้นส่วนของภาษาเขียนตำราธรรมชาติเข้า computerunderstandable
รูปแบบจะต้องมีการทำครั้งแรก.
4.2.3 การสกัดข้อมูล
หนึ่งในวิธีที่ง่ายในการดำเนินการนี้คือการให้
การแสดงออกปกติที่เขียนด้วยมือ (REs) เช่น [59,60] ผล
มีแนวโน้ม แต่จำนวนโลว์ด้วยตนเองเขียน
(165 REs สำหรับอภิปรัชญา 9-CONCEPT [59]) ทำให้ยากที่จะจัดการ.
เพิ่มเติมแนวทางของพวกเขาไม่ได้มุ่งเน้นขยายขีดความสามารถแตกต่างจาก
[61,40] ที่เสนอ REs เครื่องมือรูปแบบตามชื่อ OnTeA.
OnTeA ใช้ประโยชน์จาก Hadoop MapReduce จะไต่ มากขึ้นและ
มากขึ้นวิธีการอัตโนมัติได้รับการเสนอชื่อ เป็นกรณี
ของ KNOWITALL [62] และ TextRunner อดีตที่กำหนดไว้ล่วงหน้าใช้
รูปแบบและแม่แบบการปกครองเพื่อเติมชั้นเรียนในอภิปรัชญาที่กำหนด.
แม้ว่าอัตโนมัติ KNOWITALL ไม่ได้ระดับที่: webdocument
มีการประมวลผลหลายครั้งสำหรับรูปแบบการจับคู่
และหลายเว็บแบบสอบถามจะดำเนินการเพื่อกำหนดความน่าจะเป็นกับ
แนวคิด ฯลฯ ดังนั้น TextRunner ซึ่งดำเนินการใหม่
กระบวนทัศน์การสกัดเปิดสกัดสารสนเทศ (OIE) ได้
รับการแนะนำ ใน OIE เราไม่ได้ จำกัด อยู่ในชุดของอเนกประสงค์
แต่พยายามที่จะดึงทั้งหมดของพวกเขา [8,47] เมื่อเร็ว ๆ นี้ต่อไป
พัดโบก [63] Ollie ปัจจุบัน ซึ่งแตกต่างจากพัดโบก Ollie สามารถแยกความสัมพันธ์
ไม่ไกล่เกลี่ยโดยคำกริยาและในกรณีที่บางอย่างสามารถให้
บริบทของความสัมพันธ์ (เช่น: "ถ้าเขาชนะห้ารัฐที่สำคัญรอมนีย์
- → (วินนิ่งของรัฐที่สำคัญในการพิจารณาว่าจะได้รับการเลือกตั้งเป็นประธานาธิบดี."
การเลือกตั้งจริง)).
ในงานนี้ข้อเท็จจริงเก็บเกี่ยวบางวิธีการที่ผ่านมามุ่งเน้น
ในการขยายขีดความสามารถนอกเหนือจากการจำและความแม่นยำ มันเป็น
กรณีของ [41] ซึ่งใช้ประโยชน์จาก Hadoop MapReduce เพื่อแจกจ่าย
รูปแบบการจับคู่เป็นส่วนหนึ่งของขั้นตอนวิธีการของพวกเขา ตอนนี้
มุ่งเน้นไปที่ความเร็วเกือบกลุ่มเดียวกันของผู้เขียน
ได้เสนอแนวทางใหม่สำหรับประชากรของความรู้
ในฐาน [43] ที่นี่พวกเขาเสนอที่จะดึงบางชุดของ
ความสัมพันธ์จากเอกสารในการให้ "เวลาชิ้น" สกัดนี้
สามารถปรับปรุงได้ตามหัวข้อที่ครอบคลุมโดยเอกสาร
(เช่นไม่พยายามที่จะดึงความสัมพันธ์เพลงโดเมนจาก
เอกสารกีฬา) หรือตรงกับรูปแบบของความสัมพันธ์ใน
ดัชนีสร้างจากเอกสาร มากขึ้นเนื่องจากเว็บเป็นซ้ำซ้อน
(ความจริงที่ได้รับการเผยแพร่โดยนับเว็บไซต์) ร้อยละขนาดเล็ก
ของเอกสารที่สามารถครอบคลุมเป็นส่วนสำคัญของข้อเท็จจริง ในทำนองเดียวกัน
ข้อมูลที่ไม่มีโครงสร้าง [42] RDF รูปแบบในช่วงเวลาที่-slice
ระยะเวลา มันเป็นสิ่งสำคัญที่จะต้องทราบว่าการประมวลผลทั้งหมดของ
ข้อมูลที่รวบรวมในช่วงระยะเวลาที่จะต้องทำในช่วง
ระยะเวลาเว้นแต่วงจรการประมวลผลจะถูกปิดกั้น.
จำได้ว่าอาจจะมีความสัมพันธ์ที่ N-Ary ยกตัวอย่างเช่นใน [64] ของเว็บ
สัมพันธ์ตัวแทน-คลัง n- เกี่ยวตัวแทน 40% ของ
ความสัมพันธ์ เกี่ยวกับ n- เกี่ยวสกัดความสัมพันธ์ [65,66] มีความเกี่ยวข้องมาก
ทำงาน พวกเขาทั้งสองใช้สแตนฟอ CoreNLP พิมพ์อ้างอิง
เส้นทางที่จะดึงข้อโต้แย้งของข้อเท็จจริงที่แตกต่างกัน จะจบลงด้วย
การสกัดข้อมูลให้เราได้อย่างแม่นยำว่าไม่ทั้งหมดเกี่ยวกับ
ข้อความฟรี บางคนทำงานจึงได้มุ่งเน้นไปที่ตารางเว็บหรือรายการ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.