In this facts harvesting task, some

In this facts harvesting task, some recent approaches focus on scalability in addition to recall and precision. It is the

case of which take advantage of Hadoop MapReduce to distribute the patterns matching part of their algorithm. Now

focusing on the velocity, almost the same group of authors

has proposed a novel approach for population of knowledge

bases in. Here, they propose to extract a certain set of relations from documents in a given “time-slice”. This extraction can be improved based on the topics covered by the document (e.g do not try to extract music-domain relations from

a sport document) or by matching patterns of relations on an

index build from documents. More, since web is redundant

(a given fact is published by tens of sites), a small percentage of documents can cover a significant part of facts. Like wise, RDF-format unstructured data during a time slice

duration. It is important to note that the whole processing of

data gather during a period of time must be done during that

period of time, unless the processing cycle will be blocked.

Recall that relations could be n-ary. For instance, in [64]’s web

representative corpus, n-ary relations represented 40% of all

relations. About n-ary relations extraction, are very relevant work. They both use Stanford CoreNLP typed dependencies paths to extract arguments of different facts. To end with

information extraction, let us precise that is not all about

free text. Some work has thus focus on web tables or lists.

In this facts harvesting task, some recent approaches focus on scalability in addition to recall and precision. It is the

case of which take advantage of Hadoop MapReduce to distribute the patterns matching part of their algorithm. Now

focusing on the velocity, almost the same group of authors

has proposed a novel approach for population of knowledge

bases in. Here, they propose to extract a certain set of relations from documents in a given “time-slice”. This extraction can be improved based on the topics covered by the document (e.g do not try to extract music-domain relations from

a sport document) or by matching patterns of relations on an

index build from documents. More, since web is redundant

(a given fact is published by tens of sites), a small percentage of documents can cover a significant part of facts. Like wise, RDF-format unstructured data during a time slice

duration. It is important to note that the whole processing of

data gather during a period of time must be done during that

period of time, unless the processing cycle will be blocked.

Recall that relations could be n-ary. For instance, in [64]’s web

representative corpus, n-ary relations represented 40% of all

relations. About n-ary relations extraction, are very relevant work. They both use Stanford CoreNLP typed dependencies paths to extract arguments of different facts. To end with

information extraction, let us precise that is not all about

free text. Some work has thus focus on web tables or lists.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

ใน ข้อเท็จจริงที่เกี่ยวงาน บางวิธีล่าเน้นภาระนอกเหนือจากความแม่นยำและการเรียกคืน มันเป็นการกรณีที่ใช้ประโยชน์ของ Hadoop MapReduce การกระจายรูปแบบสัดส่วนของอัลกอริทึมของพวกเขา ตอนนี้เน้นความเร็ว เกือบกลุ่มเดียวของผู้เขียนได้เสนอวิธีการใหม่สำหรับประชากรความรู้ฐานใน ที่นี่ พวกเขาเสนอการแยกชุดของความสัมพันธ์จากเอกสารในการกำหนด "เวลาตัก" แยกนี้สามารถปรับปรุงตามหัวข้อครอบคลุมเอกสาร (เช่นไม่พยายามขยายความสัมพันธ์โดเมนเพลงจากเอกสารกีฬา) หรือ โดยการจับคู่รูปแบบของความสัมพันธ์ในการสร้างดัชนีจากเอกสาร อื่น ๆ เว็บเป็นซ้ำซ้อน(ความจริงกำหนดเผยแพร่ โดยหลายสิบของเว็บไซต์), เล็กเปอร์เซ็นต์ของเอกสารที่สามารถครอบคลุมเป็นส่วนสำคัญของข้อเท็จจริงได้ เช่นฉลาด RDF แบบไม่มีโครงสร้างข้อมูลในเสี้ยวเวลาหนึ่งระยะเวลา หมายเหตุที่สำคัญคือการประมวลผลทั้งหมดรวบรวมข้อมูลในระหว่างรอบระยะเวลาต้องทำในช่วงที่ระยะเวลา เว้นแต่ว่ารอบการประมวลผลจะถูกบล็อกเรียกว่า ความสัมพันธ์อาจจะเกี่ยวกับ n เช่น ใน [64] ของเว็บตัวแทนคอร์ปัส สัมพันธ์เกี่ยวกับ n แทน 40% ของทั้งหมดความสัมพันธ์ทาง เกี่ยวกับการสกัดความสัมพันธ์เกี่ยวกับ n มีงานที่เกี่ยวข้องมาก จะใช้สแตนฟอร์ด CoreNLP พิมพ์เส้นทางอ้างอิงเพื่อแยกอาร์กิวเมนต์ของข้อเท็จจริงต่าง ๆ จะจบด้วยการสกัดข้อมูล ให้เราแม่นยำที่ไม่เกี่ยวกับข้อความฟรี งานบางอย่างได้จึงเน้นเว็บตารางหรือรายการ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

ในงานนี้ข้อเท็จจริงเก็บเกี่ยวบางวิธีการที่ผ่านมามุ่งเน้นในการขยายขีดความสามารถนอกเหนือจากการจำและความแม่นยำ มันเป็นกรณีของการที่จะใช้ประโยชน์จาก Hadoop MapReduce เพื่อแจกจ่ายรูปแบบการจับคู่เป็นส่วนหนึ่งของขั้นตอนวิธีการของพวกเขา ตอนนี้มุ่งเน้นไปที่ความเร็วเกือบกลุ่มเดียวกันของผู้เขียนได้เสนอแนวทางใหม่สำหรับประชากรของความรู้ในฐาน. ที่นี่พวกเขาเสนอที่จะดึงบางชุดของความสัมพันธ์จากเอกสารในการให้ "เวลาชิ้น" สกัดนี้สามารถปรับปรุงได้ตามหัวข้อที่ครอบคลุมโดยเอกสาร (เช่นไม่พยายามที่จะดึงความสัมพันธ์เพลงโดเมนจากเอกสารกีฬา) หรือตรงกับรูปแบบของความสัมพันธ์ในดัชนีสร้างจากเอกสาร มากขึ้นเนื่องจากเว็บเป็นซ้ำซ้อน(ความจริงที่ได้รับการเผยแพร่โดยนับเว็บไซต์) ร้อยละขนาดเล็กของเอกสารที่สามารถครอบคลุมเป็นส่วนสำคัญของข้อเท็จจริง เช่นฉลาดข้อมูลที่ไม่มีโครงสร้าง RDF รูปแบบในช่วงเวลาชิ้นระยะเวลา มันเป็นสิ่งสำคัญที่จะต้องทราบว่าการประมวลผลทั้งหมดของข้อมูลที่รวบรวมในช่วงระยะเวลาที่จะต้องทำในช่วงระยะเวลาเว้นแต่วงจรการประมวลผลจะถูกปิดกั้น. จำได้ว่าอาจจะมีความสัมพันธ์ที่ N-Ary ยกตัวอย่างเช่นใน [64] เว็บของความสัมพันธ์ที่ตัวแทนคลัง n- เกี่ยวตัวแทน 40% ของความสัมพันธ์ เกี่ยวกับ n- เกี่ยวสกัดความสัมพันธ์ที่มีการทำงานที่เกี่ยวข้องมาก พวกเขาทั้งสองใช้สแตนฟอ CoreNLP พิมพ์เส้นทางการอ้างอิงเพื่อดึงข้อโต้แย้งของข้อเท็จจริงที่แตกต่างกัน จะจบลงด้วยการสกัดข้อมูลให้เราได้อย่างแม่นยำว่าไม่ทั้งหมดเกี่ยวกับข้อความฟรี บางคนทำงานจึงได้มุ่งเน้นไปที่ตารางเว็บหรือรายการ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

这标志着收获的，一些在最近facts任务扩展到在焦点上approaches结构和精度。它是我们它的优势的情况下采取的模式匹配distribute MapReduce到Hadoop的一部分。现在，他们的算法。聚焦在相同的组分，几乎为authors有一个方法，proposed人口知识的小说在propose基地。在这里，他们的关系到一个某种提取物从设置在一个给定的“time-slice documents”是提取。基于CAN improved topics是由一上盖的（例如，不要尝试去从music-domain提取物的关系一个运动模式的匹配关系是由在一个从索引建立。自是，需更多的冗余网络因为事实是由（A）网站发表tens of documents），一个小盖，可以像一facts最小显著部分。在一个明智的时间数据，RDF-format unstructured切片这是一个重要duration。是加工的完整的注a period of time的数据收集在这一定要做了unless period of time，会blocked处理周期的。这可能是召回的关系。为便于64 ]，在[实例的Web为便于corpus系列的代表性，代表所有的关系。关于提取的关系。关系是非常相关，便于工作。他们使用新型斯坦福两CoreNLP依赖关系。对不同提取物的paths arguments与facts端。”让我们precise信息提取，这是不是所有关于有一些工作thus free text。可以在列表或关注的网站。

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.