Since information has been extracted and synonyms identified,
our unstructured data must be put in computerprocessable
form. The current task thus consists in organizing
extracted tuples in a querying form such as instances
of ontologies, tuples of a database schema or set of quads
(< subject, predicate, object, context >). This idea is found in
[59–61,40] but uses several hand-written regular expressions.
It is also found in [76]’s On-demand IE approach and in [77]
where they propose a method to map triples output from
an OIE process to a domain-ontology. The former approach
chooses to escape from an expensive computation problem
by using only triples where the relation is verb-based unlike
the latter, which takes into account “tuple from each pair of
adjacent Noun Phrases”. Moreover, the approach in [77] is very
domain-specific and in their objective of mapping OIE tuples
with a domain-ontology, the authors implicitly assume that
all the facts of an event are inside the same sentence. This assumption,
which is obviously too restrictive, is also found in
ontology population tasks [78,79] and in OIE [63,80,47]. Hence,
it is clear to us that the first task is to be able to chunk a whole
text into a set of events (which are in forms of sentences
that are not necessarily contiguous in a given document [49])
and then to map concepts and relations of a given ontology
or columns of a given database schema into the extracted
pieces of information (from binary or n-ary relations) of each
chunk. We see that unlike [77], many approaches work with
general concepts (named entities categories like person, organization,
location, date, etc.) [76,81]. Some work like YAGO [82] try
to have some specific concepts (e.g “American person”), but it
seems to us too general in comparison to [77] where concepts
such as “NFLTeam”, “GameWinner” or “TeamScoringAll” can be
extracted.
แยกข้อมูลออก และ ระบุคำเหมือนข้อมูลของเราไม่ต้องใส่ใน computerprocessableแบบฟอร์ม งานปัจจุบันจึงประกอบด้วยในการจัดแยกแบบสอบถามเช่นกรณีแฮontologies, tuples ใน schema ของฐานข้อมูลหรือชุดของ quads(<เรื่อง เพรดิเคต วัตถุ บริบท >) ความคิดนี้อยู่ใน[59-61,40] แต่ใช้นิพจน์ทั่วไปหลายที่เขียนด้วยลายมือเป็นวิธีการที่พบใน [76] ของตาม IE และ ใน [77]ที่พวกเขาเสนอวิธีการเพิ่มผลผลิตจากกระบวนการต้องการโดเมนภววิทยา วิธีการเดิมเลือกที่จะหลบหนีจากปัญหาในการคำนวณราคาโดยเฉพาะเพิ่มความสัมพันธ์ที่ใช้คำกริยาเหมือนหลัง ซึ่งนำเข้าบัญชี "tuple จากแต่ละคู่ติดกับนามวลี" นอกจากนี้ วิธีการใน [77] เป็นอย่างมากเฉพาะของโดเมน และ ในวัตถุที่ประสงค์ของ tuples ต้องแมปกับโดเมนภววิทยา ผู้เขียนนัยว่าข้อเท็จจริงของเหตุการณ์อยู่ในประโยคเดียวกัน อัสสัมชัญนี้ซึ่งเป็นที่เห็นได้ชัดว่าจำกัดเกินไป ว่างานประชากรภววิทยา [78,79] และ [63,80,47] ต้องการ ดังนั้นเป็นที่ชัดเจนกับเราที่งานแรกสามารถก้อนทั้งหมดข้อความลงในชุดกิจกรรม (ซึ่งอยู่ในรูปแบบของประโยคไม่จำเป็นต้องอยู่ติดกันในเอกสารกำหนด [49])แล้วแผนที่แนวคิดและความสัมพันธ์ของภววิทยากำหนดหรือคอลัมน์การกำหนด schema ของฐานข้อมูลเป็นการแยกข้อมูล (จากไบนารี หรือ n เผยแผ่ศาสนาความสัมพันธ์) ของแต่ละก้อน เราเห็นว่า แตกต่างจาก [77], หลายวิธีทำงานกับแนวคิดทั่วไป (ชื่อประเภทตีเช่นบุคคล องค์กรตำแหน่ง วัน ฯลฯ) [76,81] . บางคนทำงานเช่นพยายาม YAGO [82]มีแนวคิดเฉพาะเจาะจงบางอย่าง (เช่น "คนอเมริกัน"), แต่มันดูเหมือนว่าเราเกินไปทั่วไปเทียบ [77] แนวคิดเช่น "NFLTeam", "GameWinner" หรือ "TeamScoringAll" ได้แยกออกมา
การแปล กรุณารอสักครู่..
เนื่องจากข้อมูลที่ได้รับการสกัดและคำพ้องระบุ
ข้อมูลที่ไม่มีโครงสร้างของเราจะต้องวางใน computerprocessable
รูปแบบ งานปัจจุบันจึงประกอบด้วยในการจัด
อันดับสกัดในรูปแบบการสอบถามเช่นกรณี
ของจีส์, อันดับของคีมาฐานข้อมูลหรือชุดของล่าม
(<เรื่องกริยาวัตถุบริบท>) ความคิดนี้จะพบได้ใน
[59-61,40] แต่ใช้หลายแสดงออกปกติที่เขียนด้วยมือ.
นอกจากนี้ยังพบใน [76] 's On-demand IE วิธีการและใน [77]
ที่พวกเขานำเสนอวิธีการที่จะส่งออก map อเนกประสงค์ จาก
กระบวนการ OIE กับโดเมนอภิปรัชญา วิธีอดีต
เลือกที่จะหนีออกมาจากปัญหาการคำนวณราคาแพง
โดยใช้เพียงอเนกประสงค์ที่มีความสัมพันธ์เป็นคำกริยาที่ใช้แตกต่างจาก
หลังซึ่งจะนำเข้าบัญชี "tuple จากคู่ของแต่ละคน
ที่อยู่ใกล้เคียงคำนามวลี" นอกจากนี้ยังมีวิธีการใน [77] เป็นอย่างมาก
โดเมนที่เฉพาะเจาะจงและวัตถุประสงค์ของพวกเขาในการทำแผนที่ tuples OIE
กับโดเมนอภิปรัชญาเขียนโดยปริยายคิดว่า
ข้อเท็จจริงทั้งหมดของเหตุการณ์อยู่ในประโยคเดียวกัน สมมติฐานนี้
ซึ่งจะเห็นได้ชัดที่เข้มงวดเกินไปยังพบใน
งานประชากรอภิปรัชญา [78,79] และ OIE [63,80,47] ดังนั้น
มันเป็นที่ชัดเจนกับเราว่างานแรกคือการสามารถที่จะรับรู้ทั้ง
ข้อความลงในชุดของเหตุการณ์ที่เกิดขึ้น (ซึ่งอยู่ในรูปแบบของประโยค
ที่ไม่จำเป็นต้องต่อเนื่องกันในเอกสารที่กำหนด [49])
และหลังจากนั้นจะ map แนวคิด และความสัมพันธ์ของอภิปรัชญารับ
หรือคอลัมน์ของคีมาฐานข้อมูลที่ได้รับเข้ามาสกัด
ชิ้นส่วนของข้อมูล (จากฐานความสัมพันธ์หรือ n-Ary) ของแต่ละ
ก้อน เราจะเห็นว่าแตกต่างจาก [77] หลายวิธีทำงานกับ
แนวคิดทั่วไป (ชื่อประเภทกิจการที่เหมือนคนองค์กร
สถานที่วันและอื่น ๆ ) [76,81] การทำงานบางอย่างเช่น Yago [82] พยายาม
ที่จะมีแนวความคิดบางอย่าง (เช่น "คนอเมริกัน") แต่มัน
ดูเหมือนว่าเรากว้างเกินไปเมื่อเทียบกับ [77] ซึ่งแนวคิด
เช่น "NFLTeam", "GameWinner" หรือ "TeamScoringAll" สามารถ ถูก
สกัด
การแปล กรุณารอสักครู่..
เนื่องจากข้อมูลถูกสกัดและคำพ้องความหมายระบุข้อมูลที่ไม่มีโครงสร้างของเราต้องใส่ใน computerprocessableแบบฟอร์ม ดังนั้น ในการจัดงาน ปัจจุบัน ประกอบด้วยสกัดที่มีในแบบฟอร์มสอบถาม เช่น กรณีนโทโลจีทูเปิลของ , ของฐานข้อมูลหรือชุดของคณะสี่คน( แต่เรื่องกริยาวัตถุบริบท > ) ความคิดนี้ถูกพบใน[ 59 – 61,40 ] แต่ใช้หลายมือเขียนนิพจน์ปกตินอกจากนี้ยังพบใน [ 76 ] ตามความต้องการเช่นวิธีการและใน [ 77 ]ที่พวกเขาเสนอวิธีการแผนที่แสดงอเนกประสงค์จากกระบวนการ OIE เพื่อโดเมนอภิปรัชญา . วิธีการเดิมเลือกที่จะหนีจากปัญหาการคำนวณราคาแพงโดยใช้เพียงอเนกประสงค์ที่ความสัมพันธ์เป็นคำกริยาใช้ซึ่งแตกต่างจากหลัง ซึ่งใช้เวลาใน tuple บัญชี " จากคู่ของติดกันนามวลี " นอกจากนี้ แนวทางใน [ 77 ] มากโดเมนที่เฉพาะเจาะจงและเป้าหมายขององค์กรที่มีแผนที่กับโดเมนอภิปรัชญา , ผู้โดยปริยายว่าความจริงของเหตุการณ์อยู่ในประโยคเดียวกัน สมมติฐานนี้ซึ่งเห็นได้ชัดว่าเข้มงวดเกินไป ยังพบในงาน 78,79 อภิปรัชญา [ ประชากร ] และในองค์กร [ 63,80,47 ] ดังนั้นมันเป็นที่ชัดเจนกับเราว่า ภารกิจแรก คือ สามารถที่จะรวมข้อความลงในชุดของเหตุการณ์ ( ซึ่งอยู่ในรูปแบบของประโยคที่ไม่ได้อยู่ติดกัน ที่ระบุในเอกสาร [ 49 ] )แล้วแผนที่แนวคิดและความสัมพันธ์ของอภิปรัชญาที่กําหนดหรือคอลัมน์ที่กำหนดสคีมาของฐานข้อมูลเข้าสกัดชิ้นส่วนของข้อมูล ( จากไบนารีหรือ n-ary ความสัมพันธ์ของแต่ละก้อน เราเห็นที่แตกต่าง [ 77 ] หลายวิธีทํางานกับแนวคิดทั่วไป ( ชื่อหน่วยงานประเภทต่าง ๆ เช่น บุคคล องค์กรสถานที่ , วันที่ ฯลฯ ) [ 76,81 ] งานบางอย่าง เช่น yago [ 82 ] ลองมีบางแนวคิดที่เฉพาะเจาะจง ( เช่นอเมริกัน " คน " ) , แต่ดูทั่วไปในการเปรียบเทียบกับ [ 77 ] ที่แนวคิดเราเช่น " nflteam " , " gamewinner " หรือ " teamscoringall " สามารถสกัด
การแปล กรุณารอสักครู่..