4.2.5. Ontology population
Since information has been extracted and synonyms identified,
our unstructured data must be put in computerprocessable
form. The current task thus consists in organizing
extracted tuples in a querying form such as instances
of ontologies, tuples of a database schema or set of quads
(< subject, predicate, object, context >). This idea is found in
[59–61,40] but uses several hand-written regular expressions.
It is also found in [76]’s On-demand IE approach and in [77]
where they propose a method to map triples output from
an OIE process to a domain-ontology. The former approach
chooses to escape from an expensive computation problem
by using only triples where the relation is verb-based unlike
the latter, which takes into account “tuple from each pair of
adjacent Noun Phrases”. Moreover, the approach in [77] is very
domain-specific and in their objective of mapping OIE tuples
with a domain-ontology, the authors implicitly assume that
all the facts of an event are inside the same sentence. This assumption,
which is obviously too restrictive, is also found in
ontology population tasks [78,79] and in OIE [63,80,47]. Hence,
it is clear to us that the first task is to be able to chunk a whole
text into a set of events (which are in forms of sentences
that are not necessarily contiguous in a given document [49])
and then to map concepts and relations of a given ontology
or columns of a given database schema into the extracted
pieces of information (from binary or n-ary relations) of each
chunk. We see that unlike [77], many approaches work with
general concepts (named entities categories like person, organization,
location, date, etc.) [76,81]. Some work like YAGO [82] try
to have some specific concepts (e.g “American person”), but it
seems to us too general in comparison to [77] where concepts
such as “NFLTeam”, “GameWinner” or “TeamScoringAll” can be
extracted.
Very few work focus on ontology population in Big Data
context. The main aspect broached is the identification of
the possible class of an entity. More, this identification is
too general, and when it is very domain specific it implies a
significant part of human intervention.
4.2.5. ภววิทยาประชากรแยกข้อมูลออก และ ระบุคำเหมือนข้อมูลของเราไม่ต้องใส่ใน computerprocessableแบบฟอร์ม งานปัจจุบันจึงประกอบด้วยในการจัดแยกแบบสอบถามเช่นกรณีแฮontologies, tuples ใน schema ของฐานข้อมูลหรือชุดของ quads(<เรื่อง เพรดิเคต วัตถุ บริบท >) ความคิดนี้อยู่ใน[59-61,40] แต่ใช้นิพจน์ทั่วไปหลายที่เขียนด้วยลายมือเป็นวิธีการที่พบใน [76] ของตาม IE และ ใน [77]ที่พวกเขาเสนอวิธีการเพิ่มผลผลิตจากกระบวนการต้องการโดเมนภววิทยา วิธีการเดิมเลือกที่จะหลบหนีจากปัญหาในการคำนวณราคาโดยเฉพาะเพิ่มความสัมพันธ์ที่ใช้คำกริยาเหมือนหลัง ซึ่งนำเข้าบัญชี "tuple จากแต่ละคู่ติดกับนามวลี" นอกจากนี้ วิธีการใน [77] เป็นอย่างมากเฉพาะของโดเมน และ ในวัตถุที่ประสงค์ของ tuples ต้องแมปกับโดเมนภววิทยา ผู้เขียนนัยว่าข้อเท็จจริงของเหตุการณ์อยู่ในประโยคเดียวกัน อัสสัมชัญนี้ซึ่งเป็นที่เห็นได้ชัดว่าจำกัดเกินไป ว่างานประชากรภววิทยา [78,79] และ [63,80,47] ต้องการ ดังนั้นเป็นที่ชัดเจนกับเราที่งานแรกสามารถก้อนทั้งหมดข้อความลงในชุดกิจกรรม (ซึ่งอยู่ในรูปแบบของประโยคไม่จำเป็นต้องอยู่ติดกันในเอกสารกำหนด [49])แล้วแผนที่แนวคิดและความสัมพันธ์ของภววิทยากำหนดหรือคอลัมน์การกำหนด schema ของฐานข้อมูลเป็นการแยกข้อมูล (จากไบนารี หรือ n เผยแผ่ศาสนาความสัมพันธ์) ของแต่ละก้อน เราเห็นว่า แตกต่างจาก [77], หลายวิธีทำงานกับแนวคิดทั่วไป (ชื่อประเภทตีเช่นบุคคล องค์กรตำแหน่ง วัน ฯลฯ) [76,81] . บางคนทำงานเช่นพยายาม YAGO [82]มีแนวคิดเฉพาะเจาะจงบางอย่าง (เช่น "คนอเมริกัน"), แต่มันดูเหมือนว่าเราเกินไปทั่วไปเทียบ [77] แนวคิดเช่น "NFLTeam", "GameWinner" หรือ "TeamScoringAll" ได้แยกออกมาภววิทยาประชากรข้อมูลเน้นทำงานที่น้อยมากบริบท ในส่วนหลักของ broached คือ รหัสของระดับที่เป็นไปได้ของ เพิ่มเติม รหัสนี้เป็นทั่วไปเกินไป และเมื่อเป็นมากโดเมนเฉพาะ มันถึงส่วนหนึ่งที่สำคัญของมนุษย์
การแปล กรุณารอสักครู่..

4.2.5 ประชากรอภิปรัชญา
เนื่องจากข้อมูลที่ได้รับการสกัดและคำพ้องระบุ
ข้อมูลที่ไม่มีโครงสร้างของเราจะต้องวางใน computerprocessable
รูปแบบ งานปัจจุบันจึงประกอบด้วยในการจัด
อันดับสกัดในรูปแบบการสอบถามเช่นกรณี
ของจีส์, อันดับของคีมาฐานข้อมูลหรือชุดของล่าม
(<เรื่องกริยาวัตถุบริบท>) ความคิดนี้จะพบได้ใน
[59-61,40] แต่ใช้หลายแสดงออกปกติที่เขียนด้วยมือ.
นอกจากนี้ยังพบใน [76] 's On-demand IE วิธีการและใน [77]
ที่พวกเขานำเสนอวิธีการที่จะส่งออก map อเนกประสงค์ จาก
กระบวนการ OIE กับโดเมนอภิปรัชญา วิธีอดีต
เลือกที่จะหนีออกมาจากปัญหาการคำนวณราคาแพง
โดยใช้เพียงอเนกประสงค์ที่มีความสัมพันธ์เป็นคำกริยาที่ใช้แตกต่างจาก
หลังซึ่งจะนำเข้าบัญชี "tuple จากคู่ของแต่ละคน
ที่อยู่ใกล้เคียงคำนามวลี" นอกจากนี้ยังมีวิธีการใน [77] เป็นอย่างมาก
โดเมนที่เฉพาะเจาะจงและวัตถุประสงค์ของพวกเขาในการทำแผนที่ tuples OIE
กับโดเมนอภิปรัชญาเขียนโดยปริยายคิดว่า
ข้อเท็จจริงทั้งหมดของเหตุการณ์อยู่ในประโยคเดียวกัน สมมติฐานนี้
ซึ่งจะเห็นได้ชัดที่เข้มงวดเกินไปยังพบใน
งานประชากรอภิปรัชญา [78,79] และ OIE [63,80,47] ดังนั้น
มันเป็นที่ชัดเจนกับเราว่างานแรกคือการสามารถที่จะรับรู้ทั้ง
ข้อความลงในชุดของเหตุการณ์ที่เกิดขึ้น (ซึ่งอยู่ในรูปแบบของประโยค
ที่ไม่จำเป็นต้องต่อเนื่องกันในเอกสารที่กำหนด [49])
และหลังจากนั้นจะ map แนวคิด และความสัมพันธ์ของอภิปรัชญารับ
หรือคอลัมน์ของคีมาฐานข้อมูลที่ได้รับเข้ามาสกัด
ชิ้นส่วนของข้อมูล (จากฐานความสัมพันธ์หรือ n-Ary) ของแต่ละ
ก้อน เราจะเห็นว่าแตกต่างจาก [77] หลายวิธีทำงานกับ
แนวคิดทั่วไป (ชื่อประเภทกิจการที่เหมือนคนองค์กร
สถานที่วันและอื่น ๆ ) [76,81] การทำงานบางอย่างเช่น Yago [82] พยายาม
ที่จะมีแนวความคิดบางอย่าง (เช่น "คนอเมริกัน") แต่มัน
ดูเหมือนว่าเรากว้างเกินไปเมื่อเทียบกับ [77] ซึ่งแนวคิด
เช่น "NFLTeam", "GameWinner" หรือ "TeamScoringAll" สามารถ ถูก
สกัด.
มุ่งเน้นการทำงานน้อยมากเกี่ยวกับประชากรในอภิปรัชญาข้อมูลขนาดใหญ่
บริบท ด้านหลักทาบทามเป็นบัตรประจำตัวของ
ชั้นที่เป็นไปได้ของกิจการ เพิ่มเติมบัตรประจำตัวนี้จะ
กว้างเกินไปและเมื่อมันเป็นเฉพาะโดเมนมากมันหมายถึง
ส่วนสำคัญของการแทรกแซงของมนุษย์
การแปล กรุณารอสักครู่..
