4.2.5. Ontology population
Since information has been extracted and synonyms identified,
our unstructured data must be put in computerprocessable
form. The current task thus consists in organizing
extracted tuples in a querying form such as instances
of ontologies, tuples of a database schema or set of quads
(< subject, predicate, object, context >). This idea is found in
[59–61,40] but uses several hand-written regular expressions.
It is also found in [76]’s On-demand IE approach and in [77]
where they propose a method to map triples output from
an OIE process to a domain-ontology. The former approach
chooses to escape from an expensive computation problem
by using only triples where the relation is verb-based unlike
the latter, which takes into account “tuple from each pair of
adjacent Noun Phrases”. Moreover, the approach in [77] is very
domain-specific and in their objective of mapping OIE tuples
with a domain-ontology, the authors implicitly assume that
all the facts of an event are inside the same sentence. This assumption,
which is obviously too restrictive, is also found in
ontology population tasks [78,79] and in OIE [63,80,47]. Hence,
it is clear to us that the first task is to be able to chunk a whole
text into a set of events (which are in forms of sentences
that are not necessarily contiguous in a given document [49])
and then to map concepts and relations of a given ontology
or columns of a given database schema into the extracted
pieces of information (from binary or n-ary relations) of each
chunk. We see that unlike [77], many approaches work with
general concepts (named entities categories like person, organization,
location, date, etc.) [76,81]. Some work like YAGO [82] try
to have some specific concepts (e.g “American person”), but it
seems to us too general in comparison to [77] where concepts
such as “NFLTeam”, “GameWinner” or “TeamScoringAll” can be
extracted.
Very few work focus on ontology population in Big Data
context. The main aspect broached is the identification of
the possible class of an entity. More, this identification is
too general, and when it is very domain specific it implies a
significant part of human intervention.
4.2.5. Ontology populationSince information has been extracted and synonyms identified,our unstructured data must be put in computerprocessableform. The current task thus consists in organizingextracted tuples in a querying form such as instancesof ontologies, tuples of a database schema or set of quads(< subject, predicate, object, context >). This idea is found in[59–61,40] but uses several hand-written regular expressions.It is also found in [76]’s On-demand IE approach and in [77]where they propose a method to map triples output froman OIE process to a domain-ontology. The former approachchooses to escape from an expensive computation problemby using only triples where the relation is verb-based unlikethe latter, which takes into account “tuple from each pair ofadjacent Noun Phrases”. Moreover, the approach in [77] is verydomain-specific and in their objective of mapping OIE tupleswith a domain-ontology, the authors implicitly assume thatall the facts of an event are inside the same sentence. This assumption,which is obviously too restrictive, is also found inontology population tasks [78,79] and in OIE [63,80,47]. Hence,it is clear to us that the first task is to be able to chunk a wholetext into a set of events (which are in forms of sentencesthat are not necessarily contiguous in a given document [49])and then to map concepts and relations of a given ontologyor columns of a given database schema into the extractedpieces of information (from binary or n-ary relations) of eachchunk. We see that unlike [77], many approaches work withgeneral concepts (named entities categories like person, organization,location, date, etc.) [76,81]. Some work like YAGO [82] tryto have some specific concepts (e.g “American person”), but itseems to us too general in comparison to [77] where conceptssuch as “NFLTeam”, “GameWinner” or “TeamScoringAll” can beextracted.Very few work focus on ontology population in Big Datacontext. The main aspect broached is the identification ofthe possible class of an entity. More, this identification istoo general, and when it is very domain specific it implies asignificant part of human intervention.
การแปล กรุณารอสักครู่..

4.2.5 ประชากรอภิปรัชญา
เนื่องจากข้อมูลที่ได้รับการสกัดและคำพ้องระบุ
ข้อมูลที่ไม่มีโครงสร้างของเราจะต้องวางใน computerprocessable
รูปแบบ งานปัจจุบันจึงประกอบด้วยในการจัด
อันดับสกัดในรูปแบบการสอบถามเช่นกรณี
ของจีส์, อันดับของคีมาฐานข้อมูลหรือชุดของล่าม
(<เรื่องกริยาวัตถุบริบท>) ความคิดนี้จะพบได้ใน
[59-61,40] แต่ใช้หลายแสดงออกปกติที่เขียนด้วยมือ.
นอกจากนี้ยังพบใน [76] 's On-demand IE วิธีการและใน [77]
ที่พวกเขานำเสนอวิธีการที่จะส่งออก map อเนกประสงค์ จาก
กระบวนการ OIE กับโดเมนอภิปรัชญา วิธีอดีต
เลือกที่จะหนีออกมาจากปัญหาการคำนวณราคาแพง
โดยใช้เพียงอเนกประสงค์ที่มีความสัมพันธ์เป็นคำกริยาที่ใช้แตกต่างจาก
หลังซึ่งจะนำเข้าบัญชี "tuple จากคู่ของแต่ละคน
ที่อยู่ใกล้เคียงคำนามวลี" นอกจากนี้ยังมีวิธีการใน [77] เป็นอย่างมาก
โดเมนที่เฉพาะเจาะจงและวัตถุประสงค์ของพวกเขาในการทำแผนที่ tuples OIE
กับโดเมนอภิปรัชญาเขียนโดยปริยายคิดว่า
ข้อเท็จจริงทั้งหมดของเหตุการณ์อยู่ในประโยคเดียวกัน สมมติฐานนี้
ซึ่งจะเห็นได้ชัดที่เข้มงวดเกินไปยังพบใน
งานประชากรอภิปรัชญา [78,79] และ OIE [63,80,47] ดังนั้น
มันเป็นที่ชัดเจนกับเราว่างานแรกคือการสามารถที่จะรับรู้ทั้ง
ข้อความลงในชุดของเหตุการณ์ที่เกิดขึ้น (ซึ่งอยู่ในรูปแบบของประโยค
ที่ไม่จำเป็นต้องต่อเนื่องกันในเอกสารที่กำหนด [49])
และหลังจากนั้นจะ map แนวคิด และความสัมพันธ์ของอภิปรัชญารับ
หรือคอลัมน์ของคีมาฐานข้อมูลที่ได้รับเข้ามาสกัด
ชิ้นส่วนของข้อมูล (จากฐานความสัมพันธ์หรือ n-Ary) ของแต่ละ
ก้อน เราจะเห็นว่าแตกต่างจาก [77] หลายวิธีทำงานกับ
แนวคิดทั่วไป (ชื่อประเภทกิจการที่เหมือนคนองค์กร
สถานที่วันและอื่น ๆ ) [76,81] การทำงานบางอย่างเช่น Yago [82] พยายาม
ที่จะมีแนวความคิดบางอย่าง (เช่น "คนอเมริกัน") แต่มัน
ดูเหมือนว่าเรากว้างเกินไปเมื่อเทียบกับ [77] ซึ่งแนวคิด
เช่น "NFLTeam", "GameWinner" หรือ "TeamScoringAll" สามารถ ถูก
สกัด.
มุ่งเน้นการทำงานน้อยมากเกี่ยวกับประชากรในอภิปรัชญาข้อมูลขนาดใหญ่
บริบท ด้านหลักทาบทามเป็นบัตรประจำตัวของ
ชั้นที่เป็นไปได้ของกิจการ เพิ่มเติมบัตรประจำตัวนี้จะ
กว้างเกินไปและเมื่อมันเป็นเฉพาะโดเมนมากมันหมายถึง
ส่วนสำคัญของการแทรกแซงของมนุษย์
การแปล กรุณารอสักครู่..
