4.2.6. Entity consolidation
Entity consolidation can be seen as the building of owl:sameAs
closure in OWL-data. In practice this is not always straight. In
fact, owl:sameAs property is not always explicit. It can be hidden
behind inference on an inverse functional property [83], a
functional property [21], an equivalent property [84], cardinality
restrictions [38,39]. Moreover, an equivalent property can
be derived through heuristics (string similarity between properties’
short names or labels). Concerning algorithms, [83,21]
have similar approaches: to group all equivalent entities in
a given set and to assign a unique identifier to them, which
will replace entities of its set within real data. To achieve this
goal, [83] propose a method which can be run many times due
to new derivations implied by an inverse functional property!
To obviate these limitations, [21] leverage on their ordering of
rules and MapReduce parallel capabilities.
4.3. The billion triple challenge
At the end of the first challenge we have billions of RDF-triples
and we must be able to reason on it. One of the most relevant
works which tackle this problem is [21]. Their work has led
to a tool termed WebPIE (Web-scale Inference Engine). In [21], inference
rules are rewritten and map and reduce functions are
specified for each of them. This work has inspired the work
of [22] who propose a MapReduce-based algorithm for classifying
EL+ ontologies. Another relevant work in this challenge
focuses on efficient RDF repositories partitioning and scalability
of SPARQL queries [85]. We can also add [86] which proposes
a way to store and retrieve large RDF graphs efficiently.
Concerning the (complete) description of entities in the middle
of billion RDF/RDFS triple mentioned in the third challenge,
[38] designed a Semantic Web Search Engine (SWSE)
which has many features including entities description. Here,
this description is obtained by aggregating efficiently descriptions
from many sources.
If we know how to infer over billion RDF-triples, it is not
easy to deal with noise, inconsistency and various errors
found in RDF datasets. [87] identify four sources of errors:
(i) accessibility and dereferenceability of URIs, (ii) syntax errors,
(iii) noise and inconsistency (e.g: use of undefined classes of
properties, misuse of a class as a property and vice versa, etc.)
and (iv) ontology hijacking. [88] propose to repair or to be able to
infer in such a noisy context. For repairing, they identify the
“minimal inconsistent subset” (MIS) of the ontology and the
subsets the MIS will affect. For reasoning, [88] leverage the pioneering
work of [89] and propose to answer queries based on
consistent subsets (which grows inclusively) of the given ontology.
The choice of the subsets are based on syntactic and
semantic heuristics. In the same paper, uncertainty in reasoning
is handled by adding confidence value to the elements
of the ontology.
4.4. Schema alignment
Basically, data integration is done in three main steps: Schema
alignment, Record linkage and Data fusion [9]. The previous
paragraphs tackle problems relative to disambiguation and
good understanding of data: we were working only on
instances of knowledge bases. At the end of steps described
4.2.6. เอนทิตีรวมรวมเอนทิตีที่สามารถมองเห็นเป็นอาคารของนกฮูก: sameAsปิดข้อมูลนกฮูก ในทางปฏิบัติ ไม่เสมอตรงนี้ ในความจริง นกฮูก: sameAs คุณสมบัติไม่เสมออย่างชัดเจน มันสามารถซ่อนเบื้องหลังการอ้างอิงในคุณสมบัติการทำงานผกผัน [83], การทำงานโรงแรม [21], คุณสมบัติเทียบเท่าที่มี [84], จำนวนนับการจำกัด [38,39] นอกจากนี้ สามารถมีคุณสมบัติเทียบเท่าได้รับผ่านการรุก (คล้ายสายระหว่างคุณสมบัติ'ชื่อย่อหรือป้ายชื่อ) เกี่ยวกับอัลกอริทึม, [83,21]มีวิธีที่คล้ายกัน: การจัดกลุ่มหน่วยงานเทียบเท่าทั้งหมดในการ กำหนดตั้งค่า และ การกำหนดตัวระบุที่ไม่ซ้ำกันได้ ซึ่งจะแทนเอนทิตีของการตั้งค่าภายในข้อมูลจริง เพื่อให้บรรลุนี้เป้าหมาย, [83] เสนอวิธีการที่สามารถเรียกใช้จำนวนเวลาครบกำหนดการโดยนัย โดยคุณสมบัติการทำงานผกผันรากศัพท์ใหม่การ obviate ข้อจำกัดเหล่านี้ เลเวอเรจ [21] ในการสั่งซื้อของกฎและความสามารถขนาน MapReduce4.3. การพันสามท้าทายที่สุดของความท้าทายแรก เรามีพัน RDF triplesและเราต้องสามารถให้เหตุผลนั้น หนึ่งเกี่ยวข้องทำงานที่แก้ไขปัญหานี้คือ [21] งานของพวกเขาได้นำเครื่องมือเรียกว่า WebPIE (ขนาดเว็บอ้างอิงโปรแกรม) ใน [21], สรุปกฎจะถูกเขียนขึ้น และแผนที่ และลดฟังก์ชั่นได้ระบุสำหรับแต่ละของพวกเขา งานนี้มีแรงบันดาลใจการทำงาน[22] ที่เสนออัลกอริทึมที่ใช้ MapReduce สำหรับการจัดประเภทเอ + ontologies งานอื่นที่เกี่ยวข้องในความท้าทายนี้เน้นพาร์เก็บ RDF มีประสิทธิภาพและ scalabilitySPARQL แบบสอบถาม [85] นอกจากนี้เรายังสามารถเพิ่ม [86] ซึ่งเสนอวิธีการจัดเก็บ และดึงกราฟ RDF ขนาดใหญ่ได้อย่างมีประสิทธิภาพเกี่ยวกับคำอธิบาย (สมบูรณ์) ของเอนทิตีกลางของ RDF/RDFS สามพันล้านที่กล่าวถึงในความท้าทายสาม[38] ออกแบบทางตรรกเว็บค้นหาเครื่องยนต์ (SWSE)ซึ่งมีคุณสมบัติมากมายรวมทั้งรายละเอียดของเอนทิตี ที่นี่คำอธิบายนี้ได้มา โดยการรวมคำอธิบายได้อย่างมีประสิทธิภาพจากหลายแหล่งถ้าเรารู้เราจะเข้าใจกว่าพัน RDF-triplesการจัดการกับสัญญาณรบกวน ความไม่สอดคล้อง และข้อผิดพลาดต่าง ๆพบในชุดข้อมูลของ RDF [87] ระบุสี่แหล่งของข้อผิดพลาด:(ก) การเข้าถึงและ dereferenceability ของ URIs ข้อผิดพลาดไวยากรณ์ (ii)(iii) เสียงรบกวน และไม่สอดคล้องกัน (เช่น: ใช้ไม่ได้กำหนดประเภทคุณสมบัติ ใช้คลาสที่ เป็นคุณสมบัติ และในทางกลับกัน ฯลฯ)และโจรกรรมภววิทยา (iv) [88] เสนอ การซ่อมแซม หรือ เพื่อให้สามารถสรุปในบริบทเสียงดัง สำหรับการซ่อมแซม ถึง"ชุดย่อยสอดคล้องน้อยที่สุด" (MIS) ของภววิทยาและชุดย่อย MIS จะมีผลต่อ สำหรับเหตุผล การบุกเบิกใช้ประโยชน์ [88]ทำงานของ [89] และเสนอการตอบแบบสอบถามจากสอดคล้องชุดย่อย (ซึ่งเติบโต inclusively) ของภววิทยาที่กำหนดเลือกชุดย่อยที่ตั้งอยู่บนทางไวยากรณ์ และรุกทางตรรก ในกระดาษเดียวกัน ความไม่แน่นอนในเหตุผลจัดการ โดยการเพิ่มค่าความเชื่อมั่นองค์ประกอบของภววิทยา4.4 แผนจัดโดยทั่วไป รวมข้อมูลจะทำในขั้นตอนหลักที่สาม: แผนจัดตำแหน่ง เชื่อมโยงระเบียน และหลอมรวมข้อมูล [9] ก่อนหน้าย่อหน้าที่ต่อสู้ปัญหาสัมพันธ์กับภาพยนตร์ และความเข้าใจข้อมูล: เราทำงานเฉพาะบนอินสแตนซ์ของฐานความรู้ เมื่อสิ้นสุดขั้นตอนที่อธิบายไว้
การแปล กรุณารอสักครู่..