Proceedings of the Joint Workshop o

Proceedings of the Joint Workshop on NLP&LOD and SWAIE, pages 3–7,
Hissar, Bulgaria, 12 September 2013.
Evaluation of SPARQL query generation from natural language questions
K. Bretonnel Cohen
Computational Bioscience Program
U. Colorado School of Medicine
Jin-Dong Kim
Database Center for Life Science
Abstract
SPARQL queries have become the standard for querying linked open data knowledge bases, but SPARQL query construction can be challenging and timeconsuming even for experts. SPARQL
query generation from natural language
questions is an attractive modality for interfacing with LOD. However, how to
evaluate SPARQL query generation from
natural language questions is a mostly
open research question. This paper
presents some issues that arise in SPARQL
query generation from natural language, a
test suite for evaluating performance with
respect to these issues, and a case study
in evaluating a system for SPARQL query
generation from natural language questions.
1 Introduction
The SPARQL query language is the standard for
retrieving linked open data from triple stores.
SPARQL is powerful, flexible, and allows the use
of RDF, with all of its advantages over traditional databases. However, SPARQL query construction has been described as “absurdly difficult” (McCarthy et al., 2012), and even experienced users may struggle with it. For this reason, various methods have been suggested for aiding in SPARQL query generation, including assisted query construction (McCarthy et al., 2012)
and, most germaine to this work, converting natural language questions into SPARQL queries.
Although a body of work on SPARQL query
generation from natural language questions has
been growing, no consensus has yet developed
about how to evaluate such systems. (Abacha
and Zweigenbaum, 2012) evaluated their system
by manual inspection of the SPARQL queries that
they generated. No gold standard was prepared—
the authors examined each query and determined
whether or not it accurately represented the original natural language question. (Yahya et al.,
2012) used two human judges to manually examine the output of their system at three points—
disambiguation, SPARQL query construction, and
the answers returned. If the judges disagreed, a
third judge examined the output. (McCarthy et
al., 2012) does not have a formal evaluation, but
rather gives two examples of the output of the
SPARQL Assist system. (This is not a system
for query generation from natural language questions per se, but rather an application for assisting
in query constructions through methods like autocompletion suggestions.) (Unger et al., 2012) is
evaluated on the basis of a gold standard of answers from a static data set. It is not clear how
(Lopez et al., 2007) is evaluated, although they
give a nice classification of error types. Reviewing this body of work, the trends that have characterized most past work are that either systems
are not formally evaluated, or they are evaluated
in a functional, black-box fashion, examining the
mapping between inputs and one of two types of
outputs—either the SPARQL queries themselves,
or the answers returned by the SPARQL queries.
The significance of the work reported here is that
it attempts to develop a unified methodology for
evaluating systems for SPARQL query generation
from natural language questions that meets a variety of desiderata for such a methodology and that
is generalizable to other systems besides our own.
In the development of our system for SPARQL
query generation from natural language questions,
it became clear that we needed a robust approach
to system evaluation. The approach needed to
meet a number of desiderata:
• Automatability: It should be possible to automate tests so that they can be run automat-3
ically many times during the day and so that
there is no opportunity for humans to miss errors when doing manual examination.
• Granularity: The approach should allow
for granular evaluation of behavior—that is,
rather than (or in addition to) just returning a
single metric that characterizes performance
over an entire data set, such as accuracy, it
should allow for evaluation of functionality
over specific types of inputs.
• Modularity: The approach should allow for
evaluating individual modules of the system
independently.
• Functionality: The approach should allow
functional, black-box evaluation of the endto-end performance of the system as a whole.
The hypothesis being explored in the work reported here is that it is possible to conduct a
principled fine-grained evaluation of software for
SPARQL query generation from natural language
questions that is effective in uncovering weaknesses in the software.
As in any software testing situation, various
methods of evaluating the software exist. A typical black-box approach would be to establish a
gold standard of the SPARQL queries themselves,
and/or of the answers that should be returned in response to a natural language question.. However,
we ruled out applying the black-box approach to
the SPARQL queries themselves because there are
multiple correct SPARQL queries that are equivalent in terms of the triples that they will return
from a linked open data source. We ruled out
a black-box approach based entirely on examining the triples returned from the query when the
SPARQL query was executed against the triple
store because the specific list of triples is subject to
change unpredictably as the contents of the triple
store are updated by the data maintainers.
We opted for a gray-box approach, in which we
examine the output at multiple stages of processing. The first was at the point of mapping to TUIs.
The Unified Medical Language System’s Semantic Network contains a hierarchically grouped set
of 133 semantic types, each with a Type Unique
Identifier (TUI). That is, for any given natural language question that should cause a mapping to
a TUI, we examined if a TUI was generated by
the system and, if so, if it was the correct TUI.
The second was the point of SPARQL query generation, where we focused on syntactic validity,
rather than the entire SPARQL query (for the reason given above). We also examined the output
of the SPARQL query, but not in terms of exact
match to a gold standard. In practice, the queries
would typically return a long list of triples, and
the specific list of triples is subject to change unpredictably as the contents of the triple store are
updated by the OMIM maintainers. For that reason, we have focused on ensuring that we know
one correct triple which should occur in the output, and validating the presence of that triple in
the output. We have also inspected the output for
triples that we knew from domain expertise should
not be returned, although we have done that manually so far and have not formalized it in the test
suite.
In this paper, we focus on one specific aspect
of the gray-box evaluation: the mapping to TUIs.
As will be seen, mapping to TUIs when appropriate, and of course to the correct TUI, is an important feature of answering domain-specific questions. As we developed our system beyond the
initial prototype, it quickly became apparent that
there was a necessity to differentiate between elements of the question that referred to specific entities in the triple store, and elements of the question that referred to general semantic categories.
For example, for queries like What genes are related to heart disease?, we noticed that heart disease was being mapped to the correct entity in the
triple store, but genes, rather than being treated as
a general category, was also being mapped (erroneously) to a particular instance in the triple store.
Given the predicates in the triple store, the best solution was to recognize general categories in questions and map them to TUIs. Therefore, we developed a method to recognize general categories
in questions and map them to TUIs. Testing this
functionality is the main topic of this paper.
2 Materials and methods
2.1 Online Mendelian Inheritance In Man
In this work we focused on a single linked open
data source, known as Online Mendelian Inheritance in Man (OMIM) (Amberger et al., 2011).
The most obvious application of OMIM, and the
one that biomedical researchers are most accustomed to using it for, is queries about genes and
diseases, but this is a much richer resource that is
probably not often exploited to the full extent that
it could be; in fact, the web-based interface offers
4
no options at all for exploiting it beyond querying
for genes and diseases.
The knowledge model goes far beyond this. It
includes linkages between at least 12 semantic
types, listed below in the Results section. OMIM
makes use of TUIs in typing the participants in
many of the triples that it encodes. In particular,
each of the linkages described above is actually a
pair of TUIs.
2.2 LODQA
To understand the evaluation methodology that we
developed, it is helpful to understand the system
under test. A prototype version of the system that
differed from the current system primarily in terms
of not performing TUI identification and of using
a default relation for all predicates is described in
some detail in (Kim and Cohen, 2013). We briefly
describe the current version of the system here.
2.2.1 Architecture
In order both to understand what features of our
system need to be tested and to understand how
well the testing approach will generalize to evaluating other systems for SPARQL query generation from natural language questions, it is helpful
to understand, in general terms, the architecture of
the system that we are testing. The primary modules of the system are as follows:
• A dependency parser for determining semantic relations in the question.
• A base noun chunker for finding terms that
need to be mapped to entities or TUIs in the
linked open data set.
• A system for matching base noun chunks to
entities or TUIs in the linked open data set.
• A module for presudo-SPARQL generation.
• A module for gene

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

รายงานการประชุมเชิงปฏิบัติการร่วมใน NLP และลอด และ SWAIE หน้า 3 – 7Hissar บัลแกเรีย 12 2013 กันยายนประเมินการสร้างแบบสอบถามถามภาษา SPARQLคุณโคเฮน Bretonnelซื้อคอมพิวเตอร์โปรแกรมสหรัฐโคโลราโดคณะแพทย์คิมดงจินฐานข้อมูลศูนย์วิทยาศาสตร์สุขภาพบทคัดย่อสอบถาม SPARQL ได้กลายเป็น มาตรฐานสำหรับการสอบถามฐานข้อมูลเปิดที่เชื่อมโยงความรู้ แต่ก่อสร้าง SPARQL แบบสอบถามสามารถท้าทายและ timeconsuming สำหรับผู้เชี่ยวชาญ SPARQLสร้างแบบสอบถามจากภาษาธรรมชาติถาม modality ที่น่าสนใจสำหรับเชื่อมกับลอดได้ อย่างไรก็ตาม วิธีการประเมินสร้าง SPARQL แบบสอบถามเป็นคำถามภาษาธรรมชาติเป็นส่วนใหญ่เปิดคำถามวิจัย กระดาษนี้นำเสนอบางประเด็นที่เกิดขึ้นใน SPARQLสอบถามการสร้างภาษาธรรมชาติ การชุดทดสอบสำหรับการประเมินประสิทธิภาพของไปปัญหาเหล่านี้ และกรณีศึกษาในการประเมินระบบ SPARQL แบบสอบถามสร้างจากภาษาคำถามบทนำ 1สอบถามภาษา SPARQL เป็นมาตรฐานสำหรับดึงข้อมูลเชื่อมโยงเปิดจากร้านทริปเปิลSPARQL เป็นมีประสิทธิภาพ ความยืดหยุ่น และอนุญาตให้ใช้ของ RDF กับประโยชน์ของช่วงฐานข้อมูลดั้งเดิม อย่างไรก็ตาม SPARQL สอบถามก่อสร้างมีการอธิบายเป็น "absurdly ยาก" (McCarthy et al., 2012), และผู้มีประสบการณ์แม้อาจต่อสู้กับมัน ด้วยเหตุนี้ วิธีการต่าง ๆ มีการแนะนำสำหรับช่วยงานในการสร้างแบบสอบถาม SPARQL รวมถึงแบบสอบถามช่วยก่อสร้าง (McCarthy et al., 2012)ก germaine ส่วนใหญ่งานนี้ แปลงภาษาคำถามเป็นแบบสอบถาม SPARQLแม้ว่าผลงานใน SPARQL แบบสอบถามสร้างคำถามภาษาธรรมชาติได้การเจริญเติบโต ช่วยไม่ได้ยังพัฒนาเกี่ยวกับวิธีการประเมินระบบ (Abachaและ Zweigenbaum, 2012) ประเมินระบบของพวกเขาโดยตรวจสอบด้วยตนเองของ SPARQL แบบสอบถามที่พวกเขาสร้างขึ้น มาตรฐานไม่ได้เตรียมตัวผู้เขียนแต่ละแบบสอบถามการตรวจสอบ และกำหนดหรือไม่ก็อย่างแสดงถึงคำถามภาษาต้นฉบับ (Yahya et al.,2012) ใช้สองผู้พิพากษามนุษย์ด้วยตนเองตรวจสอบผลผลิตของตนเองที่จุด 3 จุดคือแก้ความกำกวม SPARQL ก่อสร้างแบบสอบถาม และคำตอบส่งคืน ถ้าผู้พิพากษา disagreed การผู้พิพากษาสามตรวจสอบผลลัพธ์ (McCarthy ร้อยเอ็ดal., 2012) ได้ประเมินผลอย่างเป็นทางการ แต่แทนที่จะ ให้ตัวอย่างของผลลัพธ์ของการSPARQL ช่วยระบบ (นี่ไม่ใช่ระบบสำหรับการสร้างแบบสอบถามจากภาษาคำถามต่อ se แต่เป็นโปรแกรมประยุกต์สำหรับการให้ความช่วยเหลือในการสอบถามก่อสร้างผ่านวิธีการเช่น autocompletion คำแนะนำ) เป็น (Unger et al., 2012)ประเมินตามมาตรฐานทองคำตอบจากชุดข้อมูลแบบคง ไม่ชัดเจนว่า(โลเปซ et al., 2007) เป็นประเมิน แม้ว่าพวกเขาให้การจัดประเภทข้อผิดพลาดชนิดดี พิจารณาร่างกายนี้ทำงาน แนวโน้มที่มีลักษณะที่ผ่านมาส่วนใหญ่ทำงานอยู่ที่ระบบใดไม่มีอย่างเป็นกิจจะลักษณะประเมิน หรือพวกเขาจะถูกประเมินในการทำงาน กล่องดำ ตรวจสอบการการแม็ประหว่างอินพุตและหนึ่งในสองชนิดแสดงผลตัวใด SPARQL แบบสอบถามด้วยตนเองหรือคำตอบที่ได้จากการสอบถาม SPARQLความสำคัญของการทำรายงานต่าง ๆจะพยายามพัฒนาวิธีรวมสำหรับประเมินระบบการสร้างแบบสอบถาม SPARQLจากคำถามภาษาที่ desiderata สำหรับวิธีการที่หลากหลายเป็น generalizable กับระบบอื่น ๆ นอกจากของเราเองในการพัฒนาระบบของเราสำหรับ SPARQLสร้างแบบสอบถามคำถามภาษาธรรมชาติเป็นที่ชัดเจนว่า เราจำเป็นเหมาะสมการประเมินผลระบบ แนวทางที่จำเป็นในการตรงกับตัวเลขของ desiderata:• Automatability: ควรจะสามารถทำการทดสอบเพื่อให้พวกเขาสามารถทำงาน automat-3ically หลายครั้งในระหว่างวันและที่ไม่มีโอกาสสำหรับมนุษย์พลาดข้อผิดพลาดเมื่อทำการตรวจสอบด้วยตนเองได้•ส่วนประกอบ: วิธีการควรให้สำหรับการประเมินพฤติกรรม granular — นั่นคือrather กว่า (หรือนอก) เพียงความเป็นวัดเดียวที่ระบุลักษณะของประสิทธิภาพผ่านชุดข้อมูลมีทั้งหมด เช่นความถูกต้อง มันควรอนุญาตให้มีการประเมินผลการทำงานมากกว่าปัจจัยการผลิตบางชนิด• Modularity: วิธีการควรให้ประเมินแต่ละโมดูลของระบบอย่างอิสระ•ฟังก์ชัน: วิธีการควรให้ทำงาน กล่องดำประเมินผลสิ้นสุด endto ของระบบทั้งหมดสมมติฐานการสำรวจงานรายงานที่นี่ไม่ว่า จะสามารถดำเนินการประเมิน principled ทรายแป้งละเอียดของซอฟต์แวร์สำหรับสร้างแบบสอบถามภาษา SPARQLคำถามที่เป็นจุดอ่อน uncovering ในซอฟต์แวร์ที่มีประสิทธิภาพในการทดสอบสถานการณ์ ซอฟต์แวร์ต่าง ๆมีวิธีการประเมินซอฟต์แวร์ วิธีการกล่องดำโดยทั่วไปจะสร้างเป็นมาตรฐานของ SPARQL แบบสอบถามด้วยตนเองหรือของคำตอบ ที่ควรจะส่งคืนในการตอบคำถามภาษา... อย่างไรก็ตามเราปกครองออกใช้วิธีการกล่องดำSPARQL แบบสอบถามด้วยตนเองเนื่องจากมีถูกต้อง SPARQL ถามที่เทียบเท่าในแง่ของ triples ที่พวกเขาจะกลับมาจากแหล่งข้อมูลเปิดที่เชื่อมโยงกัน เราปกครองออกวิธีการกล่องดำจากทั้งหมดตรวจสอบ triples การส่งกลับจากแบบสอบถามเมื่อการSPARQL แบบสอบถามถูกดำเนินการกับทริปเปิ้ลจัดเก็บเนื่องจากรายการเฉพาะของ triples ข้องเปลี่ยนแปลงเนื้อหาของทริปเปิ้ลมีร้านค้าจะอัพเดตโดย maintainers ข้อมูลเราเลือกสำหรับวิธีการกล่องสีเทา ในที่เราตรวจสอบผลลัพธ์ในหลายขั้นตอนของการประมวลผล แรกณขณะที่มีการ TUIs ได้รวมชื่อแพทย์ภาษาระบบของความหมายเครือข่ายประกอบด้วยชุดจัดกลุ่มชั้นชนิด 133 ความหมาย มีเฉพาะชนิดรหัส (ตุ่ย) นั่นคือ สำหรับคำถามใด ๆ กำหนดภาษาที่จะทำให้เกิดการตุ่ย เราตรวจสอบถ้าตุ่ยถูกสร้างขึ้นโดยระบบและ ถ้า ถ้าเป็นตุ่ยถูกต้องที่สองได้สร้างแบบสอบถามจุด SPARQL ซึ่งเราเน้นถูกต้องทางไวยากรณ์แทนที่จะสอบถาม SPARQL ทั้งหมด (เหตุผลที่ให้ไว้ข้างต้น) เรายังตรวจสอบผลลัพธ์สอบถาม SPARQL แต่ไม่ได้อยู่ในเงื่อนไขของแน่นอนตรงกับมาตรฐานทองคำ ในทางปฏิบัติ การสอบถามโดยปกติจะกลับรายการยาวของ triples และรายการเฉพาะของ triples เป็นเปลี่ยนแปลงมีเนื้อหาที่เก็บสามปรับปรุง โดย OMIM maintainers เหตุผล เรารู้มั่นใจว่า เรารู้ห้องทริปเปิลถูกต้องหนึ่งซึ่งควรเกิดขึ้นในการแสดงผล และตรวจสอบสถานะของทริปเปิ้ลที่ในผลผลิต นอกจากนี้เรายังได้ตรวจสอบผลการtriples ที่เรารู้จากผู้เชี่ยวชาญโดเมนควรไม่สามารถส่งกลับ ถึงแม้ว่าเราได้ทำที่ด้วยตนเองเพื่อให้ห่างไกล และมีไม่ formalized นั้นในการทดสอบทในเอกสารนี้ เรามุ่งเน้นเฉพาะด้านหนึ่งการประเมินสีเทากล่อง: แม็ปกับ TUIsจะได้เห็น การแม็ป TUIs เมื่อเหมาะสม และแน่นอน ตุ่ยถูกต้อง เป็นคุณลักษณะสำคัญของการตอบคำถามเฉพาะโดเมน เราพัฒนาระบบของเรานอกเหนือจากเริ่มต้น ได้อย่างรวดเร็วกลายเป็นชัดเจนที่มีความจำเป็นเพื่อแยกความแตกต่างระหว่างองค์ประกอบของคำถามที่อ้างอิงถึงเอนทิตีเฉพาะในร้านสาม และองค์ประกอบของคำถามที่อ้างอิงถึงความหมายประเภทตัวอย่าง การสอบถามเช่นยีนใดเกี่ยวข้องกับโรคหัวใจหรือไม่ เราพบว่า โรคหัวใจถูกแมปกับเอนทิตีถูกต้องในการสามแทนที่เป็นการเก็บ แต่ยีนประเภททั่วไป ถูกยังถูกแมป (ตั้งใจ) กับอินสแตนซ์ที่เฉพาะในร้านทริปเปิลกำหนดเพรดิเคตในร้านทริปเปิล สุดถูกจำแนกประเภทในคำถาม และแมปเข้ากับ TUIs ดังนั้น เราพัฒนาวิธีการจำแนกประเภทในคำถาม และแมปเข้ากับ TUIs การทดสอบนี้ทำงานเป็นหัวข้อหลักของเอกสารนี้2 วัตถุดิบและวิธีการ2.1 ออนไลน์เดลในมนุษย์ในงานนี้เราเน้นการเชื่อมโยงเดียวเปิดแหล่งข้อมูล เรียกว่าออนไลน์เดลในคน (OMIM) (Amberger et al., 2011)แอพลิเคชันเห็นได้ชัดที่สุดของ OMIM และหนึ่งนักวิจัยทางชีวการแพทย์ส่วนใหญ่คุ้นเคยกับการใช้ มีการสอบถามเกี่ยวกับยีน และโรค แต่นี้เป็นมากขึ้นทรัพยากรที่คงไม่บ่อยสามารถตามขอบข่ายที่เป็น ในความเป็นจริง มีอินเทอร์เฟซแบบเว็บ4ไม่มีตัวเลือกเลยสำหรับ exploiting เกินสอบถามยีนและโรคแบบรู้ไปไกลเกินนี้ มันมีความเชื่อมโยงระหว่างน้อย 12 ทางตรรกชนิด แสดงด้านล่างในส่วนผลลัพธ์ OMIMทำให้ใช้ในผู้ที่เข้าร่วมในการพิมพ์ TUIsหลายของ triples มันจแมปที่ โดยเฉพาะแต่ละลิงค์ที่อธิบายไว้ข้างต้นเป็นจริงเป็นคู่ TUIs2.2 LODQAเข้าใจวิธีการประเมินที่พัฒนา เป็นประโยชน์เข้าใจระบบภายใต้การทดสอบ รุ่นต้นแบบของระบบที่แตกต่างจากระบบปัจจุบันเป็นหลักในไม่ได้ทำรหัสตุ่ย และใช้อธิบายความสัมพันธ์เริ่มต้นสำหรับเพรดิเคตทั้งหมดในบางรายละเอียดใน (คิมและโคเฮน 2013) เราสั้น ๆอธิบายระบบที่นี่รุ่นปัจจุบัน2.2.1 สถาปัตยกรรมในใบสั่งทั้งสองจะเข้าใจคุณลักษณะอะไรของเราระบบต้องสามารถทดสอบ และเข้าใจวิธีดีเมวิธีทดสอบเพื่อประเมินระบบอื่น ๆ สำหรับการสร้างแบบสอบถาม SPARQL จากคำถามภาษา มีประโยชน์เข้าใจ โดยทั่วไปเงื่อนไข สถาปัตยกรรมระบบที่เรากำลังทดสอบ โมดูลหลักของระบบจะเป็นดังนี้:•ตัวแยกวิเคราะห์อ้างอิงสำหรับการกำหนดความสัมพันธ์ทางความหมายในคำถาม• A ฐานนาม chunker สำหรับค้นหาเงื่อนไขที่จำเป็นต้องแม็ปเอนทิตีหรือ TUIs ในการเชื่อมโยงเปิดชุดข้อมูล• A ระบบฐานนามก้อนเพื่อการจับคู่เอนทิตีหรือ TUIs ในการเชื่อมโยงที่เปิดชุดข้อมูล•โมดูลสำหรับสร้าง presudo SPARQL•โมดูลสำหรับยีน

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

การดำเนินการของการประชุมเชิงปฏิบัติการร่วมในการสะกดจิตและ LOD และ SWAIE หน้า 3-7
Hissar, บัลแกเรีย 12 กันยายน 2013
การประเมินผลของการสร้างแบบสอบถาม SPARQL จากคำถามภาษาธรรมชาติ
เค Bretonnel โคเฮน
ชีววิทยาศาสตร์คอมพิวเตอร์โปรแกรม
U. โคโลราโดโรงเรียนแพทย์
จินคิมดง
ศูนย์ข้อมูลสำหรับวิทยาศาสตร์ชีวิต
บทคัดย่อ
คำสั่ง SPARQL ได้กลายเป็นมาตรฐานสำหรับการสอบถามการเชื่อมโยงข้อมูลที่เปิดฐานความรู้ แต่การก่อสร้าง SPARQL แบบสอบถามสามารถเป็นสิ่งที่ท้าทายและ timeconsuming แม้สำหรับผู้เชี่ยวชาญ SPARQL
รุ่นแบบสอบถามจากภาษาธรรมชาติ
คำถามเป็นกิริยาที่น่าสนใจสำหรับการเชื่อมต่อกับล็อด อย่างไรก็ตามวิธีการ
ประเมินการสร้างแบบสอบถาม SPARQL จาก
คำถามภาษาธรรมชาติเป็นส่วนใหญ่
คำถามการวิจัยที่เปิด บทความนี้
นำเสนอปัญหาบางอย่างที่เกิดขึ้นใน SPARQL
รุ่นแบบสอบถามจากภาษาธรรมชาติ
ชุดทดสอบสำหรับการประเมินผลการปฏิบัติงานที่มี
ความเคารพต่อปัญหาเหล่านี้และกรณีศึกษา
ในการประเมินระบบการแบบสอบถาม SPARQL
รุ่นจากคำถามภาษาธรรมชาติ.
1 บทนำ
ภาษาแบบสอบถาม SPARQL เป็นมาตรฐานสำหรับ
การเชื่อมโยงการดึงข้อมูลจากร้านค้าที่เปิดสาม.
SPARQL ที่มีประสิทธิภาพและมีความยืดหยุ่นและช่วยให้การใช้งาน
ของ RDF ที่มีทั้งหมดของข้อดีของมันมากกว่าฐานข้อมูลแบบดั้งเดิม อย่างไรก็ตามการก่อสร้างแบบสอบถาม SPARQL ได้รับการอธิบายว่า "ขันยาก" (แมคคาร์ et al., 2012) และแม้กระทั่งผู้มีประสบการณ์อาจต่อสู้กับมัน ด้วยเหตุนี้วิธีการต่างๆที่ได้รับการแนะนำสำหรับการช่วยเหลือในการสร้างแบบสอบถาม SPARQL รวมทั้งช่วยก่อสร้างแบบสอบถาม (แมคคาร์ et al., 2012)
และ Germaine มากที่สุดในงานนี้แปลงคำถามภาษาธรรมชาติลงไปในคำสั่ง SPARQL.
แม้ว่าการทำงานของร่างกายใน แบบสอบถาม SPARQL
รุ่นจากคำถามภาษาธรรมชาติได้
รับการเจริญเติบโตมติไม่ได้มีการพัฒนายัง
เกี่ยวกับวิธีการประเมินระบบดังกล่าว (Abacha
และ Zweigenbaum 2012) การประเมินระบบของพวกเขา
โดยการตรวจสอบด้วยตนเองของแบบสอบถาม SPARQL ที่
พวกเขาสร้างขึ้น ไม่มีมาตรฐานทองคำถูก prepared-
เขียนตรวจสอบแต่ละแบบสอบถามและความมุ่งมั่น
หรือไม่ก็ถูกต้องเป็นตัวแทนของคำถามภาษาธรรมชาติเดิม (Yahya et al.,
2012) ที่ใช้สองผู้พิพากษามนุษย์ด้วยตนเองตรวจสอบการส่งออกของระบบของพวกเขาที่สาม points-
disambiguation ก่อสร้างแบบสอบถาม SPARQL และ
ตอบกลับมา ถ้าผู้พิพากษาที่ไม่เห็นด้วย
ผู้พิพากษาที่สามตรวจสอบการส่งออก (แมคคาร์ et
al., 2012) ไม่ได้มีการประเมินผลอย่างเป็นทางการ แต่
ค่อนข้างจะช่วยให้สองตัวอย่างของการส่งออกของ
SPARQL ระบบ Assist (ซึ่งไม่ได้เป็นระบบ
สำหรับการสร้างแบบสอบถามจากคำถามภาษาธรรมชาติต่อ se แต่พลิเคชันสำหรับการให้ความช่วยเหลือ
ในการก่อสร้างแบบสอบถามผ่านวิธีการเช่นข้อเสนอแนะ autocompletion.) (อังเกอร์ et al., 2012) จะ
ได้รับการประเมินบนพื้นฐานของมาตรฐานทองคำของ คำตอบจากชุดข้อมูลแบบคงที่ มันไม่ชัดเจนว่า
(โลเปซ et al., 2007) ได้รับการประเมินแม้ว่าพวกเขาจะ
ให้การจัดหมวดหมู่ที่ดีของประเภทข้อผิดพลาด การตรวจสอบการทำงานของร่างกายนี้แนวโน้มที่มีความโดดเด่นทำงานที่ผ่านมาส่วนใหญ่จะเป็นระบบอย่างใดอย่างหนึ่ง
ไม่ได้รับการประเมินอย่างเป็นทางการหรือที่พวกเขาได้รับการประเมิน
ในการทำงาน, แฟชั่นกล่องดำตรวจสอบ
การทำแผนที่ระหว่างปัจจัยการผลิตและเป็นหนึ่งในสองประเภทของ
ผล-อย่างใดอย่างหนึ่ง สอบถาม SPARQL ตัวเอง
หรือคำตอบที่ส่งกลับโดยแบบสอบถาม SPARQL.
ความสำคัญของการทำงานที่มีการรายงานว่านี่คือ
ความพยายามที่จะพัฒนาวิธีการแบบครบวงจรสำหรับ
การประเมินระบบสำหรับการสร้างแบบสอบถาม SPARQL
จากคำถามภาษาธรรมชาติที่ตรงกับความหลากหลายของ Desiderata สำหรับการดังกล่าว วิธีการและที่
เป็น generalizable กับระบบอื่น ๆ นอกเหนือจากของเราเอง.
ในการพัฒนาระบบของเราสำหรับ SPARQL
รุ่นแบบสอบถามจากคำถามภาษาธรรมชาติ
มันก็กลายเป็นที่ชัดเจนว่าเราจำเป็นต้องมีวิธีการที่มีประสิทธิภาพ
ในการประเมินผลระบบ วิธีการที่จำเป็นเพื่อ
ตอบสนองจำนวน Desiderata:
• Automatability: มันควรจะเป็นไปโดยอัตโนมัติการทดสอบเพื่อให้พวกเขาสามารถทำงานอัตโนมัติ-3
หลายครั้ง ically ในระหว่างวันและเพื่อให้
มีโอกาสสำหรับมนุษย์ที่จะพลาดข้อผิดพลาดเมื่อทำคู่มือไม่มี . ตรวจสอบ
•ความละเอียด: วิธีจะช่วยให้
การประเมินที่ละเอียดของพฤติกรรมที่เป็น
มากกว่า (หรือนอกเหนือไป) เพียงแค่กลับ
ตัวชี้วัดเดียวที่ characterizes ประสิทธิภาพ
มากกว่าชุดข้อมูลทั้งหมดเช่นความถูกต้องก็
ควรอนุญาตให้มีการประเมินผลการ การทำงาน
มากกว่าประเภทเฉพาะของปัจจัยการผลิต.
• Modularity: วิธีการควรอนุญาตให้มี
การประเมินแต่ละโมดูลของระบบ
. อิสระ
•ฟังก์ชันการทำงาน: วิธีจะช่วยให้
. การทำงาน, การประเมินผลกล่องดำของประสิทธิภาพ endto ปลายของระบบโดยรวม
สมมติฐานการสำรวจในการทำงานที่มีการรายงานที่นี่ก็คือว่ามันเป็นไปได้ที่จะดำเนินการ
ประเมินผลที่ละเอียดจริยธรรมของซอฟต์แวร์สำหรับ
การสร้างแบบสอบถาม SPARQL จากภาษาธรรมชาติ
คำถามที่มีประสิทธิภาพในการเปิดเผยจุดอ่อนในซอฟแวร์.
ในขณะที่สถานการณ์การทดสอบซอฟต์แวร์ใด ๆ ที่หลากหลาย
วิธีการ การประเมินซอฟแวร์ที่มีอยู่ วิธีกล่องดำโดยทั่วไปจะมีการสร้าง
มาตรฐานทองคำของแบบสอบถาม SPARQL ตัวเอง
และ / หรือคำตอบที่ควรจะกลับมาในการตอบคำถามภาษาธรรมชาติ .. แต่
เราตัดออกไปใช้วิธีการกล่องดำที่จะ
SPARQL สอบถามตัวเองเพราะมี
หลายคำสั่งที่ถูกต้องที่ SPARQL เทียบเท่าในแง่ของอเนกประสงค์ที่ว่าพวกเขาจะกลับมา
จากแหล่งข้อมูลที่เปิดการเชื่อมโยง เราตัดออก
วิธีกล่องดำขึ้นอยู่ทั้งหมดในการตรวจสอบอเนกประสงค์กลับมาจากการสอบถามเมื่อ
แบบสอบถาม SPARQL กำลังดำเนินการกับสาม
ร้านเพราะรายการที่เฉพาะเจาะจงของอเนกประสงค์อาจมีการ
เปลี่ยนแปลงอันเป็นเป็นเนื้อหาของสาม
ร้านค้าโดยมีการปรับปรุง ดูแลข้อมูล.
เราเลือกใช้สำหรับวิธีการสีเทากล่องที่เรา
ตรวจสอบผลลัพธ์ที่หลายขั้นตอนของการประมวลผล เป็นครั้งแรกที่จุดของการทำแผนที่เพื่อ tuis.
เครือข่ายความหมายของระบบการแพทย์ภาษาแบบครบวงจรประกอบด้วยชุดการจัดกลุ่มลำดับชั้น
ของ 133 ชนิดความหมายแต่ละคนมีประเภทที่ไม่ซ้ำ
ตัวบ่งชี้ (ตุ๋ย) นั่นคือสำหรับคำถามภาษาธรรมชาติใดก็ตามที่ควรทำให้เกิดการทำแผนที่เพื่อ
TUI เราตรวจสอบถ้าตุ๋ยได้รับการสร้างขึ้นโดย
ระบบและถ้าเป็นเช่นนั้นถ้ามันเป็นที่ถูกต้องตุ๋ย.
ที่สองเป็นจุดของการสร้างแบบสอบถาม SPARQL, ที่เรามุ่งเน้นไปที่ความถูกต้องประโยค,
มากกว่าแบบสอบถามทั้งหมด SPARQL (ด้วยเหตุผลดังกล่าวข้างต้น) นอกจากนี้เรายังมีการตรวจสอบการส่งออก
ของแบบสอบถาม SPARQL แต่ไม่ใช่ในแง่ของการที่แน่นอน
ตรงกับมาตรฐานทองคำ ในทางปฏิบัติคำสั่ง
โดยทั่วไปแล้วจะกลับรายการยาวของอเนกประสงค์และ
รายการที่เฉพาะเจาะจงของอเนกประสงค์อาจมีการเปลี่ยนแปลงอันเป็นเป็นเนื้อหาของการจัดเก็บสามได้รับการ
ปรับปรุงโดยดูแล OMIM สำหรับเหตุผลที่เราได้มุ่งเน้นไปที่การสร้างความมั่นใจว่าเรารู้
ที่ถูกต้องสามซึ่งจะเกิดขึ้นในการส่งออกและการปรากฏตัวของการตรวจสอบที่สามใน
การส่งออก เรายังได้รับการตรวจสอบผลลัพธ์สำหรับ
อเนกประสงค์ที่เรารู้จากความเชี่ยวชาญโดเมนควรจะ
ไม่ถูกส่งกลับถึงแม้ว่าเราได้ทำด้วยตนเองเพื่อให้ห่างไกลและยังไม่เป็นทางการในการทดสอบ
ชุด.
ในบทความนี้เรามุ่งเน้นในด้านหนึ่งโดยเฉพาะ
สีเทา การประเมินผล -box. ทำแผนที่เพื่อ tuis
ในฐานะที่จะเห็นการทำแผนที่เพื่อ tuis ตามความเหมาะสมและแน่นอนที่จะตุ๋ยที่ถูกต้องเป็นคุณลักษณะที่สำคัญของการตอบคำถามเฉพาะโดเมน ในฐานะที่เราพัฒนาระบบของเราเกินกว่า
ต้นแบบเริ่มต้นได้อย่างรวดเร็วกลายเป็นที่เห็นได้ชัดว่า
มีความจำเป็นที่จะแยกความแตกต่างระหว่างองค์ประกอบของคำถามที่ว่าจะเรียกหน่วยงานที่เฉพาะเจาะจงในการจัดเก็บสามและองค์ประกอบของคำถามที่เรียกว่าประเภทความหมายทั่วไป.
ยกตัวอย่างเช่น สำหรับคำสั่งที่ชอบอะไรยีนที่เกี่ยวข้องกับการเกิดโรคหัวใจ ?, เราพบว่าการเกิดโรคหัวใจได้ถูกแมปไปยังนิติบุคคลที่ถูกต้องใน
การจัดเก็บสาม แต่ยีนมากกว่าถูกถือว่าเป็น
หมวดหมู่ทั่วไปก็ยังมีการแมป (สมควร) เพื่อ เช่นโดยเฉพาะอย่างยิ่งในการจัดเก็บสาม.
ภาค ป.ร. ให้ไว้ในการจัดเก็บสามทางออกที่ดีที่สุดคือการรับรู้ประเภททั่วไปในคำถามและแม็พกับ tuis ดังนั้นเราจึงพัฒนาวิธีการที่จะรับรู้ประเภททั่วไป
ในคำถามและแม็พกับ tuis การทดสอบนี้
ฟังก์ชันการทำงานที่เป็นหัวข้อหลักของการวิจัยนี้.
2 วัสดุและวิธีการ
2.1 ออนไลน์เด็ลมรดกในผู้ชาย
ในงานนี้เรามุ่งเน้นไปที่การเปิดการเชื่อมโยงเดียว
แหล่งข้อมูลออนไลน์ที่รู้จักกันเป็นมรดกของเมนเดลในผู้ชาย (OMIM) (Amberger et al., 2011).
การประยุกต์ใช้ที่ชัดเจนที่สุดของ OMIM และ
หนึ่งที่นักวิจัยทางการแพทย์มีความคุ้นเคยมากที่สุดที่จะใช้มันเป็นคำสั่งเกี่ยวกับยีนและ
โรค แต่เป็นทรัพยากรที่มีมากยิ่งขึ้นที่
อาจจะไม่ได้ใช้ประโยชน์มักจะในขอบเขตที่เต็มรูปแบบที่
มัน อาจจะ; ในความเป็นจริง web-based interface มี
4
ตัวเลือกที่ทุกคนสำหรับการใช้ประโยชน์จากมันเกินสอบถาม
ยีนและโรค.
โมเดลองค์ความรู้ไปไกลเกินกว่านี้ มัน
รวมถึงการเชื่อมโยงระหว่างอย่างน้อย 12 ความหมายของ
ประเภทที่ระบุไว้ด้านล่างในส่วนของผลลัพธ์ OMIM
ทำให้การใช้ tuis ในการพิมพ์เข้าร่วมใน
หลายอเนกประสงค์ว่ามันเข้ารหัส โดยเฉพาะอย่างยิ่ง
การเชื่อมโยงแต่ละที่อธิบายข้างต้นเป็นจริง
คู่ของ tuis.
2.2 LODQA
เพื่อให้เข้าใจถึงวิธีการประเมินผลที่เรา
ได้รับการพัฒนาจะเป็นประโยชน์ในการทำความเข้าใจระบบ
ภายใต้การทดสอบ รุ่นต้นแบบของระบบที่
แตกต่างไปจากระบบปัจจุบันเป็นหลักในแง่
ของประสิทธิภาพไม่ระบุตัวตนและตุ๋ยของการใช้
ความสัมพันธ์ที่เริ่มต้นสำหรับภาคทั้งหมดจะถูกอธิบายไว้ใน
รายละเอียดบางอย่างใน (คิมและโคเฮน 2013) เราสั้น
อธิบายรุ่นปัจจุบันของระบบที่นี่.
2.2.1 สถาปัตยกรรม
เพื่อที่ทั้งสองจะเข้าใจสิ่งที่เรามีของ
ระบบจะต้องมีการทดสอบและการที่จะเข้าใจว่า
วิธีการที่ดีในการทดสอบจะพูดคุยเพื่อประเมินระบบอื่น ๆ สำหรับการสร้างแบบสอบถาม SPARQL จากภาษาธรรมชาติ คำถามจะเป็นประโยชน์
ในการทำความเข้าใจในแง่ทั่วไปสถาปัตยกรรมของ
ระบบที่เรามีการทดสอบ โมดูลหลักของระบบมีดังนี้
• parser พึ่งพาในการกำหนดความสัมพันธ์ของความหมายในคำถาม.
•ฐานนาม chunker สำหรับการค้นหาคำที่
จะต้องมีการแมปไปยังหน่วยงานหรือ tuis ใน
ชุดข้อมูลที่เปิดการเชื่อมโยง.
•ระบบ การจับคู่ชิ้นฐานนามเพื่อ
กิจการหรือการ tuis ในชุดข้อมูลที่เปิดการเชื่อมโยง.
•โมดูลสำหรับคนรุ่น presudo-SPARQL.
•โมดูลยีน

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

การดำเนินการของการประชุมเชิงปฏิบัติการร่วมกันในการลด& NLP และ swaie หน้า 3 – 7
, ลิฟท์ , บัลแกเรีย , 12 กันยายน 2013
การประเมินจากแบบสอบถาม sparql รุ่นภาษาธรรมชาติคำถาม
K . bretonnel โคเฮนคอมพิวเตอร์ด้านโปรแกรม
U
โคโลราโดโรงเรียนแพทย์ของดงจินคิม

ฐานข้อมูลศูนย์วิทยาศาสตร์

ชีวิตนามธรรมsparql แบบสอบถามได้กลายเป็นมาตรฐานสำหรับการสอบถามข้อมูลเชื่อมโยงความรู้เปิดฐาน แต่การสร้างแบบสอบถาม sparql สามารถท้าทายและ timeconsuming แม้แต่สำหรับผู้เชี่ยวชาญ สร้างแบบสอบถาม sparql

จากคำถามภาษาธรรมชาติเป็นกิริยามีเสน่ห์สำหรับการเชื่อมต่อกับโลด . อย่างไรก็ตาม วิธีการประเมินจากแบบสอบถาม sparql รุ่น

คำถามภาษาธรรมชาติเป็นส่วนมาก
เปิดงานวิจัยคำถาม
บทความนี้นำเสนอปัญหาที่เกิดขึ้นในรุ่นสอบถาม sparql
จากภาษาธรรมชาติ เป็นชุดทดสอบสำหรับประเมินประสิทธิภาพด้วย

นับถือในประเด็นเหล่านี้ และกรณีศึกษา
ในการประเมินระบบสร้างแบบสอบถาม
sparql จากคำถามภาษาธรรมชาติเบื้องต้น

1 sparql Query Language เป็นมาตรฐานสำหรับ
เรียกการเชื่อมโยงเปิดข้อมูลจากร้านค้า 3 .
sparql คือพลังมีความยืดหยุ่น และช่วยให้ใช้
ของ RDF ที่มีทั้งหมดของข้อดีของมันมากกว่าฐานข้อมูลแบบดั้งเดิม อย่างไรก็ตาม การสร้างแบบสอบถาม sparql ได้รับการอธิบายว่า " ช่างยาก " ( McCarthy et al . , 2012 ) , และแม้กระทั่งผู้ใช้ที่มีประสบการณ์อาจจะต่อสู้กับมัน ด้วยเหตุนี้ วิธีการต่างๆได้รับการแนะนำเพื่อช่วยในการสร้าง sparql รวมถึงช่วยสร้างแบบสอบถาม ( McCarthy et al . ,2012 )
และ เจอร์เมน เพื่องานนี้ แปลงคำถามภาษาธรรมชาติใน sparql แบบสอบถาม .
ถึงแม้ว่าการทำงานของร่างกายในรุ่นสอบถาม
sparql จากคำถามภาษาธรรมชาติได้
ปลูก ไม่เอกฉันท์ยังพัฒนา
เกี่ยวกับวิธีการประเมินระบบ ( zweigenbaum บาชา

และ 2012 ) การประเมินผลของระบบโดยตรวจสอบด้วยตนเองของ sparql แบบสอบถามที่
ที่พวกเขาสร้างขึ้นไม่มีมาตรฐานทองเตรียม -
ผู้เขียนตรวจสอบแต่ละแบบสอบถามและมุ่งมั่น
หรือไม่ถูกต้องแสดงต้นฉบับภาษาธรรมชาติคำถาม ( Yahya et al . ,
2012 ) ใช้ 2 คนตัดสินด้วยตนเองตรวจสอบการแสดงผลของระบบของพวกเขาใน 3 จุด -
disambiguation sparql , การก่อสร้างและสอบถาม
คำตอบกลับมา ถ้าผู้พิพากษาไม่เห็นด้วย ,
ผู้พิพากษาที่สามตรวจสอบผลผลิต( McCarthy et
al . , 2012 ) ไม่ได้มีการประเมินผลที่เป็นทางการ แต่
ค่อนข้างให้สองตัวอย่างของ
sparql ช่วยระบบ ( นี้ไม่ได้เป็นระบบ
สอบถามรุ่นจากธรรมชาติภาษาคำถามต่อ se แต่แทนที่จะเป็นโปรแกรมสำหรับช่วยในการสร้างผ่านวิธีการ
ชอบข้อเสนอแนะ การทำให้สมบูรณ์ ) ( อังเกอร์ et al . , 2012 )
ประเมินบนพื้นฐานของมาตรฐานทองของคำตอบ จากสถิตชุดข้อมูล มันไม่ชัดเจนว่า
( โลเปซ et al . , 2007 ) ประเมิน แม้ว่าพวกเขา
ให้หมวดหมู่ดีประเภทของข้อผิดพลาด ตรวจสอบร่างกายของงานนี้แนวโน้มที่โดดเด่นที่สุดที่ให้ระบบทำงานผ่าน
ไม่ประเมินอย่างเป็นทางการ หรือมีการประเมิน
ในการทํางาน , แฟชั่นกล่องสีดำ ตรวจสอบ
แผนที่ระหว่างอินพุตและหนึ่งในสองชนิดของผลผลิตทั้ง sparql
สอบถามตัวเอง
หรือคำตอบส่งกลับโดยแบบสอบถาม sparql .
ความสำคัญของงานรายงานที่นี่คือ
พยายามที่จะพัฒนาวิธีการใหม่สำหรับการประเมินระบบการสร้าง sparql

จากภาษาธรรมชาติ คำถามที่ตรงกับความหลากหลายของสิ่งจำเป็นเช่นวิธีการที่
เป็น generalizable กับระบบอื่น ๆนอกเหนือจากของเราเอง .
ในการพัฒนาระบบของเราเพื่อสร้างแบบสอบถาม sparql

คำถามภาษาธรรมชาติ มันเป็นที่ชัดเจนว่าเราต้องการ
วิธีการคึกคักการประเมินผลระบบ . แนวทางที่จำเป็นกับ
ตรงกับหมายเลขของสิ่งจำเป็น :
- automatability : มันเป็นไปได้โดยอัตโนมัติการทดสอบเพื่อให้พวกเขาสามารถเรียกใช้ automat-3

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.