Fig. 6. Precision and Recall measures for our initial two trials.
Figure 6 shows the resulting precision and recall measures through time.
6 Related Work
Due to the public availability of Geoquery 250 corpus, we can compare our initial
results to several machine learning approaches [16, 8, 6, 17, 18], an approach
based on light annotation [14] and an authoring approach over Microsoft’s EnglishQuery
product (described in [14]).
In comparing our results with machine learning approaches, we focus on results
obtained after 120 minutes of effort. Since our informal finding of 2 minutes
preparation time for each query in the training set, we thus focus on results with
training sets of size 60. The results for such small training sets are not very
strong. For example the accuracy of _-WASP, the latest and currently best performing
system developed by the group at the University of Texas, appears to be
slightly under 50% with 60 queries in the test set (precision was slightly under
1 We adopt the definition of recall presented in [14]. Unfortunately terms have not been
consistently used across the literature on NLI to database evaluation. For example
our measure of accuracy corresponds to recall as defined in the UT group’s results.
We adopt the definition of terms in [14], because they are reminiscent of the trade
offs in standard information retrieval between recall and precision. In any case as we
compare our results to others, we shall present their results in our terms.
80%, thus in our terminology recall was approximately 60%). In our experiments
subjects average slightly under 80% correctness after 120 minutes of authoring
with an average precision of 86%. Also of interest is to look at asymptotic results
when training samples grow to essentially unbounded size. In these cases, machine
learning results are much stronger. The asymptotic precision of _-WASP
appears to be approximately 91.95% with an accuracy of 86.59%, yielding, in
our terminology a recall of 94%. Another machine learning experiment over a
relaxed-CCG approach obtained similar results [18].
Our comparisons with machine learning approaches highlight a bootstrapping
weakness that if overcome would probably make machine learning approaches
dominant. The weakness is of course the cost of obtaining the corpus of natural
language/logical expression pairs. Mooney talks briefly about an approach to
this problem for simulated environments where descriptions in natural language
are paired with formal representations of objects and events retained from the
simulation [13]. He suggests simulated RoboCup where a commentator describes
game events as an interesting test-bed. Our proposed approach, focussed as it is
on just NLIs to databases, envisions authors making equality statements between
natural language queries. For example one may assert that “What are the states
through which the Longest river runs” means “states with the longest river”. If
the system is able to obtain a correct parse of the second query, it can associate
that with the earlier natural language question and use this as a basis to induce
extra lexical rules that make the NLI more robust. Although our approach always
requires some initial bootstrapping before such machine learning can engage,
this paper has shown that the labor involved in such bootstrapping can be of
reasonable cost. The thesis is that in the long run this will lead to systems
approach 100% precision and recall for the queries that are issued to the system2
รูป 6 แม่นยำและมาตรการเรียกคืนของเราทั้งสองการทดลองเบื้องต้นรูปที่ 6 แสดงผลความแม่นยำและเรียกคืนมาตรการผ่านเวลาทำงาน 6เนื่องจากงานสาธารณะของคอร์ปัส Geoquery 250 เราสามารถเปรียบเทียบเริ่มต้นของเราผลการเรียนรู้ของเครื่องหลายวิธี [16, 8, 6, 17, 18], วิธีการอิงจากแสงประกอบ [14] และการเขียนวิธีการผ่านของ Microsoft EnglishQueryผลิตภัณฑ์ (อธิบายใน [14])ในการเปรียบเทียบผลของเรา ด้วยวิธีการเรียนรู้ของเครื่อง เราเน้นผลลัพธ์ได้รับหลังจาก 120 นาทีความพยายาม ตั้งแต่การค้นหาของเราเป็น 2 นาทีเตรียมเวลาสำหรับแต่ละแบบสอบถามในชุดฝึกอบรม เราจึงเน้นผลชุดฝึกอบรมขนาด 60 ผลลัพธ์สำหรับชุดอบรมขนาดเล็กดังกล่าวมีไม่มากแข็งแรง ตัวอย่างเช่นความถูกต้องของ_-มดตะนอย การล่าสุด และดีที่สุดในขณะนี้การดำเนินการระบบที่พัฒนา โดยมหาวิทยาลัยเท็กซัส ปรากฏเล็กน้อยต่ำกว่า 50% กับ 60 แบบสอบถามในชุดทดสอบ (ความแม่นยำก็ต่ำกว่าเล็กน้อยเรานำคำจำกัดความของการเรียกคืนใน [14] แต่เงื่อนไขไม่ได้อย่างสม่ำเสมอใช้ในวรรณคดีบน NLI การประเมินฐานข้อมูล ตัวอย่างเช่นเราวัดความถูกต้องแม่นยำสอดคล้องกับการเรียกคืนตามที่กำหนดไว้ในผลของกลุ่ม UTเรานำความหมายของคำใน [14], เพราะพวกเขาของการค้าชอบในการเรียกข้อมูลมาตรฐานระหว่างการเรียกคืนและความแม่นยำ ในกรณีเป็นเราเปรียบเทียบผลของเราให้ผู้อื่น เราจะนำเสนอผลในเงื่อนไขของเรา80% ดังนั้นในการเรียกคืนคำศัพท์ของเราเป็นประมาณ 60%) ในการทดลองของเราวัตถุเฉลี่ยเล็กน้อยต่ำกว่า 80% ถูกต้องหลังจากเขียน 120 นาทีด้วยมีความแม่นยำเฉลี่ย 86% นอกจากนี้ยัง น่าสนใจคือการ ดูผล asymptoticเมื่อฝึกอย่างเติบโตขนาดไม่เป็นหลัก ในกรณีนี้ เครื่องผลการเรียนรู้แข็งแกร่งมาก ความแม่นยำ asymptotic ของมดตะนอย_ดูเหมือนจะ ประมาณ 91.95% แม่นยำ 86.59% ผลผลิต ในคำศัพท์ของเราที่เรียกคืน 94% เครื่องอื่นที่ทดลองการเรียนรู้ผ่านการวิธีผ่อนคลาย CCG ได้ผลลัพธ์คล้ายกัน [18]เราเปรียบเทียบกับวิธีการเรียนรู้ของเครื่องเน้นแบบ bootstrappingจุดอ่อนที่ว่าถ้าเอาชนะอาจจะทำให้วิธีการเรียนรู้ของเครื่องโดดเด่น จุดอ่อนคือ ค่ารับคอร์ปัสธรรมชาติแน่นอนคู่ภาษาตรรกะในนิพจน์ Mooney พูดสั้น ๆ เกี่ยวกับแนวทางปัญหานี้สำหรับสภาพแวดล้อมจำลองที่อธิบายในภาษาธรรมชาติจับคู่กับทางตัวแทนของวัตถุและเหตุการณ์ต่าง ๆ จากการจำลอง [13] เขาแนะนำจำลอง RoboCup ที่วิจารณ์การอธิบายกิจกรรมสนใจทดสอบเตียง แนวทางการนำเสนอ focussed มันเป็นใน NLIs เพียงฐานข้อมูล envisions คำความเท่าเทียมกันระหว่างผู้เขียนสอบถามภาษาธรรมชาติ ตัวอย่างเช่น หนึ่งอาจอ้างว่า "อะไรเป็นของอเมริกาผ่านซึ่งแม่น้ำที่ยาวที่สุดทำงาน"หมายถึง "รัฐ มีแม่น้ำที่ยาวที่สุด" ถ้าระบบไม่สามารถได้รับในการแยกวิเคราะห์ถูกต้องของแบบสอบถามที่สอง มันสามารถเชื่อมโยงที่ภาษาธรรมชาติก่อนหน้าคำถาม และใช้เป็นพื้นฐานก่อให้เกิดการกฎเกี่ยวกับคำศัพท์พิเศษที่ทำให้ NLI แข็งแกร่งยิ่งขึ้น แม้ว่าวิธีการของเราเสมอต้องบางต้น bootstrapping ก่อนเรียนรู้ของเครื่องดังกล่าวสามารถมีส่วนร่วมกระดาษนี้ได้แสดงให้เห็นว่า แรงงานที่เกี่ยวข้องเช่น bootstrapping สามารถของต้นทุนที่เหมาะสม วิทยานิพนธ์มีในระยะยาวว่า นี้นำไปสู่ระบบวิธีแม่นยำ 100% และเรียกคืนสำหรับแบบสอบถามที่ออกไป system2
การแปล กรุณารอสักครู่..
มะเดื่อ. 6. ความแม่นยำและจำมาตรการในการเริ่มต้นการทดลองของเราสอง.
รูปที่ 6 แสดงให้เห็นถึงความแม่นยำและส่งผลให้การเรียกคืนมาตรการผ่านช่วงเวลาที่.
6 งานที่เกี่ยวข้อง
เนื่องจากความพร้อมของประชาชนในการ Geoquery 250 Corpus เราสามารถเปรียบเทียบการเริ่มต้นของเรา
ผลกับวิธีการเรียนรู้ของเครื่องหลาย [16 , 8, 6, 17, 18], วิธีการ
ขึ้นอยู่กับคำอธิบายประกอบแสง [14] และวิธีการเขียนมากกว่า EnglishQuery ไมโครซอฟท์
ของผลิตภัณฑ์ (ที่อธิบายไว้ใน [14]).
ในการเปรียบเทียบผลของเราด้วยวิธีการเรียนรู้ของเครื่องเรามุ่งเน้นเกี่ยวกับผล
ที่ได้รับหลังจากที่ 120 นาทีของความพยายาม ตั้งแต่การค้นพบทางการของเรา 2 นาที
เวลาเตรียมตัวสำหรับแต่ละแบบสอบถามในการฝึกอบรมชุดเราจึงมุ่งเน้นไปที่ผลกับ
ชุดการฝึกอบรมที่มีขนาด 60 ผลการค้นหาสำหรับชุดการฝึกอบรมที่มีขนาดเล็กดังกล่าวจะไม่ได้เป็นอย่าง
ที่แข็งแกร่ง ตัวอย่างเช่นความถูกต้องของ _-WASP ที่มีประสิทธิภาพใหม่ล่าสุดและปัจจุบันที่ดีที่สุด
ระบบที่พัฒนาขึ้นโดยกลุ่มที่มหาวิทยาลัยเท็กซัสที่ดูเหมือนจะ
เล็กน้อยภายใต้ 50% กับ 60 คำสั่งในชุดทดสอบ (ความแม่นยำเล็กน้อยภายใต้
1 เรานำคำนิยาม ของการเรียกคืนนำเสนอใน [14]. แต่ข้อตกลงไม่ได้รับการ
ใช้อย่างต่อเนื่องทั่วทั้งหนังสือที่เกี่ยวกับ NLI การประเมินฐานข้อมูล. ตัวอย่างเช่น
การวัดความถูกต้องของเราสอดคล้องกับการเรียกคืนตามที่กำหนดไว้ในผลการกลุ่มยูทาห์.
เรานำความหมายของคำศัพท์ต่างๆ [14 ] เพราะพวกเขาจะเตือนความทรงจำของการค้า
ไม่ชอบในการดึงข้อมูลมาตรฐานระหว่างการเรียกคืนและความแม่นยำ. ในกรณีใด ๆ ในขณะที่เรา
เปรียบเทียบผลของเรากับคนอื่น ๆ ที่เราจะนำเสนอผลงานของพวกเขาในแง่ของเรา.
80% ดังนั้นในการเรียกคืนคำศัพท์ของเราอยู่ที่ประมาณ 60 %) ในการทดลองของเรา
วิชาเฉลี่ยเล็กน้อยภายใต้ความถูกต้อง 80% หลังจาก 120 นาทีการเขียน
ที่มีความแม่นยำสูงเฉลี่ย 86% ที่น่าสนใจก็คือการมองไปที่ผล asymptotic
เมื่อตัวอย่างการฝึกอบรมเติบโตไปขนาดมากมายเป็นหลัก ในกรณีนี้เครื่อง
ผลการเรียนรู้ที่มีความเข้มแข็งมากขึ้น ความแม่นยำของ asymptotic _-WASP
ปรากฏจะอยู่ที่ประมาณ 91.95% และมีความถูกต้องของ 86.59% ให้ผลผลิตใน
คำศัพท์ที่เราเรียกคืนจาก 94% ใน ทดลองเรียนรู้ของเครื่องอีกกว่า
วิธีการผ่อนคลาย-CCG ได้รับผลที่คล้ายกัน [18].
การเปรียบเทียบเรากับการเรียนรู้เครื่องวิธีการเน้นความร่วมมือ
อ่อนแอว่าถ้าเอาชนะอาจจะทำให้การเรียนรู้เครื่องวิธีการ
ที่โดดเด่น ความอ่อนแอเป็นหลักสูตรที่ค่าใช้จ่ายของการได้รับคลังของธรรมชาติ
ภาษา / คู่แสดงออกตรรกะ Mooney พูดสั้น ๆ เกี่ยวกับวิธีการที่จะ
แก้ไขปัญหานี้สำหรับสภาพแวดล้อมจำลองที่คำอธิบายในภาษาธรรมชาติ
จะจับคู่กับการเป็นตัวแทนอย่างเป็นทางการของวัตถุและเหตุการณ์ที่สะสมจาก
การจำลอง [13] เขาแสดงให้เห็น RoboCup จำลองที่ผู้บรรยายอธิบายถึง
เหตุการณ์ที่เกิดขึ้นเป็นเกมที่น่าสนใจทดสอบเตียง วิธีการที่เรานำเสนอเพ่งความสนใจไปที่มันเป็น
เพียง NLIs ไปยังฐานข้อมูล, วาดภาพเขียนการทำงบเท่าเทียมกันระหว่าง
คำสั่งภาษาธรรมชาติ ตัวอย่างเช่นคนหนึ่งอาจยืนยันว่า "อะไรคือรัฐ
ผ่านที่แม่น้ำที่ยาวที่สุดทำงาน" หมายถึง "รัฐที่มีแม่น้ำที่ยาวที่สุด" หาก
ระบบสามารถที่จะได้รับการแยกวิเคราะห์ที่ถูกต้องของแบบสอบถามที่สองก็สามารถเชื่อมโยง
กับคำถามภาษาธรรมชาติก่อนหน้านี้และใช้สิ่งนี้เป็นพื้นฐานที่จะทำให้เกิด
กฎศัพท์พิเศษที่ทำให้ NLI มีประสิทธิภาพมากขึ้น แม้ว่าวิธีการของเรามักจะ
ต้องมีการร่วมมือครั้งแรกก่อนที่จะเรียนรู้ของเครื่องดังกล่าวสามารถมีส่วนร่วม,
กระดาษนี้ได้แสดงให้เห็นว่าแรงงานที่เกี่ยวข้องในการร่วมมือดังกล่าวจะมีการ
ใช้จ่ายที่เหมาะสม วิทยานิพนธ์ที่อยู่ในระยะยาวนี้จะนำไปใช้กับระบบ
วิธีการที่มีความแม่นยำ 100% และจำสำหรับการค้นหาที่ออกให้แก่ System2
การแปล กรุณารอสักครู่..
รูปที่ 6 ความแม่นยำและจำ ในการทดลองเบื้องต้น 2รูปที่ 6 แสดงผลแม่นยำ และจำได้ว่ามาตรการที่ผ่านกาลเวลางานที่เกี่ยวข้อง 6เนื่องจากความพร้อมของประชาชน geoquery 250 ข้อมูล เราสามารถเปรียบเทียบของเราเริ่มต้นผลเครื่องหลายวิธีการเรียน [ 16 , 8 , 6 , 17 , 18 ] , วิธีการขึ้นอยู่กับแสงหมายเหตุ [ 14 ] และการเขียนแนวทางของ Microsoft englishqueryผลิตภัณฑ์ ( ที่อธิบายไว้ใน [ 14 ] )การเปรียบเทียบผลลัพธ์ของเรากับเครื่องวิธีการเรียน เรามุ่งเน้นผลลัพธ์ที่ได้รับหลังจาก 120 นาทีของความพยายาม ตั้งแต่การหาของเราอย่างไม่เป็นทางการ 2 นาทีการเตรียมการสำหรับแต่ละแบบสอบถามในชุดฝึกอบรม เราจึงมุ่งเน้นผลลัพธ์ด้วยการฝึกชุดขนาด 60 ผลลัพธ์สำหรับชุดฝึกอบรมเช่นขนาดเล็ก จะไม่ค่อยแข็งแรง ตัวอย่างเช่น ความถูกต้องของ _ - ตัวต่อล่าสุดและมีประสิทธิภาพมากที่สุดในปัจจุบันระบบที่พัฒนาขึ้นโดยกลุ่มที่มหาวิทยาลัยเท็กซัส ปรากฏเป็นเล็กน้อยภายใต้ 50 กับ 60 แบบสอบถามในชุดทดสอบ ( แม่นยําได้เล็กน้อยภายใต้1 เราใช้นิยามของการเรียกคืนที่นำเสนอใน [ 14 ] ขออภัยรูปไม่ได้อย่างที่ใช้ในวรรณกรรม nli ประเมินฐานข้อมูล ตัวอย่างเช่นวัดของความถูกต้องสอดคล้องกับเรียกคืนตามที่กําหนดไว้ในผลลัพธ์แต่กลุ่มเราใช้คำจำกัดความใน [ 14 ] , เพราะพวกเขาเป็นรำลึกของการค้าไม่ชอบในการสืบค้นสารนิเทศมาตรฐานระหว่าง Recall และ Precision . ในกรณีใด ๆเป็นเราเปรียบเทียบผลลัพธ์ของเรากับคนอื่น เราก็จะนำเสนอผลของพวกเขาในข้อตกลงของเรา80 % ซึ่งในคำศัพท์ของเราจำได้ประมาณ 60% ) ในการทดลองของเราคนเฉลี่ยเล็กน้อยภายใต้ 80% ความถูกต้องหลังจาก 120 นาทีของการเขียนที่มีความแม่นยำเฉลี่ย 86 % ยังสนใจที่จะดูผลลัพธ์เฉลี่ยเมื่อตัวอย่างการเติบโตหลักไม่จำกัดขนาด ในกรณีเหล่านี้ , เครื่องการเรียนรู้ผลลัพธ์ที่แข็งแกร่งมาก แหล่งความแม่นยําของ _ - ต่อดูเหมือนจะประมาณ 91.95 เปอร์เซ็นต์ความถูกต้องของ 86.59 เปอร์เซ็นต์ ให้ผลผลิตในคำศัพท์ของเรา จำ 94% อีกเครื่องเรียนรู้ทดลองมากกว่าผ่อนคลาย ccg วิธีการได้รับผลที่คล้ายกัน [ 18 ]เปรียบเทียบกับวิธีการเรียนเน้น bootstrapping เครื่องจักรถ้าเอาชนะจุดอ่อนที่อาจจะทำให้การเรียนรู้เครื่อง .เด่น จุดอ่อนของหลักสูตรค่าใช้จ่ายของการได้รับข้อมูล จากธรรมชาติภาษา / ตรรกะคู่นิพจน์ สั้น ๆเกี่ยวกับแนวทางการเจรจามูนีปัญหานี้เพื่อจำลองสภาพแวดล้อมที่อธิบายในภาษาธรรมชาติจะจับคู่กับตัวแทนอย่างเป็นทางการของวัตถุและเหตุการณ์สะสมจากจำลอง [ 13 ] เขาแนะนำนี้ได้อย่างที่นักวิจารณ์อธิบายเกมเหตุการณ์เป็นการทดลองที่น่าสนใจ เราเสนอวิธีการ เน้นเป็นแค่ nlis ไปยังฐานข้อมูล ผู้เขียนสร้างความเสมอภาคระหว่าง envisions ข้อความแบบสอบถามภาษาธรรมชาติ ตัวอย่างเช่นหนึ่งอาจอ้างได้ว่า " อะไรคืออเมริกาผ่านที่ยาวที่สุดแม่น้ำไหล " หมายถึง " รัฐกับแม่น้ำที่ยาวที่สุด ถ้าระบบจะสามารถที่จะได้รับถูกต้องแยกจากแบบสอบถามที่สอง มันสามารถเชื่อมโยงกับคำถามก่อนหน้านี้ภาษาธรรมชาติและใช้เป็นฐานเพื่อจูงกฎคำศัพท์พิเศษที่ทำให้ nli แข็งแกร่งมากขึ้น ถึงแม้ว่าวิธีการของเราเสมอต้องมีการเริ่มต้นก่อนเช่น bootstrapping เครื่องจักรการเรียนรู้สามารถต่อสู้บทความนี้ได้แสดงให้เห็นว่า แรงงานที่เกี่ยวข้องในสามารถของ bootstrappingต้นทุนที่เหมาะสม วิทยานิพนธ์ฉบับนี้ คือ ในระยะยาวนี้จะนำระบบความแม่นยำ 100% วิธีการและเรียกคืนสำหรับแบบสอบถามที่ออกให้แก่ system2
การแปล กรุณารอสักครู่..