Recent years have seen many natural-language processing
(NLP) projects aimed at producing grammars/
parsers capable of assigning reasonable syntactic
structure to a broad swath of English. Naturally,
judging the creations of your parser requires a “gold
standard,” and NLP researchers have been fortunate
to have several corpora of hand-parsed sentences for
this purpose, of which the so-called “Penn tree-bank”
[7] is perhaps the best known. It is also the corpus
used in this study. (In particular, we used the Wall
Street Journal portion of the tree bank which consists
of about one million words of hand-parsed sentences.)
However, when a convenient standard exists, the research
program subtly shifts: the goal is no longer to
create any-old parser, but rather to create one that
mimics the Penn tree-bank parses. Fortunately, while
there is no firm NLP consensus on the exact form a
syntactic parse should take, the Penn trees are reasonably
standard and disagreements are usually about
less common, or more detailed, features. Thus the attempt
to find Penn-style trees seems a reasonable one,
and this paper is a contribution to this effort.
Of those using tree banks as a starting point, a significant
sub-community is interested in using them to
support supervised learning schemes so that the grammar/
parser can be created with minimal human intervention
[1,2,5,6,8]. The benefits of this approach are
P VP
NP / NP
pron vb dt nn
She heard the noise
Figure 1: A simple parsed entry in a tree-bank
twofold: learning obviates the need for grammar writers,
and such grammars may well have better coverage
(assign parses to more sentences) than the hand-tooled
variety. At any rate, this is the’game we have chosen.
Now the simplest way to “learn” a context-free
grammar from a tree-bank is to read the grammar off
the parsed sentences. That is, we can read the following
rules off the parsed sentence in Figure 1
S + NPVP
NP + pron
VP + vb NP
NP + dt nn
We call grammars obtained in this fashion “tree-bank
grammars.”
It is common wisdom that tree-bank grammars do
not work well. We have heard this from-several wellknown
researchers in the statistical NLP community., ,
and the complete lack of any performance results on
such grammars suggests that -if they have been researched
the results did not warrant publication. The
primary purpose of this paper is to refute this common
wisdom. The next section does this by presenting
some results for a tree-bank grammar. Section 3 compares
these results to prior work and addresses why
our results differ from the common expectations.
The parser used in our experiments is, for the most
Learning 1031
From: AAAI-96 Proceedings. Copyright © 1996, AAAI (www.aaai.org). All rights reserved.
part, a standard chart parser. It does differ from the
standard, however, in two ways. One is an efficiency
matter - we improved its ability to search for the
most probable parse. This is discussed briefly in section
3 as well. The second difference is more unusual.
On impressionistic evidence, we have come to believe
that standard PCFGs do not match English’s preference
for right-branching structures. In section 4 we
present some ideas on how this might be corrected and
show how these ideas contribute to the performance
results of section 2.
The
ปีที่ผ่านมาได้เห็นในการประมวลผลภาษาธรรมชาติโครงการ (NLP) มุ่งผลิต grammars /parsers ที่สามารถกำหนดให้เหมาะสมทางไวยากรณ์โครงสร้างการ swath กว้างภาษาอังกฤษ ธรรมชาติตัดสินสร้างสรรค์ของตัวแยกวิเคราะห์ของคุณต้องเป็น "สีทองมาตรฐาน" และนักวิจัย NLP ได้รับโชคดีมี corpora หลายของมือที่แยกวิเคราะห์ประโยคสำหรับวัตถุประสงค์นี้ ซึ่งจะเรียกว่า "เพนน์ธนาคารต้นไม้"[7] ได้อาจเป็นรู้จักกันดี ก็ยังสถานีเรืออากาใช้ในการศึกษานี้ (โดยเฉพาะ เราใช้ผนังถนนส่วนสมุดรายวันของธนาคารต้นไม้ซึ่งประกอบด้วยประมาณหนึ่งล้านคำของประโยคแยกมือ)อย่างไรก็ตาม เมื่อมาตรฐานสะดวกอยู่ งานวิจัยโปรแกรมหากะ: เป้าหมายไม่ถึงสร้างตัวแบ่งอายุใด ๆ แต่แทนที่จะ ไปสร้างที่เลียนแบบเพนน์วิเคราะห์ธนาคารต้นไม้ โชคดี ขณะมีมติไม่ NLP ของบริษัทในแบบฟอร์มที่แน่นอนเป็นควรใช้เวลาในการแยกวิเคราะห์ทางไวยากรณ์ ต้นไม้เพนน์จะสมเหตุสมผลมาตรฐานและความขัดแย้งมักเกี่ยวกับคุณลักษณะทั่วไปน้อยกว่า หรือราย ละเอียดเพิ่มเติม ดังนั้นความพยายามหาเพนน์ลักษณะ ต้นไม้ดูเหมือน หนึ่งเหมาะสมและกระดาษนี้เป็นสัดส่วนกับความพยายามนี้ผู้ใช้ธนาคารต้นไม้เป็นจุดเริ่มต้น ความสำคัญชุมชนย่อยที่มีความสนใจในการใช้ให้สนับสนุนการเรียนรู้มีแผนงานที่ไวยากรณ์ /ตัวแยกวิเคราะห์ที่สามารถสร้าง ด้วยการแทรกแซงของมนุษย์น้อยที่สุด[1,2,5,6,8] ประโยชน์ของวิธีการนี้พี วีพีNP / NPพรอน vb ดีทีเอ็นเอ็นเธอได้ยินเสียงรูปที่ 1: เรื่องแยกวิเคราะห์รายการที่ในธนาคารต้นไม้สองเท่า: เรียน obviates ต้องเขียนไวยากรณ์grammars ดังกล่าวอาจมีความครอบคลุมดีดี(วิเคราะห์กำหนดให้ประโยคเพิ่มเติม) มากกว่ามือ-tooledต่าง ๆ ในอัตราใด ๆ นี้เป็น the'game ที่เราเลือกตอนนี้วิธีที่ง่ายที่สุดเพื่อ "เรียนรู้" กับบริบทปราศจากไวยากรณ์จากธนาคารต้นไม้คือการ อ่านไวยากรณ์ออกแยกวิเคราะห์ประโยค นั่นคือ เราสามารถอ่านต่อไปนี้กฎปิดประโยคแยกวิเคราะห์ในรูปที่ 1S + NPVPพรอน + NPVP + vb NPNP + dt nnเราเรียก grammars รับนี้แฟชั่น "ธนาคารต้นไม้grammars "เป็นภูมิปัญญาทั่วไปที่ทำการธนาคารต้นไม้ grammarsไม่ทำงานดี เราได้ยินนี้อุดรธานีจากหลายนักวิจัยในชุมชน NLP สถิติ.,,และไม่สมบูรณ์ใด ๆ ผลลัพธ์ประสิทธิภาพในแนะนำ grammars เช่นนั้น - ถ้าพวกเขามีการทำวิจัยผลลัพธ์ได้รับประกันงานพิมพ์ ที่วัตถุประสงค์หลักของเอกสารนี้คือโต้ทั่วไปนี้ภูมิปัญญา ส่วนถัดไปไม่นี้ โดยการนำเสนอผลลัพธ์บางอย่างสำหรับไวยากรณ์ธนาคารต้นไม้ หมวดที่ 3 การเปรียบเทียบผลลัพธ์เหล่านี้ก่อนทำงาน และอยู่ทำไมผลของเราแตกต่างจากความคาดหวังทั่วไปตัวแยกวิเคราะห์ที่ใช้ในการทดลองของเราคือ ในสุดเรียน 1031จาก: AAAI-96 ตอน สงวนลิขสิทธิ์ © 1996, AAAI (ส่วน www.aaai.org) สงวนลิขสิทธิ์ทั้งหมดส่วน ตัวแยกวิเคราะห์เป็นแผนภูมิมาตรฐาน มันแตกต่างจากการมาตรฐาน อย่างไรก็ตาม ในการ หนึ่งคือประสิทธิภาพในการเรื่อง - เราปรับปรุงความสามารถในการค้นหาแยกน่าเป็นที่สุด นี้กล่าวถึงสั้น ๆ ในส่วน3 เช่น ความแตกต่างสองเป็นปกติมากขึ้นบนหลักฐาน impressionistic เรามาเชื่อว่า มาตรฐาน PCFGs ไม่ตรงกับความสำคัญของภาษาอังกฤษสำหรับสาขาขวาโครงสร้าง ในส่วน 4 เราแสดงความคิดบางอย่างในวิธีนี้อาจได้รับการแก้ไข และแสดงว่าความคิดเหล่านี้ช่วยให้ประสิทธิภาพการทำงานผลลัพธ์ของ 2ที่
การแปล กรุณารอสักครู่..

ปีที่ผ่านมาได้เห็นหลายการประมวลผลภาษาธรรมชาติ
(NLP) โครงการมุ่งเป้าไปที่การผลิตไวยากรณ์ /
parsers
ความสามารถในการกำหนดโครงสร้างที่เหมาะสมโครงสร้างแนวกว้างของอังกฤษ ธรรมชาติการตัดสินความคิดสร้างสรรค์ของตัวแยกวิเคราะห์ของคุณต้องมี"ทองมาตรฐาน" และนักวิจัย NLP ได้รับโชคดีที่จะมีหลายคลังของประโยคมือแยกสำหรับวัตถุประสงค์นี้ซึ่งเรียกว่า"เพนน์ต้นไม้ธนาคาร" [7] เป็น บางทีอาจจะเป็นที่รู้จักกันดี นอกจากนี้ยังเป็นคลังที่ใช้ในการศึกษาครั้งนี้ (โดยเฉพาะอย่างยิ่งเราใช้กำแพงวารสารถนนส่วนของธนาคารต้นไม้ซึ่งประกอบด้วย. ประมาณหนึ่งล้านคำของประโยคมือแยก) แต่เมื่อมีมาตรฐานสะดวกที่มีอยู่การวิจัยโปรแกรมกะละเอียด: เป้าหมายคือไม่นานในการสร้างparser ใด ๆ เก่า แต่จะสร้างหนึ่งที่เลียนแบบเพนน์จะแยกวิเคราะห์ต้นไม้ธนาคาร โชคดีที่ในขณะที่มี บริษัท NLP ไม่สอดคล้องกับรูปแบบที่แน่นอนแจงประโยคควรใช้ต้นไม้เพนน์มีเหตุผลมาตรฐานและความขัดแย้งมักจะเกี่ยวกับการร่วมกันน้อยลงหรือรายละเอียดเพิ่มเติมคุณสมบัติ ดังนั้นความพยายามที่จะหาต้นไม้เพนน์สไตล์ดูเหมือนหนึ่งที่เหมาะสมและกระดาษนี้มีส่วนร่วมในความพยายามนี้. ของผู้ที่ใช้ธนาคารต้นไม้เป็นจุดเริ่มต้นอย่างมีนัยสำคัญกับชุมชนย่อยที่มีความสนใจในการใช้พวกเขาจะสนับสนุนรูปแบบการเรียนรู้ภายใต้การดูแลเพื่อให้ว่าไวยากรณ์ / parser สามารถสร้างขึ้นด้วยการแทรกแซงของมนุษย์น้อยที่สุด[1,2,5,6,8] ผลประโยชน์ของวิธีการนี้มีP VP NP / NP pron VB dt NN เธอได้ยินเสียงรูปที่ 1: รายการแยกวิเคราะห์ง่ายในต้นไม้ธนาคารสองเท่า: การเรียนรู้ obviates ความจำเป็นสำหรับนักเขียนไวยากรณ์และไวยากรณ์ดังกล่าวอาจมีความคุ้มครองที่ดีกว่า( กำหนดจะแยกวิเคราะห์ประโยคเพิ่มเติม) กว่ามือ tooled หลากหลาย ในอัตราใด ๆ นี้เป็น the'game เราได้เลือก. ตอนนี้วิธีที่ง่ายที่สุดที่จะ "เรียนรู้" บริบทฟรีไวยากรณ์จากต้นไม้ธนาคารคือการอ่านไวยากรณ์ออกประโยคแยกวิเคราะห์ นั่นก็คือเราสามารถอ่านดังต่อไปนี้กฎออกประโยคแยกวิเคราะห์ในรูปที่ 1 S + NPVP NP + pron VP + VB NP NP + dt NN เราเรียกไวยากรณ์ที่ได้รับในแบบนี้ "ต้นไม้ธนาคารไวยากรณ์." มันเป็นภูมิปัญญาทั่วไปที่ต้นไม้ ไวยากรณ์ -bank ไม่ได้ทำงานได้ดี เราได้ยินจากหลาย wellknown นักวิจัยในชุมชนสถิติ NLP., และขาดความสมบูรณ์ของผลการดำเนินงานใด ๆ ในไวยากรณ์ดังกล่าวแสดงให้เห็นว่าถ้าพวกเขาได้รับการวิจัยผลลัพธ์ที่ไม่ได้รับประกันการตีพิมพ์ วัตถุประสงค์หลักของงานวิจัยนี้คือการลบล้างนี้ที่พบบ่อยภูมิปัญญา ส่วนถัดไปไม่นี้โดยนำเสนอผลบางอย่างสำหรับไวยากรณ์ต้นไม้ธนาคาร ส่วนที่ 3 เปรียบเทียบผลลัพธ์เหล่านี้ในการทำงานก่อนที่ว่าทำไมผลของเราแตกต่างจากความคาดหวังที่พบบ่อย. ตัวแยกวิเคราะห์ใช้ในการทดลองของเราคือให้มากที่สุดการเรียนรู้ 1031 จาก: AAAI-96 ดำเนินการตามกฎหมาย ลิขสิทธิ์© 1996, AAAI (www.aaai.org) สงวนลิขสิทธิ์. ส่วนหนึ่งที่แยกวิเคราะห์แผนภูมิมาตรฐาน มันไม่แตกต่างจากมาตรฐาน แต่ในสองวิธี หนึ่งคือประสิทธิภาพไม่ว่า - เราการปรับปรุงความสามารถในการค้นหาแจงน่าจะเป็นที่สุด นี้จะกล่าวถึงในเวลาสั้น ๆ ในส่วนที่3 เช่นกัน ความแตกต่างที่สองคือผิดปกติมากขึ้น. หลักฐานฤษีเราได้มาเชื่อว่า PCFGs มาตรฐานไม่ตรงกับการตั้งค่าภาษาอังกฤษสำหรับโครงสร้างขวาแยก ในมาตรา 4 ที่เรานำเสนอความคิดบางอย่างเกี่ยวกับวิธีการนี้อาจได้รับการแก้ไขและแสดงให้เห็นว่าความคิดเหล่านี้นำไปสู่ผลการดำเนินงานผลของส่วน2.
การแปล กรุณารอสักครู่..

ปีล่าสุดได้เห็นการประมวลผล
หลายภาษาธรรมชาติ ( NLP ) โครงการมุ่งผลิตไวยากรณ์ /
parsers ความสามารถในการกำหนดลักษณะโครงสร้างประโยค
เหมาะสมกับแนวกว้างของภาษาอังกฤษ ธรรมชาติ
ดูสร้างสรรค์ของสำหรับของคุณต้องมี " มาตรฐานทอง
" และนักวิจัย NLP ได้รับโชคดี
มีหลาย corpora ของมือแจงประโยค
วัตถุประสงค์นี้ซึ่งเรียกว่า " เพนน์ธนาคารต้นไม้ "
[ 7 ] อาจจะเป็นที่รู้จักกันดีที่สุด . มันยังเป็นคลังข้อมูล
ที่ใช้ในการศึกษาครั้งนี้ ( โดยเฉพาะเราใช้กำแพงถนนส่วนของธนาคารต้นไม้
ซึ่งประกอบด้วยประมาณหนึ่งล้านคำมือแจงประโยค )
เมื่อมาตรฐานสะดวกอยู่แล้ว โปรแกรมวิจัย
รายละเอียดกะ : เป้าหมายคือไม่มีอีกต่อไป
สร้าง parser เก่าๆ ,แต่จะสร้างหนึ่งที่
เลียนแบบเพนน์ธนาคารต้นไม้วิเคราะห์ . โชคดีตอนที่
ไม่มีบริษัท NLP ฉันทามติในที่แบบฟอร์ม
ประโยคแยกควรใช้ , เพนน์ ต้นไม้มีมาตรฐานพอสมควร
และความขัดแย้งมักจะเกี่ยวกับ
น้อยทั่วไป หรือเพิ่มเติมรายละเอียดคุณลักษณะ จึงพยายามหาต้นไม้สไตล์เพนน์ดูเหมือนว่า
เหมาะสมหนึ่ง และกระดาษนี้มีส่วนร่วมในความพยายามนี้ .
โดยใช้ธนาคารต้นไม้เหล่านั้นเป็นจุดเริ่มต้น ชุมชนย่อยที่สำคัญ
สนใจในการใช้พวกเขาเพื่อให้สนับสนุนการเรียนรู้แบบ Supervised Learning โครงร่างไวยากรณ์ /
parser สามารถสร้างขึ้นด้วยการแทรกแซงของมนุษย์น้อยที่สุด 1,2,5,6,8 [
] ประโยชน์ของวิธีการนี้คือ
p
/
1 VP NP NP VB DT nn
เธอได้ยินเสียง
รูปที่ 1 : ง่ายแจงรายการในธนาคารต้นไม้
ทวีคูณ :การเรียนรู้ของ obviates จำเป็นสำหรับนักเขียนไวยากรณ์ , ไวยากรณ์เช่นและอาจดี
ความคุ้มครองที่ดีขึ้น ( กำหนดวิเคราะห์ประโยคมากขึ้น ) มากกว่ามือเมา
หลากหลาย ที่อัตราการใด ๆ นี่คือ the'game เราได้เลือก .
ตอนนี้วิธีที่ง่ายที่สุดที่จะ " เรียนรู้ " บริบทฟรีไวยากรณ์จากธนาคารต้นไม้คือ
อ่านไวยากรณ์ปิดแยกประโยค นั่นคือเราสามารถอ่านต่อไปนี้
กฎออกแจงประโยคในรูปที่ 1
1 s npvp NP ของ VB NP
NP DT nn
เราเรียกไวยากรณ์ได้รับในแฟชั่นนี้ " ธนาคารต้นไม้
มันทั่วไปไวยากรณ์ " ปัญญาไวยากรณ์ธนาคารต้นไม้ทำ
ไม่ทำงานได้ดี เราเคยได้ยินจากหลาย ๆที่รู้จักกันดี
นักวิจัยในสถิติชุมชน NLP . , ,
และขาดความสมบูรณ์ของผลการปฏิบัติงานใด ๆบน
ไวยากรณ์ดังกล่าวแสดงให้เห็นว่าหากพวกเขาได้รับความสนใจ
ผลลัพธ์ไม่ได้หมายสิ่งพิมพ์
จุดประสงค์หลักของบทความนี้คือเพื่อลบล้างนี้ปัญญาเหมือนกัน
ส่วนถัดไปไม่นี้โดยนำเสนอ
ผลลัพธ์บางอย่างสำหรับธนาคารต้นไม้ไวยากรณ์ ส่วนที่ 3 เปรียบเทียบ
ผลลัพธ์เหล่านี้ก่อนทำงานและที่อยู่ทำไม
ผลของเราแตกต่างจากความคาดหวังทั่วไป .
parser ที่ใช้ในการทดลองคือสำหรับที่สุด
: aaai-96 1031 การเรียนรู้จากกระบวนการ . ลิขสิทธิ์ สงวนลิขสิทธิ์ พ.ศ. 2539 aaai ( www.aaai . org ) สงวนลิขสิทธิ์ .
ส่วน , แยกวิเคราะห์กราฟมาตรฐาน มันไม่แตกต่างจาก
มาตรฐาน อย่างไรก็ตาม ในสองวิธี หนึ่งคือเรื่องประสิทธิภาพ
- เราได้ปรับปรุงความสามารถในการค้นหา
น่าจะเป็นแยก . นี้กล่าวถึงสั้น ๆในส่วน
3 เช่นกัน ความแตกต่างที่สองคือ
ผิดปกติมากขึ้นหลักฐาน impressionistic เราต้องเชื่อ
ที่ pcfgs มาตรฐานไม่ตรงกับภาษาอังกฤษคือความชอบ
ขวาแยกโครงสร้าง ในส่วนที่ 4 เรา
เสนอความคิดบางอย่างเกี่ยวกับวิธีการนี้จะได้รับการแก้ไขและแสดงวิธีคิดเหล่านี้ส่งผลให้
ส่วนการแสดงผลของ
2 .
การแปล กรุณารอสักครู่..
