1 INTRODUCTION
The main purpose of this paper is to describe
the CLAWS4 general-purpose grammatical tagger,
used for the tagging of the 100-million-word British
National Corpus, of which c.70 million words have
been tagged at the time of writing (April 1994))
We will emphasise the goals of (a) gener~d-purpose
adaptability, (b) incorporation of linguistic knowledge
to improve quality ,and consistency, and (c)
accuracy, measured consistently and in a linguistically
informed way.
The British National Corpus (BNC) consists of
c.100 million words of English written texts and
spoken transcriptions, sampled from a comprehensive
range of text types. The BNC includes 10
million words of spoken h'mguage, c.45% of which
is impromptu conversation (see Crowdy, forthcoming).
It also includes ,an immense variety of written
texts, including unpublished materials. The gr,'unmatical
tagging of the corpus has therefore required
the 'super-robustness' of a tagger which can adapt
well to virtually all kinds of text. The tagger also has
had to be versatile in dealing with different tagsets
(sets of grammatical category labels-- see 3 below)
and accepting text in varied input formats. For the
purposes of the BNC, l, he tagger has been requircd
both to accept and to output text in a corpus-oriented
TEl-confonnant mark-up definition known as CDIF
(Corpus Document Interchange Format), but within
this format many variant fornaats (affecting, for
example, segmentation into words and sentences)
can be readily accepted. In addition, CLAWS al
บทนำ 1วัตถุประสงค์หลักของเอกสารนี้จะอธิบายที่ CLAWS4 เม็ดไวยากรณ์ taggerใช้สำหรับติดป้ายอังกฤษ 100 ล้านคำคอร์พัสคริชาติ c.70 ที่ล้านคำมีการติดแท็กที่เวลาเขียน (1994 เมษายน))เราจะย้ำเป้าหมาย gener (a) ~ d-วัตถุประสงค์หลากหลาย, (ข) ประสานความรู้ภาษาศาสตร์การปรับปรุง คุณภาพ และความสอดคล้อง และ (c)ความถูกต้อง วัดอย่างสม่ำเสมอ และในการมีทราบวิธีการอังกฤษชาติคอร์พัสคริ (BNC) ประกอบด้วยc.100 ล้านคำภาษาอังกฤษที่เขียนข้อความ และพูดกัน ตัวอย่างจากครอบคลุมหลากหลายชนิดข้อความ BNC ประกอบด้วย 10ล้านคำพูด h'mguage, c.45% ซึ่งจะสนทนาอะไรบ้าง (ดู Crowdy หน้า)ยังมี หลายเวิ้งว้างเขียนข้อความ รวมทั้งวัสดุที่ยกเลิกการประกาศ Gr,'unmaticalติดแท็กในคอร์พัสคริได้จึงต้อง'เสถียรภาพซุปเปอร์' ของ tagger ซึ่งสามารถปรับเปลี่ยนดีกับแทบทุกชนิดของข้อความ Tagger ที่มีต้องมีความหลากหลายในการจัดการกับ tagsets แตกต่างกัน(ดูชุดของป้ายชื่อประเภทไวยากรณ์ - 3 ด้านล่าง)และยอมรับข้อความในรูปแบบสัญญาณที่แตกต่างกัน สำหรับการวัตถุประสงค์ของ BNC, l, tagger เขาได้ requircdการยอมรับ และ การแสดงผลข้อความในคอร์พัสคริมุ่งเน้นโทร confonnant มาร์กนิยามว่า CDIF(คอร์พัสคริแลกเปลี่ยนรูปแบบเอกสาร), แต่ภายในนี้รูปแบบหลายตัวแปร fornaats (กระทบ สำหรับตัวอย่าง แบ่งคำและประโยค)สามารถพร้อมยอมรับ เล็บ อัล
การแปล กรุณารอสักครู่..

1 บทนำ
วัตถุประสงค์หลักของบทความนี้คือการอธิบาย
claws4 ไวยากรณ์ Tagger เอนกประสงค์ , ใช้สำหรับการติดแท็กของ 100 ล้านคำอังกฤษ
คลังข้อมูลแห่งชาติ ซึ่ง c.70 ล้านคำ
ถูกแท็กในเวลาของการเขียน ( เมษายน 2537 ) )
เราจะเน้นเป้าหมาย ( ) มกราคม ~ d-purpose
การปรับตัว , ( ข ) การ
ความรู้ทางภาษาศาสตร์เพื่อปรับปรุงคุณภาพและความสอดคล้อง และ ( c )
ความถูกต้องวัดอย่างต่อเนื่องและในทางภาษา
แจ้งวิธี คลังข้อมูลแห่งชาติอังกฤษ ( BNC ) ประกอบด้วย
c.100 ล้านคำภาษาอังกฤษที่เขียนข้อความและพูดกัน
,
ตัวอย่างจากหลากหลายของประเภทข้อความ พระประจำปีรวม 10 ล้านคําพูด h'mguage
,
c.45 % ซึ่งเป็นการสนทนาทันควัน ( ดู crowdy เตรียมพร้อม
, )นอกจากนี้ยังรวมถึงความหลากหลายอันยิ่งใหญ่ของเขียน
ข้อความ รวมทั้งวัสดุเผยแพร่ . GR 'unmatical
, แท็กของคลังข้อมูลจึงต้อง
' ' ซูเปอร์ความทนทานของ Tagger ซึ่งสามารถปรับ
ดีแทบทุกชนิดของข้อความ โดย Tagger ยังมี
มีหลากหลายในการติดต่อกับต่าง tagsets
( ชุดของป้ายชื่อประเภททางไวยากรณ์ -- ดูด้านล่าง
3 )และรับข้อความในรูปแบบการป้อนข้อมูลที่แตกต่างกัน สำหรับ
วัตถุประสงค์ของ BNC , L , เขา Tagger ได้รับ requircd
ทั้งรับและข้อความออกในคลังข้อมูลเชิง
เรา confonnant มาร์คขึ้นนิยามที่เรียกว่า cdif
( เอกสารรูปแบบการแลกเปลี่ยนข้อมูล ) แต่ภายใน
รูปแบบนี้ fornaats หลายตัวแปร ( มีผลต่อสำหรับ
ตัวอย่าง แบ่งเป็นคำและประโยค )
สามารถเป็นที่ยอมรับได้อย่างง่ายดาย นอกจากนี้กรงเล็บ ล
การแปล กรุณารอสักครู่..
