1 INTRODUCTIONThe main purpose of t

1 INTRODUCTION
The main purpose of this paper is to describe
the CLAWS4 general-purpose grammatical tagger,
used for the tagging of the 100-million-word British
National Corpus, of which c.70 million words have
been tagged at the time of writing (April 1994))
We will emphasise the goals of (a) gener~d-purpose
adaptability, (b) incorporation of linguistic knowledge
to improve quality ,and consistency, and (c)
accuracy, measured consistently and in a linguistically
informed way.
The British National Corpus (BNC) consists of
c.100 million words of English written texts and
spoken transcriptions, sampled from a comprehensive
range of text types. The BNC includes 10
million words of spoken h'mguage, c.45% of which
is impromptu conversation (see Crowdy, forthcoming).
It also includes ,an immense variety of written
texts, including unpublished materials. The gr,'unmatical
tagging of the corpus has therefore required
the 'super-robustness' of a tagger which can adapt
well to virtually all kinds of text. The tagger also has
had to be versatile in dealing with different tagsets
(sets of grammatical category labels-- see 3 below)
and accepting text in varied input formats. For the
purposes of the BNC, l, he tagger has been requircd
both to accept and to output text in a corpus-oriented
TEl-confonnant mark-up definition known as CDIF
(Corpus Document Interchange Format), but within
this format many variant fornaats (affecting, for
example, segmentation into words and sentences)
can be readily accepted. In addition, CLAWS al

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

บทนำ 1วัตถุประสงค์หลักของเอกสารนี้จะอธิบายที่ CLAWS4 เม็ดไวยากรณ์ taggerใช้สำหรับติดป้ายอังกฤษ 100 ล้านคำคอร์พัสคริชาติ c.70 ที่ล้านคำมีการติดแท็กที่เวลาเขียน (1994 เมษายน))เราจะย้ำเป้าหมาย gener (a) ~ d-วัตถุประสงค์หลากหลาย, (ข) ประสานความรู้ภาษาศาสตร์การปรับปรุง คุณภาพ และความสอดคล้อง และ (c)ความถูกต้อง วัดอย่างสม่ำเสมอ และในการมีทราบวิธีการอังกฤษชาติคอร์พัสคริ (BNC) ประกอบด้วยc.100 ล้านคำภาษาอังกฤษที่เขียนข้อความ และพูดกัน ตัวอย่างจากครอบคลุมหลากหลายชนิดข้อความ BNC ประกอบด้วย 10ล้านคำพูด h'mguage, c.45% ซึ่งจะสนทนาอะไรบ้าง (ดู Crowdy หน้า)ยังมี หลายเวิ้งว้างเขียนข้อความ รวมทั้งวัสดุที่ยกเลิกการประกาศ Gr,'unmaticalติดแท็กในคอร์พัสคริได้จึงต้อง'เสถียรภาพซุปเปอร์' ของ tagger ซึ่งสามารถปรับเปลี่ยนดีกับแทบทุกชนิดของข้อความ Tagger ที่มีต้องมีความหลากหลายในการจัดการกับ tagsets แตกต่างกัน(ดูชุดของป้ายชื่อประเภทไวยากรณ์ - 3 ด้านล่าง)และยอมรับข้อความในรูปแบบสัญญาณที่แตกต่างกัน สำหรับการวัตถุประสงค์ของ BNC, l, tagger เขาได้ requircdการยอมรับ และ การแสดงผลข้อความในคอร์พัสคริมุ่งเน้นโทร confonnant มาร์กนิยามว่า CDIF(คอร์พัสคริแลกเปลี่ยนรูปแบบเอกสาร), แต่ภายในนี้รูปแบบหลายตัวแปร fornaats (กระทบ สำหรับตัวอย่าง แบ่งคำและประโยค)สามารถพร้อมยอมรับ เล็บ อัล

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

1 บทนำ
วัตถุประสงค์หลักของงานวิจัยนี้คือการอธิบาย
CLAWS4 วัตถุประสงค์ทั่วไป Tagger ไวยากรณ์
ที่ใช้สำหรับการติดแท็กใน 100 ล้านคำอังกฤษ
แห่งชาติคอร์ปัสซึ่ง c.70 ล้านคำได้
รับการติดแท็กในเวลาของการเขียน ( เมษายน 1994))
เราจะเน้นเป้าหมายของการ (ก) มกราคม ~ D-วัตถุประสงค์
การปรับตัว (ข) การรวมตัวกันของความรู้ทางภาษา
ในการปรับปรุงคุณภาพและความสอดคล้องและ (ค)
ความถูกต้องวัดอย่างต่อเนื่องและในภาษา
ทางทราบ.
Corpus ชาติอังกฤษ (BNC) ประกอบด้วย
c.100 ล้านคำตำราเขียนภาษาอังกฤษและ
ทานพูดตัวอย่างจากที่ครอบคลุม
ช่วงของประเภทข้อความ BNC รวมถึง 10
ล้านคำพูดของ h'mguage พูด c.45% ซึ่ง
เป็นการสนทนาอย่างกะทันหัน (ดู Crowdy เตรียมพร้อม).
นอกจากนี้ยังรวมถึงความหลากหลายอันยิ่งใหญ่ของการเขียน
ตำรารวมทั้งวัสดุที่ไม่ได้เผยแพร่ กรัม, 'unmatical
การติดแท็กของคลังจึงจำเป็น
'ซุปเปอร์ทนทานของ Tagger ซึ่งสามารถปรับ
ได้ดีแทบทุกชนิดของข้อความ Tagger ยังได้
มีการใช้งานได้หลากหลายในการจัดการกับ tagsets ที่แตกต่างกัน
(ชุดของประเภทไวยากรณ์ labels-- ดู 3 ด้านล่าง)
และยอมรับข้อความในรูปแบบการป้อนข้อมูลที่แตกต่างกัน สำหรับ
วัตถุประสงค์ของการ BNC, L, Tagger เขาได้รับการ requircd
ทั้งสองที่จะยอมรับและเอาท์พุทข้อความในคลังที่มุ่งเน้นการ
โทร confonnant นิยามเครื่องหมายขึ้นที่รู้จักกันเป็น CDIF
(รูปแบบคอร์ปัส Document Interchange) แต่ภายใน
รูปแบบนี้หลาย fornaats ตัวแปร (ที่มีผลต่อสำหรับ
ตัวอย่างเช่นการแบ่งส่วนเป็นคำและประโยค)
สามารถเป็นที่ยอมรับได้อย่างง่ายดาย นอกจากนี้อัลกรงเล็บ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

1 บทนำ
วัตถุประสงค์หลักของบทความนี้คือการอธิบาย

claws4 ไวยากรณ์ Tagger เอนกประสงค์ , ใช้สำหรับการติดแท็กของ 100 ล้านคำอังกฤษ
คลังข้อมูลแห่งชาติ ซึ่ง c.70 ล้านคำ
ถูกแท็กในเวลาของการเขียน ( เมษายน 2537 ) )
เราจะเน้นเป้าหมาย ( ) มกราคม ~ d-purpose
การปรับตัว , ( ข ) การ
ความรู้ทางภาษาศาสตร์เพื่อปรับปรุงคุณภาพและความสอดคล้อง และ ( c )
ความถูกต้องวัดอย่างต่อเนื่องและในทางภาษา

แจ้งวิธี คลังข้อมูลแห่งชาติอังกฤษ ( BNC ) ประกอบด้วย
c.100 ล้านคำภาษาอังกฤษที่เขียนข้อความและพูดกัน
,
ตัวอย่างจากหลากหลายของประเภทข้อความ พระประจำปีรวม 10 ล้านคําพูด h'mguage
,
c.45 % ซึ่งเป็นการสนทนาทันควัน ( ดู crowdy เตรียมพร้อม
, )นอกจากนี้ยังรวมถึงความหลากหลายอันยิ่งใหญ่ของเขียน
ข้อความ รวมทั้งวัสดุเผยแพร่ . GR 'unmatical
, แท็กของคลังข้อมูลจึงต้อง
' ' ซูเปอร์ความทนทานของ Tagger ซึ่งสามารถปรับ
ดีแทบทุกชนิดของข้อความ โดย Tagger ยังมี
มีหลากหลายในการติดต่อกับต่าง tagsets
( ชุดของป้ายชื่อประเภททางไวยากรณ์ -- ดูด้านล่าง
3 )และรับข้อความในรูปแบบการป้อนข้อมูลที่แตกต่างกัน สำหรับ
วัตถุประสงค์ของ BNC , L , เขา Tagger ได้รับ requircd
ทั้งรับและข้อความออกในคลังข้อมูลเชิง
เรา confonnant มาร์คขึ้นนิยามที่เรียกว่า cdif
( เอกสารรูปแบบการแลกเปลี่ยนข้อมูล ) แต่ภายใน
รูปแบบนี้ fornaats หลายตัวแปร ( มีผลต่อสำหรับ
ตัวอย่าง แบ่งเป็นคำและประโยค )
สามารถเป็นที่ยอมรับได้อย่างง่ายดาย นอกจากนี้กรงเล็บ ล

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.