1. INTRODUCTIONThe main purpose of this paper is to describe the CLAWS การแปล - 1. INTRODUCTIONThe main purpose of this paper is to describe the CLAWS ไทย วิธีการพูด

1. INTRODUCTIONThe main purpose of

1. INTRODUCTION

The main purpose of this paper is to describe the CLAWS4 general-purpose grammatical tagger, used for the tagging of the 100-million-word British National Corpus, a task completed in July 1994 [Footnote 1]. We will emphasise the goals of (a) general- purpose adaptability, (b) incorporation of linguistic knowledge to improve quality and consistency, and (c) accuracy, measured consistently and in a linguistically informed way.
The British National Corpus (BNC) consists of c.100 million words of English written texts and spoken transcriptions, sampled from a comprehensive range of text types. The BNC includes 10 million words of spoken language, c.45% of which is impromptu conversation (see Crowdy, forthcoming). It also includes an immense variety of written texts, including unpublished materials. The grammatical tagging of the corpus has therefore required the "super-robustness" of a tagger which can adapt well to virtually all kinds of text. The tagger also has had to be versatile in dealing with different tagsets (sets of grammatical category labels - see 3 below) and accepting text in varied input formats. For the purposes of the BNC, the tagger has been required both to accept and to output text in a corpus- oriented TEI-conformant mark-up format known as CDIF (Corpus Document Interchange Format), but within this format many variant formats (affecting, for example, segmentation into words and sentences) can be readily accepted. In addition, CLAWS allows variable output formats: for the current tagger, these include (a) a vertically-presented format suitable for manual editing, and (b) a more compact horizontally- presented format often more suitable for end- users. Alternative output formats are also allowed with (c) so-called "portmanteau tags", i.e. combinations of two alternative tags, where the tagger calculates there is insufficient evidence for safe disambiguation, and (d) with simplified "plain text" mark-up for the human reader.

CLAWS4, the BNC tagger[Footnote 2], incorporates many features of adaptability such as the above. It also incorporates many refinements of linguistic analysis which have built up over 14 years: particularly in the construction and content of the idiom-tagging component (see 2 below). At the same time, there are still many improvements to be made: the claim that "you can put together a tagger from scratch in a couple of months" (recently heard at a research conference) is, in our view, absurdly optimistic.
0/5000
จาก: -
เป็น: -
ผลลัพธ์ (ไทย) 1: [สำเนา]
คัดลอก!
1. บทนำวัตถุประสงค์หลักของเอกสารนี้จะอธิบายการ CLAWS4 เม็ดไวยากรณ์ tagger ใช้สำหรับติดป้าย 100 ล้านคำอังกฤษชาติคอร์พัสคริ งานที่เสร็จสมบูรณ์ในเดือน 1994 กรกฎาคม [เชิงอรรถ 1] เราจะย้ำเป้าหมายของ (ก) ทั่วไปวัตถุประสงค์หลากหลาย, (ข) ประสานความรู้ภาษาศาสตร์เพื่อปรับปรุงคุณภาพ และความสอดคล้อง และ (c) ความถูก ต้อง วัดอย่างต่อเนื่อง และมีข่าวสารอังกฤษชาติคอร์พัสคริ (BNC) ประกอบด้วย c.100 ล้านคำพูดกัน ความจากหลากหลายชนิดข้อความและเขียนข้อความภาษาอังกฤษ BNC มี 10 ล้านคำของภาษาพูด c.45% ที่จะสนทนาอะไรบ้าง (ดู Crowdy หน้า) ยังรวมถึงการเขียนข้อความ รวมทั้งประกาศวัสดุหลากหลายอันยิ่งใหญ่ ติดป้ายที่ไวยากรณ์ของคอร์พัสคริมีดังนั้นจำเป็นต้อง "เสถียรภาพซุปเปอร์" ของ tagger ซึ่งสามารถปรับใช้ดีกับแทบทุกชนิดของข้อความ Tagger ที่ยังมีให้หลากหลายในการจัดการกับ tagsets แตกต่างกัน (ดูชุดของป้ายชื่อประเภทไวยากรณ์ - 3 ด้านล่าง) และยอมรับข้อความในรูปแบบการป้อนข้อมูลที่แตกต่างกัน สำหรับวัตถุประสงค์ของแบบ BNC, tagger ที่แล้วต้องยอมรับ และ การแสดงผลข้อความในคอร์พัสคริ-เน้นเต conformant มาร์กรูปเรียกว่า CDIF (คอร์พัสคริแลกเปลี่ยนรูปแบบเอกสาร), แต่ภายในรูปแบบนี้ สามารถหลายรูปแบบตัวแปร (กระทบ เช่น แบ่งคำและประโยค) พร้อมยอมรับ เล็บช่วยให้แสดงผลตัวแปรรูปแบบ: สำหรับ tagger ปัจจุบัน เหล่านี้รวมถึง (ก) รูปแบบการนำเสนอในแนวตั้งเหมาะสำหรับการแก้ไขด้วยตนเอง และ (ข) มากขึ้นกระชับแนว - นำเสนอรูปแบบมักมากเหมาะสำหรับผู้การ นอกจากนี้ยังได้รูปแบบผลลัพธ์อื่น ด้วย (c) เรียกว่า "กระเป๋าแท็ก" เช่นชุดสองแท็กอื่น ที่ tagger ที่คำนวณมีหลักฐานไม่เพียงพอสำหรับการแก้ความกำกวมปลอดภัย และ (d) กับภาษา "ล้วน" มาร์กสำหรับมนุษย์อ่านCLAWS4, BNC tagger [เชิงอรรถ 2], ประกอบด้วยคุณลักษณะมากมายของหลากหลายเช่นข้างต้น มันยังประกอบด้วยวิเคราะห์ภาษาศาสตร์หลาย refinements ที่ได้สร้างขึ้น 14 ปี: โดยเฉพาะอย่างยิ่งในการก่อสร้างและเนื้อหาประกอบสำนวนติดป้าย (เห็น 2 ด้านล่าง) ในเวลาเดียวกัน ยังมีปรับปรุงในการทำ: ข้อเรียกร้องที่ "คุณสามารถใส่กัน tagger ตั้งแต่ในสองเดือน" (เพิ่งได้ยินที่ประชุมวิจัย) ในมุมมองของเรา absurdly ในเชิงบวก
การแปล กรุณารอสักครู่..
ผลลัพธ์ (ไทย) 2:[สำเนา]
คัดลอก!
1. บทนำวัตถุประสงค์หลักของงานวิจัยนี้คือการอธิบาย CLAWS4 วัตถุประสงค์ทั่วไป Tagger ไวยากรณ์ที่ใช้สำหรับการติดแท็กใน 100 ล้านคำชาติอังกฤษ Corpus งานเสร็จในเดือนกรกฎาคม 1994 [เชิงอรรถ 1] เราจะเน้นเป้าหมายของ (ก) การปรับตัวแบบใช้งานทั่วไป (ข) การรวมตัวกันของความรู้ทางภาษาในการปรับปรุงคุณภาพและความสม่ำเสมอและ (ค) ความถูกต้องวัดอย่างต่อเนื่องและในทางที่ทราบภาษา. Corpus ชาติอังกฤษ (BNC) ประกอบด้วย ของ c.100 ล้านคำตำราเขียนภาษาอังกฤษและทานพูดตัวอย่างจากหลากหลายของประเภทข้อความ BNC รวมถึง 10 ล้านคำพูดของภาษาพูด, c.45% ซึ่งเป็นการสนทนาอย่างกะทันหัน (ดู Crowdy เตรียมพร้อม) นอกจากนี้ยังมีความหลากหลายอันยิ่งใหญ่ของตำราที่เขียนรวมทั้งวัสดุที่ไม่ได้เผยแพร่ การติดแท็กไวยากรณ์ของร่างกายได้จึงจำเป็นต้อง "ซุปเปอร์แข็งแรง" ของ Tagger ซึ่งสามารถปรับตัวได้ดีแทบทุกชนิดของข้อความ Tagger ยังได้มีการใช้งานได้หลากหลายในการจัดการกับ tagsets ที่แตกต่างกัน (ชุดของป้ายประเภทไวยากรณ์ - ดู 3 ด้านล่าง) และยอมรับข้อความในรูปแบบการป้อนข้อมูลที่แตกต่างกัน สำหรับวัตถุประสงค์ของการ BNC, Tagger ได้รับทั้งที่จำเป็นที่จะยอมรับและข้อความการส่งออกในรูปแบบที่มุ่งเน้น corpus- TEI สอดคล้องเครื่องหมายขึ้นที่รู้จักกันเป็น CDIF (รูปแบบคอร์ปัส Document Interchange) แต่ภายในรูปแบบที่แตกต่างกันหลายรูปแบบนี้ (มีผลกระทบต่อ ยกตัวอย่างเช่นการแบ่งส่วนเป็นคำและประโยค) สามารถเป็นที่ยอมรับได้อย่างง่ายดาย นอกจากนี้ยังมีกรงเล็บช่วยให้รูปแบบการออกตัวแปร: สำหรับ Tagger ปัจจุบันเหล่านี้รวมถึง (ก) รูปแบบแนวตั้งที่นำเสนอที่เหมาะสมสำหรับการแก้ไขด้วยตนเองและ (ข) horizontally- ขนาดกะทัดรัดมากขึ้นในรูปแบบที่นำเสนอมักจะเหมาะสำหรับผู้ใช้สิ้น รูปแบบการออกทางเลือกที่ได้รับอนุญาตด้วย (ค) ที่เรียกว่า "แท็กกระเป๋าหิ้ว" การรวมกันของทั้งสองคือแท็กทางเลือกที่ Tagger คำนวณมีหลักฐานไม่เพียงพอสำหรับการแก้ความกำกวมปลอดภัยและ (ง) กับง่าย "ข้อความธรรมดา" เครื่องหมายขึ้น สำหรับผู้อ่านของมนุษย์. CLAWS4, Tagger BNC [เชิงอรรถ 2] รวมเอาคุณสมบัติหลายอย่างของการปรับตัวดังกล่าวข้างต้น นอกจากนี้ยังประกอบด้วยการปรับแต่งหลายของการวิเคราะห์ทางภาษาที่ได้สร้างขึ้นกว่า 14 ปีโดยเฉพาะอย่างยิ่งในการก่อสร้างและเนื้อหาขององค์ประกอบสำนวนการติดแท็ก (ดู 2 ด้านล่าง) ในขณะเดียวกันยังคงมีการปรับปรุงหลายอย่างที่จะทำ: อ้างว่า "คุณสามารถใส่กัน Tagger จากรอยขีดข่วนในสองสามเดือน" (ได้ยินเมื่อเร็ว ๆ นี้ที่ประชุมการวิจัย) คือในมุมมองของเราในแง่ดีอย่างไร้เหตุผล




การแปล กรุณารอสักครู่..
ผลลัพธ์ (ไทย) 3:[สำเนา]
คัดลอก!
1 . บทนำ

จุดประสงค์หลักของบทความนี้คือการอธิบายไวยากรณ์ Tagger claws4 เอนกประสงค์ใช้สำหรับการติดแท็กของ 100 ล้านคำคลังข้อมูลแห่งชาติอังกฤษเป็นงานที่เสร็จสมบูรณ์ในเดือน กรกฎาคม ปี 1994 เชิงอรรถ [ 1 ] เราจะเน้นเป้าหมายของการปรับตัวเพื่อวัตถุประสงค์ทั่วไป ( ) , ( ข ) การประสานความรู้ทางภาษาศาสตร์เพื่อปรับปรุงคุณภาพและความสอดคล้อง และ ( c ) ความถูกต้องวัดอย่างต่อเนื่องและทราบภูมิหลังทาง .
คลังข้อมูลแห่งชาติอังกฤษ ( BNC ) ประกอบด้วย c.100 ล้านคำภาษาอังกฤษที่เขียนข้อความและพูดคุยกัน อายุรจากหลากหลายของประเภทข้อความ ทาง BNC รวมถึง 10 ล้านคำที่พูดภาษา c.45 % ซึ่งเป็นการสนทนาทันควัน ( ดู crowdy เตรียมพร้อม , )นอกจากนี้ยังรวมถึงความหลากหลายอันยิ่งใหญ่ของ เขียนข้อความ รวมถึงวัสดุที่เผยแพร่ . ไวยากรณ์แท็กของคลังข้อมูลจึงต้อง " ซูเปอร์ความทนทานของ Tagger ที่สามารถปรับตัวได้ดีกับแทบทุกชนิดของข้อความและยังได้มี Tagger เป็นเอนกประสงค์ ในการจัดการกับ tagsets แตกต่างกัน ( ชุดของป้ายชื่อประเภทไวยากรณ์ดู 3 ด้านล่าง ) และรับข้อความในรูปแบบการป้อนข้อมูลที่แตกต่างกัน สำหรับวัตถุประสงค์ของ BNC , Tagger ถูกต้องทั้งรับและข้อความออกในคลังข้อมูลเชิงเท conformant มาร์คขึ้นรูปแบบเรียกว่า cdif ( เอกสารรูปแบบการแลกเปลี่ยนข้อมูล )แต่ในรูปแบบนี้รูปแบบหลายตัวแปร ( ต่อ ตัวอย่าง แบ่งเป็นคำและประโยค ) จะได้รับการยอมรับทันที นอกจากนี้ กรงเล็บให้ตัวแปรรูปแบบ output : สำหรับ Tagger ปัจจุบัน เหล่านี้รวมถึง ( ก ) ในแนวตั้งที่นำเสนอรูปแบบเหมาะสำหรับการแก้ไขด้วยตนเอง และ ( ข ) มากขึ้นขนาดกะทัดรัดในแนวนอน - นำเสนอรูปแบบมักจะเหมาะสำหรับผู้ใช้ .รูปแบบ output เลือกได้รับอนุญาต ( C ) เรียกว่า " ประสะแท็ก " คือการรวมกันของทั้งสองทางเลือกแท็กที่ Tagger คำนวณมีหลักฐานไม่เพียงพอสำหรับแก้ความกำกวมปลอดภัยและ ( d ) กับง่าย " ข้อความธรรมดา " มาร์คขึ้นสำหรับผู้อ่านของมนุษย์

claws4 , BNC Tagger เชิงอรรถ [ 2 ] ประกอบด้วยคุณสมบัติมากมายของการปรับตัวเช่นข้างต้นมันยังรวมการปรับแต่งของหลายภาษา การวิเคราะห์ ซึ่งได้สร้างขึ้นกว่า 14 ปี โดยเฉพาะในการก่อสร้างและเนื้อหาของสำนวนมาประกอบ ( ดู 2 ด้านล่าง ) ในขณะเดียวกัน ยังคงมีหลายการปรับปรุงจะทำโดยอ้างว่า " คุณสามารถใส่ร่วมกัน Tagger จากรอยขีดข่วนในสองสามเดือน " ( เพิ่งได้ยินที่การประชุมการวิจัย ) ในมุมมองของเราช่างมองโลกในแง่ดี
การแปล กรุณารอสักครู่..
 
ภาษาอื่น ๆ
การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.

Copyright ©2025 I Love Translation. All reserved.

E-mail: