In this work we investigated the ta

In this work we investigated the task of fully unsupervised POS induction in five different languages.
We identified and proposed solutions for three major problems of the simple hidden Markov model
that has been used extensively for this task: i) treating words atomically, ignoring orthographic
and morphological information – which we addressed by replacing multinomial word distributions
by small maximum-entropy models; ii) an excessive number of parameters that allows models to
fit irrelevant correlations – which we adressed by discarding parameters with small support in the
corpus; iii) a training regime (maximum likelihood) that allows very high word ambiguity – which
we addressed by training using the PR framework with a word ambiguity penalty. We show that all
these solutions improve the model performance and that the improvements are additive. Comparing
against the regular HMM we achieve an impressive improvement of 10.4% on average.
We also compared our system against the main competing systems and show that our approach
performs better in every language except English. Moreover, our approach performs well across
languages and learning conditions, even when hyperparameters are not tuned to the conditions.
When the induced clusters are used as features in a semi-supervised POS tagger trained with a small
amount of supervised data, we show significant improvements. Moreover, the clusters induced by
our system always perform as well as or better than the clusters produced by other systems

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

ในงานนี้ เราสามารถตรวจสอบงานของ POS เหนี่ยวนำขั่วครบห้าภาษาแตกต่างกันเราระบุ และเสนอวิธีแก้ไขปัญหาสำหรับ 3 ปัญหาที่สำคัญของรูปแบบ Markov ซ่อนง่ายที่มีการใช้อย่างกว้างขวางสำหรับงานนี้: ฉัน) รักษาคำ atomically ละเว้นภาษาและ ข้อมูลสัณฐาน – ที่เราแก้ไขได้ โดยการเปลี่ยนการกระจายคำก็ตามโดยรุ่นเล็กที่เอนโทรปีสูงสุด ii) จำนวนของพารามิเตอร์ที่ช่วยให้รุ่นมากเกินไปพอดีความสัมพันธ์ที่เกี่ยวข้อง – ซึ่งเรา adressed โดยละทิ้งพารามิเตอร์ ด้วยการสนับสนุนขนาดเล็กในการcorpus iii ระบอบ)การฝึกอบรม (โอกาสสูงสุด) ให้สูงมากคำย่อ – ซึ่งเราแก้ไขได้ โดยการฝึกใช้ PR framework กับโทษคำย่อ เราดูที่ทั้งหมดแก้ปัญหาเหล่านี้ปรับปรุงประสิทธิภาพของรูปแบบ และมีการปรับปรุงสารเติมแต่ง การเปรียบเทียบกับ HMM ปกติ เราบรรลุการปรับปรุงที่น่าประทับใจของ 10.4% โดยเฉลี่ยเรายังได้เปรียบเทียบระบบของเราจากระบบการแข่งขันหลัก และแสดงว่าแนวทางของเราทำดีขึ้นในทุกภาษายกเว้นภาษาอังกฤษ นอกจากนี้ เราทำเช่นภาษาและสภาพการเรียนรู้ แม้ว่า hyperparameters จะไม่ปรับเงื่อนไขเมื่อใช้ clusters เหนี่ยวนำเป็นคุณลักษณะใน tagger POS เป็นกึ่งดูแลการฝึกอบรม มีขนาดเล็กจำนวนดูแลข้อมูล เราแสดงการปรับปรุงที่สำคัญ นอกจากนี้ เกิด clusters จากระบบของเราเสมอทำเช่นกัน หรือดีกว่ากลุ่มที่ผลิต โดยระบบอื่น ๆ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

ในงานนี้เราตรวจสอบงานของการเหนี่ยวนำ POS หากินอย่างเต็มที่ในห้าภาษาที่แตกต่างกัน.
เราระบุและการแก้ปัญหาสามปัญหาที่สำคัญของรูปแบบมาร์คอฟที่เรียบง่ายที่ซ่อนเสนอ
ที่มีการใช้อย่างกว้างขวางสำหรับงานนี้ i) การรักษาคำพูดของอะตอมไม่สนใจ orthographic
และ ข้อมูลทางสัณฐานวิทยา - ที่เราแก้ไขโดยการเปลี่ยนคำแจกแจงพหุนาม
โดยรุ่นสูงสุดเอนโทรปีของเล็ก ๆ น้อย ๆ ii) จำนวนที่มากเกินไปของพารามิเตอร์ที่ช่วยให้รูปแบบให้
พอดีกับความสัมพันธ์ที่ไม่เกี่ยวข้อง - ซึ่งเรา adressed โดยทิ้งพารามิเตอร์ด้วยการสนับสนุนเล็ก ๆ ใน
คอร์ปัส; iii) ระบอบการฝึกอบรม (โอกาสสูงสุด) ที่ช่วยให้คำกำกวมสูงมาก - ซึ่ง
เราแก้ไขโดยการฝึกอบรมโดยใช้กรอบการประชาสัมพันธ์มีโทษคำกำกวม เราแสดงให้เห็นว่าทุก
วิธีการเหล่านี้ปรับปรุงประสิทธิภาพการทำงานรูปแบบและว่าการปรับปรุงที่มีสารเติมแต่ง เปรียบเทียบ
กับอืมปกติเราบรรลุการพัฒนาที่น่าประทับใจของ 10.4% โดยเฉลี่ย.
นอกจากนี้เรายังระบบของเราเมื่อเทียบกับระบบการแข่งขันหลักและแสดงให้เห็นว่าวิธีการของเรา
มีประสิทธิภาพดีกว่าในทุกภาษายกเว้นภาษาอังกฤษ นอกจากนี้วิธีการของเรามีประสิทธิภาพดีทั่ว
ภาษาและเงื่อนไขการเรียนรู้แม้เมื่อ hyperparameters ยังไม่ได้ปรับเงื่อนไข.
เมื่อกลุ่มเหนี่ยวนำจะถูกใช้เป็นคุณสมบัติในกึ่งดูแล Tagger POS ผ่านการฝึกอบรมที่มีขนาดเล็ก
ปริมาณของข้อมูลภายใต้การดูแลเราจะแสดงการปรับปรุงที่สำคัญ . นอกจากนี้ยังมีการจัดกลุ่มข้อมูลที่เกิดจาก
ระบบของเราเสมอดำเนินการเช่นเดียวกับหรือดีกว่ากลุ่มที่ผลิตโดยระบบอื่น ๆ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.