Thai language text presents unique

Thai language text presents unique challenges for integration into large-scale multi-language statistical machine translation (SMT) systems, largely stemming from the nominal lack of punctuation and inter-word space. We review our independent solutions for Thai character sequence normalization, tokenization, typed-entity identification, sentencebreaking, and text re-spacing. We describe a general maximum entropy-based classifier for sentence breaking, whose algorithm can be easily extended to other languages such as Arabic. After integration of all components, we obtain a final translation BLEU score of 0.19 for English to Thai and 0.21 for Thai to English.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

ข้อความภาษาไทยแสดงความท้าทายที่ไม่ซ้ำสำหรับการรวมในขนาดใหญ่หลายสถิติเครื่องแปลภาษาระบบ (SMT) อันเนื่องมาจากขาดการระบุเครื่องหมายวรรคตอนและคำระหว่างพื้นที่ส่วนใหญ่ เราตรวจสอบโซลูชั่นของเราอิสระสำหรับฟื้นฟูลำดับอักขระไทย tokenization ทิพิมพ์รหัส sentencebreaking และข้อความระยะห่างอีกครั้ง เราอธิบายแบบทั่วไปสูงสุดตามเอนโทรปี classifier สำหรับประโยคทำลาย อัลกอริทึมสามารถได้ขยายภาษาอื่น ๆ เช่นภาษาอาหรับ หลังจากการรวมของส่วนประกอบทั้งหมด เราได้รับคะแนนสุดท้ายแปลเบลอ 0.19 สำหรับภาษาอังกฤษเป็นไทยและ 0.21 สำหรับภาษาไทยเป็นภาษาอังกฤษ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

ข้อความภาษาไทยนำเสนอความท้าทายที่ไม่ซ้ำกันสำหรับการรวมเข้าขนาดใหญ่หลายภาษาเครื่องแปลภาษาทางสถิติ (SMT) ระบบส่วนใหญ่เกิดจากการขาดการระบุของเครื่องหมายวรรคตอนและพื้นที่ระหว่างคำ เราตรวจสอบการแก้ปัญหาที่เป็นอิสระของเราสำหรับการฟื้นฟูลำดับตัวอักษรไทย tokenization บัตรประจำตัวพิมพ์นิติบุคคล, sentencebreaking และข้อความระยะห่างอีกครั้ง เราอธิบายทั่วไปจําแนกตามเอนโทรปีสูงสุดสำหรับการทำลายประโยคซึ่งมีขั้นตอนวิธีการที่สามารถขยายได้อย่างง่ายดายกับภาษาอื่น ๆ เช่นภาษาอาหรับ หลังจากการรวมองค์ประกอบทั้งหมดที่เราได้รับคะแนนการแปล BLEU สุดท้ายของ 0.19 สำหรับภาษาอังกฤษเป็นภาษาไทยและ 0.21 สำหรับไทยเป็นอังกฤษ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

ภาษาไทย ภาษาแสดงความท้าทายที่ไม่ซ้ำกันสำหรับบูรณาการในขนาดใหญ่หลายภาษาสถิติแปลภาษา ( SMT ) ระบบส่วนใหญ่ที่เกิดจากการระบุของเครื่องหมายวรรคตอนและพื้นที่ระหว่างคำ เราตรวจสอบโซลูชั่นของเราเป็นลำดับตัวอักษรภาษาไทยบรรทัดฐาน , tokenization , พิมพ์รหัส , นิติบุคคล sentencebreaking และระยะห่างอีกข้อความเราอธิบายทั่วไปสูงสุดเอนโทรปีตามลักษณนามสำหรับประโยคทำลายที่มีอัลกอริทึมที่สามารถขยายได้อย่างง่ายดายเพื่อภาษาอื่นๆ เช่น ภาษาไทย หลังจากการรวมของส่วนประกอบทั้งหมด เราได้รับคะแนนสุดท้ายแปลเบลอ 0.19 สำหรับอังกฤษเป็นไทย และไทย - อังกฤษ

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.