Thai language text presents unique

Thai language text presents unique challenges for
integration into large-scale multi-language statistical
machine translation (SMT) systems, largely
stemming from the nominal lack of punctuation and
inter-word space. We review our independent solutions
for Thai character sequence normalization, tokenization,
typed-entity identification, sentencebreaking,
and text re-spacing. We describe a general
maximum entropy-based classifier for sentence
breaking, whose algorithm can be easily extended
to other languages such as Arabic. After integration
of all components, we obtain a final translation
BLEU score of 0.19 for English to Thai and 0.21
for Thai to English.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

ความท้าทายที่ไม่ซ้ำสำหรับแสดงข้อความภาษาไทยรวมเป็นภาษาที่หลายขนาดใหญ่ทางสถิติเครื่องแปล (SMT) ระบบ ใหญ่อันเนื่องมาจากขาดการระบุเครื่องหมายวรรคตอน และช่องว่างระหว่างคำ เราตรวจสอบโซลูชั่นของเราเป็นอิสระสำหรับไทยอักขระลำดับฟื้นฟู tokenizationทิพิมพ์รหัส sentencebreakingและข้อความระยะห่างอีกครั้ง เราอธิบายทั่วไปclassifier ใช้เอนโทรปีสูงสุดในประโยคทำลาย อัลกอริทึมสามารถได้ขยายภาษาอื่น ๆ เช่นภาษาอาหรับ หลังจากรวมส่วนประกอบทั้งหมด เราได้รับการแปลขั้นสุดท้ายคะแนนเบลอ 0.19 สำหรับภาษาอังกฤษเป็นไทยและ 0.21สำหรับภาษาไทยเป็นภาษาอังกฤษ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

ข้อความภาษาไทยนำเสนอความท้าทายที่ไม่ซ้ำกัน
บูรณาการในขนาดใหญ่หลายภาษาทางสถิติ
เครื่องแปลภาษา (SMT) ระบบส่วนใหญ่
เกิดจากการขาดการระบุของเครื่องหมายวรรคตอนและ
พื้นที่ระหว่างคำ เราตรวจสอบการแก้ปัญหาที่เป็นอิสระของเรา
สำหรับการฟื้นฟูลำดับตัวอักษรไทย tokenization,
บัตรประจำตัวพิมพ์นิติบุคคล, sentencebreaking,
ระยะห่างและข้อความอีกครั้ง เราอธิบายทั่วไป
จําแนกเอนโทรปีตามประโยคสูงสุดสำหรับการ
ทำลายซึ่งมีขั้นตอนวิธีการที่สามารถขยายได้อย่างง่ายดาย
กับภาษาอื่น ๆ เช่นภาษาอาหรับ หลังจากการรวมกลุ่ม
ของส่วนประกอบทั้งหมดเราได้รับการแปลสุดท้าย
คะแนน BLEU 0.19 สำหรับภาษาอังกฤษเป็นภาษาไทยและ 0.21
สำหรับคนไทยเป็นภาษาอังกฤษ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

ภาษาไทย ภาษาแสดงความท้าทายที่ไม่ซ้ำกันสำหรับ
รวมขนาดใหญ่หลายภาษาสถิติ
เครื่องแปลภาษา ( SMT ) ระบบส่วนใหญ่
อันเนื่องมาจากขาดชื่อของเครื่องหมายวรรคตอนและ
ระหว่างอวกาศคำ เราทบทวน
โซลูชั่นอิสระของเราสำหรับตัวอักษรภาษาไทย ลำดับความ tokenization
, , พิมพ์รหัส , นิติบุคคล sentencebreaking
, และระยะห่างอีกข้อความเราอธิบายทั่วไป
สูงสุดเอนโทรปีตามลักษณนามสำหรับประโยค
แบ่งที่มีอัลกอริทึมที่สามารถขยายได้อย่างง่ายดาย
ภาษาอื่นๆ เช่น ภาษาไทย หลังจากการรวม
ของส่วนประกอบทั้งหมด เราได้รับสุดท้ายแปล
เบลอคะแนน 0.19 สำหรับภาษาอังกฤษเป็นภาษาไทยและ 0.21
ไทยภาษาอังกฤษ

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.