Word segmentation in Thai is not a trivial problem.Table 2 outlines th การแปล - Word segmentation in Thai is not a trivial problem.Table 2 outlines th ไทย วิธีการพูด

Word segmentation in Thai is not a

Word segmentation in Thai is not a trivial problem.
Table 2 outlines the critical problems of Thai word segmentation
(Aroonmanakun, 2002; Meknavin et al., 1997a),
showing the high ambiguity of Thai word segmentation,
especially in the last case where a compound word can be
segmented differently in different semantic contexts. Due
to these Thai specific difficulties, there has been a considerable
amount of work in Thai word segmentation since
1986. The accuracy, however, is still limited and more
research is needed. One basic algorithm which was devised
for word segmentation was the use of a dictionary with
some heuristic rules (Rarunrom, 1991). Inrut et al. (2001)
proposed syllabification by certain rules and then combination of the syllables based on a dictionary and a forward–
backward search, which has enabled deciphering of some
ambiguous cases. Statistical models such as part-of-speech
(POS) n-gram and word n-gram have also been explored
(Kawtrakul et al., 1997; Meknavin et al., 1997a). In addition
to the statistical n-gram, Meknavin et al. (1997a) proposed
using a machine learning algorithm to solve some
ambiguous cases. Another technique utilized a weighted
finite-state transducer trained by a textual corpus (Sojka
and Antos, 2003). These techniques worked fairly well
when an input sentence contained only words appearing
in the dictionary. However, a significant problem for word
segmentation in Thai is when sentences contain unknown
words, such as name entities and loan words written in
Thai. Techniques using a machine learning algorithm e.g.
Winnow (Charoenpornsawat et al., 1998) and a decision
tree (Theeramunkong and Usanavasin, 2000) have been
effective in overcoming the unknown-word problem. Work
by Aroonmanakun suggests that segmenting text into a
sequence of syllable-like units and combining units which
have high collocations can also help in these cases (Aroonmanakun,
2002; Aroonmanakun, 2005).
0/5000
จาก: -
เป็น: -
ผลลัพธ์ (ไทย) 1: [สำเนา]
คัดลอก!
แบ่งคำภาษาไทยไม่มีปัญหาเล็กน้อยตารางที่ 2 สรุปปัญหาสำคัญของการแบ่งคำไทย(Aroonmanakun, 2002 โชติวัฒนดิลก et al., 1997a),แสดงย่อสูงของภาษาไทยแบ่งโดยเฉพาะอย่างยิ่งในกรณีสุดท้ายที่เป็นคำประสมถูกแบ่งเป็นช่วงแตกต่างกันในบริบทความหมายแตกต่างกัน ครบกำหนดกับปัญหาเหล่านี้เฉพาะไทย มีเป็นจำนวนมากจำนวนงานในภาษาไทยแบ่งตั้งแต่1986. ความถูกต้อง อย่างไร เป็นยังจำกัด และอื่น ๆงานวิจัยเป็นสิ่งจำเป็น ขั้นตอนวิธีพื้นฐานหนึ่งซึ่งถูกกำหนดสำหรับคำ แบ่งเป็นพจนานุกรมที่มีการใช้บางแล้วกติกา (Rarunrom, 1991) Inrut et al. (2001)syllabification นำเสนอ โดยบางกฎ แล้วชุดของพยางค์ตามพจนานุกรมและไป –ค้นหาย้อนหลัง ซึ่งได้เปิดใช้งาน deciphering บางส่วนกรณีไม่ชัดเจน แบบจำลองทางสถิติเช่นส่วนหนึ่งของคำพูด(POS) n-กรัมและคำ n กรัมมียังการอุดม(Kawtrakul et al., 1997 โชติวัฒนดิลก et al., 1997a) นอกจากนี้การสถิติ n-กรัม โชติวัฒนดิลก et al. (1997a) เสนอใช้เป็นเครื่องเรียนรู้อัลกอริทึมเพื่อแก้ปัญหาบางอย่างกรณีไม่ชัดเจน เทคนิคอื่นที่ใช้การถ่วงน้ำหนักการฝึกอบรม โดยคอร์พัสคริข้อความ (Sojka พิกัดสถานะจำกัดและ Antos, 2003) เทคนิคเหล่านี้ทำงานค่อนข้างดีเมื่อประโยคการป้อนข้อมูลประกอบด้วยเฉพาะคำที่ปรากฏในพจนานุกรม อย่างไรก็ตาม ปัญหาสำคัญสำหรับคำแบ่งในไทยคือเมื่อประโยคประกอบด้วยไม่รู้จักคำ ชื่อเอนทิตีและเขียนคำยืมไทย เทคนิคการใช้ขั้นตอนวิธีการเรียนรู้ของเครื่องเช่นWinnow (Charoenpornsawat et al., 1998) และการตัดสินใจต้นไม้ (Theeramunkong และ Usanavasin, 2000) ได้มีประสิทธิภาพในการขจัดหมดสิ้นปัญหาคำไม่รู้จัก ทำงานโดย Aroonmanakun แนะนำข้อความว่า segmenting เป็นลำดับของพยางค์เช่นหน่วยและหน่วยรวมซึ่งมีสูงให้สามารถช่วยเหลือในกรณีเหล่านี้ (Aroonmanakun2002 Aroonmanakun, 2005)
การแปล กรุณารอสักครู่..
ผลลัพธ์ (ไทย) 2:[สำเนา]
คัดลอก!
ตัดคำในภาษาไทยไม่ได้เป็นปัญหาเล็ก ๆ น้อย ๆ .
ตารางที่ 2 แสดงปัญหาที่สำคัญของการตัดคำไทย
(Aroonmanakun., 2002; Meknavin, et al, 1997a) แสดงให้เห็นถึงความคลุมเครือสูงของการตัดคำไทยโดยเฉพาะอย่างยิ่งในกรณีที่ผ่านมาที่สารประกอบคำสามารถแบ่งที่แตกต่างกันในบริบทความหมายที่แตกต่างกัน เนื่องจากความยากลำบากเหล่านี้เฉพาะคนไทยได้มีมากปริมาณงานในการตัดคำไทยตั้งแต่ปี1986 ความถูกต้อง แต่ยังมีข้อ จำกัด และอื่น ๆการวิจัยเป็นสิ่งจำเป็น หนึ่งในขั้นตอนวิธีพื้นฐานที่ได้วางแผนสำหรับการตัดคำคือการใช้พจนานุกรมที่มีกฎระเบียบบางอย่างที่แก้ปัญหา(Rarunrom, 1991) Inrut et al, (2001) เสนอ syllabification โดยกฎระเบียบบางอย่างแล้วการรวมกันของพยางค์ที่ขึ้นอยู่กับพจนานุกรมและเชิงคาดการณ์ล่วงหน้าค้นหาย้อนหลังซึ่งได้เปิดใช้งานถอดรหัสบางกรณีที่ไม่ชัดเจน แบบจำลองทางสถิติดังกล่าวเป็นส่วนหนึ่งของคำพูด(POS) n กรัมและคำ n กรัมนอกจากนี้ยังได้รับการสำรวจ(ก่อตระกูล, et al, 1997;.. Meknavin, et al, 1997a) นอกจากไปที่สถิติ n-กรัม Meknavin et al, (1997a) ได้เสนอใช้วิธีการเรียนรู้ที่จะแก้ปัญหาเครื่องบางกรณีที่ไม่ชัดเจน อีกเทคนิคหนึ่งที่ใช้ถ่วงน้ำหนักตัวแปลงสัญญาณ จำกัด ของรัฐที่ได้รับการฝึกฝนจากคลังต้นฉบับเดิม (Sojka และ ANTOS, 2003) เทคนิคเหล่านี้ทำงานค่อนข้างดีเมื่อมีการป้อนข้อมูลที่มีอยู่ประโยคคำพูดเดียวที่ปรากฏในพจนานุกรม แต่เป็นปัญหาที่สำคัญสำหรับคำว่าการแบ่งส่วนในภาษาไทยคือเมื่อมีประโยคที่ไม่รู้จักคำเช่นหน่วยงานที่ชื่อและที่ยืมคำที่เขียนในภาษาไทย เทคนิคการใช้เครื่องอัลกอริทึมการเรียนรู้เช่นโปรย (Charoenpornsawat et al., 1998) และการตัดสินใจต้นไม้(Theeramunkong และ Usanavasin, 2000) ได้รับการที่มีประสิทธิภาพในการเอาชนะปัญหาที่ไม่รู้จักคำ การทำงานโดย Aroonmanakun แสดงให้เห็นว่าการแบ่งกลุ่มข้อความลงในลำดับของหน่วยพยางค์เหมือนและการรวมหน่วยงานที่มีcollocations สูงยังสามารถช่วยในกรณีเหล่านี้ (Aroonmanakun, 2002; Aroonmanakun 2005)






























การแปล กรุณารอสักครู่..
ผลลัพธ์ (ไทย) 3:[สำเนา]
คัดลอก!
การแบ่งคำภาษาไทยไม่ใช่ปัญหาเล็กๆ
ตารางที่ 2 สรุปปัญหาวิกฤตของ
คำภาษาไทย ( เอี่ยมสุข , 2002 ; meknavin et al . , 1997a )
แสดงความสูงของการแบ่งคำไทย
โดยเฉพาะอย่างยิ่งในกรณีสุดท้ายที่เป็นคำประสมสามารถแตกต่างกันในบริบทความหมายแตกต่างกัน
แบ่งส่วน . เนื่องจาก
เหล่านี้ไทยเฉพาะปัญหามีมาก
ปริมาณของงานในการแบ่งคำภาษาไทยตั้งแต่
1986 ความถูกต้อง อย่างไรก็ตาม ยังมีข้อจำกัดและมากขึ้น
การวิจัยเป็นสิ่งจำเป็น ขั้นตอนวิธีพื้นฐานหนึ่งซึ่งถูก devised
สำหรับตัดคำ ถูกใช้เป็นพจนานุกรม
กฎฮิวริสติก ( rarunrom , 1991 ) inrut et al . ( 2001 )
syllabification เสนอโดยกฎระเบียบบางอย่างและการรวมกันของคำตามพจนานุกรม และ
- ไปข้างหน้าค้นหาย้อนหลัง ซึ่งมีการเปิดใช้งานถอดรหัสของ
ไม่ชัดเจนกรณี แบบจำลองทางสถิติ เช่น ส่วนของคำพูด
( POS ) และยังได้รับ n-gram n-gram คําสํารวจ
( kawtrakul et al . , 1997 ; meknavin et al . , 1997a ) นอกจากนี้
ไป n-gram สถิติ meknavin et al . ( 1997a ) เสนอ
โดยใช้อัลกอริทึมเพื่อแก้ปัญหาบาง
ไม่ชัดเจนกรณี เทคนิคอื่นที่ใช้ถ่วงน้ำหนัก
จำกัดสภาพเซอร์ได้รับการฝึกฝนจากข้อมูลต้นฉบับเดิม ( และ sojka
antos , 2003 ) เทคนิคเหล่านี้ทำงานค่อนข้างดี
เมื่อประโยคประกอบด้วยคำที่ปรากฏ
ในพจนานุกรมเท่านั้น อย่างไรก็ตาม ปัญหาสำคัญสำหรับการแบ่งคำไทย คือ เมื่อประโยค

มีไม่รู้จักคำ เช่นองค์กรชื่อและคำที่ยืมเขียน
ไทย เทคนิคที่ใช้อัลกอริทึมเช่น
ฝัด ( charoenpornsawat et al . , 1998 ) และการตัดสินใจ ( theeramunkong
ต้นไม้ และพร ษณวศิน , 2000 ) มี ประสิทธิภาพในการเอาชนะปัญหา
คำไม่รู้จัก
โดยเอี่ยมสุข ชี้ให้เห็นว่า การแบ่งส่วนข้อความลงในลำดับของพยางค์เช่นหน่วย

และรวมหน่วยซึ่งมี collocations สูงยังสามารถช่วยในกรณีนี้ ( เอี่ยมสุข
, 2002 ; เอี่ยมสุข , 2005 )
การแปล กรุณารอสักครู่..
 
ภาษาอื่น ๆ
การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.

Copyright ©2024 I Love Translation. All reserved.

E-mail: