7. Language resourcesKawtrakul et al. (2002) summarized Thai languager การแปล - 7. Language resourcesKawtrakul et al. (2002) summarized Thai languager ไทย วิธีการพูด

7. Language resourcesKawtrakul et a

7. Language resources
Kawtrakul et al. (2002) summarized Thai language
resources which are used mainly for text processing. This
section extends that summary by reviewing both Thai text
and speech resources. Dictionaries which are a fundamental
resource for language processing are also mentioned at
the end of this section.
7.1. Text resources
Table 5 gives details for some Thai text corpora mainly
used for language processing research. The NECTEC
ORCHID corpus (Charoenporn et al., 1997) is a medium
size text resource with several annotations including
part-of-speech (POS), word and sentence boundaries, and
pronunciation. It contains approximately 43,000 sentences
covering 570,000 words from Thai junior encyclopedias
and NECTEC technical papers. ORCHID has been widely
exploited in many areas of Thai language processing and
also has been used as the original text source for several
speech corpora such as a phonetically-balanced set
(Wutiwiwatchai et al., 2002) and a prosody-annotated
corpus for speech synthesis, named TSynC (Hansakunbuntheung
et al., 2003b).
The NAiST text corpus (Kawtrakul, 1995) was created
with the primary aim of collecting magazine documents
for training and evaluating a writing assistance system.
The system functioned to assist writers in proofing their
documents. It is a very large text database with word and
sentence boundary tags. It has also been employed in other
research such as Thai noun phrase analysis (Pengphon
et al., 2002) and named entity recognition (Chanlekha
et al., 2002).
0/5000
จาก: -
เป็น: -
ผลลัพธ์ (ไทย) 1: [สำเนา]
คัดลอก!
7. ภาษาทรัพยากรภาษาไทยสรุป Kawtrakul et al. (2002)ทรัพยากรที่ใช้ส่วนใหญ่สำหรับการประมวลผลข้อความ นี้ส่วนขยายที่สรุป ด้วยการตรวจทานข้อความทั้งภาษาไทยและทรัพยากรเสียง พจนานุกรมซึ่งเป็นพื้นฐานนอกจากนี้ยังกล่าวถึงทรัพยากรสำหรับการประมวลผลภาษาที่ตอนท้ายของส่วนนี้7.1 ทรัพยากรข้อตาราง 5 ให้รายละเอียดสำหรับ corpora บางข้อความภาษาไทยส่วนใหญ่ใช้ภาษาที่ประมวลผลการวิจัย เนคเทคเป็นคอร์พัสคริออร์คิด (Charoenporn et al., 1997)ทรัพยากรข้อความขนาด ด้วยคำอธิบายประกอบต่าง ๆ รวมถึงส่วนหนึ่งของคำพูด (POS) ขอบเขตของคำและประโยค และการออกเสียงด้วย ประกอบด้วยประมาณ 43,000 ประโยคครอบคลุมคำ 570,000 จากสารานุกรมไทยสำหรับเด็กและเอกสารทางเทคนิคของ NECTEC กล้วยไม้ได้รับกันอย่างแพร่หลายสามารถในการประมวลผลภาษาไทยมากมาย และนอกจากนี้ยัง มีการใช้เป็นต้นฉบับข้อความหลายเสียง corpora เช่นชุดสมดุลตามการออกเสียง(Wutiwiwatchai et al., 2002) และการ prosody-ใส่คำอธิบายประกอบคอร์พัสคริสำหรับสังเคราะห์เสียงพูด ชื่อ TSynC (Hansakunbuntheungร้อยเอ็ด al., 2003b)มีสร้างคลังข้อความของ NAiST (Kawtrakul, 1995)มีจุดประสงค์หลักเพื่อรวบรวมเอกสารวารสารสำหรับการฝึกอบรม และการประเมินการเขียนระบบความช่วยเหลือระบบแยกเพื่อช่วยให้ผู้เขียนตรวจทานของพวกเขาเอกสาร เป็นฐานข้อมูลข้อความมีขนาดใหญ่มากที่ มีคำ และtags:ขอบเขตของประโยค นอกจากนี้ยังมีการจ้างในอื่น ๆวิจัยเช่นวิเคราะห์ไทยวลี (Pengphonและ al., 2002) และตั้งชื่อรู้เอนทิตี (Chanlekhaและ al., 2002)
การแปล กรุณารอสักครู่..
ผลลัพธ์ (ไทย) 2:[สำเนา]
คัดลอก!
7.
ทรัพยากรภาษาก่อตระกูลet al, (2002)
สรุปภาษาไทยทรัพยากรซึ่งส่วนใหญ่จะใช้สำหรับการประมวลผลข้อความ นี้ส่วนขยายสรุปว่าโดยการตรวจสอบทั้งข้อความภาษาไทยและทรัพยากรการพูด พจนานุกรมที่มีพื้นฐานทรัพยากรสำหรับการประมวลผลภาษายังกล่าวถึงในตอนท้ายของส่วนนี้. 7.1 ทรัพยากรข้อความตารางที่ 5 ให้รายละเอียดสำหรับคลังข้อความภาษาไทยบางคนส่วนใหญ่ใช้สำหรับการวิจัยการประมวลผลภาษา เนคเทคคอร์ปัสออร์คิด (เจริญพร et al., 1997) เป็นสื่อทรัพยากรข้อความขนาดที่มีคำอธิบายประกอบหลายคนรวมทั้งเป็นส่วนหนึ่งของคำพูด(POS), ขอบเขตของคำและประโยคและการออกเสียง มันมีประมาณ 43,000 ประโยคครอบคลุม570,000 คำจากสารานุกรมไทยจูเนียร์และเอกสารทางเทคนิคที่เนคเทค กล้วยไม้ที่ได้รับการยอมรับอย่างกว้างขวางใช้ประโยชน์ในหลายพื้นที่ของการประมวลผลภาษาไทยและยังได้ถูกใช้เป็นแหล่งที่มาของข้อความที่เดิมเป็นเวลาหลายคลังคำพูดดังกล่าวเป็นชุดอัยการสมดุล(Wutiwiwatchai et al., 2002) และฉันทลักษณ์-ข้อเขียนคลังสำหรับการสังเคราะห์เสียงพูดชื่อ TSynC (Hansakunbuntheung et al., 2003b). คลังข้อความ NAiST (ก่อตระกูล, 1995) ที่ถูกสร้างขึ้นโดยมีจุดประสงค์หลักของการเก็บรวบรวมเอกสารนิตยสารสำหรับการฝึกอบรมและการประเมินผลระบบการช่วยเหลือเกี่ยวกับการเขียน. ระบบทำหน้าที่ให้ความช่วยเหลือนักเขียนในการตรวจสอบของพวกเขาเอกสาร. มันเป็นฐานข้อมูลข้อความขนาดใหญ่มากกับคำพูดและแท็กขอบเขตประโยค ก็ยังได้รับการจ้างงานคนอื่น ๆ ในการวิจัยเช่นการวิเคราะห์ไทยนามวลี(Pengphon et al., 2002) และการรับรู้ชื่อนิติบุคคล (Chanlekha et al., 2002)



























การแปล กรุณารอสักครู่..
ผลลัพธ์ (ไทย) 3:[สำเนา]
คัดลอก!
7 . ทรัพยากร
ภาษา kawtrakul et al . ( 2002 ) สรุปภาษาไทย
ทรัพยากรซึ่งจะใช้เป็นหลักสำหรับการประมวลผลข้อความ ส่วนนี้
ขยายที่สรุปโดยการทบทวนทั้งภาษาไทย
และทรัพยากรสุนทรพจน์ พจนานุกรมที่เป็นทรัพยากรพื้นฐาน
สำหรับการประมวลผลภาษา ยังกล่าวถึงในตอนท้ายของมาตรานี้
.
7.1 .
ทรัพยากรข้อความตารางที่ 5 ให้รายละเอียดบางข้อความภาษาไทยคลังข้อมูลส่วนใหญ่
การวิจัยที่ใช้สำหรับการประมวลผลภาษา เนคเทค
กล้วยไม้คลังข้อมูล ( charoenporn et al . , 1997 ) เป็นสื่อ
ขนาดข้อความทรัพยากรกับการจัดการต่าง ๆ รวมทั้ง
ส่วนของคำพูด ( POS ) , คำและประโยคขอบเขตและ
การออกเสียง มันมีประมาณ 43 , 000 ประโยคคำพูดจากเยาวชนไทยที่ครอบคลุมบริการ

สารานุกรมรวมเทคนิคและเอกสาร กล้วยไม้ได้รับอย่างกว้างขวาง
ใช้ประโยชน์ในหลายพื้นที่ของภาษาไทยและการประมวลผล
ยังถูกใช้เป็นแหล่งที่มาของข้อความต้นฉบับสำหรับคลังข้อมูลเช่นการพูดหลาย

ตั้งอัยการที่สมดุล ( wutiwiwatchai et al . , 2002 ) และเป็นคลังข้อมูลสำหรับการสังเคราะห์ฉันทลักษณ์บันทึกย่อ

ชื่อ tsync ( hansakunbuntheung et al . , 2003b )
naist คลังข้อความ ( kawtrakul , 1995 ) ถูกสร้าง
ด้วยจุดประสงค์หลักของการรวบรวมเอกสารเพื่อการฝึกอบรม และประเมินผลนิตยสาร

เขียนระบบความช่วยเหลือ ระบบที่ทำหน้าที่เพื่อช่วยให้นักเขียนในเอกสารของพวกเขา
พิสูจน์อักษร มันเป็นฐานข้อมูลขนาดใหญ่ข้อความมากกับคำและประโยคขอบเขต
Tags มันยังถูกใช้ในงานวิจัยอื่นๆ
เช่น การวิเคราะห์นามวลีภาษาไทย ( pengphon
et al . , 2002 ) และการรู้จำชื่อเฉพาะ ( chanlekha
et al ., 2002 )
การแปล กรุณารอสักครู่..
 
ภาษาอื่น ๆ
การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.

Copyright ©2026 I Love Translation. All reserved.

E-mail: