However, it is worth mentioning here for a complete review
of speech technology evaluated with Thai speech data.
6.1. Spoken dialogue systems
Wutiwiwatchai and Furui (2003b) initiated the first
complete Thai spoken dialogue system in the domain of
hotel reservation. Their subsequent works investigated a
novel spoken language understanding (SLU) component
(Wutiwiwatchai and Furui, 2006; Wutiwiwatchai and
Furui, 2003a; Wutiwiwatchai and Furui, 2004a), which
was suitable for languages with weak grammars such as
Thai. The SLU model consisted of three parts: concept
extraction based on weighted finite-state automata; goal
identification using a pattern classifier; and, concept-value
extraction based on simple rules. The model was claimed
to be able to handle sentences with highly flexible grammar.
Moreover, the SLU model can be trained by a
partially annotated corpus and hence is expected to be
applicable to other languages and dialogue domains as
well. A more efficient method of concept extraction introduced
in their subsequent work was a hybrid statistical
and structural semantic model, which was implemented
on the basis of weighted finite-state automata (Wutiwiwatchai
and Furui, 2004b).
In 2005, Suchato et al. (2005) set up another Thai spoken
dialogue system in the domain of call routing, which
helped connect a desired person to a customer. They evaluated
two dialogue flows, a one-step request where the
customer input both the contact name and his/her
department, and a two-step request where the name of
the department needed to be input prior to the name of
the person within that department. Although the system
was simple, it showed a higher potential for the use of this
speech recognition engine over a telephone network.
6.2. Speech translation
An important pioneering work proposed by Schultz
et al. (2004) was an English–Thai speech-to-speech translation
system in the medical diagnosis domain. The paper
described a two-way speech-to-speech translation system
between Thai and English for dialogues in the limited
medical domain, where the English speaker was a doctor
and the Thai speaker was a patient. The system consisted
of three major parts, speech recognition, language translation,
and speech synthesis. A Thai speech recognizer was
built using a seed multi-lingual acoustic model and
retrained by the hotel reservation speech utterances taken
from the NECTEC-ATR speech corpus, disregarding tone
information. The lexicon used for ASR contained 734
words in the medical diagnosis domain. The recognizer,
which had been evaluated with speech utterances from
the same domain, achieved 85% word accuracy. For language
translation, text in the source language was parsed
and converted to an interlingua via machine translation
using the Interchange Format (IF), and target-language
sentences were generated from the parsed result. The IF
was customized to cope with Thai syntax. Three Thaispecific
characteristics were addressed in the IF; the use
of a special term to indicate the gender of a person, affirmation
expressions having meanings other than simply ‘‘yes’’,
and the separation of words from the main verb to indicate
feasibility and other modalities. To generate Thai sentences,
manually written semantic/syntactic grammars
and lexicons were employed. In the Thai speech synthesizer,
a limited-domain Festival system covering 522 words
was created. It contained 235 sentences selected from the
hotel reservation part of the NECTEC-ATR corpus (Black
and Lenzo, 2000). A year later, a particular investigation to
improve the ASR part of the system was made (Suebvisai
et al., 2005). An optimized ASR module was acoustically
trained with a joint set which comprised the Thai GlobalPhone
corpus and Thai Babylon Medical-domain corpus.
Rather than a single pronunciation dictionary, a multivariant
dictionary was created using simple rules such as
omitting the difference between /l/ and /r/. Incorporating
tone features into ASR gave no clear improvement. The
best ASR module achieved 18.2% word error rate.
6.3. Speaker recognition
Research works on text-dependent speaker identification
(Kasuriya et al., 2001; Wutiwiwatchai et al., 1999)
and speaker verification (Wutiwiwatchai et al., 2001) using
Thai utterances have also been carried out. However, the
algorithms used have been mostly language-independent.
Several pattern matching algorithms such as DTW,
HMM, and Gaussian mixture model (GMM) have been
applied with some well-known speech features, such as
MFCC and linear prediction coefficients (LPC). Only one
paper concerning Thai thus far, by Tanprasert et al.
(1999), has been presented. They conducted a speaker-identification
experiment using text prompts with different
tones. Six text prompts, one for each of the five Thai tones
and one for mixed tones, were read by speakers. This
experiment clearly showed that a text with mixed tones
was the most effective for speaker recognition.
7. Language resources
Kawtrakul et al. (2002) summarized Thai language
resources which are used mainly for text processing. This
section extends that summary by reviewing both Thai text
and speech resources. Dictionaries which are a fundamental
resource for language processing are also mentioned at
the end of this section.
7.1. Text resources
Table 5 gives details for some Thai text corpora mainly
used for language processing research. The NECTEC
ORCHID corpus (Charoenporn et al., 1997) is a medium
size text resource with several annotations including
Table 5
Thai text resources
Corpus Organization Size Details
ORCHID NECTEC 568,316
words
– Thai junior encyclopedias
and NECTEC technical
papers
– Sentence/word segmentation
– Part-of-speech tagged
NAiST
corpus
Kasetsart
University
60,511,974
words
– Magazines
– Sentence/word segmentation
part-of-speech (POS), word and sentence boundaries, and
pronunciation. It contains approximately 43,000 sentences
covering 570,000 words from Thai junior encyclopedias
and NECTEC technical papers. ORCHID has been widely
exploited in many areas of Thai language processing and
also has been used as the original text source for several
speech corpora such as a phonetically-balanced set
(Wutiwiwatchai et al., 2002) and a prosody-annotated
corpus for speech synthesis, named TSynC (Hansakunbuntheung
et al., 2003b).
The NAiST text corpus (Kawtrakul, 1995) was created
with the primary aim of collecting magazine documents
for training and evaluating a writing assistance system.
The system functioned to assist writers in proofing their
documents. It is a very large text database with word and
sentence boundary tags. It has also been employed in other
research such as Thai noun phrase analysis (Pengphon
et al., 2002) and named entity recognition (Chanlekha
et al., 2002).
7.2. Speech resources
There are only a few research sites that have consistently
contributed to speech research and published papers
describing the development and assessment of Thai speech
corpora. Most research sites have developed their own inhouse
corpora which have not been publicly distributed.
Table 6 summarizes the current available Thai speech
resources. The first corpus, namely the ThaiARC, has
provided a set of digitized audio in various styles of Thai
speech such as royal speeches, academic lectures, and oral
literatures. The purpose of the corpus, however, is linguistic
learning, not speech processing.
The speech technology section of NECTEC is one major
organization that develops large Thai speech resources
(Shuichi et al., 2000; Sornlertlamvanich and Thongprasirt,
2001). A progress report of the project was given in 2002
(Thongprasert et al., 2002). In the same year, Wutiwiwatchai
et al. (2002) presented a procedure to select a phonetically-balanced
sentence set, creating a subset extracted
from several continuous speech recognition corpora developed
in NECTEC. Tarsaku and Kanokphara (2002) constructed
a semi-automatic tool for phoneme-boundary
annotation. Regarding corpora for speech recognition
research, two corpora of NECTEC have been described
in two separately published papers. The first one, namely
the NECTEC-ATR Thai speech corpus (Kasuriya et al.,
2003a), was made under the collaboration of NECTEC
and ATR in Japan. It contained three sets: a set of 5000
frequently used words, a set of phonetically balanced sentences,
and a set of hotel reservation dialogues. The other
Table 6
Thai speech resources
Corpus Organization Purpose Details
ThaiARC (http://
thaiarc.tu.ac.th)
Thammasat
University
An archive of Thai digitized audio/
speech for learning purpose
– Samples of Thai dialects
– Samples of various Thai speech styles
– Samples of Thai regional folktales
– Samples of Thai poetry
NECTEC-ATR NECTEC Various Thai speech utterances for
ASR research
– Financial support by ATR, Japan
– A set of 5000 frequently-used words
– A set of phonetically-balanced sentences
– A set of hotel reservation dialogues
– 54 h from 48 speakers (24 males/24 females), reading
style in a clean environment
LOTUS (http://
www.nectec.or.th/rdi/lotus)
NECTEC Well-designed speech utterances
for 5000-word dictaion systems
– A set of phonetically-distributed sentences
– Three 5000-word covered sets for training, development
testing, and evaluation testing
– 70 h from 48 speakers (24 males/24 females), reading
style in clean and office environments
TSynC-1 NECTEC Corpus-based unit-selection Thai
speech synthesis
– Triphone and tritone-coverage speech utterances
– 13 h from a fluent-speaking female speaker
– Prosody-tags prepared for corpus-based unit-selection
speech synthesis
GlobalPhone (http://
www.cs.cmu.edu/~tanja/
GlobalPhone)
Canegie Mellon
University
Multilingual speech corpus for
LVCSR systems
– Newspaper reading
– Over 300 h from 1500 native speakers of more than 15
languages
– For Thai, 20 h from 90 native speakers covering 14,039
sentences, 260,000 words, and 7400 distinctive words
corpus, LOTUS, was the first Thai large vocabulary continuous
spee
อย่างไรก็ตาม มีมูลค่ากล่าวถึงที่นี่ตรวจทานเสร็จสมบูรณ์เทคโนโลยีเสียงที่ประเมิน ด้วยข้อมูลเสียงไทย6.1 การสนทนาระบบWutiwiwatchai และ Furui (2003b) เริ่มแรกทำระบบสนทนาไทยในโดเมนของจองห้องพัก ตรวจสอบการปฏิบัติงานภายหลังการนวนิยายพูดภาษาเข้าใจ (SLU) ส่วนประกอบ(Wutiwiwatchai และ Furui, 2006 Wutiwiwatchai และFurui, 2003a Wutiwiwatchai และ Furui, 2004a), ซึ่งไม่เหมาะกับ grammars อ่อนแอเช่นไทย รุ่น SLU ประกอบด้วย 3 ส่วน: แนวคิดแยกตามออโตมาตาสถานะจำกัดน้ำหนัก เป้าหมายรหัสที่ใช้ classifier รูปแบบ และ แนวคิดค่าแยกตามกติกาง่าย ๆ แบบจำลองถูกอ้างสามารถจัดการกับประโยค มีไวยากรณ์ที่มีความยืดหยุ่นสูงนอกจากนี้ รุ่น SLU สามารถรับคำสอนโดยการบางส่วนของการใส่คำอธิบายประกอบคอร์พัสคริ และดังนั้น คาดว่าจะใช้กับภาษาอื่น ๆ และโดเมนโต้เป็นดี วิธีการสกัดแนวคิดที่นำมาใช้มีประสิทธิภาพมากขึ้นในการทำงานของพวกเขาต่อมาถูกผสมทางสถิติและโครงสร้างทางตรรก ซึ่งได้ดำเนินการโดยออโตมาตาสถานะจำกัดถ่วงน้ำหนัก (Wutiwiwatchaiก Furui, 2004b)ในปี 2005, Suchato et al. (2005) ตั้งค่าพูดไทยอีกบทสนทนาระบบในโดเมนของการเรียกสาย การช่วยเชื่อมต่อผู้ที่ต้องการ จะมีประเมินสองโต้ไหล คำขอขั้นตอนเดียวเป็นการลูกค้าป้อนข้อมูลชื่อผู้ติดต่อทั้งสอง และเขา/เธอแผนก และสองขั้นตอนการร้องขอชื่อต้องป้อนก่อนชื่อของแผนกบุคคลในแผนกนั้น ๆ แม้ว่าระบบนำ พบว่ามีศักยภาพสูงในการใช้งานนี้โปรแกรมการรู้จำเสียงผ่านเครือข่ายโทรศัพท์6.2 การพูดแปลสำคัญการทำงานเสนอ โดย Schultzal. ร้อยเอ็ด (2004) ถูกแปลเป็นคำพูดคำพูดอังกฤษ – ไทยระบบในโดเมนการวินิจฉัยทางการแพทย์ กระดาษอธิบายระบบสองทางคำพูดพูดแปลระหว่างไทยและอังกฤษสำหรับประเด็นในการจำกัดโดเมนทางการแพทย์ ที่พูดภาษาอังกฤษได้เป็นหมอและลำโพงไทยมีผู้ป่วย ระบบประกอบด้วยสามส่วนสำคัญ รู้ แปลภาษาและการสังเคราะห์เสียงพูด ตัวรู้พูดไทยได้สร้างโดยใช้แบบจำลองระดับบอสเมล็ด และretrained โดย utterances จองโรงแรมพูดมาจากคอร์พัสคริเสียง เนคเทคเอทีอาร์โดยเสียงข้อมูล ปทานุกรมที่ใช้สำหรับ ASR อยู่ 734คำในโดเมนการวินิจฉัยทางการแพทย์ จำแนกซึ่งได้รับการประเมินกับเสียง utterances จากโดเมนเดียวกัน ทำได้ 85% คำความถูกต้อง สำหรับภาษาแปล ข้อความในภาษาต้นฉบับถูกแยกวิเคราะห์และแปลงกับภาษากลางที่ผ่านการแปลภาษาด้วยเครื่องโดยใช้รูปแบบที่แลกเปลี่ยน (ถ้า), และภาษาเป้าหมายมีสร้างประโยคจากแยกวิเคราะห์ผล ถ้าถูกปรับแต่งเพื่อรับมือกับไวยากรณ์ไทย Thaispecific สามลักษณะที่อยู่ใน IF การใช้งานวาระพิเศษเพื่อระบุเพศของบุคคล ยืนยันนิพจน์ที่มีความหมายอื่นมากกว่าเพียงแค่ ''ใช่ '',และแยกคำจากกริยาหลักเพื่อระบุความเป็นไปได้และ modalities อื่น ๆ การสร้างประโยคไทยความหมาย/ทางไวยากรณ์ grammars เขียนด้วยตนเองและ lexicons ที่จ้าง ในการสังเคราะห์เสียงเสียงไทยระบบเทศกาลโดเมนจำกัดครอบคลุมคำ 522ถูกสร้างขึ้น มันประกอบด้วยประโยค 235 ที่เลือกจากการส่วนจองโรงแรมคอร์พัสคริเอทีอาร์ NECTEC (ดำก Lenzo, 2000) ปีภายหลัง การตรวจสอบเฉพาะการปรับปรุงการ ASR ส่วนของระบบทำ (Suebvisaiร้อยเอ็ด al., 2005) โมดูลการ ASR ให้เหมาะถูก acousticallyการฝึกอบรม ด้วยชุดร่วมซึ่งประกอบด้วย GlobalPhone ไทยคอร์พัสคริและคอร์พัสคริบาบิโลนไทยรักษาโดเมนแทนเดียว พจนานุกรมการออกเสียง การ multivariantสร้างพจนานุกรมที่ใช้กฎง่าย ๆ เช่นละเว้นความแตกต่างระหว่าง /l/ และ r / เพจคุณลักษณะเสียงใน ASR ให้ไม่ ที่โมดูล ASR สุดบรรลุอัตราข้อผิดพลาดคำ 18.2%6.3. ลำโพงรู้งานวิจัยระบุลำโพงขึ้นอยู่กับข้อความ(Kasuriya et al., 2001 Wutiwiwatchai et al., 1999)และใช้การตรวจสอบลำโพง (Wutiwiwatchai และ al., 2001)Utterances ไทยมียังการดำเนินงาน อย่างไรก็ตาม การอัลกอริทึมที่ใช้แล้วส่วนใหญ่เป็นภาษาอิสระSeveral pattern matching algorithms such as DTW,HMM, and Gaussian mixture model (GMM) have beenapplied with some well-known speech features, such asMFCC and linear prediction coefficients (LPC). Only onepaper concerning Thai thus far, by Tanprasert et al.(1999), has been presented. They conducted a speaker-identificationexperiment using text prompts with differenttones. Six text prompts, one for each of the five Thai tonesand one for mixed tones, were read by speakers. Thisexperiment clearly showed that a text with mixed toneswas the most effective for speaker recognition.7. Language resourcesKawtrakul et al. (2002) summarized Thai languageresources which are used mainly for text processing. Thissection extends that summary by reviewing both Thai textand speech resources. Dictionaries which are a fundamentalresource for language processing are also mentioned atthe end of this section.7.1. Text resourcesTable 5 gives details for some Thai text corpora mainlyused for language processing research. The NECTECORCHID corpus (Charoenporn et al., 1997) is a mediumsize text resource with several annotations includingTable 5Thai text resourcesCorpus Organization Size DetailsORCHID NECTEC 568,316words– Thai junior encyclopediasand NECTEC technicalpapers– Sentence/word segmentation– Part-of-speech taggedNAiSTcorpusKasetsartUniversity60,511,974words– Magazines– Sentence/word segmentationpart-of-speech (POS), word and sentence boundaries, andpronunciation. It contains approximately 43,000 sentencescovering 570,000 words from Thai junior encyclopediasand NECTEC technical papers. ORCHID has been widelyexploited in many areas of Thai language processing andalso has been used as the original text source for severalspeech corpora such as a phonetically-balanced set(Wutiwiwatchai et al., 2002) and a prosody-annotatedcorpus for speech synthesis, named TSynC (Hansakunbuntheunget al., 2003b).The NAiST text corpus (Kawtrakul, 1995) was createdwith the primary aim of collecting magazine documentsfor training and evaluating a writing assistance system.The system functioned to assist writers in proofing theirdocuments. It is a very large text database with word andsentence boundary tags. It has also been employed in otherresearch such as Thai noun phrase analysis (Pengphonet al., 2002) and named entity recognition (Chanlekhaet al., 2002).7.2. Speech resourcesThere are only a few research sites that have consistentlycontributed to speech research and published papersdescribing the development and assessment of Thai speechcorpora. Most research sites have developed their own inhousecorpora which have not been publicly distributed.Table 6 summarizes the current available Thai speechresources. The first corpus, namely the ThaiARC, hasprovided a set of digitized audio in various styles of Thaispeech such as royal speeches, academic lectures, and oralliteratures. The purpose of the corpus, however, is linguisticlearning, not speech processing.The speech technology section of NECTEC is one majororganization that develops large Thai speech resources(Shuichi et al., 2000; Sornlertlamvanich and Thongprasirt,2001). A progress report of the project was given in 2002(Thongprasert et al., 2002). In the same year, Wutiwiwatchaiet al. (2002) presented a procedure to select a phonetically-balancedsentence set, creating a subset extractedfrom several continuous speech recognition corpora developedin NECTEC. Tarsaku and Kanokphara (2002) constructeda semi-automatic tool for phoneme-boundaryannotation. Regarding corpora for speech recognitionresearch, two corpora of NECTEC have been describedin two separately published papers. The first one, namelythe NECTEC-ATR Thai speech corpus (Kasuriya et al.,2003a), was made under the collaboration of NECTECand ATR in Japan. It contained three sets: a set of 5000frequently used words, a set of phonetically balanced sentences,and a set of hotel reservation dialogues. The otherTable 6Thai speech resourcesCorpus Organization Purpose DetailsThaiARC (http://thaiarc.tu.ac.th)ThammasatUniversityAn archive of Thai digitized audio/speech for learning purpose– Samples of Thai dialects– Samples of various Thai speech styles– Samples of Thai regional folktales– Samples of Thai poetry
NECTEC-ATR NECTEC Various Thai speech utterances for
ASR research
– Financial support by ATR, Japan
– A set of 5000 frequently-used words
– A set of phonetically-balanced sentences
– A set of hotel reservation dialogues
– 54 h from 48 speakers (24 males/24 females), reading
style in a clean environment
LOTUS (http://
www.nectec.or.th/rdi/lotus)
NECTEC Well-designed speech utterances
for 5000-word dictaion systems
– A set of phonetically-distributed sentences
– Three 5000-word covered sets for training, development
testing, and evaluation testing
– 70 h from 48 speakers (24 males/24 females), reading
style in clean and office environments
TSynC-1 NECTEC Corpus-based unit-selection Thai
speech synthesis
– Triphone and tritone-coverage speech utterances
– 13 h from a fluent-speaking female speaker
– Prosody-tags prepared for corpus-based unit-selection
speech synthesis
GlobalPhone (http://
www.cs.cmu.edu/~tanja/
GlobalPhone)
Canegie Mellon
University
Multilingual speech corpus for
LVCSR systems
– Newspaper reading
– Over 300 h from 1500 native speakers of more than 15
languages
– For Thai, 20 h from 90 native speakers covering 14,039
sentences, 260,000 words, and 7400 distinctive words
corpus, LOTUS, was the first Thai large vocabulary continuous
spee
การแปล กรุณารอสักครู่..

แต่ก็เป็นมูลค่าการกล่าวขวัญที่นี่สำหรับความคิดเห็นที่สมบูรณ์ของเทคโนโลยีเสียงพูดการประเมินกับข้อมูลเสียงพูดภาษาไทย.
6.1 ระบบการสนทนาพูด
Wutiwiwatchai และ Furui (2003b) เริ่มแรกที่สมบูรณ์แบบไทยพูดบทสนทนาในระบบโดเมนของการจองโรงแรม ผลงานของพวกเขาที่ตามมาสอบสวนความเข้าใจภาษาพูดนวนิยาย (SLU) ส่วนประกอบ (Wutiwiwatchai และ Furui 2006; Wutiwiwatchai และFurui, 2003a; Wutiwiwatchai และ Furui, 2004a) ซึ่งเป็นที่เหมาะสมสำหรับภาษาที่มีไวยากรณ์ที่อ่อนแอเช่นไทย รูปแบบ SLU ประกอบด้วยสามส่วนคือแนวคิดการสกัดขึ้นอยู่กับออโตจำกัด รัฐถ่วงน้ำหนัก; เป้าหมายการระบุการใช้ลักษณนามรูปแบบ; และแนวความคิดที่มีมูลค่าการสกัดบนพื้นฐานของกฎง่ายๆ รูปแบบที่ได้รับการอ้างว่าจะสามารถที่จะจัดการกับประโยคที่มีความยืดหยุ่นสูงไวยากรณ์. นอกจากนี้ยังมีรูปแบบการ SLU สามารถผ่านการฝึกอบรมโดยคลังข้อเขียนบางส่วนและด้วยเหตุนี้คาดว่าจะมีผลบังคับใช้กับภาษาอื่นๆ และการเจรจาโดเมนเป็นอย่างดี วิธีที่มีประสิทธิภาพมากขึ้นของแนวคิดการสกัดนำมาใช้ในการทำงานของพวกเขาที่ตามมาเป็นไฮบริดทางสถิติและโครงสร้างรูปแบบความหมายที่ถูกนำมาใช้บนพื้นฐานของออโตจำกัด รัฐถ่วงน้ำหนัก (Wutiwiwatchai และ Furui, 2004b). ในปี 2005 สุชาโต et al, (2005) การตั้งค่าอื่นพูดไทยระบบการสนทนาในโดเมนของการกำหนดเส้นทางสายซึ่งช่วยเชื่อมต่อเป็นคนที่ต้องการให้กับลูกค้า พวกเขาได้รับการประเมินทั้งสองไหลเจรจาขอขั้นตอนเดียวที่ป้อนข้อมูลลูกค้าทั้งชื่อติดต่อและของเขา/ เธอสรรพสินค้าและการร้องขอที่สองขั้นตอนที่ชื่อของฝ่ายที่จำเป็นในการป้อนข้อมูลก่อนที่จะมีชื่อของคนที่อยู่ในนั้นแผนก แม้ว่าระบบได้ง่ายมันแสดงให้เห็นศักยภาพที่สูงขึ้นสำหรับการใช้งานของนี้การรู้จำเสียงผ่านเครือข่ายโทรศัพท์. 6.2 แปลคำพูดของงานที่เป็นผู้บุกเบิกที่สำคัญที่เสนอโดยชูลท์ซและอัล (2004) เป็นภาษาอังกฤษเป็นภาษาไทยคำพูดเป็นคำพูดแปลระบบในโดเมนการวินิจฉัยทางการแพทย์ กระดาษที่อธิบายไว้สองทางคำพูดเป็นคำพูดระบบการแปลระหว่างภาษาไทยและภาษาอังกฤษเพื่อหารือในที่จำกัดโดเมนทางการแพทย์ที่พูดภาษาอังกฤษเป็นหมอและลำโพงไทยเป็นผู้ป่วย ระบบประกอบด้วยสามส่วนใหญ่รู้จำเสียงพูด, การแปลภาษาและการสังเคราะห์เสียงพูด รู้จำเสียงพูดภาษาไทยได้ถูกสร้างขึ้นโดยใช้เมล็ดรูปแบบอะคูสติกได้หลายภาษาและการฝึกอบรมจากคำพูดคำพูดการจองโรงแรมที่นำมาจากคำพูดของเนคเทคคอร์ปัสATR-ไม่คำนึงถึงเสียงข้อมูล ศัพท์ที่ใช้สำหรับ ASR มี 734 คำในโดเมนการวินิจฉัยทางการแพทย์ จำแนก, ซึ่งได้รับการประเมินด้วยคำพูดคำพูดจากโดเมนเดียวกันประสบความสำเร็จในความถูกต้องของคำว่า 85% สำหรับภาษาแปลข้อความในภาษาต้นฉบับที่ถูกแยกและแปลงนานาชาติผ่านเครื่องแปลภาษาโดยใช้รูปแบบการแลกเปลี่ยน(IF) และเป้าหมายภาษาประโยคที่ถูกสร้างขึ้นจากผลการแยกวิเคราะห์ ถ้าได้รับการปรับแต่งเพื่อให้รับมือกับไวยากรณ์ไทย สาม Thaispecific ลักษณะถูกแก้ไขใน IF; การใช้งานของคำพิเศษเพื่อบ่งชี้ถึงเพศของบุคคลที่ยืนยันการแสดงออกที่มีความหมายอื่นที่ไม่ใช่เพียง'' ใช่ '', และการแยกของคำจากคำกริยาหลักที่จะบ่งบอกถึงความเป็นไปได้และรังสีอื่น ๆ เพื่อสร้างประโยคภาษาไทยที่เขียนด้วยตนเองไวยากรณ์ความหมาย / ประโยคและคำศัพท์ที่ถูกว่าจ้าง ในการสังเคราะห์เสียงพูดภาษาไทย, ระบบเทศกาล จำกัด โดเมนครอบคลุม 522 คำที่ถูกสร้างขึ้น มันมี 235 ประโยคเลือกจากส่วนการจองโรงแรมของเนคเทคคอร์ปัส-ATR (สีดำและ Lenzo, 2000) หนึ่งปีต่อมาการสืบสวนโดยเฉพาะอย่างยิ่งในการปรับปรุงส่วน ASR ระบบที่ถูกสร้างขึ้น (Suebvisai et al., 2005) โมดูล ASR ที่ดีที่สุดได้รับเสียงผ่านการฝึกอบรมกับชุดทุนซึ่งประกอบด้วยGlobalPhone ไทยคอร์ปัสไทยและบาบิโลนคลังแพทย์โดเมน. แทนที่จะพจนานุกรมการออกเสียงเดียว multivariant พจนานุกรมที่ถูกสร้างขึ้นโดยใช้กฎง่ายๆเช่นถนัดแตกต่างระหว่าง / ลิตร / และ / R / ผสมผสานคุณสมบัติเสียงเข้า ASR ไม่มีการปรับปรุงให้ชัดเจน โมดูล ASR ประสบความสำเร็จที่ดีที่สุดอัตราความผิดพลาดคำ 18.2%. 6.3 ได้รับการยอมรับลำโพงวิจัยทำงานบนบัตรประจำตัวลำโพงข้อความขึ้นอยู่กับ(Kasuriya et al, 2001;.. Wutiwiwatchai, et al, 1999) และการตรวจสอบลำโพง (. Wutiwiwatchai, et al, 2001) โดยใช้คำพูดไทยยังได้รับการดำเนินการ อย่างไรก็ตามขั้นตอนวิธีการใช้ที่ได้รับส่วนใหญ่เป็นภาษาอิสระ. รูปแบบหลายขั้นตอนวิธีการจับคู่เช่น DTW, อืม, และรูปแบบการผสมแบบเกาส์ (GMM) ได้รับนำไปใช้ด้วยคุณสมบัติที่มีคำพูดบางอย่างที่รู้จักกันดีเช่นMFCC และค่าสัมประสิทธิ์การทำนายเชิงเส้น (LPC) . เพียงคนเดียวที่กระดาษเกี่ยวกับไทยป่านนี้โดย Tanprasert et al. (1999) ได้รับการเสนอ พวกเขาดำเนินการลำโพงประจำตัวประชาชนทดลองใช้ข้อความแจ้งให้กับที่แตกต่างกันเสียง หกแจ้งข้อความหนึ่งสำหรับแต่ละห้าเสียงไทยและหนึ่งสำหรับโทนสีผสมถูกอ่านโดยเจ้าของ นี้การทดลองอย่างชัดเจนแสดงให้เห็นว่าข้อความที่มีโทนสีผสมเป็นมีประสิทธิภาพมากที่สุดสำหรับการรับรู้ลำโพง. 7 ทรัพยากรภาษาก่อตระกูล et al, (2002) สรุปภาษาไทยทรัพยากรซึ่งส่วนใหญ่จะใช้สำหรับการประมวลผลข้อความ นี้ส่วนขยายสรุปว่าโดยการตรวจสอบทั้งข้อความภาษาไทยและทรัพยากรการพูด พจนานุกรมที่มีพื้นฐานทรัพยากรสำหรับการประมวลผลภาษายังกล่าวถึงในตอนท้ายของส่วนนี้. 7.1 ทรัพยากรข้อความตารางที่ 5 ให้รายละเอียดสำหรับคลังข้อความภาษาไทยบางคนส่วนใหญ่ใช้สำหรับการวิจัยการประมวลผลภาษา เนคเทคคอร์ปัสออร์คิด (. เจริญพร, et al, 1997) เป็นสื่อทรัพยากรข้อความขนาดที่มีคำอธิบายประกอบหลายคนรวมทั้งตารางที่5 ทรัพยากรข้อความภาษาไทยคอร์ปัสองค์การขนาดรายละเอียดORCHID เนคเทค 568,316 คำ- สารานุกรมจูเนียร์ไทยและเทคนิคการเนคเทคเอกสาร- ประโยค / ตัดคำ- ส่วนที่ -of เป็นคำพูดที่ติดแท็กNAiST คลังเกษตรศาสตร์มหาวิทยาลัย60,511,974 คำ- นิตยสาร- ประโยค / ตัดคำเป็นส่วนหนึ่งของคำพูด(POS), ขอบเขตของคำและประโยคและการออกเสียง มันมีประมาณ 43,000 ประโยคครอบคลุม570,000 คำจากสารานุกรมไทยจูเนียร์และเอกสารทางเทคนิคที่เนคเทค กล้วยไม้ที่ได้รับการยอมรับอย่างกว้างขวางใช้ประโยชน์ในหลายพื้นที่ของการประมวลผลภาษาไทยและยังได้ถูกใช้เป็นแหล่งที่มาของข้อความที่เดิมเป็นเวลาหลายคลังคำพูดดังกล่าวเป็นชุดอัยการสมดุล(Wutiwiwatchai et al., 2002) และฉันทลักษณ์-ข้อเขียนคลังสำหรับการสังเคราะห์เสียงพูดชื่อ TSynC (Hansakunbuntheung et al., 2003b). คลังข้อความ NAiST (ก่อตระกูล, 1995) ที่ถูกสร้างขึ้นโดยมีจุดประสงค์หลักของการเก็บรวบรวมเอกสารนิตยสารสำหรับการฝึกอบรมและการประเมินผลระบบการช่วยเหลือเกี่ยวกับการเขียน. ระบบทำหน้าที่ให้ความช่วยเหลือนักเขียนในการตรวจสอบของพวกเขาเอกสาร. มันเป็นฐานข้อมูลข้อความขนาดใหญ่มากกับคำพูดและแท็กขอบเขตประโยค ก็ยังได้รับการจ้างงานคนอื่น ๆ ในการวิจัยเช่นการวิเคราะห์คำนามวลีไทย(Pengphon et al., 2002) และการรับรู้ชื่อนิติบุคคล (Chanlekha et al., 2002). 7.2 ทรัพยากรการพูดมีเพียงไม่กี่เว็บไซต์การวิจัยที่มีอย่างต่อเนื่องสนับสนุนการวิจัยการพูดและเอกสารเผยแพร่การอธิบายการพัฒนาและการประเมินผลการพูดไทยcorpora เว็บไซต์การวิจัยส่วนใหญ่ได้มีการพัฒนาของตัวเองชมในห้องพักคลังที่ยังไม่ได้รับการแจกจ่ายต่อสาธารณชน. ตารางที่ 6 สรุปในปัจจุบันที่มีอยู่เสียงพูดภาษาไทยทรัพยากร คลังแรกคือ ThaiARC ได้ให้ชุดของเสียงดิจิตอลในรูปแบบต่างๆ ของไทยการพูดเช่นการกล่าวสุนทรพจน์พระราชบรรยายทางวิชาการและในช่องปากวรรณกรรม วัตถุประสงค์ของคลัง แต่เป็นภาษาการเรียนรู้ไม่ได้ประมวลผลคำพูด. ส่วนเทคโนโลยีเสียงพูดของเนคเทคเป็นหนึ่งที่สำคัญขององค์กรที่พัฒนาทรัพยากรเสียงพูดภาษาไทยขนาดใหญ่(Shuichi et al, 2000;. Sornlertlamvanich และ Thongprasirt, 2001) รายงานความคืบหน้าของโครงการที่ได้รับในปี 2002 (ทองประเสริฐ et al., 2002) ในปีเดียวกัน Wutiwiwatchai et al, (2002) นำเสนอขั้นตอนการเลือกอัยการสมดุลชุดประโยคสร้างย่อยที่แยกจากการรับรู้เสียงพูดต่อเนื่องหลายcorpora พัฒนาในเนคเทค Tarsaku และ Kanokphara (2002) สร้างเครื่องมือกึ่งอัตโนมัติสำหรับฟอนิมเขตแดนคำอธิบายประกอบ เกี่ยวกับคลังสำหรับการรู้จำเสียงวิจัยสองคลังของเนคเทคได้รับการอธิบายในสองเอกสารเผยแพร่แยกต่างหาก คนแรกคือเนคเทค ATR-คลังเสียงพูดภาษาไทย (Kasuriya et al., 2003a) ถูกสร้างขึ้นภายใต้ความร่วมมือของเนคเทคและเอทีอาร์ในประเทศญี่ปุ่น มันมีสามชุด: ชุดของ 5000 คำที่ใช้บ่อยชุดของประโยคที่สมดุลอัยการที่และชุดของการหารือการจองห้องพักโรงแรม อื่น ๆตารางที่ 6 ไทยทรัพยากรการพูดวัตถุประสงค์ Corpus องค์การรายละเอียด ThaiARC (http: // thaiarc.tu.ac.th) ธรรมศาสตร์มหาวิทยาลัยที่เก็บถาวรของดิจิตอลเสียงไทย/ คำพูดเพื่อจุดประสงค์ในการเรียนรู้ตัวอย่าง - ภาษาไทย - ตัวอย่างของรูปแบบเสียงพูดภาษาไทยต่างๆ- ตัวอย่างนิทานพื้นบ้านระดับภูมิภาคไทย- ตัวอย่างของบทกวีไทยNECTEC-ATR เนคเทคต่างๆคำพูดเสียงพูดภาษาไทยสำหรับการวิจัยASR - การสนับสนุนทางการเงินโดย ATR ญี่ปุ่น- ชุด 5000 คำที่ใช้บ่อย- ชุดของประโยคอัยการสมดุล- ชุดของ หารือการจองโรงแรม- 54 ชั่วโมง 48 จากลำโพง (24 เพศชาย / หญิง 24) การอ่านในรูปแบบของสภาพแวดล้อมที่สะอาดLOTUS (http: // www.nectec.or.th/rdi/lotus) เนคเทคการออกแบบที่ดีคำพูดคำพูดสำหรับ 5000- คำระบบ dictaion - ชุดของประโยคอัยการ-การกระจาย- สาม 5000 คำปกคลุมชุดสำหรับการฝึกอบรมการพัฒนาการทดสอบการทดสอบและประเมินผล- 70 ชั่วโมง 48 จากลำโพง (24 เพศชาย / หญิง 24) การอ่านรูปแบบในสภาพแวดล้อมที่สะอาดและสำนักงานTSynC- เนคเทคคอร์ปัส 1 ตามหน่วยเลือกไทยสังเคราะห์เสียงพูด- triphone และคำพูดคำพูด Tritone คุ้มครอง- 13 ชั่วโมงจากการพูดภาษาที่พูดลำโพงหญิง- ฉันทลักษณ์แท็กเตรียมไว้สำหรับคลังตามหน่วยเลือกการสังเคราะห์เสียงพูดGlobalPhone (http: // www .cs.cmu.edu / ~ Tanja / GlobalPhone) Canegie เมลลอนมหาวิทยาลัยหลายภาษาคลังคำพูดสำหรับระบบกลุ่มที่สอง- การอ่านหนังสือพิมพ์- กว่า 300 ชั่วโมงจาก 1,500 เจ้าของภาษากว่า 15 ภาษา- สำหรับไทย 20 ชั่วโมงจาก 90 ภาษาครอบคลุม 14,039 ประโยค , 260,000 คำและคำพูดที่โดดเด่น 7400 คลัง, LOTUS, เป็นคำศัพท์ที่มีขนาดใหญ่เป็นครั้งแรกของไทยอย่างต่อเนื่องSpee
การแปล กรุณารอสักครู่..
