Some previous works in speech recog

Some previous works in speech recognition system for tonal languages were proposed in order to improve the performance of speech recognition using additional information such as tone features. Previous experiment results showed that using tone features as additional inputs for training the acoustic model yielded higher accuracy compared to the baseline system for Thai [1] and Mandarin news broadcast speech recognition [2]. The method of context-independent acoustic model for Thai language has also been investigated [3]. The method of creating an acoustic model is considered to enhance the performance of learning from speech data. Hidden Markov Model (HMM) is well-known and popular in acoustic training data. The parameters of the model can be estimated and adapted automatically to give optimal performance. Although, HMMs are effective approaches to the problems of acoustic modeling, they also suffer from some limitations, for example, HMMs assumes the duration of exponential distribution, the transition
probability depends only on the origin and destination, and all observation frames are dependent only on the state that generated them, not on neighboring observation frames. Furthermore, Gaussian Mixture Models (GMMs) are powerful when generating statistic values in the HMM frameworks. Neural networks have been used also in speech recognition with forward-backward probability generated targets [4],[5]. However, the connectionistHMM framework which uses neural networks to generate the output posterior probabilities, which can be used to replace the GMMs acoustic model with a neural network to estimate the posterior probabilities of phonetic unit given the input vector of context window frames [6],[7]. It can be applied for continuous speech recognition [8] or integration with fuzzy logic in Arabic speech recognition [9]. To determine the model, first order left to right HMM models with self loops are generally used for acoustic models. An efficiency model for speech utterance is the Continuous Density Hidden Markov Model (CDHMM) which is suitable for describing the speech events [10]. In this paper, the state emission probabilities are estimated with an Artificial Neural Network particularly Multi-Layer Perceptrons (MLPs) so called Hybrid MLP-HMM in order to improve the performance of speech recognition over the HMM framework. The state emission probabilities of phoneme HMM will be estimated from the output node of the MLP. Then Viterbi algorithm is employed to be used as the decoder. Tone features are extracted from speech signal and classified by MLP as additional feature for tonal languages. The comparison of the baseline system is tested with different configurations, such as tone features and a number of hidden layers in the MLP classifier throughout the experiments.
The rest of this paper is organized as follows. In Section 2, a review of the Thai phonetic system is presented. In Section 3, the proposed framework consisting of a hybrid MLP-HMM and tone recognition will be introduced. The experiment and results are described in Section 4. Section 5 gives the conclusion.

Some previous works in speech recognition system for tonal languages were proposed in order to improve the performance of speech recognition using additional information such as tone features. Previous experiment results showed that using tone features as additional inputs for training the acoustic model yielded higher accuracy compared to the baseline system for Thai [1] and Mandarin news broadcast speech recognition [2]. The method of context-independent acoustic model for Thai language has also been investigated [3]. The method of creating an acoustic model is considered to enhance the performance of learning from speech data. Hidden Markov Model (HMM) is well-known and popular in acoustic training data. The parameters of the model can be estimated and adapted automatically to give optimal performance. Although, HMMs are effective approaches to the problems of acoustic modeling, they also suffer from some limitations, for example, HMMs assumes the duration of exponential distribution, the transition 
probability depends only on the origin and destination, and all observation frames are dependent only on the state that generated them, not on neighboring observation frames. Furthermore, Gaussian Mixture Models (GMMs) are powerful when generating statistic values in the HMM frameworks. Neural networks have been used also in speech recognition with forward-backward probability generated targets [4],[5]. However, the connectionistHMM framework which uses neural networks to generate the output posterior probabilities, which can be used to replace the GMMs acoustic model with a neural network to estimate the posterior probabilities of phonetic unit given the input vector of context window frames [6],[7]. It can be applied for continuous speech recognition [8] or integration with fuzzy logic in Arabic speech recognition [9]. To determine the model, first order left to right HMM models with self loops are generally used for acoustic models. An efficiency model for speech utterance is the Continuous Density Hidden Markov Model (CDHMM) which is suitable for describing the speech events [10]. In this paper, the state emission probabilities are estimated with an Artificial Neural Network particularly Multi-Layer Perceptrons (MLPs) so called Hybrid MLP-HMM in order to improve the performance of speech recognition over the HMM framework. The state emission probabilities of phoneme HMM will be estimated from the output node of the MLP. Then Viterbi algorithm is employed to be used as the decoder. Tone features are extracted from speech signal and classified by MLP as additional feature for tonal languages. The comparison of the baseline system is tested with different configurations, such as tone features and a number of hidden layers in the MLP classifier throughout the experiments. 
The rest of this paper is organized as follows. In Section 2, a review of the Thai phonetic system is presented. In Section 3, the proposed framework consisting of a hybrid MLP-HMM and tone recognition will be introduced. The experiment and results are described in Section 4. Section 5 gives the conclusion.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

บางงานก่อนหน้านี้ในระบบการรู้จำเสียงภาษาใช้ได้เสนอเพื่อปรับปรุงประสิทธิภาพของการใช้ข้อมูลเพิ่มเติมเช่นเสียงคุณลักษณะการรู้จำเสียง ผลการทดลองก่อนหน้านี้แสดงให้เห็นว่า การใช้คุณลักษณะเสียงเป็นปัจจัยการผลิตเพิ่มเติมสำหรับฝึกแบบอะคูสติกที่ให้ผลถูกต้องสูงเมื่อเทียบกับระบบพื้นฐานในไทย [1] และแมนดารินข่าวออกอากาศรู้ [2] วิธีการแบบอะคูสติกเนื้อหาอิสระสำหรับภาษาไทยยังได้สอบสวน [3] วิธีการสร้างแบบจำลองระดับถือว่าเป็นการเพิ่มประสิทธิภาพการเรียนรู้จากข้อมูลเสียง รุ่น Markov ซ่อน (HMM) ได้รู้จัก และเป็นที่นิยมในข้อมูลการฝึกอบรมระดับ พารามิเตอร์ของแบบจำลองสามารถประเมิน และปรับโดยอัตโนมัติเพื่อให้ประสิทธิภาพสูงสุด แม้ว่า HMMs เป็นวิธีมีประสิทธิภาพปัญหาอคูสติก โมเดล พวกเขายังต้องทนทุกข์ทรมานจากข้อจำกัดบางประการ เช่น HMMs ถือว่าระยะเวลาของเนนการกระจาย การเปลี่ยนแปลง ความน่าเป็นขึ้นอยู่กับต้นทางและปลายทางเท่านั้น และกรอบการสังเกตทั้งหมดจะขึ้นอยู่เฉพาะ ในรัฐที่สร้างไว้ ไม่อยู่ ในกรอบการสังเกตเพื่อนบ้าน นอกจากนี้ รูปแบบส่วนผสม Gaussian (GMMs) จะมีประสิทธิภาพเมื่อสร้างค่าสถิติในกรอบ HMM เครือข่ายประสาทมีการใช้นอกจากนี้ในการรู้จำเสียงมีเป้าหมายสร้างความน่าเป็นไปข้างหน้าย้อนหลัง [4], [5] อย่างไรก็ตาม กรอบ connectionistHMM ซึ่งใช้เครือข่ายประสาทเพื่อสร้างการแสดงผลหลังกิจกรรม ซึ่งสามารถใช้แทนแบบอะคูสติก GMMs มีเครือข่ายประสาทเพื่อประเมินกิจกรรมหลังของหน่วยออกเสียงกำหนดเวกเตอร์อินพุตของบริบทหน้าต่างเฟรม [6], [7] มันสามารถใช้สำหรับการรู้จำเสียงที่ต่อเนื่อง [8] หรือรวมกับตรรกศาสตร์คลุมเครือในการรู้จำเสียงภาษาอาหรับ [9] เพื่อกำหนดรูปแบบ แรกซ้ายขวารุ่น HMM ด้วยตนเองโดยทั่วไปจะใช้ลูปสำหรับรุ่นระดับ แบบจำลองประสิทธิภาพสำหรับ utterance พูดเป็นแบบต่อเนื่องความหนาแน่นซ่อน Markov จำลอง (CDHMM) เหมาะสำหรับอธิบายเหตุการณ์เสียง [10] ในเอกสารนี้ มีประเมินกิจกรรมการปล่อยก๊าซรัฐกับมีโครงข่ายประสาทเทียมโดยเฉพาะอย่างยิ่งหลายชั้น Perceptrons (MLPs) เรียกว่าไฮบริ MLP-HMM เพื่อปรับปรุงประสิทธิภาพของการรู้จำเสียงเหนือกรอบ HMM กิจกรรมปล่อยก๊าซสถานะของหน่วยเสียง HMM ที่จะประเมินจากโหนผลลัพธ์ของการ MLP แล้ว เป็นลูกจ้าง Viterbi อัลกอริทึมที่จะใช้เป็นตัวถอดรหัส เสียงคุณลักษณะดึงข้อมูลจากสัญญาณเสียง และประเภท MLP เป็นคุณลักษณะเพิ่มเติมสำหรับภาษาที่ใช้ มีทดสอบเปรียบเทียบของระบบพื้นฐาน มีค่าแตกต่างกัน เช่นเสียงคุณลักษณะและจำนวนชั้นซ่อนใน classifier MLP ตลอดการทดลอง ส่วนเหลือของเอกสารนี้มีการจัดระเบียบดังนี้ ทบทวนระบบเสียงไทยจะนำเสนอใน 2 ส่วน ใน 3 ส่วน กรอบนำเสนอประกอบด้วยไฮบริด MLP อืมมและการรู้จำเสียงจะแนะนำ ทดลองและผลลัพธ์ไว้ใน 4 ส่วน มาตรา ๕ ให้ข้อสรุป

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

บางผลงานก่อนหน้านี้ในระบบรู้จำเสียงพูดภาษาวรรณยุกต์ถูกเสนอเพื่อปรับปรุงประสิทธิภาพการทำงานของการจดจำเสียงพูดโดยใช้ข้อมูลเพิ่มเติมเช่นคุณสมบัติเสียง ผลการทดลองก่อนหน้านี้แสดงให้เห็นว่าการใช้เสียงที่มีเป็นปัจจัยการผลิตที่เพิ่มขึ้นสำหรับการฝึกอบรมในรูปแบบอะคูสติกให้ผลความถูกต้องสูงขึ้นเมื่อเทียบกับระบบพื้นฐานสำหรับคนไทย [1] และแมนดารินข่าวออกอากาศรู้จำเสียงพูด [2] วิธีการแบบอะคูสติกบริบทอิสระสำหรับภาษาไทยได้รับการตรวจสอบยัง [3] วิธีการสร้างรูปแบบอะคูสติกได้รับการพิจารณาเพื่อเพิ่มประสิทธิภาพของการเรียนรู้จากข้อมูลการพูด ซ่อนมาร์คอฟรุ่น (HMM) เป็นที่รู้จักกันดีและเป็นที่นิยมในข้อมูลการฝึกอบรมอะคูสติก พารามิเตอร์ของแบบจำลองสามารถประเมินและปรับโดยอัตโนมัติเพื่อให้ประสิทธิภาพที่ดีที่สุด แม้ว่า HMMs เป็นวิธีการที่มีประสิทธิภาพในการแก้ไขปัญหาของการสร้างแบบจำลองอะคูสติกที่พวกเขายังต้องทนทุกข์ทรมานจากข้อ จำกัด บางอย่างเช่น HMMs ถือว่าระยะเวลาของการกระจายชี้แจงการเปลี่ยนแปลง
น่าจะขึ้นอยู่กับต้นทางและปลายทางและกรอบการสังเกตทั้งหมดจะขึ้นอยู่เฉพาะใน รัฐที่สร้างพวกเขาไม่ได้อยู่ในประเทศเพื่อนบ้านเฟรมสังเกต นอกจากนี้รุ่นผสม Gaussian (GMMs) ที่มีประสิทธิภาพเมื่อมีการสร้างค่าสถิติในกรอบ HMM เครือข่ายประสาทได้ถูกนำมาใช้ในการรับรู้คำพูดที่มีความน่าจะเป็นไปข้างหน้าข้างหลังสร้างเป้าหมาย [4] [5] อย่างไรก็ตามกรอบ connectionistHMM ซึ่งใช้เครือข่ายประสาทในการสร้างความน่าจะเป็นหลังการส่งออกซึ่งสามารถนำมาใช้แทนรูปแบบอะคูสติก GMMs กับเครือข่ายประสาทในการประมาณความน่าจะเป็นหลังของหน่วยออกเสียงให้เวกเตอร์ใส่ของกรอบหน้าต่างบริบท [6] [7] มันสามารถนำมาใช้สำหรับการรับรู้เสียงพูดต่อเนื่อง [8] หรือบูรณาการกับตรรกศาสตร์ในการรู้จำเสียงพูดภาษาอาหรับ [9] การตรวจสอบรูปแบบการสั่งซื้อครั้งแรกจากซ้ายไปขวารุ่น HMM กับลูปตัวเองโดยทั่วไปจะใช้สำหรับรูปแบบอะคูสติก รูปแบบที่มีประสิทธิภาพสำหรับคำพูดคำพูดเป็นความหนาแน่นต่อเนื่องรุ่นที่ซ่อนมาร์คอฟ (CDHMM) ซึ่งเหมาะสำหรับการอธิบายเหตุการณ์การพูด [10] ในบทความนี้น่าจะปล่อยก๊าซเรือนกระจกของรัฐจะมีการประเมินที่มีเครือข่ายประสาทเทียมโดยเฉพาะอย่างยิ่ง Perceptrons หลายชั้น (MLPs) ที่เรียกว่าไฮบริด MLP-HMM เพื่อปรับปรุงประสิทธิภาพการทำงานของการรับรู้คำพูดมากกว่ากรอบ HMM ความน่าจะเป็นของการปล่อยรัฐอืมฟอนิมจะได้รับการประเมินจากโหนดการส่งออกของ MLP จากนั้นขั้นตอนวิธี Viterbi เป็นลูกจ้างที่จะใช้เป็นตัวถอดรหัส คุณลักษณะเสียงที่สกัดจากสัญญาณเสียงพูดและจำแนกตาม MLP เป็นคุณลักษณะเพิ่มเติมสำหรับภาษาวรรณยุกต์ การเปรียบเทียบระบบพื้นฐานได้รับการทดสอบกับการกำหนดค่าที่แตกต่างกันเช่นคุณสมบัติน้ำเสียงและจำนวนชั้นที่ซ่อนอยู่ในลักษณนาม MLP ตลอดการทดลอง.
ส่วนที่เหลือของบทความนี้มีการจัดระเบียบดังต่อไปนี้ ในหมวดที่ 2 การทบทวนระบบการออกเสียงภาษาไทยที่จะนำเสนอ ในส่วนที่ 3 กรอบที่เสนอประกอบด้วยไฮบริด MLP-HMM และการรับรู้เสียงที่จะได้รับการแนะนำให้รู้จัก การทดลองและผลที่อธิบายไว้ในมาตรา 4 มาตรา 5 ให้ข้อสรุป

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

บางอย่างก่อนหน้านี้ทำงานในระบบการรู้จำเสียงพูดสำหรับวรรณยุกต์ภาษาถูกเสนอเพื่อปรับปรุงประสิทธิภาพของการรู้จำเสียงพูดโดยใช้ข้อมูลเพิ่มเติม เช่น ลักษณะน้ำเสียงผลการทดลองก่อนหน้านี้พบว่าใช้คุณสมบัติโทนเป็นปัจจัยการผลิตเพิ่มเติมสำหรับการฝึกอบรมแบบอะคูสติกที่มีความถูกต้องสูงเมื่อเทียบกับระบบพื้นฐานสำหรับคนไทย [ 1 ] และจีนกลางข่าวออกอากาศ speech recognition [ 2 ] วิธีการแบบอะคูสติก บริบทเป็นภาษาไทยยังถูกสอบสวน [ 3 ]วิธีการสร้างรูปแบบอะคูสติกถือว่าเพิ่มประสิทธิภาพในการเรียนรู้จากข้อมูลเสียง ฮิดเดนมาร์คอฟโมเดล ( อืม ) เป็นที่รู้จักกันดีและได้รับความนิยมในข้อมูลการฝึกอบรมเสียง พารามิเตอร์ของแบบจำลองสามารถคำนวณและปรับโดยอัตโนมัติเพื่อให้ประสิทธิภาพที่ดีที่สุด แม้ว่า hmms เป็นวิธีที่มีประสิทธิภาพในการแก้ไขปัญหาของแบบอะคูสติก ,พวกเขายังประสบจากข้อจำกัด ตัวอย่างเช่น hmms ถือว่าระยะเวลาของการแจกแจงแบบเลขชี้กำลัง , การเปลี่ยนแปลง
ความน่าจะเป็นขึ้นอยู่กับต้นทางและปลายทางและกรอบการสังเกตทั้งหมดจะขึ้นอยู่กับเฉพาะในรัฐนั้นสร้างขึ้น พวกเขาไม่ใช่เพื่อนบ้านสังเกตเฟรม นอกจากนี้รุ่นที่ผสม ) ( gmms ) จะมีประสิทธิภาพเมื่อสร้างสถิติค่าในอืมกรอบ . โครงข่ายประสาทเทียมมาใช้ในการรู้จำเสียงพูดกับความน่าจะเป็นไปข้างหลังไปข้างหน้าสร้างเป้าหมาย [ 4 ] , [ 5 ] อย่างไรก็ตาม connectionisthmm กรอบซึ่งใช้โครงข่ายประสาทเทียมเพื่อสร้างผลผลิตของความน่าจะเป็นที่สามารถใช้เพื่อแทนที่ gmms อะคูสติกกับรูปแบบเครือข่ายประสาทเพื่อประมาณความน่าจะเป็นของการออกเสียงของหน่วยรับข้อมูลเกี่ยวกับบริบทของหน้าต่าง [ 6 ] [ 7 ] มันสามารถใช้สำหรับการรู้จำเสียงพูดต่อเนื่อง [ 8 ] หรือบูรณาการกับตรรกศาสตร์ , การรู้จำเสียงพูด [ 9 ] เพื่อศึกษารูปแบบลำดับแรกจากซ้ายไปขวา ด้วยตนเอง แบบอืมลูปที่ใช้โดยทั่วไปสำหรับรูปแบบเสียง ประสิทธิภาพรูปแบบการพูดที่เป็นอย่างต่อเนื่องของฮิดเดนมาร์คอฟโมเดล ( cdhmm ) ซึ่งเหมาะสำหรับการอธิบายเหตุการณ์การพูด [ 10 ] ในกระดาษนี้สถานะการประมาณความน่าจะเป็น ด้วยโครงข่ายประสาทเทียม โดยเฉพาะหลายชั้นเพอร์เซปตร ( MLPs ) เรียกว่า ไฮบริด mlp-hmm เพื่อปรับปรุงประสิทธิภาพของการรู้จำเสียงพูดผ่าน - กรอบ รัฐใช้ความน่าจะเป็นของหน่วยเสียงหือจะคำนวณจากผลผลิตโหนดของ MLP . แล้วอุปกรณ์ที่ใช้อัลกอริทึมที่จะใช้ถอดรหัส .คุณสมบัติเสียงได้จากสัญญาณเสียงพูดและจัดโดย MLP เป็นคุณสมบัติเพิ่มเติมสำหรับ Tonal languages การเปรียบเทียบระบบพื้นฐาน มีการทดสอบด้วยการตั้งค่าที่แตกต่างกันเช่นคุณสมบัติเสียงและจำนวนชั้นซ่อนอยู่ใน MLP ลักษณนามตลอดการทดลอง
ส่วนที่เหลือของบทความนี้คือการจัดดังนี้ ในส่วนที่ 2ทบทวนระบบการออกเสียงภาษาไทยได้ ในส่วนที่ 3 การเสนอกรอบประกอบด้วย mlp-hmm ไฮบริดและการรู้จำวรรณยุกต์จะได้รู้จัก . ผลการทดลองและอธิบายไว้ในมาตรา 4 มาตรา 5 ให้ข้อสรุป

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.