Feature extraction for phone based

Feature extraction for phone based recognizer, 39 dimensional MFCC feature vectors (12 MFCC plus energy and their first and second order temporal derivatives) were extracted from speech signals with pre-emphasis performed first. Speeches are analyzed based on a frame size of 25ms and shifted window of 10ms using hamming window. The baseline system of automatic speech recognition was compared, a continuous phone-based HMM recognizer was implemented using HTK [11] for comparison purposes. Each phone was represented as a 5 state left-to-right model with one Gaussian mixture using diagonal co-variances. The acoustic models were trained using maximum likelihood estimator (MLE) as a statistical method to estimate the value of parameters, based on a set of observations of a random variable that related to the parameters being estimated..
Phoneme recognition using hybrid MLP-HMM framework, 39 dimensional MFCC feature vectors are fed into input layer with fully-connected to one hidden layer and 53 output neurons corresponding to phonetic units. In order to provide the MLP with contextual information, 9 consecutive frames of data are given as input.
Tone recognition, the feature set of input layer is based on a smoothed F0 and delta, double delta F0 with fully 1 http://audacity.sourceforge.net/
connected to one hidden layer and 5 output neurons corresponding to five tones. Additional, bigram model is used as language models for all configurations in part of decoder.

Feature extraction for phone based recognizer, 39 dimensional MFCC feature vectors (12 MFCC plus energy and their first and second order temporal derivatives) were extracted from speech signals with pre-emphasis performed first. Speeches are analyzed based on a frame size of 25ms and shifted window of 10ms using hamming window. The baseline system of automatic speech recognition was compared, a continuous phone-based HMM recognizer was implemented using HTK [11] for comparison purposes. Each phone was represented as a 5 state left-to-right model with one Gaussian mixture using diagonal co-variances. The acoustic models were trained using maximum likelihood estimator (MLE) as a statistical method to estimate the value of parameters, based on a set of observations of a random variable that related to the parameters being estimated.. 
Phoneme recognition using hybrid MLP-HMM framework, 39 dimensional MFCC feature vectors are fed into input layer with fully-connected to one hidden layer and 53 output neurons corresponding to phonetic units. In order to provide the MLP with contextual information, 9 consecutive frames of data are given as input. 
Tone recognition, the feature set of input layer is based on a smoothed F0 and delta, double delta F0 with fully 1 http://audacity.sourceforge.net/ 
connected to one hidden layer and 5 output neurons corresponding to five tones. Additional, bigram model is used as language models for all configurations in part of decoder.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

จำแนกตามคุณลักษณะแยกสำหรับโทรศัพท์ 39 มิติ MFCC คุณลักษณะเวกเตอร์ (12 MFCC บวกพลังงาน และอนุพันธ์ของขมับ และสองสั่ง) ถูกสกัดจากสัญญาณเสียง โดยเน้นก่อนทำก่อน ลักษณะสุนทรพจน์ตามขนาดเฟรมของ 25ms และหน้าต่างที่ถูกเลื่อนของ 10ms หน้าต่างทางแฮมมิง มีการเปรียบเทียบระบบพื้นฐานของการรู้จำเสียงอัตโนมัติ ตัวอย่างต่อเนื่องตามโทรศัพท์ HMM รู้ถูกดำเนินการโดยใช้ HTK [11] สำหรับการเปรียบเทียบ โทรศัพท์แต่ละถูกแสดงเป็นแบบซ้ายไปขวา 5 รัฐกับหนึ่ง Gaussian ผสมโดยใช้ผลต่างร่วมของเส้นทแยงมุม รูปแบบอะคูสติกมีฝึกใช้ความเป็นไปได้สูงสุดประมาณ (พื้นฐาน) เป็นวิธีการทางสถิติเพื่อประมาณค่าพารามิเตอร์ ยึดชุดค่าสังเกตของตัวแปรสุ่มที่เกี่ยวข้องกับพารามิเตอร์ที่ถูกประมาณ... ใช้ไฮบริดสลี MLP อืมมกรอบ 39 มิติ MFCC คุณลักษณะเวกเตอร์รับชั้นเข้ากับการรับรู้หน่วยเสียงครบครันเชื่อมต่อกับหนึ่งชั้นซ่อนและ neurons 53 ผลลัพธ์ที่สอดคล้องกับหน่วยเสียง เพื่อให้การ MLP กับข้อมูลบริบท 9 เฟรมต่อเนื่องกันของข้อมูลจะได้รับเป็นข้อมูลป้อนเข้า การรับรู้เสียง ชุดคุณลักษณะของชั้นเข้ายึด F0 ปรับให้โค้งและเดลต้า เดลต้า F0 คู่กับเต็ม 1 http://audacity.sourceforge.net/ เชื่อมต่อกับชั้นหนึ่งซ่อนและ 5 ผล neurons ที่สอดคล้องกับเสียงห้า เพิ่มเติม bigram จำลองไว้เป็นรูปแบบภาษาสำหรับโครงแบบทั้งหมดในส่วนของตัวถอดรหัส

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

การสกัดคุณลักษณะสำหรับโทรศัพท์มือถือที่ใช้จำแนก, 39 มิติคุณลักษณะเวกเตอร์ MFCC (12 MFCC บวกพลังงานและการสั่งซื้อครั้งแรกและครั้งที่สองของพวกเขาอนุพันธ์ชั่วขณะ) ถูกสกัดจากสัญญาณเสียงพูดที่มีความสำคัญก่อนการดำเนินการครั้งแรก สุนทรพจน์มีการวิเคราะห์ขึ้นอยู่กับขนาดของกรอบของ 25ms และเลื่อนหน้าต่างของ 10ms ใช้หน้าต่างแฮม ระบบพื้นฐานของการรับรู้คำพูดอัตโนมัติเปรียบเทียบจำแนก HMM ที่ใช้โทรศัพท์มือถืออย่างต่อเนื่องได้รับการดำเนินการโดยใช้ HTK [11] เพื่อการเปรียบเทียบ โทรศัพท์แต่ละคนได้แสดงเป็น 5 รัฐจากซ้ายไปขวารูปแบบที่มีส่วนผสม Gaussian หนึ่งโดยใช้ความแปรปรวนร่วมเส้นทแยงมุม รูปแบบอะคูสติกได้รับการฝึกฝนการใช้ประมาณค่าความน่าจะเป็นสูงสุด (MLE) เป็นวิธีการทางสถิติในการประมาณค่าของพารามิเตอร์ตั้งอยู่บนพื้นฐานของการสังเกตของตัวแปรสุ่มที่เกี่ยวข้องกับพารามิเตอร์ที่ถูกคาด ..
ฟอนิมได้รับการยอมรับโดยใช้ไฮบริดกรอบ MLP-HMM 39 มิติเวกเตอร์คุณลักษณะ MFCC ที่จะป้อนเข้าชั้นการป้อนด้วยอย่างเต็มที่เชื่อมต่อกับชั้นหนึ่งที่ซ่อนอยู่และ 53 เซลล์ประสาทที่เกี่ยวข้องกับการส่งออกหน่วยออกเสียง เพื่อที่จะให้ MLP ที่มีข้อมูลตามบริบท 9 เฟรมต่อเนื่องของข้อมูลจะได้รับเป็น input.
การรับรู้เสียง, ชุดคุณลักษณะของชั้นการป้อนข้อมูลจะขึ้นอยู่กับ F0 เรียบและเดลต้า F0 เดลต้าคู่กับอย่างเต็มที่ 1 http: // กล้า sourceforge.net/
เชื่อมต่อกับชั้นหนึ่งที่ซ่อนอยู่และ 5 เซลล์ประสาทผลผลิตที่สอดคล้องกับห้าเสียง เพิ่มเติมรุ่น bigram ใช้เป็นรูปแบบภาษาสำหรับการกำหนดค่าทั้งหมดในส่วนหนึ่งของการถอดรหัส

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

การสกัดลักษณะสำหรับโทรศัพท์ recognizer ตามค่า 39 มิติคุณลักษณะเวกเตอร์ ( 12 ) ค่าพลังงานบวกและสั่งซื้อครั้งแรกและครั้งที่สองขมับของอนุพันธ์ ) สกัดจากสัญญาณด้วยคำพูดก่อนเน้นปฏิบัติก่อน สุนทรพจน์จะวิเคราะห์ตามกรอบขนาด 25ms ขยับ 10ms ใช้แฮมหน้าต่างของหน้าต่าง พื้นฐานระบบการรู้จำเสียงพูดอัตโนมัติถูกเปรียบเทียบโทรศัพท์พื้นฐานใช้อย่างต่อเนื่องนะ recognizer ใช้ htk [ 11 ] เพื่อวัตถุประสงค์ในการเปรียบเทียบ โทรศัพท์แต่ละก็แสดงเป็น 5 รัฐซ้ายขวาแบบหนึ่ง ) ส่วนผสมใช้ขวางโคย แบบฝึกการใช้เสียงประมาณความควรจะเป็นสูงสุด ( mle ) เป็นวิธีการทางสถิติในการประมาณค่าพารามิเตอร์ขึ้นอยู่กับชุดของค่าของตัวแปรที่เกี่ยวข้องกับการประมาณค่า . . . . . . . การใช้กรอบ mlp-hmm
ติดตามค่าคุณลักษณะไฮบริด 39 มิติเวกเตอร์ถูกเลี้ยงในชั้นข้อมูลพร้อมเชื่อมต่อกับหนึ่งชั้นซ่อนและ 53 เซลล์ประสาทผลผลิตที่สอดคล้องกับหน่วยเสียง เพื่อให้ MLP กับข้อมูลตามบริบท9 ภาพต่อเนื่องของข้อมูลจะได้รับเป็นข้อมูล
เสียง , ชุดคุณลักษณะของชั้นข้อมูลตามเรียบละเดลต้าเดลต้า คู่ละ 1 , เต็ม http://audacity.sourceforge.net/
เชื่อมต่อกับหนึ่งที่ซ่อนอยู่ชั้น 5 ออกและเซลล์ประสาทที่สอดคล้องกับห้าเสียง เพิ่มเติม , รูปแบบ bigram ใช้เป็นภาษาแบบจำลองสำหรับการกำหนดค่าในส่วนของตัวถอดรหัส .

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.