Abstract
In developing speech recognition based services for any task domain, it is necessary to account for the support of an increasing number
of languages over the life of the service. This paper considers a small vocabulary speech recognition task in multiple Indian languages.
To configure a multi-lingual system in this task domain, an experimental study is presented using data from two linguistically similar
languages – Hindi and Marathi. We do so by training a subspace Gaussian mixture model (SGMM) (Povey et al., 2011; Rose et al.,
2011) under a multi-lingual scenario (Burget et al., 2010; Mohan et al., 2012a). Speech data was collected from the targeted user population
to develop spoken dialogue systems in an agricultural commodities task domain for this experimental study. It is well known that
acoustic, channel and environmental mismatch between data sets from multiple languages is an issue while building multi-lingual systems
of this nature. As a result, we use a cross-corpus acoustic normalization procedure which is a variant of speaker adaptive training (SAT)
(Mohan et al., 2012a). The resulting multi-lingual system provides the best speech recognition performance for both languages. Further,
the effect of sharing “similar” context-dependent states from the Marathi language on the Hindi speech recognition performance is
presented.
นามธรรม
ในการพัฒนาบริการตามการรับรู้เสียงสำหรับโดเมนงานใด ๆ จำเป็นต้องบัญชีสำหรับการสนับสนุนหลาย
ภาษาอายุของการบริการ กระดาษนี้พิจารณางานการรู้จำเสียงคำศัพท์ขนาดเล็กในหลายอินเดียภาษา
การกำหนดค่าระบบหลายภาษาในโดเมนนี้งาน การศึกษาทดลองนำเสนอโดยใช้ข้อมูลจากสองมีคล้าย
ภาษามราฐีและภาษาฮินดี เราทำได้ โดยการฝึกอบรมรูปแบบ Gaussian ผสม subspace (SGMM) (Povey et al., 2011 โรส et al.,
2011) ภายใต้สถานการณ์หลากหลายภาษา (บริการของพนักงานและ al., 2010 โมฮาน et al., 2012a) เสียงข้อมูลรวบรวมจากประชากรผู้ใช้เป้าหมาย
การพัฒนาระบบสนทนาในโดเมนงานสินค้าโภคภัณฑ์เกษตรสำหรับศึกษาทดลอง มันเป็นที่รู้จักที่
อะคูสติก ช่องและตรงชุดข้อมูลจากหลายภาษาสิ่งแวดล้อมเป็นประเด็นในขณะที่สร้างระบบหลายภาษา
ธรรมชาตินี้ เป็นผล เราใช้กระบวนการฟื้นฟูคอร์พัสคริข้ามอะคูสติกซึ่งเป็นตัวแปรของลำโพงเหมาะสมฝึก (เสาร์)
(โมฮาน et al., 2012a) ระบบหลายภาษาได้ให้สุดเสียงการรับรู้ประสิทธิภาพทั้งภาษา เพิ่มเติม,
ผลใช้ร่วมกัน "คล้าย" อเมริกาขึ้นอยู่กับบริบทจากภาษามราฐีประสิทธิภาพการรู้จำเสียงภาษาฮินดีคือ
แสดง
การแปล กรุณารอสักครู่..
