I. INTRODUCTION
Given the recent popularity of deep neural networks for acoustic modeling, speaker adaptation of DNNs is an active area of research [1], [2], [3], [4], [5]. However, the portability of transform-based approaches like MLLR that work well for Gaussian mixture models to DNNs is not straightforward. Unlike Gaussian means or variances which can be transformed together if they belong to the same acoustic class (phones, HMM states or clustered versions thereof), it is hard to find structure in the weights of a neural network . Rather, researchers have looked at approaches analogous to MAP for GMMs where the weights of the network are updated directly using the adaptation data of a given speaker. The problem with this approach is that the number of parameters that are updated far exceeds the amount of adaptation data available which can lead to overfitting and some form of regularization is necessary [5]. Alternatively, [2] have looked at adapting only the biases. Another approach suggested in [1] is to add a linear layer between the frames and the input layer that can be trained similar to FMLLR (although with a cross-entropy criterion instead of ML).
I. บทนำได้รับความนิยมล่าสุดของเครือข่ายประสาทลึกสำหรับโมเดลระดับ ปรับลำโพงของ DNNs เป็นพื้นที่งานวิจัย [1], [2], [3], [4], [5] อย่างไรก็ตาม ปราบแปลงตามแนวทางเช่น MLLR ที่ใช้ได้ดีสำหรับรุ่นผสม Gaussian DNNs ไม่ได้ตรงไปตรงมา ซึ่งแตกต่างจากวิธี Gaussian หรือผลต่างที่สามารถแตกต่างกันถ้าพวกเขาอยู่ในชั้นระดับเดียวกัน (โทรศัพท์ อเมริกา HMM หรือคลัสเตอร์รุ่นดังกล่าว), มันเป็นสิ่งโครงสร้างน้ำหนักของเครือข่ายประสาท ค่อนข้าง นักวิจัยได้มองแนวทางคล้ายคลึงกับแผนที่สำหรับอัพเด GMMs ที่มีน้ำหนักของเครือข่ายโดยตรงโดยใช้ข้อมูลการปรับตัวของลำโพงที่กำหนด ปัญหาของวิธีนี้คือค่าของพารามิเตอร์ที่มีการปรับปรุงมากเกินจำนวนปรับข้อมูลที่สามารถนำไปสู่ overfitting และรูปแบบของ regularization ที่จำเป็น [5] หรือ, [2] ได้ดูที่ดัดแปลงเท่านั้นยอม วิธีอื่นที่แนะนำใน [1] คือการ เพิ่มเลเยอร์เส้นระหว่างเฟรมและชั้นอินพุตที่สามารถฝึกคล้ายกับ FMLLR (ถึงแม้ว่า มีเงื่อนไขการครอส-แทน ML)
การแปล กรุณารอสักครู่..

ผมแนะนำ
ได้รับความนิยมล่าสุดของเครือข่ายประสาทลึกแบบอะคูสติก , ลำโพง การปรับตัวของ dnns คือพื้นที่ใช้งานของงานวิจัย [ 1 ] , [ 2 ] , [ 3 ] , [ 4 ] , [ 5 ] อย่างไรก็ตาม การพกพาของแปลงตามวิธีที่ชอบ mllr ทำงานได้ดีสำหรับรุ่นที่ผสม ) เพื่อ dnns ไม่ตรงไปตรงมาซึ่งแตกต่างจากวิธีการหรือแบบ Gaussian ซึ่งสามารถแปลงด้วยกัน ถ้าพวกเขาอยู่ในชั้นเรียนเดียวกัน ( โทรศัพท์ , สหรัฐอเมริกา - อะคูสติก หรือแบบรุ่นของมัน ) มันเป็นเรื่องยากที่จะหาในน้ำหนักของโครงสร้างเครือข่ายประสาท ค่อนข้างนักวิจัยยังมองที่วิธีการคล้ายคลึงกับแผนที่สำหรับ gmms ที่น้ำหนักของเครือข่ายปรับปรุงได้โดยตรง โดยใช้ข้อมูลที่ได้รับการปรับตัวของลำโพง ปัญหาด้วยวิธีนี้คือ จำนวนของพารามิเตอร์ที่มีการปรับปรุงอยู่ไกลเกินปริมาณของข้อมูลที่มีอยู่ ซึ่งจะนำไปสู่การ overfitting และบางรูปแบบของผิดกฎหมายจำเป็น [ 5 ] อีกวิธีหนึ่งคือ[ 2 ] ต้องดูที่การปรับเพียง biases อีกวิธีแนะนำใน [ 1 ] เพื่อเพิ่มเลเยอร์ระหว่างเส้นกรอบและใส่เลเยอร์ที่สามารถฝึกฝนกัน fmllr ( แม้ว่ากับครอสเอนโทรปีเกณฑ์แทน
+ )
การแปล กรุณารอสักครู่..
