applicability to speaker adaptation of DNNs for ASR.
The paper is organized as follows: in section II we review the i-vector extraction method, in section III we provide some experimental results for DNNs trained with and without ivectors on the Switchboard English conversational telephone task, and in section IV we summarize our findings.
II. I-VECTOR TECHNIQUE
Here we describe the main ideas behind the i-vector technique. Allthough an exhaustive treatment of i-vectors can be found in many works (see, for example, [8] and the references therein), we outline the main points here in order for the paper to be self-contained.
Borrowing some notations from [10], the acoustic feature vectors xt ∈ IRD are seen as samples generated from a universal background model (or UBM) represented as a GMM with K diagonal covariance Gaussians
(1)
with mixture coefficients ck, means µk(0) and diagonal covariances Σk. Moreover, data xt(s) belonging to speaker s are drawn from the distribution
K xt(s) ∼ XckN(•;µk(s),Σk) (2)
k=1 where µk(s) are the means of the GMM adapted to speaker s. The essence of the i-vector algorithm is to assume a linear dependence between the speaker-adapted means µk(s) and the speaker-independent means µk(0) of the form
µk(s) = µk(0) + Tkw(s), k = 1...K (3)
Tk, of size D × M, is called the factor loading submatrix corresponding to component k and w(s) is the speaker identity vector (”i-vector”) corresponding to s. Each Tk contains M bases which span the subspace with important variability in the component mean vector space. The two questions that need to be answered are: (i) given Tk and speaker data {xt(s)} how do we estimate w(s)? and (ii) given training data {xt} how do we estimate the matrices Tk?
A. I-vector estimation
From a bayesian perspective, w is treated as a latent variable with a 0-mean, identity covariance Gaussian prior distribution and we estimate the posterior distribution of w given speaker data {xt(s)}, i.e. p(w|{xt(s)}). Under the assumption of a fixed (soft) alignment of frames to mixture components, it can be shown that this posterior distribution is Gaussian [12]
K
p(w|{xt(s)}) = N(w;L−1(s)XTkT Σk−1θk(s),L−1(s))
k=1
(4)
with precision matrix L(s) of size M × M expressed as
L (5)
The quantities that appear in (4) and (5) are the zero-order and centered first-order statistics and are defined as
γk(s) = Xγtk(s), (6)
t
θk(s) = Xγtk(s)(xt(s) − µk(0)) (7)
t
with γtk(s) being the posterior probability of mixture component k given xt(s). The i-vector that we are looking for is simply the MAP point-estimate of the variable w which is the mean of the posterior distribution from (4), i.e.
K w(s) = L−1(s)XTTk Σk−1θk(s) (8)
k=1
B. Factor loading matrix estimation
Model hyperparameters {T1,...,TK} are estimated using the EM algorithm to maximize the ML objective function [13]
1
Q(T1,...,TK) = − X γtk(s)hlog|L(s)| 2
s,t,k
+ (xt(s) − µk(s))T Σk−1(xt(s) − µk(s))i (9) which can be written equivalently as
1
Q(T1,...,TK) = − Xhγk(s)log|L(s)| 2
s,k
+ γk(s)Tr{Σk−1Tkw(s)w(s)TTTk } − 2Tr{Σk−1Tkw(s)θk(s)T}i + C (10)
The term log|L(s)| comes from the logarithm of the posterior p(w|{xt(s)}) evaluated in w(s). Taking the derivative of (10) with respect to Tk and setting it to 0 leads to collecting the
sufficient statistics [8]
Ck = Xθk(s)wT(s), (11)
s
Ak = Xγk(s)(L−1(s) + w(s)wT(s)) (12)
s
where L−1 (s) and w(s) are given respectively by (5) and (8) for speaker s. The factor loading submatrices are updated as follows
T (13)
In summary, the i-vector extraction transforms are estimated iteratively by alternating between the E-step (11),(12) and the M-step (13).
C. Integration with a DNN
As shown in Figure 1, the procedure for using i-vectors with a neural network is as follows. First, the speaker data {xt(s)} is aligned with the GMM to estimate the zero-order and first-order statistics from (6) and (7). These quantities are then used to estimate the i-vector w(s) via (5) and (8). Next, w(s) is concatenated to every frame xt(s) to form the input for neural network training or decoding.
Fig. 1. I-vector extraction and input features for a neural network.
III. EXPERIMENTS AND RESULTS
Following [1], we conducted our experiments on a 300 hour subset of the Switchboard English conversational telephone speech task. We report results on the testsets that were used during the Hub5 2000 and Rich Transcription 2003 Darpa evaluations which will be referred to as the Hub5’00 and RT’03 evaluation sets. These testsets contain 2.1 hours of audio, 21.4K words and 7.2 hours of audio, 76K words, respectively.
A. Frontend processing
Speech is coded into 25 ms frames, with a frame-shift of 10 ms. Each frame is represented by a feature vector of 13 perceptual linear prediction (PLP) cepstral coefficients which are mean and variance normalized per conversation side. Every 9 consecutive cepstral frames are spliced together and projected down to 40 dimensions using LDA. The range of this transformation is further diagonalized by means of a global semi-tied covariance transform. Additionally, for the speakeradapted features, the cepstra are warped with vocal tract length normalization (VTLN) prior to splicing and projection. Then, one feature-space MLLR (FMLLR) transform per conversation side is computed on top of the LDA features at both training and test time using a GMM-HMM system.
B. I-vector extraction
We use the maximum likelihood criteria to train two 2048 40-dimensional diagonal covariance GMMs: one for the speaker-independent and one for the speaker-adapted feature sets. These GMMs were used to precompute the zero and first-order statistics via (6) and (7) for all the training and test speakers. The i-vector extraction matrices T1,...,T2048 were initialized with values drawn randomly from the uniform distribution in [−1,1] and were estimated with 10 iterations of EM by alternating the sufficient statistics collection (11),(12) and the factor subloading matrix update (13). Once the matrices were trained, we extracted M-dimensional i-vectors for all the training and test speakers. This procedure was repeated for 3 different values of M: 40, 100 and 200. Lastly, the i-vectors were scaled so that they have approximately unit variance on the training data for neural network training.
C. DNN training
Several networks were trained which differ in the type of input features: speaker-independent (SI) and speaker-adapted (SA) and in whether they have i-vector input or not. All networks share the following characteristics. The input features use a temporal context of 11 frames as suggested in [1] meaning that the input layer has either 40 × 11 + M ( for M ∈ {40,100,200}) or 40 × 11 neurons for nets with and without i-vector inputs. The training data is divided randomly at the speaker level into a 295 hours training set and a 5 hours held-out set.
All nets have 6 hidden layers with sigmoid activation functions: the first 5 with 2048 units and the last one with 256 units for parameter reduction and faster training time [14]. The output layer has 9300 softmax units that correspond to the context-dependent HMM states obtained by growing a phonetic decision tree with pentaphone crossword context.
Following the recipe outlined in [1], the training data is fully randomized at the frame level within a window of 25 hours and we trained the nets with stochastic gradient descent on minibatches of 250 frames and a cross-entropy criterion. Prior to the cross-entropy training of the full network, we used layerwise discriminative pretraining by running one crossentropy sweep over the training data for the intermediate networks obtained by adding one hidden layer at a time. Additionally, we applied hessian-free sequence training for some of the networks using a state-based minimum Bayes risk objective function as described in [15].
D. Hybrid DNN-HMM decoding
The trained DNNs are used directly in a hybrid decoding scenario by subtracting the logarithm of the HMM state priors
Fig. 2. Phone frame error rates on heldout data for various DNNs.
from the log of the DNN output scores. The vocabulary used has 30.5K words and 32.8K pronunciation variants. The decoding language model is a 4-gram LM with 4M n-grams.
E. Experimental results
In Figure 2, we compare the phone frame error rates obtained on the held-out set during the cross-entropy finetuning (i.e. after pretraining) of 4 networks: a DNN on SI features only, a DNN on SI features and i-vectors of dimension 100, a DNN on SA features only and a DNN on SA features and i-vectors of dimension 100. We observe that DNNs with i-vector inputs are substantially better than the ones trained on ASR features only. Interestingly, the curve for DNNs trained on SI features and i-vectors is almost indistinguishable from the one obtained by DNNs trained on SA features only which suggests that the i-vector input has the same effect as adding
VTLN and FMLLR.
Model Training Hub5’00 RT’03
SWB FSH SWB
DNN-SI x-entropy 16.1% 18.9% 29.0%
DNN-SI sequence 14.1% 16.9% 26.5 %
DNN-SI+ivecs x-entropy 13.9% 16.7% 25.8%
DNN-SI+ivecs sequence 12.4% 15.0% 24.0%
DNN-SA x-entropy 14.1% 16.6% 25.2%
DNN-SA sequence 12.5% 15.1% 23.7%
DNN-SA+ivecs x-entropy 13.2% 15.5% 23.7 %
DNN-SA+ivecs sequence 11.9% 14.1% 22.3%
TABLE I
COMPARISON OF WORD ERROR RATES FOR VARIOUS DNNS ON HUB5 ’ 00 AND RT’03 WITHOUT AND WITH HESSIAN-FREE SEQUENCE TRAINING.
This is also mirrored in the word error rates shown in Table I where the DNN-SI+ivecs and DNN-SA models exhibit very similar recognition performance (10% relative WER improvement over DNN-SI). Additionally, we observe that DNN-SA with i-vectors results in a 5-6% relative improvement over DNN-SA both before and after sequence training. The additive gains can be explained by observing that the i-vectors for DNN-SA were extracted using a GMM trained on speakeradapted features as opposed to using a UBM trained on speaker independent features for D
ความเกี่ยวข้องของการปรับลำโพงของ DNNs สำหรับ ASRจัดกระดาษเป็นดังนี้: ในส่วนที่สอง เราทบทวนวิธีแยกเวกเตอร์ i ในส่วน III เรามีผลการทดลองบางอย่างสำหรับ DNNs ที่มี และไม่ มี ivectors งานบอร์ดโทรศัพท์สนทนาภาษาอังกฤษในการฝึกอบรม และในส่วนที่ IV เราสรุปผลการวิจัยของเราเทคนิคครั้งที่สองฉันเวกเตอร์ที่นี่เราสามารถอธิบายแนวคิดหลักเบื้องหลังเทคนิคเวกเตอร์ i Allthough i เวกเตอร์รักษาที่ครบถ้วนสมบูรณ์สามารถพบได้ในผลงานหลายชิ้น (ดู ตัวอย่าง, [8] และการอ้างอิง therein), เราเค้าประเด็นหลักที่นี่เพื่อกระดาษจะมีอยู่ด้วยตนเองกู้ยืมฯลฯ บางจาก [10], ∈ xt เวกเตอร์ลักษณะอะคูสติก IRD จะเห็นเป็นตัวอย่างที่สร้างขึ้นจากแบบจำลองสากลพื้นหลัง (หรือ UBM) แสดงเป็น GMM ที่ มีเส้นทแยงมุมแปรปรวน K Gaussians (1)มีส่วนผสมของสัมประสิทธิ์ ck หมายถึง µk(0) และ Σk covariances เส้นทแยงมุม นอกจากนี้ ดึงข้อมูล xt(s) ของลำโพง s จากการกระจายK xt(s) ∼ XckN(•;µk(s),Σk) (2)k = 1 ที่ µk(s) เป็นวิธีการของ GMM ที่ดัดแปลงไปยังลำโพง s สาระสำคัญของอัลกอริทึม i เวกเตอร์จะคิดเชิงเส้นพึ่งพาระหว่าง µk(s) หมายถึงดัดแปลงลำโพงและ µk(0) หมายถึงลำโพงอิสระของแบบฟอร์มµk(s) = µk(0) + Tkw(s), k = 1... K (3)ทีเค ของฟิลด์ขนาด D M เรียกว่า submatrix โหลดปัจจัยที่สอดคล้องกับองค์ประกอบ k และ w(s) เป็นลำโพงตัวเวกเตอร์ ("i-เวกเตอร์") ที่สอดคล้องกับ s แต่ละทีเคประกอบด้วยฐาน M ซึ่งขยาย subspace ที่ มีความแปรผันที่สำคัญในส่วนประกอบหมายถึงเวกเตอร์ มีสองคำถามที่ต้องตอบ: (i) ให้ทีเคและลำโพงข้อมูล {xt(s) } วิธีเราประเมิน w(s) และ (ii) ให้ข้อมูลฝึกอบรม {xt } วิธีเราประเมินเมทริกซ์ Tkอ.ฉันเวกเตอร์การประเมินจากมุมมองทฤษฎี w ถือว่าเป็นตัวแปรแฝงอยู่ ด้วยเป็น 0-หมายความว่า ตัวแปรปรวนก่อนกระจาย Gaussian และเราประเมินการกระจายหลังของ w ให้ลำโพงข้อมูล {xt(s) }, เช่น p (w| { xt(s)}) ภายใต้สมมติฐานของแบบถาวร (นุ่ม) การจัดตำแหน่งของเฟรมกับส่วนผสมส่วนประกอบ มันสามารถแสดงว่าการกระจายนี้หลัง Gaussian [12]Kp (w| { xt(s)}) = N(w; L−1(s) XTkT Σk−1θk(s),L−1(s))k = 1(4)มีความแม่นยำเมตริกซ์ L(s) ของขนาด M × M แสดงเป็นL (5)ปริมาณที่ปรากฏใน (4) และ (5) มีสถิติแรกสั่ง สั่งศูนย์ และอยู่กึ่งกลาง และกำหนดเป็นΓk(s) = Xγtk(s), (6)tΘk(s) = Xγtk(s) (xt(s) − µk(0)) (7)tกับ γtk(s) เป็นความหลังของส่วนผสมส่วนประกอบ k ให้ xt(s) I-เวกเตอร์ที่เรากำลังมองหาเป็นเพียงแผนที่จุดประเมินของตัวแปร w ซึ่งเป็นค่าเฉลี่ยของการกระจายหลังจาก (4), เช่นK w(s) = L−1(s) XTTk Σk−1θk(s) (8)k = 1โหลดเมทริกซ์ประเมินปัจจัยเกิดมีประเมินแบบจำลอง hyperparameters {T1,... TK } ใช้อัลกอริทึม EM ขยาย ML ฟังก์ชันวัตถุประสงค์ [13]1Q(T1,...,TK) =− X γtk(s) hlog| L(s) | 2s, t, k+ Σk−1 (xt(s) − µk(s)) T (xt(s) − µk(s)) ฉัน (9) ซึ่งสามารถเขียน equivalently เป็น1Q(T1,...,TK) =− Xhγk(s) log| L(s) | 2s, kΓk(s) Tr + { Σk−1Tkw(s) w(s) TTTk } − 2Tr {Σk−1Tkw(s) θk(s) T } ผม + C (10)Log| ระยะ L(s) | มาจากการหาค่าลอการิทึมของ p หลัง (w| { ประเมินใน w(s) xt(s)}) มีอนุพันธ์ของ (10) กับทีเค และตั้ง 0 นำไปเก็บสถิติเพียงพอ [8]Ck = Xθk(s) wT(s), (11)sAk = Xγk(s) (L−1(s) + w(s)wT(s)) (12)sที่ L−1 (s) และ w(s) จะกำหนดตามลำดับ (5) และ (8) สำหรับลำโพง s Submatrices โหลดตัวมีการปรับปรุงดังนี้T (13)ในสรุป แปลงแยกเวกเตอร์ i ไว้ซ้ำ ๆ โดยสลับกันระหว่าง E-ขั้นตอน (11),(12) และ M-ขั้นตอน (13)ค.รวมกับ DNNดังแสดงในรูปที่ 1 ขั้นตอนการใช้เวกเตอร์ i เครือข่ายประสาทมีดังนี้ ครั้งแรก ข้อมูลลำโพง {xt(s) } สอดคล้องกับ GMM ประเมินสถิติศูนย์ใบสั่ง และใบ สั่งแรกจาก (6) และ (7) ปริมาณเหล่านี้จะมีการใช้การประเมิน w(s) i เวกเตอร์ผ่าน (5) และ (8) ถัดไป w(s) เชื่อมรวมอยู่กับ xt(s) ทุกเฟรมเพื่อป้อนข้อมูลสำหรับเครือข่ายประสาทฝึก หรือถอดรหัส Fig. 1 -เวกเตอร์สกัดและป้อนข้อมูลคุณสมบัติสำหรับเครือข่ายประสาทIII. การทดลองและผลการเราดำเนินการทดลองของเราในชั่วโมง 300 ชุดย่อยของโรงงานบอร์ดสนทนาโทรศัพท์ภาษาอังกฤษพูดดังต่อไปนี้ [1], เรารายงานผลบน testsets ที่ใช้ในระหว่างการประเมิน Hub5 2000 และ Rich Transcription 2003 Darpa ซึ่งจะ เรียกว่า Hub5 ' 00 และ RT'03 ชุดประเมินการ Testsets เหล่านี้ประกอบด้วยเสียง 21.4K คำ และ 7.2 ชั่วโมงเสียง เค 76 คำ 2.1 ชั่วโมงตามลำดับอ.ประมวลผล Frontendพูดเป็นรหัสลงใน 25 ms เฟรม เฟรมกะของคุณ 10 เฟรมแต่ละเฟรมจะแทน ด้วยเวกเตอร์คุณลักษณะของสัมประสิทธิ์ cepstral perceptual ทำนายเชิงเส้น (PLP) 13 ซึ่งเป็นค่าเฉลี่ยและผลต่างตามปกติต่อด้านการสนทนา ทุกเฟรม cepstral ติดต่อกัน 9 spliced กัน และคาดว่าจนถึงขนาด 40 ใช้ LDA เพิ่มเติมเป็น diagonalized ช่วงนี้การเปลี่ยนแปลง โดยการแปลงแปรปรวน tied กึ่งสากล นอกจากนี้ สำหรับคุณลักษณะ speakeradapted, cepstra เป็นเหยเก ด้วย vocal ทางเดินยาวฟื้นฟู (VTLN) ก่อน splicing และการฉายภาพ แล้ว แปลง MLLR (FMLLR) ลักษณะพื้นที่หนึ่งต่อด้านการสนทนาจะคำนวณบนคุณลักษณะ LDA เวลาฝึกอบรมและทดสอบใช้ระบบ GMM อืมมแยกเกิดฉันเวกเตอร์เราใช้เกณฑ์ความเป็นไปได้สูงสุด 2048 สองฝึกความแปรปรวนร่วมของเส้นทแยงมุมมิติ 40 GMMs: สำหรับลำโพงอิสระและหนึ่งสำหรับชุดคุณลักษณะที่ปรับลำโพง GMMs เหล่านี้ถูกใช้ precompute ศูนย์ และสถิติใบสั่งแรกผ่าน (6) และ (7) สำหรับทั้งหมดที่ฝึกอบรมและทดสอบลำโพง เมทริกซ์การแยกเวกเตอร์ i T1,... T2048 ได้เริ่มต้น ด้วยค่าออกแบบสุ่มกระจายสม่ำเสมอใน [−1, 1] และถูกประเมิน ด้วยซ้ำ 10 ของ EM โดยสลับชุดสถิติเพียงพอ (11),(12) แล้วตัว subloading ปรับปรุงเมตริกซ์ (13) เมื่อมีฝึกเมทริกซ์ เราแยกเวกเตอร์ i M มิติสำหรับทั้งหมดที่ฝึกอบรมและทดสอบลำโพง ขั้นตอนนี้ถูกทำซ้ำสำหรับค่าแตกต่างกัน 3 m: 40, 100 และ 200 สุดท้ายนี้ เวกเตอร์ i ถูกปรับเพื่อให้พวกเขามีประมาณหน่วยผลต่างข้อมูลการฝึกอบรมสำหรับการฝึกอบรมเครือข่ายประสาทC. ฝึกอบรม DNNเครือข่ายต่าง ๆ มีฝึกที่แตกต่างในชนิดของอินพุท: ลำโพงอิสระ (ซี) และลำโพงดัดแปลง (SA) และว่าพวกเขาได้ หรือไม่ในการป้อนข้อมูลแบบเวกเตอร์ i เครือข่ายทั้งหมดใช้ร่วมกันลักษณะต่อไปนี้ คุณลักษณะอินพุตใช้บริบทที่ขมับของเฟรม 11 เป็นความหมายใน [1] แนะนำว่า ชั้นอินพุตมีทั้ง 40 × 11 + M (สำหรับ M ∈ { 40,100,200 }) หรือ 40 × 11 neurons สำหรับตาข่ายที่มี และไม่ มีอินพุต i เวกเตอร์ ข้อมูลการฝึกอบรมแบ่งออกเป็นแบบสุ่มในระดับลำโพงชั่วโมง 295 ที่ชุดและชุดจัดออก 5 ชั่วโมงในการฝึกอบรมชั้น 6 ซ่อน ด้วยฟังก์ชั่นการเรียกใช้ sigmoid มีตาข่ายทั้งหมด: 5 แรกพร้อม 2048 และคนสุดท้ายกับ 256 การลดพารามิเตอร์เวลาฝึกได้เร็วขึ้น [14] ชั้นการแสดงผลมีหน่วย softmax 9300 ที่สอดคล้องกับอเมริกา HMM ขึ้นอยู่กับบริบทที่ได้รับ โดยการปลูกต้นไม้การตัดสินใจออกเสียงกับบริบทฟี pentaphoneตามสูตรที่ระบุไว้ใน [1], ข้อมูลการฝึกอบรมเป็น randomized ระดับเฟรมภายในหน้าต่างของ 25 ชั่วโมงเต็ม และเราฝึกมุ้ง ด้วยโคตรแบบเฟ้นสุ่มไล่ระดับบน minibatches 250 เฟรมและครอส-เกณฑ์ ก่อนการฝึกครอส-เครือข่ายเต็มรูปแบบ เราใช้ layerwise discriminative pretraining โดยเรียกใช้ crossentropy กวาดผ่านข้อมูลการฝึกอบรมสำหรับเครือข่ายระดับกลางได้ โดยการเพิ่มชั้นหนึ่งซ่อนอยู่ในเวลานี้ นอกจากนี้ เราใช้ลำดับ hessian ฟรีฝึกอบรมของเครือข่ายที่ใช้ตามสถานะต่ำสุด Bayes เสี่ยงประสงค์ฟังก์ชันอธิบายไว้ใน [15]D. ไฮบริ DNN-อืมมถอดรหัสDNNs ฝึกใช้ในสถานการณ์การถอดรหัสผสม โดยลบลอการิทึมของ priors รัฐ HMM Fig. 2 โทรศัพท์ราคาข้อผิดพลาดของเฟรมข้อมูล heldout DNNs ต่าง ๆจากบันทึกของ DNN ที่ผลคะแนน คำศัพท์ที่ใช้มีคำ 30.5K และตัวแปรการออกเสียง 32.8K แบบถอดรหัสภาษาเป็น LM 4 กรัม ด้วย 4M n กรัมอีผลการทดลองของในรูปที่ 2 เราเปรียบเทียบราคากรอบโทรศัพท์ผิดพลาดได้รับชุดออกจัดขึ้นในระหว่าง finetuning ครอส- (เช่นหลังจาก pretraining) เครือข่าย 4: DNN บนศรีคุณลักษณะเฉพาะ DNN ศรีคุณลักษณะและ i-เวกเตอร์ของขนาด 100, DNN ใน SA คุณลักษณะเฉพาะและ DNN เกี่ยวกับคุณลักษณะต่าง ๆ ของ SA และ i-เวกเตอร์ของขนาด 100 เราสังเกตว่า DNNs กับอินพุต i เวกเตอร์จะดีกว่าคนที่เข้าอบรมการ ASR คุณลักษณะเฉพาะ เป็นเรื่องน่าสนใจ โค้งสำหรับ DNNs i เวกเตอร์และคุณลักษณะในการฝึกอบรมเป็นเกือบจำแนกไม่ได้จากได้รับ โดยการฝึกอบรมในลักษณะการทำงานของ SA เท่านั้นซึ่งแนะนำว่า ป้อนเวกเตอร์ i มีผลเหมือนกับการเพิ่ม DNNsVTLN และ FMLLRรุ่นฝึกอบรม Hub5'00 RT'03 SWB FSH SWBDNN จูเอนโทรปี x 16.1% 18.9% 29.0%DNN จูลำดับ 14.1 สา% 16.9% 26.5%DNN จู + ivecs เอนโทรปี x 13.9% 16.7% 25.8%DNN จู + ivecs ลำดับ 12.4% 15.0% 24.0%DNN ซาเอนโทรปี x 14.1 สา 16.6% 25.2%DNN สาลำดับ 12.5% 15.1% 23.7%DNN SA + ivecs เอนโทรปี x 13.2% 15.5 ล้านคน 23.7%DNN SA + ivecs ลำดับ 11.9%% 14.1 สา 22.3%โต๊ะผมเปรียบเทียบอัตราข้อผิดพลาด WORD สำหรับ DNNS ต่าง ๆ บน HUB5 ' 00 และ RT'03 ไม่มีและ ด้วยการฝึกอบรมลำดับกระสอบฟรีนี้ยังเป็นมิเรอร์ในคำ ผิดพลาดราคาแสดงอยู่ในตารางผมที่รุ่น DNN จู + ivecs และ DNN SA แสดงคล้ายรู้ประสิทธิภาพ (10% ญาติ WER ปรับปรุงผ่าน DNN จู) นอกจากนี้ เราสังเกตว่า DNN ซากับเวกเตอร์ i ผลการปรับปรุงสัมพันธ์ 5-6% กว่า DNN SA ทั้งก่อน และ หลังการฝึกอบรมลำดับ กำไรสามารถที่สามารถอธิบาย โดยการสังเกตว่า เวกเตอร์ i สำหรับ DNN SA ถูกสกัดโดยใช้ GMM ที่ผ่านการฝึกอบรมในลักษณะ speakeradapted จำกัดใช้ UBM ที่ผ่านการฝึกอบรมในลักษณะอิสระลำโพงสำหรับ D
การแปล กรุณารอสักครู่..

. การบังคับใช้เพื่อการปรับตัวลำโพงของ DNNs สำหรับ ASR
กระดาษมีการจัดระเบียบดังต่อไปนี้ในส่วนที่สองเราตรวจสอบวิธีการสกัดแบบ i-เวกเตอร์ในส่วนที่สามเราให้ผลการทดลองบางอย่างสำหรับ DNNs รับการฝึกอบรมที่มีและไม่มี ivectors บนสวิตช์งานโทรศัพท์การสนทนาภาษาอังกฤษ และในส่วนที่สี่เราสรุปผลการวิจัยของเรา.
ครั้งที่สอง
I-เวกเตอร์เทคนิคที่นี่เราจะอธิบายความคิดหลักที่อยู่เบื้องหลังเทคนิคฉันเวกเตอร์ Allthough การรักษาครบถ้วนสมบูรณ์ของฉันเวกเตอร์ที่สามารถพบได้ในผลงานจำนวนมาก (ดูเช่น [8] และการอ้างอิงในนั้น) เราร่างประเด็นหลักที่นี่เพื่อให้กระดาษที่จะอยู่ในตัวเอง.
การกู้ยืมข้อความจาก [10], เวกเตอร์คุณลักษณะอะคูสติก XT ∈ IRD จะเห็นเป็นตัวอย่างที่สร้างขึ้นจากรูปแบบพื้นหลังที่เป็นสากล (หรือยูบีเอ็ม) แสดงเป็นจีเอ็มเอ็กับความแปรปรวนในแนวทแยง K Gaussians
(1)
มีค่าสัมประสิทธิ์ส่วนผสม CK หมายถึงμk (0) และ covariances เส้นทแยงมุม Σk นอกจากนี้ข้อมูล XT (s) เป็นของลำโพง s ที่มาจากการกระจาย
K XT (s) ~ XckN (•; μk (s), Σk) (2)
k = 1 ที่μk (s) เป็นวิธีการของ GMM ที่ ปรับให้เข้ากับลำโพง s สาระสำคัญของอัลกอริทึมของ i-เวกเตอร์คือการสมมติการพึ่งพาอาศัยเชิงเส้นตรงระหว่างหมายถึงลำโพงปรับμk (s) และหมายถึงลำโพงอิสระμk (0)
ในรูปแบบμk (s) = μk (0) + Tkw (s ) k = 1 ... K (3)
Tk ของ D ขนาด×เอ็มเรียกว่า submatrix น้ำหนักองค์ประกอบที่สอดคล้องกับองค์ประกอบ k และน้ำหนัก (s) เป็นตัวตนของลำโพงเวกเตอร์ ("i-เวกเตอร์") ที่สอดคล้องกับ s . Tk แต่ละคนมีฐาน M ซึ่งครอบคลุมสเปซที่มีความแปรปรวนในองค์ประกอบที่สำคัญหมายถึงปริภูมิเวกเตอร์ สองคำถามที่ต้องตอบคือ (i) รับ Tk และข้อมูลลำโพง {XT (s)} ทำอย่างไรเราประเมินน้ำหนัก (s)? และ (ii) การฝึกอบรมได้รับข้อมูล {} XT ทำอย่างไรเราประเมินการฝึกอบรม Tk?
A. การประมาณค่า
I-เวกเตอร์จากมุมมองของเบย์w, จะถือว่าเป็นตัวแปรแฝงด้วย 0 หมายถึงตัวตนของความแปรปรวนกระจายเสียนก่อนและเราประเมินการกระจายหลังของน้ำหนักที่ได้รับข้อมูลลำโพง {XT (s)} คือพี (w | {XT (s)}) ภายใต้สมมติฐานของการแก้ไข (นิ่ม) การจัดตำแหน่งของเฟรมส่วนประกอบผสมก็สามารถแสดงให้เห็นว่าการกระจายหลังนี้เสียน [12]
เคพี (w | {XT (s)}) = ไม่มี (w; L-1 ( s) XTkT Σk-1θk (s), L-1 (s)) k = 1 (4) กับเมทริกซ์ที่มีความแม่นยำ L (s) ของไซส์ M × M แสดงเป็นL (5) ปริมาณที่ปรากฏใน (4) และ (5) เป็นศูนย์การสั่งซื้อและศูนย์กลางสถิติสั่งซื้อครั้งแรกและได้รับการกำหนดให้เป็นγk (s) = Xγtk (s), (6) เสื้อθk (s) = Xγtk (s) (XT (s) - μk (0 )) (7) ทีมีγtk (s) เป็นความน่าจะเป็นหลังขององค์ประกอบ k ส่วนผสมรับ XT (s) i-เวกเตอร์ที่เรากำลังมองหาเป็นเพียงแผนที่จุดประมาณการของตัวแปรน้ำหนักซึ่งเป็นค่าเฉลี่ยของการกระจายหลังจาก (4) คือK W (s) = L-1 (s) XTTk Σk-1θk (s) (8) k = 1 บี การประมาณค่าน้ำหนักองค์ประกอบเมทริกซ์รุ่น hyperparameters {T1, ... , TK} จะมีการประเมินโดยใช้วิธีอีเอ็มเพื่อเพิ่มฟังก์ชันวัตถุประสงค์ ML [13] 1 Q (T1, ... , TK) = - X γtk (s) hlog | L (s) | 2 s, เสื้อ, k + (XT (s) - μk (s)) Σk T-1 (XT (s) - μk (s)) ฉัน (9) ซึ่งสามารถเขียนได้เท่าเป็น1 Q (T1, .. . TK) = - Xhγk (s) เข้าสู่ระบบ | L (s) | 2 วินาที, k + γk (s) Tr {Σk-1Tkw (s) น้ำหนัก (s) TTTk} - 2TR {Σk-1Tkw (s) θk (s) T} i + C (10) เข้าสู่ระบบคำ | L ( s) | มาจากลอการิทึมของหนหลังที่ (w | {XT (s)}) ประเมินในน้ำหนัก (s) การมาของ (10) เกี่ยวกับการ Tk และการตั้งค่าให้ 0 นำไปสู่การเก็บรวบรวมสถิติเพียงพอ[8] Ck = Xθk (s) กับ WT (s), (11) s Ak = Xγk (s) (L-1 (s) + W (s) กับ WT (s)) (12) s ที่ L-1 (s) และน้ำหนัก (s) จะได้รับตามลำดับ (5) และ (8) ลำโพง s submatrices โหลดปัจจัยที่มีการปรับปรุงดังนี้T (13) โดยสรุปการสกัดฉันเวกเตอร์แปลงประมาณซ้ำโดยสลับกันระหว่าง E-ขั้นตอนที่ (11) (12) และ M-ขั้นตอนที่ (13). ซี บูรณาการกับ DNN ดังแสดงในรูปที่ 1 ขั้นตอนสำหรับการใช้พาหะฉันกับเครือข่ายประสาทจะเป็นดังนี้ ก่อนที่ข้อมูลลำโพง {XT (s)} สอดคล้องกับ GMM ที่จะประเมินศูนย์การสั่งซื้อและสถิติครั้งแรกที่สั่งซื้อจาก (6) และ (7) ปริมาณเหล่านี้ถูกนำมาใช้ในการประมาณการ i-W เวกเตอร์ (s) ผ่าน (5) และ (8) ถัดไป w, (s) ตัดแบ่งทุก XT กรอบ (s) ในรูปแบบการป้อนข้อมูลสำหรับการฝึกอบรมเครือข่ายประสาทหรือถอดรหัส. รูป 1. การสกัด I-เวกเตอร์และมีการป้อนข้อมูลสำหรับเครือข่ายประสาท. III ทดลองและผลดังต่อไปนี้ [1] เราดำเนินการทดลองของเราในเซต 300 ชั่วโมงของการสนทนาทางโทรศัพท์สวิตช์การพูดภาษาอังกฤษงาน รายงานผลใน testsets ที่ถูกนำมาใช้ในช่วง Hub5 2000 และ 2003 ที่อุดมไปด้วยการถอดเทปการประเมินผล Darpa ซึ่งจะเรียกว่าการประเมินผลและ Hub5'00 RT'03 ชุด testsets เหล่านี้มี 2.1 ชั่วโมงเสียง 21.4K คำและ 7.2 ชั่วโมงเสียง 76K คำตามลำดับ. เอ การประมวลผลส่วนหน้าพูดเป็นรหัสลงในกรอบ 25 มิลลิวินาทีกับกรอบกะ 10 มิลลิวินาที แต่ละเฟรมจะแสดงเป็นเวกเตอร์คุณลักษณะของการทำนายเชิงเส้น 13 การรับรู้ (PLP) สัมประสิทธิ์ Cepstral ซึ่งเป็นค่าเฉลี่ยและความแปรปรวนปกติต่อด้านการสนทนา ทุก 9 เฟรม Cepstral ติดต่อกันจะแต่งงานด้วยกันและที่คาดการณ์ลงถึง 40 มิติโดยใช้ LDA ช่วงของการเปลี่ยนแปลงนี้จะ diagonalized ต่อไปโดยวิธีการของความแปรปรวนกึ่งเชื่อมโยงทั่วโลกเปลี่ยน นอกจากนี้สำหรับคุณสมบัติ speakeradapted ที่ cepstra กำลังเหยเกกับระยะเวลาในการฟื้นฟูทางเดินเสียง (VTLN) ก่อนที่จะประกบและประมาณการ จากนั้นหนึ่งคุณลักษณะพื้นที่ MLLR (FMLLR) เปลี่ยนด้านการสนทนาต่อคำนวณด้านบนของคุณสมบัติ LDA ทั้งการฝึกอบรมและการทดสอบเวลาที่ใช้ระบบ GMM-อืม. บี สกัดฉันเวกเตอร์เราใช้เกณฑ์โอกาสสูงสุดในการฝึกอบรม 2048 40 สองมิติ GMMs แปรปรวนเส้นทแยงมุมหนึ่งสำหรับลำโพงที่เป็นอิสระและหนึ่งสำหรับชุดคุณลักษณะลำโพงที่ดัดแปลง เหล่านี้ GMMs ถูกนำมาใช้ precompute ศูนย์และสถิติสั่งซื้อครั้งแรกผ่านทาง (6) และ (7) สำหรับทุกการฝึกอบรมและการทดสอบลำโพง i-เวกเตอร์เมทริกซ์สกัด T1, ... , T2048 ถูกเริ่มต้นด้วยค่าสุ่มจากการกระจายในเครื่องแบบ [-1,1] และอยู่ที่ประมาณ 10 ซ้ำของ EM โดยสลับเพียงพอสถิติคอลเลกชัน (11), (12 ) และปรับปรุง subloading ปัจจัยเมทริกซ์ (13) เมื่อการฝึกอบรมได้รับการฝึกฝนที่เราสกัด M-มิติฉันเวกเตอร์สำหรับการฝึกอบรมและการทดสอบลำโพง ขั้นตอนนี้ซ้ำ 3 ค่าที่แตกต่างของ M: 40, 100 และ 200 สุดท้ายฉันเวกเตอร์ถูกปรับขนาดเพื่อให้พวกเขามีความแปรปรวนหน่วยประมาณกับข้อมูลการฝึกอบรมสำหรับการฝึกอบรมเครือข่ายประสาท. ซี การฝึกอบรม DNN เครือข่ายหลายคนได้รับการฝึกฝนที่แตกต่างกันในประเภทของการป้อนข้อมูลคุณสมบัติ: ลำโพงอิสระ (SI) และลำโพงปรับ (SA) และไม่ว่าจะมีการป้อนข้อมูลที่ฉันเวกเตอร์หรือไม่ ทุกเครือข่ายร่วมกันในลักษณะดังต่อไปนี้ คุณสมบัติการป้อนข้อมูลใช้บริบทชั่วคราวของ 11 เฟรมตามที่แนะนำใน [1] หมายความว่าชั้นที่นำเข้ามีทั้ง 40 × 11 + M (เอ็ม∈ {40,100,200}) หรือ 40 × 11 เซลล์ประสาทสำหรับมุ้งที่มีและไม่มีฉันเวกเตอร์ปัจจัยการผลิต . ข้อมูลการฝึกอบรมแบ่งออกสุ่มในระดับลำโพงเป็นชุดการฝึกอบรม 295 ชั่วโมงและ 5 ชั่วโมงถือออกมาตั้ง. มุ้งทั้งหมดมี 6 ชั้นที่ซ่อนอยู่กับฟังก์ชั่นการเปิดใช้งาน sigmoid: ครั้งแรกที่ 5 จาก 2,048 หน่วยและเป็นคนสุดท้ายที่มี 256 หน่วย พารามิเตอร์และลดเวลาการฝึกอบรมได้เร็ว [14] ชั้นเอาท์พุทมี 9,300 หน่วย softmax ที่สอดคล้องกับรัฐ HMM บริบทขึ้นอยู่กับการได้รับโดยการปลูกต้นไม้การตัดสินใจการออกเสียงด้วย pentaphone บริบทไขว้. ต่อไปนี้สูตรที่ระบุไว้ใน [1] ข้อมูลการฝึกอบรมเป็นแบบสุ่มอย่างเต็มที่ในระดับกรอบภายในหน้าต่าง 25 ชั่วโมงและเราได้รับการฝึกฝนมุ้งที่มีเชื้อสายลาดสุ่มใน minibatches 250 กรอบและเกณฑ์ข้ามเอนโทรปี ก่อนที่จะมีการฝึกอบรมข้ามเอนโทรปีของเครือข่ายเต็มรูปแบบที่เราใช้ pretraining จำแนก layerwise โดยใช้กวาด crossentropy หนึ่งมากกว่าข้อมูลการฝึกอบรมสำหรับเครือข่ายกลางที่ได้จากการเพิ่มชั้นที่ซ่อนอยู่ในช่วงเวลาหนึ่ง นอกจากนี้เรายังนำไปใช้ในการฝึกอบรมลำดับกระสอบฟรีสำหรับบางส่วนของเครือข่ายโดยใช้รัฐตามความเสี่ยงต่ำสุด Bayes ฟังก์ชันวัตถุประสงค์ตามที่อธิบายใน [15]. D. ไฮบริด DNN-HMM ถอดรหัสDNNs ผ่านการฝึกอบรมจะใช้โดยตรงในสถานการณ์ถอดรหัสไฮบริดโดยการลบลอการิทึมของรัฐอืมไพรเออร์ที่รูป 2. โทรศัพท์อัตราความผิดพลาดในกรอบข้อมูล heldout สำหรับ DNNs ต่างๆ. จากบันทึกของคะแนนการส่งออก DNN คำศัพท์ที่ใช้มี 30.5K คำพูดและการออกเสียง 32.8K สายพันธุ์ รูปแบบการถอดรหัสภาษาเป็น LM 4 กรัมกับ 4M n-กรัม. อี ผลการทดลองในรูปที่ 2 เราเปรียบเทียบอัตราความผิดพลาดกรอบโทรศัพท์ที่ได้รับในการออกจัดขึ้นในช่วงเอนโทรปีข้าม finetuning (เช่นหลังจาก pretraining) 4 เครือข่ายที่: DNN ใน SI มีเท่านั้น DNN ใน SI มีและ i- พาหะของมิติ 100 เป็น DNN ใน SA มีเพียงและ DNN เกี่ยวกับคุณสมบัติ SA และฉันเวกเตอร์ขนาด 100 เราสังเกตว่า DNNs กับปัจจัยฉันเวกเตอร์เป็นอย่างมากดีกว่าคนที่ผ่านการฝึกอบรมเกี่ยวกับการมี ASR เท่านั้น ที่น่าสนใจโค้งสำหรับ DNNs ฝึกอบรมเกี่ยวกับ SI มีและฉันเวกเตอร์เกือบจะแยกไม่ออกจากที่หนึ่งที่ได้จากการ DNNs ได้รับการฝึกฝนใน SA มีเดียวที่แสดงให้เห็นว่าการป้อนข้อมูลของ i-เวกเตอร์มีผลเช่นเดียวกับการเพิ่มVTLN และ FMLLR. รุ่นการฝึกอบรม Hub5 ' 00 RT'03 SWB FSH SWB DNN SI-x-เอนโทรปี 16.1% 18.9% 29.0% DNN-SI ลำดับ 14.1% 16.9% 26.5% DNN-SI + ivecs เอ็กซ์เอนโทรปี 13.9% 16.7% 25.8% DNN-SI + ivecs 12.4 ตามลำดับ % 15.0% 24.0% DNN-SA เอ็กซ์เอนโทรปี 14.1% 16.6% 25.2% DNN-SA ลำดับ 12.5% 15.1% 23.7% DNN-SA + ivecs เอ็กซ์เอนโทรปี 13.2% 15.5% 23.7% DNN-SA + ivecs ลำดับ 11.9% 14.1 % 22.3% ตารางที่ผมเปรียบเทียบคำอัตราสำหรับข้อผิดพลาดต่างๆใน DNNS HUB5 '00 และโดยไม่มี RT'03 และ HESSIAN ฟรีการฝึกอบรมลำดับ. นี้จะสะท้อนในคำว่าอัตราความผิดพลาดที่แสดงในตารางที่ผม DNN-SI + ivecs และรูปแบบ DNN-SA แสดงการรับรู้ผลการดำเนินงานที่คล้ายกันมาก (10% เมื่อเทียบปรับปรุง WER มากกว่า DNN-SI) นอกจากนี้เราสังเกตว่า DNN-SA กับผลของ i-เวกเตอร์ใน 5-6% การปรับปรุงญาติมากกว่า DNN-SA ทั้งก่อนและหลังการฝึกอบรมลำดับ กำไรจากการเติมแต่งสามารถอธิบายได้โดยการสังเกตว่าฉันเวกเตอร์สำหรับ DNN-SA ถูกสกัดโดยใช้จีเอ็มเอ็รับการฝึกอบรมเกี่ยวกับคุณสมบัติ speakeradapted เมื่อเทียบกับการใช้ยูบีเอ็มได้รับการฝึกฝนในลำโพงคุณสมบัติอิสระ D
การแปล กรุณารอสักครู่..
