Duration and phrasal pauses are two features important
to synthesizing natural speech. Mittrapiyanurak et al.
(2000b) also constructed a set of rules to predict syllable
duration for their Vaja TTS engine. Klatt’s method (Klatt,
1987) was applied to each syllable. The method first
assigned default duration by its intrinsic property to each
syllable and then the syllable duration was modified by a
set of scaling factors corresponding to each successive rule.
The intrinsic duration depended on phoneme identities in
the syllable. Scaling factors in the rule set relied on contextual
effects at the word, phrase, and sentence levels. For
example, the duration of a syllable located around the
end of a sentence is longer than that in the beginning portion
of the sentence. Following this research, when a welldesigned
speech corpus for speech synthesis was developed
two years later (Hansakunbuntheung et al., 2003b), a comprehensive
analysis of phoneme duration in Thai continuous
speech was carried out. These analysis results were
used to build a duration prediction model based on
multiple linear regression for the Vaja TTS (Hansakunbuntheung
et al., 2003a). The model computed
syllable duration by considering several factors such as
phoneme identities, syllable tone, word POS, and positions
in the word and the phrase. An objective test showed a high
correlation of 0.8 between synthesized speech and human
speech. Mixdorff et al. (2003) analyzed syllabic durations
and tones of highly ambiguous Thai phrases. A listening
test on synthetic utterances, in which syllabic durations
were controlled by a regression model and syllabic tones
and intonation were fixed, was conducted. They found a
significant improvement in disambiguation for human listeners
when the duration model was incorporated.
ระยะเวลาและกริยาวลีหยุดสองคุณสมบัติที่สำคัญ
การพูดธรรมชาติสังเคราะห์ . ีย์ เคียนสันเทียะ et al .
( 2000b ) ยังได้สร้างชุดของกฎที่จะพยากรณ์พยางค์
ระยะเวลาวาจาของ TTS เครื่องยนต์ klatt วิธีการ ( klatt
, 1987 ) คือใช้พยางค์แต่ละ วิธีแรก กำหนดระยะเวลาเริ่มต้นโดยแท้จริง
คุณสมบัติแต่ละพยางค์และหน่วยเวลาที่แก้ไขโดย
ชุดปรับองค์ประกอบที่สอดคล้องกับแต่ละกฎต่อเนื่อง .
ระยะเวลาที่แท้จริงขึ้นอยู่กับในอัตลักษณ์ใน
พยางค์ การปรับองค์ประกอบในชุดกฎอาศัยผลบริบท
ที่คำ , วลี , และระดับประโยค สำหรับ
ตัวอย่าง ระยะเวลาของพยางค์
ตั้งอยู่รอบ ๆจบประโยคนานกว่านั้นในการเริ่มต้นส่วน
ของประโยค ตามการวิจัยนี้ เมื่อ welldesigned
การพูดคลังข้อมูลสำหรับการสังเคราะห์การพัฒนา
สองปีต่อมา ( hansakunbuntheung et al . , 2003b ) , การวิเคราะห์ที่ครอบคลุมของเวลาในไทย
คำพูดต่อเนื่อง มีการ ผลการวิเคราะห์เหล่านี้
ใช้สร้างแบบจำลองการทำนายระยะเวลาขึ้นอยู่กับ
สมการถดถอยสำหรับวาจา TTS ( hansakunbuntheung
et al . , 2003a ) แบบจำลองการคำนวณ
ระยะเวลาพยางค์โดยพิจารณาปัจจัยหลายประการเช่น
ติดตามตัวตน โทนเนอร์ คำ พยางค์ และตำแหน่ง
ในคำและวลี ทดสอบวัตถุประสงค์พบความสัมพันธ์สูง
0.8 ระหว่างเสียงพูดสังเคราะห์และคำพูดของมนุษย์
mixdorff et al . ( 2003 ) ใช้ระยะเวลา
พยางค์และเสียงสูงที่ไทยวลี ฟังเพลง
ทดสอบความ สังเคราะห์ ซึ่งระยะเวลา
พยางค์ถูกควบคุมโดยแบบจำลองการถดถอยและเสียงและทำนองเสียงเป็นพยางค์
แก้ไขเป็น พวกเขาพบ
สําคัญในการปรับปรุงแก้ความกำกวมสำหรับมนุษย์ผู้ฟัง
เมื่อระยะเวลารุ่นถูกจัดตั้งขึ้น
การแปล กรุณารอสักครู่..
