2.1.1. Position and orientation
The information about the relative position and orientation
of the speaker and microphone may be used for CS.
Speech should be less distorted by reverberation if the
microphone is closer to the speaker. The closest microphone
may be, for instance, selected by measuring the time
of arrival of the waveform. However, it was shown byWolf
and Nadeu (2010) that the information about the orientation
is also important. This is mainly due to the attenuation
of the signal by the head of the speaker, and the fact that
speech used in training is usually recorded by a microphone
in front of the speaker. Both position and orientation may
be estimated either from multi-microphone audio processing,
multi-camera video processing, or a combination of
both. In any case, CS would have to rely on the output
of another system, that may not always provide accurate
measures and the knowledge about the positions of the
microphones is needed, what puts additional demands on
the system deployment.
2.1.2. Energy and signal-to-noise ratio
Another straightforward way to identify the least distorting
channel could be the energy of the signal. A strong
signal indicates that the sound was uttered with the speaker
close and oriented towards the microphone, so the direct
wave is presumably stronger relative to the reverberation.
This very simple approach may achieve good results (Wolf
and Nadeu, 2010), but one strong assumption must be
made. In multi-microphone scenarios, attenuation in the
electrical path among microphones varies for reasons like
different wire length, varying volume set on preamplifier,
etc. If we want to use signal energy as a reliable indicator
of the signal quality, a perfect calibration of all microphones
is needed, which is not a trivial task.
The problem of calibration could be avoided if the
energy of the speech signal was normalized, for example,
by the energy of the noise in the silent portions (assuming
that some additive noise is present). This leads us to a signal
to noise ratio (SNR). CS based on this measure was
evaluated by Obuchi (2004) and Wo¨ lfel et al. (2006). If
speech is recorded by distant-talking microphones, reverberation
is often the dominant source of distortion. A
problem associated to the use of the SNR is that it does
not properly reflect that kind of distortion. Furthermore,
an accurate SNR measurement can be hardly obtained,
since the boundaries between the speech signal and the
silent portions, where the noise power can be estimated,
are less clear after the smearing effect of reverberation.
Another disadvantage of energy-based measures in general
is that they do not consider the specific characteristics of
the speech signal (only its energy).
2.1.1 ตำแหน่งและการวางแนว
รายละเอียดเกี่ยวกับตำแหน่งและการวางแนว
ของลำโพงและไมโครโฟนสามารถใช้สำหรับเอส
ผิดคำพูดควรจะไม่เพี้ยน โดย reverberation ถ้า
ไมโครโฟนจะใกล้ชิดกับผู้นั้น ไมโครโฟนสุด
เช่น สามารถ เลือกอาจ โดยการวัดเวลา
ของถือของรูปคลื่นได้ อย่างไรก็ตาม มันถูกแสดง byWolf
และ Nadeu (2010) ที่ข้อมูลเกี่ยวกับการวางแนว
ความสำคัญ นี้เป็นส่วนใหญ่เนื่องจากการอ่อน
ของสัญญาณโดยหัวลำโพงที่ และความจริงที่
มักจะมีบันทึกเสียงที่ใช้ในการฝึกอบรม โดยไมโครโฟน
หน้าลำโพงที่ ตำแหน่งและการวางแนวอาจ
จะประเมินจากการประมวลผลเสียงไมโครโฟนหลาย,
ประมวลผลวิดีโอกล้องหลาย หรือใช้
ทั้งสอง , CS จะต้องพึ่งพาผลผลิต
ระบบอื่น ซึ่งอาจจะมีถูกต้อง
มาตรการและรู้ตำแหน่งของ
ไมโครโฟนเป็นสิ่งจำเป็น อะไรทำให้ความต้องการเพิ่มเติมใน
จัดวางระบบ
2.1.2 อัตราส่วนพลังงานและสัญญาณเสียง
อีกตรงวิธีเพื่อระบุ distorting น้อย
ช่องอาจเป็นพลังงานของสัญญาณ แรง
สัญญาณบ่งชี้ว่า เสียงที่พูดกับผู้
ปิด และเน้นไปทางไมโครโฟน ดังนั้นตรง
คลื่นจะแข็งแกร่งน่าจะเทียบ reverberation
วิธีนี้ง่ายมากอาจให้ผลลัพธ์ที่ดี (หมาป่า
และ Nadeu, 2010), แต่หนึ่งในอัสสัมชัญที่แข็งแกร่งต้อง
ทำได้ ในสถานการณ์หลายไมโครโฟน ลดทอนในการ
เส้นทางไฟฟ้าระหว่างไมโครโฟนการแตกต่างกันไปสำหรับเหตุผลชอบ
ความยาวสายที่แตกต่างกัน แตกต่างกันที่ระดับเสียงที่ตั้งบนเครื่องขยายกำลังสัญญาณ,
เป็นต้น ถ้าเราต้องการใช้พลังงานของสัญญาณเป็นตัวบ่งชี้ที่เชื่อถือได้
คุณภาพสัญญาณ การปรับเทียบไมโครโฟนทั้งหมดสมบูรณ์แบบ
จำเป็น ซึ่งไม่ได้เป็นเล็กน้อยงาน
สามารถหลีกเลี่ยงปัญหาของการปรับเทียบถ้าการ
พลังงานของสัญญาณเสียงได้ตามปกติ เช่น,
โดยพลังงานของเสียงในส่วนเงียบ (สมมติว่า
บางเสียงสามารถอยู่) นี้นำเราไปสู่สัญญาณ
อัตราส่วนสัญญาณรบกวน (SNR) CS ตามวัดนี้ถูก
ประเมิน โดย Obuchi (2004) และ Wo¨ lfel et al. (2006) ถ้า
บันทึกเสียง โดยไมโครโฟนพูดไกล reverberation
มักจะเป็นแหล่งที่มาหลักของความผิดเพี้ยน A
ปัญหาที่เกี่ยวข้องกับการใช้ของโร้คเป็นมันไม่
แสดงว่า ชนิดของความผิดเพี้ยนไม่ถูกต้อง นอกจากนี้,
วัด SNR ที่ถูกต้องไม่ได้,
ตั้งแต่รอยต่อระหว่างสัญญาณเสียงและ
บางส่วนที่เงียบ ที่พลังเสียงความ,
จะหักล้างหลังจากลักษณะพิเศษ smearing ของ reverberation
วัดอื่นข้อเสียของใช้พลังงานโดยทั่วไป
คือ ว่า พวกเขาไม่พิจารณาคุณลักษณะเฉพาะของ
สัญญาณเสียง (เฉพาะพลังงาน)
การแปล กรุณารอสักครู่..
