Automatic processing of large-scale spoken archives has
attracted a lot of attention during the last decade. There
has been a growing interest in the development of efficient
methods enabling transcription and search of audio or
audio-video data. Nowadays, this interesting and wide
application area includes systems for transcription, indexing
and retrieval of various sources.
For example, several solutions (such as Glass et al.,
2007) have been developed to improve the quality and
accessibility of higher education by allowing students to
browse the content of (academic) lectures over Internet.
Another application is the Global Autonomous Language
Exploitation (GALE) program. Its main goal is to distill
information from publicly available broadcast sources in
multiple languages, and to make it accessible to English
speakers. In the USA, a system called SpeechFind (Hansen
et al., 2005) was developed to enable automatic processing,
indexing and browsing of the National Gallery of the SpokenWord.
Similarly in Europe, an initiative named CHoral
aims to provide public access to Dutch oral history collections
(Ordelman et al., 2006). The goal of the MALACH
project is to enable access to multilingual oral history
archives preserving the stories of survivors and witnesses
of the Holocaust (Byrne et al., 2004).
We have been working on the automatic transcription
task since 2005. In 2006, we presented the first Large
Vocabulary Continuous Speech Recognition (LVCSR)
system for automatic online monitoring of Czech broadcast
news (Nouza et al., 2006). Later, a more advanced system
was applied for the full-text search of a collection of
Czech broadcast programs (Nouza et al., 2010). One of
our current projects aims at processing, indexing and
accessing data collected in a large Czech Radio archive
which embodies an important part of Czech cultural heritage
(Nouza et al., 2012). This archive contains more than
200,000 individual recordings covering broadcasting in the
Czech Republic and former Czechoslovakia since 1923. A
large portion of this archive (100,000 h) should be transcribed
with the best possible accuracy and then indexed
to enable search.
For automatic transcription, we employ our own recognition
engine designed to cope with highly inflective Czech
language. Its lexicon has to contain more than 550,000
(550k) entries to assure an out-of-vocabulary (OOV) rate
lower than 2% for most of the recordings. In this work,
we propose an offline speaker-adaptive scheme to improve
the transcription accuracy of our ASR system for the large
spoken archive we mentioned above. In contrast to most
existing concepts, our scheme is designed with high regard
for the resulting RTF of the entire adaptation process. We
try to achieve a low RTF value because the amount of data
for processing is very high in our case and, as mentioned,
the system has to operate with a large lexicon.
This paper is organized as follows: the next section provides
an overview of related work. The entire scheme of our
speech processing framework is then presented in Section 3.
Section 4 details the speech decoding engine employed
within this work from language and acoustic modeling
point of view. An integral part of our framework is a
speaker diarization module which is described in Section 5
along with the way of its integration within the framework.
Section 6 deals with the development of an unsupervised
speaker adaptation approach which utilizes the output
from the speaker diarization module. The last Section 7
then concludes this paper.
ประมวลผลอัตโนมัติเก็บขนาดใหญ่พูดได้
ดูดมากความสนใจระหว่างทศวรรษ มี
ได้รับดอกเบี้ยเพิ่มขึ้นในการพัฒนามีประสิทธิภาพ
วิธีการเปิดใช้งานการ transcription และค้นหาเสียง หรือ
เสียงวิดีโอข้อมูล ปัจจุบัน นี้น่าสนใจ และกว้าง
แอพพลิเคชันรวมถึงระบบการ transcription ดัชนี
และดึงข้อมูลจากแหล่งต่าง ๆ
ตัวอย่าง โซลูชั่นต่าง ๆ (เช่นแก้วร้อยเอ็ด al.,
2007) ได้รับการพัฒนาปรับปรุงคุณภาพ และ
ถึงอุดมศึกษาโดยให้นักเรียน
เรียกดูเนื้อหาของการบรรยาย (วิชาการ) ผ่านอินเทอร์เน็ต
โปรแกรมประยุกต์อื่นเป็นภาษา อิสระ ทั่วโลก
เอารัดเอาเปรียบ (GALE) โปรแกรม เป้าหมายหลักที่สกัด
ข้อมูลจากแหล่งข้อมูลที่เผยแพร่เผยใน
หลายภาษา และ เพื่อให้สามารถเข้าถึงภาษาอังกฤษ
ลำโพง ในสหรัฐอเมริกา ระบบเรียกว่า SpeechFind (แฮนเซ่น
et al., 2005) ได้รับการพัฒนาเพื่อให้ประมวลผลอัตโนมัติ,
ทำดัชนี และการเรียกดูของหอศิลป์แห่งชาติของ SpokenWord
ชื่อทำนองเดียวกัน ในยุโรป ริว่า CHoral
มีวัตถุประสงค์เพื่อให้สาธารณะเข้าถึงคอลเลกชันปากดัตช์
(Ordelman และ al., 2006) เป้าหมายของ MALACH
มีการ เปิดใช้งานการเข้าถึงภาษาปาก
เก็บรักษาเรื่องราวของผู้รอดชีวิตและสืบพยาน
ของฮอโลคอสต์ (Byrne et al., 2004) .
เราได้ทำงานใน transcription อัตโนมัติ
งาน 2548 ในปี 2006 เรานำเสนอขนาดใหญ่แรก
คำศัพท์ต่อเนื่องเสียงการรับรู้ (LVCSR)
ระบบอัตโนมัติออนไลน์เฝ้าออกอากาศเช็ก
ข่าว (Nouza และ al., 2006) ภายหลัง อื่น ๆ ขั้นสูงระบบ
ถูกใช้สำหรับการค้นหาแบบเต็มชุด
เช็กออกอากาศโปรแกรม (Nouza et al., 2010) หนึ่ง
โครงการปัจจุบันของเรามีจุดมุ่งหมายในการประมวลผล ดัชนี และ
เข้าถึงข้อมูลที่เก็บไว้ในเก็บเช็กวิทยุใหญ่
ซึ่งก็เป็นส่วนสำคัญของมรดกทางวัฒนธรรมเช็ก
(Nouza et al., 2012) เก็บถาวรนี้ประกอบด้วยมากกว่า
200บันทึกแต่ละ 000 ที่ครอบคลุมการออกอากาศในการ
สาธารณรัฐเช็กและประเทศเชโกสโลวาเกียเดิมตั้งแต่ 1923 A
ส่วนใหญ่ของนี้เก็บ (100000 h) ให้ทับศัพท์
ด้วยความถูกต้องไปได้ดีที่สุด และทำดัชนีแล้ว
เพื่อให้ค้นหา
การ transcription อัตโนมัติ เราใช้การรับรู้ของเราเอง
เครื่องยนต์ที่ออกแบบมาเพื่อรับมือกับเช็ก inflective สูง
ภาษา ปทานุกรมมีมีมากกว่า 550,000
(550k) รายการมั่นใจมีอัตราออกของศัพท์ (OOV)
ต่ำกว่า 2% สำหรับส่วนใหญ่ของการบันทึก ในงานนี้,
เราเสนอแผนปรับลำโพงให้เหมาะสมเป็นแบบออฟไลน์เพื่อปรับปรุง
transcription ความถูกต้องของระบบ ASR สำหรับขนาดใหญ่
พูดเก็บที่เรากล่าวถึงข้างต้น ตรงข้ามที่สุด
แนวคิดที่มีอยู่ โครงร่างของเราถูกออกแบบมา ด้วยเคารพ
สำหรับ RTF เป็นผลลัพธ์ของกระบวนการปรับตัวทั้งหมด เรา
พยายามบรรลุตัว RTF เนื่องจากจำนวนข้อมูล
สำหรับการประมวลผลสูงมากในกรณีของเรา และ ดัง กล่าว,
ระบบมีการใช้งานกับตัวใหญ่ปทานุกรม
จัดกระดาษนี้เป็นดังนี้: หัวข้อถัดไปให้
ภาพรวมของงานที่เกี่ยวข้อง โครงร่างทั้งหมดของเรา
กรอบคำพูดการประมวลผลแล้วนำเสนอใน 3 ส่วน
มาตรา ๔ รายละเอียดเสียงที่ถอดรหัสเครื่องยนต์จ้าง
ภายในงานนี้จากภาษาและโมเดลระดับ
มอง เป็นส่วนหนึ่งของกรอบของเราคือการ
ลำโพงโมดูล diarization ที่อธิบายไว้ในส่วน 5
พร้อมกับวิธีการของการบูรณาการภายในกรอบ
6 ส่วนเกี่ยวข้องกับการพัฒนาของการ unsupervised
วิธีปรับลำโพงที่ใช้ผลผลิต
จากโมดูล diarization ลำโพง 7 ส่วนสุดท้าย
สรุปแล้ว เอกสารนี้
การแปล กรุณารอสักครู่..

การประมวลผลโดยอัตโนมัติในการจัดเก็บข้อมูลพูดขนาดใหญ่มี
ซึ่งจะช่วยดึงดูดความสนใจในระหว่างช่วงทศวรรษที่ผ่านมา ไม่มี
ซึ่งจะช่วยได้รับความสนใจมากขึ้นในการพัฒนาที่ได้จากการค้นหาและการถอดสคริปต์การเปิดใช้งาน
วิธีใดวิธีหนึ่งอย่างมี ประสิทธิภาพ ของข้อมูลเสียงหรือ
เสียง - วิดีโอ ในปัจจุบันนี้บริเวณ
ซึ่งจะช่วยแอปพลิเคชันที่น่าสนใจอย่างมากและหลากหลายนี้ประกอบด้วยระบบสำหรับการจัดทำดัชนีหรือไม่การถอดสคริปต์
และการเรียกดูวิดีโอในแหล่งต่างๆ.
ตัวอย่างเช่นโซลูชันต่างๆ(เช่นกระจก et al .,
2007 )ได้รับการพัฒนาให้มี คุณภาพ และ
ความสามารถในการเข้าถึงการศึกษาระดับอุดมศึกษาโดยให้นักเรียน
เรียกดูเนื้อหาของ(การศึกษา)การบรรยายผ่านทางอินเทอร์เน็ต.
อื่นแอปพลิเคชันที่เป็นเขตปกครองตนเองระดับโลก ภาษา
การตักตวงประโยชน์(พายุ) เป้าหมายหลักของมันคือการกลั่น
ข้อมูลจากแหล่งการถ่ายทอดจัดให้บริการในที่สาธารณะ
หลาย ภาษาและทำให้สามารถเข้าถึง ภาษาอังกฤษ
ลำโพง. ในประเทศสหรัฐอเมริกาที่ระบบที่เรียกว่า speechfind ( Hansen
ซึ่งจะช่วย et al . 2005 )ได้รับการพัฒนาขึ้นเพื่อเปิดใช้งานการประมวลผลโดยอัตโนมัติ
การจัดทำดัชนีหรือไม่และการเบราส์อินเทอร์เน็ตของ National Gallery of spokenword .
ที่ในทำนองเดียวกันในยุโรปเป็นการริเริ่มที่ชื่อว่าการร้องเพลงสวด
มีความมุ่งมั่นที่จะทำให้การเข้าถึงของสาธารณะเพื่อดัตช์ด้วยวาจาประวัติคอลเลกชัน
( ordelman et al . 2006 ) เป้าหมายของ malach
ตามมาตรฐานได้เป็นโครงการเพื่อเปิดใช้งานการเข้าใช้ข้อมูลย้อนหลังด้วยวาจาหลาย ภาษา
ซึ่งจะช่วยรักษาเรื่องการจัดเก็บข้อมูลในการสืบพยานและผู้รอดชีวิต
ของชาวยิว(นายเฮล et al . 2004 )..
เราได้ทำงานในการถอดสคริปต์อัตโนมัติ
ซึ่งจะช่วยงานมาตั้งแต่ปี 2005 ในปี 2006 เรานำเสนอระบบคำศัพท์อย่างต่อเนื่องการรู้จำเสียงพูด( lvcsr )
ขนาดใหญ่เป็นครั้งแรกสำหรับการตรวจสอบแบบออนไลน์ของคุณโดยอัตโนมัติ,สาธารณรัฐเช็ก,การถ่ายทอด
ข่าว( nouza et al . 2006 )ใน ภายหลัง ระบบขั้นสูงมากขึ้น
ถูกนำไปใช้ในการค้นหาการเขียนแบบเต็มที่มีการเก็บรวบรวมข้อมูลของโปรแกรมการถ่ายทอด
เช็ก( nouza et al . 2010 ) เป็นหนึ่งในโครงการ
ปัจจุบันของเรามีเป้าหมายในการทำดัชนีการประมวลผลและ
ซึ่งจะช่วยเก็บข้อมูลการเข้าใช้ในขนาดใหญ่,สาธารณรัฐเช็ก,วิทยุจัดเก็บ
ซึ่งโดยรวมแล้วคือส่วนสำคัญของมรดกทางวัฒนธรรม,สาธารณรัฐเช็ก,
( nouza et al . 2012 ) พื้นที่จัดเก็บถาวรนี้มีมากกว่า
200000 การบันทึกแบบเฉพาะรายครอบคลุมการให้บริการข้อมูลของสถานีฐานในสาธารณรัฐเช็กอดีตเช็กโกสโลวะเกียและ
นับตั้งแต่ปี 1923 . ส่วนขนาดใหญ่
ซึ่งจะช่วยการเก็บถาวรข้อมูล( 100 , 000 )นี้จะต้องถอดสคริปต์
พร้อมด้วยดีที่สุดเป็นไปได้และความถูกต้องแล้วทำดัชนีที่
ซึ่งจะช่วยในการเปิดใช้งานการค้นหา.
ในการถอดสคริปต์อัตโนมัติเราใช้เองการจดจำ
เครื่องยนต์ของเราได้รับการออกแบบเพื่อรองรับการใช้ ภาษา ได้ inflective เช็ก
พจนานุกรมที่ได้มีมากกว่า 550,000
( 550 กม.)รายการที่จะรับประกันได้ว่าอัตรา out - of - คำศัพท์( oov )
ซึ่งจะช่วยลดลงกว่า 2% สำหรับการบันทึกได้มากที่สุด ในงานนี้
เราเสนอโครงสร้างของลำโพงแบบปรับได้แบบออฟไลน์เพื่อปรับปรุงความถูกต้องแม่นยำการถอดสคริปต์
ซึ่งจะช่วยให้ระบบ ASR ของเราเพื่อจัดเก็บขนาดใหญ่
พูดที่เรากล่าวถึงด้านบน ในทางตรงกันข้ามกับแนวความคิดที่มีอยู่ส่วนใหญ่
โครงสร้างของเราได้รับการออกแบบพร้อมด้วยความสูง
ตามมาตรฐานสำหรับผลที่มีชีวิตและ เสรีภาพ ของกระบวนการการปรับทั้งหมด. เรา
ซึ่งจะช่วยให้ได้รับความคุ้มค่า RTF ต่ำเนื่องจากจำนวนของข้อมูล
ซึ่งจะช่วยในการประมวลผลมีสูงมากในกรณีของเราและตามที่ได้กล่าวไว้ข้างต้น
ระบบที่มีการใช้งานพร้อมด้วยพจนานุกรมขนาดใหญ่ที่.
กระดาษนี้มีการจัดเป็นส่วนถัดไปจัดให้บริการ
ภาพรวม ของงานที่เกี่ยวข้อง โครงสร้างทั้งหมดของกรอบการประมวลผล
สุนทรพจน์ของเราได้รับการนำเสนอในส่วนที่ 3 แล้ว
4 ส่วนของรายละเอียดการถอดรหัสเสียงเครื่องยนต์ที่ใช้
ภายใน งานนี้ได้จาก ภาษา และลดการเกิดเสียงรบกวนการสร้างแบบจำลอง
จุดดู. เป็นส่วนหนึ่งของเรามีกรอบที่ลำโพง diarization
โมดูลซึ่งได้อธิบายไว้ในมาตรา 5
ตามทางของการประกอบอยู่ ภายใต้ กรอบ.
มาตรา 6 ข้อตกลงที่มีการพัฒนาที่ไม่มีการตรวจสอบลำโพง
ซึ่งจะช่วยการปรับวิธีการที่ใช้เอาต์พุต
จากลำโพงที่โมดูล diarization . สุดท้ายส่วน 7
แล้วสรุปเอกสารนี้
การแปล กรุณารอสักครู่..
