Fig. 2. Word error rate histogram o

Fig. 2. Word error rate histogram of BN utterances and videos. We built a Good-Turing smoothed 4-gram on the News data and measured a 509 perplexity on the election test set as opposed to the 174 we obtained with the baseline language model. This clearly shows that the transcripts of the speeches differs quite signiﬁcantly in style from the political news content. Computing a perplexity minimizing mixing weight, we interpolated the News and baseline LM with a 0.11 weight, marginally improving the perplexity.
In addition, we added all lexical items seen in the News sam- ple but not present in our BN baseline vocabulary. This expanded our vocabulary from 71k to 88k. Pronunciations for the new lexical items were generated by Pronunciation By Analogy [7] which was trained on the base Pronlex derived vocabulary7 . Although this per- formed well on important novel lexical items like “superdelegate”, it did poorly on some of the names. For example “Barack” was ini- tially “/b/ /ae/ /r/ /ae/ /k/” as opposed to “/b/ /aa/ /r/ /aa/ /k/” and “Putin” was “/p/ /ah/ /t/ /ih/ /n/” as opposed to “/p/ /uw/ /t/ /ih/ /n/”. We manually checked and corrected the most frequent items from the test set. The resulting adapted system obtained a 36.4% WER and the OOV rate of 0.5%.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

รูป 2 คำผิดพลาดฮิสโตแกรมราคา utterances พันล้านและวิดีโอ เราสร้างความดีทัวริงที่โค้ง 4 กรัมข้อมูลข่าวสาร และวัด perplexity 509 ในการเลือกตั้งที่ตั้งตรงข้ามกับ 174 เรารับ ด้วยรูปแบบภาษาพื้นฐาน อย่างนี้แสดงว่า ใบของสุนทรพจน์แตกต่างค่อนข้าง signiﬁcantly ในสไตล์จากเนื้อหาข่าวการเมือง Perplexity ลดน้ำหนักผสมการใช้งาน เราเอกสารข่าวและพื้นฐานที่ LM มีน้ำหนัก 0.11, perplexity ในการปรับปรุงเล็กน้อยนอกจากนี้ เราเพิ่มรายการเกี่ยวกับคำศัพท์ทั้งหมดที่เห็นในข่าวสาม-ple แต่ไม่นำเสนอคำศัพท์พื้นฐานพันล้านของเรา นี้ขยายคำศัพท์ของเราจาก 71k กับ 88k ออกเสียงจากคำใกล้เคียงสินค้าใหม่ถูกสร้างขึ้น โดยการออกเสียงโดยเปรียบเทียบ [7] ซึ่งเป็นการฝึกอบรม vocabulary7 มา Pronlex ฐาน แม้ว่านี้ต่อ - รูปแบบดีในนวนิยายเกี่ยวกับคำศัพท์รายการที่สำคัญเช่น "superdelegate" มันก็ดีในบางชื่อ ตัวอย่างเช่น "Barack" ถูก ini - tially "/b/ /ae/ /r/ /ae//k "ถึง "/b/ /aa/ /r/ /aa//k /" และ "ปู" เป็น "/p/ /ah/ /t/ /ih/ n /" ไม่ใช่ "/p/ /uw/ /t/ /ih/ n /" เราด้วยตนเองการตรวจสอบ และแก้ไขรายการบ่อยที่สุดจากชุดทดสอบ ผลปรับระบบรับเป็น 36.4% น้อและอัตรา OOV 0.5%

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

มะเดื่อ. 2. โปรแกรม Word histogram อัตราความผิดพลาดของคำพูด BN และวิดีโอ เราสร้างดีทัวริงเรียบ 4 กรัมในข้อมูลข่าวสารและวัดความฉงนสนเท่ห์ 509 ในการทดสอบการเลือกตั้งตั้งเมื่อเทียบกับ 174 เราได้รับกับรูปแบบภาษาพื้นฐาน นี้แสดงให้เห็นชัดเจนว่าเทปกล่าวสุนทรพจน์ที่แตกต่างอย่างมีนัยสำคัญมากในรูปแบบจากเนื้อหาข่าวการเมือง คอมพิวเตอร์ฉงนสนเท่ห์การลดน้ำหนักผสมเราหยันข่าวและพื้นฐาน LM มีน้ำหนัก 0.11 เล็กน้อยปรับปรุงฉงนสนเท่ห์ได้.
นอกจากนี้เราได้เพิ่มคำศัพท์ทั้งหมดที่เห็นในข่าวตัวอย่างทดสอบไว้ PLE แต่ไม่ได้อยู่ในคำศัพท์พื้นฐานของเรา BN นี้ขยายคำศัพท์ของเราจาก 71K เพื่อ 88k ออกเสียงสำหรับรายการคำศัพท์ใหม่ที่ถูกสร้างขึ้นโดยการออกเสียงโดยการเปรียบเทียบ [7] ซึ่งได้รับการฝึกอบรมเกี่ยวกับ vocabulary7 ฐาน Pronlex มา แม้ว่านี่ละที่เกิดขึ้นได้ดีในรายการคำศัพท์ที่สำคัญนวนิยายเช่น "superdelegate" มันก็ไม่ดีในบางส่วนของชื่อ ยกตัวอย่างเช่น "รักโอบามา" เป็น tially เริ่มแรก "/ b / / AE / / R / / AE / / K /" เมื่อเทียบกับ "/ b / / AA / / R / / AA / / K /" และ "ปูติน" คือ "/ p / / อา / / T / / IH / / n /" เมื่อเทียบกับ "/ p / / UW / / T / / IH / / n /" เราตนเองตรวจสอบและแก้ไขรายการที่พบบ่อยที่สุดจากชุดทดสอบ ส่งผลให้ระบบการดัดแปลงได้รับ 36.4% WER และอัตรา OOV 0.5%

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

รูปที่ 2 อัตราความผิดพลาดของความถี่ของคำได้แก่ BN และวิดีโอ เราสร้างแนวทางปฏิบัติที่ดีเรียบ 4-gram ข้อมูลข่าวและวัด 509 ความฉงนสนเท่ห์ในการเลือกตั้งชุดทดสอบเป็นนอกคอกเราได้รับกับฐานแบบจำลองภาษา นี้แสดงให้เห็นชัดเจนว่า หลักฐานของการกล่าวสุนทรพจน์ที่แตกต่างค่อนข้าง signi จึงลดลงอย่างมีนัยสําคัญเมื่อในสไตล์จากข่าวการเมืองข้อมูล การคำนวณการลดน้ำหนักอย่างงุนงงผสม เราขัดข่าวและพื้นฐาน LM กับ 0.11 น้ำหนักที่ปรับปรุงเล็กน้อยอย่างงุนงงเราได้เพิ่ม จำนวนรายการทั้งหมดที่เห็นในข่าว แซม - เปิ้ล แต่ไม่ได้อยู่ในกลุ่มของเราต่อศัพท์ นี้ขยายคำศัพท์ของเราจากการ 88k 71 K . การออกเสียงสำหรับใหม่จากรายการถูกสร้างขึ้นโดยการออกเสียงโดยอนุโลม [ 7 ] ซึ่งได้รับการฝึกอบรมบนฐาน pronlex ได้มา vocabulary7 . แม้ว่านี้ต่อขึ้นได้ดีในที่สำคัญรายการคำศัพท์ใหม่อย่าง " superdelegate " มันทำงานในบางส่วนของชื่อ ตัวอย่างเช่น " บารัค " นี้ - tially " / B / / เอ / / r / / เอ / / K / " เป็นนอกคอก " / B / / AA / / r / / AA / / K / " และ " ปูติน " คือ " / P / / อ่า / / T / / hee / / / / " เป็นนอกคอก " / P / / UW / / T / / ค่า / / / / " เราเองการตรวจสอบ และแก้ไขรายการที่ใช้บ่อยที่สุดจากการทดสอบชุด ผลที่ได้คือปรับระบบ 36.4% และ OOV อัตรา 0.5%

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.