Language models are used to represent text in a variety of language te การแปล - Language models are used to represent text in a variety of language te ไทย วิธีการพูด

Language models are used to represe

Language models are used to represent text in a variety of language technologies, such as speech recognition, machine translation, and handwriting recognition.
The simplest form of language model, known as a unigram language model, is a probability distribution over the words in the language. This means that the language model associates a probability of occurrence with every word in the index vocabulary for a collection. For example, if the documents in a collection contained just five different words, a possible language model for that collection might be (0.2, 0.1, 0.35, 0.25, 0.1), where each number is the probability of a word occurring. If we treat each document as a sequence of words, then the probabilities in the language model predict what the next word in the sequence will be.
For example, if the five words in our language were “girl”, “cat”, “the”, “boy”, and “touched”, then the probabilities predict which of these words will be next. These words cover all the possibilities, so the probabilities must add to 1. Because this is a unigram model, the previous words have no impact on the prediction. With this model, for example, it is just as likely to get the sequence “girl cat” (probability
0.2 × 0.1) as “girl touched” (probability 0.2 × 0.1).
In applications such as speech recognition, n-gram language models that predict words based on longer sequences are used. An n-gram model predicts a word based on the previous n − 1 words. The most common n-gram models are bigram (predicting based on the previous word) and trigram (predicting based on the previous two words) models. Although bigram models have been used in information retrieval to represent two-word phrases (see section 4.3.5), we focus our discussion on unigram models because they are simpler and have proven to be very effective as the basis for ranking algorithms.
0/5000
จาก: -
เป็น: -
ผลลัพธ์ (ไทย) 1: [สำเนา]
คัดลอก!
โมเดลภาษาจะใช้เพื่อแสดงข้อความในหลากหลายภาษาเทคโนโลยี ความรู้ แปลภาษาด้วยเครื่อง การรู้จำลายมือแบบที่เรียกว่าภาษารูป unigram ภาษารูปแบบที่ง่ายที่สุดคือ การกระจายความน่าเป็นกลุ่มคำในภาษา ซึ่งหมายความ ว่า แบบภาษาความน่าเป็นของเหตุการณ์ที่เชื่อมโยงกับทุกคำในศัพท์ดัชนีสำหรับคอ ตัวอย่างเช่น ถ้าเอกสารในคอลเลกชันประกอบด้วยคำแตกต่างกันเพียงห้า แบบจำลองภาษาที่เป็นไปได้ที่อาจ (0.2, 0.1, 0.35, 0.25, 0.1) , ซึ่งแต่ละหมายเลขเป็นความน่าเป็นคำที่เกิดขึ้น ถ้าเราเก็บเอกสารแต่ละฉบับเป็นลำดับของคำ แล้วน่าจะในรูปแบบภาษาทายคำถัดไปในลำดับที่จะเช่น ถ้า 5 คำในภาษาของเรา "girl" "แมว" "", "บอย" และ "สัมผัส" แล้วน่าจะการทายซึ่งคำเหล่านี้จะถัดไป คำเหล่านี้ครอบคลุมเพื่อ ดังนั้นที่น่าจะต้องเพิ่มไป 1 เนื่องจากเป็นรูปแบบ unigram คำก่อนหน้ามีไม่ส่งผลกระทบในการคาดการณ์ แบบนี้ เช่น มีแนวโน้มจะได้รับ "สาวแมว" ตามลำดับ (ความน่าเป็น0.2 × 0.1) เป็น "สาวสัมผัส" (น่าเป็น 0.2 × 0.1)ในโปรแกรมประยุกต์เช่นการรู้จำเสียง จะใช้รุ่น n กรัมภาษาที่ทำนายคำตามลำดับอีกต่อไป แบบ n กรัมคาดการณ์คำอิง− n การก่อนหน้า 1 คำ รุ่น n กรัมพบมากที่สุดคือ bigram (ทำนายตามคำก่อนหน้า) และรุ่น trigram รูป (ทำนายอิงสองคำก่อนหน้า) แม้ว่า bigram รุ่นถูกใช้ในการเรียกข้อมูลเพื่อเป็นตัวแทนวลีคำสอง (ดูส่วน 4.3.5), เรามุ่งเน้นสนทนาของเรารุ่น unigram เนื่องจากพวกเขาจะง่าย และได้พิสูจน์แล้วว่ามีประสิทธิภาพมากเป็นพื้นฐานของอัลกอริทึมการจัดอันดับ
การแปล กรุณารอสักครู่..
ผลลัพธ์ (ไทย) 2:[สำเนา]
คัดลอก!
รุ่นภาษาที่ใช้แทนข้อความในความหลากหลายของเทคโนโลยีภาษาเช่นการรู้จำเสียงเครื่องแปลภาษาและการเขียนด้วยลายมือ.
รูปแบบที่ง่ายของรูปแบบภาษาที่รู้จักกันเป็นรูปแบบภาษา unigram คือการกระจายความน่าจะเป็นมากกว่าคำในภาษา . ซึ่งหมายความว่ารูปแบบภาษาที่เชื่อมโยงความน่าจะเป็นของการเกิดขึ้นกับคำในคำศัพท์ดัชนีทุกคอลเลกชัน ตัวอย่างเช่นถ้าเอกสารในคอลเลกชันที่มีอยู่เพียงห้าคำที่แตกต่างกันรูปแบบภาษาที่ใช้ได้สำหรับคอลเลกชันที่อาจจะ (0.2, 0.1, 0.35, 0.25, 0.1) ซึ่งแต่ละหมายเลขหาความน่าจะเป็นคำที่เกิดขึ้น ถ้าเรารักษาเอกสารแต่ละเป็นลำดับของคำแล้วน่าจะเป็นในรูปแบบภาษาทำนายสิ่งที่คำในลำดับถัดไปจะเป็น.
ตัวอย่างเช่นถ้าห้าคำในภาษาของเราเป็น "สาว", "แมว" ที่ " "," เด็ก "และ" สัมผัส "จากนั้นน่าจะเป็นที่คาดการณ์ของคำเหล่านี้จะเป็นต่อไป คำพูดเหล่านี้ครอบคลุมความเป็นไปได้ทั้งหมดดังนั้นน่าจะต้องเพิ่มเป็น 1 เพราะนี่คือรูปแบบ unigram เป็นคำพูดก่อนหน้านี้มีผลกระทบต่อการทำนายไม่มี ด้วยรูปแบบนี้เช่นมันเป็นเพียงเป็นโอกาสที่จะได้รับตามลำดับ "แมวสาว" (ที่น่าจะเป็น
0.2 × 0.1) ขณะที่ "หญิงสาวสัมผัส" (น่าจะเป็น 0.2 × 0.1).
ในการใช้งานเช่นการรู้จำเสียง N-กรัมรุ่นภาษา ว่าคำพูดทำนายตามลำดับมีการใช้อีกต่อไป รูปแบบ N-กรัมคาดการณ์คำขึ้นอยู่กับ n ก่อนหน้า - 1 คำ ที่พบมากที่สุดรุ่น N-กรัมมี bigram (ทำนายบนพื้นฐานของคำก่อนหน้า) และไตรแกรม (ขึ้นอยู่กับการคาดการณ์ก่อนหน้านี้สองคำ) รุ่น แม้ว่ารุ่น bigram มีการใช้ในการดึงข้อมูลจะเป็นตัวแทนของวลีสองคำ (ดูหัวข้อ 4.3.5) เรามุ่งเน้นการสนทนาของเราในรูปแบบ unigram เพราะพวกเขาจะง่ายและได้พิสูจน์แล้วว่ามีประสิทธิภาพมากเป็นพื้นฐานสำหรับการจัดอันดับอัลกอริทึม
การแปล กรุณารอสักครู่..
ผลลัพธ์ (ไทย) 3:[สำเนา]
คัดลอก!
แบบภาษาใช้แสดงข้อความในความหลากหลายของเทคโนโลยี เช่น เครื่องแปลภาษา การรู้จำเสียงพูด และการเขียนด้วยลายมือ .รูปแบบที่ง่ายที่สุดของรูปแบบภาษา เรียกว่า unigram ภาษาแบบจำลอง คือ การแจกแจงความน่าจะเป็น มากกว่าถ้อยคำในภาษา ซึ่งหมายความว่าภาษาแบบจำลองความน่าจะเป็นของการเกิดร่วมกับทุกถ้อยคำในดัชนีคำศัพท์สำหรับคอลเลกชัน ตัวอย่างเช่น ถ้าเอกสารคอลเลกชันที่มีอยู่แค่ 5 คำที่แตกต่างกัน , รูปแบบภาษาเป็นไปได้สำหรับคอลเลกชันอาจจะ ( 0.2 0.1 0.1 , 0.25 , 0.35 ) ซึ่งแต่ละหมายเลขมีความน่าจะเป็นของคำที่เกิดขึ้น ถ้าเราถือเอกสารแต่ละเป็นลำดับของคำแล้วความน่าจะเป็นในภาษาแบบจำลองทำนายว่าต่อไปในลำดับที่จะตัวอย่างเช่น ถ้าห้าคำในภาษาของเรา คือ " ผู้หญิง " , " แมว " , " " , " บอย " และ " สัมผัส " แล้วความน่าจะเป็นคาดการณ์ซึ่งคำเหล่านี้จะเป็นรายต่อไป คำเหล่านี้ครอบคลุมความเป็นไปได้ทั้งหมด ดังนั้นอาจต้องเพิ่ม 1 เพราะนี่เป็น unigram รูปแบบคำก่อนหน้าไม่มีผลกระทบกับคำทำนาย ด้วยรูปแบบนี้ ตัวอย่างเช่น มันเป็นเพียงแนวโน้มที่จะได้รับการเรียงลำดับ " สาวแมว " ( ความน่าจะเป็น2 × 0.1 ) เป็น " สาวสัมผัส " ( ความน่าจะเป็น 2 × 0.1 )ในการใช้งาน เช่น การพูด การรับรู้ภาษา n-gram โมเดลพยากรณ์ตามลําดับคํายาวใช้ การ n-gram แบบจำลองคาดการณ์คำขึ้นอยู่กับก่อนหน้านี้ n − 1 คำ รุ่น n-gram ส่วนใหญ่เป็น bigram ( ทำนายตามคำก่อนหน้า ) และไตรแกรม ( ทำนายจากก่อนหน้านี้สองคำ ) รุ่น แม้ว่ารูปแบบ bigram ได้ถูกใช้ในการดึงข้อมูลมาแสดงสองวลีคำ ( ดูมาตรา 4.3.5 ) เราเน้นการสนทนาของเราในรูปแบบ unigram เพราะพวกเขาจะง่ายกว่า และได้พิสูจน์ให้มีประสิทธิภาพมากเป็นพื้นฐานสำหรับขั้นตอนวิธีการจัดอันดับ
การแปล กรุณารอสักครู่..
 
ภาษาอื่น ๆ
การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.

Copyright ©2025 I Love Translation. All reserved.

E-mail: