For search applications, we use lan

For search applications, we use language models to represent the topical content
of a document. A topic is something that is talked about often but rarely defined
in information retrieval discussions. In this approach, we define a topic as a
probability distribution over words (in other words, a language model). For example,
if a document is about fishing in Alaska, we would expect to see words associated
with fishing and locations in Alaska with high probabilities in the language
model. If it is about fishing in Florida, some of the high-probability words will be
the same, but there will be more high probability words associated with locations
in Florida. If instead the document is about fishing games for computers, most of
the high-probability words will be associated with game manufacturers and computer
use, although there will still be some important words about fishing. Note
that a topic language model, or topic model for short, contains probabilities for all
words, not just the most important. Most of the words will have “default” probabilities
that will be the same for any text, but the words that are important for the
topic will have unusually high probabilities.
A language model representation of a document can be used to “generate” new
text by sampling words according to the probability distribution. If we imagine
the language model as a big bucket of words, where the probabilities determine how many instances of a word are in the bucket, then we can generate text by
reaching in (without looking), drawing out a word, writing it down, putting the
word back in the bucket, and drawing again. Note that we are not saying that we
can generate the original document by this process. In fact, because we are only
using a unigram model, the generated text is going to look pretty bad, with no
syntactic structure. Important words for the topic of the document will, however,
appear often. Intuitively, we are using the language model as a very approximate
model for the topic the author of the document was thinking about when he was
writing it.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

สำหรับการใช้งานค้นหา เราใช้รุ่นภาษาเพื่อแสดงเนื้อหาเฉพาะของเอกสาร หัวข้อเป็นสิ่งที่จะคุยกันบ่อย แต่ไม่ค่อยกำหนดในการเรียกข้อมูล ในวิธีนี้ เรากำหนดหัวข้อตามการกระจายความน่าเป็นมากกว่าคำพูด (ในคำอื่น ๆ แบบจำลองภาษา) ตัวอย่างเช่นถ้าเป็นเอกสารเกี่ยวกับการประมงในอลาสก้า เราคาดหวังว่าจะเห็นคำที่เกี่ยวข้องตกปลาและสถานที่ในอลาสกา ด้วยน่าจะสูงในภาษารุ่น ถ้าเป็นเกี่ยวกับการประมงในฟลอริดา บางคำน่าเป็นสูงที่จะเหมือนกัน แต่จะมีคำศัพท์น่าจะสูงเกี่ยวข้องกับสถานในฟลอริด้า ถ้าแทน เอกสารเกี่ยวกับเกมตกปลาสำหรับคอมพิวเตอร์ ส่วนใหญ่คำที่น่าเป็นสูงที่จะเชื่อมโยงกับผู้ผลิตเกมและคอมพิวเตอร์ใช้ แม้ว่าจะยังคงมีบางคำที่สำคัญเกี่ยวกับการประมง หมายเหตุว่า เป็นรุ่นภาษาหัวข้อ หรือรุ่นหัวข้อสั้น ๆ ประกอบด้วยน่าจะทั้งหมดคำ ไม่สำคัญเพียงมากที่สุด ส่วนใหญ่ของคำจะมีน่าจะเริ่มต้น"ที่จะเหมือนกันสำหรับข้อความใด ๆ แต่คำที่มีความสำคัญสำหรับการหัวข้อน่าจะสูงผิดปกติจะได้การแสดงรูปแบบภาษาของเอกสารที่สามารถใช้เพื่อ "สร้าง" ใหม่ข้อความ โดยคำตามการแจกแจงความน่าเป็นการสุ่มตัวอย่าง ถ้าเราจินตนาการรูปแบบภาษาเป็นถังใหญ่คำ ซึ่งน่าที่จะกำหนดจำนวนอินสแตนซ์ของคำที่อยู่ในถัง แล้วเราสามารถสร้างข้อความโดยถึงใน (โดยไม่มอง), แบบคำ เขียนลง วางของword ในถัง และวาดอีกครั้ง หมายเหตุว่า เราไม่ได้บอกที่เราสามารถสร้างเอกสารต้นฉบับตามกระบวนการนี้ ในความเป็นจริง เพราะเราเป็นเพียงโดยใช้แบบจำลอง unigram ข้อความที่สร้างจะไปดูสวยดี ไม่มีโครงสร้างทางไวยากรณ์ คำสำคัญสำหรับหัวข้อของเอกสารจะ อย่างไรก็ตามมักจะปรากฏขึ้น สังหรณ์ใจ เราจะใช้รูปแบบภาษาเป็นประมาณมากรุ่นสำหรับผู้เขียนของเอกสารหัวข้อคิดเกี่ยวกับเมื่อเขาเขียนมัน

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

สำหรับการใช้งานการค้นหาเราใช้ภาษาแบบจำลองเพื่อเป็นตัวแทนของเนื้อหาเฉพาะ
ของเอกสาร หัวข้อที่เป็นสิ่งที่มักจะพูดคุยเกี่ยวกับ แต่ไม่ค่อยที่กำหนดไว้
ในการอภิปรายการดึงข้อมูล ในวิธีการนี้เรากำหนดหัวข้อว่าด้วย
การกระจายความน่าจะเป็นมากกว่าคำ (ในคำอื่น ๆ รูปแบบภาษา) ตัวอย่างเช่น
ถ้าเอกสารเกี่ยวกับการประมงในอลาสกาที่เราคาดว่าจะเห็นคำที่เกี่ยวข้อง
กับการประมงและสถานที่ในอลาสก้าที่มีความน่าจะเป็นสูงในภาษาที่
รูปแบบ ถ้ามันเป็นเรื่องเกี่ยวกับการประมงในฟลอริด้า, บางส่วนของคำสูงน่าจะเป็นจะ
เหมือนกัน แต่จะมีคำพูดน่าจะสูงมากขึ้นที่เกี่ยวข้องกับสถานที่
ในฟลอริด้า แต่ถ้าเอกสารที่เป็นเรื่องเกี่ยวกับเกมตกปลาสำหรับคอมพิวเตอร์ส่วนใหญ่ของ
คำสูงน่าจะเป็นจะถูกเชื่อมโยงกับผู้ผลิตเกมคอมพิวเตอร์และ
การใช้งานแม้ว่าจะยังคงมีบางคำที่สำคัญเกี่ยวกับการประมง ทราบ
ว่ารูปแบบภาษาหัวข้อหรือรุ่นหัวข้อสำหรับระยะสั้นมีความน่าจะเป็นสำหรับทุก
คำไม่ได้เป็นเพียงสิ่งที่สำคัญที่สุด มากที่สุดของคำจะมีความน่าจะเป็น "เริ่มต้น"
ที่จะเป็นเหมือนกันสำหรับข้อความใด ๆ แต่คำพูดที่มีความสำคัญสำหรับ
หัวข้อจะมีความน่าจะเป็นสูงผิดปกติ.
การแสดงรูปแบบภาษาของเอกสารสามารถใช้ในการ "สร้าง" ใหม่
ข้อความ โดยการสุ่มตัวอย่างคำตามการกระจายความน่าจะเป็น ถ้าเราคิด
รูปแบบภาษาที่เป็นถังใหญ่ของคำพูดที่น่าจะเป็นตัวกำหนดวิธีการหลาย ๆ กรณีของคำที่อยู่ในถังแล้วเราสามารถสร้างข้อความด้วยการ
เข้าถึงใน (โดยไม่ได้มอง) วาดออกคำเขียนมันลง วาง
คำกลับมาอยู่ในถังและการวาดภาพอีกครั้ง โปรดทราบว่าเราไม่ได้บอกว่าเรา
สามารถสร้างเอกสารต้นฉบับโดยกระบวนการนี้ ในความเป็นจริงเพราะเราเป็นเพียงการ
ใช้รูปแบบ unigram ข้อความที่สร้างขึ้นจะไปดูไม่ดีงามที่ไม่มี
โครงสร้างประโยค คำสำคัญสำหรับหัวข้อของเอกสารที่จะ แต่
ปรากฏบ่อย สังหรณ์ใจเราจะใช้รูปแบบภาษาที่เป็นตัวอย่างมาก
แบบจำลองสำหรับหัวข้อที่ผู้เขียนของเอกสารที่คิดเกี่ยวกับเมื่อตอนที่เขา
เขียนมัน

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

สำหรับการใช้งานการค้นหา เราใช้แบบภาษาเพื่อแสดงเนื้อหาเฉพาะของเอกสาร หัวข้อคือสิ่งที่คุยกันบ่อยแต่ไม่ค่อยชัดเจนในการดึงข้อมูล ในแนวทางนี้ เรากำหนดหัวข้อเป็นการแจกแจงความน่าจะเป็นมากกว่าคำพูด ( ในคำอื่น ๆ , แบบจำลองภาษา ) ตัวอย่างเช่นถ้าเอกสารเกี่ยวกับตกปลาในอลาสก้า เราคาดหวังที่จะเห็นคำที่เกี่ยวข้องกับปลาและสถานที่ในอลาสก้าที่มีความน่าจะเป็นสูงในภาษานางแบบ ถ้ามันเกี่ยวกับการตกปลาในฟลอริด้า , คําบางคําความน่าจะเป็นสูงจะเดียวกัน แต่จะมีคำที่เกี่ยวข้องกับความน่าจะเป็นสูงมากขึ้น สถานที่ในฟลอริด้า ถ้าแทนเอกสารเกี่ยวกับตกปลาเกมสำหรับคอมพิวเตอร์ มากที่สุดเนื้อเพลง ความน่าจะเป็นสูงจะเกี่ยวข้องกับผู้ผลิตเกมและคอมพิวเตอร์ใช้ แม้ว่าจะยังคงมีบางคําสําคัญเกี่ยวกับตกปลา หมายเหตุที่หัวข้อภาษารูปแบบหรือหัวข้อรูปแบบสั้น ๆที่มีความน่าจะเป็นทั้งหมดคำที่ไม่เพียง แต่สำคัญที่สุด ที่สุดของคำจะต้องมี " ความน่าจะเป็นเริ่มต้น "จะเป็นแบบเดียวกันกับข้อความใด ๆแต่คำที่สำคัญสำหรับหัวข้อจะมีความน่าจะเป็นสูงผิดปกติรูปแบบภาษาเป็นตัวแทนของเอกสารสามารถใช้“สร้างใหม่”ข้อความคำพูดตัวอย่างตามความน่าจะเป็นกระจาย ถ้าเราจินตนาการรูปแบบภาษาเป็นถังใหญ่ของคำที่อาจกำหนดวิธีการหลายอินสแตนซ์ของคำที่อยู่ในถัง แล้วเราสามารถสร้างข้อความโดยการเข้าถึง ( โดยไม่ได้มอง ) วาดออกมาสักคำ เขียนมันลงวางคำหลังในถังและวาดรูปอีกครั้ง โปรดทราบว่าเราไม่ได้บอกว่าสามารถสร้างเอกสารต้นฉบับโดยกระบวนการนี้ ในความเป็นจริง เพราะเราเป็นเพียงใช้ unigram รูปแบบ , สร้างข้อความจะดูเลวร้าย กับไม่มีโครงสร้างไวยากรณ์ . คําสําคัญสําหรับหัวข้อของเอกสารจะ อย่างไรก็ตามปรากฏบ่อยๆ สังหรณ์ใจ เราจะใช้ภาษา แบบเป็นประมาณมากรูปแบบหัวข้อผู้เขียนเอกสารที่คิดเกี่ยวกับเมื่อเขาคือเขียนมัน

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.