A topic is something that is talked

A topic is something that is talked about often but rarely defined in information retrieval discussions. In this approach, we define a topic as a probability distribution over words (in other words, a language model). For example, if a document is about fishing in Alaska, we would expect to see words associated with fishing and locations in Alaska with high probabilities in the language model. If it is about fishing in Florida, some of the high-probability words will be the same, but there will be more high probability words associated with locations in Florida. If instead the document is about fishing games for computers, most of the high-probability words will be associated with game manufacturers and computer use, although there will still be some important words about fishing. Note that a topic language model, or topic model for short, contains probabilities for all words, not just the most important. Most of the words will have “default” probabilities that will be the same for any text, but the words that are important for the topic will have unusually high probabilities.
A language model representation of a document can be used to “generate” new text by sampling words according to the probability distribution. If we imagine the language model as a big bucket of words, where the probabilities determine how many instances of a word are in the bucket, then we can generate text by reaching in (without looking), drawing out a word, writing it down, putting the word back in the bucket, and drawing again. Note that we are not saying that we can generate the original document by this process. In fact, because we are only using a unigram model, the generated text is going to look pretty bad, with no syntactic structure. Important words for the topic of the document will, however, appear often. Intuitively, we are using the language model as a very approximate model for the topic the author of the document was thinking about when he was writing it.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

หัวข้อเป็นสิ่งที่คุยกันบ่อย แต่ไม่ค่อยมีกำหนดในการเรียกข้อมูลสนทนา ในวิธีนี้ เรากำหนดหัวข้อเป็นการกระจายความน่าเป็นมากกว่าคำพูด (ในคำอื่น ๆ แบบจำลองภาษา) ตัวอย่างเช่น ถ้าเอกสารเกี่ยวกับการประมงในอลาสก้า เราคาดหวังว่าจะเห็นคำที่เกี่ยวข้องกับการตกปลาและสถานที่ในอลาสกา ด้วยน่าจะสูงในรูปแบบภาษา ถ้าเป็นเกี่ยวกับการประมงในฟลอริดา คำสูงน่าจะเหมือนกัน แต่จะยิ่งสูงความน่าเป็นคำที่ตั้งในฟลอริด้า หากแต่ เป็นเอกสารเกี่ยวกับเกมตกปลาสำหรับคอมพิวเตอร์ ส่วนใหญ่ของคำที่น่าเป็นสูงจะเชื่อมโยงกับผู้ผลิตเกมและใช้คอมพิวเตอร์ แม้ว่าจะยังคงมีบางคำที่สำคัญเกี่ยวกับการประมง หมายเหตุหัวข้อภาษาแบบจำลอง การหัวข้อแบบสั้น ประกอบด้วยน่าจะสำหรับทุกคำ ไม่สำคัญเพียงมากที่สุด ส่วนใหญ่ของคำจะมีน่าจะเริ่มต้น"ที่จะเหมือนกันสำหรับข้อความใด ๆ แต่คำที่มีความสำคัญสำหรับหัวข้อจะมีน่าจะสูงผิดปกติการแสดงรูปแบบภาษาของเอกสารสามารถใช้ในการ "สร้าง" ข้อความใหม่ โดยคำตามการแจกแจงความน่าเป็นการสุ่มตัวอย่าง ถ้าเราลองนึกภาพแบบจำลองภาษาเป็นถังใหญ่คำ ซึ่งน่าที่จะกำหนดจำนวนอินสแตนซ์ของคำที่อยู่ในถัง แล้วเราสามารถสร้างข้อความ โดยเข้าถึงใน (โดยไม่มอง), แบบคำ เขียนลง วางคำกลับในถัง และวาดอีกครั้ง หมายเหตุว่า เราไม่ได้บอกว่า เราสามารถสร้างเอกสารต้นฉบับ ด้วยกระบวนการนี้ ในความเป็นจริง เพราะเราใช้แบบจำลอง unigram ข้อความที่สร้างจะไปดูไม่สวย มีโครงสร้างทางไวยากรณ์ไม่ คำสำคัญสำหรับหัวข้อของเอกสารจะ การปรากฏขึ้น อย่างไรก็ตามมักจะ สังหรณ์ใจ เราจะใช้รูปแบบภาษาเป็นรูปแบบมากโดยประมาณสำหรับหัวข้อที่ผู้เขียนของเอกสารคิดเกี่ยวกับเมื่อเขาเขียนมัน

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

หัวข้อที่เป็นสิ่งที่มักจะพูดคุยเกี่ยวกับ แต่ไม่ค่อยกำหนดไว้ในการอภิปรายการดึงข้อมูล ในวิธีการนี้เรากำหนดหัวข้อว่าการกระจายความน่าจะเป็นมากกว่าคำพูด (ในคำอื่น ๆ รูปแบบภาษา) ตัวอย่างเช่นถ้าเอกสารเกี่ยวกับการประมงในอลาสกาที่เราคาดว่าจะเห็นคำที่เกี่ยวข้องกับการประมงและสถานที่ในอลาสก้าที่มีความน่าจะเป็นสูงในรูปแบบภาษา ถ้ามันเป็นเรื่องเกี่ยวกับการประมงในฟลอริด้า, บางส่วนของคำสูงน่าจะเป็นจะเหมือนกัน แต่จะมีคำพูดน่าจะสูงมากขึ้นที่เกี่ยวข้องกับสถานที่ในฟลอริด้า แต่ถ้าเอกสารที่เป็นเรื่องเกี่ยวกับเกมตกปลาสำหรับคอมพิวเตอร์ส่วนใหญ่ของคำสูงน่าจะเป็นจะถูกเชื่อมโยงกับผู้ผลิตเกมและการใช้คอมพิวเตอร์ถึงแม้ว่าจะยังคงมีบางคำที่สำคัญเกี่ยวกับการประมง โปรดทราบว่ารูปแบบภาษาหัวข้อหรือรุ่นหัวข้อสำหรับระยะสั้นมีความน่าจะเป็นคำที่ทุกคนไม่ได้เป็นเพียงสิ่งที่สำคัญที่สุด มากที่สุดของคำจะมีความน่าจะเป็น "เริ่มต้น" ที่จะเป็นเหมือนกันสำหรับข้อความใด ๆ แต่คำพูดที่มีความสำคัญสำหรับหัวข้อจะมีความน่าจะเป็นสูงผิดปกติ.
การแสดงรูปแบบภาษาของเอกสารสามารถใช้ในการ "สร้าง" ข้อความใหม่ โดยการสุ่มตัวอย่างคำตามการกระจายความน่าจะเป็น ถ้าเราคิดรูปแบบภาษาที่เป็นถังใหญ่ของคำพูดที่น่าจะเป็นตัวกำหนดวิธีการหลาย ๆ กรณีของคำที่อยู่ในถังแล้วเราสามารถสร้างข้อความโดยการเข้าถึงใน (โดยไม่ได้มอง) วาดออกคำเขียนมันลง ใส่คำว่ากลับมาอยู่ในถังและการวาดภาพอีกครั้ง โปรดทราบว่าเราไม่ได้บอกว่าเราสามารถสร้างเอกสารต้นฉบับโดยกระบวนการนี้ ในความเป็นจริงเพราะเราเป็นเพียงการใช้รูปแบบ unigram ข้อความที่สร้างขึ้นจะไปดูไม่ดีงามที่ไม่มีโครงสร้างประโยค คำสำคัญสำหรับหัวข้อของเอกสารที่จะ แต่ปรากฏบ่อย สังหรณ์ใจเราจะใช้รูปแบบภาษาที่เป็นรูปแบบตัวอย่างมากสำหรับหัวข้อที่ผู้เขียนของเอกสารที่คิดเกี่ยวกับเมื่อตอนที่เขาเขียนมัน

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

หัวข้อคือสิ่งที่คุยกันบ่อยแต่ไม่ค่อยชัดเจนในการดึงข้อมูล ในแนวทางนี้ เรากำหนดหัวข้อเป็น การแจกแจงความน่าจะเป็น มากกว่าคำพูด ( ในคำอื่น ๆ , แบบจำลองภาษา ) ตัวอย่างเช่น ถ้าเอกสารเกี่ยวกับตกปลาในอลาสก้า เราคาดหวังที่จะเห็นคำที่เกี่ยวข้องกับปลาและสถานที่ในอลาสก้าที่มีความน่าจะเป็นสูงในแบบจำลองภาษา ถ้ามันเกี่ยวกับการตกปลาในฟลอริด้า , คําบางคําความน่าจะเป็นสูงจะเหมือนกัน แต่จะมีสูงมากขึ้น น่าจะเป็นคำที่เกี่ยวข้องกับสถานที่ในฟลอริด้า ถ้าแทนเอกสารเกี่ยวกับตกปลาเกมส์สำหรับคอมพิวเตอร์ส่วนใหญ่ของคําความน่าจะเป็นสูงจะเกี่ยวข้องกับผู้ผลิตเกม และใช้คอมพิวเตอร์ได้ แม้ว่าจะยังคงมีบางคําสําคัญเกี่ยวกับตกปลา หมายเหตุหัวข้อภาษารูปแบบหรือหัวข้อรูปแบบสั้น ๆที่มีความน่าจะเป็นสำหรับคำทั้งหมด , ไม่เพียง แต่สำคัญที่สุด ที่สุดของคำจะต้องมี " เริ่มต้น " ความน่าจะเป็นที่จะเป็นแบบเดียวกันกับข้อความใด ๆแต่คำที่สำคัญสำหรับหัวข้อ จะมีความน่าจะเป็นสูงผิดปกติรูปแบบภาษาเป็นตัวแทนของเอกสารสามารถถูกใช้เพื่อ " สร้างใหม่ " ข้อความคำพูดตัวอย่างตามความน่าจะเป็นกระจาย ถ้าเราจินตนาการว่าภาษาแบบเป็นถังใหญ่ของคำที่อาจกำหนดวิธีการหลายอินสแตนซ์ของคำที่อยู่ในถัง แล้วเราสามารถสร้างข้อความโดยการเข้าถึง ( โดยไม่ได้มอง ) วาดออกมาสักคำ เขียนมันลง การใส่คำในถังและวาดรูปอีกครั้ง ทราบว่า เราไม่ได้บอกว่า เราสามารถสร้างเอกสารต้นฉบับโดยกระบวนการนี้ ในความเป็นจริง เพราะเราเป็นเพียงการ unigram รูปแบบ , สร้างข้อความจะดูเลวร้าย ไม่มีประโยคโครงสร้าง คําสําคัญสําหรับหัวข้อของเอกสารจะ อย่างไรก็ตาม ปรากฏบ่อยๆ สังหรณ์ใจ เราจะใช้ภาษาแบบจำลองแบบประมาณมาก เรื่อง ผู้เขียนเอกสารที่คิดเกี่ยวกับเมื่อเขาเขียนมัน

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.