where fqi;D is the number of times

where fqi;D is the number of times word qi occurs in document D, and |D| is the number of words in D. For a multinomial distribution, this is the maximum likelihood estimate, which means this this is the estimate that makes the observed value of fqi;D most likely. The major problem with this estimate is that if any of the query words are missing from the document, the score given by the query likelihood model for P(Q|D) will be zero. This is clearly not appropriate for longer queries. For example, missing one word out of six should not produce a score of zero. We will also not be able to distinguish between documents that have different numbers of query words missing. Additionally, because we are building a topic model for a document, words associated with that topic should have some probability of occurring, even if they were not mentioned in the document. For example, a language model representing a document about computer games should have some non-zero probability for the word “RPG” even if that word was not mentioned in the document. A small probability for that word will enable the document to receive a non-zero score for the query “RPG computer games”, although it will be lower than the score for a document that contains all three words Smoothing is a technique for avoiding this estimation problem and overcoming data sparsity, which means that we typically do not have large amounts of text to use for the language model probability estimates. The general approach to smoothing is to lower (or discount) the probability estimates for words that are seen in the document text, and assign that “leftover” probability to the estimates
for the words that are not seen in the text. The estimates for unseen words are usually based on the frequency of occurrence of words in the whole document collection. IfP(qi|C) is the probability for query word i in the collection language model for document collectionC, then the estimate we use for an unseen word in a document is αDP(qi|C), where αD is a coefficient controlling the probability assigned to unseen words.9 In general, αD can depend on the document. In order that the probabilities sum to one, the probability estimate for a word that is seen in a document is (1 − αD)P(qi|D) + αDP(qi|C). To make this clear, consider a simple example where there are only three words, w1, w2, and w3, in our index vocabulary. If the collection probabilities for these three words, based on maximum likelihood estimates, are 0.3, 0.5, and 0.2, and the document probabilities based on maximum likelihood estimates are 0.5, 0.5, and
0.0, then the smoothed probability estimates for the document language model are:

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

ที่ fqi; D คือ จำนวนครั้งที่คำฉีเกิดในเอกสาร D และกรุนด์ฟอส D | มีจำนวนคำใน d สำหรับการกระจายก็ตาม นี้เป็นการประเมินความเป็นไปได้สูงสุด ซึ่งหมายความว่า นี้เป็นการประเมินที่ทำให้ค่าสังเกตของ fqi; D มากที่สุด สำคัญ มีการประเมินนี้เป็นปัญหาที่หากคำถามใด ๆ ขาดหายไปจากเอกสาร คะแนนที่ได้รับจากแบบสอบถามความเป็นไปได้สำหรับ P(Q| D) จะเท่ากับศูนย์ ได้อย่างชัดเจนไม่เหมาะสมสำหรับการสอบถามอีกต่อไป ตัวอย่างเช่น หายไปหนึ่งคำจากหกควรผลิตคะแนนเป็นศูนย์ เราจะยังไม่สามารถแยกความแตกต่างระหว่างเอกสารที่มีหมายเลขที่แตกต่างกันของคำถามหายไป นอกจากนี้ เนื่องจากเราจะสร้างแบบจำลองหัวข้อเอกสาร คำที่เกี่ยวข้องกับหัวข้อนั้นควรมีบางอย่างน่าที่เกิด แม้ว่าพวกเขาไม่ได้กล่าวถึงในเอกสาร ตัว แบบจำลองภาษาที่แสดงเอกสารเกี่ยวกับเกมคอมพิวเตอร์ควรมีความน่าเป็นบางอย่างไม่ใช่ศูนย์สำหรับคำว่า "สมมุติ" แม้ว่าคำนั้นไม่ได้กล่าวถึงในเอกสาร ความน่าเป็นขนาดเล็กสำหรับคำนั้นจะช่วยให้เอกสารได้รับคะแนนไม่เป็นศูนย์สำหรับการสอบถาม "เกมส์คอมพิวเตอร์" แม้ว่ามันจะต่ำกว่าคะแนน สำหรับเอกสารที่ประกอบด้วยทั้งหมดสามคำ Smoothing เป็นเทคนิคสำหรับการหลีกเลี่ยงปัญหานี้การประมาณการ และเอาชนะข้อมูล sparsity ซึ่งหมายความ ว่า เราจะไม่มีข้อความการใช้ความน่าเป็นรุ่นของภาษาจำนวนมากประมาณการ วิธีการปรับให้เรียบทั่วไปเป็นการลด (หรือส่วนลด) ความน่าเป็นประเมินคำที่เห็นในข้อความเอกสาร และกำหนดค่าประมาณความน่าเป็นว่า "เหลือ"สำหรับคำที่ไม่เคยเห็นในข้อความ ประมาณคำเป็นเพื่อนมักจะอยู่กับความถี่ของการเกิดขึ้นของคำในชุดเอกสารทั้งหมด IfP(qi| ค) เป็นความน่าเป็นคำถามฉันในภาษาชุดรูปแบบสำหรับเอกสาร collectionC จาก นั้นเป็นการประเมินที่เราใช้สำหรับคำที่ unseen ในเอกสาร αDP(qi| C) αD เป็น ค่าสัมประสิทธิ์ที่ควบคุมกำหนดให้ words.9 เป็นเพื่อนทั่วไป ความน่าเป็น αD วางบนเอกสารต่าง ๆ ที่สรุปน่าจะที่หนึ่ง การประเมินความน่าเป็นคำที่เห็นได้ในเอกสารคือ (1 − αD) P(qi| D) + αDP(qi| C) การให้ชัดเจน พิจารณาตัวอย่างง่าย ๆ มีเพียงสามคำ w1, w2 และ w3 ในคำศัพท์ดัชนีของเรา ถ้าน่าจะรวบรวมคำเหล่านี้สาม คะแนนจากการประเมินความเป็นไปได้สูงสุด 0.3, 0.5 และ 0.2 และน่าจะเอกสารที่อิงความเป็นไปได้สูงสุดประมาณ 0.5, 0.5 และ0.0 แล้วเรียบน่าเป็นค่าประมาณสำหรับรุ่นภาษาของเอกสารคือ:

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

ที่ fqi; D เป็นจำนวนฉีครั้งคำว่าเกิดขึ้นในเอกสาร D และ | D | คือหมายเลขของคำในดีสำหรับการกระจายพหุนามนี้เป็นประมาณการโอกาสสูงสุดซึ่งหมายความว่ารายการนี้จะเป็นประมาณการที่ทำให้มูลค่าการสังเกต fqi; D ส่วนใหญ่มีแนวโน้ม ปัญหาที่สำคัญที่มีประมาณนี้ก็คือว่าถ้าใด ๆ ของคำที่ใช้ค้นหาจะหายไปจากเอกสารคะแนนที่กำหนดโดยรูปแบบการสอบถามความเป็นไปได้สำหรับ P (Q | D) จะเป็นศูนย์ นี้ไม่ชัดเจนเหมาะสมสำหรับการค้นหาอีกต่อไป ยกตัวอย่างเช่นที่ขาดหายไปหนึ่งคำหกออกมาไม่ควรผลิตคะแนนเป็นศูนย์ เราจะยังไม่สามารถที่จะแยกแยะความแตกต่างระหว่างเอกสารที่มีตัวเลขที่แตกต่างของคำแบบสอบถามที่ขาดหายไป นอกจากนี้เนื่องจากเรากำลังสร้างรูปแบบหัวข้อสำหรับเอกสารคำที่เกี่ยวข้องกับหัวข้อที่ควรจะมีความน่าจะเป็นบางส่วนของที่เกิดขึ้นแม้ว่าพวกเขาจะไม่ได้รับการกล่าวถึงในเอกสาร ตัวอย่างเช่นรูปแบบภาษาที่เป็นตัวแทนของเอกสารเกี่ยวกับเกมคอมพิวเตอร์ควรจะมีบางอย่างที่ไม่ใช่ศูนย์ความน่าจะเป็นคำว่า "RPG" แม้ว่าคำที่ไม่ได้กล่าวถึงในเอกสาร ความน่าจะเป็นขนาดเล็กสำหรับคำที่จะช่วยให้เอกสารที่จะได้รับไม่ใช่ศูนย์คะแนนสำหรับการค้นหา "เกมคอมพิวเตอร์เกม RPG" แม้ว่ามันจะต่ำกว่าคะแนนสำหรับเอกสารที่มีทั้งหมดสามคำเรียบเป็นเทคนิคสำหรับการหลีกเลี่ยงการประมาณนี้ ปัญหาและการเอาชนะ sparsity ข้อมูลซึ่งหมายความว่าเรามักจะไม่ได้มีข้อความจำนวนมากที่จะใช้สำหรับรูปแบบภาษาประมาณการความน่าจะเป็น วิธีการทั่วไปที่จะปรับให้เรียบคือการลด (หรือส่วนลด) ประมาณการน่าจะเป็นคำที่จะเห็นในข้อความในเอกสารและกำหนดว่า "เหลือ" ความน่าจะเป็นประมาณการ
สำหรับคำที่ไม่เคยเห็นในข้อความ ประมาณการสำหรับคำที่มองไม่เห็นมักจะขึ้นอยู่กับความถี่ของการเกิดขึ้นของคำในคอลเลกชันเอกสารทั้งหมด IFP (Qi | C) น่าจะเป็นคำแบบสอบถามฉันในรูปแบบภาษาคอลเลกชันเอกสาร collectionC แล้วประมาณเราใช้คำที่มองไม่เห็นในเอกสารเป็นαDP (Qi | C) ที่αDเป็นค่าสัมประสิทธิ์การควบคุมความน่าจะเป็น ได้รับมอบหมายให้ words.9 ที่มองไม่เห็นโดยทั่วไปαDสามารถขึ้นอยู่กับเอกสาร เพื่อที่ว่าน่าจะเป็นผลรวมให้เป็นหนึ่งในประมาณการน่าจะเป็นคำที่เห็นในเอกสารคือ (1 - αD) P (Qi | D) + αDP (Qi | C) ให้ชัดเจนนี้พิจารณาตัวอย่างง่ายๆที่มีเพียงสามคำ W1, W2 และ W3 ในคำศัพท์ดัชนีของเรา ถ้าความน่าจะเป็นคอลเลกชันสำหรับทั้งสามคำขึ้นอยู่กับการประมาณการโอกาสสูงสุดเป็น 0.3, 0.5, และ 0.2 และความน่าจะเป็นเอกสารที่อยู่บนพื้นฐานของการประมาณการโอกาสสูงสุดอยู่ที่ 0.5, 0.5, และ
0.0 แล้วเรียบประมาณการน่าจะเป็นรูปแบบภาษาเอกสาร คือ:

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

ที่ fqi ; D มีจำนวนครั้งที่คำฉีเกิดขึ้นในเอกสาร D และ D | | คือจำนวนของคำ ดี สำหรับวิธีการนี้เป็นประมาณความควรจะเป็นสูงสุดซึ่งหมายความว่านี้คือประมาณว่าให้สังเกตค่าของ fqi ; D มีแนวโน้มมากที่สุด ปัญหาใหญ่ ประมาณนี้ คือว่าถ้าใด ๆของคำถามที่มีคำที่ขาดหายไปจากเอกสาร คะแนนที่ได้รับจากแบบสอบถามรูปแบบความเป็นไปได้สำหรับ P ( q | D ) จะเป็นศูนย์ นี่ไม่ใช่ที่เหมาะสมสำหรับการค้นหาอีกต่อไป ตัวอย่างเช่น หายไปหนึ่งคำหกไม่ควรผลิตคะแนนศูนย์ เราก็จะไม่สามารถแยกแยะความแตกต่างระหว่างเอกสารที่มีตัวเลขที่แตกต่างกันของแบบสอบถามคำที่ขาดหายไป นอกจากนี้ เรากำลังสร้างหัวข้อรูปแบบเอกสาร , คำที่เกี่ยวข้องกับหัวข้อควรมีความน่าจะเป็นของการเกิดขึ้น แม้ว่าพวกเขาไม่ได้ถูกกล่าวถึงในเอกสาร ตัวอย่างเช่นภาษารูปแบบของเอกสารเกี่ยวกับเกมคอมพิวเตอร์ควรมีไม่เป็นโอกาส คำว่า " RPG " แม้ว่าคำที่ไม่ได้กล่าวถึงในเอกสาร ความน่าจะเป็นขนาดเล็กสำหรับคำจะช่วยให้เอกสารที่จะได้รับผลรวมของค่าคะแนนแบบสอบถาม " RPG เกมคอมพิวเตอร์ " แม้ว่าจะต่ำกว่าคะแนนสำหรับเอกสารที่ประกอบด้วยสามคำเรียบเป็นเทคนิคเพื่อหลีกเลี่ยงปัญหาการประมาณค่าและการเอาชนะ sparsity ข้อมูล ซึ่งหมายความว่าเรามักจะไม่ได้มีปริมาณขนาดใหญ่ ของข้อความที่จะใช้สำหรับรูปแบบภาษาประมาณความน่าจะเป็น . วิธีการทั่วไปในการปรับให้เรียบเพื่อลด ( หรือลด ) ประมาณการความน่าจะเป็นสำหรับคำที่เห็นในเอกสารข้อความและกำหนดว่า " เหลือ " ความน่าจะเป็นที่จะประเมินสำหรับคำที่ไม่พบในข้อความ ประมาณการสำหรับคำที่มักจะขึ้นอยู่กับความถี่ของการเกิดของคำ ในการรวบรวมเอกสารทั้งหมด โดย ( ฉี | C ) เป็นโอกาสในการเก็บแบบสอบถามคำภาษาแบบ collectionc เอกสารแล้วประมาณที่เราใช้คำที่เห็นในเอกสารα DP ( ฉี | C ) ที่α d คือสัมประสิทธิ์การควบคุมความน่าจะเป็นมอบหมายให้เห็นคำ 9 ทั่วไป α D สามารถ ขึ้นอยู่กับเอกสาร เพื่อที่ปัญหาจำนวนหนึ่ง , การประเมินความน่าจะเป็น สำหรับคำที่เห็นในเอกสาร ( 1 −α D ) p ( ฉี | D ) + α DP ( ฉี | C ) เพื่อให้มันชัดเจน พิจารณาตัวอย่างง่าย ๆ ซึ่งมีเพียงสามคำ , W1 , W2 และ W3 คำศัพท์ในดัชนีของเรา ถ้าคอลเลกชันความน่าจะเป็นคําสามคํานี้ ตามประมาณการ โอกาสสูงสุดคือ 0.3 , 0.5 และ 0.2 และเอกสารตามประมาณการความน่าจะเป็นความน่าจะเป็นสูงสุด 0.5 , 0.5 , และ0.0 แล้วพร้อมกับการประมาณความน่าจะเป็นสำหรับภาษาเอกสารรูปแบบคือ :

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.