where fqi;D is the number of times

where fqi;D is the number of times word qi occurs in document D, and |D| is the number of words in D. For a multinomial distribution, this is the maximum likelihood estimate, which means this this is the estimate that makes the observed value of fqi;D most likely. The major problem with this estimate is that if any of the query words are missing from the document, the score given by the query likelihood model for P(Q|D) will be zero. This is clearly not appropriate for longer queries. For example, missing one word out of six should not produce a score of zero. We will also not be able to distinguish between documents that have different numbers of query words missing. Additionally, because we are building a topic model for a document, words associated with that topic should have some probability
of occurring, even if they were not mentioned in the document. For example,
a language model representing a document about computer games should
have some non-zero probability for the word “RPG” even if that word was not
mentioned in the document. A small probability for that word will enable the
document to receive a non-zero score for the query “RPG computer games”, although
it will be lower than the score for a document that contains all three words
Smoothing is a technique for avoiding this estimation problem and overcoming
data sparsity, which means that we typically do not have large amounts of
text to use for the language model probability estimates. The general approach
to smoothing is to lower (or discount) the probability estimates for words that
are seen in the document text, and assign that “leftover” probability to the estimates
for the words that are not seen in the text. The estimates for unseen words
are usually based on the frequency of occurrence of words in the whole document
collection. IfP(qi|C) is the probability for query word i in the collection language
model for document collectionC, then the estimate we use for an unseen word in
a document is αDP(qi|C), where αD is a coefficient controlling the probability
assigned to unseen words.9 In general, αD can depend on the document. In order
that the probabilities sum to one, the probability estimate for a word that is seen
in a document is (1 − αD)P(qi|D) + αDP(qi|C).
To make this clear, consider a simple example where there are only three words,
w1, w2, and w3, in our index vocabulary. If the collection probabilities for these
three words, based on maximum likelihood estimates, are 0.3, 0.5, and 0.2, and the
document probabilities based on maximum likelihood estimates are 0.5, 0.5, and
0.0, then the smoothed probability estimates for the document language model
are:

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

ที่ fqi; D คือ จำนวนครั้งที่คำฉีเกิดในเอกสาร D และกรุนด์ฟอส D | มีจำนวนคำใน d สำหรับการกระจายก็ตาม นี้เป็นการประเมินความเป็นไปได้สูงสุด ซึ่งหมายความว่า นี้เป็นการประเมินที่ทำให้ค่าสังเกตของ fqi; D มากที่สุด สำคัญ มีการประเมินนี้เป็นปัญหาที่หากคำถามใด ๆ ขาดหายไปจากเอกสาร คะแนนที่ได้รับจากแบบสอบถามความเป็นไปได้สำหรับ P(Q| D) จะเท่ากับศูนย์ ได้อย่างชัดเจนไม่เหมาะสมสำหรับการสอบถามอีกต่อไป ตัวอย่างเช่น หายไปหนึ่งคำจากหกควรผลิตคะแนนเป็นศูนย์ เราจะยังไม่สามารถแยกความแตกต่างระหว่างเอกสารที่มีหมายเลขที่แตกต่างกันของคำถามหายไป นอกจากนี้ เนื่องจากเราจะสร้างแบบจำลองหัวข้อเอกสาร คำที่เกี่ยวข้องกับหัวข้อนั้นควรมีบางน่าเป็นการเกิดขึ้น แม้ว่าพวกเขาไม่ได้กล่าวถึงในเอกสาร ตัวอย่างเช่นแบบจำลองภาษาที่แสดงเอกสารเกี่ยวกับเกมคอมพิวเตอร์ควรมีบางอย่างน่าเป็นไม่ใช่ศูนย์สำหรับคำว่า "สมมุติ" แม้คำนั้นไม่กล่าวถึงในเอกสาร ความน่าเป็นขนาดเล็กสำหรับคำนั้นจะเปิดใช้งานการเอกสารที่ได้รับคะแนนไม่เป็นศูนย์สำหรับการสอบถาม "RPG เกมคอมพิวเตอร์" แม้ว่ามันจะต่ำกว่าคะแนนสำหรับเอกสารที่ประกอบด้วยทั้งหมดสามคำปรับเป็นเทคนิคสำหรับการหลีกเลี่ยงปัญหานี้การประมาณค่า และการเอาชนะข้อมูล sparsity ซึ่งหมายความ ว่า เราจะไม่ได้มีจำนวนมากข้อความที่จะใช้ความน่าเป็นรุ่นของภาษาประเมิน วิธีการทั่วไปการปรับให้เรียบเป็นการลด (หรือส่วนลด) การประเมินความน่าเป็นสำหรับคำที่เห็นในข้อความเอกสาร และกำหนดความน่าเป็นว่า "เหลือ" การประเมินสำหรับคำที่ไม่เคยเห็นในข้อความ ประมาณคำเป็นเพื่อนมักจะขึ้นอยู่กับความถี่ของการเกิดขึ้นของคำในเอกสารทั้งหมดคอลเลกชัน IfP(qi| C) คือ ความน่าเป็นคำถามผมในชุดภาษารูปแบบสำหรับเอกสาร collectionC แล้วเราใช้คำเป็นเพื่อนในการประเมินเอกสารเป็น αDP(qi| ค) สัมประสิทธิ์ αD น่าเป็นการควบคุมกำหนดให้ words.9 เป็นเพื่อนทั่วไป αD วางเอกสารต่าง ๆ ในใบสั่งว่า น่าจะการรวมหนึ่ง การประเมินความน่าเป็นคำที่เห็นในเอกสารเป็น (1 − αD) P(qi| D) + αDP(qi| ค)การให้ชัดเจน พิจารณาตัวอย่างง่าย ๆ มีเพียงสามคำw1, w2 และ w3 ในคำศัพท์ดัชนีของเรา ถ้าน่าจะคอลเลกชันเหล่านี้มีสามคำ คะแนนจากการประเมินความเป็นไปได้สูงสุด 0.3, 0.5 และ 0.2 และเอกสารน่าจะอิงจากการประเมินความเป็นไปได้สูงสุด 0.5, 0.5 และ0.0 แล้วเรียบน่าเป็นค่าประมาณสำหรับรุ่นภาษาของเอกสารคือ:

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

ที่ fqi; D เป็นจำนวนฉีครั้งคำว่าเกิดขึ้นในเอกสาร D และ | D | คือหมายเลขของคำในดีสำหรับการกระจายพหุนามนี้เป็นประมาณการโอกาสสูงสุดซึ่งหมายความว่ารายการนี้จะเป็นประมาณการที่ทำให้มูลค่าการสังเกต fqi; D ส่วนใหญ่มีแนวโน้ม ปัญหาที่สำคัญที่มีประมาณนี้ก็คือว่าถ้าใด ๆ ของคำที่ใช้ค้นหาจะหายไปจากเอกสารคะแนนที่กำหนดโดยรูปแบบการสอบถามความเป็นไปได้สำหรับ P (Q | D) จะเป็นศูนย์ นี้ไม่ชัดเจนเหมาะสมสำหรับการค้นหาอีกต่อไป ยกตัวอย่างเช่นที่ขาดหายไปหนึ่งคำหกออกมาไม่ควรผลิตคะแนนเป็นศูนย์ เราจะยังไม่สามารถที่จะแยกแยะความแตกต่างระหว่างเอกสารที่มีตัวเลขที่แตกต่างของคำแบบสอบถามที่ขาดหายไป นอกจากนี้เนื่องจากเรากำลังสร้างรูปแบบหัวข้อสำหรับเอกสารคำที่เกี่ยวข้องกับหัวข้อที่ควรจะมีความน่าจะเป็นบางอย่าง
ที่เกิดขึ้นแม้ว่าพวกเขาจะไม่ได้รับการกล่าวถึงในเอกสาร ตัวอย่างเช่น
รูปแบบภาษาที่เป็นตัวแทนของเอกสารเกี่ยวกับเกมคอมพิวเตอร์ควรจะ
มีบางส่วนที่ไม่ใช่ศูนย์ความน่าจะเป็นคำว่า "RPG" แม้ว่าคำที่ไม่ได้
กล่าวถึงในเอกสาร ความน่าจะเป็นขนาดเล็กสำหรับคำที่จะเปิดใช้งาน
เอกสารจะได้รับไม่ใช่ศูนย์คะแนนสำหรับการค้นหา "เกมคอมพิวเตอร์เกม RPG" แม้ว่า
มันจะต่ำกว่าคะแนนสำหรับเอกสารที่ประกอบด้วยทั้งสามคำ
Smoothing เป็นเทคนิคสำหรับการหลีกเลี่ยงการประมาณนี้ ปัญหาและการเอาชนะ
sparsity ข้อมูลซึ่งหมายความว่าเรามักจะไม่ได้มีจำนวนมากของ
ข้อความที่จะใช้สำหรับรูปแบบภาษาประมาณการความน่าจะเป็น วิธีการทั่วไป
ที่จะปรับให้เรียบคือการลด (หรือส่วนลด) ประมาณการน่าจะเป็นคำที่
จะเห็นในข้อความในเอกสารและกำหนดว่า "เหลือ" ความน่าจะเป็นประมาณการ
สำหรับคำที่ไม่เคยเห็นในข้อความ ประมาณการสำหรับคำที่มองไม่เห็น
มักจะขึ้นอยู่กับความถี่ของการเกิดขึ้นของคำในเอกสารทั้ง
คอลเลกชัน IFP (Qi | C) น่าจะเป็นคำแบบสอบถามฉันในภาษาคอลเลกชัน
แบบจำลองสำหรับเอกสาร collectionC แล้วประมาณเราใช้คำที่มองไม่เห็นใน
เอกสารเป็นαDP (Qi | C) ที่αDเป็นค่าสัมประสิทธิ์การควบคุมความน่าจะเป็น
ได้รับมอบหมายให้ words.9 ที่มองไม่เห็นโดยทั่วไปαDสามารถขึ้นอยู่กับเอกสาร เพื่อที่
ว่าน่าจะเป็นผลรวมให้เป็นหนึ่งในประมาณการน่าจะเป็นคำที่เห็น
ในเอกสารคือ (1 - αD) P (Qi | D). + αDP (Qi | C)
ให้ชัดเจนนี้พิจารณาตัวอย่างง่ายๆ ที่มีเพียงสามคำ
W1, W2 และ W3 ในคำศัพท์ดัชนีของเรา ถ้าความน่าจะเป็นคอลเลกชันเหล่านี้
สามคำขึ้นอยู่กับการประมาณการโอกาสสูงสุดเป็น 0.3, 0.5, และ 0.2 และ
ความน่าจะเป็นเอกสารที่อยู่บนพื้นฐานของการประมาณการโอกาสสูงสุดอยู่ที่ 0.5, 0.5, และ
0.0 แล้วเรียบประมาณการน่าจะเป็นรูปแบบภาษาเอกสาร
คือ:

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

ที่ fqi ; D มีจำนวนครั้งที่คำฉีเกิดขึ้นในเอกสาร D และ D | | คือจำนวนของคำ ดี สำหรับวิธีการนี้เป็นประมาณความควรจะเป็นสูงสุดซึ่งหมายความว่านี้คือประมาณว่าให้สังเกตค่าของ fqi ; D มีแนวโน้มมากที่สุด ปัญหาใหญ่ ประมาณนี้ คือว่าถ้าใด ๆของคำถามที่มีคำที่ขาดหายไปจากเอกสาร คะแนนที่ได้รับจากแบบสอบถามรูปแบบความเป็นไปได้สำหรับ P ( q | D ) จะเป็นศูนย์ นี่ไม่ใช่ที่เหมาะสมสำหรับการค้นหาอีกต่อไป ตัวอย่างเช่น หายไปหนึ่งคำหกไม่ควรผลิตคะแนนศูนย์ เราก็จะไม่สามารถแยกแยะความแตกต่างระหว่างเอกสารที่มีตัวเลขที่แตกต่างกันของแบบสอบถามคำที่ขาดหายไป นอกจากนี้ เรากำลังสร้างหัวข้อรูปแบบเอกสาร , คำที่เกี่ยวข้องกับหัวข้อควรมีความน่าจะเป็นเกิดขึ้น แม้ว่าพวกเขาไม่ได้ถูกกล่าวถึงในเอกสาร ตัวอย่างเช่นแบบจำลองภาษาแสดงเอกสารเกี่ยวกับคอมพิวเตอร์ เกม ควรมีบางอย่างไม่เป็นความน่าจะเป็นสำหรับคำว่า " RPG " แม้ว่าคำนั้นไม่ได้ที่กล่าวถึงในเอกสาร ขนาดเล็กสำหรับคำจะช่วยให้ความน่าจะเป็นเอกสารที่จะได้รับผลรวมของค่าคะแนนแบบสอบถาม " RPG เกมคอมพิวเตอร์ " ถึงแม้ว่าจะต่ำกว่าคะแนนสำหรับเอกสารที่ประกอบด้วยสามคำเรียบเป็นเทคนิคเพื่อหลีกเลี่ยงปัญหานี้ และการประมาณค่าsparsity ข้อมูล ซึ่งหมายความว่าเรามักจะไม่ได้มีจำนวนมากของข้อความที่จะใช้สำหรับรูปแบบภาษาประมาณความน่าจะเป็น . วิธีการทั่วไปการปรับให้เรียบเพื่อลด ( หรือลด ) ประมาณการความน่าจะเป็นสำหรับคำว่าเห็นในเอกสารข้อความและกำหนดว่า " เหลือ " ความน่าจะเป็นที่จะประเมินสำหรับคำที่ไม่พบในข้อความ ประมาณการสำหรับคำอันซีนมักจะขึ้นอยู่กับความถี่ของการเกิดของคำในเอกสารทั้งหมดคอลเลกชัน โดย ( ฉี | C ) มีความเป็นไปได้ สอบถามผมในกลุ่มภาษาคำรูปแบบ collectionc เอกสารแล้วประมาณที่เราใช้เป็นคำอันซีนเอกสารα DP ( ฉี | C ) ที่α d คือสัมประสิทธิ์การควบคุมความน่าจะเป็นมอบหมายให้เห็นคำ 9 ทั่วไป α D สามารถขึ้นอยู่กับเอกสาร เพื่อนั่นน่าจะเป็นผลบวกต่อหนึ่งประมาณการความน่าจะเป็นสำหรับคำที่เห็นในเอกสาร ( 1 −α D ) p ( ฉี | D ) + α DP ( ฉี | C )เพื่อให้มันชัดเจน พิจารณาตัวอย่างง่าย ๆ ซึ่งมีเพียงสามคำW1 , W2 และ W3 คำศัพท์ในดัชนีของเรา ถ้าคอลเลกชันความน่าจะเป็นเหล่านี้คำที่ใช้ในการประมาณความควรจะเป็นสูงสุดคือ 0.3 , 0.5 และ 0.2 และเอกสารที่ใช้ในการประเมินความน่าจะเป็นความน่าจะเป็นสูงสุด 0.5 , 0.5 , และ0.0 แล้วพร้อมกับการประมาณความน่าจะเป็นสำหรับภาษาเอกสารรูปแบบคือ :

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.