Similar to the Jelinek-Mercer smoothing, small values of the parameter (μ in this case) give more importance to the relative weighting of words, and large values
favor the number of matching terms. Typical values of μ that achieve the best results in TREC experiments are in the range 1,000 to 2,000 (remember that collection probabilities are very small), and Dirichlet smoothing is generally more
effective than Jelinek-Mercer, especially for the short queries that are common in most search applications.
So where does Dirichlet smoothing come from? It turns out that a Dirichlet distribution11 is the natural way to specify prior knowledge when estimating the probabilities in a multinomial distribution. The process of Bayesian estimation
determines probability estimates based on this prior knowledge and the observed text. The resulting probability estimate can be viewed as combining actual word counts from the text with pseudo-counts from the Dirichlet distribution. If we had no text, the probability estimate for term qi would be μ(cqi/|C|)/μ, which is a reasonable guess based on the collection. The more text we have (i.e., for longer documents), the less influence the prior knowledge will have. We can demonstrate the calculation of query likelihood document scores using the example given in section 7.2.2. The two query terms are “president” and “lincoln”. For the term “president”, fqi;D = 15, and let’s assume that cqi = 160,000. For the term “lincoln”, fqi;D = 25, and we will assume that cqi = 2,400. The number of word occurrences in the document |d| is assumed to be 1,800, and the number of word occurrences in the collection is 109 (500,000 documents times an average of 2,000 words). The value of μ used is 2,000. Given these numbers, the score for the document is:
คล้ายกับ Jelinek-เมอร์เซอร์เรียบ เล็กค่าของพารามิเตอร์ (μในกรณีนี้) ให้ความสำคัญน้ำหนักสัมพัทธ์ของคำ และค่าขนาดใหญ่ชอบหมายเลขตรงกับเงื่อนไข ค่าปกติของμที่บรรลุผลลัพธ์ที่ดีสุดในการทดลอง TREC อยู่ในช่วง 1,000 ถึง 2000 (จำว่า น่าจะเก็บมีขนาดเล็กมาก), และ Dirichlet เรียบโดยทั่วไปเพิ่มเติมมีประสิทธิภาพมากกว่า Jelinek-เมอร์เซอร์ โดยเฉพาะอย่างยิ่งสำหรับแบบสอบถามสั้น ๆ ที่พบในโปรแกรมประยุกต์การค้นหามากที่สุดดังนั้น ที่? Dirichlet เรียบมาจาก มันเปิดออกว่า distribution11 Dirichlet เป็นวิธีธรรมชาติเพื่อระบุรู้เมื่อประเมินน่าจะในชื่อการแจกจ่ายก็ตาม กระบวนการของทฤษฎีการประเมินกำหนดความน่าเป็นการประเมินตามความรู้นี้ก่อนและข้อสังเกต การประเมินความน่าเป็นผลสามารถใช้เป็นรวมคำจริงนับจากข้อความมีหลอกนับจากการกระจาย Dirichlet ถ้าเรามีไม่มีข้อความ การประเมินความน่าเป็นสำหรับระยะฉีจะ μ(cqi/| C |) /Μ ซึ่งเป็นการคาดเดาเหมาะสมตามคอลเลกชัน ข้อความเพิ่มเติมได้ (เช่น สำหรับเอกสารอีกต่อไป), อิทธิพลน้อยความรู้ก่อนจะมี เราสามารถแสดงให้เห็นถึงการคำนวณคะแนนเอกสารโอกาสสอบถามโดยใช้ตัวอย่างไว้ในหัวข้อ 7.2.2 คำถามที่สองเป็น "ประธาน" และ "ลินคอล์น" สำหรับคำว่า "ประธาน" fqi; D = 15 และสมมติว่า cqi = 160,000 สำหรับคำว่า "ลินคอล์น" fqi; D = 25 และเราจะสมมติว่า cqi = 2,400 จำนวนคำในเอกสาร | d | จะถือว่าเป็น 1,800 และจำนวนคำในชุด 109 (500,000 เอกสารเวลาเฉลี่ย 2000 คำ) ค่าของใช้μคือ 2000 กำหนดหมายเลขเหล่านี้ เป็นคะแนนสำหรับเอกสาร:
การแปล กรุณารอสักครู่..

คล้ายกับการปรับให้เรียบ Jelinek-เมอร์เซอร์ขนาดเล็กค่าของพารามิเตอร์ (μในกรณีนี้) ให้ความสำคัญมากขึ้นในการถ่วงน้ำหนักสัมพัทธ์ของคำและค่านิยมที่มีขนาดใหญ่
เป็นที่โปรดปรานจำนวนคำที่ตรงกับ ค่าทั่วไปของμที่บรรลุผลลัพธ์ที่ดีที่สุดในการทดลอง TREC อยู่ในช่วง 1,000 ถึง 2,000 (จำคอลเลกชันที่น่าจะมีขนาดเล็กมาก) และ Dirichlet เรียบโดยทั่วไปมากขึ้น
มีประสิทธิภาพกว่า Jelinek-เมอร์เซอร์โดยเฉพาะอย่างยิ่งสำหรับคำสั้น ๆ ที่มีทั่วไปใน การใช้งานการค้นหามากที่สุด.
เพื่อที่จะ Dirichlet เรียบมาจากไหน? แต่กลับกลายเป็นว่า distribution11 Dirichlet เป็นวิธีธรรมชาติในการระบุความรู้ก่อนเมื่อประมาณการความน่าจะเป็นในการกระจายพหุนาม กระบวนการของการประมาณค่าแบบเบย์
กำหนดประมาณการน่าจะอยู่บนพื้นฐานของความรู้ก่อนนี้และข้อความที่สังเกต ประมาณการน่าจะส่งผลให้สามารถมองได้ว่าการรวมนับคำที่เกิดขึ้นจริงจากข้อความที่มีการหลอกนับจากการกระจาย Dirichlet ถ้าเรามีข้อความใดประมาณการน่าจะเป็นระยะฉีจะμ (CQI / | C |) / μซึ่งเป็นเดาที่เหมาะสมขึ้นอยู่กับคอลเลกชัน ข้อความมากกว่าที่เรามี (เช่นเอกสารอีกต่อไป) ที่มีอิทธิพลน้อยกว่าความรู้ก่อนจะมี เราสามารถแสดงให้เห็นถึงการคำนวณคะแนนเอกสารแบบสอบถามโอกาสใช้ตัวอย่างที่ให้ไว้ในส่วน 7.2.2 ทั้งสองคำค้นหาคือ "ประธาน" และ "ลิงคอล์น" สำหรับคำว่า "ประธาน" fqi; D = 15 และสมมติว่า CQI = 160,000 สำหรับคำว่า "ลินคอล์น" fqi; D = 25 และเราจะสมมติว่า CQI = 2,400 จำนวนของการเกิดขึ้นของคำในเอกสาร | D | จะถือว่าเป็น 1,800 และจำนวนของการเกิดขึ้นของคำในคอลเลกชันที่เป็น 109 (500,000 เอกสารครั้งเฉลี่ย 2,000 คำ) ค่าของμที่ใช้เป็น 2,000 ได้รับตัวเลขเหล่านี้ให้คะแนนสำหรับเอกสาร:
การแปล กรุณารอสักครู่..

คล้ายกับเธอ เมอร์เซอร์ ( ค่าเล็กของพารามิเตอร์ ( μในกรณีนี้ ) ให้ความสำคัญกับน้ำหนักสัมพัทธ์ของคำ และคุณค่ามากชอบหมายเลขที่ตรงกับเงื่อนไข ค่าปกติของμที่บรรลุผลลัพธ์ที่ดีที่สุดใน trec การทดลองอยู่ในช่วง 1000 ปี ( จำได้ว่าน่าจะเป็นคอลเลกชันมีขนาดเล็กมาก ) , และ ดีริชเลต์เรียบโดยทั่วไปมากขึ้นประสิทธิภาพมากกว่าเธอ เมอร์เซอร์ โดยเฉพาะอย่างยิ่งสำหรับสั้นแบบสอบถามที่มีทั่วไปในการค้นหามากที่สุดที่ไหนดีริชเลต์อะไรมาจากไหน ปรากฎว่า ดีริชเลต์ distribution11 เป็นวิธีธรรมชาติในการระบุความรู้ก่อน เมื่อคำนวณความน่าจะเป็นในโดยการกระจาย กระบวนการประมาณค่าส์กําหนดการประมาณความน่าจะเป็นบนพื้นฐานความรู้เดิมและพบข้อความ ผลการประเมินความสามารถถูกมองว่าเป็นการนับคำที่แท้จริงจากข้อความปลอมนับจากดีริชเลต์กระจาย ถ้าเราไม่มีข้อความ , การประเมินความน่าจะเป็นในระยะฉีจะμ ( cqi / | C | ) / μซึ่งเป็นที่เหมาะสมว่าขึ้นอยู่กับคอลเลกชัน เพิ่มเติมข้อความที่เราได้ ( เช่น เอกสารอีกต่อไป ) , น้อยกว่าที่มีอิทธิพลต่อความรู้ก่อนที่จะได้ เราสามารถแสดงให้เห็นการคำนวณโอกาสเอกสารแบบสอบถามคะแนนโดยใช้ตัวอย่างที่ระบุในมาตรา 7.2.2 . 2 แบบสอบถามเงื่อนไขเป็น " ประธาน " และ " ลินคอล์น " สำหรับคำว่า " ประธาน " fqi ; D = 15 , และสมมติว่า cqi = 160 , 000 . สำหรับคำว่า " ลินคอล์น " fqi ; D = 25 , และเราจะสมมติว่า cqi = 2400 จำนวนของการเกิด คำ ในเอกสาร | D | สันนิษฐานได้ว่าเป็น 1800 และจำนวนของเหตุการณ์ข่าวในคอลเลกชันเป็น 109 ( 500000 เอกสารครั้งเฉลี่ย 2000 คำ ) คุณค่าของμใช้ 2000 ให้ตัวเลขเหล่านี้คะแนนสำหรับเอกสารที่เป็น :
การแปล กรุณารอสักครู่..
