7.3.2 Relevance Models and Pseudo-R

7.3.2 Relevance Models and Pseudo-Relevance Feedback
Although the basic query likelihood model has a number of advantages, it is limited
in terms of how it models information needs and queries. It is difficult, for
example, to incorporate information about relevant documents into the ranking
algorithm, or to represent the fact that a query is just one of many possible queries
that could be used to describe a particular information need. In this section, we
show how this can be done by extending the basic model.
In the introduction to section 7.3, we mentioned that it is possible to represent
the topic of a query as a language model. Instead of calling this the query language
model, we use the name relevance model since it represents the topic covered by
relevant documents. The query can be viewed as a very small sample of text generated
from the relevance model, and relevant documents are much larger samples
of text from the same model. Given some examples of relevant documents for a
query, we could estimate the probabilities in the relevance model and then use
this model to predict the relevance of new documents. In fact, this is a version of
the classification model presented in section 7.2.1, where we interpretP(D|R) as
the probability of generating the text in a document given a relevance model. This
is also called the document likelihood model. Although this model, unlike the binary
independence model, directly incorporates term frequency,
it turns out that
P(D|R) is difficult to calculate and compare across documents. This is because
documents contain a large and extremely variable number of words compared
to a query. Consider two documents Da and Db, for example, containing 5 and
500 words respectively. Because of the large difference in the number of words
involved, the comparison of P(Da|R) and P(Db|R) for ranking will be more
difficult than comparing P(Q|Da) and P(Q|Db), which use the same query and
smoothed representations for the documents. In addition, we still have the problem
of obtaining examples of relevant documents.
There is, however, another alternative. If we can estimate a relevance model
from a query, we can compare this language model directly with the model for a
document. Documents would then be ranked by the similarity of the document
model to the relevance model. A document with a model that is very similar to
the relevance model is likely to be on the same topic. The obvious next question
is how to compare two language models. A well-known measure from probability
theory and information theory, the Kullback-Leibler divergence (referred to as KL-divergence in this book), measures the difference between two probability
distributions. Given the true probability distribution P and another distribution
Q that is an approximation to P, the KL divergence is defined as:

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

7.3.2 รุ่นความเกี่ยวข้องและข้อเสนอแนะเกี่ยวหลอกแม้ว่าแบบสอบถามพื้นฐานโอกาสมีได้เปรียบ ไม่จำกัดในแง่ของวิธีมันแบบต้องการข้อมูลและแบบสอบถาม ยากตัวอย่าง การรวมข้อมูลเกี่ยวกับเอกสารที่เกี่ยวข้องในการจัดอันดับอัลกอริทึม หรือแสดงถึงความจริงที่ว่า แบบสอบถามเป็นเพียงหนึ่งในหลายแบบสอบถามเป็นไปได้ที่สามารถใช้เพื่ออธิบายความต้องการเฉพาะข้อมูล ในส่วนนี้ เราแสดงวิธีนี้สามารถทำได้ โดยการขยายแบบพื้นฐานในการแนะนำส่วน 7.3 เรากล่าวว่า มันเป็นได้ถึงหัวข้อของแบบสอบถามเป็นรูปแบบภาษา แทนการเรียกนี้ภาษาสอบถามนางแบบ เราใช้แบบเกี่ยวข้องชื่อเนื่องจากมันแสดงถึงหัวข้อที่ครอบคลุมโดยเอกสารที่เกี่ยวข้อง แบบสอบถามสามารถดูเป็นตัวอย่างเล็ก ๆ ของข้อความที่สร้างจากความเกี่ยวข้อง แบบ และที่เกี่ยวข้องเอกสารเป็นตัวอย่างขนาดใหญ่ข้อความจากแบบเดียวกัน กำหนดตัวอย่างของเอกสารที่เกี่ยวข้องสำหรับการสอบถาม เราสามารถประมาณรุ่นน่าจะในความเกี่ยวข้อง และใช้รุ่นนี้จะทำนายความเกี่ยวข้องของเอกสารใหม่ ในความเป็นจริง นี้เป็นรุ่นรูปแบบประเภทที่แสดงในส่วน 7.2.1 ที่เรา interpretP(D| R) เป็นความน่าเป็นการสร้างข้อความในเอกสารที่กำหนดรูปแบบความเกี่ยวข้อง นี้จะเรียกว่าแบบจำลองความน่าเป็นเอกสาร แม้นี้ แบบแตกต่างจากไบนารีรูปแบบอิสระ รวมระยะความถี่ โดยตรงปรากฎว่าP(D| R) เป็นเรื่องยากในการคำนวณ และเปรียบเทียบในเอกสาร ทั้งนี้เนื่องจากเอกสารประกอบด้วยขนาดใหญ่ และตัวแปรมากจำนวนคำเปรียบเทียบแบบสอบถาม พิจารณาเอกสารสอง Da และ Db เช่น ที่ประกอบด้วย 5 และ500 คำตามลำดับ เนื่องจากความแตกต่างใหญ่ในจำนวนคำมีส่วนร่วม การเปรียบเทียบ P(Da| R) และ P(Db| R) สำหรับการจัดอันดับจะมีมากขึ้นยากกว่าเปรียบเทียบ P(Q| Da) และ P(Q| Db), ซึ่งใช้แบบสอบถามเดียวกัน และรับรองเรียบสำหรับเอกสาร นอกจากนี้ เรายังมีปัญหาได้รับตัวอย่างของเอกสารที่เกี่ยวข้องมี อย่างไรก็ตาม ทางเลือกอื่น ถ้าเราสามารถประเมินแบบความเกี่ยวข้องจากแบบสอบถาม เราสามารถเปรียบเทียบรูปแบบตรงกับแบบจำลองสำหรับภาษานี้เป็นเอกสาร เอกสารแล้วจะจัดอันดับ โดยความคล้ายคลึงกันของเอกสารรูปแบบความเกี่ยวข้อง เอกสารที่ มีรูปแบบที่คล้ายกับรูปแบบเกี่ยวข้องจะเป็นหัวข้อเดียวกัน คำถามที่ชัดเจนต่อไปเป็นวิธีการเปรียบเทียบสองภาษารุ่น การวัดจากความน่าเป็นที่รู้จักทฤษฎีและทฤษฎีสารสนเทศ แตกต่างการ Kullback-Leibler (เรียกว่า KL divergence ในหนังสือเล่มนี้), วัดความแตกต่างระหว่างสองน่าเป็นการกระจาย การแจกแจงความน่าเป็นจริง P และการแจกจ่ายที่อื่นQ ที่มีการประมาณการ P, KL divergence ถูกกำหนดเป็น:

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

7.3.2 ความสัมพันธ์กันและรุ่น Pseudo-ความสัมพันธ์กันข้อเสนอแนะ
ถึงแม้ว่ารูปแบบการสอบถามความน่าจะเป็นพื้นฐานมีจำนวนของข้อได้เปรียบจะมีข้อ จำกัด
ในแง่ของวิธีการที่ข้อมูลมันแบบจำลองความต้องการและคำสั่ง มันเป็นเรื่องยากสำหรับ
ตัวอย่างเช่นในการรวมข้อมูลเกี่ยวกับเอกสารที่เกี่ยวข้องในการจัดอันดับของ
อัลกอริทึมหรือเพื่อเป็นตัวแทนของความจริงที่ว่าแบบสอบถามเป็นเพียงหนึ่งในการค้นหาเป็นไปได้มาก
ที่สามารถนำมาใช้เพื่ออธิบายข้อมูลเฉพาะจำเป็น ในส่วนนี้เราจะ
แสดงวิธีนี้สามารถทำได้โดยการขยายรูปแบบพื้นฐาน.
ในการแนะนำไปยังส่วน 7.3 เรากล่าวว่ามันเป็นไปได้ที่จะเป็นตัวแทนของ
หัวข้อของแบบสอบถามเป็นรูปแบบภาษา แทนการเรียกร้องนี้ภาษาแบบสอบถาม
รุ่นเราจะใช้ชื่อรุ่นความสัมพันธ์กันตั้งแต่มันหมายถึงหัวข้อที่ครอบคลุมโดย
เอกสารที่เกี่ยวข้อง แบบสอบถามสามารถดูเป็นตัวอย่างที่มีขนาดเล็กมากของข้อความที่สร้าง
จากแบบจำลองความสัมพันธ์กันและเอกสารที่เกี่ยวข้องเป็นตัวอย่างที่มีขนาดใหญ่มาก
ของข้อความจากรุ่นเดียวกัน ได้รับตัวอย่างบางส่วนของเอกสารที่เกี่ยวข้องสำหรับ
แบบสอบถามเราสามารถประเมินความน่าจะเป็นในรูปแบบความสัมพันธ์กันแล้วใช้
รูปแบบนี้ในการทำนายความสัมพันธ์กันของเอกสารใหม่ ในความเป็นจริงนี้เป็นรุ่นของ
รูปแบบการจัดหมวดหมู่ที่นำเสนอในส่วน 7.2.1 ที่เรา interpretP (D | R) ซึ่งเป็น
ความน่าจะเป็นในการสร้างข้อความในเอกสารที่กำหนดรูปแบบความสัมพันธ์กัน นี้
จะเรียกว่ารูปแบบความน่าจะเป็นเอกสาร แม้ว่ารุ่นนี้แตกต่างจากไบนารี
รูปแบบอิสระโดยตรงประกอบด้วยความถี่ระยะ
ปรากฎว่า
P (D | R) เป็นเรื่องยากที่จะคำนวณและเปรียบเทียบในเอกสาร นี้เป็นเพราะ
เอกสารมีจำนวนมากและตัวแปรมากของคำเทียบ
แบบสอบถาม พิจารณาเอกสารทั้งสองดาและ Db ตัวอย่างเช่นมี 5 และ
500 คำตามลำดับ เนื่องจากความแตกต่างกันมากในจำนวนคำ
ที่เกี่ยวข้องกับการเปรียบเทียบ P (ดา | R) และ P (DB | R) สำหรับการจัดอันดับจะมีมากขึ้น
ยากกว่าเมื่อเปรียบเทียบกับ P (Q | ดา) และ P (Q | Db) ซึ่งใช้แบบสอบถามเหมือนกันและ
การแสดงเรียบสำหรับเอกสาร นอกจากนี้เรายังมีปัญหา
ของการได้รับตัวอย่างของเอกสารที่เกี่ยวข้อง.
อย่างไรก็ดียังมีอีกทางเลือกหนึ่งคือ ถ้าเราสามารถที่จะประเมินรูปแบบความเกี่ยวข้อง
จากแบบสอบถามเราสามารถเปรียบเทียบรูปแบบภาษานี้โดยตรงกับรูปแบบสำหรับ
เอกสาร เอกสารแล้วจะได้รับการจัดอันดับจากความคล้ายคลึงกันของเอกสาร
รูปแบบกับรูปแบบความเกี่ยวข้อง เอกสารที่มีรูปแบบที่คล้ายกับ
รูปแบบความสัมพันธ์กันมีแนวโน้มที่จะอยู่ในหัวข้อเดียวกัน คำถามต่อไปที่เห็นได้ชัด
คือวิธีการเปรียบเทียบสองรุ่นภาษา วัดที่รู้จักกันดีจากความน่าจะเป็น
ทฤษฎีและทฤษฎีข้อมูลที่ Kullback-Leibler แตกต่าง (เรียกว่า KL-ความแตกต่างในหนังสือเล่มนี้) มีขนาดแตกต่างระหว่างทั้งสองน่าจะ
กระจาย ได้รับ P แจกแจงความน่าจะเป็นความจริงและอีกกระจาย
Q ที่อยู่ใกล้เคียงที่ P, ความแตกต่าง KL หมายถึง:

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

7.3.2 ความเกี่ยวข้องแบบเทียม และความเกี่ยวข้องของความคิดเห็นแม้ว่ารูปแบบความเป็นไปได้ query พื้นฐานมีจำนวนของข้อดี มันมีจำกัดในแง่ของวิธีการแบบจำลองความต้องการสารสนเทศและการสืบค้น มันเป็นเรื่องยากสำหรับตัวอย่าง รวมข้อมูลเกี่ยวกับเอกสารที่เกี่ยวข้องในการจัดอันดับขั้นตอนวิธี หรือแสดงข้อเท็จจริงที่แบบสอบถาม เป็นเพียงหนึ่งในการค้นหาที่เป็นไปได้หลายที่สามารถใช้ในการอธิบายข้อมูลเฉพาะที่ต้องการ ในส่วนนี้เราแสดงวิธีนี้สามารถทำได้โดยการขยายรูปแบบพื้นฐานในเบื้องต้น ส่วนที่ 7.3 เรากล่าวว่ามันเป็นไปได้ที่จะเป็นตัวแทนหัวข้อของแบบสอบถาม เป็นภาษาแบบ แทนที่จะเรียกภาษาแบบสอบถามนี้แบบ เราใช้ชื่อ The รูปแบบตั้งแต่มันเป็นหัวข้อที่ครอบคลุมโดยเอกสารที่เกี่ยวข้อง แบบสอบถามสามารถดูเป็นขนาดเล็กมาก ตัวอย่างของข้อความที่สร้างขึ้นจากความสัมพันธ์แบบและเอกสารที่เกี่ยวข้องมีตัวอย่างขนาดใหญ่มากข้อความจากรูปแบบเดียวกัน ให้ตัวอย่างบางส่วนของเอกสารที่เกี่ยวข้องสำหรับสอบถาม เราสามารถประมาณค่าความน่าจะเป็นในรูปแบบแล้วใช้ความเกี่ยวข้องแบบจำลองทำนายความเกี่ยวข้องของเอกสารใหม่ ในความเป็นจริงนี้เป็นรุ่นของการจำแนกรูปแบบนำเสนอในส่วน 7.2.1 ที่เรา interpretp ( D | R ) เช่นความน่าจะเป็นของการสร้างข้อความในเอกสารที่ได้รับ , นางแบบ นี้จะเรียกว่าโอกาสเอกสารแบบ แม้ว่ารุ่นนี้แตกต่างจากไบนารีแบบอิสระโดยตรง ประกอบด้วยค่าเทอมกลับกลายเป็นว่าP ( D | R ) เป็นเรื่องยากที่จะคำนวณและเปรียบเทียบในเอกสาร นี้เป็นเพราะเอกสารที่ประกอบด้วยตัวเลขขนาดใหญ่และตัวแปรมากคำพูดเปรียบเทียบเป็นแบบสอบถาม พิจารณาสองเอกสารดาและ DB , ตัวอย่าง ประกอบด้วย 5 และ500 คำ ตามลำดับ เพราะความแตกต่างขนาดใหญ่ในจำนวนของคำที่เกี่ยวข้องกับการเปรียบเทียบของ P ( ดา | R ) และ P ( DB | R ) สำหรับการจัดอันดับจะถูกมากขึ้นยากกว่าการเปรียบเทียบ P ( q | ดา ) และ P ( Q | dB ) ซึ่งใช้แบบสอบถามเดียวกันและตัดภาพสำหรับเอกสาร นอกจากนี้ เรายังมีปัญหาได้รับตัวอย่างของเอกสารต่างๆที่เกี่ยวข้องมี แต่ทางเลือกอื่น ถ้าเราสามารถประเมินความเกี่ยวข้องแบบจากแบบสอบถามที่เราสามารถเปรียบเทียบรูปแบบภาษานี้โดยตรง ด้วยรูปแบบสำหรับเอกสาร เอกสารจะถูกจัดอันดับโดยความคล้ายคลึงกันของเอกสารรูปแบบความสัมพันธ์แบบ เอกสารที่มีรูปแบบที่คล้ายคลึงกับที่สำคัญนางแบบน่าจะอยู่ในหัวข้อเดียวกัน คำถามต่อไปอย่างเห็นได้ชัดคือวิธีการเปรียบเทียบสองภาษารุ่น เป็นวัดที่รู้จักกันดีจากความน่าจะเป็นทฤษฎีทฤษฎีและข้อมูล คัลแบ็กลี๊บเลอร์ความแตกต่าง ( เรียกว่า KL divergence ในหนังสือเล่มนี้ ) , วัดความแตกต่างระหว่างสอง ความน่าจะเป็นการแจกแจง . ได้รับจริงการแจกแจงความน่าจะเป็น P และกระจายอีกถามว่า เป็นประมาณ P , KL divergence หมายถึง :

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.