The approach to web search described in section 7.5, which scores documents
based on a combination or mixture of language models representing different
parts of the document structure, is based on Ogilvie and Callan (2003). The
BM25F ranking function (Robertson et al., 2004) is an extension of BM25 that is
also designed to effectively combine information from different document fields.
Spam is of such importance in web search that an entire subfield, called adversarial
information retrieval, has developed to deal with search techniques for
document collections that are being manipulated by parties with different interests
(such as spammers and search engine optimizers). We discuss the topic of
spam in Chapter 9.
The early work on learning ranking functions includes the use of logistic regression
(Cooper et al., 1992). Fuhr and Buckley (1991) were the first to describe
clearly how using features that are independent of the actual query words
(e.g., using a feature like the number of matching terms rather than which terms
matched) enable the learning of ranking functions across queries. The use of
Ranking SVM for information retrieval was described by Joachims (2002b). Cao
et al. (2006) describe modifications of this approach that improve ranking effectiveness.
RankNet (C. Burges et al., 2005) is a neural network approach to learning
a ranking function that is used in the Microsoft web search engine. Agichtein,
Brill, and Dumais (2006) describe how user behavior features can be incorporated
effectively into ranking based on RankNet. Both Ranking SVMs and RankNet
learn using partial rank information (i.e., pairwise preferences). Another class of
learning models, called listwise models, use the entire ranked list for learning. Examples
of these models include the linear discriminative model proposed by Gao
et al. (2005), which learns weights for features that are based on language models.
This approach has some similarities to the inference network model being used
to combine language model and other features. Another listwise approach is the term dependence model proposed by Metzler and Croft (2005b), which is also
based on a linear combination of features. Both the Gao and Metzler models provide
a learning technique that maximizes average precision (an important infor mation retrieval metric) directly. More information about listwise learning models
can be found in Xia et al. (2008).
Hofmann (1999) described a probabilistic version of LSI (pLSI) that introduced
the modeling of documents as a mixture of topics. The LDA model was
described by Blei et al. (2003). A number of extensions of this model have been
proposed since then, but they have not been applied to information retrieval.
The application of LDA to information retrieval was described in Wei and Croft(2006).
วิธีการค้นหาเว็บอธิบายไว้ในส่วน 7.5 ซึ่งเอกสารคะแนน
ขึ้นอยู่กับการรวมกันหรือส่วนผสมของรุ่นภาษาที่แตกต่างกันที่เป็นตัวแทนของ
ส่วนของโครงสร้างของเอกสารที่อยู่บนพื้นฐานของโอกิลวีและ Callan (2003)
BM25F ฟังก์ชั่นการจัดอันดับ (โรเบิร์ต et al., 2004) เป็นส่วนขยายของ BM25 ที่ถูก
ออกแบบมาให้มีประสิทธิภาพการรวมข้อมูลจากเขตข้อมูลเอกสารที่แตกต่างกัน.
สแปมมีความสำคัญดังกล่าวในการค้นหาเว็บที่ฟิลด์ทั้งหมดเรียกว่าขัดแย้ง
ดึงข้อมูลได้มีการพัฒนา ที่จะจัดการกับเทคนิคการค้นหาสำหรับ
คอลเลกชันเอกสารที่มีการจัดการโดยบุคคลที่มีความสนใจที่แตกต่างกัน
(เช่นส่งอีเมลขยะและเพิ่มประสิทธิภาพเครื่องมือค้นหา) เราหารือหัวข้อของ
อีเมลขยะในบทที่ 9
การทำงานในช่วงต้นของการเรียนรู้ฟังก์ชั่นการจัดอันดับรวมถึงการใช้การถดถอยโลจิสติก
(Cooper et al., 1992) Fuhr และบัคลี่ย์ (1991) เป็นคนแรกที่อธิบาย
ได้อย่างชัดเจนว่าการใช้คุณสมบัติที่มีความเป็นอิสระของคำที่ใช้ค้นหาที่เกิดขึ้นจริง
(เช่นการใช้คุณลักษณะเช่นจำนวนของการจับคู่แง่มากกว่าซึ่งข้อตกลง
จับคู่) ช่วยให้การเรียนรู้ฟังก์ชั่นของการจัดอันดับทั่วแบบสอบถาม การใช้งานของ
การจัดอันดับ SVM สำหรับการดึงข้อมูลที่ถูกอธิบายโดย Joachims (2002b) เฉา
et al, (2006) อธิบายการปรับเปลี่ยนของวิธีการนี้ว่าปรับปรุงการจัดอันดับประสิทธิภาพ.
RankNet ( C. Burges et al., 2005) เป็นวิธีการที่เครือข่ายประสาทเพื่อการเรียนรู้
ฟังก์ชั่นการจัดอันดับที่ใช้ใน Web search engine ของไมโครซอฟท์ Agichtein,
สุดยอดและ Dumais (2006) อธิบายวิธีคุณลักษณะพฤติกรรมของผู้ใช้สามารถรวม
อย่างมีประสิทธิภาพในการจัดอันดับขึ้นอยู่กับ RankNet ทั้งสอง SVMs การจัดอันดับและ RankNet
เรียนรู้การใช้ข้อมูลบางส่วนอันดับ (เช่นการตั้งค่าคู่) ชั้นอีกประการหนึ่งของ
โมเดลการเรียนรู้ที่เรียกว่ารุ่น listwise ให้ใช้ทั้งการจัดอันดับรายการสำหรับการเรียนรู้ ตัวอย่าง
ของแบบจำลองเหล่านี้รวมถึงรูปแบบการจำแนกเชิงเส้นที่เสนอโดย Gao
, et al (2005) ซึ่งเรียนรู้น้ำหนักสำหรับคุณสมบัติที่เป็นไปตามรูปแบบภาษา.
วิธีการนี้มีลักษณะคล้ายคลึงกับรูปแบบเครือข่ายการอนุมานถูกนำมาใช้
ในการรวมรูปแบบภาษาและคุณสมบัติอื่น ๆ วิธี listwise ก็คือรูปแบบการพึ่งพาอาศัยกันในระยะที่เสนอโดย Metzler และ Croft (2005b) ซึ่งยัง
อยู่บนพื้นฐานของการรวมกันของคุณสมบัติเชิงเส้น ทั้ง Gao และ Metzler รุ่นให้
เทคนิคการเรียนรู้ที่ช่วยเพิ่มความแม่นยำเฉลี่ย (ที่มีความสำคัญ Infor mation ดึงตัวชี้วัด) โดยตรง ข้อมูลเพิ่มเติมเกี่ยวกับโมเดลการเรียนรู้ listwise
สามารถพบได้ในเซี่ย, et al (2008).
Hofmann (1999) อธิบายรุ่นน่าจะเป็นของ LSI (pLSI) แนะนำว่า
การสร้างแบบจำลองของเอกสารที่เป็นส่วนผสมของหัวข้อ รุ่น LDA ถูก
อธิบายโดย Blei et al, (2003) จำนวนของนามสกุลของรุ่นนี้ได้รับการ
เสนอตั้งแต่นั้นมา แต่พวกเขาไม่ได้ถูกนำมาใช้ในการดึงข้อมูล.
การประยุกต์ใช้ LDA เพื่อดึงข้อมูลที่ได้อธิบายไว้ในเหว่ยและครอฟท์ (2006)
การแปล กรุณารอสักครู่..
