Since retrieval models are one of the most important topics in information retrieval,
there are many papers describing research in this area, starting in the 1950s.
One of the most valuable aspects of van Rijsbergen’s book (van Rijsbergen, 1979)
is the coverage of the older research in this area. In this book, we will focus on
some of the major papers, rather than attempting to be comprehensive. These references
will be discussed in the order of the topics presented in this chapter.
The discussion of the nature of relevance has, understandably, been going on
in information retrieval for a long time. One of the earlier papers that is often
cited is Saracevic (1975). A more recent article gives a review of work in this area
(Mizzaro, 1997).
On the topic of Boolean versus ranked search, Turtle (1994) carried out an
experiment comparing the performance of professional searchers using the best
Boolean queries they could generate against keyword searches using ranked output
and found no advantage for the Boolean search. When simple Boolean queries
are compared against ranking, as in Turtle and Croft (1991), the effectiveness of
ranking is much higher.
The vector space model was first mentioned in Salton et al. (1975), and is described
in detail in Salton and McGill (1983). The most comprehensive paper in
weighting experiments with this model is Salton and Buckley (1988), although
the term-weighting techniques described in section 7.1.2 are a later improvement
on those described in the paper.
The description of information retrieval as a classification problem appears in
van Rijsbergen (1979). The best paper on the application of the binary independence
model and its development into the BM25 ranking function is Sparck Jones
et al. (2000).
The use of language models in information retrieval started with Ponte and
Croft (1998), who described a retrieval model based on multiple-Bernoulli language
models. This was quickly followed by a number of papers that developed
the multinomial version of the retrieval model (Hiemstra, 1998; F. Song & Croft,
1999). Miller et al. (1999) described the same approach using a Hidden Markov
Model. Berger and Lafferty (1999) showed how translation probabilities for words
could be incorporated into the language model approach. We will refer to this
translation model again in section 10.3. The use of non-uniform prior probabilities
was studied by Kraaij et al. (2002). A collection of papers relating to language
models and information retrieval appears in Croft and Lafferty (2003).
Zhai and Lafferty (2004) give an excellent description of smoothing techniques
for language modeling in information retrieval. Smoothing using clusters
and nearest neighbors is described in Liu and Croft (2004) and Kurland and Lee
(2004).
An early term-dependency model was described in van Rijsbergen (1979). A
bigram language model for information retrieval was described in F. Song and
Croft (1999), but the more general models in Gao et al. (2004) and Metzler and
Croft (2005b) produced significantly better retrieval results, especially with larger
collections.
The relevance model approach to query expansion appeared in Lavrenko and
Croft (2001). Lafferty and Zhai (2001) proposed a related approach that built a
query model and compared it to document models.
There have been many experiments reported in the information retrieval literature
showing that the combination of evidence significantly improves the ranking
effectiveness. Croft (2000) reviews these results and shows that this is not
surprising, given that information retrieval can be viewed as a classification problem
with a huge choice of features. Turtle and Croft (1991) describe the inference
network model. This model was used as the basis for the Inquery search en gine (Callan et al., 1992) and the WIN version of the commercial search engine
WESTLAW (Pritchard-Schoch, 1993). The extension of this model to include
language model probabilities is described in Metzler and Croft (2004). This extension
was implemented as the Indri search engine (Strohman et al., 2005; Metzler,
Strohman, et al., 2004). The Galago query language is based on the query
language for Indri.
The approach to web search described in section 7.5, which scores documents
based on a combination or mixture of language models representing different
parts of the document structure, is based on Ogilvie and Callan (2003). The
BM25F ranking function (Robertson et al., 2004) is an extension of BM25 that is
also designed to effectively combine information from different document fields.
Spam is of such importance in web search that an entire subfield, called adversarial
information retrieval, has developed to deal with search techniques for
document collections that are being manipulated by parties with different interests
(such as spammers and search engine optimizers). We discuss the topic of
spam in Chapter 9.
The early
ตั้งแต่รุ่นเรียกเป็นหนึ่งในหัวข้อที่สำคัญที่สุดในการดึงข้อมูลมีหลายเอกสารอธิบายงานวิจัยในพื้นที่นี้ เริ่มต้นในปี 1950หนึ่งในด้านคุณค่าของหนังสือแวน Rijsbergen (van Rijsbergen, 1979)มีความครอบคลุมของการวิจัยเก่าในบริเวณนี้ ในหนังสือเล่มนี้ เราจะเน้นบางส่วนของเอกสารสำคัญ มากกว่าพยายามที่จะครอบคลุม อ้างอิงเหล่านี้จะกล่าวถึงตามลำดับหัวข้อที่นำเสนอในบทนี้การอภิปรายของธรรมชาติความเกี่ยวข้อง เข้าใจ เกิดขึ้นในการเรียกข้อมูลเป็นเวลานาน หนึ่งในเอกสารก่อนหน้านี้ที่มักจะอ้างเป็น Saracevic (1975) บทความล่าสุดช่วยให้ความคิดของการทำงานในพื้นที่นี้(Mizzaro, 1997)หัวข้อเรื่องของบูลีนเทียบกับอันดับการค้นหา เต่า (1994) ดำเนินการการทดลองเปรียบเทียบประสิทธิภาพของผู้ค้นหามืออาชีพที่ใช้ดีสุดบูลีนแบบสอบถามที่พวกเขาสามารถสร้างจากการค้นหาคำสำคัญที่ใช้จัดอันดับออกและพบว่าไม่มีประโยชน์สำหรับการค้นหาบูลี เมื่อง่ายบูลีนแบบสอบถามเมื่อเทียบกับการจัดอันดับ เต่าและ Croft (1991), ประสิทธิภาพของการจัดอันดับจะสูงรูปแบบเวกเตอร์พื้นที่มีการกล่าวถึงครั้งแรกใน Salton et al. (1975), และอธิบายไว้ในรายละเอียดใน Salton และกิล (1983) กระดาษครอบคลุมในน้ำหนักในการทดลองกับแบบจำลองนี้เป็น Salton Buckley (1988), แม้ว่าเทคนิคน้ำหนักระยะที่อธิบายไว้ในส่วน 7.1.2 มีการปรับปรุงที่ใหม่กว่าจากที่อธิบายไว้ในกระดาษคำอธิบายของการเรียกข้อมูลเป็นปัญหาประเภทที่ปรากฏในแวน Rijsbergen (1979) กระดาษที่ดีที่สุดของความเป็นอิสระไบนารีรูปแบบและการพัฒนาในการ BM25 ฟังก์ชันการจัดอันดับเป็นโจนส์ Sparcket al. (2000)การใช้รูปแบบภาษาในการเรียกข้อมูลเริ่มต้น ด้วยปงต์ และครอฟท์ (1998), ที่อธิบายแบบเรียกตามภาษาหลาย Bernoulliรุ่น นี้ได้อย่างรวดเร็วตามมา ด้วยหมายเลขของเอกสารที่พัฒนาขึ้นก็ตามรุ่นของรูปแบบการเรียก (Hiemstra, 1998 เอฟแอนด์ Croft1999) . มิลเลอร์ et al. (1999) อธิบายวิธีการเดียวกันใช้ Markov ซ่อนอยู่รุ่น เบอร์เกอร์และ Lafferty (1999) แสดงให้เห็นว่าน่าจะแปลคำสามารถประกอบเป็นวิธีการรูปแบบของภาษา เราจะเรียกในที่นี้รูปแบบการแปลอีกครั้งในหัวข้อที่ 10.3 การใช้งานน่าจะไม่ใช่เหมือนก่อนเป็นศึกษาโดย Kraaij et al. (2002) การเก็บรวมรวมเอกสารที่เกี่ยวข้องกับภาษารูปแบบและการเรียกข้อมูลปรากฏใน Croft และ Lafferty (2003)Zhai Lafferty (2004) ให้คำอธิบายที่ดีของเทคนิคการปรับให้เรียบภาษาการสร้างแบบจำลองในการเรียกข้อมูล ปรับให้เรียบโดยใช้คลัสเตอร์และเพื่อนบ้านที่ใกล้ที่สุดได้อธิบายไว้ในหลิว และ Croft (2004) และ Kurland และลี(2004)แบบจำลองที่ขึ้นช่วงระยะถูกอธิบายไว้ใน Rijsbergen van (1979) Abigram รุ่นภาษาสำหรับเรียกข้อมูลถูกอธิบายไว้ในเพลงเอฟ และครอฟท์ (1999), แต่รูปแบบทั่วไปในเกา et al. (2004) และ Metzler และครอฟท์ (2005b) ผลิตผลเรียกดีกว่า โดยเฉพาะอย่างยิ่งใหญ่การรวบรวมวิธีการขยายแบบสอบถามรูปแบบเกี่ยวข้องปรากฏใน Lavrenko และครอฟท์ (2001) Lafferty และ Zhai (2001) เสนอวิธีการที่เกี่ยวข้องที่อยู่ภายในสอบถามรุ่น และเปรียบเทียบกับรูปแบบเอกสารมีการทดลองหลายรายงานในวรรณคดีการเรียกข้อมูลแสดงว่า การรวมกันของหลักฐานช่วยปรับปรุงการจัดอันดับประสิทธิผล ครอฟท์ (2000) ความคิดเห็นผลลัพธ์เหล่านี้ และแสดงให้เห็นว่านี้ไม่ได้น่าแปลกใจ เรียกข้อมูลสามารถดูเป็นปัญหาประเภทที่มีจำนวนมากของคุณสมบัติ เต่าและ Croft (1991) อธิบายการอนุมานรูปแบบเครือข่าย รุ่นนี้ใช้เป็นพื้นฐานสำหรับ gine ค้นหา en Inquery (Callan et al. 1992) และโปรแกรมค้นหาเชิงพาณิชย์รุ่นชนะWESTLAW (รอยเฟอร์-Schoch, 1993) ส่วนขยายของรุ่นนี้จะรวมภาษารุ่นน่าจะอธิบายไว้ใน Metzler และ Croft (2004) ส่วนขยายนี้ถูกนำมาใช้เป็นเครื่องมือค้นหา Indri (Strohman et al. 2005 MetzlerStrohman, et al. 2004) ภาษาสอบถาม Galago ตั้งอยู่บนแบบสอบถามภาษาสำหรับ Indriวิธีการค้นหาเว็บอธิบายไว้ในส่วน 7.5 ซึ่งคะแนนเอกสารผสมหรือส่วนผสมของรูปแบบภาษาที่แสดงแตกต่างกันส่วนของโครงสร้างของเอกสาร ตาม Ogilvie และ Callan (2003) การฟังก์ชันการจัดอันดับ BM25F (โรเบิร์ต et al. 2004) เป็นส่วนขยายของ BM25 ที่นอกจากนี้ยัง ออกแบบมาเพื่อรวมข้อมูลจากเขตข้อมูลเอกสารต่าง ๆ ได้อย่างมีประสิทธิภาพสแปมเป็นสำคัญเช่นในการค้นหาเว็บที่มีฟิลด์ย่อยทั้งหมด เรียกว่าแข่งขันมีพัฒนาที่เรียกข้อมูล การจัดการกับเทคนิคการค้นหาสำหรับคอลเลกชันเอกสารที่จะถูกจัดการ โดยบุคคลที่มีความสนใจที่แตกต่างกัน(เช่นสแปมเมอร์และเพิ่มประสิทธิภาพกลไกค้นหา) เราพูดคุยเรื่องสแปมในบทที่ 9ช่วงต้น
การแปล กรุณารอสักครู่..

ตั้งแต่รุ่นที่ดึงเป็นหนึ่งในหัวข้อที่สำคัญที่สุดในการดึงข้อมูล
มีเอกสารจำนวนมากที่อธิบายถึงการวิจัยในพื้นที่นี้เริ่มต้นในปี 1950.
ด้านหนึ่งที่มีคุณค่ามากที่สุดของหนังสือเล่ม Van Rijsbergen ของ (รถตู้ Rijsbergen, 1979)
ความคุ้มครองของ การวิจัยสูงอายุในพื้นที่นี้ ในหนังสือเล่มนี้เราจะมุ่งเน้นไปที่
บางส่วนของเอกสารที่สำคัญมากกว่าการพยายามที่จะครอบคลุม อ้างอิงเหล่านี้
จะมีการหารือในการสั่งซื้อของหัวข้อที่นำเสนอในบทนี้.
การอภิปรายเกี่ยวกับธรรมชาติของความสัมพันธ์กันได้เข้าใจได้เกิดขึ้น
ในการดึงข้อมูลมาเป็นเวลานาน หนึ่งในเอกสารก่อนหน้านี้ที่มักจะ
อ้างเป็น Saracevic (1975) บทความล่าสุดเพิ่มเติมจะช่วยให้การตรวจสอบการทำงานในพื้นที่นี้
(Mizzaro, 1997).
ในหัวข้อของการบูลีนเมื่อเทียบกับการค้นหาอันดับเต่า (1994) ดำเนินการออก
ทดสอบเปรียบเทียบประสิทธิภาพการทำงานของผู้ค้นหามืออาชีพโดยใช้ที่ดีที่สุด
คำสั่งแบบบูลที่พวกเขาสามารถสร้างกับ ค้นหาคำหลักที่ใช้การส่งออกการจัดอันดับ
และพบว่าไม่มีประโยชน์สำหรับการค้นหาแบบบูล เมื่อคำสั่งบูลีนที่เรียบง่าย
เมื่อเทียบกับการจัดอันดับในขณะที่เต่าและครอฟท์ (1991), ประสิทธิผลของ
การจัดอันดับที่สูงขึ้นมาก.
รุ่นปริภูมิเวกเตอร์เป็นครั้งแรกใน Salton et al, (1975) และมีการอธิบาย
ในรายละเอียดใน Salton และกิล (1983) กระดาษที่ครอบคลุมมากที่สุดใน
การทดลองน้ำหนักกับรุ่นนี้คือ Salton และบัคลี่ย์ (1988) แม้ว่า
เทคนิคระยะน้ำหนักที่อธิบายไว้ในส่วน 7.1.2 มีการปรับปรุงในภายหลัง
ในที่อธิบายไว้ในกระดาษ.
รายละเอียดของการดึงข้อมูลเป็นปัญหาการจัดหมวดหมู่ให้ ปรากฏอยู่ใน
รถตู้ Rijsbergen (1979) กระดาษที่ดีที่สุดเกี่ยวกับการใช้ความเป็นอิสระไบนารี
รูปแบบและการพัฒนาเข้าสู่ฟังก์ชั่นการจัดอันดับเป็น BM25 Sparck โจนส์
, et al (2000).
การใช้แบบจำลองภาษาในการดึงข้อมูลเริ่มต้นด้วย Ponte และ
ครอฟท์ (1998) ซึ่งอธิบายรูปแบบการดึงขึ้นอยู่กับภาษาหลาย Bernoulli
รุ่น นี้ได้อย่างรวดเร็วตามจำนวนเอกสารที่พัฒนา
รุ่นพหุนามของรูปแบบการดึง (Hiemstra 1998; เอฟเพลงและนา
1999) มิลเลอร์, et al (1999) อธิบายวิธีการเดียวกันโดยใช้ซ่อนมาร์คอฟ
รุ่น เบอร์เกอร์และ Lafferty (1999) แสดงให้เห็นว่าน่าจะแปลคำ
สามารถรวมเข้ากับวิธีการรูปแบบภาษา เราจะพูดถึงเรื่องนี้
รูปแบบการแปลอีกครั้งในส่วน 10.3 การใช้ไม่เหมือนกันน่าจะเป็นก่อน
ได้รับการศึกษาโดย Kraaij et al, (2002) คอลเลกชันของเอกสารที่เกี่ยวข้องกับการใช้ภาษา
แบบจำลองและการดึงข้อมูลที่ปรากฏอยู่ในทุ่งนาและ Lafferty (2003).
Zhai และ Lafferty (2004) ให้คำอธิบายที่ดีของเทคนิคการปรับให้เรียบ
สำหรับการสร้างแบบจำลองภาษาในการดึงข้อมูล การปรับให้เรียบใช้กลุ่ม
และเพื่อนบ้านที่ใกล้ที่สุดได้อธิบายไว้ในหลิวและครอฟท์ (2004) และเคอร์แลนด์และลี
(2004).
รูปแบบการพึ่งพาระยะต้นได้อธิบายไว้ในรถตู้ Rijsbergen (1979)
รูปแบบภาษา bigram สำหรับการเรียกใช้ข้อมูลได้อธิบายไว้ในเอฟเพลงและการ
ครอฟท์ (1999) แต่รุ่นทั่วไปมากขึ้นใน Gao, et al (2004) และ Metzler และ
Croft (2005b) ผลิตผลลัพธ์ที่ดีกว่าการดึงอย่างมีนัยสำคัญโดยเฉพาะอย่างยิ่งที่มีขนาดใหญ่
คอลเลกชัน.
วิธีการรูปแบบความสัมพันธ์กันเพื่อสอบถามการขยายตัวที่ปรากฏใน Lavrenko และ
ครอฟท์ (2001) Lafferty และ Zhai (2001) ได้เสนอวิธีการที่เกี่ยวข้องที่สร้าง
รูปแบบการสอบถามและการเปรียบเทียบมันกับเอกสารรุ่น.
มีการทดลองหลายรายงานในวรรณคดีการดึงข้อมูลที่
แสดงให้เห็นว่าการรวมกันของหลักฐานอย่างมีนัยสำคัญช่วยเพิ่มการจัดอันดับที่
มีประสิทธิผล ครอฟท์ (2000) ความคิดเห็นผลลัพธ์เหล่านี้และแสดงให้เห็นว่าเรื่องนี้ไม่
น่าแปลกใจที่ได้รับการดึงข้อมูลสามารถถูกมองว่าเป็นปัญหาการจัดหมวดหมู่
ที่มีทางเลือกมากของคุณสมบัติ เต่าและครอฟท์ (1991) อธิบายการอนุมาน
แบบเครือข่าย รุ่นนี้ถูกนำมาใช้เป็นพื้นฐานสำหรับการค้นหา Inquery en Gine นี้ (Callan et al., 1992) และรุ่น WIN ของเครื่องมือค้นหาเชิงพาณิชย์
Westlaw (Pritchard-Schoch, 1993) ส่วนขยายของรุ่นนี้จะรวมถึง
ความน่าจะเป็นรูปแบบภาษาที่อธิบายไว้ใน Metzler และครอฟท์ (2004) ส่วนขยายนี้
ถูกนำมาใช้เป็นเครื่องมือค้นหา Indri (Strohman et al, 2005;. Metzler,
. Strohman, et al, 2004) ภาษาแบบสอบถามกาลาโก้จะขึ้นอยู่กับแบบสอบถาม
ภาษา Indri.
วิธีการค้นหาเว็บอธิบายไว้ในส่วน 7.5 ซึ่งเอกสารคะแนน
ขึ้นอยู่กับการรวมกันหรือส่วนผสมของรุ่นภาษาที่เป็นตัวแทนที่แตกต่างกัน
ในส่วนของโครงสร้างของเอกสารที่อยู่บนพื้นฐานของโอกิลวีและ Callan ( 2003)
BM25F ฟังก์ชั่นการจัดอันดับ (โรเบิร์ต et al., 2004) เป็นส่วนขยายของ BM25 ที่ถูก
ออกแบบมาให้มีประสิทธิภาพการรวมข้อมูลจากเขตข้อมูลเอกสารที่แตกต่างกัน.
สแปมมีความสำคัญดังกล่าวในการค้นหาเว็บที่ฟิลด์ทั้งหมดเรียกว่าขัดแย้ง
ดึงข้อมูลได้มีการพัฒนา ที่จะจัดการกับเทคนิคการค้นหาสำหรับ
คอลเลกชันเอกสารที่มีการจัดการโดยบุคคลที่มีความสนใจที่แตกต่างกัน
(เช่นส่งอีเมลขยะและเพิ่มประสิทธิภาพเครื่องมือค้นหา) เราหารือหัวข้อของ
อีเมลขยะในบทที่ 9
ต้น
การแปล กรุณารอสักครู่..

ตั้งแต่รูปแบบการดึงเป็นหนึ่งในหัวข้อที่สำคัญที่สุดในการดึงข้อมูลมีหลายเอกสารการบรรยายการวิจัยในพื้นที่นี้เริ่มในปี 1950หนึ่งในแง่มุมที่มีคุณค่ามากที่สุดของหนังสือ rijsbergen รถตู้ ( รถตู้ rijsbergen , 1979 )คือ ความครอบคลุมของรุ่นเก่า การวิจัยในพื้นที่นี้ ในหนังสือเล่มนี้ เราจะมุ่งไปที่บางส่วนของเอกสารที่สำคัญมากกว่าการพยายามที่จะครอบคลุม การอ้างอิงเหล่านี้จะกล่าวถึงในลำดับของหัวข้อที่นำเสนอในบทนี้การสนทนาของธรรมชาติที่เกี่ยวข้องได้เข้าใจได้ ถูกขึ้นในการสืบค้นข้อมูลเป็นเวลานาน หนึ่งในบทความก่อนหน้านี้ที่มักจะเป็นอ้างเป็น saracevic ( 1975 ) บทความล่าสุดเพิ่มเติมให้ทบทวนการทำงานในพื้นที่นี้( mizzaro , 1997 )เรื่องของตรรกะและการจัดอันดับการค้นหา เต่า ( 1994 ) ดําเนินการทดลองเปรียบเทียบประสิทธิภาพของการค้นหามืออาชีพที่ดีที่สุดบริการค้นหาพวกเขาสามารถสร้างการค้นหาโดยใช้คำหลักอันดับผลผลิตกับไม่พบประโยชน์จากการค้นหาบูลีน . เมื่อวิตรรกะต่างๆเปรียบเทียบกับการจัดอันดับ เช่น เต่า และครอฟท์ ( 1991 ) , ประสิทธิผลของการจัดอันดับที่สูงมากปริภูมิเวกเตอร์แบบที่ถูกกล่าวถึงเป็นครั้งแรกใน Salton et al . ( 1975 ) และอธิบายในรายละเอียดและใน Salton แคลิฟอร์เนีย ( 1983 ) ที่ครอบคลุมมากที่สุดในกระดาษน้ำหนักทดลองรุ่นนี้คือ Salton กับบัคลี่ย์ ( 1988 ) , ถึงแม้ว่าศัพท์เทคนิคที่อธิบายไว้ในส่วนการขอชั่งมีการปรับปรุงในภายหลังกับที่อธิบายไว้ในกระดาษรายละเอียดของการค้นคืนสารสนเทศเป็นปัญหาในการปรากฏรถตู้ rijsbergen ( 1979 ) ที่ดีที่สุดในการใช้กระดาษเป็นไบนารีรูปแบบและพัฒนาการของการจัดอันดับใน bm25 ฟังก์ชัน sparck โจนส์et al . ( 2000 )การใช้รูปแบบภาษาในการสืบค้นข้อมูลและเริ่มต้นกับปอนเตครอฟท์ ( 1998 ) ที่อธิบายการใช้รูปแบบหลายภาษา แบร์นูลลีรุ่น นี้ได้อย่างรวดเร็วตามด้วยหมายเลขของเอกสารที่พัฒนาส่วนวิธีเรียกรุ่นของรูปแบบ ( hiemstra , 1998 ; F . เพลง & Croft ,1999 ) มิลเลอร์ et al . ( 1999 ) ได้อธิบายวิธีการเดียวกันโดยใช้ฮิดเดนมาร์คอฟนางแบบ เบอร์เกอร์ และ ลาฟเฟอร์ตี้ ( 1999 ) พบว่าน่าจะเป็นคำแปลอาจจะรวมอยู่ในรูปแบบภาษาแบบ . เราจะเรียกแบบนี้โมเดลการแปลอีกครั้งในหมวดสินค้า . ก่อนใช้ความไม่สม่ำเสมอของความน่าจะเป็นศึกษาโดย kraaij et al . ( 2002 ) คอลเลกชันของเอกสารที่เกี่ยวข้องกับภาษารูปแบบและการค้นคืนข้อมูลจะปรากฏใน Croft และ ลาฟเฟอร์ตี้ ( 2003 )ไจ๋ และ ลาฟเฟอร์ตี้ ( 2004 ) ให้คำอธิบายที่ดีของเทคนิคปรับให้เรียบสำหรับแบบภาษาในการสืบค้นข้อมูล ให้ใช้กลุ่มเพื่อนบ้านที่ใกล้ที่สุดและอธิบายไว้ในหลิวและครอฟท์ ( 2004 ) และเคอร์แลนด์ และ ลี( 2004 )แบบจำลองการพึ่งพาในระยะต้นได้อธิบายไว้ในรถตู้ rijsbergen ( 1979 ) เป็นแบบจำลองภาษา bigram สำหรับดึงข้อมูลได้อธิบายไว้ในเพลงและ .ที่ดินฝืนเล็ก ( 2542 ) แต่ทั่วไปมากขึ้นรูปแบบเกา et al . ( 2004 ) และเม็ตสเลอร์ และครอฟท์ ( 2005b ) ผลิตผลการสืบค้นขึ้นอย่างมาก โดยเฉพาะอย่างยิ่งกับขนาดใหญ่คอลเลกชันรูปแบบ , แนวทางการขยายตัวที่ปรากฏอยู่ใน lavrenko และครอฟท์ ( 2001 ) ลาฟเฟอร์ตี้ และไจ๋ ( 2001 ) ได้เสนอวิธีการสร้างที่เกี่ยวข้องสอบถามรุ่น และเปรียบเทียบกับเอกสารรุ่นมีการทดลองหลายรายงานในการสืบค้นวรรณกรรมการแสดงที่การรวมกันของหลักฐานอย่างมีนัยสำคัญปรับปรุงการจัดอันดับประสิทธิผล ครอฟท์ ( 2000 ) รีวิวผลลัพธ์เหล่านี้แสดงให้เห็นว่า นี่ไม่ใช่และน่าแปลกใจที่ได้รับการดึงข้อมูลสามารถถูกมองว่าเป็นปัญหา การจำแนกด้วยการเลือกขนาดใหญ่ของคุณสมบัติ เต่าและครอฟท์ ( 1991 ) อธิบายการอนุมานรูปแบบเครือข่าย รุ่นนี้ใช้เป็นพื้นฐานสำหรับการค้นหา inquery en gine ( ภาษาอังกฤษ et al . , 1992 ) และชนะรุ่นของเครื่องมือค้นหาพาณิชย์westlaw ( พริทชาร์ดชัค , 1993 ) ส่วนขยายของรูปแบบ ได้แก่ความน่าจะเป็นแบบจำลองภาษาอธิบายในเม็ตสเลอร์และ Croft ( 2004 ) นามสกุลนี้ได้ถูกนำมาใช้เป็นเครื่องมือค้นหา ( strohman Indri et al . , 2005 ; เม็ตสเลอร์ ,strohman , et al . , 2004 ) ส่วนกาลาภาษาแบบสอบถามโดยใช้แบบสอบถามภาษาสำหรับ Indri .วิธีการค้นหาเว็บที่อธิบายไว้ในมาตรา 63 ซึ่งคะแนนของเอกสารขึ้นอยู่กับการรวมกันหรือมีส่วนผสมของแบบภาษาแสดงต่าง ๆชิ้นส่วนของโครงสร้างเอกสาร จาก โอกิลวี และภาษาอังกฤษ ( 2003 ) ที่การจัดอันดับ bm25f ฟังก์ชัน ( โรเบิร์ต et al . , 2004 ) เป็นส่วนขยายของ bm25 นั่นคือยังออกแบบให้มีประสิทธิภาพรวมข้อมูลจากเขตข้อมูลเอกสารต่าง ๆสแปมดังกล่าวมีความสำคัญในการค้นหาเว็บที่ subfield ขัดแย้งทั้งหมด เรียกว่าสืบค้นสารสนเทศ พัฒนา จัดการกับเทคนิคค้นหาเอกสารคอลเลกชันที่ถูกบงการโดยบุคคลที่มีความสนใจที่แตกต่างกัน( เช่นผู้ส่งอีเมลขยะและการค้นหาเครื่องยนต์ optimizers ) เราคุยกันเรื่องสแปมในบทที่ 9ช่วงต้น
การแปล กรุณารอสักครู่..
