The use of language models in information retrieval started with Ponte and
Croft (1998), who described a retrieval model based on multiple-Bernoulli language
models. This was quickly followed by a number of papers that developed
the multinomial version of the retrieval model (Hiemstra, 1998; F. Song & Croft,
1999). Miller et al. (1999) described the same approach using a Hidden Markov
Model. Berger and Lafferty (1999) showed how translation probabilities for words
could be incorporated into the language model approach. We will refer to this
translation model again in section 10.3. The use of non-uniform prior probabilities
was studied by Kraaij et al. (2002). A collection of papers relating to language
models and information retrieval appears in Croft and Lafferty (2003).
Zhai and Lafferty (2004) give an excellent description of smoothing techniques
for language modeling in information retrieval. Smoothing using clusters
and nearest neighbors is described in Liu and Croft (2004) and Kurland and Lee
(2004).
An early term-dependency model was described in van Rijsbergen (1979). A
bigram language model for information retrieval was described in F. Song and
Croft (1999), but the more general models in Gao et al. (2004) and Metzler and
Croft (2005b) produced significantly better retrieval results, especially with larger
collections.
The relevance model approach to query expansion appeared in Lavrenko and
Croft (2001). Lafferty and Zhai (2001) proposed a related approach that built a
query model and compared it to document models.
There have been many experiments reported in the information retrieval literature
showing that the combination of evidence significantly improves the ranking
effectiveness. Croft (2000) reviews these results and shows that this is not
surprising, given that information retrieval can be viewed as a classification problem
with a huge choice of features. Turtle and Croft (1991) describe the inference
network model. This model was used as the basis for the Inquery search en gine (Callan et al., 1992) and the WIN version of the commercial search engine
WESTLAW (Pritchard-Schoch, 1993). The extension of this model to include
language model probabilities is described in Metzler and Croft (2004). This extension
was implemented as the Indri search engine (Strohman et al., 2005; Metzler,
Strohman, et al., 2004). The Galago query language is based on the query language for Indri.
การใช้รูปแบบการใช้ภาษาในการดึงข้อมูลเริ่มต้นด้วย Ponte และ
ครอฟท์ (1998) ซึ่งอธิบายรูปแบบการดึงขึ้นอยู่กับภาษาหลาย Bernoulli
รุ่น นี้ได้อย่างรวดเร็วตามจำนวนเอกสารที่พัฒนา
รุ่นพหุนามของรูปแบบการดึง (Hiemstra 1998; เอฟเพลงและนา
1999) มิลเลอร์, et al (1999) อธิบายวิธีการเดียวกันโดยใช้ซ่อนมาร์คอฟ
รุ่น เบอร์เกอร์และ Lafferty (1999) แสดงให้เห็นว่าน่าจะแปลคำ
สามารถรวมเข้ากับวิธีการรูปแบบภาษา เราจะพูดถึงเรื่องนี้
รูปแบบการแปลอีกครั้งในส่วน 10.3 การใช้ไม่เหมือนกันน่าจะเป็นก่อน
ได้รับการศึกษาโดย Kraaij et al, (2002) คอลเลกชันของเอกสารที่เกี่ยวข้องกับการใช้ภาษา
แบบจำลองและการดึงข้อมูลที่ปรากฏอยู่ในทุ่งนาและ Lafferty (2003).
Zhai และ Lafferty (2004) ให้คำอธิบายที่ดีของเทคนิคการปรับให้เรียบ
สำหรับการสร้างแบบจำลองภาษาในการดึงข้อมูล การปรับให้เรียบใช้กลุ่ม
และเพื่อนบ้านที่ใกล้ที่สุดได้อธิบายไว้ในหลิวและครอฟท์ (2004) และเคอร์แลนด์และลี
(2004).
รูปแบบการพึ่งพาระยะต้นได้อธิบายไว้ในรถตู้ Rijsbergen (1979)
รูปแบบภาษา bigram สำหรับการเรียกใช้ข้อมูลได้อธิบายไว้ในเอฟเพลงและการ
ครอฟท์ (1999) แต่รุ่นทั่วไปมากขึ้นใน Gao, et al (2004) และ Metzler และ
Croft (2005b) ผลิตผลลัพธ์ที่ดีกว่าการดึงอย่างมีนัยสำคัญโดยเฉพาะอย่างยิ่งที่มีขนาดใหญ่
คอลเลกชัน.
วิธีการรูปแบบความสัมพันธ์กันเพื่อสอบถามการขยายตัวที่ปรากฏใน Lavrenko และ
ครอฟท์ (2001) Lafferty และ Zhai (2001) ได้เสนอวิธีการที่เกี่ยวข้องที่สร้าง
รูปแบบการสอบถามและการเปรียบเทียบมันกับเอกสารรุ่น.
มีการทดลองหลายรายงานในวรรณคดีการดึงข้อมูลที่
แสดงให้เห็นว่าการรวมกันของหลักฐานอย่างมีนัยสำคัญช่วยเพิ่มการจัดอันดับที่
มีประสิทธิผล ครอฟท์ (2000) ความคิดเห็นผลลัพธ์เหล่านี้และแสดงให้เห็นว่าเรื่องนี้ไม่
น่าแปลกใจที่ได้รับการดึงข้อมูลสามารถถูกมองว่าเป็นปัญหาการจัดหมวดหมู่
ที่มีทางเลือกมากของคุณสมบัติ เต่าและครอฟท์ (1991) อธิบายการอนุมาน
แบบเครือข่าย รุ่นนี้ถูกนำมาใช้เป็นพื้นฐานสำหรับการค้นหา Inquery en Gine นี้ (Callan et al., 1992) และรุ่น WIN ของเครื่องมือค้นหาเชิงพาณิชย์
Westlaw (Pritchard-Schoch, 1993) ส่วนขยายของรุ่นนี้จะรวมถึง
ความน่าจะเป็นรูปแบบภาษาที่อธิบายไว้ใน Metzler และครอฟท์ (2004) ส่วนขยายนี้
ถูกนำมาใช้เป็นเครื่องมือค้นหา Indri (Strohman et al, 2005;. Metzler,
. Strohman, et al, 2004) ภาษาแบบสอบถามกาลาโก้จะขึ้นอยู่กับภาษาแบบสอบถามสำหรับ Indri
การแปล กรุณารอสักครู่..

การใช้รูปแบบภาษาในการสืบค้นข้อมูลและเริ่มต้นกับปอนเตครอฟท์ ( 1998 ) ที่อธิบายการใช้รูปแบบหลายภาษา แบร์นูลลีรุ่น นี้ได้อย่างรวดเร็วตามด้วยหมายเลขของเอกสารที่พัฒนาส่วนวิธีเรียกรุ่นของรูปแบบ ( hiemstra , 1998 ; F . เพลง & Croft ,1999 ) มิลเลอร์ et al . ( 1999 ) ได้อธิบายวิธีการเดียวกันโดยใช้ฮิดเดนมาร์คอฟนางแบบ เบอร์เกอร์ และ ลาฟเฟอร์ตี้ ( 1999 ) พบว่าน่าจะเป็นคำแปลอาจจะรวมอยู่ในรูปแบบภาษาแบบ . เราจะเรียกแบบนี้โมเดลการแปลอีกครั้งในหมวดสินค้า . ก่อนใช้ความไม่สม่ำเสมอของความน่าจะเป็นศึกษาโดย kraaij et al . ( 2002 ) คอลเลกชันของเอกสารที่เกี่ยวข้องกับภาษารูปแบบและการค้นคืนข้อมูลจะปรากฏใน Croft และ ลาฟเฟอร์ตี้ ( 2003 )ไจ๋ และ ลาฟเฟอร์ตี้ ( 2004 ) ให้คำอธิบายที่ดีของเทคนิคปรับให้เรียบสำหรับแบบภาษาในการสืบค้นข้อมูล ให้ใช้กลุ่มเพื่อนบ้านที่ใกล้ที่สุดและอธิบายไว้ในหลิวและครอฟท์ ( 2004 ) และเคอร์แลนด์ และ ลี( 2004 )แบบจำลองการพึ่งพาในระยะต้นได้อธิบายไว้ในรถตู้ rijsbergen ( 1979 ) เป็นแบบจำลองภาษา bigram สำหรับดึงข้อมูลได้อธิบายไว้ในเพลงและ .ที่ดินฝืนเล็ก ( 2542 ) แต่ทั่วไปมากขึ้นรูปแบบเกา et al . ( 2004 ) และเม็ตสเลอร์ และครอฟท์ ( 2005b ) ผลิตผลการสืบค้นขึ้นอย่างมาก โดยเฉพาะอย่างยิ่งกับขนาดใหญ่คอลเลกชันรูปแบบ , แนวทางการขยายตัวที่ปรากฏอยู่ใน lavrenko และครอฟท์ ( 2001 ) ลาฟเฟอร์ตี้ และไจ๋ ( 2001 ) ได้เสนอวิธีการสร้างที่เกี่ยวข้องสอบถามรุ่น และเปรียบเทียบกับเอกสารรุ่นมีการทดลองหลายรายงานในการสืบค้นวรรณกรรมการแสดงที่การรวมกันของหลักฐานอย่างมีนัยสำคัญปรับปรุงการจัดอันดับประสิทธิผล ครอฟท์ ( 2000 ) รีวิวผลลัพธ์เหล่านี้แสดงให้เห็นว่า นี่ไม่ใช่และน่าแปลกใจที่ได้รับการดึงข้อมูลสามารถถูกมองว่าเป็นปัญหา การจำแนกด้วยการเลือกขนาดใหญ่ของคุณสมบัติ เต่าและครอฟท์ ( 1991 ) อธิบายการอนุมานรูปแบบเครือข่าย รุ่นนี้ใช้เป็นพื้นฐานสำหรับการค้นหา inquery en gine ( ภาษาอังกฤษ et al . , 1992 ) และชนะรุ่นของเครื่องมือค้นหาพาณิชย์westlaw ( พริทชาร์ดชัค , 1993 ) ส่วนขยายของรูปแบบ ได้แก่ความน่าจะเป็นแบบจำลองภาษาอธิบายในเม็ตสเลอร์และ Croft ( 2004 ) นามสกุลนี้ได้ถูกนำมาใช้เป็นเครื่องมือค้นหา ( strohman Indri et al . , 2005 ; เม็ตสเลอร์ ,strohman , et al . , 2004 ) ส่วนกาลาภาษาแบบสอบถามจะขึ้นอยู่กับภาษาสืบค้นสำหรับ Indri .
การแปล กรุณารอสักครู่..
