A Hidden Markov Model Information Retrieval System
David R. H. Miller, Tim Leek, Richard M. Schwartz BBN Technologies
Cambridge, MA USA
{dmiller,tleek,schwartz}@bbn.com
Wepresent a new method for information retrieval using hidden Markov models (HMMs). Wedevelop a general framework for incorporating multiple word generation mechanisms within the same model. We then demon-strate that an extremely simple realization of this model substantially outperforms standard tf :idf ranking on both the TREC-6 and TREC-7 ad hoc retrieval tasks. We go on to present a novel method for performing blind feedback in the HMM framework, a more com-plex HMM that models bigram production, and several other algorithmic renements. Together, these meth-ods form a state-of-the-art retrieval system that ranked among the best on the TREC-7 ad hoc retrieval task.
Hidden Markovmodels have been applied successfully over the last two decades in a wide variety of speechand
language related recognition problems including speech
recognition [9], named entity nding [2], optical charac-ter recognition [10], and topic identication [19]. In the present work, we describe an application of this tech-nology to the problem of ad hoc information retrieval.
In all HMM applications, the observed data (e.g. au-dio recording, image bitmap) is modeled as being the output produced by passing some unknown key (e.g.words, letters) through a noisy channel. In the ad hoc retrieval problem, wetake the observed data to be the query Q, and the unknown key to be a desired relevant document D. The noisy channel is the mind of a user,who is imagined to have some notion (either rough or precise) of which documents he wants, and who trans-formsthatnotioninto the text of the query Q. Thus,we compute for eachdocument the probability that D
was the relevant document in the user's mind, given that Q was the query produced, i.e. P (D is RjQ), and rank the documents based on this measure.
Using probability models for information retrieval has a history almost four decades long, beginning with the work of Maron and Kuhns [11], and rst seeing real application in the standard probability model" pioneered by Robertson and Sparck-Jones [15]. More recently,however, the introduction of ad hoc constants and non-linear smoothing functions have improved per-formance steadily at the cost of drifting further and fur-ther from the probabilistic framework. What started as a reasonable probability model is now masked by nu-merous heuristics. We believe our new hidden Markov model is more closely tied to its formal probabilistic underpinnings, making it easier to extend and reason about. In addition, the HMM's performance is on a par with the best automatic query systems.
The remainder of this paper is organized as follows: Section 2 lays out the basic theory of the hidden Markov model system and develops the formulas for a simple re-alization of it; Section 3presents experimental results for the basic system on the TREC-6 and TREC-7 ad hoc tasks, and compares the system with the familiar tf :idf ranking; Section 4 develops several renements of the basic HMM system, including a novel method of blind feedback (Section 4.1) and a more complex HMM which models the production of two-word phrases (Sec-tion 4.2); Section 4 also presents experimental results with these and other techniques used singly and jointly; lastly, Section 5 o
ers some conclusions regarding the system.
Permission to make digital or hard copies of all or part of this work for personal or classroom use is granted without fee provided that copies are not made or distributed for profit or commercial advantage and that copies bear this notice and the full citation on the first page. To copy otherwise, to republish, to post on servers or to redistribute to lists, requires prior specific permission and/or a fee.
SIGIR '99 8/99 Berkley, CA USA
Copyright 1999 ACM 1-58113-096-1/99/0007 . . . $5.00
2 ProbabilityModel
Given a user-generated query and a set of documents, we wish to rank the documents according to the proba-bilitythatD is relevant, conditioned on the fact that the user produced Q, i.e. is RjQ). Applying Bayes'P D
rule, we decompose this into quantities that may be
ระบบการเรียกข้อมูลแบบ Markov ซ่อนมิ ลเลอร์ H. R. David ขนมจีบ Leek ทิม ริชาร์ด Schwartz เมตร BBN เทคโนโลยีเคมบริดจ์ สหรัฐอเมริกา MA{dmiller,tleek,schwartz}@bbn.comWepresent วิธีใหม่สำหรับการสืบค้นโดยใช้ Markov ซ่อนรุ่น (HMMs) Wedevelop กรอบทั่วไปสำหรับเพจหลายคำสร้างกลไกภายในแบบเดียวกัน เราแล้วว่า การรับรู้ง่ายมากรุ่นนี้มาก outperforms รหัสมาตรฐาน strate ปีศาจ: idf จัดอันดับงาน TREC-6 และ TREC 7 เรียกกิจ เราไปนำเสนอวิธีการทำตาบอดคำติชมในกรอบ HMM การ HMM เพล็กซ์ com เพิ่มเติมที่รุ่น bigram ผลิต และหลายอื่น ๆ renements algorithmic นวนิยาย ด้วยกัน เหล่านี้นอกจาก-ods ฟอร์มระบบเรียกรัฐ-of-the-art ที่อันดับดีที่สุดงาน TREC 7 เรียกกิจมีการใช้ Markovmodels ซ่อนอยู่กว่าสองทศวรรษที่ผ่านมาในความหลากหลายของ speechand เสร็จเรียบร้อยแล้วภาษาที่เกี่ยวข้องกับปัญหาการรับรู้รวมทั้งคำพูดการรับรู้ [9], ชื่อเอนทิตี nding [2], แสง charac-เธอรู้ [10], และหัวข้อ identication [19] ในงานนำเสนอ เราอธิบายประยุกต์ของ tech-nology นี้การเรียกข้อมูลเฉพาะกิจโปรแกรมประยุกต์ทั้งหมด HMM จำลองข้อมูลสังเกต (เช่น au-dio บันทึก ภาพบิตแมป) เป็น ผลลัพธ์ที่ผลิต โดยผ่านคีย์บางอย่างไม่รู้จัก (e.g.words ตัวอักษร) ผ่านช่องทางคะ ในปัญหาเรียกกิจ wetake ข้อมูลสังเกตสอบถาม Q และการไม่รู้จักคีย์ d. เอกสารที่เกี่ยวข้องต้อง ช่องเสียงดังจิตใจของผู้ใช้ จินตนาการมีบางแนวคิด (หยาบ หรือละเอียด) ของเอกสารที่เขาต้องการ และทรานส์-formsthatnotioninto ข้อความของแบบสอบถาม Q ได้ ดังนั้น เราคำนวณสำหรับ eachdocument ความน่าเป็นที่ Dมีเอกสารเกี่ยวข้องในจิตใจของผู้ใช้ ที่ Q เป็นการสอบถามผลิต เช่น P (D คือ RjQ), และเรียงลำดับเอกสารตามวัดนี้ใช้แบบจำลองความน่าเป็นสำหรับการสืบค้นมีประวัติยาวนาน เริ่มต้นกับงาน Maron Kuhns [11], และเห็นจริงใช้แบบจำลองความน่าเป็น standard rst เกือบสี่ทศวรรษ"เป็นผู้บุกเบิก โดยโรเบิร์ตสันและ Sparck-โจนส์ [15] เมื่อเร็ว ๆ นี้ อย่างไรก็ตาม แนะนำคงกิจและไม่ใช่เชิงเส้นฟังก์ชันผืนได้ปรับปรุงต่อ formance ค่าลอยต่อไปและเธอขนจากกรอบ probabilistic อย่างต่อเนื่อง สิ่งเริ่มต้นขณะนี้มีการหลอกลวงแบบสมเหตุสมผลความน่าเป็น โดยการลองผิดลองถูกนู merous เราเชื่อว่า โมเดลของเราใหม่ของ Markov ซ่อนมากเชื่อมโยงกับ underpinnings probabilistic ของทาง ทำเพื่อขยาย และเหตุผลเกี่ยวกับการ นอกจากนี้ ประสิทธิภาพของ HMM จะเท่าเทียมกันระบบสอบถามอัตโนมัติที่ดีที่สุดThe remainder of this paper is organized as follows: Section 2 lays out the basic theory of the hidden Markov model system and develops the formulas for a simple re-alization of it; Section 3presents experimental results for the basic system on the TREC-6 and TREC-7 ad hoc tasks, and compares the system with the familiar tf :idf ranking; Section 4 develops several renements of the basic HMM system, including a novel method of blind feedback (Section 4.1) and a more complex HMM which models the production of two-word phrases (Sec-tion 4.2); Section 4 also presents experimental results with these and other techniques used singly and jointly; lastly, Section 5 oers some conclusions regarding the system.Permission to make digital or hard copies of all or part of this work for personal or classroom use is granted without fee provided that copies are not made or distributed for profit or commercial advantage and that copies bear this notice and the full citation on the first page. To copy otherwise, to republish, to post on servers or to redistribute to lists, requires prior specific permission and/or a fee.SIGIR '99 8/99 Berkley, CA USACopyright 1999 ACM 1-58113-096-1/99/0007 . . . $5.002 ProbabilityModelGiven a user-generated query and a set of documents, we wish to rank the documents according to the proba-bilitythatD is relevant, conditioned on the fact that the user produced Q, i.e. is RjQ). Applying Bayes'P Drule, we decompose this into quantities that may be
การแปล กรุณารอสักครู่..

ซ่อนมาร์คอฟรุ่นข้อมูลระบบสืบค้น
เดวิด RH มิลเลอร์, ทิมหอม, ริชาร์ดเอ็มชวาร์ต BBN เทคโนโลยี
เคมบริดจ์สหรัฐอเมริกา
{DMiller, tleek, Schwartz} @ bbn.com วีพรีเซนท์วิธีการใหม่สำหรับการดึงข้อมูลโดยใช้แบบจำลองมาร์คอฟที่ซ่อนอยู่ (HMMs) Wedevelop กรอบทั่วไปสำหรับการใช้มาตรการกลไกการสร้างคำหลายภายในรูปแบบเดียวกัน จากนั้นเราจะปีศาจ Strate ที่ก่อให้เกิดง่ายมากของรุ่นนี้มีประสิทธิภาพดีกว่าอย่างมีนัยสำคัญ tf มาตรฐาน: การจัดอันดับ IDF ทั้ง TREC-6 และ TREC-7 โฆษณางานดึงเฉพาะกิจ เราไปในการที่จะนำเสนอวิธีการใหม่สำหรับการแสดงความคิดเห็นคนตาบอดในกรอบ HMM, อื่น ๆ อืมคอมเพล็กซ์ที่รูปแบบการผลิตไบแกรมและหลาย renements อัลกอริทึมอื่น ๆ ร่วมกันเหล่านี้ ODS-ปรุงยาในรูปแบบรัฐของศิลปะระบบการเรียกว่าการจัดอันดับที่ดีที่สุดใน TREC-7 เฉพาะกิจการดึงงาน. Markovmodels ที่ซ่อนอยู่ได้รับการใช้ประสบความสำเร็จในช่วงสองทศวรรษที่ผ่านมาในความหลากหลายของ speechand ภาษา ปัญหาการรับรู้ที่เกี่ยวข้องรวมทั้งการพูดการรับรู้ [9], นิติบุคคล Nding ชื่อ [2] การรับรู้แสงอักขระ-เธอ [10] และหัวข้อ identication [19] ในการทำงานในปัจจุบันเราจะอธิบายการประยุกต์ใช้เทคโนโลยี nology นี้ปัญหาของการเฉพาะกิจดึงข้อมูล. ในการใช้งาน HMM ทุกข้อมูลที่สังเกตได้ (เช่น au-ดิโอบันทึกภาพบิตแมป) เป็นแบบจำลองว่าเป็นผลผลิตที่ผลิตโดยผ่าน บางส่วนที่สำคัญที่ไม่รู้จัก (egwords ตัวอักษร) ผ่านช่องทางที่มีเสียงดัง ในเฉพาะกิจปัญหาการดึง, wetake ข้อมูลที่สังเกตจะเป็น Q แบบสอบถามและที่สำคัญไม่ทราบว่าจะเป็นเอกสารที่เกี่ยวข้องที่ต้องการ D. ช่องมีเสียงดังเป็นใจของผู้ใช้ที่มีการคิดที่จะมีความคิดบางอย่าง (ทั้งขรุขระหรือ แม่นยำ) ซึ่งเอกสารที่เขาต้องการและผู้ที่ทรานส์ formsthatnotioninto ข้อความของคิวแบบสอบถามดังนั้นเราคำนวณสำหรับ eachdocument น่าจะเป็นที่ D เป็นเอกสารที่เกี่ยวข้องในใจของผู้ใช้ที่ได้รับ Q ได้รับแบบสอบถามที่ผลิตคือ P ( D เป็น RjQ) และเอกสารการจัดอันดับขึ้นอยู่กับวัดนี้. ใช้รูปแบบความน่าจะเป็นสำหรับการดึงข้อมูลที่มีประวัติศาสตร์เกือบสี่ทศวรรษที่ผ่านมานานเริ่มต้นกับการทำงานของ Maron และ Kuhns [11] และครั้งแรกที่เราได้เห็นการใช้งานจริงใน น่าจะเป็นมาตรฐาน รูปแบบ "โดยหัวหอกโรเบิร์ตและ Sparck โจนส์ [15]. เมื่อเร็ว ๆ นี้ แต่การแนะนำของค่าคงเฉพาะกิจและฟังก์ชั่นที่ราบเรียบไม่เชิงเส้นมีการปรับปรุงต่อน้ำาอย่างต่อเนื่องที่ค่าใช้จ่ายของดริฟท์ต่อไปและขนบิดาจากกรอบความน่าจะเป็น . สิ่งที่เริ่มเป็นรูปแบบที่เหมาะสมน่าจะมีการสวมหน้ากากในขณะนี้โดยวิเคราะห์พฤติกรรม Nu-merous เราเชื่อว่ารูปแบบมาร์คอฟใหม่ของเราที่ซ่อนอยู่จะเชื่อมโยงอย่างใกล้ชิดกับหนุนหลังน่าจะเป็นของมันอย่างเป็นทางการทำให้ง่ายต่อการขยายและเหตุผลเกี่ยวกับ นอกจากนี้ผลการดำเนินงาน HMM คือในหุ้นที่มีระบบที่ดีที่สุดแบบสอบถามอัตโนมัติ. ที่เหลือของบทความนี้มีการจัดดังนี้ส่วนที่ 2 ออกวางทฤษฎีพื้นฐานของระบบแบบมาร์คอฟที่ซ่อนอยู่และพัฒนาสูตรสำหรับง่ายอีก alization ของมัน มาตรา 3presents ผลการทดลองสำหรับระบบพื้นฐานใน TREC-6 และ TREC-7 โฆษณางานเฉพาะกิจและเปรียบเทียบระบบที่มี tf คุ้นเคย: การจัดอันดับ IDF; หมวดที่ 4 การพัฒนา renements หลายของระบบ HMM ขั้นพื้นฐานรวมทั้งวิธีการใหม่ในการเสนอแนะตาบอด (มาตรา 4.1) และ HMM ที่ซับซ้อนมากขึ้นซึ่งรูปแบบการผลิตของวลีสองคำ (วินาที-การ 4.2); มาตรา 4 ยังนำเสนอผลการทดลองเหล่านี้และเทคนิคอื่น ๆ ที่ใช้และค้ำประกันร่วม; สุดท้ายมาตรา 5 o ERS ข้อสรุปบางอย่างเกี่ยวกับระบบ. ได้รับอนุญาตให้ทำสำเนาดิจิตอลหรือหนักของทั้งหมดหรือบางส่วนของการทำงานสำหรับการใช้งานส่วนบุคคลหรือในห้องเรียนนี้จะได้รับโดยไม่เสียค่าธรรมเนียมการให้บริการที่คัดลอกไม่ได้ทำหรือแจกจ่ายเพื่อหากำไรหรือประโยชน์ในเชิงพาณิชย์และที่ สำเนาแบกนี้และแจ้งให้ทราบล่วงหน้าอ้างอิงเต็มรูปแบบบนหน้าแรก ในการคัดลอกอย่างอื่นในการเผยแพร่การโพสต์บนเซิร์ฟเวอร์หรือเพื่อแจกจ่ายไปยังรายการที่ต้องได้รับอนุญาตก่อนที่เฉพาะเจาะจงและ / หรือค่าธรรมเนียม. Sığır '99 8/99 เบิร์กลีย์, แคลิฟอร์เนียสหรัฐอเมริกาลิขสิทธิ์ 1999 ACM 1-58113-096-1 / 99 / 0007 . . $ 5.00 2 ProbabilityModel ได้รับแบบสอบถามที่ผู้ใช้สร้างและชุดของเอกสารที่เราต้องการที่จะจัดอันดับเอกสารตาม proba-bilitythatD มีความเกี่ยวข้องปรับอากาศความจริงที่ว่าผู้ผลิต Q คือเป็น RjQ) การประยุกต์ใช้ Bayes'P D กฎเราย่อยสลายนี้ในปริมาณที่อาจเป็น
การแปล กรุณารอสักครู่..

ซ่อนมาร์คอฟแบบระบบค้นคืนสารสนเทศ
เดวิดอาร์เอชมิลเลอร์ , ทิม กระเทียมต้น ริชาร์ด ชวาร์ซ bbn เทคโนโลยี
{ dmiller Cambridge , MA USA tleek , Schwartz } , @ bbn . com
wepresent วิธีใหม่ โดยใช้แบบจำลองมาร์คอฟที่ซ่อนเพื่อการสืบค้นสารสนเทศ ( hmms ) wedevelop กรอบทั่วไปสำหรับการผสมผสานกลไกรุ่นหลายคำในรุ่นเดียวกันเราก็ว่าเป็นปีศาจ ? การรับรู้ที่แสนง่ายของรูปแบบนี้จึงมีประสิทธิภาพดีกว่ามาตรฐาน : TF IDF อันดับทั้ง trec-6 trec-7 เฉพาะกิจและใช้งาน เราต้องเสนอวิธีการใหม่ในการแสดงความคิดเห็น คนตาบอด ในกรอบมากขึ้น คอมเพล็กซ์ อืม , อืมที่รูปแบบการผลิต bigram และ renements ขั้นตอนวิธีหลายอื่น ๆ ด้วยกันบอกยาเหล่านี้แบบฟอร์มของระบบต้นแบบที่จัดอันดับในหมู่ที่ดีที่สุดใน trec-7 เฉพาะกิจงานสืบค้น
markovmodels ที่ซ่อนอยู่จะถูกนำมาใช้ประสบความสำเร็จในช่วงสองทศวรรษที่ผ่านมาในความหลากหลายของปัญหารวมทั้งการรับรู้ภาษาเกี่ยวข้องกับ speechand
ยอมรับคำพูด [ 9 ] , [ 2 ] ชื่อ นิติบุคคล หาแสง charac [ ยอมรับ ตรี 10 ] และหัวข้อ identication [ 19 ]ในงานปัจจุบัน เราจะได้อธิบายการประยุกต์ใช้เทคโนโลยีนี้ nology ในปัญหาของการค้นคืนข้อมูลเฉพาะกิจ
ในงานนะทั้งหมด , ข้อมูล ( เช่น หรือ ดีโอ บันทึกภาพแบบบิตแมป ) เป็นผลิตผลผลิตโดยผ่านคีย์ที่ไม่รู้จัก ( ตัวอักษร e.g.words ) ผ่านช่องทางที่มีเสียงดัง ในปัญหาเฉพาะกิจการดึง wetake สังเกต ข้อมูลเป็นแบบสอบถาม คิวและที่สำคัญไม่รู้จักเป็นที่ต้องการเอกสารที่เกี่ยวข้อง D มี่ช่องทางคือจิตใจของผู้ที่กำลังคิดที่จะมีความคิด ( อาจจะหยาบหรือละเอียด ) ซึ่งเอกสารที่เค้าต้องการ และผู้ที่ผ่าน formsthatnotioninto ข้อความของสอบถามคิว เราจึงหา eachdocument ความน่าจะเป็นที่ D
คือเอกสาร ที่เกี่ยวข้องในจิตใจของผู้ใช้ที่ระบุว่า Q คือแบบสอบถามที่ผลิต ได้แก่P ( D rjq ) และตำแหน่งเอกสารขึ้นอยู่กับวัดนี้
โดยใช้แบบจำลองความน่าจะเป็นสำหรับการดึงข้อมูลมีประวัติเกือบสี่ทศวรรษยาว เริ่มต้นด้วยงานของมารอน และคูนส์ [ 11 ] และที่แรกเห็นจริงการประยุกต์ใช้ในแบบจำลองความน่าจะเป็น N มาตรฐาน " หัวหอก โรเบิร์ตสัน และ sparck โจนส์ [ 15 ] เมื่อเร็วๆ นี้ อย่างไรก็ตามการเฉพาะกิจแบบเรียบและมีการปรับปรุงค่าคงที่ฟังก์ชันต่อ formance อย่างต่อเนื่องในค่าใช้จ่ายของลอยต่อไปและขนสัตว์มีจากกรอบการ . สิ่งที่เริ่มต้นเป็นรูปแบบความน่าจะเป็นที่เหมาะสมคือตอนนี้หลอกลวงโดยนู๋ merous อักษร . เราเชื่อว่า แบบจำลองฮิดเดนมาร์คอฟใหม่ของเราจะเชื่อมโยงอย่างใกล้ชิดเพื่อการ underpinnings ของอย่างเป็นทางการ ,ให้ง่ายต่อการขยายและเหตุผลเกี่ยวกับ นอกจากนี้ การทำงานของหือเป็นไล่เลี่ยกับที่ดีที่สุดโดยอัตโนมัติแบบสอบถามระบบ
ส่วนที่เหลือของบทความนี้คือการจัด ดังนี้ ส่วนที่ 1 ออกวางทฤษฎีพื้นฐานของแบบจำลองฮิดเดนมาร์คอฟ ซึ่งระบบและพัฒนาสูตรเพื่อรับรองเอกสารอีกง่าย ๆของมันส่วน 3presents ผลการทดลองระบบพื้นฐานใน trec-6 และ trec-7 เฉพาะกิจงานและเปรียบเทียบระบบกับ TF IDF ที่คุ้นเคย : การจัดอันดับ ; ส่วนที่ 4 พัฒนาหลาย renements ของระบบอืมขั้นพื้นฐานรวมทั้งวิธีการใหม่ของความคิดเห็นของคนตาบอด ( มาตรา 7 ) และซับซ้อนมากขึ้น - ซึ่งรุ่นการผลิตสองวลีคำ ( เดี๋ยวไว้ 4.2 )มาตรา 4 ยังเสนอผลเหล่านี้และเทคนิคอื่น ๆที่ใช้เดี่ยว ๆและร่วมกัน ; สุดท้าย มาตรา 5 o
ERS ข้อสรุปบางอย่างเกี่ยวกับระบบ
อนุญาตให้สำเนาดิจิตอลหรือฮาร์ดดิสก์ทั้งหมดหรือบางส่วนของงานนี้สำหรับใช้ส่วนบุคคลหรือในชั้นเรียนจะได้รับโดยไม่เสียค่าธรรมเนียมให้สำเนาไม่ทำหรือจำหน่ายกำไรหรือประโยชน์เชิงพาณิชย์และชุดหมีตัวนี้แจ้งให้ทราบและการเต็มรูปแบบในหน้าแรก การคัดลอกหรือการประกาศจะประกาศในเซิร์ฟเวอร์หรือเพื่อแจกจ่ายไปยังรายการต้องใช้ก่อนได้รับอนุญาตเฉพาะและ / หรือค่า
sigir ' 99 8 / 99 Berkley , CA USA
ลิขสิทธิ์ 1999 ACM 1-58113-096-1 / 99 / 0007 . . . . . . . . 5.00 $
2 probabilitymodel
ให้ผู้ใช้สร้างแบบสอบถามและชุดของเอกสารที่เราต้องการในการจัดอันดับเอกสารตามที่ proba bilitythatd เกี่ยวข้อง ปรับอากาศ ในความเป็นจริงที่ผู้ใช้ผลิต Q คือเป็น rjq ) ใช้ bayes'p D
กฎเราแยกเป็นปริมาณที่อาจจะ
การแปล กรุณารอสักครู่..
