This simply means that for all document pairs in the rank data, we would like the
score for the document with the higher relevance rating (or rank) to be greater
than the score for the document with the lower relevance rating. Unfortunately,
there is no efficient algorithm to find the exact solution for ⃗w. We can, however,
reformulate this problem as a standard SVM optimization as follows:
-
-
-
where ξ, known as aslack variable, allows for misclassification of difficult or noisy
training examples, and C is a parameter that is used to prevent overfitting. Overfitting
happens when the learning algorithm produces a ranking function that does
very well at ranking the training data, but does not do well at ranking documents
for a new query. Software packages are available24 that do this optimization and
produce a classifier.
Where did this optimization come from? The impatient reader will have to
jump ahead to the explanation for a general SVM classifier in Chapter 9. For the
time being, we can say that the SVM algorithm will find a classifier (i.e., the vector
⃗w) that has the following property. Each pair of documents in our training data
can be represented by the vector (⃗di − ⃗dj ). If we compute the score for this pair as
⃗w.(
⃗di − ⃗dj ), the SVM classifier will find a ⃗w that makes the smallest score as large
as possible. The same thing is true for negative examples (pairs of documents that
are not in the rank data). This means that the classifier will make the differences
in scores as large as possible for the pairs of documents that are hardest to rank.
Note that this model does not specify the features that should be used. It could
even be used to learn the weights for features corresponding to scores from completely
different retrieval models, such as BM25 and language models. Combining
multiple searches for a given query has been shown to be effective in a number
of experiments, and is discussed further in section 10.5.1. It should also be noted
that the weights learned by Ranking SVM (or some other discriminative technique)
can be used directly in the inference network query language.
Although linear discriminative classifiers such as Ranking SVM may have an
advantage for web search, there are other search applications where there will be
less training data and less features available. For these applications, the generative
models of topical relevance may be more effective, especially as the models continue
to improve through better estimation techniques.The next section discusses
24 Such as SV Mlight; see http://svmlight.joachims.org
how estimation can be improved by modeling a document as a mixture of topic
models.
7.6.2 Topic Models and Vocabulary Mismatch
One of the important issues in general information retrieval is vocabulary mismatch.
This refers to a situation where relevant documents do not match a query,
because they are using different words to describe the same topic. In the web environment,
many documents will contain all the query words, so this may not appear
to be an issue. In search applications with smaller collections, however, it will
be important, and even in web search, TREC experiments have shown that topical
queries produce better results using query expansion. Query expansion (using,
for example, pseudo-relevance feedback) is the standard technique for reducing
vocabulary mismatch, although stemming also addresses this issue to some extent.
A different approach would be to expand the documents by adding related terms.
For documents represented as language models, this is equivalent to smoothing
the probabilities in the language model so that words that did not occur in the
text have non-zero probabilities. Note that this is different from smoothing using
the collection probabilities, which are the same for all documents. Instead, we
need some way of increasing the probabilities of words that are associated with
the topic of the document.
A number of techniques have been proposed to do this. If a document is
known to belong to a category or cluster of documents, then the probabilities of
words in that cluster can be used to smooth the document language model. We
describe the details of this in Chapter 9. A technique known as Latent Semantic
Indexing, or LSI,
25 maps documents and terms into a reduced dimensionality
space, so that documents that were previously indexed using a vocabulary of hundreds
of thousands of words are now represented using just a few hundred features.
Each feature in this new space is a mixture or cluster of many words, and it
is this mixing that in effect smooths the document representation.
TheLatent Dirichlet Allocation (LDA) model, which comes from the machine
learning community, models documents as a mixture of topics. A topic is a language
model, just as we defined previously. In a retrieval model such as query likelihood,
each document is assumed to be associated with a singl
นี้หมายความว่าสำหรับคู่เอกสารข้อมูลตำแหน่งที่เราต้องการคะแนนสำหรับเอกสารที่มีความเกี่ยวข้องสูงคะแนน ( หรือตำแหน่ง ) ให้มากขึ้นมากกว่าคะแนนสำหรับเอกสารกับล่าง , การประเมิน ขออภัยไม่มีประสิทธิภาพอัลกอริทึมที่จะหาโซลูชั่นที่แน่นอนสำหรับ⃗ W . เราสามารถ อย่างไรก็ตามreformulate ปัญหานี้เป็นมาตรฐาน SVM ปรับดังนี้---ที่ξ เรียกว่าตัวแปร aslack สามารถผิดพลาดของยาก หรือเสียงดังตัวอย่างการฝึกอบรม และ C เป็นพารามิเตอร์ที่ใช้ป้องกัน overfitting . overfittingเกิดขึ้นเมื่ออัลกอริทึมเรียนรู้สร้างการจัดอันดับฟังก์ชัน ที่ ไม่การจัดอันดับข้อมูลฝึกได้ดี แต่ไม่ทำให้ดีในเอกสารการจัดอันดับสำหรับผู้ใช้ใหม่ แพคเกจซอฟต์แวร์ที่เพิ่มประสิทธิภาพและ available24ผลิตเป็นลักษณนามการเพิ่มประสิทธิภาพนี้มาจากที่ไหน ? อ่านแล้วจะต้องกระโดดไปข้างหน้าเพื่อให้คำอธิบายสำหรับทั่วไป SVM ลักษณนามในบทที่ 9 สำหรับตอนนี้เราสามารถพูดได้ว่าอัลกอริทึม SVM จะหาแบบเวกเตอร์ ( เช่น⃗ W ) ที่มีคุณสมบัติดังต่อไปนี้ แต่ละคู่ของเอกสารข้อมูลการฝึกอบรมของเราสามารถแทนด้วยเวกเตอร์ ( ⃗ di −⃗ดีเจ ) ถ้าเราคำนวณคะแนนสำหรับคู่นี้เป็น( ⃗ W⃗ di −⃗ดีเจ ) , SVM ลักษณนามจะพบ⃗ W ที่ทำให้คะแนนน้อยที่สุดเป็นขนาดใหญ่เท่าที่จะเป็นไปได้ เดียวกันเป็นจริงสำหรับลบตัวอย่าง ( คู่ของเอกสารที่ไม่มีข้อมูลอันดับ ) ซึ่งหมายความว่าตัวจะทำให้ความแตกต่างในระดับที่มีขนาดใหญ่ที่สุด สำหรับคู่ของเอกสารที่เป็นยากที่จะดับทราบว่ารุ่นนี้ไม่ได้ระบุคุณสมบัติที่ควรใช้ มันสามารถยังสามารถใช้เพื่อเรียนรู้น้ำหนักคุณสมบัติสอดคล้องกับคะแนน จากทั้งหมดรูปแบบการสืบค้นที่แตกต่างกัน เช่น รุ่น bm25 และภาษา รวมการค้นหาหลาย ๆสำหรับการค้นหาได้แสดงผลในหมายเลขการทดลองและอภิปรายเพิ่มเติมในส่วน 10.5.1 . มันควรที่จะกล่าวที่น้ำหนักเรียนรู้โดยการจัดอันดับ SVM ( หรืออื่น ๆบางและเทคนิค )สามารถใช้โดยตรงในการอนุมานเครือข่ายแบบสอบถามภาษาแม้ว่าคำลักษณนามและเชิงเส้นเช่นการจัดอันดับ SVM อาจมีประโยชน์สำหรับการค้นหาเว็บ มีโปรแกรมการค้นหาอื่น ๆ ที่ จะ มีการฝึกอบรมและคุณสมบัติของข้อมูลน้อยลงน้อยลง . สำหรับการใช้งานเหล่านี้ เข้ารุ่นของความเกี่ยวข้องอาจจะมีประสิทธิภาพมากขึ้น , โดยเฉพาะอย่างยิ่งเป็นรุ่นต่อไปเพื่อพัฒนาวิธีการประมาณค่ายิ่งขึ้น ส่วนถัดไปอธิบาย24 เช่น SV mlight http://svmlight.joachims.org ; เห็นวิธีการประเมินที่สามารถปรับปรุงโดยการเอกสารที่เป็นส่วนผสมของหัวข้อรุ่นหัวข้อ 7.6.2 รูปแบบและคำศัพท์ที่ไม่ตรงกันหนึ่งในประเด็นที่สำคัญในการดึงข้อมูลทั่วไปจะไม่ตรงกัน คำศัพท์นี้หมายถึงสถานการณ์ที่เอกสารไม่ตรงกับที่สอบถามเพราะพวกเขามีการใช้คำที่แตกต่างกันเพื่อบรรยายในหัวข้อเดียวกัน ในเว็บสิ่งแวดล้อมเอกสารหลายคำทั้งหมดจะประกอบด้วยแบบสอบถาม ดังนั้นนี้อาจปรากฏขึ้นที่จะเป็นปัญหา ในการค้นหาที่มีคอลเลกชันที่มีขนาดเล็กลง แต่ก็จะเป็นสำคัญ และแม้แต่ในการค้นหาเว็บ trec การทดลองได้แสดงให้เห็นว่า ยาทาสอบถามการสร้างผลลัพธ์ที่ดีกว่าการใช้แบบสอบถาม การสืบค้นข้อมูล ( ใช้ตัวอย่างเช่น , หลอก , ความคิดเห็น ) เป็นเทคนิคมาตรฐานสำหรับลดศัพท์ไม่ตรงกัน แต่กั้นยังที่อยู่ปัญหานี้ได้บ้างวิธีการที่แตกต่างกันจะถูกขยายโดยการเพิ่มเอกสารที่เกี่ยวข้องกับเงื่อนไขสำหรับเอกสารที่แสดงเป็นรุ่นภาษา นี้จะเทียบเท่ากับปรับให้เรียบความน่าจะเป็นในโมเดลภาษา ดังนั้นคำพูดที่ไม่ได้เกิดขึ้นในข้อความที่ได้ผลรวมของค่าความน่าจะเป็น ทราบว่า นี้จะแตกต่างจากการปรับให้เรียบคอลเลกชันความน่าจะเป็น ซึ่งจะเหมือนกันสำหรับเอกสารทั้งหมด แทนเราอยากได้วิธีเพิ่มค่าความน่าจะเป็นของคำที่เกี่ยวข้องกับหัวข้อของเอกสารจำนวนของเทคนิคที่ได้รับการเสนอที่จะทำนี้ ถ้าเอกสารคือที่รู้จักกันเป็นประเภทหรือกลุ่มของเอกสารนั้นน่าจะเป็นของคำในกลุ่มนั้นสามารถใช้ในการเรียบภาษาเอกสารแบบ เราอธิบายรายละเอียดของเรื่องนี้ในบทที่ 9 เป็นเทคนิคที่เรียกว่าแฝงความหมายดัชนีหรือ LSI25 แผนที่เอกสารและเงื่อนไขในการลด dimensionalityพื้นที่เพื่อให้เอกสารที่ก่อนหน้านี้ดัชนีการใช้ศัพท์เป็นร้อยๆหลายคำที่แสดงนี้ใช้เพียงไม่กี่ร้อยคุณสมบัติแต่ละคุณลักษณะใหม่ในพื้นที่นี้เป็นส่วนผสม หรือกลุ่มของคำหลายและนี่คือการผสมที่ผล 100% เอกสารการเป็นตัวแทนการจัดสรร thelatent ดีริชเลต์ ( lda ) รุ่นที่มาจากเครื่องชุมชนแห่งการเรียนรู้ , รูปแบบเอกสารที่เป็นส่วนผสมของหัวข้อ หัวข้อที่เป็นภาษารูปแบบตามที่เรากำหนดไว้ก่อนหน้านี้ ในการดึงรูปแบบเช่นโอกาสสอบถามเอกสารแต่ละคนจะถือว่ามีความเกี่ยวข้องกับด
การแปล กรุณารอสักครู่..
