This simply means that for all docu

This simply means that for all document pairs in the rank data, we would like the
score for the document with the higher relevance rating (or rank) to be greater
than the score for the document with the lower relevance rating. Unfortunately,
there is no efficient algorithm to find the exact solution for ⃗w. We can, however,
reformulate this problem as a standard SVM optimization as follows:
-
-
-
where ξ, known as aslack variable, allows for misclassification of difficult or noisy
training examples, and C is a parameter that is used to prevent overfitting. Overfitting
happens when the learning algorithm produces a ranking function that does
very well at ranking the training data, but does not do well at ranking documents
for a new query. Software packages are available24 that do this optimization and
produce a classifier.
Where did this optimization come from? The impatient reader will have to
jump ahead to the explanation for a general SVM classifier in Chapter 9. For the
time being, we can say that the SVM algorithm will find a classifier (i.e., the vector
⃗w) that has the following property. Each pair of documents in our training data
can be represented by the vector (⃗di − ⃗dj ). If we compute the score for this pair as
⃗w.(
⃗di − ⃗dj ), the SVM classifier will find a ⃗w that makes the smallest score as large
as possible. The same thing is true for negative examples (pairs of documents that
are not in the rank data). This means that the classifier will make the differences
in scores as large as possible for the pairs of documents that are hardest to rank.
Note that this model does not specify the features that should be used. It could
even be used to learn the weights for features corresponding to scores from completely
different retrieval models, such as BM25 and language models. Combining
multiple searches for a given query has been shown to be effective in a number
of experiments, and is discussed further in section 10.5.1. It should also be noted
that the weights learned by Ranking SVM (or some other discriminative technique)
can be used directly in the inference network query language.
Although linear discriminative classifiers such as Ranking SVM may have an
advantage for web search, there are other search applications where there will be
less training data and less features available. For these applications, the generative
models of topical relevance may be more effective, especially as the models continue
to improve through better estimation techniques.The next section discusses
24 Such as SV Mlight; see http://svmlight.joachims.org
how estimation can be improved by modeling a document as a mixture of topic
models.
7.6.2 Topic Models and Vocabulary Mismatch
One of the important issues in general information retrieval is vocabulary mismatch.
This refers to a situation where relevant documents do not match a query,
because they are using different words to describe the same topic. In the web environment,
many documents will contain all the query words, so this may not appear
to be an issue. In search applications with smaller collections, however, it will
be important, and even in web search, TREC experiments have shown that topical
queries produce better results using query expansion. Query expansion (using,
for example, pseudo-relevance feedback) is the standard technique for reducing
vocabulary mismatch, although stemming also addresses this issue to some extent.
A different approach would be to expand the documents by adding related terms.
For documents represented as language models, this is equivalent to smoothing
the probabilities in the language model so that words that did not occur in the
text have non-zero probabilities. Note that this is different from smoothing using
the collection probabilities, which are the same for all documents. Instead, we
need some way of increasing the probabilities of words that are associated with
the topic of the document.
A number of techniques have been proposed to do this. If a document is
known to belong to a category or cluster of documents, then the probabilities of
words in that cluster can be used to smooth the document language model. We
describe the details of this in Chapter 9. A technique known as Latent Semantic
Indexing, or LSI,
25 maps documents and terms into a reduced dimensionality
space, so that documents that were previously indexed using a vocabulary of hundreds
of thousands of words are now represented using just a few hundred features.
Each feature in this new space is a mixture or cluster of many words, and it
is this mixing that in effect smooths the document representation.
TheLatent Dirichlet Allocation (LDA) model, which comes from the machine
learning community, models documents as a mixture of topics. A topic is a language
model, just as we defined previously. In a retrieval model such as query likelihood,
each document is assumed to be associated with a singl

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

นี้หมายความ ว่า สำหรับคู่อันดับข้อมูลเอกสารทั้งหมด เราต้องการคะแนนสำหรับเอกสารที่มีการจัดอันดับความเกี่ยวข้องสูงขึ้น (หรืออันดับ) จะมากขึ้นคะแนนสำหรับเอกสารที่มีการจัดอันดับความเกี่ยวข้องต่ำกว่า อับมีไม่มีอัลกอริทึมที่มีประสิทธิภาพเพื่อค้นหาโซลูชันที่แน่นอนสำหรับ ⃗w เราสามารถ อย่างไรก็ตามreformulate ปัญหานี้เป็นการเพิ่มประสิทธิภาพ SVM มาตรฐานเป็นดังนี้:---ที่ξ เรียกว่าตัวแปร aslack ช่วยให้การจัดประเภทยาก หรือเสียงดังตัวอย่างการฝึกอบรม และ C เป็นพารามิเตอร์ที่ใช้ในการป้องกันการ overfitting Overfittingเกิดขึ้นเมื่อฟังก์ชันการจัดอันดับที่ไม่สร้างอัลกอริทึมการเรียนรู้ดี ที่จัดลำดับข้อมูลการฝึกอบรม แต่ไม่ทำที่จัดลำดับเอกสารสำหรับแบบสอบถามใหม่ Available24 ที่ทำการเพิ่มประสิทธิภาพนี้มีแพคเกจซอฟต์แวร์ และผลิตเป็นลักษณนามเหมาะสมนี้มาจากไหน จะต้องอ่านใจร้อนข้ามไปลักษณนาม SVM มีทั่วไปในบทที่ 9 คำอธิบาย สำหรับการเราสามารถพูดได้ว่า อัลกอริทึม SVM จะหาลักษณนาม (เช่น เวกเตอร์ การ⃗w) ที่มีคุณสมบัติต่อไปนี้ แต่ละคู่ของเอกสารข้อมูลการฝึกอบรมของเราสามารถแสดงแทน ด้วยเวกเตอร์ (⃗di − ⃗dj) ถ้าเรามีคำนวณคะแนนสำหรับคู่นี้เป็น⃗w. (⃗di − ⃗dj), ลักษณนาม SVM จะพบ ⃗w ที่ทำให้คะแนนน้อยที่สุดเป็นขนาดใหญ่เป็นไป สิ่งเดียวกันเป็นจริงสำหรับตัวอย่างค่าลบ (คู่เอกสารที่ไม่ได้ในข้อมูลการจัดอันดับ) หมายความ ว่า ลักษณนามจะทำให้ความแตกต่างในขนาดใหญ่ได้สำหรับคู่ของเอกสารที่ยากที่สุดในการจัดอันดับคะแนนโปรดทราบว่า รุ่นนี้ไม่ได้ระบุคุณลักษณะที่ควรใช้ มันอาจจะแม้จะใช้ในการเรียนรู้น้ำหนักสำหรับคุณลักษณะที่สอดคล้องกับคะแนนจากทั้งหมดรุ่นเรียกแตกต่างกัน เช่นรุ่น BM25 และภาษา รวมค้นหาหลาย ๆ ครั้งสำหรับแบบสอบถามที่กำหนดได้รับการแสดงจะมีประสิทธิภาพในตัวเลขของการทดลองของ และจะกล่าวถึงต่อไปในหัวข้อ 10.5.1 นอกจากนี้ยังตงประเทศน้ำหนักได้เรียนรู้ โดยจัดอันดับ SVM (หรือเทคนิคอื่น ๆ บางที่ discriminative)ใช้ในภาษาการอ้างอิงเครือข่ายสอบถามโดยตรงแม้ว่าคำนามภาษา discriminative เชิงเส้นเช่น SVM คะแนนอาจมีการประโยชน์สำหรับเว็บค้นหา มีโปรแกรมค้นหาอื่น ๆ ซึ่งจะมีข้อมูลการฝึกอบรมน้อยและลดคุณลักษณะที่พร้อมใช้งาน สำหรับการใช้งาน ส่วนตัวรูปแบบของความเกี่ยวข้องเฉพาะอาจจะมีประสิทธิภาพมากขึ้น โดยเฉพาะอย่างยิ่งในขณะที่ยังคงรูปแบบการปรับปรุงผ่านเทคนิคการประเมินที่ดีกว่า กล่าวถึงส่วนถัดไป24 เช่น SV Mlight ดู http://svmlight.joachims.orgวิธีการประเมินสามารถแก้ไขได้ โดยการสร้างแบบจำลองเอกสารเป็นส่วนผสมของหัวข้อรุ่น7.6.2 หัวข้อรูปแบบและคำศัพท์ไม่ตรงกันหนึ่งในปัญหาสำคัญในการดึงข้อมูลทั่วไปเป็นคำศัพท์ที่ไม่ตรงกันนี้หมายถึงสถานการณ์ที่เกี่ยวข้องเอกสารไม่ตรงกับแบบสอบถามเนื่องจากพวกเขากำลังใช้คำที่ต่างกันเพื่ออธิบายหัวข้อเดียวกัน เว็บสิ่งแวดล้อมหลายเอกสารจะประกอบด้วยคำทั้งหมดที่สอบถาม ดังนั้นนี้อาจไม่ปรากฏขึ้นจะ มีปัญหา ค้นหางานกับคอลเลกชันขนาดเล็ก อย่างไรก็ตาม มันจะมีความสำคัญ และแม้ในการค้นหาเว็บ TREC ทดลองได้แสดงให้เห็นว่าเฉพาะแบบสอบถามภาพที่ดีกว่าโดยใช้แบบสอบถามขยาย สอบถาม (การใช้ การขยายตัวอย่างเช่น ข้อเสนอแนะเกี่ยวหลอก) เป็นเทคนิคการลดมาตรฐานคำศัพท์ไม่ตรงกัน แม้ว่าเกิดยังเน้นปัญหานี้บ้างวิธีแตกต่างจะเป็นการ ขยายเอกสาร โดยการเพิ่มเงื่อนไขที่เกี่ยวข้องสำหรับเอกสารที่แสดงเป็นรูปแบบภาษา นี้จะเท่ากับการปรับให้เรียบน่าจะในรูปแบบภาษาเพื่อที่คำที่ยังไม่เกิดขึ้นในการข้อความได้น่าจะไม่ใช่ศูนย์ โปรดสังเกตว่า นี้แตกต่างจากการปรับใช้การเก็บรวบรวมน่าจะ ซึ่งเหมือนกันสำหรับเอกสารทั้งหมด แทน เราต้องบางวิธีเพิ่มน่าจะคำที่เกี่ยวข้องกับหัวข้อของเอกสารจำนวนเทคนิคได้รับการเสนอให้ทำ ถ้าเป็นเอกสารที่รู้จักกันเป็นหมวดหมู่หรือกลุ่มของเอกสาร แล้วน่าจะของคำในคลัสเตอร์ที่ใช้เรียบแบบภาษาของเอกสาร เราอธิบายรายละเอียดเรื่องนี้ในบทที่ 9 เทคนิคที่เรียกว่าความหมายแฝงอยู่การทำดัชนี หรือ LSI25 แผนที่เอกสารและเงื่อนไขเข้าไปในมิติที่ลดลงพื้นที่ เพื่อว่าเอกสารที่ถูกทำดัชนีก่อนหน้านี้โดยใช้คำศัพท์หลายร้อยพันคำตอนนี้แสดงการใช้คุณลักษณะเพียงไม่กี่ร้อยแต่ละคุณลักษณะในพื้นที่ใหม่นี้เป็นส่วนผสมหรือคลัสเตอร์ของคำหลาย ๆ คำนี้ผสมที่มีผลการแสดงเอกสารที่เรียบเนียนได้รูปแบบการปันส่วน Dirichlet TheLatent (LDA) ซึ่งมาจากเครื่องการเรียนรู้ชุมชน เอกสารรุ่นที่เป็นส่วนผสมของหัวข้อ หัวข้อเป็นภาษารุ่น เพียงแค่ ตามที่เรากำหนดไว้ก่อนหน้านี้ ในรูปแบบเรียกเช่นสอบถามความเป็นไปได้เอกสารแต่ละฉบับจะสันนิษฐานจะเกี่ยวข้องกับแบบ singl

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

นี้หมายความว่าสำหรับทุกคู่ที่มีเอกสารในข้อมูลตำแหน่งที่เราต้องการ
คะแนนสำหรับเอกสารที่มีการจัดอันดับความสัมพันธ์กันสูงขึ้น (หรือลำดับ) จะสูง
กว่าคะแนนสำหรับเอกสารที่มีการจัดอันดับความสัมพันธ์กันต่ำ แต่น่าเสียดายที่
ไม่มีขั้นตอนวิธีการที่มีประสิทธิภาพเพื่อหาทางออกที่แน่นอนสำหรับ⃗w เราสามารถ แต่
reformulate ปัญหานี้เป็นการเพิ่มประสิทธิภาพ SVM มาตรฐานดังต่อไปนี้:
-
-
-
ที่ξที่รู้จักในฐานะตัวแปร aslack ช่วยให้การจำแนกของยากหรือมีเสียงดัง
ตัวอย่างการฝึกอบรมและ C เป็นพารามิเตอร์ที่ใช้ในการป้องกันไม่ให้อิง overfitting
เกิดขึ้นเมื่อขั้นตอนวิธีการเรียนรู้การผลิตที่ฟังก์ชั่นการจัดอันดับที่ไม่
ได้เป็นอย่างดีในการจัดอันดับข้อมูลการฝึกอบรม แต่ไม่ได้ทำดีที่เอกสารการจัดอันดับ
สำหรับแบบสอบถามใหม่ แพคเกจซอฟต์แวร์ available24 ที่จะเพิ่มประสิทธิภาพและ
ผลิตจําแนก.
ไหนไม่เพิ่มประสิทธิภาพนี้มาจากไหน? ผู้อ่านใจร้อนจะต้อง
กระโดดไปข้างหน้าคำอธิบายเกี่ยวกับลักษณนาม SVM ทั่วไปในบทที่ 9 สำหรับ
เวลานี้เราสามารถพูดได้ว่าอัลกอริทึม SVM จะได้พบกับลักษณนาม (เช่นเวกเตอร์
⃗w) ที่มีคุณสมบัติดังต่อไปนี้ คู่ของเอกสารในข้อมูลการฝึกอบรมของเราแต่ละคน
สามารถแสดงโดยเวกเตอร์ (⃗di - ⃗dj) ถ้าเราคำนวณคะแนนสำหรับคู่นี้เป็น
⃗w (.
⃗di - ⃗dj) ลักษณนาม SVM จะพบ⃗wที่ทำให้คะแนนที่เล็กที่สุดเท่าที่มีขนาดใหญ่
ที่สุดเท่าที่ทำได้ สิ่งเดียวที่เป็นจริงสำหรับตัวอย่างลบ (คู่ของเอกสารที่
ไม่ได้อยู่ในข้อมูลการจัดอันดับ) ซึ่งหมายความว่าลักษณนามจะทำให้ความแตกต่าง
ในคะแนนที่มีขนาดใหญ่ที่สุดเท่าที่เป็นไปได้สำหรับคู่ของเอกสารที่ยากที่สุดที่จะยศ.
โปรดทราบว่ารุ่นนี้ไม่ได้ระบุคุณสมบัติที่ควรจะใช้ มันอาจจะ
ยังสามารถใช้ในการเรียนรู้น้ำหนักสำหรับคุณสมบัติที่สอดคล้องกับคะแนนจากสมบูรณ์
แบบจำลองการเรียกที่แตกต่างกันเช่น BM25 และรูปแบบภาษา รวม
การค้นหาหลายสำหรับการค้นหาที่กำหนดได้รับการแสดงที่จะมีประสิทธิภาพในจำนวน
ของการทดลองและจะกล่าวถึงต่อไปในส่วน 10.5.1 มันก็ควรจะตั้งข้อสังเกต
ว่าน้ำหนักได้เรียนรู้โดยการจัดอันดับ SVM (หรือบางเทคนิคการจำแนกอื่น ๆ )
สามารถนำมาใช้โดยตรงในภาษาแบบสอบถามเครือข่ายการอนุมาน.
แม้ว่าลักษณนามจำแนกเชิงเส้นเช่นการจัดอันดับ SVM อาจจะมี
ประโยชน์สำหรับการค้นหาเว็บที่มีการค้นหาอื่น ๆ การใช้งานที่จะมี
ข้อมูลการฝึกอบรมน้อยและคุณสมบัติที่น้อยลง สำหรับการใช้งานเหล่านี้กำเนิด
รูปแบบของความสัมพันธ์กันเฉพาะอาจจะมีประสิทธิภาพมากขึ้นโดยเฉพาะอย่างยิ่งรุ่นอย่างต่อเนื่อง
ในการปรับปรุงที่ดีขึ้นผ่านการประมาณ techniques.The ส่วนถัดไปกล่าวถึง
24 เช่น SV Mlight; ดู http://svmlight.joachims.org
วิธีการประมาณค่าได้ดีขึ้นโดยการสร้างแบบจำลองเอกสารเป็นส่วนผสมของหัวข้อ
รุ่น.
7.6.2 กระทู้รุ่นและคำศัพท์ที่ไม่ตรงกัน
หนึ่งในประเด็นสำคัญในการดึงข้อมูลทั่วไปคือไม่ตรงกันคำศัพท์.
นี้หมายถึง สถานการณ์ที่เอกสารที่เกี่ยวข้องไม่ตรงกับแบบสอบถามเป็น
เพราะพวกเขาจะใช้คำพูดที่แตกต่างกันเพื่ออธิบายหัวข้อเดียวกัน ในสภาพแวดล้อมเว็บ
เอกสารจำนวนมากจะมีทุกคำที่ใช้ค้นหาดังนั้นนี้อาจไม่ปรากฏ
เป็นปัญหา ในการใช้งานการค้นหาที่มีคอลเลกชันที่มีขนาดเล็ก แต่มันจะ
เป็นสิ่งที่สำคัญและแม้แต่ในการค้นหาเว็บทดลอง TREC ได้แสดงให้เห็นว่าเฉพาะ
คำสั่งให้ผลลัพธ์ที่ดีกว่าการใช้การขยายการค้นหา ขยายการค้นหา (ใช้
ตัวอย่างเช่นข้อเสนอแนะหลอกความสัมพันธ์กัน) เป็นเทคนิคมาตรฐานสำหรับการลด
ไม่ตรงกันคำศัพท์แม้จะเกิดยังอยู่ปัญหานี้ไปบ้าง.
วิธีการที่แตกต่างกันจะมีการขยายเอกสารโดยการเพิ่มคำที่เกี่ยวข้อง.
สำหรับเอกสารที่แสดงเป็น รุ่นภาษานี้จะเทียบเท่ากับการปรับให้เรียบ
ความน่าจะเป็นในรูปแบบภาษาเพื่อให้คำพูดที่ไม่ได้เกิดขึ้นใน
ข้อความที่มีความน่าจะเป็นที่ไม่ใช่ศูนย์ โปรดทราบว่านี้จะแตกต่างจากการปรับให้เรียบโดยใช้
ความน่าจะเป็นคอลเลกชันซึ่งจะเหมือนกันสำหรับเอกสารทั้งหมด แต่เรา
ต้องมีวิธีในการเพิ่มความน่าจะเป็นของคำที่เกี่ยวข้องกับบาง
หัวข้อของเอกสาร.
จำนวนเทคนิคได้รับการเสนอให้ทำเช่นนี้ ถ้าเอกสารเป็น
ที่รู้จักกันเป็นหมวดหมู่หรือกลุ่มของเอกสารแล้วน่าจะเป็นของ
คำในคลัสเตอร์ที่สามารถใช้ในการเรียบรุ่นภาษาเอกสาร เรา
อธิบายรายละเอียดของเรื่องนี้ในบทที่ 9. เทคนิคที่รู้จักกันในความหมายแฝง
ดัชนีหรือ LSI,
25 แผนที่เอกสารและเงื่อนไขเป็นมิติลดลง
พื้นที่เพื่อให้เอกสารที่ได้รับการจัดทำดัชนีก่อนหน้านี้โดยใช้คำศัพท์หลายร้อย
หลายพันของคำที่มีตอนนี้ แทนการใช้เพียงไม่กี่ร้อยคุณสมบัติ.
คุณลักษณะในพื้นที่ใหม่นี้แต่ละคนเป็นส่วนผสมหรือกลุ่มของคำจำนวนมากและมัน
เป็นนี้ผสมที่มีผลคล่องตัวตัวแทนเอกสาร.
TheLatent Dirichlet จัดสรร (LDA) รุ่นที่มาจากเครื่อง
การเรียนรู้ ชุมชนรุ่นเอกสารเป็นส่วนผสมของหัวข้อ หัวข้อเป็นภาษาที่
รุ่นเดียวกับที่เรากำหนดไว้ก่อนหน้า ในรูปแบบการดึงเช่นโอกาสในการค้นหา
เอกสารแต่ละจะถือว่าเกี่ยวข้องกับ singl

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

นี้หมายความว่าสำหรับคู่เอกสารข้อมูลตำแหน่งที่เราต้องการคะแนนสำหรับเอกสารที่มีความเกี่ยวข้องสูงคะแนน ( หรือตำแหน่ง ) ให้มากขึ้นมากกว่าคะแนนสำหรับเอกสารกับล่าง , การประเมิน ขออภัยไม่มีประสิทธิภาพอัลกอริทึมที่จะหาโซลูชั่นที่แน่นอนสำหรับ⃗ W . เราสามารถ อย่างไรก็ตามreformulate ปัญหานี้เป็นมาตรฐาน SVM ปรับดังนี้---ที่ξ เรียกว่าตัวแปร aslack สามารถผิดพลาดของยาก หรือเสียงดังตัวอย่างการฝึกอบรม และ C เป็นพารามิเตอร์ที่ใช้ป้องกัน overfitting . overfittingเกิดขึ้นเมื่ออัลกอริทึมเรียนรู้สร้างการจัดอันดับฟังก์ชัน ที่ ไม่การจัดอันดับข้อมูลฝึกได้ดี แต่ไม่ทำให้ดีในเอกสารการจัดอันดับสำหรับผู้ใช้ใหม่ แพคเกจซอฟต์แวร์ที่เพิ่มประสิทธิภาพและ available24ผลิตเป็นลักษณนามการเพิ่มประสิทธิภาพนี้มาจากที่ไหน ? อ่านแล้วจะต้องกระโดดไปข้างหน้าเพื่อให้คำอธิบายสำหรับทั่วไป SVM ลักษณนามในบทที่ 9 สำหรับตอนนี้เราสามารถพูดได้ว่าอัลกอริทึม SVM จะหาแบบเวกเตอร์ ( เช่น⃗ W ) ที่มีคุณสมบัติดังต่อไปนี้ แต่ละคู่ของเอกสารข้อมูลการฝึกอบรมของเราสามารถแทนด้วยเวกเตอร์ ( ⃗ di −⃗ดีเจ ) ถ้าเราคำนวณคะแนนสำหรับคู่นี้เป็น( ⃗ W⃗ di −⃗ดีเจ ) , SVM ลักษณนามจะพบ⃗ W ที่ทำให้คะแนนน้อยที่สุดเป็นขนาดใหญ่เท่าที่จะเป็นไปได้ เดียวกันเป็นจริงสำหรับลบตัวอย่าง ( คู่ของเอกสารที่ไม่มีข้อมูลอันดับ ) ซึ่งหมายความว่าตัวจะทำให้ความแตกต่างในระดับที่มีขนาดใหญ่ที่สุด สำหรับคู่ของเอกสารที่เป็นยากที่จะดับทราบว่ารุ่นนี้ไม่ได้ระบุคุณสมบัติที่ควรใช้ มันสามารถยังสามารถใช้เพื่อเรียนรู้น้ำหนักคุณสมบัติสอดคล้องกับคะแนน จากทั้งหมดรูปแบบการสืบค้นที่แตกต่างกัน เช่น รุ่น bm25 และภาษา รวมการค้นหาหลาย ๆสำหรับการค้นหาได้แสดงผลในหมายเลขการทดลองและอภิปรายเพิ่มเติมในส่วน 10.5.1 . มันควรที่จะกล่าวที่น้ำหนักเรียนรู้โดยการจัดอันดับ SVM ( หรืออื่น ๆบางและเทคนิค )สามารถใช้โดยตรงในการอนุมานเครือข่ายแบบสอบถามภาษาแม้ว่าคำลักษณนามและเชิงเส้นเช่นการจัดอันดับ SVM อาจมีประโยชน์สำหรับการค้นหาเว็บ มีโปรแกรมการค้นหาอื่น ๆ ที่ จะ มีการฝึกอบรมและคุณสมบัติของข้อมูลน้อยลงน้อยลง . สำหรับการใช้งานเหล่านี้ เข้ารุ่นของความเกี่ยวข้องอาจจะมีประสิทธิภาพมากขึ้น , โดยเฉพาะอย่างยิ่งเป็นรุ่นต่อไปเพื่อพัฒนาวิธีการประมาณค่ายิ่งขึ้น ส่วนถัดไปอธิบาย24 เช่น SV mlight http://svmlight.joachims.org ; เห็นวิธีการประเมินที่สามารถปรับปรุงโดยการเอกสารที่เป็นส่วนผสมของหัวข้อรุ่นหัวข้อ 7.6.2 รูปแบบและคำศัพท์ที่ไม่ตรงกันหนึ่งในประเด็นที่สำคัญในการดึงข้อมูลทั่วไปจะไม่ตรงกัน คำศัพท์นี้หมายถึงสถานการณ์ที่เอกสารไม่ตรงกับที่สอบถามเพราะพวกเขามีการใช้คำที่แตกต่างกันเพื่อบรรยายในหัวข้อเดียวกัน ในเว็บสิ่งแวดล้อมเอกสารหลายคำทั้งหมดจะประกอบด้วยแบบสอบถาม ดังนั้นนี้อาจปรากฏขึ้นที่จะเป็นปัญหา ในการค้นหาที่มีคอลเลกชันที่มีขนาดเล็กลง แต่ก็จะเป็นสำคัญ และแม้แต่ในการค้นหาเว็บ trec การทดลองได้แสดงให้เห็นว่า ยาทาสอบถามการสร้างผลลัพธ์ที่ดีกว่าการใช้แบบสอบถาม การสืบค้นข้อมูล ( ใช้ตัวอย่างเช่น , หลอก , ความคิดเห็น ) เป็นเทคนิคมาตรฐานสำหรับลดศัพท์ไม่ตรงกัน แต่กั้นยังที่อยู่ปัญหานี้ได้บ้างวิธีการที่แตกต่างกันจะถูกขยายโดยการเพิ่มเอกสารที่เกี่ยวข้องกับเงื่อนไขสำหรับเอกสารที่แสดงเป็นรุ่นภาษา นี้จะเทียบเท่ากับปรับให้เรียบความน่าจะเป็นในโมเดลภาษา ดังนั้นคำพูดที่ไม่ได้เกิดขึ้นในข้อความที่ได้ผลรวมของค่าความน่าจะเป็น ทราบว่า นี้จะแตกต่างจากการปรับให้เรียบคอลเลกชันความน่าจะเป็น ซึ่งจะเหมือนกันสำหรับเอกสารทั้งหมด แทนเราอยากได้วิธีเพิ่มค่าความน่าจะเป็นของคำที่เกี่ยวข้องกับหัวข้อของเอกสารจำนวนของเทคนิคที่ได้รับการเสนอที่จะทำนี้ ถ้าเอกสารคือที่รู้จักกันเป็นประเภทหรือกลุ่มของเอกสารนั้นน่าจะเป็นของคำในกลุ่มนั้นสามารถใช้ในการเรียบภาษาเอกสารแบบ เราอธิบายรายละเอียดของเรื่องนี้ในบทที่ 9 เป็นเทคนิคที่เรียกว่าแฝงความหมายดัชนีหรือ LSI25 แผนที่เอกสารและเงื่อนไขในการลด dimensionalityพื้นที่เพื่อให้เอกสารที่ก่อนหน้านี้ดัชนีการใช้ศัพท์เป็นร้อยๆหลายคำที่แสดงนี้ใช้เพียงไม่กี่ร้อยคุณสมบัติแต่ละคุณลักษณะใหม่ในพื้นที่นี้เป็นส่วนผสม หรือกลุ่มของคำหลายและนี่คือการผสมที่ผล 100% เอกสารการเป็นตัวแทนการจัดสรร thelatent ดีริชเลต์ ( lda ) รุ่นที่มาจากเครื่องชุมชนแห่งการเรียนรู้ , รูปแบบเอกสารที่เป็นส่วนผสมของหัวข้อ หัวข้อที่เป็นภาษารูปแบบตามที่เรากำหนดไว้ก่อนหน้านี้ ในการดึงรูปแบบเช่นโอกาสสอบถามเอกสารแต่ละคนจะถือว่ามีความเกี่ยวข้องกับด

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.