where qj is the initial weight of query term j, Rel is the set of identified relevant
documents, Nonrel is the set of non-relevant documents, |.| gives the size of a
set, dij is the weight of the jth term in document i, and α, β, and γ are parameters
that control the effect of each component. Previous studies have shown that
the set of non-relevant documents is best approximated by all unseen documents
(i.e., all documents not identified as relevant), and that reasonable values for the
parameters are 8, 16, and 4 for α, β, and γ, respectively.
This formula modifies the query term weights by adding a component based
on the average weight in the relevant documents and subtracting a component
based on the average weight in the non-relevant documents. Query terms with
weights that are negative are dropped. This results in a longer or expanded query
because terms that occur frequently in the relevant documents but not in the original
query will be added (i.e., they will have non-zero positive weights in the modified
query). To restrict the amount of expansion, typically only a certain number
(say, 50) of the terms with the highest average weights in the relevant documents
will be added to the query.
ที่ QJ เป็นน้ำหนักของแบบสอบถามในระยะ J , รถไฟเป็นชุดของการระบุที่เกี่ยวข้องเอกสาร nonrel คือชุดของไม่เกี่ยวข้อง เอกสาร | . | ช่วยให้ขนาดของชุด dij คือน้ำหนักของ jth เงื่อนไขในเอกสาร และαบีตา และγเป็นพารามิเตอร์ ,ที่สามารถควบคุมผลของแต่ละองค์ประกอบ การศึกษาก่อนหน้านี้ได้แสดงให้เห็นว่าชุดของเอกสารที่เกี่ยวข้องไม่ที่ดีที่สุดโดยประมาณตามเอกสารที่ทั้งหมด( เช่น เอกสารไม่ระบุที่ ) , และค่าที่เหมาะสมสำหรับตัวแปร คือ 8 , 16 , และ 4 สำหรับαบีตา และγ , ตามลำดับสูตรนี้จะปรับเปลี่ยนแบบสอบถามในระยะน้ำหนักโดยการเพิ่มส่วนประกอบจากต่อน้ำหนักเฉลี่ยในเอกสารที่เกี่ยวข้อง และลบคอมโพเนนต์ขึ้นอยู่กับน้ำหนักเฉลี่ยในไม่เกี่ยวข้อง เอกสาร สอบถามเรื่องกับน้ำหนักที่เป็นลบจะลดลง ผลลัพธ์ที่ได้จาก query อีกต่อไปหรือเพราะเรื่องที่เกิดขึ้นบ่อยในเอกสารที่เกี่ยวข้อง แต่ไม่ได้อยู่ในต้นฉบับแบบสอบถามจะถูกเพิ่ม ( เช่นที่พวกเขาจะไม่เป็นบวก น้ำหนักในการแก้ไขแบบสอบถาม ) การ จำกัด จำนวนของการขยายตัว โดยเฉพาะบางหมายเลข( พูด , 50 ) ของข้อตกลงกับน้ำหนักเฉลี่ยสูงสุดในเอกสารที่เกี่ยวข้องจะเพิ่มการ
การแปล กรุณารอสักครู่..
