where b is a parameter, dl is the length of the document, and avdl is the average length of a document in the collection. The constant b regulates the impact of the length normalization, where b = 0 corresponds to no length normalization, and
b = 1 is full normalization. In TREC experiments, a value of b = 0.75 was found to be effective. As an example calculation, let’s consider a query with two terms, “president” and “lincoln”, each of which occurs only once in the query (qf = 1). We will consider the typical case where we have no relevance information (r and R are zero). Let’s assume that we are searching a collection of 500,000 documents (N), and that in this collection, “president” occurs in 40,000 documents (n1 = 40, 000) and “lincoln” occurs in 300 documents (n2 = 300). In the document we are scoring (which is about President Lincoln), “president” occurs 15 times (f1 = 15) and “lincoln” occurs 25 times (f2 = 25). The document length is 90% of the average length (dl/avdl = 0.9). The parameter values we use are k1 = 1.2, b = 0.75, and k2 = 100. With these values, K = 1.2 • (0.25 + 0.75 • 0.9) = 1.11, and the document score is:
ซึ่ง b คือ พารามิเตอร์ dl คือ ความยาวของเอกสาร และ avdl คือ ความยาวเฉลี่ยของเอกสารในคอลเลกชัน ค่าคง b ควบคุมผลกระทบต่อการปรับสภาพความยาว ที่ b = 0 ตรงกับฟื้นฟูไม่ยาว และb = 1 จะฟื้นฟูเต็มรูปแบบ ใน TREC ทดลอง ค่า b = 0.75 พบมีประสิทธิภาพ เป็นการคำนวณตัวอย่าง ลองพิจารณาแบบสอบถาม มีสองเงื่อนไข "ประธาน" และ "ลินคอล์น" ซึ่งเกิดขึ้นเพียงครั้งเดียวในแบบสอบถาม (qf = 1) เราจะพิจารณากรณีทั่วไปที่เรามีไม่มีความเกี่ยวข้องข้อมูล (r และ R เป็นศูนย์) สมมติว่า เรากำลังค้นหาคอลเลกชันเอกสาร 500,000 (N), และที่ในคอลเลกชันนี้ "ประธาน" ที่เกิดขึ้นในเอกสาร 40,000 (n1 = 40, 000) และ "ลินคอล์น" เกิดขึ้นในเอกสาร 300 (n2 = 300) ในเอกสาร เราจะให้คะแนน (ซึ่งเกี่ยวกับประธานาธิบดีลินคอล์น), "ประธาน" เกิดขึ้น 15 ครั้ง (f1 = 15) และ "ลินคอล์น" เกิดขึ้น 25 ครั้ง (f2 = 25) ความยาวของเอกสารคือ 90% ของความยาวเฉลี่ย (dl/avdl = 0.9) ค่าพารามิเตอร์เราใช้อยู่ k1 = 1.2, b = 0.75 และ k2 = 100 มีค่าเหล่านี้ K = 1.2 • (0.25 + 0.75 0.9) = 1.11 และเอกสารคะแนน:
การแปล กรุณารอสักครู่..
