Figure 7.1 gives a simple example of the vector representation for four documents.
The term-document matrix has been rotated so that now the terms are the
rows and the documents are the columns. The term weights are simply the count
of the terms in the document. Stopwords are not indexed in this example, and
the words have been stemmed. DocumentD3, for example, is represented by the
vector (1, 1, 0, 2, 0, 1, 0, 1, 0, 0, 1).
Queries are represented the same way as documents. That is, a query Q is represented
by a vector of t weights:
Q = (q1, q2, . . . , qt),
รูปที่ 7.1 ตัวอย่างง่าย ๆ ของการแสดงเวคเตอร์เอกสารสี่อีกมีการหมุนเมตริกซ์เอกสารระยะที่ตอนนี้ มีเงื่อนไขการคอลัมน์แถวและเอกสารได้ คำว่าน้ำหนักเป็นเพียงแค่การนับเงื่อนไขในเอกสาร ทำดัชนี Stopwords ในตัวอย่างนี้ และมีรับ stemmed คำ DocumentD3 เช่น จะถูกแสดงโดยการเวกเตอร์ (1, 1, 0, 2, 0, 1, 0, 1, 0, 0, 1)แบบสอบถามจะแสดงแบบเดียวกับเอกสาร นั่นคือ แสดงแบบสอบถาม Qโดยเวกเตอร์ของน้ำหนัก t:Q = (q1, q2,..., qt),
การแปล กรุณารอสักครู่..
รูปที่ 7.1 ให้เป็นตัวอย่างที่เรียบง่ายของการแสดงเวกเตอร์สี่เอกสาร.
เมทริกซ์ระยะเอกสารได้รับการหมุนเพื่อให้ตอนนี้เงื่อนไขเป็น
แถวและเอกสารที่มีคอลัมน์ น้ำหนักคำเป็นเพียงการนับ
ของคำในเอกสาร คำหยุดไม่ได้จัดทำดัชนีในตัวอย่างนี้และ
คำพูดที่ได้รับการเกิด DocumentD3 ตัวอย่างเช่นเป็นตัวแทนจาก
เวกเตอร์ (1, 1, 0, 2, 0, 1, 0, 1, 0, 0, 1).
แบบสอบถามจะแสดงลักษณะเดียวกับเอกสาร นั่นคือแบบสอบถาม Q เป็นตัวแทน
โดยเวกเตอร์ของน้ำหนัก T A:
q = (... ไตรมาส 1, 2, QT)
การแปล กรุณารอสักครู่..