Fig. 7.2. Vector representation of documents and queries
The numerator of this measure is the sum of the products of the term weights
for the matching query and document terms (known as the dot product or inner
product). The denominator normalizes this score by dividing by the product
of the lengths of the two vectors. There is no theoretical reason why the cosine
correlation should be preferred to other similarity measures, but it does perform
somewhat better in evaluations of search quality.
As an example, consider two documents D1 = (0.5, 0.8, 0.3) and D2 =
(0.9, 0.4, 0.2)indexed by three terms, where the numbers represent term weights.
Given the query Q = (1.5, 1.0, 0) indexed by the same terms, the cosine measures
for the two documents are:
รูป 7.2 เวกเตอร์เป็นตัวแทนของเอกสารและแบบสอบถามตัวเศษของวัดนี้คือ ผลรวมของผลิตภัณฑ์ของคำว่าน้ำหนักสำหรับจับคู่สอบถามและเอกสารข้อกำหนด (เป็นผลิตภัณฑ์จุด หรือภายในผลิตภัณฑ์) ส่วน normalizes คะแนนนี้ โดยแบ่งตามผลิตภัณฑ์ของความยาวของสองเวกเตอร์ มีเหตุผลทางทฤษฎีทำไมโคไซน์ความสัมพันธ์ควรที่ต้องการวัดความคล้ายคลึงกันอื่น ๆ แต่มันทำค่อนข้างดีกว่าในการประเมินคุณภาพการค้นหาตัวอย่างเช่น พิจารณาเอกสารสอง D1 = (0.5, 0.8, 0.3) และ D2 =(0.9, 0.4, 0.2) การสร้างดัชนี โดยเงื่อนไขที่สาม ที่หมายเลขแสดงระยะน้ำหนักได้รับแบบสอบถาม Q = (1.5, 1.0, 0) ทำดัชนี โดยเงื่อนไขเดียวกัน มาตรการโคไซน์สำหรับเอกสารที่สอง:
การแปล กรุณารอสักครู่..

มะเดื่อ. 7.2 ตัวแทนเวกเตอร์ของเอกสารและแบบสอบถาม
เศษของวัดนี้คือผลรวมของผลิตภัณฑ์ที่มีน้ำหนักคำว่า
สำหรับการค้นหาที่ตรงกันและเอกสารข้อตกลง (ที่รู้จักกันเป็นผลิตภัณฑ์จุดหรือด้าน
ผลิตภัณฑ์) ตัวหาร normalizes คะแนนนี้โดยการหารด้วยสินค้า
ของความยาวของทั้งสองเวกเตอร์ ไม่มีเหตุผลทางทฤษฎีว่าทำไมโคไซน์คือ
ความสัมพันธ์ที่ควรได้รับการแนะนำให้มาตรการคล้ายคลึงกันอื่น ๆ แต่ก็ไม่ดำเนินการ
ค่อนข้างดีในการประเมินคุณภาพการค้นหา.
ตัวอย่างเช่นพิจารณาสองเอกสาร D1 = (0.5, 0.8, 0.3) และ D2 =
(0.9 ., 0.4, 0.2) การจัดทำดัชนีโดยสามข้อตกลงที่ตัวเลขแทนน้ำหนักระยะ
ที่กำหนดแบบสอบถาม q = (1.5, 1.0, 0) การจัดทำดัชนีตามเงื่อนไขเดียวกันมาตรการโคไซน์
สำหรับสองเอกสาร:
การแปล กรุณารอสักครู่..
