4.1 Document Indexing
The first stage of information retrieval is document indexing. Each indexed document is represented as a vector of terms contained by the document and weights of each term. Weight of a term describes how important that term is to the document, e.g. terms from documents’ title will be more important than terms from the footer. The process of creating the vector includes stop words removal and stemming. Stop words like ‘of’, ‘an’, ‘the’, and etc are removed as there are not relevant to the document abstract [10]. Words suffixes – like ‘ed’, ‘ion’, ‘ing’, ‘ions’ can be removed to avoid recording different variants of a single word.
4.1 ดัชนีเอกสาร
ขั้นตอนแรกของการดึงข้อมูลมีการสร้างดัชนีเอกสาร แต่ละดัชนีเอกสารแสดงเป็นเวกเตอร์ของข้อตกลงที่มีอยู่ โดยเอกสาร และน้ำหนักของแต่ละเทอม น้ำหนักของคำอธิบายวิธีการที่สำคัญคำที่ในเอกสาร เช่น เอกสารข้อตกลงจากชื่อเรื่องจะสำคัญกว่าข้อตกลงจากส่วนท้ายกระบวนการของการสร้างเวกเตอร์รวมถึงคำหยุดการกำจัดและกั้น . หยุดคำพูดของ ' ' , ' ' , ' ' , และ ฯลฯ จะถูกลบออกเป็นมีไม่ที่เกี่ยวข้องกับเอกสารที่เป็นนามธรรม [ 10 ] คำที่ต่อท้าย ( เช่น ' เอ็ด ' , ' รายละเอียด ' , ' ing ' , ' อิออน ' สามารถถอดออกได้เพื่อหลีกเลี่ยงการบันทึกสายพันธุ์ที่แตกต่างกันของคำเดียว
การแปล กรุณารอสักครู่..
