5.1. Pre-processing module
Pre-processing is a necessary procedure in document
management, through which data and information stored in
documents in a specific format can be elicited by analyzing
and tokenizing content. Organizations generally create and
use a great amount of documents that can be stored in
different kinds of formats like text files (.txt), document files
(.doc, .pdf), web pages (.xml, .html) as figure 8 shows [26].
The analysis of heterogeneous format contents, the removal
of meaningless terms and the maintenance of information
useful to retrieve and recover documents will depend on the
DMS. The proposed DMS works in different steps in order
to pre-process and organize documents. When an organization’s
members insert documents to be collected by the
KMS, a two-step parsing then occurs: content elicitation and
content tokenization. Content elicitation to withdraw textual
content from different kinds of files eliminates irrelevant
information, such as typesetting format, and transforms content
into a character data stream. Content tokenization breaks
the content into words and sentences according to lexical
analysis, and transforms the data stream into a set of terms
for the subsequent content parsing procedure. After parsing,
the pre-process module performs content filtering, to analyze
and filter out semantically irrelevant terms in the indexing
process, pruning stop words and stemming. We refer to
stop words as the terms - such as articles, prepositions,
conjunctions, numbers - considered meaningless noise data
in content processing. There is another phenomenon in text
analysis that can consume memory space and calculation
resources; in a common text there can be words such as
”tell” in all the variations (told, telling); the system tends
to regard those variations as different words with the same
word root, even if the semantic meaning is the same. The stemming procedure uses an algorithm to remove the prefix
or suffix of words so that the system can interpret them as
the same root.
5.1. ก่อนการประมวลผลโมดูล
ก่อนประมวลผลเป็นขั้นตอนที่จำเป็นในเอกสาร
จัดการ ข้อมูลและข้อมูลที่เก็บไว้ในที่
สามารถ elicited เอกสารในรูปแบบเฉพาะ โดยวิเคราะห์
และ tokenizing เนื้อหาได้ โดยทั่วไปสร้างองค์กร และ
ใช้จำนวนมากของเอกสารที่สามารถเก็บใน
รูปแบบต่าง ๆ เช่นแฟ้มข้อความ (.txt), ไฟล์เอกสาร
(.doc, .pdf), เว็บเพจ (.xml, .html) เป็นรูป 8 แสดง [26] .
วิเคราะห์เนื้อหารูปแบบที่แตกต่างกัน การกำจัด
เงื่อนไขต่าง ๆ และการบำรุงรักษาข้อมูล
ประโยชน์เพื่อดึงข้อมูล และการกู้คืนเอกสารจะขึ้นอยู่กับการ
DMS DMS เสนอการทำงานในขั้นตอนต่าง ๆ ตามลำดับ
ก่อนดำเนินการ และจัดการเอกสาร ขององค์กรเมื่อ
สมาชิกแทรกเอกสารรวบรวมโดย
กิโลเมตร เกิดขึ้นสองขั้นตอนการแยกวิเคราะห์แล้ว: เนื้อหา elicitation และ
tokenization เนื้อหา เนื้อหา elicitation ถอนข้อความ
เนื้อหาจากแฟ้มชนิดต่าง ๆ ลดความเกี่ยวข้อง
ข้อมูล เช่น typesetting รูปแบบ และการแปลงเนื้อหา
ในกระแสข้อมูลอักขระ เนื้อหาแบ่ง tokenization
เนื้อหาเป็นคำและประโยคเกี่ยวกับคำศัพท์ตาม
วิเคราะห์ และแปลงข้อมูลกระแสข้อมูลเป็นชุดของเงื่อนไข
เนื้อหาต่อมาแยกวิเคราะห์กระบวนการ หลังจากแยก,
โมก่อนกระบวนการทำกรองเนื้อหา การวิเคราะห์
และกรองเงื่อนไขทางความเกี่ยวข้องในการจัดทำดัชนี
ประมวล ผล ตัดคำหยุด และประเทศ เราถึง
หยุดคำเป็นเงื่อนไข - เช่นบทความ บุรพบท,
สันธาน หมายเลข - พิจารณาข้อมูลต่าง ๆ เสียง
ในการประมวลผลเนื้อหา มีปรากฏการณ์อื่นในข้อความ
วิเคราะห์ที่สามารถใช้พื้นที่หน่วยความจำและคำนวณ
ทรัพยากร ในข้อความทั่วไป สามารถมีคำเช่น
"แจ้ง" ในรูปแบบทั้งหมด (บอก บอก); มีแนวโน้มที่ระบบ
ถือรูปเหล่านั้นเป็นคำที่ต่างกันด้วยเหมือนกัน
คำราก แม้ว่าความหมายความหมายจะเหมือนกัน กระบวนงาน stemming ใช้อัลกอริทึมเป็นการเอาคำนำหน้า
หรือต่อท้ายคำเพื่อให้ระบบสามารถแปลได้เป็น
รากเดียวกัน
การแปล กรุณารอสักครู่..