5.1. Pre-processing modulePre-proce

5.1. Pre-processing module
Pre-processing is a necessary procedure in document
management, through which data and information stored in
documents in a specific format can be elicited by analyzing
and tokenizing content. Organizations generally create and
use a great amount of documents that can be stored in
different kinds of formats like text files (.txt), document files
(.doc, .pdf), web pages (.xml, .html) as figure 8 shows [26].
The analysis of heterogeneous format contents, the removal
of meaningless terms and the maintenance of information
useful to retrieve and recover documents will depend on the
DMS. The proposed DMS works in different steps in order
to pre-process and organize documents. When an organization’s
members insert documents to be collected by the
KMS, a two-step parsing then occurs: content elicitation and
content tokenization. Content elicitation to withdraw textual
content from different kinds of files eliminates irrelevant
information, such as typesetting format, and transforms content
into a character data stream. Content tokenization breaks
the content into words and sentences according to lexical
analysis, and transforms the data stream into a set of terms
for the subsequent content parsing procedure. After parsing,
the pre-process module performs content filtering, to analyze
and filter out semantically irrelevant terms in the indexing
process, pruning stop words and stemming. We refer to
stop words as the terms - such as articles, prepositions,
conjunctions, numbers - considered meaningless noise data
in content processing. There is another phenomenon in text
analysis that can consume memory space and calculation
resources; in a common text there can be words such as
”tell” in all the variations (told, telling); the system tends
to regard those variations as different words with the same
word root, even if the semantic meaning is the same. The stemming procedure uses an algorithm to remove the prefix
or suffix of words so that the system can interpret them as
the same root.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

5.1 โมดูลก่อนการประมวลผล
ก่อนการประมวลผลเป็นขั้นตอนที่จำเป็นในการจัดการเอกสาร
ผ่านที่ข้อมูลและข้อมูลที่เก็บไว้ในเอกสาร
ในรูปแบบที่เฉพาะเจาะจงสามารถนำออกโดยการวิเคราะห์
และ tokenizing เนื้อหา องค์กรโดยทั่วไปสร้างและ
ใช้จำนวนมากของเอกสารที่สามารถเก็บไว้ใน
ชนิดที่แตกต่างของรูปแบบเช่นไฟล์ข้อความ (. txt) ไฟล์เอกสาร
(. doc. pdf) ให้หน้าเว็บ (. XML, HTML.) เป็นตัวรูปที่ 8 แสดง [26].
การวิเคราะห์รูปแบบของเนื้อหาที่แตกต่าง
กำจัดของคำความหมายและการบำรุงรักษาของข้อมูลที่เป็นประโยชน์
เพื่อดึงและกู้คืนเอกสารที่จะขึ้นอยู่กับ
DMS เสนอ DMS ทำงานอยู่ในขั้นตอนที่แตกต่างกันใน
เพื่อให้กระบวนการ pre-และจัดระเบียบเอกสาร เมื่อองค์กรของสมาชิก
ใส่เอกสารที่จะเก็บรวบรวมโดย
กิโลเมตร,แยกสองขั้นตอนแล้วเกิดการดึงเอาเนื้อหาและเนื้อหา tokenization
การดึงเอาเนื้อหาที่จะถอนตัวเนื้อหา
ต้นฉบับจากทุกชนิดที่แตกต่างกันของไฟล์ที่จะช่วยขจัดข้อมูลที่ไม่เกี่ยวข้อง
เช่น typesetting รูปแบบและแปรรูป
เนื้อหาลงไปในตัวละครกระแสข้อมูล แบ่งเนื้อหา tokenization
เนื้อหาเป็นคำและประโยคตามการวิเคราะห์
ศัพท์,และแปลงกระแสข้อมูลเป็นชุดของ
เงื่อนไขสำหรับขั้นตอนการแยกเนื้อหาตามมา หลังจากที่แยก
โมดูลกระบวนการก่อนดำเนินการกรองเนื้อหาการวิเคราะห์
และกรองคำที่ไม่เกี่ยวข้องในการจัดทำดัชนีความหมาย
กระบวนการหยุดคำตัดแต่งกิ่งและก้าน เราจะเรียก
คำหยุดเป็นคำ - เช่นบทความบุพบทคำสันธาน
ตัวเลข - การพิจารณาข้อมูลเสียงความหมาย
ในการประมวลเนื้อหา มีปรากฏการณ์อื่นในข้อความการวิเคราะห์
ที่สามารถใช้พื้นที่หน่วยความจำและทรัพยากร
คำนวณ; ในข้อความทั่วไปจะมีคำพูดเช่น
"บอก" ในรูปแบบทั้งหมด (บอกเล่า); ระบบมีแนวโน้มที่จะเชื่อว่า
รูปแบบเหล่านั้น เป็นคำที่แตกต่างกับรากคำ
เดียวกันแม้ว่าความหมายคือความหมายเดียวกันขั้นตอนการใช้วิธีการกั้นเพื่อลบ
คำนำหน้าหรือต่อท้ายคำเพื่อให้ระบบสามารถแปลพวกเขาเป็น
รากเดียวกัน

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

5.1. ก่อนการประมวลผลโมดูล
ก่อนประมวลผลเป็นขั้นตอนที่จำเป็นในเอกสาร
จัดการ ข้อมูลและข้อมูลที่เก็บไว้ในที่
สามารถ elicited เอกสารในรูปแบบเฉพาะ โดยวิเคราะห์
และ tokenizing เนื้อหาได้ โดยทั่วไปสร้างองค์กร และ
ใช้จำนวนมากของเอกสารที่สามารถเก็บใน
รูปแบบต่าง ๆ เช่นแฟ้มข้อความ (.txt), ไฟล์เอกสาร
(.doc, .pdf), เว็บเพจ (.xml, .html) เป็นรูป 8 แสดง [26] .
วิเคราะห์เนื้อหารูปแบบที่แตกต่างกัน การกำจัด
เงื่อนไขต่าง ๆ และการบำรุงรักษาข้อมูล
ประโยชน์เพื่อดึงข้อมูล และการกู้คืนเอกสารจะขึ้นอยู่กับการ
DMS DMS เสนอการทำงานในขั้นตอนต่าง ๆ ตามลำดับ
ก่อนดำเนินการ และจัดการเอกสาร ขององค์กรเมื่อ
สมาชิกแทรกเอกสารรวบรวมโดย
กิโลเมตร เกิดขึ้นสองขั้นตอนการแยกวิเคราะห์แล้ว: เนื้อหา elicitation และ
tokenization เนื้อหา เนื้อหา elicitation ถอนข้อความ
เนื้อหาจากแฟ้มชนิดต่าง ๆ ลดความเกี่ยวข้อง
ข้อมูล เช่น typesetting รูปแบบ และการแปลงเนื้อหา
ในกระแสข้อมูลอักขระ เนื้อหาแบ่ง tokenization
เนื้อหาเป็นคำและประโยคเกี่ยวกับคำศัพท์ตาม
วิเคราะห์ และแปลงข้อมูลกระแสข้อมูลเป็นชุดของเงื่อนไข
เนื้อหาต่อมาแยกวิเคราะห์กระบวนการ หลังจากแยก,
โมก่อนกระบวนการทำกรองเนื้อหา การวิเคราะห์
และกรองเงื่อนไขทางความเกี่ยวข้องในการจัดทำดัชนี
ประมวล ผล ตัดคำหยุด และประเทศ เราถึง
หยุดคำเป็นเงื่อนไข - เช่นบทความ บุรพบท,
สันธาน หมายเลข - พิจารณาข้อมูลต่าง ๆ เสียง
ในการประมวลผลเนื้อหา มีปรากฏการณ์อื่นในข้อความ
วิเคราะห์ที่สามารถใช้พื้นที่หน่วยความจำและคำนวณ
ทรัพยากร ในข้อความทั่วไป สามารถมีคำเช่น
"แจ้ง" ในรูปแบบทั้งหมด (บอก บอก); มีแนวโน้มที่ระบบ
ถือรูปเหล่านั้นเป็นคำที่ต่างกันด้วยเหมือนกัน
คำราก แม้ว่าความหมายความหมายจะเหมือนกัน กระบวนงาน stemming ใช้อัลกอริทึมเป็นการเอาคำนำหน้า
หรือต่อท้ายคำเพื่อให้ระบบสามารถแปลได้เป็น
รากเดียวกัน

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

5.1 . โมดูล Pre - การประมวลผล
ก่อน - การประมวลผลมีขั้นตอนที่สำคัญในเอกสาร
ซึ่งจะช่วยการบริหารจัดการผ่านทางซึ่งข้อมูลและข้อมูลที่จัดเก็บใน
เอกสารในรูปแบบเฉพาะสามารถ ภัย สยองจากการวิเคราะห์เนื้อหา
และ tokenizing โดยทั่วไปแล้วองค์กร
ซึ่งจะช่วยสร้างและใช้เงินที่ดีเยี่ยมของเอกสารที่สามารถจัดเก็บไว้ใน
ชนิดแตกต่างกันในรูปแบบเช่นไฟล์ข้อความ(. txt )ไฟล์เอกสาร
(. doc ,. pdf )หน้าเว็บ(. xml ,. html )เป็นรูปที่ 8 แสดง[ 26 ]..
การวิเคราะห์ของเนื้อหารูปแบบจากผู้ผลิตหลายราย
ซึ่งจะช่วยขจัดเงื่อนไขไม่มีความหมายและการบำรุงรักษาของข้อมูล
เอกสารเป็นประโยชน์ในการดึงข้อมูลและการกู้คืนจะขึ้นอยู่กับ
dms. ได้ DMS :ที่เสนอที่จะทำงานในขั้นตอนที่แตกต่างออกไปในการสั่งซื้อ
ซึ่งจะช่วยในการเตรียมการและจัดการเอกสาร เมื่อ' sorganization ใส่
สมาชิกเอกสารจะได้เรียกเก็บใน
กิโลเมตรที่หน้าเว็บ(. xml ,. html )เป็นรูปที่ 8 แสดง[ 26 ]..
การวิเคราะห์ของเนื้อหารูปแบบจากผู้ผลิตหลายราย
ซึ่งจะช่วยขจัดเงื่อนไขไม่มีความหมายและการบำรุงรักษาของข้อมูล
เอกสารเป็นประโยชน์ในการดึงข้อมูลและการกู้คืนจะขึ้นอยู่กับ
dms. ได้ DMS :ที่เสนอที่จะทำงานในขั้นตอนที่แตกต่างออกไปในการสั่งซื้อ
ซึ่งจะช่วยในการเตรียมการและจัดการเอกสาร เมื่อ' sorganization ใส่
สมาชิกเอกสารจะได้เรียกเก็บใน
กิโลเมตรที่และสามารถแปลงข้อมูลสตรีมที่เข้าไปตั้งค่าที่ของข้อกำหนด
ซึ่งจะช่วยวิเคราะห์เนื้อหาสำหรับขั้นตอนถัดไป หลังจากวิเคราะห์
โมดูลก่อนการจะทำการกรองเนื้อหาในการวิเคราะห์
และแผ่นกรองออกข้อกำหนดไม่เกี่ยวข้องในทางความหมายในการทำดัชนี
ขั้นตอนการตัดแต่งการถอนการหยุดและถ้อยคำที่เกิด เราดูคำ
หยุดเป็นเงื่อนไขเช่นการกำหนดตำแหน่งล่วงหน้ามากข้อ
conjunctionsวิเคราะห์แบบสองขั้นตอนแล้วเกิดขึ้น tokenization elicitation เนื้อหาและ
เนื้อหา. elicitation เนื้อหาในการถอนเงินเนื้อหาหนังสือ
จากชนิดต่างๆของไฟล์จะช่วยขจัดปัญหาเรื่องจริง
ข้อมูลเช่นรูปแบบ ภายหลัง และสามารถแปลงเนื้อหา
ในสตรีมข้อมูลตัวอักษร tokenization เนื้อหาการหยุดพักเนื้อหา
ซึ่งจะช่วยให้เข้าไปในถ้อยคำและประโยคตามการวิเคราะห์ closure
ตามมาตรฐานหมายเลข - ข้อมูลเสียงมีความหมายได้รับการพิจารณาให้
ซึ่งจะช่วยในการประมวลผลข้อมูล มีปรากฏการณ์หนึ่งในข้อความ
ซึ่งจะช่วยวิเคราะห์ว่าจะทำให้สิ้นเปลืองเนื้อที่หน่วยความจำและการคำนวณ
ทรัพยากรในข้อความทั่วไปที่จะมีคำเช่น
"บอก"ในความแตกต่างของทั้งหมด(บอกบอก)ระบบที่มีแนวโน้มว่า
ซึ่งจะช่วยในเรื่องความแตกต่างของคำที่แตกต่างกันไปพร้อมด้วยราก
คำเดิมที่แม้ความหมายเกี่ยวกับความหมายของคำนี้คือแบบเดียวกัน

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.