Tokenization is the process of brea

Tokenization is the process of breaking a stream of text up
into phrases, words, symbols, or other meaningful elements
called tokens. The goal of the tokenization is the exploration
of the words in a sentence. Textual data is only a textual
interpretation or block of characters at the beginning. In
information retrieval require the words of the data set. So we
require a parser which processes the tokenization of the
documents. This may be trivial as the text is already stored in
machine-readable formats. But Still there are some problems
that has been left, for e.g., the removal of punctuation marks
as well as other characters like brackets, hyphens, etc. The
main use of tokenization is identification of meaningful
keywords. Another problem are abbreviations and acronyms
which need to be transformed into a standard form.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

Tokenization เป็นกระบวนการทำลายกระแสข้อมูลของข้อความขึ้นเป็นวลี คำ สัญลักษณ์ หรือองค์ประกอบอื่น ๆ มีความหมายเรียกว่าสัญญาณ เป้าหมายของการ tokenization คือ การสำรวจของคำในประโยค ข้อมูลเป็นข้อความได้เท่านั้นที่จะตีความหรือบล็อกของอักขระที่ ในเรียกข้อมูลต้องใช้คำของชุดข้อมูล ดังนั้นเราต้องการตัวแบ่งซึ่งกระบวนการ tokenization ของการเอกสาร นี้อาจเป็นเล็กน้อยแล้วมีเก็บข้อความในรูปแบบ machine-readable แต่ยัง มีปัญหาที่ทิ้งไว้ สำหรับ เช่นเอาของวรรคเช่นเดียว กับอื่น ๆ เช่นวงเล็บ ยัติภังค์ ฯลฯ ที่ใช้หลักของ tokenization คือ รหัสของความหมายคำสำคัญ ปัญหาอื่นมีคำย่อและตัวย่อซึ่งต้องการจะเปลี่ยนเป็นแบบมาตรฐาน

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

tokenization
เป็นกระบวนการของการทำลายกระแสของข้อความขึ้นเป็นวลีคำสัญลักษณ์หรือองค์ประกอบอื่นๆ
ที่มีความหมายที่เรียกว่าสัญญาณ เป้าหมายของ tokenization
คือการสำรวจของคำในประโยค
ข้อมูลต้นฉบับเดิมเป็นเพียงเกี่ยวกับใจตีความหรือการบล็อกของตัวละครที่จุดเริ่มต้น
ในการดึงข้อมูลต้องใช้คำพูดของชุดข้อมูล ดังนั้นเราจึงจำเป็นต้องมีการแยกวิเคราะห์ซึ่งกระบวนการ tokenization ของที่เป็นเอกสาร นี้อาจจะเป็นที่น่ารำคาญเป็นข้อความจะถูกจัดเก็บอยู่ในรูปแบบที่เครื่องสามารถอ่านได้ แต่ยังคงมีปัญหาบางอย่างที่ได้รับการปล่อยสำหรับเช่นการกำจัดของเครื่องหมายวรรคตอนเช่นเดียวกับตัวละครอื่นๆ เช่นวงเล็บยัติภังค์ ฯลฯใช้หลักของ tokenization คือบัตรประจำตัวที่มีความหมายของคำหลัก ปัญหาอีกประการหนึ่งที่มีตัวยที่จะต้องกลายเป็นรูปแบบมาตรฐาน

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

tokenization เป็นกระบวนการของการแบ่งกระแสข้อความ
เป็นวลีคำพูด สัญลักษณ์ หรือองค์ประกอบอื่น ๆที่มีความหมาย
เรียกว่าสัญญาณ เป้าหมายของ tokenization คือการสำรวจ
ของคำในประโยค ข้อมูลต้นฉบับเดิมเป็นเพียงการตีความตัวบท
หรือบล็อกของอักขระที่จุดเริ่มต้น ในการสืบค้นข้อมูลที่ต้องการ
ถ้อยคำของชุดข้อมูล ดังนั้นเรา
ใช้ parser ซึ่งกระบวนการ tokenization ของ
เอกสาร นี้อาจจะไร้สาระเป็นข้อความแล้วจัดเก็บในรูปแบบรหัส
. แต่ยังคงมีปัญหาบางอย่าง
ที่ถูกซ้ายสำหรับเช่นการกำจัดเครื่องหมายวรรคตอน
รวมทั้งยัติภังค์ตัวอักษรอื่น ๆเช่นวงเล็บ ฯลฯ ใช้หลักของ tokenization
จําคําที่มีความหมาย

อีกปัญหาคือคำย่อ
ซึ่งต้องเปลี่ยนเป็นแบบฟอร์มมาตรฐาน

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.