There are many historical manuscrip

There are many historical manuscripts written in a single hand which it would be useful to index.
Examples include the early Presidential papers at the Library of Congress and the collected
works of W. B. DuBois at the library of the University of Massachusetts.
The standard technique for indexing documents is to scan them in, convert them to machine readable form (ASCII) using Optical Character Recognition (OCR) and then index them using a text retrieval engine.
However, OCR does not work well on handwriting.
Here, an alternative scheme is proposed for indexing such texts. Each page of the document is segmented into words. The images of the words are then matched against each other to create equivalence classes (each equivalence classes contains multiple instances of the same word). The user then provides ASCII equivalents for say the top 2000 equivalence classes.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

มีหลายต้นฉบับประวัติศาสตร์เขียนไว้ในมือเดียวซึ่งจะเป็นประโยชน์ในการดัชนี ตัวอย่างเช่นเอกสารประธานาธิบดีก่อนที่ห้องสมุดรัฐสภาและการรวบรวมผลงานของ DuBois B. W. ที่ห้องสมุดของมหาวิทยาลัยแมสซาชูเซตส์ เทคนิคมาตรฐานสำหรับการทำดัชนีเอกสารที่จะสแกนใน แปลงเครื่องอ่านฟอร์ม (ASCII) โดยใช้การรู้จำอักขระด้วยแสง (OCR) แล้ว จัดทำดัชนีโดยใช้เครื่องมือเรียกข้อความอย่างไรก็ตาม OCR ทำงานได้ดีบนลายมือ ที่นี่ แบบแผนทางเลือกการนำเสนอสำหรับการทำดัชนีข้อความดังกล่าว แต่ละหน้าของเอกสารจะแบ่งคำ รูปภาพของคำนั้นตรงกับแต่ละอื่น ๆ จะสร้างคลาสที่สมมูล (แต่ละชั้นเทียบเท่าประกอบด้วยอินสแตนซ์จำนวนมากของคำเดียวกัน) ผู้ใช้บริการแล้วบอกเทียบเท่า ASCII สำหรับคลาสที่สมมูล 2000 ด้านบน

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

มีต้นฉบับประวัติศาสตร์มากมายที่เขียนด้วยมือเพียงข้างเดียวที่มันจะเป็นประโยชน์กับดัชนีมี.
ตัวอย่างเช่นเอกสารประธานาธิบดีในช่วงต้นที่ห้องสมุดของรัฐสภาและเก็บรวบรวม
ผลงานของ WB บัวที่ห้องสมุดของมหาวิทยาลัยแมสซาชูเซต.
เทคนิคมาตรฐานสำหรับการทำดัชนี เอกสารคือการสแกนไว้ในแปลงให้เป็นรูปแบบที่อ่านเครื่อง (ASCII) โดยใช้ Optical Character ยอมรับ (OCR) และจากนั้นดัชนีพวกเขาโดยใช้เครื่องมือดึงข้อความ.
อย่างไรก็ตาม OCR ไม่สามารถทำงานได้ดีในการเขียนด้วยลายมือ.
ที่นี่โครงการทางเลือกที่มีการเสนอ สำหรับการทำดัชนีตำราดังกล่าว หน้าของเอกสารแต่ละครั้งจะถูกแบ่งออกเป็นคำพูด ภาพของคำที่มีการจับคู่แล้วกับแต่ละอื่น ๆ เพื่อสร้างสมดุลเรียน (แต่ละชั้นสมมูลมีหลายกรณีของคำเดียวกัน) จากนั้นผู้ใช้ให้เทียบเท่า ASCII สำหรับพูดบนสุด 2000 ชั้นสมมูล

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

มีประวัติศาสตร์มากมายที่เขียนต้นฉบับในมือเดียวซึ่งจะเป็นประโยชน์กับดัชนีตัวอย่างรวมถึงช่วงต้นประธานาธิบดีเอกสารที่ห้องสมุดของรัฐสภา และรวบรวมผลงานของ W . B . ดูที่ห้องสมุดของมหาวิทยาลัยแมสซาชูเซตเทคนิคมาตรฐานสำหรับการสแกนในเอกสารเพื่อแปลงเครื่องอ่าน ( ASCII ) โดยใช้รูปแบบการรู้จำอักขระด้วยแสง ( OCR ) และดัชนีจากนั้นพวกเขาโดยใช้การค้นคืนข้อความเครื่องยนต์อย่างไรก็ตาม , OCR ไม่ทำงานได้ดีบนลายมือนี่เป็นรูปแบบทางเลือกการเสนอข้อความดังกล่าว แต่ละหน้าของเอกสารจะแบ่งออกเป็นคำพูด รูปภาพของคำจะจับคู่กับแต่ละอื่น ๆเพื่อสร้างคลาสที่สมมูลกัน ( Equivalence ชั้นเรียนประกอบด้วยหลายอินสแตนซ์ของคำ ) ผู้ใช้แล้วแสดง ASCII เทียบเท่าสำหรับพูดด้านบน 2000 ค่าเรียน

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.