ClassificationClassification procee

Classification
Classification proceeds as a two-step process. In the
first step, a class pruner creates a shortlist of character
classes that the unknown might match. Each feature
fetches, from a coarsely quantized 3-dimensional lookup
table, a bit-vector of classes that it might match, and
the bit-vectors are summed over all the features. The
classes with the highest counts (after correcting for
expected number of features) become the short-list for
the next step.
Each feature of the unknown looks up a bit vector of
prototypes of the given class that it might match, and
then the actual similarity between them is computed.
Each prototype character class is represented by a
logical sum-of-product expression with each term
called a configuration, so the distance calculation
process keeps a record of the total similarity evidence
of each feature in each configuration, as well as of each
prototype. The best combined distance, which is
calculated from the summed feature and prototype
evidences, is the best over all the stored configurations
of the class.
5.3. Training Data
Since the classifier is able to recognize damaged
characters easily, the classifier was not trained on
damaged characters. In fact, the classifier was trained
on a mere 20 samples of 94 characters from 8 fonts in a
single size, but with 4 attributes (normal, bold, italic,
bold italic), making a total of 60160 training samples.
This is a significant contrast to other published
classifiers, such as the Calera classifier with more than
a million samples [9], and Baird’s 100-font classifier
[10] with 1175000 training samples.
6. Linguistic Analysis
Tesseract contains relatively little linguistic
analysis. Whenever the word recognition module is
considering a new segmentation, the linguistic module
(mis-named the permuter) chooses the best available
word string in each of the following categories: Top
frequent word, Top dictionary word, Top numeric
word, Top UPPER case word, Top lower case word
(with optional initial upper), Top classifier choice
word. The final decision for a given segmentation is
simply the word with the lowest total distance rating,
where each of the above categories is multiplied by a
different constant.
Words from different segmentations may have
different numbers of characters in them. It is hard to
compare these words directly, even where a classifier
claims to be producing probabilities, which Tesseract
does not. This problem is solved in Tesseract by
generating two numbers for each character
classification. The first, called the confidence, is minus
the normalized distance from the prototype. This
enables it to be a “confidence” in the sense that greater
numbers are better, but still a distance, as, the farther
from zero, the greater the distance. The second output,
called the rating, multiplies the normalized distance
from the prototype by the total outline length in the
unknown character. Ratings for characters within a
word can be summed meaningfully, since the total
outline length for all characters within a word is always
the same.
7. Adaptive Classifier
It has been suggested [11] and demonstrated [12]
that OCR engines can benefit from the use of an
adaptive classifier. Since the static classifier has to be
good at generalizing to any kind of font, its ability to
discriminate between different characters or between
characters and non-characters is weakened. A more
font-sensitive adaptive classifier that is trained by the
output of the static classifier is therefore commonly
[13] used to obtain greater discrimination within each
document, where the number of fonts is limited.
Tesseract does not employ a template classifier, but
uses the same features and classifier as the static
classifier. The only significant difference between the
static classifier and the adaptive classifier, apart from
the training data, is that the adaptive classifier uses
isotropic baseline/x-height normalization, whereas the
static classifier normalizes characters by the centroid
(first moments) for position and second moments for
anisotropic size normalization.
The baseline/x-height normalization makes it easier
to distinguish upper and lower case characters as well
as improving immunity to noise specks. The main
benefit of character moment normalization is removal
of font aspect ratio and some degree of font stroke
width. It also makes recognition of sub and superscripts
simpler, but requires an additional classifier feature to
distinguish some upper and lower case characters. Fig.
7 shows an example of 3 letters in baseline/x-height
normalized form and moment normalized form.
0-7695-2822-8/07 $25.00 © 2007 IEEE 633
Fig. 7. Baseline and moment normalized
letters.
8. Results
Tesseract was included in the 4th UNLV annual test
[1] of OCR accuracy, as “HP Labs OCR,” but the code
has changed a lot since then, including conversion to
Unicode and retraining. Table 1 compares results from
a recent version of Tesseract (shown as 2.0) with the
original 1995 results (shown as HP). All four 300 DPI
binary test sets that were used in the 1995 test are
shown, along with the number of errors (Errs), the
percent error rate (%Err) and the percent change
relative to the 1995 results (%Chg) for both character
errors and non-stopword errors. [1] More up-to-date
results are at http://code.google.com/p/tesseract-ocr.
Table 1. Results of Current and old Tesseract.
Character Word
Ver Set Errs %Err %Chg Errs %Err %Chg
HP bus 5959 1.86 1293 4.27
2.0 bus 6449 2.02 8.22 1295 4.28 0.15
HP doe 36349 2.48 7042 5.13
2.0 doe 29921 2.04 -17.68 6791 4.95 -3.56
HP mag 15043 2.26 3379 5.01
2.0 mag 14814 2.22 -1.52 3133 4.64 -7.28
HP news 6432 1.31 1502 3.06
2.0 news 7935 1.61 23.36 1284 2.62 -14.51
2.0 total 59119 -7.31 12503 -5.39
9. Conclusion and Further Work
After lying dormant for more than 10 years,
Tesseract is now behind the leading commercial
engines in terms of its accuracy. Its key strength is
probably its unusual choice of features. Its key
weakness is probably its use of a polygonal
approximation as input to the classifier instead of the
raw outlines.
With internationalization done, accuracy could
probably be improved significantly with the judicious
addition of a Hidden-Markov-Model-based character ngram
model, and possibly an improved chopper.
10. Acknowledgements
The author would like to thank John Burns and Tom
Nartker for their efforts in making Tesseract open
source, the ISRI group at UNLV for sharing their tools
and data, as well as Luc Vincent, Igor Krivokon, DarShyang
Lee, and Thomas Kielbus for their comments
on the content of this paper.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

การจัดประเภทดำเนินการจัดประเภทเป็นสองขั้นตอน ในขั้นแรก pruner คลาสสร้าง shortlist ของอักขระห้องเรียนที่ไม่รู้จักอาจตรงกับ แต่ละคุณลักษณะดสูง จากการค้นหา 3 มิติหยาบ quantizedตาราง บิตเวกเตอร์ของชั้นซึ่งอาจตรง และบิตเวกเตอร์จะถูกบวกรวมกันกว่าคุณลักษณะทั้งหมด ที่เรียนจำนวนสูงสุด (หลังจากแก้ไขสำหรับคาดว่าจำนวนคุณลักษณะ) เป็น short-list สำหรับขั้นตอนต่อไปแต่ละคุณลักษณะไม่รู้จักค้นหาบิตเวกเตอร์ของต้นแบบของคลาสที่กำหนดที่อาจตรง และจากนั้น จะคำนวณความคล้ายกันจริงระหว่างพวกเขาเรียนอักขระแต่ละต้นแบบจะถูกแสดงโดยการผลรวมของผลิตภัณฑ์นิพจน์ตรรกะกับแต่ละคำเรียกว่าการตั้งค่าคอนฟิก ดังนั้นการคำนวณระยะทางกระบวนการเก็บข้อมูลหลักฐานทั้งหมดคล้ายคลึงของแต่ละคุณลักษณะ ในแต่ละโครงแบบ และแต่ละต้นแบบ ดีสุดรวมระยะทาง ซึ่งเป็นคำนวณจากการรวมคุณลักษณะและต้นแบบหลักฐาน อยู่ส่วนกำหนดค่าที่เก็บไว้ทั้งหมดชั้น5.3 การข้อมูลฝึกอบรมเนื่องจาก classifier ที่ได้ รับความเสียหายตัวได้ง่าย ไม่ได้เข้าอบรม classifier ที่การอักขระที่เสียหาย ในความเป็นจริง ได้เข้าอบรมที่ classifierในตัวอย่างเพียง 20 94 ตัวอักษรจากอักษร 8 ในการเดี่ยวขนาด แต่ มี 4 คุณลักษณะ (ปกติ ตัวหนา ตัว เอียงตัวเอียงตัวหนา), จำนวน 60160 ฝึกทำตัวอย่างนี่คือความแตกต่างอย่างมีนัยสำคัญเพื่อเผยแพร่อื่น ๆคำนามภาษา เช่น classifier Calera มีมากกว่าล้านตัวอย่าง [9], และของ Baird classifier 100-อักษร[10] ด้วยตัวอย่างฝึกที่ 11750006. วิเคราะห์ภาษาศาสตร์Tesseract ประกอบด้วยค่อนข้างน้อยภาษาศาสตร์วิเคราะห์ เมื่อใดก็ตามจะโมรู้คำพิจารณาแบ่งใหม่ โมภาษาศาสตร์(ผิดชื่อใน permuter) เลือกส่วนว่างคำสายในแต่ละประเภทต่อไปนี้: ด้านบนบ่อยคำ คำพจนานุกรมด้านบน ด้านบนเป็นตัวเลขคำ คำกรณีด้านบน ด้านล่างกรณีคำ(มีตัวเลือกเริ่มต้นบน), ด้านบนเลือก classifierคำ การตัดสินใจขั้นสุดท้ายสำหรับเซกเมนต์ที่กำหนดให้มีเพียงแค่คำ มีคะแนนต่ำสุดของระยะทางรวมซึ่งแต่ละประเภทข้างต้นด้วยการค่าคงต่าง ๆอาจมีคำอื่น segmentationsจำนวนอักขระในแตกต่างกัน จึงยากที่จะเปรียบเทียบคำเหล่านี้โดยตรง แม้เป็น classifierอ้างว่า สามารถผลิตกิจกรรม Tesseract ใดไม่ได้ ปัญหานี้จะแก้ไขใน Tesseract โดยสร้างหมายเลขสองสำหรับอักขระแต่ละตัวจัดประเภทการ ครั้งแรก เรียกความมั่นใจ เป็นลบระยะทางมาตรฐานจากต้นแบบ นี้ช่วยให้ "มั่นใจ" ในความรู้สึกที่มากขึ้นหมายเลขจะดี แต่ยังคงระยะ ไกล เป็น ไกลจากศูนย์ ระยะทางที่มากขึ้น ผลผลิตที่สองเรียกว่าจัดอันดับ คูณระยะมาตรฐานจากต้นแบบโดยเค้ารวมความยาวในการอักขระที่ไม่รู้จัก จัดอันดับสำหรับอักขระในการสามารถบวกคำมา ตั้งแต่ยอดรวมความยาวของเค้าร่างสำหรับอักขระทั้งหมดในคำอยู่เสมอเหมือนเดิม7. ปรับ Classifierมีการแนะนำ [11] และสาธิต [12]ว่า เครื่อง OCR สามารถได้รับประโยชน์จากการใช้การclassifier แบบอะแดปทีฟ ตั้งแต่ classifier คงยังต้องดีที่ generalizing อักษร ความสามารถในการฟังเหยียด ระหว่างอักขระที่แตกต่างกัน หรือระหว่างอักขระและอักขระไม่ใช่จะลดลง มากขึ้นclassifier แบบอะแดปทีฟอักษรลับที่ฝึกโดยการผลผลิตของ classifier คงเป็นดังนั้นโดยทั่วไป[13] ใช้สำหรับการขอแบ่งแยกมากขึ้นในแต่ละเอกสาร ที่จำกัดจำนวนของแบบอักษรTesseract จ้าง classifier เป็นต้น แต่ใช้คุณลักษณะและ classifier เดียวเป็นแบบคงclassifier แตกต่างกันอย่างมีนัยสำคัญเท่านั้นclassifier คงและ classifier แบบอะแดปทีฟ แยกจากข้อมูลการฝึกอบรม เป็นที่ใช้ classifier แบบอะแดปทีฟisotropic พื้นฐาน/x-height ฟื้นฟู ขณะคง classifier normalizes อักขระ โดยเซนทรอยด์(ช่วงแรก) สำหรับช่วงเวลาตำแหน่งและที่สองสำหรับขนาด anisotropic ฟื้นฟูการ พื้นฐาน/x-height ฟื้นฟูทำให้ง่ายขึ้นการแยกบนและตัวอักษรพิมพ์เล็กเช่นเป็นการปรับปรุงภูมิคุ้มกันให้เสียงเรียร์ หลักประโยชน์ของอักขระช่วงฟื้นฟูคือ เอาอัตราส่วนกว้างยาวแบบอักษรและบางส่วนของเส้นอักษรความกว้าง มันยังทำให้การย่อยและตัวยกเรียบง่าย แต่ต้องการคุณลักษณะเพิ่มเติม classifier เพื่อแยกบนบางและตัวเล็ก ฟิก7 แสดงตัวอย่างของตัวอักษร 3 ใน พื้นฐาน/x-heightแบบฟอร์มมาตรฐานและแบบฟอร์มขณะที่ตามปกติ0-7695-2822-8/07 $25.00 © 2007 IEEE 633Fig. 7 พื้นฐานและเวลาตามปกติตัวอักษร8. ผลลัพธ์Tesseract รวมอยู่ในการทดสอบประจำปี UNLV 4[1] ความถูกต้อง OCR เป็น "HP Labs OCR" แต่รหัสมีการเปลี่ยนแปลงมากตั้งแต่ นั้นมา รวม ทั้งแปลงUnicode และ retraining ตารางที่ 1 เปรียบเทียบผลลัพธ์จากรุ่นล่าสุดของ Tesseract (แสดงเป็น 2.0) กับการผล 1995 เดิม (แสดงเป็น HP) ทั้ง 300 DPIชุดทดสอบแบบไบนารีที่ถูกใช้ในการทดสอบ 1995แสดง พร้อมกับหมายเลขข้อผิดพลาด (Errs), การอัตราข้อผิดพลาดเป็นเปอร์เซ็นต์ (% Err) และเปอร์เซ็นต์การเปลี่ยนแปลงสัมพันธ์กับผลลัพธ์ 1995 (% Chg) สำหรับอักขระทั้งสองข้อผิดพลาดและข้อผิดพลาดไม่ใช่ stopword [1] ล่าสุดเพิ่มเติมผล http://code.google.com/p/tesseract-ocrตารางที่ 1 ผลของ Tesseract เก่า และปัจจุบันอักขระคำชุด Ver Errs %ผิดพลาด% Chg Errs %% Chg ผิดพลาดHP รถ 5959 1.86 1293 4.272.0 รถ 6449 2.02 8.22 1295 4.28 0.15ป้องกัน HP 36349 2.48 7042 5.13ป้องกัน 2.0 29921 2.04-17.68 6791 4.95-3.56HP มัก 15043 2.26 3379 5.01มัก 2.0 14814 2.22-1.52 3133 4.64-7.28ข่าว HP 6432 1.31 1502 3.06ข่าว 2.0 7935 1.61 23.36 1284 2.62-14.512.0 รวม 59119-7.31 12503-5.399. สรุปผลและการหลังจากนอนเฉย ๆ มากกว่า 10 ปีTesseract ตอนนี้อยู่เบื้องหลังการค้าชั้นนำเครื่องยนต์ในแง่ของความถูกต้องของ มีความแข็งแรงที่สำคัญคงความผิดปกติทางคุณลักษณะ คีย์ของจุดอ่อนจะใช้เป็นแบบ polygonalประมาณเป็นเข้า classifier แทนเค้าดิบกับนานาทำ ความถูกต้องได้คงจะดีขึ้นมาก ด้วย judiciousแห่ง ngram ซ่อน Markov-รุ่นใช้อักขระรุ่น และอาจสับที่ดีขึ้น10. ถาม-ตอบผู้เขียนอยากขอขอบคุณจอห์นเบิร์นและทอมNartker สำหรับความเพียรพยายามในการทำ Tesseract ที่เปิดแหล่งที่มา กลุ่ม ISRI ที่ UNLV ร่วมมือของพวกเขาและข้อมูล เป็นลุควินเซนต์ ฟแวร์ Igor Krivokon, DarShyangลี และโทมัส Kielbus สำหรับข้อคิดเห็นของพวกเขาเนื้อหาของเอกสารนี้

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

การจำแนกประเภท
เงินการจัดหมวดหมู่เป็นกระบวนการสองขั้นตอน ใน
ขั้นตอนแรก pruner ชั้นสร้างตัวเลือกของตัวละคร
ชั้นเรียนที่ไม่รู้จักอาจจะตรงกับ คุณลักษณะแต่ละ
เรียกจากการค้นหาแบบ 3 มิติไทหยาบ
ตารางบิตเวกเตอร์ของการเรียนว่ามันอาจจะตรงและ
บิตเวกเตอร์จะมีการสรุปในช่วงคุณลักษณะทั้งหมด
ชั้นเรียนที่มีจำนวนมากที่สุด (หลังจากการแก้ไขสำหรับ
จำนวนที่คาดหวังของคุณสมบัติ) เป็นรายการสั้นสำหรับ
ขั้นตอนต่อไป.
คุณสมบัติของแต่ละคนที่ไม่รู้จักเงยหน้าขึ้นเวกเตอร์บิตของ
ต้นแบบของการเรียนที่ได้รับว่ามันอาจจะตรงและ
เกิดขึ้นจริงแล้ว ความคล้ายคลึงกันระหว่างพวกเขาคือการคำนวณ.
ชั้นตัวต้นแบบแต่ละครั้งจะถูกแสดงโดย
การแสดงออก sum-of-สินค้าตรรกะกับแต่ละคำ
ที่เรียกว่าการกำหนดค่าเพื่อคำนวณระยะทาง
ขั้นตอนการเก็บบันทึกหลักฐานที่คล้ายคลึงกันรวม
ของแต่ละคุณลักษณะในการกำหนดค่าแต่ละเช่นกัน เป็นของแต่ละ
ต้นแบบ ที่ดีที่สุดของระยะทางรวมกันซึ่งมีการ
คำนวณจากคุณลักษณะสรุปต้นแบบและ
หลักฐานที่ดีที่สุดกว่าทุกการกำหนดค่าที่เก็บไว้
ในชั้นเรียน.
5.3 ข้อมูลการฝึกอบรม
ตั้งแต่ลักษณนามจะสามารถรับรู้ได้รับความเสียหาย
ตัวอักษรได้อย่างง่ายดายลักษณนามที่ไม่ได้รับการฝึกอบรมเกี่ยวกับ
ตัวละครที่ได้รับความเสียหาย ในความเป็นจริงจําแนกได้รับการฝึกฝน
ในเพียง 20 ตัวอย่างจาก 94 ตัวอักษรจาก 8 ตัวอักษรใน
ขนาดเดียว แต่มี 4 คุณลักษณะ (ปกติ, ตัวหนาตัวเอียง
ตัวหนาตัวเอียง) ทำให้รวมเป็น 60,160 ตัวอย่างการฝึกอบรม.
นี้เป็นสำคัญ ความคมชัดในการตีพิมพ์อื่น ๆ
ลักษณนามเช่นลักษณนาม Calera มีมากกว่า
ล้านตัวอย่าง [9] และบาร์ดลักษณนาม 100 ตัวอักษร
[10] กับ 1175000 ตัวอย่างการฝึกอบรม.
6 การวิเคราะห์ทางด้านภาษาศาสตร์
ภาษา Tesseract มีค่อนข้างน้อย
การวิเคราะห์ เมื่อใดก็ตามที่โมดูลการรับรู้คำที่
พิจารณาการแบ่งส่วนใหม่โมดูลภาษา
(ชื่อผิดพลาด permuter) เลือกที่ดีที่สุด
สตริงคำในแต่ละประเภทต่อไปนี้: ยอด
คำบ่อยคำพจนานุกรมบนยอดตัวเลข
คำคำกรณียอดตอนปลาย ยอดคำกรณีที่ต่ำกว่า
(มีตัวครั้งแรกบน) ลักษณนามยอดทางเลือกที่
คำว่า การตัดสินใจขั้นสุดท้ายสำหรับการแบ่งส่วนที่ได้รับเป็น
เพียงคำที่มีคะแนนต่ำสุดระยะทางรวม
ที่แต่ละประเภทดังกล่าวข้างต้นจะถูกคูณด้วย
ค่าคงที่ที่แตกต่างกัน.
คำพูดจาก segmentations ที่แตกต่างกันอาจจะมี
ตัวเลขที่แตกต่างกันของตัวละครในพวกเขา มันยากที่จะ
เปรียบเทียบคำพูดเหล่านี้ได้โดยตรงแม้ที่ลักษณนาม
อ้างว่าจะผลิตความน่าจะเป็นที่ Tesseract
ไม่ ปัญหานี้จะแก้ไขได้ใน Tesseract โดย
การสร้างตัวเลขสองตัวละครแต่ละตัวสำหรับ
การจัดหมวดหมู่ ครั้งแรกที่เรียกว่าความเชื่อมั่นที่เป็นลบ
ในระยะทางที่ปกติจากต้นแบบ นี้
ช่วยให้มันเป็น "ความเชื่อมั่น" ในความรู้สึกที่ยิ่งใหญ่
หมายเลขจะดีกว่า แต่ยังคงระยะขณะที่ไกลออกไป
จากศูนย์มากขึ้นระยะทาง เอาท์พุทที่สอง
เรียกว่าคะแนนที่คูณระยะทางปกติ
จากต้นแบบโดยความยาวร่างรวมใน
ตัวละครที่ไม่รู้จัก การให้คะแนนสำหรับตัวละครที่อยู่ใน
คำว่าสามารถสรุปความหมายตั้งแต่รวม
ระยะเวลาในร่างตัวละครทั้งหมดที่อยู่ภายในคำอยู่เสมอ
เดียวกัน.
7 การปรับตัวลักษณนาม
มันได้รับการแนะนำ [11] และแสดงให้เห็น [12]
ว่าเครื่องมือ OCR สามารถได้รับประโยชน์จากการใช้
ลักษณนามการปรับตัว ตั้งแต่ลักษณนามแบบคงที่จะต้องมี
สิ่งที่ดีที่ generalizing ชนิดของตัวอักษรใด ๆ , ความสามารถในการ
แยกแยะระหว่างตัวละครที่แตกต่างกันหรือระหว่าง
ตัวอักษรและตัวอักษรที่ไม่อ่อนแอ เพิ่มเติม
ลักษณนามปรับตัวอักษรที่สำคัญที่ได้รับการฝึกฝนโดย
การส่งออกของลักษณนามแบบคงที่ดังนั้นจึงเป็นเรื่องปกติที่
[13] ใช้เพื่อให้ได้เลือกปฏิบัติมากขึ้นในแต่ละ
เอกสารซึ่งมีจำนวนของตัวอักษรที่มี จำกัด .
Tesseract ไม่จ้างลักษณนามแม่แบบ แต่
การใช้งาน คุณสมบัติเดียวกันและลักษณนามเป็นแบบคงที่
ลักษณนาม ความแตกต่างอย่างมีนัยสำคัญระหว่าง
ลักษณนามแบบคงที่และปรับตัวลักษณนามนอกเหนือจาก
ข้อมูลการฝึกอบรมคือการปรับตัวใช้ลักษณนาม
พื้นฐาน isotropic / ฟื้นฟู x ความสูงในขณะที่
ลักษณนามคง normalizes โดยตัวละครเซนทรอยด์
(ช่วงเวลาก่อน) สำหรับตำแหน่งและครั้งที่สอง ช่วงเวลาสำหรับ
การฟื้นฟูขนาด anisotropic.
พื้นฐาน / ฟื้นฟู x สูงทำให้มันง่าย
ที่จะแยกแยะตัวอักษรบนและล่างกรณีเช่นเดียว
กับการปรับปรุงภูมิต้านทานจุดเสียง หลัก
ประโยชน์ของการฟื้นฟูขณะที่ตัวละครคือการกำจัด
ของอัตราส่วนอักษรและระดับของโรคหลอดเลือดสมองบางตัวอักษร
ความกว้าง นอกจากนี้ยังทำให้การรับรู้ของย่อยและยก
ที่เรียบง่าย แต่ต้องใช้ลักษณนามคุณลักษณะเพิ่มเติมเพื่อ
แยกความแตกต่างบางส่วนบนและล่างตัวอักษรกรณี รูปที่.
7 แสดงตัวอย่างของ 3 ตัวอักษรในพื้นฐาน / x-สูง
รูปแบบปกติและแบบฟอร์มช่วงเวลาปกติ.
0-7695-2822-8 / 07 $ 25.00 © 2007 IEEE 633
รูป 7. พื้นฐานและช่วงเวลาปกติ
ตัวอักษร.
8 ผล
Tesseract ถูกรวมอยู่ใน 4 UNLV ทดสอบประจำปี
[1] ของความถูกต้อง OCR ขณะที่ "HP Labs OCR" แต่รหัส
มีการเปลี่ยนแปลงมากตั้งแต่นั้นมารวมทั้งการแปลง
Unicode และการฝึกอบรม ตารางที่ 1 เปรียบเทียบผลที่ได้จาก
รุ่นล่าสุดของ Tesseract (แสดงเป็น 2.0) มี
ผลการเดิม 1995 (แสดงเป็น HP) ทั้งสี่ 300 DPI
ชุดทดสอบไบนารีที่ถูกนำมาใช้ในการทดสอบ 1995 จะ
แสดงพร้อมกับจำนวนข้อผิดพลาด (errs)
อัตราความผิดพลาดร้อยละ (% ข้อผิดพลาด) และการเปลี่ยนแปลงร้อยละ
เมื่อเทียบกับผลที่ 1995 (% Chg) สำหรับทั้ง ตัวละครของ
ข้อผิดพลาดและข้อผิดพลาดที่ไม่ stopword [1] เพิ่มเติมขึ้นไปวัน
ที่มีผล http://code.google.com/p/tesseract-ocr.
ตารางที่ 1 ผลการปัจจุบันและเก่า Tesseract.
ตัวละครของ Word
Ver ชุด errs% ข้อผิดพลาด% Chg% errs ข้อผิดพลาด % Chg
HP รถบัส 5,959 1,293 1.86 4.27
2.0 รถบัส 6449 2.02 8.22 4.28 0.15 1,295
HP กวาง 36,349 2.48 7,042 5.13
2.0 กวาง 29,921 2.04 -17.68 6791 4.95 -3.56
HP แม็ 15,043 2.26 3,379 5.01
2.0 แม็ 14,814 2.22 4.64 -1.52 -7.28 3133
ข่าวเอชพี 6432 1502 1.31 3.06
2.0 ข่าว 7935 1.61 23.36 2.62 -14.51 1284
2.0 รวม 59,119 12,503 -7.31 -5.39
9 สรุปและการทำงานต่อไป
หลังจากที่แฝงตัวอยู่มานานกว่า 10 ปีที่ผ่านมา
Tesseract อยู่ในขณะนี้ที่อยู่เบื้องหลังการค้าชั้นนำ
เครื่องมือในแง่ของความถูกต้อง จุดเด่นของมันคือ
ทางเลือกที่อาจจะผิดปกติของคุณสมบัติ ที่สำคัญมัน
น่าจะเป็นความอ่อนแอของการใช้งานของเหลี่ยม
ประมาณเป็น input เพื่อจําแนกแทน
เค้าร่างดิบ.
สากลด้วยการทำถูกต้องอาจ
อาจจะดีขึ้นอย่างมีนัยสำคัญด้วยเหตุผล
นอกเหนือจากที่ซ่อน-มาร์คอฟนางแบบตาม ngram ตัวอักษร
รูปแบบและ อาจสับดีขึ้น.
10 กิตติกรรมประกาศ
ผู้เขียนอยากจะขอขอบคุณจอห์นเบิร์นส์และทอม
Nartker สำหรับความพยายามของพวกเขาในการทำ Tesseract เปิด
แหล่งที่มากลุ่ม ISRI ที่ UNLV สำหรับการแบ่งปันเครื่องมือของพวกเขา
และข้อมูลเช่นเดียวกับลุควินเซนต์อิกอร์ Krivokon, DarShyang
ลีและโทมัส Kielbus สำหรับพวกเขา ความคิดเห็น
เกี่ยวกับเนื้อหาของบทความนี้

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

การจำแนกหมวดหมู่
รายได้ในฐานะที่เป็นกระบวนการสองขั้นตอน ใน
ขั้นตอนแรก คลาสผู้ตัดไม้สร้าง shortlist ของตัวละคร
บทเรียนที่ไม่รู้จักอาจจะตรงกับ แต่ละคุณลักษณะ
จะเรียกจากหยาบที่แน่นอน 3 มิติค้นหา
โต๊ะ , บิตเวกเตอร์ของชั้นเรียนที่อาจตรงกับและ
บิตเวกเตอร์จะสรุปผ่านคุณสมบัติทั้งหมด
เรียนด้วยนับสูงสุด ( หลังจากที่การแก้ไขสำหรับ
คาดว่าจำนวนคุณสมบัติ ) กลายเป็นรายการสั้น

แต่ละขั้นตอนถัดไป คุณสมบัติของไม่รู้จักดูบิตเวกเตอร์
ต้นแบบของให้ชั้นว่ามันอาจจะตรงกับ และความเหมือนจริง
แล้วระหว่างพวกเขาจะคำนวณ .
แต่ละต้นแบบตัวละครคลาส แทนด้วยผลรวมของผลิตภัณฑ์กับนิพจน์ตรรกะ

แต่ละระยะเรียกว่าปรับแต่ง ดังนั้นระยะทางคำนวณ
กระบวนการเก็บบันทึกทั้งหมดของความเหมือนหลักฐาน
ของแต่ละคุณลักษณะในแต่ละการตั้งค่าเช่นเดียวกับแต่ละ
ต้นแบบ ระยะทางรวมที่ดีที่สุด ซึ่งคำนวณได้จากสรุปคุณลักษณะและ

หลักฐานต้นแบบ ดีที่สุดกว่าทุกแบบของชั้นจัดเก็บ
.
5.3 .
ข้อมูลการฝึกอบรมตั้งแต่ลักษณนามได้รู้จัก
ตัวละครเสียหายได้ง่าย ตัวไม่ได้ฝึก
damaged characters ในความเป็นจริง , แบบฝึก
ในเพียง 20 ตัวอย่างของ 94 ตัวละครจาก 8 แบบอักษรใน
ขนาดเดียว แต่มี 4 คุณลักษณะ ( ปกติ ตัวหนา ตัวเอียง ตัวหนา , ตัวเอียง ,
) ทำให้ทั้งหมดของ 60160 ตัวอย่างการฝึกอบรม
นี้ความคมชัดที่สําคัญอื่น ๆเผยแพร่
คำลักษณนามเช่น Calera ลักษณนามมากกว่า
ล้านคน [ 9 ] และ Baird 100 ตัวอักษรตัว
[ 10 ] กับ 1175000 ตัวอย่างการฝึกอบรม .
6 การวิเคราะห์การวิเคราะห์ทางภาษาศาสตร์ภาษาศาสตร์ประจำ

มีค่อนข้างน้อย เมื่อใดก็ตามที่การรู้คำศัพท์โมดูล
พิจารณาแบ่งส่วนใหม่
โมดูลภาษา ( MIS ชื่อ permuter ) เลือก
ใช้ได้ดีที่สุดข้อความคำพูดในแต่ละประเภทดังต่อไปนี้ : ด้านบน
บ่อยคำด้านบนพจนานุกรมคำด้านบนตัวเลข
คำด้านบนบนกรณีที่ต่ำกว่ากรณีคำด้านบนคำ
( ด้วยตัวเลือกเริ่มต้นบน ) , ตัวเลือกด้านบน
word การตัดสินใจขั้นสุดท้ายสำหรับการแบ่งส่วนคือ
เพียงแค่คำที่มีคะแนนรวมระยะทางต่ำสุด
ที่แต่ละประเภทข้างต้น คือ คูณด้วย

คงต่างกันคำพูดจาก segmentations แตกต่างกันอาจมีตัวเลขที่แตกต่างกันของตัวละคร
ในพวกเขา มันยากที่จะ
เปรียบเทียบคำเหล่านี้โดยตรงแม้ว่าลักษณนาม
อ้างว่าการผลิตความน่าจะเป็นซึ่งประจำ
ไม่ได้ ปัญหานี้จะแก้ไขได้ในเทสซาแร็ก โดยการสร้างตัวเลขสองสำหรับแต่ละตัวละคร

การจำแนก ครั้งแรก เรียกความเชื่อมั่น คือ ลบ
ค่าระยะห่างจากต้นแบบ นี้
ช่วยให้มันเป็น " ความมั่นใจ " ในความรู้สึกว่า ตัวเลขมากขึ้น
จะดีกว่า แต่ระยะทางที่ไกล
, จากศูนย์ , มากขึ้นระยะทาง ผลผลิต 2
เรียกคะแนนคูณค่าระยะทาง
จากต้นแบบโดยความยาวรวมร่างใน
ตัวละครที่ไม่รู้จัก การจัดอันดับอักขระภายใน
Word สามารถสรุปอย่างมีความหมาย ตั้งแต่รวม
ร่างความยาวอักขระทั้งหมดในคำเสมอ
เหมือนกัน .
7 ได้มีการเสนอแบบ
[ 11 ] และ [ 12 ]
ที่แสดงเครื่องมือ OCR สามารถได้รับประโยชน์จากการใช้ของ
- ลักษณนาม เนื่องจากไฟฟ้าสถิตกระบอกมี
เก่ง Generalizing ชนิดใดของตัวอักษร , ความสามารถใน
ความแตกต่างระหว่างตัวอักษรที่แตกต่างกันหรือระหว่าง
ตัวละครและตัวไม่จะบอด เพิ่มเติม
ตัวอักษรแบบที่อ่อนไหวแบบฝึกโดย
ของไฟฟ้าสถิตกระบอกจึงมัก
[ 13 ] เคยได้รับมากกว่าการแบ่งแยกในเอกสารแต่ละ
ซึ่งตัวเลขตัวอักษรจำกัด
แทสเซอร์แรคไม่ได้ใช้แม่แบบตัวแต่
ใช้คุณสมบัติเดียวกันและลักษณนามเป็น Static
ลักษณนาม แต่ความแตกต่างระหว่าง
ไฟฟ้าสถิตและการปรับตัวลักษณนามลักษณนาม นอกเหนือจาก
ข้อมูลการฝึกอบรม เป็นแบบที่ปรับใช้แบบพื้นฐาน /
x-height บรรทัดฐาน ส่วน
ไฟฟ้าสถิตแบบปกติตัวอักษรโดยเซนทรอยด์
( วินาทีแรก ) สำหรับตำแหน่งและช่วงเวลาที่สองสำหรับ
ทิศทางขนาดปกติ .
( / x-height การฟื้นฟูง่าย
แยกบนและล่างตัวอักษรกรณีเช่นกัน
เป็นปรับปรุงภูมิคุ้มกันเสียง specks . ประโยชน์หลักของตัวละครนเอาค่ะ

ของอัตราส่วนของตัวอักษรและบางส่วนของความกว้างจังหวะ
ตัวอักษร นอกจากนี้ยังทำให้การย่อยและ superscripts
ง่ายกว่าแต่ต้องมีคุณลักษณะเพิ่มเติมจนได้

แยกบางบนและตัวอักษรกรณีที่ต่ำกว่า รูปที่ 7 แสดงให้เห็นตัวอย่างของ
0
/ x-height 3 ตัวอักษรในรูปฟอร์ม และช่วงเวลาปกติรูปแบบ .
0-7695-2822-8 / 07 $ 25.00 © 2007 IEEE 633
รูปที่ 7 พื้นฐานและช่วงเวลาปกติ
ตัวอักษร .
8 เทสซาแร็กผลลัพธ์
รวมอยู่ใน 4 UNLV ปีทดสอบ
[ 1 ] ของความถูกต้อง OCR OCR เป็น " HP Labs ," แต่รหัส
เปลี่ยนไปเยอะแล้ว รวมทั้งการแปลง
Unicode และฝึกอบรม . ตารางที่ 1 เปรียบเทียบผลลัพธ์จาก
รุ่นล่าสุดของเทสเซอร์แรค ( แสดงเป็น 2.0 ) กับ
ต้นฉบับ 1995 ผล ( แสดงเป็น HP ) ทั้งหมดสี่ 300 dpi
แบบทดสอบชุดที่ใช้ใน 1995 ทดสอบ
แสดงพร้อมกับจำนวนของข้อผิดพลาด ( errs )
% อัตราความผิดพลาด ( % เออ ) และเปอร์เซ็นต์การเปลี่ยนแปลง
เมื่อเทียบกับปี 2538 ผล ( chg % ) สำหรับตัวละครทั้งสอง
ข้อผิดพลาดและข้อผิดพลาด stopword ไม่ [ 1 ] ผลลัพธ์ที่ทันสมัย
เพิ่มเติมที่ http : / / รหัส . google . com / p / ประจำ OCR .
โต๊ะ 1 ผลของปัจจุบันและเก่า

แทสเซอร์แรค ตัวละคร Ver คำชุด errs % เออ % chg errs % เออ % chg
HP รถ 5959 1.86 1293 4.27
2.0 บัส 6449 2.02 , 888 , 0.15
HP โด 36349 2.48 7042 5.13
2.0 โด 29921 2.04 -17.68 6791 4.95 - 3.56
เอชพี แม็ก 15043 2.26 3379 5.01
2.0 MAG 14814 2.22 -1.52 3133 4.64 - 7.28
ข่าว HP 6432 1.31 1502 3.06
2.0 ข่าว 7935 1.61 23.36 1284 2.62 - 14.51
2.0 รวม 59119 -7.31 12503 - 5.39
9 บทสรุปและ
งานหลังจากนอนอยู่เฉยๆมานานกว่า 10 ปี ,
แทสเซอร์แรคตอนนี้หลังนำพาณิชย์
เครื่องยนต์ในแง่ของความถูกต้อง ความแข็งแกร่งของคีย์
คงเป็นปกติการเลือกคุณลักษณะ
ที่สำคัญของจุดอ่อนคือ อาจจะใช้ในการประมาณเป็นรูปหลายเหลี่ยม
เข้ากับตัวแทน

วัตถุดิบเค้าร่าง กับ website ทำ ความถูกต้องอาจ
อาจจะเพิ่มขึ้นอย่างมากกับการเพิ่มความสุขุม
ของแบบจำลองฮิดเดนมาร์คอฟ ซึ่งตัวละคร ngram
ใช้รูปแบบ และอาจจะขึ้น ฮ.
10 ขอบคุณ
ผู้เขียนขอขอบคุณ จอห์นและทอม
ไหม้nartker สำหรับความพยายามของพวกเขาในการเทสเซอแรคเปิดแหล่ง
, ISRI กลุ่มที่ UNLV สำหรับการแบ่งปันเครื่องมือของพวกเขา
และข้อมูลเช่นเดียวกับลุค วินเซนต์ กอร์ krivokon darshyang
, ลี และ โทมัส kielbus สำหรับความคิดเห็นของพวกเขา
ในเนื้อหาของบทความนี้

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.