Abstract— This paper studies the co

Abstract— This paper studies the combination of multiple
classifiers with a prototyped-based supervised clustering algorithm, namely SGNG, for Thai printed character recognition. The proposed classification system consists of two steps. First, the prototypes obtained by the SGNG are firstly used to roughly classify an unknown input positioning around a training dataset. Second, several classifiers, such as Bayesian classifiers and neural network, are combined by using the Median rule for detail classification. Our experimental result shows that the combination of multiple classifiers gives recognition rates better that individual classifier. In particularly, the combination of multiple classifiers with the SGNG can improve accuracy of recognition rates and classification time.

I. INTRODUCTION

HE business information system has an important rule in organizations. It is a support tool for business activities
to reach organization goals. One of the main components of the business system is business transaction data, which can be collected from several sources. In a practical way, most of sources of the transaction data usually are gotten from printed documents. Hence, a procedure of transforming printed documents to a computer-understandable form is a need. The OCR software is an automatic tool for that procedure. Nowadays, Thai OCR software is not widely used in business applications. Since its obtained results is slightly low.
In decade past, many researchers have been introduced several Thai OCR techniques that cover in area of local feature extraction techniques, classifier techniques, and automatic word correction techniques such as [1],[2],[3],[4] and [5]. However, the existing techniques are not successful. According to a set of Thai alphabet shown in Figure 1, several Thai characters are too similar such as “n-fl”, “"I-'Jf-'11”, and “.,-.,”. In particularly, as the images of similar characters are obtained from a poor paper, the image characters may be more confused as shown in Figure 2. So, the character recognition procedure with the local feature extraction techniques may not handle the case of low quality character images. Furthermore, the recognition procedure with word correction techniques also may not handle when a number of

Manuscript received June 15, 2009.
A. Jirayusakul is with the Computer Science Department, Ramkhamhaeng University, Bangkok 10240, Thailand (e-mail: rapirak@ hotmail.com).
incorrect characters obtained from the recognition procedure
are about 3-5 characters/word. Hence, a skilful classifier is a need for the recognition procedure. Nowadays, Thai OCR researchers have introduced several classifiers to the recognition procedure. However, they attentively apply an individual classifier to the recognition procedure. In this paper, we will concentrate on using the combination of multiple classifiers to achieve better the accuracy of classification rate. Furthermore, to reduce matching times of the classifiers, a set of prototypes obtained by the SGNG algorithm is employed to roughly classify an unknown pattern, when the position of the pattern is located around high density regions of a training dataset.
The paper is organized as follows: section II discusses the details of the proposed recognition system. The experimental results with respect to a feature extraction parameter and the performance of the proposed system are presented in section
III. Finally, the conclusion is given in the last section.
Fig. 1. Thai Alphabets

Fig. 2. Example of similar characters is obtained from different sources: original paper (in first line) and one time photocopy paper (in second line).

II. THE PROPOSED RECOGNITON SYSTEM
Figure 3 illustrates the proposed system that consists of two stages i.e. training stage and classification stage. The feature extraction module is employed by a rotationally invariant feature algorithm where its input is encoded as a 33x33 binary matrix. The result of the module is a normalized feature vector. According to training stage, the purpose of the prototype construction module is to generate a set of preclassification prototypes which are used for the rough classification module. For the rough classification module,
Apply the Combination of Multiple Classifiers with the SGNG algorithm for Thai Printed Character Recognition
A. Jirayusakul
978-1-4244-4139-6/09/$25.00 ©2009 IEEE
79
2009 Eighth International Symposium on Natural Language Processing

the nearest distance prototype Pi

(in the preclassfication

I0 if u < u

i i,min

prototype set) with the feature vector Z of unknown input

z = I(u − u

) /(u

– u ) if u

≤ u ≤ u

(4)

i i i i,min

i,max

i,min

i,min

i i,max

X is retrieved. If the position of the vector Z is located

I1 if u < u

around the approximate region of the prototype Pi , then

l
where ui,m

I. INTRODUCTION
 
HE business information system has an important rule in organizations. It is a support tool for business activities
to reach organization goals. One of the main components of the business system is business transaction data, which can be collected from several sources. In a practical way, most of sources of the transaction data usually are gotten from printed documents. Hence, a procedure of transforming printed documents to a computer-understandable form is a need. The OCR software is an automatic tool for that procedure. Nowadays, Thai OCR software is not widely used in business applications. Since its obtained results is slightly low.
In decade past, many researchers have been introduced several Thai OCR techniques that cover in area of local feature extraction techniques, classifier techniques, and automatic word correction techniques such as [1],[2],[3],[4] and [5]. However, the existing techniques are not successful. According to a set of Thai alphabet shown in Figure 1, several Thai characters are too similar such as “n-fl”, “"I-'Jf-'11”, and “.,-.,”. In particularly, as the images of similar characters are obtained from a poor paper, the image characters may be more confused as shown in Figure 2. So, the character recognition procedure with the local feature extraction techniques may not handle the case of low quality character images. Furthermore, the recognition procedure with word correction techniques also may not handle when a number of

Manuscript received June 15, 2009.
A. Jirayusakul is with the Computer Science Department, Ramkhamhaeng University, Bangkok 10240, Thailand (e-mail: rapirak@ hotmail.com).
incorrect characters obtained from the recognition procedure
are about 3-5 characters/word. Hence, a skilful classifier is a need for the recognition procedure. Nowadays, Thai OCR researchers have introduced several classifiers to the recognition procedure. However, they attentively apply an individual classifier to the recognition procedure. In this paper, we will concentrate on using the combination of multiple classifiers to achieve better the accuracy of classification rate. Furthermore, to reduce matching times of the classifiers, a set of prototypes obtained by the SGNG algorithm is employed to roughly classify an unknown pattern, when the position of the pattern is located around high density regions of a training dataset.
The paper is organized as follows: section II discusses the details of the proposed recognition system. The experimental results with respect to a feature extraction parameter and the performance of the proposed system are presented in section
III. Finally, the conclusion is given in the last section.
Fig. 1. Thai Alphabets

Fig. 2. Example of similar characters is obtained from different sources: original paper (in first line) and one time photocopy paper (in second line).

II. THE PROPOSED RECOGNITON SYSTEM
Figure 3 illustrates the proposed system that consists of two stages i.e. training stage and classification stage. The feature extraction module is employed by a rotationally invariant feature algorithm where its input is encoded as a 33x33 binary matrix. The result of the module is a normalized feature vector. According to training stage, the purpose of the prototype construction module is to generate a set of preclassification prototypes which are used for the rough classification module. For the rough classification module,
Apply the Combination of Multiple Classifiers with the SGNG algorithm for Thai Printed Character Recognition
A. Jirayusakul
978-1-4244-4139-6/09/$25.00 ©2009 IEEE
79
2009 Eighth International Symposium on Natural Language Processing

the nearest distance prototype Pi

(in the preclassfication

I0 if u < u

i i,min

prototype set) with the feature vector Z of unknown input

z = I(u − u

) /(u

– u ) if u

≤ u ≤ u

(4)

i i i i,min

i,max

i,min

i i,max

X is retrieved. If the position of the vector Z is located

I1 if u < u

around the approximate region of the prototype Pi , then

l
where ui,m

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

นามธรรมซึ่งเอกสารนี้ศึกษาทั้งหลายคำนามภาษากับ prototyped ใช้ดูแลระบบคลัสเตอร์อัลกอริธึม คือ SGNG สำหรับการรู้จำตัวอักษรที่พิมพ์ไทย ระบบจำแนกประเภทที่นำเสนอประกอบด้วยสองขั้นตอน ครั้งแรก ต้นแบบที่ได้รับจาก SGNG ตอนแรกใช้ไปประมาณจัดการป้อนข้อมูลที่ไม่รู้จักตำแหน่งรอบชุดข้อมูลฝึกอบรม สอง คำนามภาษาต่าง ๆ คำนามภาษาทฤษฎีและโครงข่ายประสาท รวมกัน โดยใช้กฎมัธยฐานการจัดรายละเอียด ผลการทดลองของเราแสดงให้เห็นว่า การรวมกันของคำนามภาษาหลายให้รู้ราคาดีลักษณนามที่แต่ละ ในโดยเฉพาะ การรวมกันของคำนามภาษาหลายด้วย SGNG สามารถปรับปรุงความถูกต้องของอัตราการรู้จำและจำแนกเวลาI. บทนำ ระบบสารสนเทศธุรกิจของ HE มีกฎมีความสำคัญในองค์กร มันเป็นเครื่องมือสนับสนุนสำหรับธุรกิจเพื่อให้บรรลุเป้าหมายองค์กร ส่วนประกอบหลักของระบบธุรกิจอย่างใดอย่างหนึ่งเป็นธุรกิจธุรกรรมข้อมูล ซึ่งรวบรวมจากหลายแหล่ง ในทางปฏิบัติ ส่วนใหญ่แหล่งที่มาของธุรกรรมข้อมูลมักจะมีอากาศจากเอกสารที่พิมพ์ ดังนั้น กระบวนการพิมพ์เอกสารแบบฟอร์มคอมพิวเตอร์เข้าใจความถูกต้อง ซอฟต์แวร์ OCR เป็นเครื่องมืออัตโนมัติสำหรับขั้นตอนที่ ปัจจุบัน ซอฟต์แวร์ OCR ไทยไม่แพร่หลายกันในโปรแกรมประยุกต์ทางธุรกิจ ตั้งแต่ได้รับผลอยู่ในระดับต่ำเล็กน้อยในทศวรรษที่ผ่านมา นักวิจัยจำนวนมากได้นำเทคนิค OCR ไทยหลายที่ครอบคลุมในพื้นที่ ของเทคนิคการสกัดคุณลักษณะเฉพาะ ลักษณนามเทคนิค เทคนิคการแก้ไขคำอัตโนมัติเช่น [1], [2], [3], [4] และ [5] อย่างไรก็ตาม เทคนิคที่มีอยู่จะไม่สำเร็จ ตามชุดการแสดงในรูปที่ 1 อักษรไทย อักษรไทยหลายจะคล้ายเช่น "n-fl", "" ฉัน-' วริศร์-'11 ", และ", -., " ในโดยเฉพาะ เป็นรูปภาพของอักขระที่คล้ายกันจะได้รับจากกระดาษไม่ดี อักขระภาพอาจจะสับสนมากขึ้นดังแสดงในรูปที่ 2 ดังนั้น กระบวนการรู้จำอักขระ ด้วยเทคนิคการสกัดคุณลักษณะเฉพาะอาจไม่จัดการกรณีของภาพตัวละครที่มีคุณภาพต่ำ นอกจากนี้ กระบวนการรับรู้เทคนิคการแก้ไขคำยังอาจจัดการเมื่อจำนวนฉบับรับ 15 มิถุนายน 2552A. Jirayusakul เป็นภาค วิชาวิทยาศาสตร์คอมพิวเตอร์ มหาวิทยาลัยรามคำแหง กรุงเทพ 10240 ประเทศไทย (อีเมล์: rapirak แอท hotmail.com)ได้จากขั้นตอนการรู้จำอักขระไม่ถูกต้องมี 3-5 ตัว/คำ ดังนั้น ลักษณนามคอยเป็นต้องขั้นตอนการรู้จำ ปัจจุบัน นักวิจัยไทย OCR ได้เริ่มนำคำนามภาษาหลายขั้นตอนการรู้จำ อย่างไรก็ตาม พวกเขาและทำความเข้าใจใช้ลักษณนามที่ละขั้นตอนการรู้จำ ในกระดาษนี้ เราจะมุ่งเน้นไปที่การใช้การรวมกันของคำนามหลายภาษาให้ดีกว่าความถูกต้องของอัตราการจัดประเภท นอกจากนี้ เพื่อลดเวลาการจับคู่ของคำนามภาษาที่ ชุดต้นแบบที่ได้รับจากอัลกอริทึม SGNG เป็นลูกจ้างในการจัดรูปแบบที่ไม่รู้จัก ประมาณเมื่อตำแหน่งของลวดลายที่อยู่รอบพื้นที่ความหนาแน่นสูงของชุดข้อมูลฝึกอบรมกระดาษจัดเป็นดังนี้: ส่วนที่สองกล่าวถึงรายละเอียดของระบบการนำเสนอ นำเสนอผลการทดลองเกี่ยวกับพารามิเตอร์สกัดคุณลักษณะและประสิทธิภาพของระบบที่นำเสนอในส่วนIII. สุดท้าย สรุปถูกกำหนดในส่วนสุดท้ายรูปที่ 1 ตัวอักษรไทยรูป 2 ตัวอย่างของอักขระที่คล้ายกันจะได้รับจากแหล่งต่าง ๆ: กระดาษต้นฉบับ (ในบรรทัดแรก) และเวลาหนึ่งถ่ายสำเนากระดาษ (ในบรรทัดที่สอง)II. ระบบ RECOGNITON เสนอรูปที่ 3 แสดงการนำเสนอระบบที่ประกอบด้วยสองขั้นตอนเช่นขั้นตอนการฝึกอบรมและขั้นตอนการจัดประเภท โมแยกลักษณะการทำงานเป็นลูกจ้าง โดยอัลกอริทึมไม่ rotationally คุณลักษณะการที่ป้อนข้อมูลที่ถูกเข้ารหัสเป็นเมทริกซ์ฐานสอง 33 x 33 ผลของโมดูลคือ เวกเตอร์คุณลักษณะมาตรฐาน ตามขั้นตอนการฝึกอบรม วัตถุประสงค์ของโมก่อสร้างต้นแบบจะสร้างชุดต้นแบบ preclassification ซึ่งใช้สำหรับโมประเภทหยาบ สำหรับโมดูลการจัดประเภทหยาบใช้การรวมกันของหลายคำนามภาษากับอัลกอริทึม SGNG สำหรับการรู้จำตัวอักษรพิมพ์ไทยA. Jirayusakul978-1-4244-4139-6/09/$25.00 © 2009 IEEE792009 ประชุมสัมมนาทางนานาชาติแปดในการประมวลผลภาษาธรรมชาติ ระยะทางที่ใกล้ที่สุดแบบ Pi(ใน preclassficationI0 ถ้าคุณ < uฉัน i นาทีชุดต้นแบบ) มีเวคเตอร์คุณลักษณะ Z ของอินพุตที่ไม่รู้จักz =ฉัน (u − u) /(u-u) ถ้าคุณ≤ u ≤ u(4)ฉันฉันฉันฉัน นาทีฉัน สูงสุดi นาทีi นาทีฉันฉัน สูงสุดX จะถูกดึงมา ถ้าตำแหน่งของเวกเตอร์ Z อยู่I1 ถ้าคุณ < uรอบพื้นที่โดยประมาณของ Pi แบบตัวอย่างแล้วlที่ ui, m

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

Abstract-
กระดาษนี้ศึกษาการรวมกันของหลายตัวจําแนกที่มีการจัดกลุ่มขั้นตอนวิธีการภายใต้การดูแลเป็นต้นแบบที่ใช้คือSGNG สำหรับพิมพ์ไทยรู้จำตัวอักษร ระบบการจัดหมวดหมู่ที่นำเสนอประกอบด้วยสองขั้นตอน ครั้งแรกต้นแบบที่ได้จากการ SGNG ที่มีการใช้ครั้งแรกประมาณจำแนกตำแหน่งที่ป้อนข้อมูลที่ไม่รู้จักรอบชุดการฝึกอบรม ประการที่สองการแยกประเภทต่างๆเช่นลักษณนามเบย์และเครือข่ายประสาทจะรวมกันโดยใช้กฎเฉลี่ยสำหรับการจำแนกรายละเอียด ผลการทดลองของเราแสดงให้เห็นว่าการรวมกันของหลายแยกแยะให้อัตราการรับรู้ที่ดีกว่าที่ลักษณนามของแต่ละบุคคล โดยเฉพาะอย่างยิ่งในการรวมกันของจําแนกหลาย SGNG ที่สามารถปรับปรุงความถูกต้องของอัตราการรับรู้และเวลาการจัดหมวดหมู่. I. บทนำระบบข้อมูลทางธุรกิจที่เขามีกฎที่สำคัญในองค์กร มันเป็นเครื่องมือที่ได้รับการสนับสนุนกิจกรรมทางธุรกิจเพื่อให้บรรลุเป้าหมายขององค์กร หนึ่งในองค์ประกอบหลักของระบบธุรกิจที่มีข้อมูลการทำธุรกรรมทางธุรกิจที่สามารถเรียกเก็บจากหลายแหล่ง ในทางปฏิบัติส่วนใหญ่ของแหล่งที่มาของข้อมูลการทำธุรกรรมมักจะได้รับอากาศจากเอกสารที่พิมพ์ ดังนั้นขั้นตอนของการเปลี่ยนเอกสารที่พิมพ์ในรูปแบบที่เข้าใจคอมพิวเตอร์เป็นความจำเป็น ซอฟต์แวร์ OCR เป็นเครื่องมืออัตโนมัติสำหรับขั้นตอนที่ ปัจจุบันซอฟต์แวร์ไทย OCR ไม่ได้ใช้กันอย่างแพร่หลายในการใช้งานทางธุรกิจ เนื่องจากผลที่ได้รับคือต่ำเล็กน้อย. ในทศวรรษที่ผ่านมานักวิจัยหลายคนได้รับการแนะนำเทคนิคไทย OCR หลายที่ครอบคลุมในพื้นที่ของเทคนิคการดึงท้องถิ่นเทคนิคการจําแนกและเทคนิคการแก้ไขคำอัตโนมัติเช่น [1], [2], [ 3] [4] และ [5] แต่เทคนิคที่มีอยู่ไม่ประสบความสำเร็จ ตามที่ชุดของอักษรไทยที่แสดงในรูปที่ 1 ตัวอักษรภาษาไทยหลายที่คล้ายกันมากเกินไปเช่น "n-ชั้น", "" I-'Jf-'11 "และ" -.. "โดยเฉพาะอย่างยิ่งในขณะที่. ภาพของตัวละครที่คล้ายกันจะได้รับจากกระดาษที่ไม่ดีของตัวละครภาพอาจจะสับสนมากขึ้นดังแสดงในรูปที่ 2 ดังนั้นขั้นตอนการรู้จำตัวอักษรด้วยเทคนิคการดึงท้องถิ่นไม่อาจจัดการกับกรณีของภาพตัวละครที่มีคุณภาพต่ำ. นอกจากนี้ ขั้นตอนการรับรู้ด้วยเทคนิคการแก้ไขคำอาจได้จัดการเมื่อจำนวนของต้นฉบับที่ได้รับวันที่15 มิถุนายน 2009 เอ Jirayusakul อยู่กับภาควิชาวิทยาการคอมพิวเตอร์มหาวิทยาลัยรามคำแหงกรุงเทพมหานคร 10240 ประเทศไทย (E-mail: rapirak @ hotmail.com) . ตัวอักษรที่ไม่ถูกต้องตามขั้นตอนที่ได้รับจากการรับรู้เกี่ยวกับตัวละครที่ 3-5 / คำ. ดังนั้นลักษณนามฝีมือความจำเป็นสำหรับขั้นตอนการรับรู้ที่. ปัจจุบันนักวิจัยไทย OCR ได้แนะนำแยกแยะหลายขั้นตอนการรับรู้. แต่พวกเขาตั้งใจใช้การ ลักษณนามแต่ละขั้นตอนการรับรู้ ในบทความนี้เราจะเน้นการใช้การรวมกันของหลายลักษณนามเพื่อให้เกิดความถูกต้องที่ดีขึ้นของอัตราการจัดหมวดหมู่ นอกจากนี้เพื่อลดการจับคู่ครั้งลักษณนามที่ชุดของต้นแบบที่ได้รับโดยวิธี SGNG เป็นลูกจ้างประมาณจำแนกรูปแบบที่ไม่รู้จักเมื่อตำแหน่งของรูปแบบตั้งอยู่ทั่วภูมิภาคหนาแน่นสูงของชุดการฝึกอบรม. กระดาษจัดเป็น ดังต่อไปนี้: ส่วนที่สองกล่าวถึงรายละเอียดของระบบการรับรู้ที่นำเสนอ ผลการทดลองที่เกี่ยวกับพารามิเตอร์สกัดบาร์และประสิทธิภาพการทำงานของระบบที่นำเสนอจะถูกนำเสนอในส่วนที่สาม สุดท้ายข้อสรุปที่จะได้รับในส่วนสุดท้าย. รูป 1. บริษัท ไทยตัวอักษรรูป 2. ตัวอย่างของตัวละครที่คล้ายกันจะได้รับจากแหล่งที่มาที่แตกต่างกัน. กระดาษเดิม (ในบรรทัดแรก) และกระดาษถ่ายเอกสารอีกครั้งหนึ่ง (ในบรรทัดที่สอง) ครั้งที่สอง ระบบ RECOGNITON เสนอรูปที่3 แสดงให้เห็นถึงระบบที่เสนอที่ประกอบด้วยสองขั้นตอนคือขั้นตอนการฝึกอบรมและการจัดหมวดหมู่ขั้นตอน โมดูลสกัดคุณลักษณะเป็นลูกจ้างของอัลกอริทึมคุณลักษณะคง rotationally ปัจจัยการผลิตที่มีการเข้ารหัสเป็นเมทริกซ์ไบนารี 33x33 ผลของโมดูลเป็นคุณลักษณะปกติเวกเตอร์ ตามขั้นตอนการฝึกอบรมวัตถุประสงค์ของโมดูลก่อสร้างต้นแบบคือการสร้างชุดต้นแบบ preclassification ซึ่งจะใช้สำหรับโมดูลการจัดหมวดหมู่หยาบ สำหรับโมดูลการจัดหมวดหมู่หยาบสมัครการรวมกันของหลายลักษณนามกับอัลกอริทึม SGNG ไทยพิมพ์ Character ยอมรับ A. Jirayusakul 978-1-4244-4139-6 / 09 / $ 25.00 © 2009 อีอีอี79 2009 แปดประชุมวิชาการนานาชาติเกี่ยวกับการประมวลผลภาษาธรรมชาติระยะทางที่ใกล้ที่สุดต้นแบบชิ้น(ใน preclassfication I0 ถ้า u <u ที่ฉันฉันนาทีชุดต้นแบบ) กับเวกเตอร์คุณลักษณะ Z ของท่านไม่รู้จักซี= ฉัน (ยู - ยู) / (ยู- ยู) ถ้า u ≤≤ยูยู(4) IIII นาทีฉัน, สูงสุดi, นาทีi, นาทีฉันฉัน, สูงสุดX ถูกดึง ถ้าตำแหน่งของ Z เวกเตอร์ตั้งอยู่I1 ถ้า u <ยูทั่วภูมิภาคโดยประมาณของต้นแบบPi แล้วลิตรที่UI, ม.

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

การศึกษาการรวมกันของหลาย นี้เป็นนามธรรม - กระดาษคำลักษณนามกับต้นฉบับตามขั้นตอนวิธีการแบ่งกลุ่ม คือ sgng สำหรับตัวพิมพ์อักษรภาษาไทย . ระบบการจัดหมวดหมู่นี้แบ่งเป็นสองขั้นตอน แรก , ต้นแบบที่ได้จาก sgng มีวัตถุประสงค์ใช้ประมาณแยกจักใส่ตำแหน่งรอบอบรมวันที่ . ประการที่สอง หลายคำ เช่น คำลักษณนามในระบบและโครงข่ายประสาทเทียม , รวมโดยใช้กฎมัธยฐานสำหรับการจำแนกรายละเอียด ผลการทดลองพบว่า การรวมกันของหลายคำ ให้ราคาดีกว่าที่บุคคลรู้ลักษณนาม ใน โดยเฉพาะอย่างยิ่ง การรวมกันของหลายคำด้วย sgng สามารถปรับปรุงความถูกต้องของอัตราการรับรู้และการจำแนกผมแนะนำเขาธุรกิจระบบสารสนเทศมีกฎที่สำคัญในองค์กร เป็นเครื่องมือสนับสนุนเพื่อกิจกรรมทางธุรกิจเพื่อให้บรรลุเป้าหมายขององค์กร หนึ่งในองค์ประกอบหลักของระบบธุรกิจ คือ ข้อมูลทางธุรกิจ ซึ่งสามารถรวบรวมจากแหล่งต่างๆ ในวิธีปฏิบัติมากที่สุดของแหล่งที่มาของข้อมูลธุรกรรมที่มักจะได้รับจากเอกสารที่พิมพ์ ดังนั้น กระบวนการของการเปลี่ยนเอกสารพิมพ์คอมพิวเตอร์เข้าใจรูปแบบเป็นต้อง โดยซอฟต์แวร์ OCR เป็นเครื่องมืออัตโนมัติสำหรับขั้นตอนที่ ปัจจุบัน ซอฟต์แวร์ OCR ภาษาไทยไม่ได้ใช้กันอย่างแพร่หลายในการใช้งานทางธุรกิจ นับตั้งแต่ที่ได้ผลต่ำเล็กน้อยในทศวรรษที่ผ่านมา นักวิจัยหลายคนได้แนะนำหลายไทย OCR เทคนิคที่ครอบคลุมในพื้นที่ของเทคนิคการสกัดคุณลักษณะท้องถิ่นเทคนิคและคำลักษณนาม , อัตโนมัติแก้ไขเทคนิคเช่น [ 1 ] , [ 2 ] , [ 3 ] , [ 4 ] และ [ 5 ] อย่างไรก็ตาม เทคนิคที่มีอยู่จะไม่ประสบความสำเร็จ ตามชุดของตัวอักษรที่แสดงในรูปที่ 1 ตัวอักษรหลายไทยคล้ายกันมากเกินไป เช่น " n-fl " , " ฉัน - 'jf - ' 11 " และ " , - , " โดยเป็นภาพของตัวละครที่คล้ายกันที่ได้รับจากกระดาษไม่ดี ภาพตัวละครอาจจะสับสนมากขึ้นดังแสดงในรูปที่ 2 ดังนั้น การรู้จำตัวอักษร ขั้นตอนการสกัดลักษณะท้องถิ่น เทคนิคอาจจะไม่จัดการกับกรณีของภาพตัวละครที่คุณภาพต่ำ นอกจากนี้การรับรู้กระบวนการด้วยเทคนิคแก้ไขคำอาจจะไม่จัดการเมื่อจำนวนต้นฉบับได้รับมิถุนายน 15 , 20091 . jirayusakul กับวิทยาศาสตร์แผนกคอมพิวเตอร์ มหาวิทยาลัยรามคำแหง กรุงเทพฯ 10240 ( E-mail : rapirak @ hotmail . com )อักขระที่ไม่ถูกต้องที่ได้จากกระบวนการรับรู้มีประมาณ 3-5 ตัวอักษร / คำ ดังนั้น แบบฝีมือคือต้องให้กระบวนการรับรู้ ปัจจุบัน นักวิจัยไทยได้หลายคำใช้ OCR กับขั้นตอนการรู้จำ อย่างไรก็ตาม พวกเขาต่างใช้แต่ละตัวกับขั้นตอนการรู้จำ ในบทความนี้เราจะมุ่งเน้นการรวมกันของหลายคำเพื่อให้บรรลุอัตราความถูกต้องของการจำแนก นอกจากนี้เพื่อลดการจับเวลาของคำลักษณนาม , ชุดต้นแบบที่ได้จาก sgng ขั้นตอนวิธีใช้ประมาณจำแนกรูปแบบไม่ทราบ เมื่อตำแหน่งของรูปแบบตั้งอยู่รอบ ๆพื้นที่มีความหนาแน่นสูงของการฝึกอบรมวันที่ .กระดาษจัดดังนี้ ตอนที่ 2 กล่าวถึงรายละเอียดของการเสนอการรับรองระบบ ผลการทดลองเกี่ยวกับคุณลักษณะการสกัดค่าพารามิเตอร์และสมรรถนะของระบบจะแสดงในส่วน3 . สุดท้าย สรุปคือ ระบุ ในส่วนสุดท้ายรูปที่ 1 ตัวอักษรภาษาไทยรูปที่ 2 ตัวอย่างของตัวละครที่คล้ายกันได้รับจากแหล่งที่แตกต่างกัน : กระดาษต้นฉบับ ( บรรทัดแรก ) และหนึ่งเวลา กระดาษถ่ายเอกสาร ( บรรทัดที่สอง )2 . recogniton เสนอระบบรูปที่ 3 แสดงให้เห็นถึงระบบที่ประกอบด้วยสองขั้นตอน คือ ขั้นตอนการฝึกอบรมขั้นตอนและการจำแนก คุณลักษณะการสกัดโมดูลเป็นลูกจ้างโดยวิธีคุณลักษณะ rotationally ค่าคงที่ที่ใส่ของจะถูกเข้ารหัสเป็นเลขฐานสอง 33x33 เมทริกซ์ ผลของโมดูลมาตรฐานคุณลักษณะเวกเตอร์ ตามขั้นตอนการฝึกอบรม วัตถุประสงค์ของต้นแบบการก่อสร้างโมดูลคือการสร้างชุดของ preclassification ต้นแบบซึ่งใช้กับโมดูลชนิดหยาบ สำหรับโมดูลชนิดขรุขระใช้รวมกันหลายคำด้วย sgng ขั้นตอนวิธีสำหรับตัวพิมพ์อักษรภาษาไทยjirayusakul .978-1-4244-4139-6 / 09 / $ 25.00 © 2009 อีอีอี792009 การประชุมนานาชาติที่แปดในการประมวลผลภาษาธรรมชาติที่ใกล้ที่สุดห่างจากต้นแบบ( ใน preclassficationถ้า u < u .ฉัน , มินชุดต้นแบบ ) ด้วยคุณลักษณะเวกเตอร์ Z ไม่ทราบข้อมูลZ = ( − U U( U )( u ) ถ้า≤ u ≤ U( 4 )ฉัน ฉัน ฉัน ฉัน มินผมแม็กซ์ฉัน , มินฉัน , มินผม ผม แม็กX ออกมา ถ้าตำแหน่งของเวกเตอร์ Z ตั้งอยู่แต่ถ้า u < Uรอบพื้นที่โดยประมาณของต้นแบบปี่แล้วlที่ UI , ม.

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.