Abstract— This paper studies the combination of multiple
classifiers with a prototyped-based supervised clustering algorithm, namely SGNG, for Thai printed character recognition. The proposed classification system consists of two steps. First, the prototypes obtained by the SGNG are firstly used to roughly classify an unknown input positioning around a training dataset. Second, several classifiers, such as Bayesian classifiers and neural network, are combined by using the Median rule for detail classification. Our experimental result shows that the combination of multiple classifiers gives recognition rates better that individual classifier. In particularly, the combination of multiple classifiers with the SGNG can improve accuracy of recognition rates and classification time.
I. INTRODUCTION
HE business information system has an important rule in organizations. It is a support tool for business activities
to reach organization goals. One of the main components of the business system is business transaction data, which can be collected from several sources. In a practical way, most of sources of the transaction data usually are gotten from printed documents. Hence, a procedure of transforming printed documents to a computer-understandable form is a need. The OCR software is an automatic tool for that procedure. Nowadays, Thai OCR software is not widely used in business applications. Since its obtained results is slightly low.
In decade past, many researchers have been introduced several Thai OCR techniques that cover in area of local feature extraction techniques, classifier techniques, and automatic word correction techniques such as [1],[2],[3],[4] and [5]. However, the existing techniques are not successful. According to a set of Thai alphabet shown in Figure 1, several Thai characters are too similar such as “n-fl”, “"I-'Jf-'11”, and “.,-.,”. In particularly, as the images of similar characters are obtained from a poor paper, the image characters may be more confused as shown in Figure 2. So, the character recognition procedure with the local feature extraction techniques may not handle the case of low quality character images. Furthermore, the recognition procedure with word correction techniques also may not handle when a number of
Manuscript received June 15, 2009.
A. Jirayusakul is with the Computer Science Department, Ramkhamhaeng University, Bangkok 10240, Thailand (e-mail: rapirak@ hotmail.com).
incorrect characters obtained from the recognition procedure
are about 3-5 characters/word. Hence, a skilful classifier is a need for the recognition procedure. Nowadays, Thai OCR researchers have introduced several classifiers to the recognition procedure. However, they attentively apply an individual classifier to the recognition procedure. In this paper, we will concentrate on using the combination of multiple classifiers to achieve better the accuracy of classification rate. Furthermore, to reduce matching times of the classifiers, a set of prototypes obtained by the SGNG algorithm is employed to roughly classify an unknown pattern, when the position of the pattern is located around high density regions of a training dataset.
The paper is organized as follows: section II discusses the details of the proposed recognition system. The experimental results with respect to a feature extraction parameter and the performance of the proposed system are presented in section
III. Finally, the conclusion is given in the last section.
Fig. 1. Thai Alphabets
Fig. 2. Example of similar characters is obtained from different sources: original paper (in first line) and one time photocopy paper (in second line).
II. THE PROPOSED RECOGNITON SYSTEM
Figure 3 illustrates the proposed system that consists of two stages i.e. training stage and classification stage. The feature extraction module is employed by a rotationally invariant feature algorithm where its input is encoded as a 33x33 binary matrix. The result of the module is a normalized feature vector. According to training stage, the purpose of the prototype construction module is to generate a set of preclassification prototypes which are used for the rough classification module. For the rough classification module,
Apply the Combination of Multiple Classifiers with the SGNG algorithm for Thai Printed Character Recognition
A. Jirayusakul
978-1-4244-4139-6/09/$25.00 ©2009 IEEE
79
2009 Eighth International Symposium on Natural Language Processing
the nearest distance prototype Pi
(in the preclassfication
I0 if u < u
i i,min
prototype set) with the feature vector Z of unknown input
z = I(u − u
) /(u
– u ) if u
≤ u ≤ u
(4)
i i i i,min
i,max
i,min
i,min
i i,max
X is retrieved. If the position of the vector Z is located
I1 if u < u
around the approximate region of the prototype Pi , then
l
where ui,m
การศึกษาการรวมกันของหลาย นี้เป็นนามธรรม - กระดาษคำลักษณนามกับต้นฉบับตามขั้นตอนวิธีการแบ่งกลุ่ม คือ sgng สำหรับตัวพิมพ์อักษรภาษาไทย . ระบบการจัดหมวดหมู่นี้แบ่งเป็นสองขั้นตอน แรก , ต้นแบบที่ได้จาก sgng มีวัตถุประสงค์ใช้ประมาณแยกจักใส่ตำแหน่งรอบอบรมวันที่ . ประการที่สอง หลายคำ เช่น คำลักษณนามในระบบและโครงข่ายประสาทเทียม , รวมโดยใช้กฎมัธยฐานสำหรับการจำแนกรายละเอียด ผลการทดลองพบว่า การรวมกันของหลายคำ ให้ราคาดีกว่าที่บุคคลรู้ลักษณนาม ใน โดยเฉพาะอย่างยิ่ง การรวมกันของหลายคำด้วย sgng สามารถปรับปรุงความถูกต้องของอัตราการรับรู้และการจำแนกผมแนะนำเขาธุรกิจระบบสารสนเทศมีกฎที่สำคัญในองค์กร เป็นเครื่องมือสนับสนุนเพื่อกิจกรรมทางธุรกิจเพื่อให้บรรลุเป้าหมายขององค์กร หนึ่งในองค์ประกอบหลักของระบบธุรกิจ คือ ข้อมูลทางธุรกิจ ซึ่งสามารถรวบรวมจากแหล่งต่างๆ ในวิธีปฏิบัติมากที่สุดของแหล่งที่มาของข้อมูลธุรกรรมที่มักจะได้รับจากเอกสารที่พิมพ์ ดังนั้น กระบวนการของการเปลี่ยนเอกสารพิมพ์คอมพิวเตอร์เข้าใจรูปแบบเป็นต้อง โดยซอฟต์แวร์ OCR เป็นเครื่องมืออัตโนมัติสำหรับขั้นตอนที่ ปัจจุบัน ซอฟต์แวร์ OCR ภาษาไทยไม่ได้ใช้กันอย่างแพร่หลายในการใช้งานทางธุรกิจ นับตั้งแต่ที่ได้ผลต่ำเล็กน้อยในทศวรรษที่ผ่านมา นักวิจัยหลายคนได้แนะนำหลายไทย OCR เทคนิคที่ครอบคลุมในพื้นที่ของเทคนิคการสกัดคุณลักษณะท้องถิ่นเทคนิคและคำลักษณนาม , อัตโนมัติแก้ไขเทคนิคเช่น [ 1 ] , [ 2 ] , [ 3 ] , [ 4 ] และ [ 5 ] อย่างไรก็ตาม เทคนิคที่มีอยู่จะไม่ประสบความสำเร็จ ตามชุดของตัวอักษรที่แสดงในรูปที่ 1 ตัวอักษรหลายไทยคล้ายกันมากเกินไป เช่น " n-fl " , " ฉัน - 'jf - ' 11 " และ " , - , " โดยเป็นภาพของตัวละครที่คล้ายกันที่ได้รับจากกระดาษไม่ดี ภาพตัวละครอาจจะสับสนมากขึ้นดังแสดงในรูปที่ 2 ดังนั้น การรู้จำตัวอักษร ขั้นตอนการสกัดลักษณะท้องถิ่น เทคนิคอาจจะไม่จัดการกับกรณีของภาพตัวละครที่คุณภาพต่ำ นอกจากนี้การรับรู้กระบวนการด้วยเทคนิคแก้ไขคำอาจจะไม่จัดการเมื่อจำนวนต้นฉบับได้รับมิถุนายน 15 , 20091 . jirayusakul กับวิทยาศาสตร์แผนกคอมพิวเตอร์ มหาวิทยาลัยรามคำแหง กรุงเทพฯ 10240 ( E-mail : rapirak @ hotmail . com )อักขระที่ไม่ถูกต้องที่ได้จากกระบวนการรับรู้มีประมาณ 3-5 ตัวอักษร / คำ ดังนั้น แบบฝีมือคือต้องให้กระบวนการรับรู้ ปัจจุบัน นักวิจัยไทยได้หลายคำใช้ OCR กับขั้นตอนการรู้จำ อย่างไรก็ตาม พวกเขาต่างใช้แต่ละตัวกับขั้นตอนการรู้จำ ในบทความนี้เราจะมุ่งเน้นการรวมกันของหลายคำเพื่อให้บรรลุอัตราความถูกต้องของการจำแนก นอกจากนี้เพื่อลดการจับเวลาของคำลักษณนาม , ชุดต้นแบบที่ได้จาก sgng ขั้นตอนวิธีใช้ประมาณจำแนกรูปแบบไม่ทราบ เมื่อตำแหน่งของรูปแบบตั้งอยู่รอบ ๆพื้นที่มีความหนาแน่นสูงของการฝึกอบรมวันที่ .กระดาษจัดดังนี้ ตอนที่ 2 กล่าวถึงรายละเอียดของการเสนอการรับรองระบบ ผลการทดลองเกี่ยวกับคุณลักษณะการสกัดค่าพารามิเตอร์และสมรรถนะของระบบจะแสดงในส่วน3 . สุดท้าย สรุปคือ ระบุ ในส่วนสุดท้ายรูปที่ 1 ตัวอักษรภาษาไทยรูปที่ 2 ตัวอย่างของตัวละครที่คล้ายกันได้รับจากแหล่งที่แตกต่างกัน : กระดาษต้นฉบับ ( บรรทัดแรก ) และหนึ่งเวลา กระดาษถ่ายเอกสาร ( บรรทัดที่สอง )2 . recogniton เสนอระบบรูปที่ 3 แสดงให้เห็นถึงระบบที่ประกอบด้วยสองขั้นตอน คือ ขั้นตอนการฝึกอบรมขั้นตอนและการจำแนก คุณลักษณะการสกัดโมดูลเป็นลูกจ้างโดยวิธีคุณลักษณะ rotationally ค่าคงที่ที่ใส่ของจะถูกเข้ารหัสเป็นเลขฐานสอง 33x33 เมทริกซ์ ผลของโมดูลมาตรฐานคุณลักษณะเวกเตอร์ ตามขั้นตอนการฝึกอบรม วัตถุประสงค์ของต้นแบบการก่อสร้างโมดูลคือการสร้างชุดของ preclassification ต้นแบบซึ่งใช้กับโมดูลชนิดหยาบ สำหรับโมดูลชนิดขรุขระใช้รวมกันหลายคำด้วย sgng ขั้นตอนวิธีสำหรับตัวพิมพ์อักษรภาษาไทยjirayusakul .978-1-4244-4139-6 / 09 / $ 25.00 © 2009 อีอีอี792009 การประชุมนานาชาติที่แปดในการประมวลผลภาษาธรรมชาติที่ใกล้ที่สุดห่างจากต้นแบบ( ใน preclassficationถ้า u < u .ฉัน , มินชุดต้นแบบ ) ด้วยคุณลักษณะเวกเตอร์ Z ไม่ทราบข้อมูลZ = ( − U U( U )( u ) ถ้า≤ u ≤ U( 4 )ฉัน ฉัน ฉัน ฉัน มินผมแม็กซ์ฉัน , มินฉัน , มินผม ผม แม็กX ออกมา ถ้าตำแหน่งของเวกเตอร์ Z ตั้งอยู่แต่ถ้า u < Uรอบพื้นที่โดยประมาณของต้นแบบปี่แล้วlที่ UI , ม.
การแปล กรุณารอสักครู่..
