This paper proposes machine learning techniques, which help disambiguate word meaning. These methods focus on considering the relationship between a word and its surroundings, described as context information in the paper. Context information is produced from rule-based translation such as part-of-speech tags, semantic concept, case relations and so on. To automatically extract the context information, we apply machine learning algorithms which are C4.5, C4.5rule and RIPPER. In this paper, we test on ParSit, which is an interlingual-based machine translation for English to Thai. To evaluate our approach, an verb-to-be is selected because it has increased in frequency and it is quite difficult to be translated into Thai by using only linguistic rules. The result shows that the accuracy of C4.5, C4.5rule and RIPPER are 77.7%, 73.1% and 76.1% respectively whereas ParSit give accuracy only 48%.
บทความนี้เสนอเทคนิคการเรียนรู้ของเครื่องซึ่งช่วยทำให้กระจ่างความหมายคำ วิธีการเหล่านี้เน้นพิจารณาความสัมพันธ์ระหว่างคำและสภาพแวดล้อม , อธิบายบริบท ข้อมูลในกระดาษ ข้อมูลบริบทเป็นฐานผลิตจากการแปลดังกล่าวเป็นส่วนหนึ่งของการพูด , แนวคิด , ความหมาย , กรณีความสัมพันธ์และอื่น ๆ โดยอัตโนมัติสกัดข้อมูลบริบท เราใช้เครื่องที่มีโปรแกรม C4.5 ขั้นตอนวิธีการเรียนรู้ , และ c4.5rule Ripper ในบทความนี้เราทดสอบในภาษิต ซึ่งเป็น interlingual ใช้เครื่องแปลจากภาษาไทยเป็นภาษาอังกฤษ เพื่อประเมินแนวทางของเรา เป็นกริยาจะถูกเลือกเพราะมันมีเพิ่มขึ้นในความถี่และมันค่อนข้างยากที่จะได้รับการแปลเป็นภาษาไทยโดยเฉพาะกฎเกณฑ์ทางภาษา ผลการศึกษาพบว่า ความถูกต้องของโปรแกรม C4.5 c4.5rule Ripper , และเป็น 77.7 % , 75.4 % และ 76.1 ตามลำดับในขณะที่ภาษิตให้ความถูกต้องเพียง 48%
การแปล กรุณารอสักครู่..