III. METHODOLOGYIn this study, we c

III. METHODOLOGY
In this study, we continued developing from the previous
study, so most of experiment settings and data were similar to
the study. We had to concern not only appropriate algorithms
and features but also a practical solution to integrate statistic
and rules when used both statistical and rule-based method. So,
there are three main considerations as follows.
A. Learning Algorithm
From the previous study [12], Classification and
Regression Tree (CART) gave the best performance among
different algorithms for phrase boundary prediction closely
related to the task of sentence-breaking. In addition, it
achieved an excellent performance in Thai NLP task. In this
paper, we used CART as a learning algorithm.
B. Design of Features for Thai Sentence-Breaking
As described in the introduction, the main idea of good
features is that they can represent a contextual behaviour of a
whole sentence. In this study, a total of six kinds of features
were considered shown in table I.
CG and POS were widely used in representing Thai natural
language and showed satisfactory results. We used CG as a
main feature due to its success from the previous study [9].
From native user’s point of view, indicating a sentence
boundary not only a task to consider a context around a space
but also a process to judge a chunk between a previous break
and a considering space. Moreover, a research [13] proved
that in phrase break prediction, closely related to this study,
using features linked to a chunk can increase performance. So,
three features – NWrd_SB, NWrd_End and V – reflecting
contextual behaviour of a chunk were proposed to chart
essential information. NWrd_SB was proposed from the
concept that a sentence normally has a proper length. Thus, a
chunk being in that length should have high probability to be
predicted as a sentence-break.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

III. วิธีในการศึกษานี้ เรายังคงพัฒนาจากก่อนหน้านี้ศึกษา เพื่อที่สุดของการทดลองตั้งค่าและข้อมูลคล้ายกับการศึกษา เรามีอัลกอริทึมที่เหมาะสมเท่านั้นไม่เกี่ยวและลักษณะการทำงาน แต่ยังรวมสถิติการแก้ไขจริงและกฎเมื่อใช้วิธีการทางสถิติ และ ตามกฎ ดังนั้นมีมีสามหลักพิจารณาดังนี้A. ขั้นตอนวิธีการเรียนรู้จากก่อนหน้านี้ศึกษา [12], ประเภท และถดถอยทรี (รถเข็น) ให้เกิดประสิทธิภาพสูงสุดในหมู่อัลกอริทึมต่าง ๆ สำหรับวลีพยากรณ์ขอบเขตอย่างใกล้ชิดที่เกี่ยวข้องกับงานการแบ่งประโยค นอกจากนี้ มันทำได้มีประสิทธิภาพที่ดีเยี่ยมในงานไทย NLP ในที่นี้กระดาษ เราใช้รถเข็นเป็นอัลกอริทึมการเรียนรู้B. การออกแบบของการแบ่งประโยคไทยตามที่อธิบายไว้ในบทนำ ความคิดหลักของดีลักษณะการทำงานเป็นพวกเขาสามารถแสดงพฤติกรรมตามบริบทของการประโยคทั้งหมด ในการศึกษานี้ ทั้งหมด 6 ชนิดของก็ถือว่าเป็นแสดงในตารางที่ผมCG และ POS ถูกใช้ในการแสดงธรรมชาติไทยภาษาและแสดงผลลัพธ์ที่น่าพอใจ เราใช้ CG เป็นการคุณสมบัติหลักเนื่องจากความสำเร็จจากการศึกษาก่อนหน้านี้ [9]จากมุมมองของผู้ใช้เป็นจุด ระบุประโยคขอบเขตงานไม่เพียงแต่ต้องพิจารณาบริบทรอบช่องว่างแต่ยังเป็นกระบวนการวิพากษ์กลุ่มระหว่างตัวแบ่งก่อนหน้านี้และพื้นที่ considering นอกจากนี้ พิสูจน์วิจัย [13]วลีแบ่งทำนาย ที่สัมพันธ์ใกล้ชิดกับการศึกษานี้โดยใช้คุณลักษณะการเชื่อมโยงกับท่อสามารถเพิ่มประสิทธิภาพ ดังนั้นสามคุณสมบัติ – NWrd_SB, NWrd_End และ V – สะท้อนพฤติกรรมตามบริบทของท่อได้เสนอแผนภูมิข้อมูลที่จำเป็น NWrd_SB ถูกนำเสนอจากการแนวคิดที่ว่า ประโยคปกติมีความยาวเหมาะสม ดังนั้น การกลุ่มกำลังที่ยาวควรมีความเป็นไปได้สูงที่จะคาดว่า เป็นการแบ่งประโยค

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

3 . วิธีการ
ในการศึกษานี้ เรายังคงพัฒนาจากการศึกษาก่อนหน้า
ดังนั้นส่วนใหญ่การตั้งค่าการทดลองและข้อมูลกัน
การศึกษา เราต้องกังวลไม่เพียง แต่ที่เหมาะสมขั้นตอนวิธี
และคุณสมบัติ แต่ยังเป็นวิธีปฏิบัติเพื่อบูรณาการสถิติ
และกฎเมื่อใช้กฎทั้งทางสถิติและวิธีการ ดังนั้น
มีอยู่สามหลักพิจารณาดังนี้ อัลกอริทึมการเรียนรู้

aจากการศึกษาก่อนหน้า [ 12 ] การจำแนกและการถดถอย
ต้นไม้ ( ซื้อ ) ให้ประสิทธิภาพที่ดีที่สุดของขั้นตอนวิธีการทำนายขอบเขตแตกต่างกัน

วลีอย่างใกล้ชิดที่เกี่ยวข้องกับงานของประโยคแบ่ง นอกจากนี้ ได้มีการแสดงที่ยอดเยี่ยมในไทย
NLP งาน ในกระดาษนี้
เราใช้เกวียนเป็นอัลกอริทึมการเรียนรู้ .
ข. การออกแบบคุณลักษณะสำหรับประโยคภาษาไทยแบ่ง
ตามที่อธิบายไว้ในเบื้องต้น แนวคิดหลักของคุณลักษณะที่ดี
คือว่าพวกเขาสามารถแสดงพฤติกรรมตามบริบทของ
ทั้งประโยค ในการศึกษานี้ มีทั้งหมดหกชนิดของลักษณะ
ถูกแสดงในตารางที่ I .
CG POS และใช้กันอย่างแพร่หลายในไทย เป็นตัวแทนของธรรมชาติ
ภาษาและให้ผลที่น่าพอใจ เราใช้ CG เป็น
คุณสมบัติหลักเนื่องจากความสำเร็จ จากการศึกษาก่อนหน้านี้
[ 9 ]จากจุดของผู้ใช้มุมมองของพื้นเมือง ซึ่งประโยค
ขอบเขตไม่เพียงงานเพื่อพิจารณาบริบทรอบ ๆพื้นที่
แต่ยังกระบวนการตัดสินท่อระหว่าง
แตกก่อน และพิจารณาพื้นที่ นอกจากนี้การวิจัย [ 13 ] พิสูจน์
ในการทำนายแบ่งวลีที่เกี่ยวข้องอย่างใกล้ชิดเพื่อการศึกษา
โดยใช้คุณลักษณะที่เชื่อมโยงกับท่อ สามารถเพิ่มประสิทธิภาพ ดังนั้น ,
nwrd_sb –สามคุณลักษณะnwrd_end และ V )
พฤติกรรมสะท้อนบริบท ก้อนได้เสนอแผนภูมิ
ข้อมูลที่จำเป็น nwrd_sb ถูกเสนอจากแนวคิดที่เป็นประโยคปกติมีความยาวที่เหมาะสม ดังนั้น ,
ก้อนอยู่ในความยาว ควรมีความเป็นไปได้สูงที่จะเป็น
ทำนายว่าเป็นประโยคที่แตก

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.