Natural Language Processing (NLP) p

Natural Language Processing (NLP) presumes sentencebreaking as a fundamental task. Most NLP applications such
as machine translation, information retrieval, text
summarization require input text as sentences rather than a
whole paragraph. In language with explicit sentence markers
like English, there is a possibility that the markers can cause
ambiguities for a machine. Thus, many approaches have been
proposed to determine a sentence boundary in English [1], [2].
In Thai, the problem is even obvious to the fact that there is no
explicit sentence marker which represents the end of a
sentence. Fortunately, space is generally used at the end of a
sentence in Thai writing system; however, a space does not
always indicate the end of a sentence [3], [4]. It is also used
for other purposes such as indicating clause/phrase break in a
sentence, placing before and after numerals etc. Therefore,
Thai sentence-breaking is practically regarded as the
mechanism to classify each space as either sentence-breaking
or non-sentence-breaking.
In Thai text analysis, there are few studies on sentencebreaking [5]-[9] which still do not give acceptable results.
Several researchers proposed various solutions for Thai
sentence-breaking. Ruled-based method which considered
main verb and conjunction was used to identify sentence
boundary [5]. Then, Trigram model with part-of-speech (POS)
was used to solve the problem [6]. However, it considered
only POS with restricted range of context; so some
information may not be taken into account. Then, Winnow
algorithm with left-two and right-two POS tags and words
was applied to improve the previous method and gave better
results [7]. Maximum entropy algorithm with surrounding
words was utilized to achieve the task of Thai sentencebreaking for large scale machine translation [8]. Minimum
processing time was carefully concerned in the study so
simple features and a large amount of training data were
utilized to achieve high accuracy. It gave results with higher
space-correct score than the previous ones; however, falsebreak score was still not satisfying. Recently, a study showed
that using Categorial Grammar (CG) as a main feature in Thai
sentence-breaking yielded slightly improvement from the
previous ones [9]. Nevertheless, contextual behaviour features
regarding an entire sentence rather than only a context around
a space were not taken into account.
In previous works, statistical approaches were widely used
in many NLP tasks. However, performance of statistical
approaches generally depends on training data and features.
Thus, appropriate features reflecting natural usage of each
specific NLP task were considered as a key in improving
performance and finding features reflecting a contextual
behaviour of an entire sentence are considered as a challenge
to enhance accuracy. On the other hand, there are many
researches in Thai sentence extraction [5], [10] showing
promises that rule-based method is a competitive candidate in
NLP tasks. The major advantages of rule are their
independence from inconsistent training data. Due to the
capability of statistical and rule-based approach, this study
proposes to utilize both statistical approach with contextual
behaviour features and appropriate grammar rules to improve
accuracy of Thai sentence-breaking.
This paper is structured as follows. Section II explains
Thai grammar rules. Section III describes the methodology.
Section IV illustrates experiment settings and results. Section
V consists of discussions. We draw conclusions VI.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

ภาษาประมวลผล (NLP) presumes sentencebreaking เป็นงานพื้นฐาน ส่วนใหญ่ NLP โปรแกรมประยุกต์ดังกล่าวเป็นการเรียกข้อมูล ข้อความ แปลภาษาด้วยเครื่องสรุปความต้องการป้อนข้อความเป็นประโยค แทนที่เป็นทั้งย่อหน้า ในภาษาที่มีเครื่องหมายประโยคชัดเจนเช่นภาษาอังกฤษ มีความเป็นไปได้ที่ทำให้เครื่องหมายambiguities สำหรับเครื่อง ดังนั้น ได้รับหลายวิธีเสนอการกำหนดขอบเขตของประโยคในภาษาอังกฤษ [1], [2]ในไทย ปัญหาได้ชัดเจนแม้ในความเป็นจริงว่ามีไม่เครื่องหมายประโยคชัดเจนซึ่งแสดงจุดสิ้นสุดของการประโยค โชคดี พื้นที่โดยทั่วไปใช้เมื่อสิ้นสุดการประโยคในระบบการเขียนไทย อย่างไรก็ตาม ช่องว่างไม่ได้จะระบุจุดสิ้นสุดของประโยค [3], [4] นอกจากนี้ยังใช้สำหรับวัตถุประสงค์อื่นเช่นเพื่อแสดงประโยค/วลีแบ่งในการประโยค ก่อนและ หลังตัวเลขฯลฯ ดังนั้นแบ่งประโยคไทยจริงถือเป็นการกลไกในการจัดประเภทแต่ละพื้นที่เป็นการแบ่งประโยคหรือไม่ใช่ประโยคแบ่งในการวิเคราะห์ข้อความภาษาไทย มีการศึกษาน้อย sentencebreaking [5] - [9] ซึ่งยังไม่ให้ผลลัพธ์ที่ยอมรับนักวิจัยต่าง ๆ นำเสนอโซลูชั่นต่าง ๆ สำหรับภาษาไทยประโยคแบ่ง วิธีปกครองตามที่พิจารณาใช้เพื่อระบุประโยคกริยาหลักและร่วมขอบเขต [5] แล้ว Trigram รุ่นกับส่วนของคำพูด (POS)ถูกใช้เพื่อแก้ปัญหา [6] อย่างไรก็ตาม ก็ถือว่าPOS กับหลากหลายบริบท จำกัด ดังนั้นบางข้อมูลอาจไม่นำมาพิจารณา แล้ว Winnowอัลกอริทึมซ้าย 2 ขวาสองแท็ก POS และคำใช้เพื่อปรับปรุงวิธีการก่อนหน้านี้ และให้ดียิ่งขึ้นผล [7] อัลกอริทึมของเอนโทรปีสูงสุดกับสภาพแวดล้อมมีใช้คำเพื่อให้บรรลุภารกิจของไทย sentencebreaking การแปลภาษาด้วยเครื่องขนาดใหญ่ [8] ต่ำสุดเวลาประมวลผลได้อย่างระมัดระวังเกี่ยวข้องในการศึกษาดังนั้นลักษณะการทำงานง่ายและข้อมูลการฝึกอบรมจำนวนมากใช้ให้ความแม่นยำสูง มันให้ผลสูงแก้ไขช่องว่างคะแนนกว่าก่อนหน้า อย่างไรก็ตาม falsebreak คะแนนมีความพึงพอใจไม่ยัง เมื่อเร็ว ๆ นี้ การศึกษาแสดงให้เห็นที่ใช้ไวยากรณ์ Categorial (CG) เป็นคุณลักษณะหลักในไทยประโยคแบ่งผลจากการปรับปรุงเล็กน้อยก่อนหน้านี้คน [9] อย่างไรก็ตาม พฤติกรรมบริบทคุณลักษณะเกี่ยวกับประโยคทั้งหมดมากกว่าเฉพาะบริบทรอบ ๆพื้นที่ไม่ได้ถูกนำเข้าบัญชีในผลงานก่อนหน้านี้ วิธีทางสถิติถูกใช้อย่างกว้างขวางในงาน NLP หลาย อย่างไรก็ตาม ประสิทธิภาพของสถิติวิธีขึ้นอยู่กับข้อมูลการฝึกอบรมและคุณสมบัติโดยทั่วไปดังนั้น เหมาะสมสะท้อนให้เห็นถึงการใช้ธรรมชาติของแต่ละคุณลักษณะเฉพาะงาน NLP ได้ถือเป็นคีย์ในการปรับปรุงประสิทธิภาพและค้นหาคุณลักษณะที่สะท้อนให้เห็นถึงบริบทการพฤติกรรมของประโยคทั้งหมดที่ถือเป็นความท้าทายเพื่อเพิ่มความถูกต้อง บนมืออื่น ๆ มีจำนวนมากงานวิจัยในประโยคไทยสกัด [5], [10] ที่แสดงสัญญาว่า วิธีตามกฎผู้สมัครแข่งขันในงาน NLP มีข้อได้เปรียบสำคัญของกฎของพวกเขาความเป็นอิสระจากข้อมูลการฝึกอบรมไม่สอดคล้องกัน เนื่องความสามารถของวิธีทางสถิติ และ ตามกฎ การศึกษานี้เสนอใช้ทั้งวิธีการทางสถิติกับบริบทคุณลักษณะพฤติกรรมและกฎไวยากรณ์ที่เหมาะสมเพื่อปรับปรุงความถูกต้องของประโยคแบ่งไทยกระดาษนี้มีโครงสร้างดังนี้ ส่วนที่สองอธิบายกฎไวยากรณ์ไทย ส่วน III อธิบายระเบียบวิธีการส่วน IV แสดงการตั้งค่าการทดลองและผลการ ส่วนV ประกอบด้วยสนทนา เราวาดบทสรุป VI

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

ประมวลผลภาษาธรรมชาติ (NLP) ทึกทัก sentencebreaking เป็นงานพื้นฐาน ส่วนใหญ่ใช้ NLP ดังกล่าว
เป็นเครื่องแปลภาษาการดึงข้อมูลข้อความ
สรุปต้องป้อนข้อความเป็นประโยคมากกว่า
ทั้งย่อหน้า ในภาษาที่มีเครื่องหมายประโยคอย่างชัดเจน
เช่นภาษาอังกฤษมีความเป็นไปได้ว่าเครื่องหมายที่สามารถทำให้เกิด
ความงงงวยสำหรับเครื่อง ดังนั้นวิธีการจำนวนมากได้รับ
การเสนอให้กำหนดขอบเขตประโยคในภาษาอังกฤษ [1], [2]
ในไทยเป็นปัญหาที่เห็นได้ชัดแม้ในความจริงที่ว่าไม่มี
เครื่องหมายประโยคอย่างชัดเจนซึ่งแสดงถึงการสิ้นสุดของ
ประโยค โชคดีที่พื้นที่โดยทั่วไปจะใช้ในตอนท้ายของ
ประโยคในระบบการเขียนไทย แต่พื้นที่ไม่
เคยแสดงให้เห็นจุดสิ้นสุดของประโยค [3] [4] นอกจากนี้ยังใช้
เพื่อวัตถุประสงค์อื่น ๆ เช่นการแสดงการแบ่งประโยค / วลีใน
ประโยคที่วางก่อนและหลังตัวเลข ฯลฯ ดังนั้น
ไทยประโยคทำลายได้รับการยกย่องในทางปฏิบัติเป็น
กลไกในการจัดแต่ละพื้นที่เป็นทั้งประโยคทำลาย
หรือประโยคที่ไม่ -breaking
ในการวิเคราะห์ข้อความภาษาไทยที่มีการศึกษาน้อยใน sentencebreaking [5] - [9] ซึ่งยังคงไม่ได้ให้ผลที่ยอมรับ
นักวิจัยหลายเสนอโซลูชั่นต่างๆสำหรับคนไทย
ประโยคทำลาย วิธีการที่พิจารณาตัดสินตาม
คำกริยาหลักและร่วมถูกใช้ในการระบุประโยค
ขอบเขต [5] จากนั้นรูปแบบไตรแกรมที่มีส่วนหนึ่งของคำพูด (POS)
ถูกใช้ในการแก้ปัญหา [6] แต่ก็ถือว่าเป็น
ร้านเดียวที่มีช่วง จำกัด จากบริบท; ดังนั้นบาง
ข้อมูลอาจจะไม่ถูกนำมาพิจารณา จากนั้นวินโนว์
อัลกอริทึมที่มีซ้ายและขวาสองสองแท็ก POS และคำพูดที่
ถูกนำมาใช้ในการปรับปรุงวิธีการก่อนหน้าและให้ดีกว่า
ผล [7] อัลกอริทึมเอนโทรปีสูงสุดที่มีรอบ
คำถูกนำมาใช้เพื่อให้บรรลุงานของการ sentencebreaking ไทยสำหรับเครื่องแปลภาษาขนาดใหญ่ [8] ขั้นต่ำ
เวลาการประมวลผลเป็นกังวลอย่างรอบคอบในการศึกษาเพื่อให้
มีคุณสมบัติที่ง่ายและจำนวนมากของข้อมูลการฝึกอบรมที่ถูก
นำมาใช้เพื่อให้บรรลุความแม่นยำสูง มันให้ผลที่มีความสูงกว่า
พื้นที่ที่ถูกต้องคะแนนกว่าคนก่อนหน้า; แต่คะแนน falsebreak ก็ยังไม่น่าพอใจ เมื่อเร็ว ๆ นี้การศึกษาแสดงให้เห็น
ว่าการใช้ categorial ไวยากรณ์ (CG) เป็นคุณสมบัติหลักในไทย
ประโยคทำลายผลการปรับปรุงเล็กน้อยจาก
คนก่อนหน้า [9] อย่างไรก็ตามคุณสมบัติพฤติกรรมตามบริบท
เกี่ยวกับประโยคมากกว่าเพียงบริบทรอบ
พื้นที่ไม่ได้ถูกนำมาพิจารณา
ในการทำงานก่อนหน้านี้วิธีการทางสถิติถูกนำมาใช้กันอย่างแพร่หลาย
ในงาน NLP หลาย แต่ประสิทธิภาพการทำงานของสถิติ
วิธีการทั่วไปขึ้นอยู่กับข้อมูลที่มีการฝึกอบรมและ
ดังนั้นคุณสมบัติที่เหมาะสมสะท้อนให้เห็นถึงการใช้งานที่เป็นธรรมชาติของแต่ละ
งาน NLP ที่เฉพาะเจาะจงได้รับการพิจารณาเป็นสำคัญในการปรับปรุง
ประสิทธิภาพการทำงานและหาคุณลักษณะที่สะท้อนให้เห็นถึงบริบท
พฤติกรรมของประโยคทั้งหมดจะถือว่าเป็นสิ่งที่ท้าทาย
เพื่อเพิ่มความถูกต้อง ในทางกลับกันมีหลาย
งานวิจัยในการสกัดประโยคไทย [5], [10] แสดงให้เห็น
วิธีการที่สัญญาตามกฎเป็นผู้สมัครในการแข่งขันใน
งาน NLP ข้อดีที่สำคัญของการปกครองของพวกเขาเป็น
อิสระจากข้อมูลการฝึกอบรมที่ไม่สอดคล้องกัน เนื่องจาก
ความสามารถของวิธีการทางสถิติและตามกฎการศึกษาครั้งนี้
ได้เสนอที่จะใช้วิธีการทางสถิติทั้งบริบท
คุณลักษณะพฤติกรรมและกฎไวยากรณ์ที่เหมาะสมในการปรับปรุง
ความถูกต้องของไทยประโยคทำลาย
กระดาษนี้จะมีโครงสร้างดังนี้ ส่วนครั้งที่สองอธิบาย
กฎไวยากรณ์ไทย มาตรา III อธิบายวิธีการ
แสดงให้เห็นถึงมาตรา IV ตั้งค่าการทดสอบและผลการ มาตรา
V ประกอบด้วยการอภิปราย เราวาด VI ข้อสรุป

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

การประมวลผลภาษาธรรมชาติ ( NLP ) ทึกทัก sentencebreaking เป็นงานพื้นฐาน ที่สุดของโปรแกรมดังกล่าวเป็น NLP
แปล , เครื่องดึงข้อมูลสรุปข้อความ
ต้องป้อนข้อความประโยคมากกว่า
วรรคทั้ง ในภาษาที่มีเครื่องหมาย
ชอบประโยคภาษาอังกฤษ มีความเป็นไปได้ว่า เครื่องหมายที่สามารถก่อให้เกิด
งงงวยสำหรับเครื่อง ดังนั้นหลายวิธีได้ถูกเสนอเพื่อกำหนดขอบเขต
ประโยคในภาษาอังกฤษ [ 1 ] [ 2 ] .
ในไทย ปัญหาคือ แม้ชัดเจนว่าไม่ชัดเจน ประโยค เครื่องหมาย

ซึ่งเป็นจุดสิ้นสุดของประโยค โชคดีที่พื้นที่โดยทั่วไปจะใช้ในตอนท้ายของประโยคในการเขียนภาษาไทย
ระบบ อย่างไรก็ตาม พื้นที่ไม่ได้
เสมอแสดงจบประโยค [ 3 ] [ 4 ] นอกจากนี้ยังใช้
เพื่อวัตถุประสงค์อื่น ๆเช่นแสดงประโยค / วลีแตกใน
ประโยควางก่อนและหลังตัวเลข ฯลฯ ดังนั้น
ประโยคภาษาไทยแบ่งเป็นจริงถือว่าเป็นกลไกการแบ่งพื้นที่แต่ละ

หรือ ไม่แบ่งเป็นประโยคประโยคทำลาย .
ในการวิเคราะห์ข้อความภาษาไทย มีการศึกษาน้อยใน sentencebreaking [ 5 ] [ 9 ] ที่ยังไม่ให้การยอมรับผล
นักวิจัยหลายคนเสนอโซลูชั่นต่างๆ สำหรับไทย
ประโยคที่แตก วิธีการปกครองซึ่งถือว่า
กริยาหลักและสันธานที่ใช้เพื่อระบุขอบเขตประโยค
[ 5 ] ตาม จากนั้นแบบจำลองไตรแกรม กับส่วนหนึ่งของการพูด ( POS )
ถูกใช้เพื่อแก้ปัญหา [ 6 ] อย่างไรก็ตาม ถือว่า
เพียง POS กับ จำกัด ช่วงของบริบท ดังนั้นข้อมูลบางอย่าง
อาจจะไม่นำมาพิจารณา แล้วฝัด
วิธีที่สองจากซ้ายและขวาสอง POS แท็กและคำ
ถูกนำมาใช้เพื่อปรับปรุงวิธีการเดิมและได้ผลลัพธ์ดีกว่า
[ 7 ] เอนโทรปีสูงสุดขั้นตอนวิธีด้วยคำพูดรอบ
ถูกนำมาใช้เพื่อให้บรรลุงานของคนไทย sentencebreaking สำหรับเครื่องขนาดใหญ่แปล [ 8 ] เวลาในการประมวลผลต่ำสุด
รอบคอบเกี่ยวข้องในการศึกษาเพื่อ
คุณสมบัติง่ายและจำนวนมากของข้อมูลการฝึกอบรม
ที่ใช้เพื่อให้เกิดความถูกต้องสูง มันให้ผลกับสูงกว่า
พื้นที่ถูกต้องคะแนนมากกว่าเดิม อย่างไรก็ตาม falsebreak คะแนนยังไม่เป็นที่น่าพอใจ เมื่อเร็วๆ นี้ พบว่า การใช้ไวยากรณ์ categorial
( CG ) เป็นคุณสมบัติหลักในไทย
ประโยคทำลายและการปรับปรุงเล็กน้อยจาก
ก่อนหน้านี้ [ 9 ] อย่างไรก็ตาม มีพฤติกรรมตามบริบท
เกี่ยวกับทั้งประโยคมากกว่าเพียงบริบทรอบๆ
พื้นที่ไม่ได้เข้าบัญชี
ในงานก่อนหน้านี้ วิธีการทางสถิติที่ใช้กันอย่างแพร่หลายใน NLP
งานมากมาย อย่างไรก็ตาม ประสิทธิภาพของวิธีการทางสถิติโดยทั่วไปขึ้นอยู่กับข้อมูล

ดังนั้นการฝึกอบรมและคุณสมบัติ คุณสมบัติที่เหมาะสมที่สะท้อนให้เห็นถึงการใช้ธรรมชาติของแต่ละ
เฉพาะ NLP งานถือว่าเป็นหลักในการปรับปรุง
การทำงานและการหาคุณสมบัติสะท้อนพฤติกรรมบริบท
ของประโยคทั้งหมดจะถือว่าเป็นความท้าทาย
เพื่อเพิ่มความแม่นยำ บนมืออื่น ๆมีหลายงานวิจัย
ประโยคในภาษาไทยการสกัด [ 5 ] , [ 10 ] แสดง
สัญญาว่าวิธีกฎเป็นผู้สมัครแข่งขันใน
งาน NLP ข้อดีหลักของกฎที่มีความเป็นอิสระของพวกเขา
จากข้อมูลการฝึกอบรมไม่สอดคล้องกันเนื่องจาก
ความสามารถทางสถิติและกฎแนวทางการศึกษานี้เสนอให้ใช้วิธีการทางสถิติ

มีพฤติกรรมตามบริบทและกฎไวยากรณ์ที่เหมาะสมเพื่อปรับปรุงความถูกต้องของประโยคภาษาไทยแบ่ง
.
กระดาษนี้มีโครงสร้างดังนี้ ส่วนที่สองอธิบาย
กฎไวยากรณ์ภาษาไทย ส่วนที่ 3 กล่าวถึงวิธีการ
ส่วนที่ 4 แสดงการทดลองการตั้งค่าและผลลัพธ์ ส่วน
V ประกอบด้วย การอภิปราย เราวาดรุป VI

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.