Since most recent research studies

Since most recent research studies in sentiment classification have been performed in some limited number of languages
(usually English), there are an insufficient number of labelled sentiment data existing in other languages [23]. Therefore, the
challenge arises as to how to utilise labelled sentiment resources in one language (the source language) for sentiment classification
in another language (the target language). This challenge then leads to an interesting research area called crosslingual
sentiment classification (CLSC). Most existing research works have employed automatic machine translation to
directly translate the test data from the target language into the source language [20,25,32,33]. Following this, a trained classifier
in the source language has been used to classify the translated test data.
However, term distribution between the original and the translated text document is different due to the variety in writing
styles and linguistic expressions in the various languages. It means that a term may be frequently used in one language to
express an opinion while the translation of that term is rarely used in the other language. Hence, these methods cannot reach
the level of performance of monolingual sentiment classification. To solve this problem, making use of unlabelled data from
the target language can be helpful, since this type of data is always easy to obtain and has the same term distribution as the
target language. Therefore, employing unlabelled data from the target language in the learning process is expected to result
in better classification performance in CLSC.
Semi-supervised learning [24] is a well-known technique that makes use of unlabelled data to improve classification performance.
One of the most commonly used semi-supervised learning algorithms is that of self-training. This technique is an
iterative process. Semi-supervised self-training tries to automatically label examples from unlabelled data and add them to
the initial training set in each learning cycle. The self-training process usually selects high confidence examples to add to the
training data. However, if the initial classifier in self-training is not good enough, there will be an increased probability of
adding examples having incorrect labels to the training set. Therefore, the addition of ‘‘noisy’’ examples not only cannot
increase the accuracy of the learning model, but will also gradually decrease the performance of the classifier. On the other
hand, self-training selects most confident examples to add to the training data. But these examples are not necessarily the
most informative instances (especially for discriminative classifiers, like SVM) for classifier improvement [16]. To solve these
problems, we combine the processes of self-training with active learning in order to enrich the initial training set with some
selected examples from unlabelled pool in the learning process. Active learning tries to select as few as possible the most
informative examples from unlabelled pool and label them by a human expert in order to add to the training set in an
iterative process. These two techniques (self-training and active learning) complement each other in order to increase the
performance of CLSC while reduce human labelling efforts.
In this paper, we propose a new model based on the combination of active learning and semi-supervised self-training in
order to incorporate unlabelled data from the target language into the learning process. Because active learning tries to select
the most informative examples (in most cases, the most uncertain examples), these examples may be outlier, especially in
the field of sentiment classification of user’s reviews. To avoid outlier selection in the active learning technique, we considered
the density of the selected examples in the proposed method so as to choose those informative examples that had maximum
average similarity (the more representatives) in the unlabelled data. The proposed method was then applied to book
review datasets in three different languages. Results of the experiments showed that our method effectively increased the
performance levels while reduced the human labelling effort for CLSC in comparison with some of the existing and baseline
methods.
This paper is an extended version of work published in [9]. We extend our previous work in four directions. First, we add
more description regarding problem situation and corresponding solutions and also more discussion about experimental
results. Some new findings from new experiments are also presented in this version. Secondly, more evaluation datasets
in new languages are used in the evaluation section to show the generality of the proposed model in different languages.
Thirdly, the comparison scope is extended by adding more baseline methods and one of the best performing previous
method in CLSC in order to reveal the effectiveness of the proposed model. Finally, in order to assess whether there are
signi

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

เนื่องจากได้ปฏิบัติศึกษาล่าสุดในการจัดประเภทความเชื่อมั่นในจำนวนภาษาจำกัด(ปกติภาษาอังกฤษ), มีจำนวนไม่เพียงพอของข้อมูลความเชื่อมั่นมันที่มีอยู่ในภาษาอื่น ๆ [23] ดังนั้น การความท้าทายที่เกิดขึ้นเป็นการใช้ทรัพยากรความเชื่อมั่นมันภาษาหนึ่ง (ภาษาต้นทาง) สำหรับการจัดประเภทความเชื่อมั่นในอีกภาษา (ภาษาเป้าหมาย) ความท้าทายนี้แล้วนำไปยังพื้นที่วิจัยที่น่าสนใจที่เรียกว่า crosslingualจัดประเภทความเชื่อมั่น (CLSC) งานวิจัยที่มีอยู่มากที่สุดมีพนักงานแปลภาษาด้วยเครื่องอัตโนมัติเพื่อโดยตรงแปลข้อมูลทดสอบจากภาษาเป้าหมายเป็นภาษาต้นฉบับ [20,25,32,33] นี้ classifier ฝึกดังต่อไปนี้มีการใช้ในภาษาต้นฉบับในการจัดประเภทข้อมูลทดสอบแปลอย่างไรก็ตาม กระจายระยะระหว่างต้นฉบับและเอกสารแปลเป็นอื่นเนื่องจากความหลากหลายในการเขียนรูปแบบและนิพจน์ภาษาศาสตร์ในภาษาต่าง ๆ หมายความ ว่า คำอาจจะมักใช้ในภาษาหนึ่งแสดงความเห็นในขณะที่คำแปลของคำที่ไม่ค่อยใช้ในภาษาอื่น ๆ ดังนั้น ไม่สามารถเข้าถึงวิธีการเหล่านี้ระดับของประสิทธิภาพของการจัดประเภทความเชื่อมั่น monolingual การแก้ปัญหา ใช้ข้อมูล unlabelledภาษาเป้าหมายจะมีประโยชน์ เนื่องจากข้อมูลชนิดนี้ได้ง่ายอยู่เสมอ และมีการกระจายระยะเดียวกันเป็นการภาษาเป้าหมาย ดังนั้น ใช้ข้อมูล unlabelled จากภาษาเป้าหมายในกระบวนการเรียนรู้คาดว่าจะส่งผลในประสิทธิภาพจัดประเภทใน CLSCเรียนรู้มีกึ่ง [24] เป็นเทคนิคที่ทำให้รู้จักใช้ข้อมูล unlabelled เพื่อปรับปรุงประสิทธิภาพการจัดประเภทหนึ่งของอัลกอริทึมมีกึ่งเรียนมักใช้เป็นที่ฝึกอบรมด้วยตนเอง เทคนิคนี้เป็นการกระบวนการซ้ำ มีกึ่งตนเองฝึกอบรมพยายามป้ายตัวอย่างจากข้อมูล unlabelled และเพิ่มให้โดยอัตโนมัติการฝึกเริ่มต้นที่กำหนดในแต่ละรอบการเรียนรู้ การฝึกอบรมด้วยตนเองมักจะเลือกตัวอย่างความมั่นใจสูงเพื่อเพิ่มการข้อมูลการฝึกอบรม อย่างไรก็ตาม ถ้า classifier เริ่มต้นในการฝึกอบรมด้วยตนเองไม่ดีพอ จะมีความน่าเป็นการเพิ่มขึ้นของตัวอย่างเพิ่มมีป้ายชื่อที่ไม่ถูกต้องในชุดฝึกอบรม ดังนั้น การเพิ่มตัวอย่าง ''คะ '' ไม่เพียงไม่สามารถเพิ่มความแม่นยำของแบบจำลองการเรียนรู้ แต่จะลดประสิทธิภาพของ classifier ที่ยังค่อย ๆ อื่น ๆมือ การฝึกอบรมด้วยตนเองเลือกอย่างมั่นใจมากที่สุดเพื่อเพิ่มข้อมูลการฝึกอบรม แต่ตัวอย่างเหล่านี้ไม่จำเป็นต้องการอินสแตนซ์ข้อมูลมากที่สุด (โดยเฉพาะอย่างยิ่งสำหรับ discriminative คำนามภาษา เช่น SVM) ปรับปรุง classifier [16] การแก้ปัญหาเหล่านี้ปัญหา เรารวมกระบวนการของการฝึกอบรมด้วยตนเองพร้อมเรียนรู้งานเพื่อเพิ่มการฝึกเริ่มด้วยบางตัวอย่างที่เลือกจากกลุ่ม unlabelled ในกระบวนการเรียนรู้ เรียนรู้งานพยายามเลือกน้อยที่สุดมากที่สุดตัวอย่างข้อมูลจาก unlabelled สระว่ายน้ำ และป้าย โดยผู้เชี่ยวชาญที่มนุษย์เพิ่มการฝึกอบรมที่ตั้งในการกระบวนการซ้ำ เทคนิคเหล่านี้สอง (ฝึกอบรมด้วยตนเอง และใช้งานเรียนรู้) ช่วยเสริมเพื่อเพิ่มการประสิทธิภาพของ CLSC ขณะลดความพยายามจำกัดมนุษย์ในเอกสารนี้ เราได้เสนอรูปแบบใหม่ที่ใช้การเรียนรู้ที่ใช้งานอยู่และกึ่งมีตนเองการฝึกอบรมในสั่งการรวมข้อมูล unlabelled จากภาษาเป้าหมายเป็นกระบวนการเรียนรู้ เนื่องจากการเรียนรู้ที่ใช้งานอยู่พยายามเลือกตัวอย่างข้อมูลมากที่สุด (ในกรณีส่วนใหญ่ ตัวอย่างไม่แน่นอนที่สุด), ตัวอย่างเหล่านี้อาจเป็น outlier โดยเฉพาะอย่างยิ่งในฟิลด์การจัดประเภทความเชื่อมั่นของผู้รีวิว เพื่อหลีกเลี่ยงการเลือก outlier ในเทคนิคการเรียนรู้การใช้งาน เราถือความหนาแน่นของตัวอย่างเลือกวิธีนำเสนอเพื่อเลือกตัวอย่างข้อมูลที่มีมากที่สุดคล้ายเฉลี่ย (ตัวแทนเพิ่มเติม) ในข้อมูล unlabelled แล้วใช้วิธีการนำเสนอสมุดทบทวน datasets ในสามภาษา ผลการทดลองพบว่า วิธีการของเราได้อย่างมีประสิทธิภาพเพิ่มขึ้นระดับประสิทธิภาพในขณะที่ลดความพยายาม labelling มนุษย์สำหรับ CLSC เมื่อเปรียบเทียบกับของที่มีอยู่และพื้นฐานวิธีเอกสารนี้เป็นรุ่นที่ขยายงานเผยแพร่ใน [9] เราขยายงานก่อนหน้านี้ในสี่ทิศทาง เราเพิ่มรายละเอียดเพิ่มเติมเกี่ยวกับปัญหาสถานการณ์ และแก้ไขปัญหาที่สอดคล้องกัน และยังอภิปรายเพิ่มเติมเกี่ยวกับการทดลองผลลัพธ์ที่ นอกจากนี้ยังมีแสดงบางค้นพบใหม่จากการทดลองใหม่ในรุ่นนี้ ประการที่สอง datasets ประเมินเพิ่มเติมภาษาใหม่ใช้ในส่วนของการประเมินเพื่อแสดง generality ของแบบจำลองที่นำเสนอในภาษาต่าง ๆประการ ขยายขอบเขตการเปรียบเทียบ โดยการเพิ่มวิธีพื้นฐานเพิ่มเติมและส่วนที่ดำเนินการก่อนหน้านี้อย่างใดอย่างหนึ่งวิธีการใน CLSC เพื่อแสดงประสิทธิภาพของแบบจำลองนำเสนอ ในที่สุด เพื่อประเมินว่ามีsigni

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

ตั้งแต่การศึกษาวิจัยล่าสุดในการจัดหมวดหมู่ความเชื่อมั่นได้รับการดำเนินการในบางส่วนจำนวนที่ จำกัด ของภาษา
(โดยปกติจะเป็นภาษาอังกฤษ) มีจำนวนไม่เพียงพอของข้อมูลความเชื่อมั่นที่มีข้อความที่มีอยู่ในภาษาอื่น ๆ [23] ดังนั้นความท้าทายที่เกิดขึ้นเป็นวิธีการใช้ประโยชน์จากทรัพยากรที่มีข้อความความเชื่อมั่นในภาษาหนึ่ง (ภาษาแหล่งที่มา) สำหรับการจำแนกความเชื่อมั่นในภาษาอื่น(ภาษาเป้าหมาย) ความท้าทายนี้แล้วนำไปสู่พื้นที่วิจัยที่น่าสนใจเรียกว่า crosslingual การจัดหมวดหมู่ความเชื่อมั่น (CLSC) ส่วนใหญ่งานวิจัยที่มีการจ้างงานที่มีอยู่ในเครื่องแปลภาษาอัตโนมัติเพื่อโดยตรงแปลข้อมูลจากการทดสอบภาษาเป้าหมายลงในแหล่งภาษา [20,25,32,33] ต่อไปนี้การฝึกอบรมลักษณนามในภาษาต้นฉบับที่ได้รับการใช้ในการจำแนกแปลข้อมูลการทดสอบ. อย่างไรก็ตามการจัดจำหน่ายระยะระหว่างต้นฉบับและเอกสารข้อความที่แปลที่แตกต่างกันเนื่องจากความหลากหลายในการเขียนรูปแบบและการแสดงออกทางภาษาในภาษาต่างๆ ก็หมายความว่าคำที่อาจจะใช้บ่อยในภาษาหนึ่งไปยังแสดงความเห็นในขณะที่คำแปลของคำที่ไม่ค่อยได้ใช้ในภาษาอื่น ๆ ดังนั้นวิธีการเหล่านี้ไม่สามารถเข้าถึงระดับของประสิทธิภาพการทำงานของการจัดหมวดหมู่ความเชื่อมั่นเดียว เพื่อแก้ปัญหานี้ทำให้การใช้ข้อมูลจากการปิดฉลากภาษาเป้าหมายจะมีประโยชน์เนื่องจากชนิดของข้อมูลนี้เป็นเรื่องง่ายที่จะได้รับและมีการกระจายในระยะเดียวกับภาษาเป้าหมาย ดังนั้นการใช้ข้อมูลที่ไม่ติดฉลากจากภาษาเป้าหมายในกระบวนการเรียนรู้ที่คาดว่าจะส่งผลให้ผลการดำเนินงานการจัดหมวดหมู่ที่ดีขึ้นใน CLSC. กึ่งภายใต้การดูแลการเรียนรู้ [24] เป็นเทคนิคที่รู้จักกันดีว่าทำให้การใช้ข้อมูลที่ไม่ติดฉลากเพื่อปรับปรุงประสิทธิภาพการจัดหมวดหมู่. หนึ่ง ใช้กันมากที่สุดกึ่งดูแลขั้นตอนวิธีการเรียนรู้คือการฝึกอบรมด้วยตนเอง เทคนิคนี้เป็นกระบวนการซ้ำ กึ่งภายใต้การดูแลตนเองการฝึกอบรมพยายามที่จะติดป้ายโดยอัตโนมัติตัวอย่างจากข้อมูลที่ไม่ติดฉลากและเพิ่มให้การฝึกอบรมครั้งแรกที่ตั้งอยู่ในแต่ละรอบการเรียนรู้ ขั้นตอนการฝึกอบรมตัวเองมักจะเลือกตัวอย่างความเชื่อมั่นสูงในการเพิ่มข้อมูลการฝึกอบรม แต่ถ้าลักษณนามเริ่มต้นในการฝึกอบรมตัวเองไม่ดีพอที่จะมีน่าจะเป็นที่เพิ่มขึ้นของการเพิ่มตัวอย่างที่มีฉลากไม่ถูกต้องไปยังชุดการฝึกอบรม ดังนั้นนอกเหนือจาก '' ที่มีเสียงดัง '' ตัวอย่างที่ไม่เพียง แต่ไม่สามารถเพิ่มความถูกต้องของรูปแบบการเรียนรู้แต่จะยังค่อยๆลดประสิทธิภาพการทำงานของลักษณนามที่ ที่อื่น ๆมือตัวเองเลือกตัวอย่างการฝึกอบรมมีความเชื่อมั่นมากที่สุดในการเพิ่มข้อมูลการฝึกอบรม แต่ตัวอย่างเหล่านี้ไม่จำเป็นต้องเป็นกรณีที่ข้อมูลมากที่สุด (โดยเฉพาะสำหรับจำแนกแยกแยะเช่น SVM) สำหรับการปรับปรุงจําแนก [16] เพื่อแก้ปัญหาเหล่านี้ปัญหาเรารวมกระบวนการของการฝึกอบรมด้วยตนเองกับการเรียนรู้การใช้งานในการสั่งซื้อเพื่อเพิ่มการฝึกอบรมครั้งแรกชุดที่มีบางตัวอย่างที่เลือกมาจากการปิดฉลากในกระบวนการเรียนรู้ การเรียนรู้ที่ใช้งานพยายามที่จะเลือกไม่กี่เท่าที่เป็นไปได้มากที่สุดตัวอย่างข้อมูลจากสระว่ายน้ำและการปิดฉลากฉลากพวกเขาโดยผู้เชี่ยวชาญของมนุษย์เพื่อที่จะเพิ่มให้กับชุดการฝึกอบรมในกระบวนการซ้ำ ทั้งสองเทคนิค (การฝึกอบรมด้วยตนเองและการเรียนรู้การใช้งาน) เติมเต็มซึ่งกันและกันในการสั่งซื้อเพื่อเพิ่มประสิทธิภาพการทำงานของCLSC ในขณะที่ความพยายามในการลดการติดฉลากของมนุษย์. ในบทความนี้เรานำเสนอรูปแบบใหม่จากการรวมกันของการเรียนรู้การใช้งานและกึ่งภายใต้การดูแลวิถีชีวิตตนเอง การฝึกอบรมในการสั่งซื้อที่จะรวมข้อมูลจากการปิดฉลากภาษาเป้าหมายเข้าสู่กระบวนการเรียนรู้ เพราะการเรียนรู้การใช้งานพยายามที่จะเลือกตัวอย่างข้อมูลมากที่สุด (ในกรณีส่วนใหญ่ที่มีความไม่แน่นอนตัวอย่างส่วนใหญ่) ตัวอย่างเหล่านี้อาจจะมีค่าผิดปกติโดยเฉพาะอย่างยิ่งในด้านการจัดหมวดหมู่ความเชื่อมั่นความคิดเห็นของผู้ใช้ เพื่อหลีกเลี่ยงการเลือกค่าผิดปกติในเทคนิคการเรียนรู้การใช้งานที่เราพิจารณาความหนาแน่นของตัวอย่างที่เลือกในวิธีการที่นำเสนอเพื่อให้เป็นไปเลือกผู้ตัวอย่างข้อมูลที่มีสูงสุดที่คล้ายคลึงกันเฉลี่ย(ผู้แทนมากกว่า) ในข้อมูลป้ายกำกับ วิธีการที่นำเสนอนั้นถูกนำมาใช้ในการจองชุดข้อมูลรีวิวในสามภาษาที่แตกต่างกัน ผลการทดลองแสดงให้เห็นว่าวิธีการของเราได้อย่างมีประสิทธิภาพเพิ่มขึ้นระดับประสิทธิภาพในขณะที่ลดความพยายามของมนุษย์สำหรับการติดฉลาก CLSC ในการเปรียบเทียบกับบางส่วนของที่มีอยู่และพื้นฐานวิธี. กระดาษนี้เป็นรุ่นที่ขยายของการทำงานที่ตีพิมพ์ใน [9] เราขยายงานก่อนหน้านี้ของเราในสี่ทิศทาง ครั้งแรกที่เราเพิ่มรายละเอียดเพิ่มเติมเกี่ยวกับสถานการณ์ปัญหาและการแก้ปัญหาที่สอดคล้องกันและการอภิปรายเกี่ยวกับการทดลองมากขึ้นผลการ บางคนค้นพบใหม่จากการทดลองใหม่จะถูกนำเสนอในรุ่นนี้ ประการที่สองมากขึ้นชุดข้อมูลการประเมินผลในภาษาใหม่จะถูกนำมาใช้ในส่วนของการประเมินผลเพื่อแสดงทั่วไปของรูปแบบที่นำเสนอในภาษาที่แตกต่างกัน. ประการที่สามขอบเขตการเปรียบเทียบจะขยายออกไปโดยการเพิ่มวิธีการพื้นฐานมากขึ้นและเป็นหนึ่งในดีที่สุดก่อนหน้าการดำเนินการวิธีการใน CLSC ในการสั่งซื้อ เผยให้เห็นประสิทธิภาพของรูปแบบที่นำเสนอ สุดท้ายเพื่อประเมินว่ามีนัยสำคัญ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

เนื่องจากการศึกษาวิจัยล่าสุดในหมวดหมู่ความเชื่อมั่นได้รับการ จำกัด จำนวนของภาษาบาง( ปกติภาษาอังกฤษ ) มีจำนวนไม่เพียงพอของความเชื่อมั่นว่าข้อมูลที่มีอยู่ในภาษาอื่น [ 23 ] ดังนั้นความท้าทายที่เกิดขึ้นเป็นวิธีการที่จะใช้ประโยชน์จากทรัพยากรที่มีความเชื่อมั่นในหนึ่งภาษา ( ภาษา ) เพื่อจำแนกความเชื่อมั่นในอีกภาษา ( ภาษาเป้าหมาย ) ความท้าทายนี้แล้วนำไปสู่พื้นที่การวิจัยที่น่าสนใจเรียกว่า crosslingualหมวดหมู่ความเชื่อมั่น ( clsc ) ส่วนใหญ่ที่มีอยู่งานวิจัยต้องใช้เครื่องแปลภาษาอัตโนมัติตรงแปลข้อมูลจากภาษาเป้าหมายในภาษาต้นฉบับ [ 20,25,32,33 ] แบบฝึกต่อไปนี้นี้ในภาษาต้นฉบับได้ถูกใช้ในการจัดแปลข้อมูลทดสอบ .อย่างไรก็ตาม ในระยะการกระจายระหว่างต้นฉบับและแปลเอกสารข้อความที่แตกต่างกันเนื่องจากความหลากหลายในการเขียนรูปแบบและสำนวนภาษาในภาษาต่าง ๆ มันหมายความว่า ระยะอาจจะใช้บ่อยในภาษาใดภาษาหนึ่งเพื่อแสดงความเห็นโดยการแปลคำที่ไม่ค่อยใช้ในภาษาอื่น ๆ ดังนั้น วิธีการเหล่านี้ไม่สามารถเข้าถึงระดับของประสิทธิภาพของการใช้อารมณ์ . เพื่อแก้ไขปัญหานี้ ให้ใช้ unlabelled ข้อมูลจากภาษาเป้าหมายสามารถเป็นประโยชน์ ตั้งแต่ของข้อมูลชนิดนี้จะเป็นเรื่องง่ายที่จะได้รับและมีการกระจายระยะเดียวกับภาษาเป้าหมาย ดังนั้น การใช้ข้อมูล unlabelled จากเป้าหมายภาษาในกระบวนการเรียนรู้ คาดว่าผลในการจำแนกประสิทธิภาพใน clsc .กึ่งการเรียนรู้แบบมีผู้สอน [ 24 ] เป็นเทคนิคที่รู้จักกันดีที่ทำให้การใช้ข้อมูล unlabelled เพื่อปรับปรุงประสิทธิภาพของการจำแนกประเภทหนึ่งของการใช้บ่อยที่สุดคือกึ่งเรียนรู้กลไกของการฝึกตนเอง เทคนิคนี้เป็นกระบวนการผลิตซ้ำ การฝึกตนเองพยายามกึ่งอัตโนมัติฉลากตัวอย่างจากข้อมูล unlabelled และเพิ่มพวกเขาการฝึกชุดแรกในรอบแต่ละบทเรียน ด้วยกระบวนการฝึกอบรมมักจะเลือกตัวอย่างเพิ่มเพื่อความมั่นใจสูงข้อมูลการฝึกอบรม แต่ถ้าเริ่มต้นลักษณนามในการฝึกฝนตนเองไม่ดีพอ จะมีการเพิ่มขึ้นของความน่าจะเป็นเพิ่มตัวอย่างมีฉลากที่ไม่ถูกต้องกับการตั้งค่า ดังนั้น นอกเหนือจาก ' 'noisy ' ' ตัวอย่างไม่เพียง แต่ไม่สามารถเพิ่มความถูกต้องของแบบการเรียน แต่จะค่อยๆ ลดประสิทธิภาพของลักษณนาม ในอื่น ๆมือ , การเลือกตัวอย่างด้วยตนเองมั่นใจมากที่สุดในการเพิ่มข้อมูลการฝึกอบรม แต่ตัวอย่างเหล่านี้เป็นกรณีข้อมูลส่วนใหญ่ ( โดยเฉพาะและคำลักษณนามเช่น SVM ) การปรับปรุง [ 16 ] เพื่อแก้ปัญหาเหล่านี้ปัญหาเรารวมกระบวนการของตนเองด้วยการฝึกกิจกรรมการเรียนรู้เพื่อเพิ่มเริ่มต้นด้วยบางชุดฝึกเลือกตัวอย่างจากสระ unlabelled ในกระบวนการเรียนรู้ เรียนพยายามที่จะเลือกไม่กี่ที่เป็นไปได้มากที่สุดข้อมูลตัวอย่างจากสระ unlabelled และป้ายชื่อเหล่านั้น โดยผู้เชี่ยวชาญของมนุษย์เพื่อที่จะเพิ่มการตั้งค่าในกระบวนการผลิตซ้ำ ทั้งสองเทคนิคการฝึกอบรมด้วยตนเองและการเรียนรู้ ) ประกอบกันเพื่อเพิ่มclsc ในขณะที่ลดสมรรถนะของมนุษย์ กล่าวคือ ความพยายามในกระดาษนี้เรานำเสนอรูปแบบใหม่บนพื้นฐานของการรวมกันของการเรียนรู้และฝึกฝนตนเองในการใช้กึ่งเพื่อที่จะรวมข้อมูล unlabelled จากภาษาเป้าหมายในการเรียนรู้ เพราะเรียนพยายามที่จะเลือกตัวอย่างข้อมูลส่วนใหญ่ ( ส่วนใหญ่ ที่ไม่แน่นอนมากที่สุดตัวอย่าง ) ตัวอย่างเหล่านี้อาจจะผิดปกติ โดยเฉพาะอย่างยิ่งในด้านความเชื่อมั่น การรีวิวของผู้ใช้ เพื่อหลีกเลี่ยงการเลือกค่าในเทคนิคการเรียนรู้ เราถือว่าความหนาแน่นของการเลือกตัวอย่างโดยวิธีที่เสนอเพื่อเลือกข้อมูลตัวอย่างที่ได้สูงสุดความเหมือนเฉลี่ย ( ตัวแทน ) ในข้อมูล unlabelled . วิธีการก็ใช้หนังสือตรวจสอบข้อมูลใน 3 ภาษา ผลการทดลองพบว่าวิธีการของเรามีประสิทธิภาพเพิ่มขึ้นระดับประสิทธิภาพในขณะที่ลดการติดฉลากมนุษย์พยายาม clsc เมื่อเปรียบเทียบกับของที่มีอยู่ และพื้นฐานวิธีการกระดาษนี้เป็นรุ่นที่ขยายของงานที่ตีพิมพ์ใน [ 9 ] เราขยายงานของเราก่อน ใน 4 เส้นทาง ครั้งแรกที่เราเพิ่มอธิบายเพิ่มเติมเกี่ยวกับสถานการณ์ปัญหาและแนวทางแก้ไขที่สอดคล้องกันและการอภิปรายยังเพิ่มเติมเกี่ยวกับการทดลองผลลัพธ์ ข้อมูลใหม่จากการทดลองใหม่นี้จะนำเสนอในรุ่นนี้ ประการที่สองข้อมูลการประเมินเพิ่มเติมภาษาใหม่ที่ใช้ในส่วนของการประเมินเพื่อแสดงสภาพทั่วไปของแบบจำลองในภาษาที่แตกต่างกันประการที่สาม คือ การขยายขอบเขตเพิ่มมากขึ้นพื้นฐานและวิธีหนึ่งในการแสดงที่ดีที่สุดก่อนวิธีใน clsc เพื่อเปิดเผยผลของแบบจำลอง ในที่สุด เพื่อประเมินว่ามี

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.