4.1. DatasetsThree different evaluation datasets from three different  การแปล - 4.1. DatasetsThree different evaluation datasets from three different  ไทย วิธีการพูด

4.1. DatasetsThree different evalua

4.1. Datasets
Three different evaluation datasets from three different languages were used in the research reported in this paper and
are detailed as follows:
1. English–French book review dataset (En–Fr): This dataset contains Amazon book reviewing documents in both English
and French languages. This dataset was used by Prettenhofer and Stein [28]. In this dataset, the English language was
treated as the source language and the French language was treated as the target language. Documents in the English
language containing 2000 (1000 positive and 1000 negative) book reviews were used as the labelled data. A total of
4000 review documents (2000 positive and 2000 negative) were selected from the French dataset and treated as the unlabelled
data.
2. English–Chinese book review dataset (En–Ch): This dataset was selected from the Pan reviews dataset [25]. It contains
book review documents in the English and Chinese languages. As for the previous dataset, documents in the English language
containing 2000 (1000 positive and 1000 negative) book reviews were used as the labelled data. Documents in the
Chinese language containing 4000 (2000 positive and 2000 negative) book reviews were treated as the unlabelled data.
3. English–Japanese book review dataset (En–Jp): This dataset contains Amazon book review documents in the English and
Japanese languages. This dataset was also used by Prettenhofer and Stein [28]. In this dataset, the English language was
treated as the source language and the Japanese language was treated as the target language. Documents in the English
language containing 2000 (1000 positive and 1000 negative) book reviews were used as the labelled data. A total of 4000
review documents (2000 positive and 2000 negative) were selected from the Japanese dataset and treated as the unlabelled
data.
All review documents are labelled as being either positive or negative based on their sentiment polarities. Each Amazon
review has a polarity rating from zero to five stars. Zero star is the most negative review and five stats indicate the most
positive review. All reviews with rating greater than three stars are labelled as positives and those with rating less than three
stars are labelled as negatives. Reviews with three stars are discarded because their polarities are ambiguous. All the review
documents in the target languages were translated into the source language (English) using the Google translate engine.1
Table 1 shows the properties of these three evaluation datasets.
In the pre-processing step, all the English language reviews were converted into lowercase. Special symbols, words with
one character length and other unnecessary characters were eliminated from each review document. In the feature extraction
step, unigram and bi-gram patterns were extracted as sentimental patterns. To reduce the computational complexity,
especially in density estimation, we performed feature selection using the information gain technique [37]. We selected
5000 high score unigrams and bi-grams as final features. Each document was represented by a feature vector. Each entry
of a feature vector contained a feature weight. We used term presence as feature weights since this method has been confirmed as the most effective feature weighting method in sentiment classification [26,36].
0/5000
จาก: -
เป็น: -
ผลลัพธ์ (ไทย) 1: [สำเนา]
คัดลอก!
4.1 Datasetsสาม datasets ประเมินแตกต่างจากสามภาษาใช้ในการวิจัยที่รายงานในเอกสารนี้ และมีรายละเอียดดังนี้:1. อังกฤษ – ฝรั่งเศสจองชุดข้อมูลตรวจทาน (En-Fr): ชุดข้อมูลนี้ประกอบด้วยหนังสือ Amazon ที่ตรวจทานเอกสารทั้งภาษาอังกฤษและภาษาฝรั่งเศส ชุดข้อมูลนี้ถูกใช้ โดย Prettenhofer และสไตน์ [28] ในชุดข้อมูลนี้ เป็นภาษาอังกฤษบำบัดเป็นภาษาต้นฉบับและภาษาฝรั่งเศสถูกถือว่าเป็นภาษาปลายทาง เอกสารภาษาอังกฤษรีวิวหนังสือ 2000 (1000 1000 และค่าบวกค่าลบ) ที่มีภาษาที่ใช้เป็นข้อมูลมัน ผลรวมของเลือกจากชุดข้อมูลฝรั่งเศส และถือว่าเป็นการ unlabelled เอกสารทบทวน 4000 (2000 2000 และบวกลบ)ข้อมูล2. ชุดข้อมูลตรวจทานสมุดภาษาอังกฤษ – จีน (En – Ch): เลือกชุดข้อมูลนี้จากชุดข้อมูลการรีวิวจาก Pan [25] ประกอบด้วยเอกสารตรวจทานหนังสือภาษาจีนและภาษาอังกฤษ สำหรับชุดข้อมูลก่อนหน้า เอกสารภาษาอังกฤษรีวิวหนังสือ 2000 (1000 1000 และค่าบวกค่าลบ) ที่มีถูกใช้เป็นข้อมูลมัน เอกสารในการรีวิวหนังสือ 4000 (2000 2000 และบวกลบ) ที่มีภาษาจีนถูกถือว่าเป็นข้อมูลที่ unlabelled3. ชุดข้อมูลตรวจทานสมุดภาษาอังกฤษ – ญี่ปุ่น (น้ำ – Jp): ชุดข้อมูลนี้ประกอบด้วยเอกสารตรวจทานหนังสือ Amazon ในอังกฤษ และภาษาญี่ปุ่น ชุดข้อมูลนี้ยังใช้ Prettenhofer และสไตน์ [28] ในชุดข้อมูลนี้ เป็นภาษาอังกฤษบำบัดเป็นภาษาต้นฉบับและภาษาญี่ปุ่นถือว่าเป็นภาษาปลายทาง เอกสารภาษาอังกฤษรีวิวหนังสือ 2000 (1000 1000 และค่าบวกค่าลบ) ที่มีภาษาที่ใช้เป็นข้อมูลมัน จำนวน 4000เลือกจากชุดข้อมูลญี่ปุ่น และถือว่าเป็นการ unlabelled เอกสารทบทวน (2000 2000 และบวกลบ)ข้อมูลตรวจสอบเอกสารทั้งหมดที่มีมันเป็นการบวก หรือลบตามขั้วของความเชื่อมั่น อเมซอนแต่ละทบทวนการจัดอันดับของขั้วจากศูนย์ให้ห้าดาวได้ ศูนย์ดาวความคิดลบมากที่สุด และ 5 สถิติระบุมากที่สุดทบทวนบวก รีวิวทั้งหมด มีคะแนนมากกว่าสามดาวที่มันทำงานผิดพลาดและผู้ที่ มีคะแนนน้อยกว่า 3ดาวคือมันเป็นค่าลบ ด้วยสามดาวถูกละทิ้งเนื่องจากขั้วของพวกเขาไม่ชัดเจน ตรวจทานทั้งหมดengine.1 แปลเอกสารในภาษาที่แปลเป็นภาษาต้นฉบับ (ภาษาอังกฤษ) โดยใช้ Google เป้าหมายตารางที่ 1 แสดงคุณสมบัติของ datasets ประเมินสามเหล่านี้ในขั้นตอนการประมวลผลเบื้องต้น ทั้งหมดรีวิวภาษาอังกฤษได้ถูกแปลงเป็นตัวพิมพ์เล็ก สัญลักษณ์พิเศษ คำที่มีความยาวหนึ่งอักขระและอักขระอื่น ๆ ไม่จำเป็นถูกตัดออกจากเอกสารตรวจทานแต่ละ ในการสกัดคุณลักษณะขั้นตอน unigram และรูปแบบ bi-กรัมถูกสกัดเป็นลวดลายอันอ่อนหวาน เพื่อลดความซับซ้อนของการคำนวณโดยเฉพาะอย่างยิ่งในการประเมินความหนาแน่น เราทำการเลือกคุณลักษณะโดยใช้เทคนิคได้รับข้อมูล [37] เราเลือกสูง 5000 คะแนน unigrams และ bi กรัมคุณลักษณะขั้นสุดท้ายเป็นการ เอกสารแต่ละฉบับถูกแทน ด้วยเวกเตอร์คุณลักษณะ แต่ละรายการเวกเตอร์มีอยู่คุณลักษณะน้ำหนักของคุณลักษณะ เราใช้คำว่าสถานะเป็นคุณลักษณะน้ำหนักเนื่องจากวิธีการนี้ได้รับการยืนยันเป็นคุณลักษณะมีประสิทธิภาพสูงสุดน้ำหนักวิธีการในการจัดประเภทความเชื่อมั่น [26,36]
การแปล กรุณารอสักครู่..
ผลลัพธ์ (ไทย) 2:[สำเนา]
คัดลอก!
4.1 ชุดสามชุดข้อมูลการประเมินผลที่แตกต่างจากสามภาษาที่แตกต่างกันถูกนำมาใช้ในการวิจัยที่มีการรายงานในบทความนี้และมีรายละเอียดดังต่อไปนี้: 1 ชุดตรวจสอบหนังสือภาษาอังกฤษเป็นภาษาฝรั่งเศส (En-Fr): ชุดนี้ประกอบด้วยหนังสือ Amazon ตรวจสอบเอกสารทั้งภาษาอังกฤษและภาษาฝรั่งเศส ชุดนี้ถูกนำมาใช้โดย Prettenhofer และสไตน์ [28] ในชุดนี้ใช้ภาษาอังกฤษได้รับการปฏิบัติที่เป็นภาษาแหล่งที่มาและภาษาฝรั่งเศสได้รับการรักษาเป็นภาษาเป้าหมาย เอกสารในภาษาอังกฤษเป็นภาษาที่มี 2000 (1000 ในเชิงบวกและเชิงลบ 1000) วิจารณ์หนังสือถูกนำมาใช้เป็นข้อมูลที่มีข้อความ รวม4000 เอกสารการตรวจสอบ (2000 และ 2000 บวกลบ) ได้รับการคัดเลือกจากชุดข้อมูลที่ฝรั่งเศสและถือว่าเป็นป้ายกำกับข้อมูล. 2 ชุดตรวจสอบหนังสือภาษาอังกฤษภาษาจีน (En-Ch): ชุดนี้ได้รับการเลือกจากชุดข้อมูลที่แพนคิดเห็น [25] มันมีเอกสารหนังสือทบทวนในภาษาอังกฤษและภาษาจีน สำหรับชุดข้อมูลที่ก่อนหน้านี้เอกสารในภาษาอังกฤษที่มี 2000 (1000 ในเชิงบวกและเชิงลบ 1000) วิจารณ์หนังสือถูกนำมาใช้เป็นข้อมูลที่มีข้อความ เอกสารในภาษาจีนมี 4000 (2000 ในเชิงบวกและเชิงลบ 2000) วิจารณ์หนังสือได้รับการรักษาเป็นข้อมูลที่ไม่ติดฉลาก. 3 ชุดตรวจสอบหนังสือภาษาอังกฤษเป็นภาษาญี่ปุ่น (En-Jp): ชุดนี้มี Amazon เอกสารหนังสือทบทวนในภาษาอังกฤษและภาษาญี่ปุ่น ชุดนี้ยังถูกใช้โดย Prettenhofer และสไตน์ [28] ในชุดนี้ใช้ภาษาอังกฤษได้รับการปฏิบัติที่เป็นภาษาแหล่งที่มาและภาษาญี่ปุ่นได้รับการรักษาเป็นภาษาเป้าหมาย เอกสารในภาษาอังกฤษเป็นภาษาที่มี 2000 (1000 ในเชิงบวกและเชิงลบ 1000) วิจารณ์หนังสือถูกนำมาใช้เป็นข้อมูลที่มีข้อความ รวม 4000 เอกสารการตรวจสอบ (2000 และ 2000 บวกลบ) ได้รับการคัดเลือกจากชุดข้อมูลที่ญี่ปุ่นและถือว่าเป็นป้ายกำกับข้อมูล. เอกสารที่ตรวจสอบทั้งหมดมีความโดดเด่นในฐานะที่เป็นทั้งบวกหรือลบขึ้นอยู่กับความเชื่อมั่นของพวกเขาขั้ว แต่ละ Amazon ตรวจสอบมีคะแนนขั้วจากศูนย์ถึงห้าดาว ศูนย์ดาวทบทวนเชิงลบมากที่สุดและห้าสถิติแสดงให้เห็นมากที่สุดบวก ความคิดเห็นทั้งหมดที่มีคะแนนมากกว่าสามดาวได้รับการระบุว่าเป็นบวกและผู้ที่มีคะแนนน้อยกว่าสามดาวได้รับการระบุว่าเป็นเชิงลบ ความคิดเห็นที่มีสามดาวจะถูกยกเลิกเพราะขั้วของพวกเขาจะไม่ชัดเจน ทั้งหมดการตรวจสอบเอกสารในภาษาเป้าหมายที่ถูกแปลเป็นแหล่งที่มาของภาษา (อังกฤษ) โดยใช้ Google แปล engine.1 ตารางที่ 1 แสดงคุณสมบัติของชุดข้อมูลทั้งสามการประเมินผล. ในขั้นตอนก่อนการประมวลผลทุกความคิดเห็นภาษาอังกฤษถูกแปลงเป็น ตัวพิมพ์เล็ก สัญลักษณ์พิเศษคำที่มีความยาวตัวอักษรหนึ่งและตัวอักษรที่ไม่จำเป็นอื่น ๆ ที่ถูกตัดออกจากการตรวจสอบเอกสารในแต่ละ ในการสกัดคุณลักษณะขั้นตอนและรูปแบบการ unigram สองแกรมถูกสกัดเป็นรูปแบบซาบซึ้ง เพื่อลดความซับซ้อนของการคำนวณที่โดยเฉพาะอย่างยิ่งในการประมาณค่าความหนาแน่นของเราดำเนินการเลือกคุณลักษณะการใช้เทคนิคการเพิ่มของข้อมูลที่ [37] เราเลือก5000 unigrams คะแนนสูงและกรัม bi-เป็นคุณสมบัติขั้นสุดท้าย เอกสารที่แต่ละคนได้แสดงโดยเวกเตอร์คุณลักษณะ แต่ละรายการเวกเตอร์คุณลักษณะที่มีน้ำหนักคุณลักษณะ เราใช้การแสดงตนเป็นระยะน้ำหนักคุณลักษณะตั้งแต่วิธีการนี้ได้รับการยืนยันเป็นคุณสมบัติที่มีประสิทธิภาพมากที่สุดวิธีการถ่วงน้ำหนักในการจำแนกความเชื่อมั่น [26,36]





























การแปล กรุณารอสักครู่..
ผลลัพธ์ (ไทย) 3:[สำเนา]
คัดลอก!
4.1 . ข้อมูลทั้งสามต่างประเมินข้อมูลจากสามภาษาต่างๆ ที่ใช้ในการวิจัยที่รายงานในกระดาษนี้มีรายละเอียดดังนี้1 . ภาษาอังกฤษ - ภาษาฝรั่งเศสทบทวนหนังสือข้อมูล ( en ) FR ) : ข้อมูลนี้มี Amazon หนังสือเอกสารการตรวจสอบทั้งในภาษาอังกฤษและภาษาฝรั่งเศส ข้อมูลนี้ถูกใช้โดย prettenhofer และสไตน์ [ 28 ] ในชุดข้อมูลนี้ ภาษาอังกฤษคือถือว่าเป็นภาษาต้นฉบับและภาษาฝรั่งเศสถือว่าเป็นภาษาเป้าหมาย เอกสารในภาษาอังกฤษภาษาที่มี 2000 ( 1000 บวกลบ 1 ) รีวิวหนังสือที่ใช้เป็นป้ายชื่อข้อมูล รวมเอกสารทบทวน ( 2000 และ 2000 4000 บวกลบ ) ได้รับเลือกจากข้อมูลที่ฝรั่งเศส และถือว่าเป็น unlabelledข้อมูล2 . อังกฤษ–จีนหนังสือทบทวนข้อมูล ( en ) CH ) : ชุดข้อมูลนี้ถูกเลือกจากกระทะรีวิวข้อมูล [ 25 ] มันประกอบด้วยตรวจสอบเอกสาร หนังสือ ใน ภาษา อังกฤษ และจีน สำหรับข้อมูลก่อนหน้านี้ในเอกสารภาษาอังกฤษบรรจุ 2000 ( 1000 บวกลบ 1 ) รีวิวหนังสือที่ใช้เป็นป้ายชื่อข้อมูล เอกสารในภาษาจีนที่มี 4000 ( 2000 บวกลบ และ 2000 ) รีวิวหนังสือถือว่าเป็นข้อมูล unlabelled .3 . อังกฤษ–ญี่ปุ่นรีวิวหนังสือข้อมูล ( en ) JP ) : ข้อมูลนี้มี Amazon รีวิวหนังสือเอกสารในภาษาอังกฤษและภาษาภาษาญี่ปุ่น ข้อมูลนี้ถูกใช้โดย prettenhofer และสไตน์ [ 28 ] ในชุดข้อมูลนี้ ภาษาอังกฤษคือถือว่าเป็นภาษาต้นฉบับและภาษาญี่ปุ่นก็ถือว่าเป็นภาษาเป้าหมาย เอกสารในภาษาอังกฤษภาษาที่มี 2000 ( 1000 บวกลบ 1 ) รีวิวหนังสือที่ใช้เป็นป้ายชื่อข้อมูล ทั้งหมด 4000ตรวจสอบเอกสาร ( 2000 บวกลบ 2 ) สุ่มจากข้อมูลภาษาญี่ปุ่น และถือว่าเป็น unlabelledข้อมูลทบทวนเอกสารทั้งหมดมีข้อความที่เป็นประจุบวกหรือลบขึ้นอยู่กับขั้วความเชื่อมั่นของพวกเขา แต่ละ Amazonรีวิวมีขั้วคะแนนจากศูนย์ถึงห้าดาว ศูนย์สตาร์มีความคิดเห็นเชิงลบมากที่สุด และ 5 สถิติแสดงมากที่สุดความคิดเห็นที่เป็นบวก ความคิดเห็นทั้งหมดที่มีคะแนนมากกว่าสามดาวมีข้อความตามที่แจ้งและผู้ที่มีคะแนนน้อยกว่าสามดาวมีข้อความเป็นเชิงลบ รีวิว 3 ดาวถูกยกเลิกเพราะขั้วของพวกเขาจะไม่ชัดเจน ทั้งหมดรีวิวเอกสารในเป้าหมายภาษา ถูกแปลเป็นภาษา ( ภาษาอังกฤษ ) โดยใช้ Google แปลเครื่องมือ .ตารางที่ 1 แสดงคุณสมบัติของทั้งสามการประเมินผลชุดข้อมูลขั้นตอนในการประมวลผลทั้งหมดรีวิวถูกแปลงเป็นภาษาอังกฤษตัวพิมพ์เล็ก สัญลักษณ์พิเศษ คำด้วยความยาวของอักขระและตัวอักษรที่ไม่จำเป็นอื่น ๆที่ถูกตัดออกจากแต่ละทบทวนเอกสาร ในลักษณะการสกัดขั้นตอนและ unigram บิกรัมลวดลายที่เป็นรูปแบบนี้ เพื่อลดความซับซ้อนทางการคำนวณโดยเฉพาะอย่างยิ่งในการประมาณความหนาแน่น เราแสดงการเลือกคุณลักษณะโดยใช้ข้อมูลที่ได้รับเทคนิค [ 37 ] เราเลือก5 , 000 คะแนนสูงและ unigrams บิกรัมเป็นคุณสมบัติขั้นสุดท้าย เอกสารแต่ละคนได้แสดงโดยคุณสมบัติของเวกเตอร์ แต่ละรายการของเวกเตอร์คุณลักษณะที่มีอยู่คุณลักษณะน้ำหนัก เราใช้อยู่ในระยะเป็นคุณสมบัติที่น้ำหนักตั้งแต่วิธีการนี้ได้รับการยืนยันเป็นมีประสิทธิภาพมากที่สุดวิธีในการจำแนกคุณลักษณะดัชนีความเชื่อมั่น [ 26,36 ]
การแปล กรุณารอสักครู่..
 
ภาษาอื่น ๆ
การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.

Copyright ©2026 I Love Translation. All reserved.

E-mail: