This paper reviews ve statistical

This paper reviews ve statistical tests for determining whether one learning algorithm outperforms
another on a particular learning task. These tests are compared experimentally to
determine their probability of incorrectly detecting a dierence when no dierence exists (type
1 error). Two widely-used statistical tests are shown to have high probability of Type I error in
certain situations and should never be used. These tests are (a) a test for the dierence of two
proportions and (b) a paired-dierences t test based on taking several random train/test splits.
A third test, a paired-dierences t test based on 10-fold cross-validation, exhibits somewhat
elevated probability of Type I error. A fourth test, McNemar's test, is shown to have low Type
I error. The fth test is a new test, 5x2cv, based on 5 iterations of 2-fold cross-validation.
Experiments show that this test also has good Type I error. The paper also measures the power
(ability to detect algorithm dierences when they do exist) of these tests. The cross-validated t
test is the most powerful. The 5x2cv test is shown to be slightly more powerful than McNemar's
test. The choice of the best test is determined by the computational cost of running the learning
algorithm. For algorithms that can be executed only once, McNemar's test is the only test with
acceptable Type I error. For algorithms that can be executed ten times, the 5x2cv test is
recommended, because it is slightly more powerful and because it directly measures variation
due to the choice of training set.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

กระดาษนี้รีวิวได้ทดสอบทางสถิติสำหรับการกำหนดว่า ขั้นตอนวิธีการเรียนรู้หนึ่ง outperformsอีกงานการเรียน ทดสอบเหล่านี้จะเปรียบเทียบ experimentally กับกำหนดความน่าเป็นของพวกเขาถูกตรวจ di erence เมื่อ erence ไม่ดี (ชนิดที่มีอยู่1 ข้อผิดพลาด) สองใช้สถิติทดสอบจะแสดงให้สูงน่าพิมพ์ผิดพลาดในฉันบางสถานการณ์ และไม่ควรใช้การ ทดสอบเหล่านี้คือ (ก) การทดสอบสำหรับ erence ดิสองสัดส่วนและการทดสอบที (b) erences ดิจับคู่ตามการทดสอบสุ่มรถไฟหลายแยกสามการทดสอบ การทดสอบ t erences ดิจับคู่ตาม 10-fold ข้ามตรวจสอบ จัดแสดงค่อนข้างสูงน่าพิมพ์ให้ฉันข้อผิดพลาด แสดงการทดสอบสี่ การทดสอบของ McNemar ให้ต่ำฉันผิดพลาด การทดสอบ fth ทดสอบใหม่ 5x2cv ตามแผน 5 ของขน 2-fold ตรวจสอบได้การทดลองแสดงว่า การทดสอบนี้ยังมีดีพิมพ์ฉันข้อผิดพลาด กระดาษยังวัดอำนาจ(ความสามารถในการตรวจหาอัลกอริทึม erences ดีเมื่อพวกเขามีอยู่) ของการทดสอบเหล่านี้ T ระหว่างตรวจสอบทดสอบจะมีประสิทธิภาพมากที่สุด แสดงการทดสอบ 5x2cv เพื่อให้มีประสิทธิภาพมากขึ้นเล็กน้อยกว่าของ McNemarการทดสอบ ทางเลือกของการทดสอบที่ดีที่สุดจะถูกกำหนด โดยต้นทุนที่คำนวณของการเรียนรู้การทำงานอัลกอริทึมการ อัลกอริทึมที่สามารถดำเนินการเพียงครั้งเดียว ของ McNemar ทดสอบเป็นการทดสอบเท่านั้นยอมรับพิมพ์ฉันข้อผิดพลาด สำหรับอัลกอริทึมที่สามารถดำเนินการสิบครั้ง มีการทดสอบ 5x2cvแนะนำ ได้มีประสิทธิภาพมากขึ้นเล็กน้อย และเนื่อง จากมันวัดความผันแปรโดยตรงเนื่องจากตัวเลือกของชุดการฝึกอบรม

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

ความคิดเห็นกระดาษนี้จะได้การทดสอบทางสถิติในการพิจารณาว่าเป็นหนึ่งในขั้นตอนวิธีการเรียนรู้ที่มีประสิทธิภาพดีกว่าอีกเป็นงานที่เรียนรู้โดยเฉพาะอย่างยิ่ง การทดสอบเหล่านี้มีการเปรียบเทียบการทดลองเพื่อตรวจสอบความน่าจะเป็นของพวกเขาอย่างไม่ถูกต้องตรวจสอบ di หรือไม่เมื่อการตั้ง di ไม่มีการตั้งอยู่ (ประเภท 1 ข้อผิดพลาด) สองใช้กันอย่างแพร่หลายการทดสอบทางสถิติแสดงให้เห็นว่ามีความน่าจะเป็นสูงของประเภทความผิดพลาดในบางสถานการณ์และไม่ควรที่จะนำมาใช้ การทดสอบเหล่านี้คือ (ก) การทดสอบ di หรือไม่การตั้งสองสัดส่วนและ(ข) ที่จับคู่-di? erences การทดสอบค่าทีอยู่บนพื้นฐานของการหลายรถไฟสุ่ม / ทดสอบแยก. การทดสอบที่สามที่จับคู่-di? erences การทดสอบค่าที ขึ้นอยู่กับ 10 เท่าข้ามการตรวจสอบการจัดแสดงนิทรรศการที่ค่อนข้างน่าจะเป็นสูงของประเภทความผิดพลาด การทดสอบที่สี่ของการทดสอบ McNemar คือการแสดงที่มีประเภทที่ต่ำผิดพลาด การทดสอบ FTH คือการทดสอบใหม่ 5x2cv ตั้งอยู่บนพื้นฐานของการทำซ้ำ 5 2 เท่าข้ามการตรวจสอบ. การทดลองแสดงให้เห็นว่าการทดสอบนี้ยังมีข้อผิดพลาดประเภทที่ดีฉัน กระดาษยังวัดพลังงาน(ความสามารถในการตรวจสอบขั้นตอนวิธีการดิ? erences เมื่อพวกเขาไม่อยู่) การทดสอบเหล่านี้ เสื้อข้ามการตรวจสอบการทดสอบที่มีประสิทธิภาพที่สุด การทดสอบ 5x2cv แสดงให้เห็นว่ามีประสิทธิภาพมากขึ้นเล็กน้อยกว่า McNemar ของการทดสอบ ทางเลือกของการทดสอบที่ดีที่สุดจะถูกกำหนดโดยการคำนวณค่าใช้จ่ายของการทำงานการเรียนรู้ขั้นตอนวิธี สำหรับขั้นตอนวิธีการที่สามารถดำเนินการได้เพียงครั้งเดียว McNemar ทดสอบคือการทดสอบเท่านั้นที่มีข้อผิดพลาดประเภทที่ได้รับการยอมรับ สำหรับขั้นตอนวิธีการที่สามารถดำเนินการสิบครั้งทดสอบ 5x2cv จะแนะนำเพราะมันเป็นเพียงเล็กน้อยที่มีประสิทธิภาพมากขึ้นและเพราะมันโดยตรงมาตรการการเปลี่ยนแปลงอันเนื่องมาจากการเลือกของชุดการฝึกอบรม

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

บทความนี้รีวิว ได้สถิติทดสอบเพื่อกำหนดว่าหนึ่งการเรียนรู้ขั้นตอนวิธีมีประสิทธิภาพดีกว่า
อื่นในการเรียนรู้งานที่เฉพาะเจาะจง การทดสอบเปรียบเทียบโดยพิจารณาความน่าจะเป็นของ

ไม่ถูกตรวจจับ ดิ erence เมื่อ ดิ erence ที่มีอยู่ ( ประเภท
1 ข้อผิดพลาด ) สองใช้สถิติทดสอบจะถูกแสดงให้มีความน่าจะเป็นของความคลาดเคลื่อนประเภทที่ 1 ใน
สูงบางสถานการณ์ และไม่ควรใช้ การทดสอบเหล่านี้ ( ) การทดสอบสำหรับ di erence 2
สัดส่วนและ ( ข ) เป็นคู่ ดิ erences ทดสอบตามถ่ายหลายการทดสอบแบบสุ่มรถไฟ / แยก .
ทดสอบที่สาม เป็นคู่ ดิ erences ทดสอบจาก 10 โฟลด นิทรรศการค่อนข้าง
สูงความน่าจะเป็นของประเภท ฉันข้อผิดพลาด การทดสอบที่สี่ , McNemar ทดสอบจะปรากฏได้น้อยชนิด
ฉันข้อผิดพลาดการ fth ทดสอบคือการทดสอบใหม่ 5x2cv ตามถึง 5 รอบข้ามการตรวจสอบ
การทดลองแสดงให้เห็นว่าการทดสอบนี้ยังมีดี ความผิดพลาดประเภทที่ 1 กระดาษยังวัดพลังงาน
( ความสามารถในการตรวจสอบขั้นตอนวิธีดิ erences เมื่อพวกเขาทำอยู่ ) ของการทดสอบเหล่านี้ ข้ามตรวจสอบ T
ทดสอบประสิทธิภาพมากที่สุด การ 5x2cv ทดสอบแสดงให้เห็นประสิทธิภาพของ
เล็กน้อยกว่า McNemar ทดสอบทางเลือกของการทดสอบที่ดีที่สุดจะถูกกำหนดโดยต้นทุนการคำนวณของการวิ่ง
ขั้นตอนวิธีการเรียนรู้ สำหรับขั้นตอนวิธีที่สามารถดำเนินการเพียงครั้งเดียว , McNemar Test เป็นการทดสอบเฉพาะกับ
ยอมรับความผิดพลาดประเภทที่ 1 สำหรับขั้นตอนวิธีที่สามารถรัน 10 ครั้ง 5x2cv ทดสอบ
แนะนำ เพราะมันเป็นมีประสิทธิภาพมากขึ้นเล็กน้อย และเนื่องจากมาตรการการเปลี่ยนแปลง
โดยตรงเนื่องจากทางเลือกของชุดการฝึกอบรม

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.