Chapter 1
Introduction
This chapter serves as an introduction to this thesis. We will begin by explaining the motivation behind this thesis, continue by introducing important
concepts and terms based on an example of Stacking, and conclude with a detailed roadmap to the subsequent chapters of this thesis to facilitate quick access
to interesting material.
1.1 Motivation
A variety of machine learning algorithms are available, e.g. decision tree learners such as C4.5 (Quinlan, 1993a), instance based learners such as IBk or KStar
(Cleary & Trigg, 1995), simple learners based on conditional probabilities such
as NaiveBayes and linear discriminants such as MLR (multi-response linear regression) – to name just a few. However, which one gives optimal or even acceptable
results for a given dataset at hand is as of now a black art. Meta-Learning approaches (Brazdil, Gama & Henry, 1994; Pfahringer et al., 2000) aim to solve
this problem by learning which classifier to choose from dataset characterization
features and the performance of simple landmark classifiers with mixed success,
but so far no reliable patterns have emerged. Some researchers rely on finetuning a single classifier which they presumably know best, while others try to
decide this question empirically on a case-by-case basis.
The predominant approach to choose classifiers empirically is to estimate
the accuracy of candidate algorithms on the problem, usually via crossvalidation1, and select the one which seems to be most accurate. Schaffer (1993) has
investigated this approach in a small study with three learning algorithms on
five UCI datasets. His conclusions are that on the one hand this procedure is
on average better than working with a single learning algorithm, but, on the
other hand, the crossvalidation procedure often picks the wrong base algorithm
on individual problems. This problem is expected to become more severe with
an increasing number of classifiers.2
1 Crossvalidation randomly splits the dataset into a fixed number of equal-sized parts, or
folds. All but one fold is used for training and the remaining fold for testing each classifier.
This procedure is repeated so that each fold is used for testing exactly once. The average
accuracy over all test folds is the crossvalidation’s estimate of the classifier’s accuracy.
2In rank comparisons, see e.g. Table 3.1, we have found that selection by crossvalidation
is usually the worst ensemble learning scheme – even with just four classifiers.
Chapter 1IntroductionThis chapter serves as an introduction to this thesis. We will begin by explaining the motivation behind this thesis, continue by introducing importantconcepts and terms based on an example of Stacking, and conclude with a detailed roadmap to the subsequent chapters of this thesis to facilitate quick accessto interesting material.1.1 MotivationA variety of machine learning algorithms are available, e.g. decision tree learners such as C4.5 (Quinlan, 1993a), instance based learners such as IBk or KStar(Cleary & Trigg, 1995), simple learners based on conditional probabilities suchas NaiveBayes and linear discriminants such as MLR (multi-response linear regression) – to name just a few. However, which one gives optimal or even acceptableresults for a given dataset at hand is as of now a black art. Meta-Learning approaches (Brazdil, Gama & Henry, 1994; Pfahringer et al., 2000) aim to solvethis problem by learning which classifier to choose from dataset characterizationfeatures and the performance of simple landmark classifiers with mixed success,but so far no reliable patterns have emerged. Some researchers rely on finetuning a single classifier which they presumably know best, while others try todecide this question empirically on a case-by-case basis.The predominant approach to choose classifiers empirically is to estimatethe accuracy of candidate algorithms on the problem, usually via crossvalidation1, and select the one which seems to be most accurate. Schaffer (1993) hasinvestigated this approach in a small study with three learning algorithms on
five UCI datasets. His conclusions are that on the one hand this procedure is
on average better than working with a single learning algorithm, but, on the
other hand, the crossvalidation procedure often picks the wrong base algorithm
on individual problems. This problem is expected to become more severe with
an increasing number of classifiers.2
1 Crossvalidation randomly splits the dataset into a fixed number of equal-sized parts, or
folds. All but one fold is used for training and the remaining fold for testing each classifier.
This procedure is repeated so that each fold is used for testing exactly once. The average
accuracy over all test folds is the crossvalidation’s estimate of the classifier’s accuracy.
2In rank comparisons, see e.g. Table 3.1, we have found that selection by crossvalidation
is usually the worst ensemble learning scheme – even with just four classifiers.
การแปล กรุณารอสักครู่..
บทที่ 1 บทนํา
บทนี้ทำหน้าที่เป็นบทนำวิทยานิพนธ์ฉบับนี้ เราจะเริ่มต้นด้วยการอธิบายแรงจูงใจที่อยู่เบื้องหลังการวิจัยนี้ต่อไปโดยการแนะนำที่สำคัญ
แนวคิดและข้อตกลงตามตัวอย่างของการเรียงซ้อน และสรุปรายละเอียดของแผนงานในบทต่อมาของวิทยานิพนธ์นี้ เพื่อความสะดวกในการเข้าถึงวัสดุที่น่าสนใจ
.
1.1 แรงจูงใจความหลากหลายของอัลกอริทึมการเรียนรู้ของเครื่องจักรที่มีอยู่ เช่น การตัดสินใจของผู้เรียน เช่น โปรแกรม C4.5 ( ควินแลนต้นไม้ , , 1993a ) ตัวอย่างจากผู้เรียน เช่น ibk หรือ Kstar
( จริงๆ&เหนี่ยวไก , 1995 ) , ง่ายผู้เรียนโดยใช้เงื่อนไขความน่าจะเป็นเช่น
เป็นนา ฟ เบส์ discriminants และเชิงเส้นเช่น MLR ( การถดถอยหลายเชิงเส้น ) และชื่อ เพียงไม่กี่ อย่างไรก็ตามที่ให้ที่ดีที่สุดหรือแม้กระทั่งยอมรับ
ผลให้ข้อมูลในมือคือ ณตอนนี้เป็นสีดำศิลปะ Meta วิธีการเรียน ( brazdil กามา& , เฮนรี่ , 1994 ; pfahringer et al . , 2000 ) มุ่งมั่นที่จะแก้ไขปัญหานี้โดยการเรียนรู้ซึ่งตัว
มีให้เลือกจากชุดข้อมูลคุณสมบัติและประสิทธิภาพของคำหลักง่าย ๆ กับความสำเร็จที่ผสม
แต่ตอนนี้ไม่มีความน่าเชื่อถือ รูปแบบที่เกิดขึ้นได้ นักวิจัยบางคนพึ่ง finetuning แบบเดียวที่พวกเขาน่าจะรู้ดีที่สุด ในขณะที่คนอื่นพยายาม
ตัดสินใจคำถามเชิงประจักษ์ตามกรณี
วิธีโดดให้เลือกใช้คำเพื่อประเมินความถูกต้องของขั้นตอนวิธี
ผู้สมัครเกี่ยวกับปัญหา crossvalidation1 มักจะผ่าน ,และเลือกหนึ่งซึ่งดูเหมือนว่าจะถูกต้องที่สุด เชเฟอร์ ( 1993 )
) วิธีการนี้ในการศึกษาขนาดเล็กที่มีสามอัลกอริทึมการเรียนรู้บน UCI
5 ชุดข้อมูล ข้อสรุปของเขาว่า ในมือข้างหนึ่งขั้นตอนนี้
เฉลี่ยดีกว่าทำงานกับขั้นตอนวิธีการเรียนรู้เดี่ยว แต่ในมืออื่น ๆ ,
, ขั้นตอน crossvalidation มักจะหยิบ
ขั้นตอนวิธีผิดปัญหาของแต่ละบุคคล ปัญหานี้คาดว่าจะกลายเป็นรุนแรงมากขึ้นด้วยการเพิ่มจำนวนของคำ
2
1 crossvalidation สุ่มแยกข้อมูลเป็นจำนวนเท่ากับขนาดชิ้นส่วนหรือ
พับ แต่ทั้งหมดจะใช้สำหรับการพับและพับส่วนที่เหลือสำหรับการทดสอบแต่ละตัว .
ขั้นตอนนี้ซ้ำ เพื่อให้แต่ละพับที่ใช้สำหรับการทดสอบเดียว โดย
ความถูกต้องมากกว่าเท่าทดสอบทั้งหมดของ crossvalidation ประเมินความถูกต้องของการจำแนกตำแหน่ง .
2in เปรียบเทียบดู เช่น ตาราง 3.1 , เราได้พบว่า การ crossvalidation
มักจะเลวร้ายทั้งมวลการเรียนรู้ยิ่งขึ้น มีเพียง 4 โครงการ คือ
การแปล กรุณารอสักครู่..