CHAPTER 3. DEFINING DIVERSITY 40
appears when we are restricted such that our predictors can only output discrete class labels, as we have with Decision Trees or k-nearest neighbour classifiers. In this case, the
outputs have no intrinsic ordinality between them, and so the concept of “covariance” is
not so simple. This non-ordinality also implies that we have to change our combination
function—a popular one is majority voting between the individual votes. The harder question can therefore be phrased as, “how can we quantify diversity when our predictors output
non-ordinal values and are combined by a majority vote?”.
A step toward understanding this question can be taken by considering where the biasvariance-covariance decomposition comes from: it falls neatly out of the bias-variance decomposition of the ensemble error. However, when our classification of a datapoint is either
correct or incorrect, we have a zero-one loss function (instead of the usual quadratic loss
function we used for the regression context). A number of authors have attempted to define
a bias-variance decomposition for zero-one loss functions [68, 67, 14, 42], each with their
own assumptions and shortcomings. Most recently Domingos [33] and James [58] propose
general definitions which include the original quadratic loss function as a special case. This
leads us naturally to ask the question, does there exist an analogue to the bias-variancecovariance decomposition that applies for zero-one loss functions?. If so, its formulation
of the “covariance” term will be a major stepping stone in our understanding of the role
of classification error diversity. The optimal classification error diversity will then be understood in terms of this trade-off for zero-one loss functions. This issue will be further
discussed in the Conclusions chapter.
Taking all this into account, there is simply no clear analogue of the bias-variancecovariance decomposition when we have a zero-one loss function. We instead have a number
of highly restricted theoretical results, each with their own assumptions that are probably
too strong to hold in practice. We first describe the very well-known work by Tumer and
Ghosh, on combining posterior probability estimates (ordinal values), and then turn to
considering the harder question of non-ordinal outputs.
Ordinal Outputs
Tumer and Ghosh [139, 140] provided a theoretical framework for analysing the simple
averaging combination rule when our predictor outputs are estimates of the posterior prob
บทที่ 3 การกำหนดความหลากหลาย 40แล้วเมื่อเราถูกจำกัดให้ predictors ของเราสามารถแสดงผลเฉพาะป้ายชื่อชั้นไม่ต่อเนื่อง เป็นเรามีต้นไม้ตัดสินใจหรือ k ใกล้ neighbour คำนามภาษา ในกรณีนี้ การแสดงผลได้ไม่ ordinality intrinsic ระหว่าง และดังนั้น เป็นแนวคิดของ "แปรปรวน"ไม่ให้เชื่อ นี้ไม่ใช่-ordinality ยังบ่งชี้ว่า เรามีการเปลี่ยนแปลงชุดของเราฟังก์ชันตัวหนึ่งนิยมเป็นส่วนใหญ่ออกเสียงระหว่างเสียงแต่ละ คำถามยากสามารถเป็น phrased จึงเป็น "วิธีสามารถเรากำหนดปริมาณความหลากหลายเมื่อ predictors ของเราออกค่าไม่ใช่ลำดับและมีรวม โดยคะแนนส่วนใหญ่? "สามารถนำขั้นตอนการทำความเข้าใจคำถามนี้ โดยการพิจารณาซึ่งการเน่า biasvariance แปรปรวนมาจาก: ตรงอย่างไม่เน่าผลต่างความโน้มเอียงของข้อผิดพลาดวงดนตรีได้ อย่างไรก็ตาม เมื่อเราจัดประเภทของ datapoint เป็นถูกต้อง หรือไม่ถูกต้อง มีฟังก์ชันขาดทุนศูนย์หนึ่ง (แทนการสูญเสียกำลังสองปกติฟังก์ชันเราใช้บริบทถดถอย) จำนวนผู้เขียนได้พยายามที่จะกำหนดแยกส่วนประกอบต่างอคติสำหรับฟังก์ชันการสูญเสียศูนย์หนึ่ง [68, 67, 14, 42], แต่ละของพวกเขาสมมติฐานของตัวเองและแสดง ล่าสุด ที่เสนอของ Domingos [33] และ James [58]ข้อกำหนดทั่วไปซึ่งรวมถึงฟังก์ชันกำลังสองขาดทุนเดิมเป็นกรณีพิเศษ นี้เป้าหมายเราตามธรรมชาติจะถามคำถาม มีอนาล็อกเป็นการแยกส่วนประกอบ variancecovariance ความโน้มเอียงที่ใช้ฟังก์ชันหนึ่งศูนย์ขาดทุน ถ้าเป็นเช่นนั้น การกำหนดคำว่า "แปรปรวน" จะได้หลักการก้าวหินในบทบาทของเราเข้าใจของข้อผิดพลาดการจัดประเภทความหลากหลายทางชีวภาพ แล้วจะเข้าใจความหลากหลายของข้อผิดพลาดประเภทที่ดีที่สุดในแง่ของ trade-off นี้ศูนย์หนึ่งสูญเสียฟังก์ชัน ปัญหานี้จะเพิ่มเติมกล่าวถึงในบทบทสรุปทำทั้งหมดนี้เป็นบัญชี มีเพียงอนาล็อกไม่ชัดเจนของการเน่าอคติ variancecovariance เมื่อเราได้สูญเสียศูนย์หนึ่งฟังก์ชัน เรามีตัวเลขแทนจำกัดสูงทฤษฎีผล ด้วยสมมติฐานของตนเองที่อาจแข็งแกร่งไปในปฏิบัติการ เราอธิบายการทำงานมากรู้จัก โดย Tumer ก่อน และภโฆษ บนรวมความน่าเป็นหลังประเมิน (เลขลำดับค่า), และเปิดแล้วพิจารณาคำถามที่ยากของการแสดงผลของไม่ใช่ลำดับแสดงผลเครื่องหมายสัญลักษณ์Tumer ภโฆษ [139, 140] ให้กรอบทฤษฎีในการวิเคราะห์เรียบง่ายหาค่าเฉลี่ยรวมกฎเมื่อแสดงผลจำนวนประตูของเรา ประเมิน prob หลัง
การแปล กรุณารอสักครู่..
