5. Supervised Discretization Methods
Supervised discretization methods make use of the class label when partitioning the continuous features. Among the supervised discretization methods there are the simple ones like Entropy-based discretization, Interval Merging and Splitting using χ2 Analysis [10].
5.1. Entropy Based Discretization Method
One of the supervised discretization methods, introduced by Fayyad and Irani, is called the entropy-based discretization. An entropy-based method will use the class information entropy of candidate partitions to select boundaries for discretization. Class information entropy is a measure of purity and it measures the amount of information which would be needed to specify to which class an instance belongs. It considers one big interval containing all known values of a feature and then recursively partitions this interval into smaller subintervals until some stopping criterion, for example Minimum Description Length (MDL) Principle or an optimal number of intervals is achieved thus creating multiple intervals of feature. In information theory, the entropy function for a given set S, or the expected information needed to classify a data instance in S, Info(S) is calculated as Info(S) = - Σ pi log2 (pi) Where pi is the probability of class i and is estimated as Ci/S, Ci being the total number of data instances that is of class i. A log function to the base 2 is used because the information is encoded in bits. The entropy value is bounded from below by 0, when the model has no uncertainty at all, i.e. all data instances in S belong to one of the class pi =1, and other classes contain 0 instances pj =0, i≠j. And it is bounded from the top by log2 m, where m is the number of classes in S, i.e. data instances are uniformly distributed across k classes such that pi=1/m for all. Based on this entropy measure, J. Ross Quinlan developed an algorithm called Iterative Dichotomiser 3 (ID3) to induce best split point in decision trees. ID3 employs a greedy search to find potential split-points within the existing range of continuous values using the following formula:
In the equation, pj,left and p j,right are probabilities that an instances, belong to class j, is on the left or right side of a potential split-point T. The split-point with the lowest entropy is chosen to split the range into two intervals, and the binary split is continued with each part until a stopping criterion is satisfied. Fayyad and Irani propose a stopping criterion for this generalization using the minimum description length principle (MDLP) that stops the splitting when InfoGain(S, T) = Info(S) – Info(S, T) < δ Where T is a potential interval boundary that splits S into S1 (left) and S2 (right) parts, and δ = [log2 (n-1) + log2 (3k -2) – [m Info(S) – m1 Info (S1) –m2 Info (S2)]] / n Where mi is the number of classes in each set Si and n is the total number of data instances in S.
5 วิธีการที่ไม่ต่อเนื่องภายใต้การดูแล
วิธีการไม่ต่อเนื่องภายใต้การดูแลให้การใช้ฉลากชั้นเมื่อแบ่งคุณสมบัติอย่างต่อเนื่อง ในวิธีการไม่ต่อเนื่องภายใต้การดูแลมีเป็นคนที่ง่ายๆเช่นเอนโทรปีตาม discretization ผสานช่วงเวลาและแยกใช้χ2วิเคราะห์ [10]
5.1 วิธีเอนโทรปีไม่ต่อเนื่องตาม
หนึ่งในวิธีการไม่ต่อเนื่องภายใต้การดูแล,แนะนำให้รู้จักกับ Fayyad และ irani จะเรียกว่าเอนโทรปีไม่ต่อเนื่องตาม วิธีการที่ใช้เอนโทรปีจะใช้เอนโทรปีข้อมูลการเรียนของพาร์ทิชันที่ผู้สมัครเพื่อเลือกขอบเขตการไม่ต่อเนื่อง เอนโทรปีข้อมูลการเรียนเป็นตัวชี้วัดของความบริสุทธิ์และมาตรการปริมาณของข้อมูลที่จะต้องระบุที่ชั้นเช่นเป็นมันคิดว่าช่วงเวลาที่ยิ่งใหญ่คนหนึ่งที่มีค่าที่รู้จักกันทั้งหมดของคุณสมบัติแล้วซ้ำพาร์ติชันนี้ในช่วงเวลาที่มีขนาดเล็กจน subintervals เกณฑ์การหยุดเช่นระยะเวลาในคำอธิบายขั้นต่ำ (MDL) หลักการหรือจำนวนที่เหมาะสมของช่วงเวลาที่ประสบความสำเร็จดังนั้นการสร้างหลายช่วงของคุณสมบัติ ในทฤษฎีข้อมูลฟังก์ชั่นเอนโทรปีสำหรับการตั้งค่า s ที่กำหนดหรือข้อมูลที่คาดหวังที่จำเป็นในการจัดเช่นข้อมูลใน s, ข้อมูล (s) จะถูกคำนวณเป็นข้อมูล (s) = - Σปี่ log2 (ปี่) ที่ปี่ความน่าจะเป็นของชั้นเรียนของฉันและเป็นที่คาดกันว่าเป็น CI / s CI เป็น จำนวนรวมของข้อมูลกรณีที่เป็นของฉันชั้น ฟังก์ชั่นการเข้าสู่ระบบไปยังฐานที่ 2 ถูกนำมาใช้เนื่องจากข้อมูลจะถูกเข้ารหัสในบิต ค่าเอนโทรปีกระโดดจากด้านล่างโดย 0,เมื่อรูปแบบที่ไม่มีความไม่แน่นอนที่ทุกคนเช่นกรณีข้อมูลทั้งหมดใน s เป็นหนึ่งในชั้นปี่ = 1 และชั้นเรียนอื่น ๆ มี 0 กรณี pj = 0, i ≠ญ และจะมีการกระโดดจากด้านบนโดย log2 เมตรโดยที่ m คือจำนวนของชั้นเรียนใน s เช่นกรณีที่ข้อมูลจะถูกกระจายไปทั่วชั้นเรียน k ดังกล่าวว่าปี่ = 1 / เมตรสำหรับทุก ขึ้นอยู่กับการวัดเอนโทรปีนี้เจross ควินแลนพัฒนาขั้นตอนวิธีการที่เรียกว่าย้ำ dichotomiser 3 (id3) เพื่อก่อให้เกิดการแยกจุดที่ดีที่สุดในต้นไม้ตัดสินใจ id3 พนักงานค้นหาโลภที่จะหาจุดแยกที่มีศักยภาพภายในช่วงที่มีอยู่ของค่าอย่างต่อเนื่องโดยใช้สูตรต่อไปนี้:
ในสมการ PJ ซ้ายและ PJ ขวามีความน่าจะเป็นว่ากรณีที่อยู่ในระดับเจอยู่ด้านซ้ายหรือด้านขวาของเสื้อแยกจุดที่มีศักยภาพ แยกจุดที่มีเอนโทรปีต่ำสุดคือการเลือกที่จะแบ่งช่วงเป็นสองช่วงเวลาและแยกไบนารีเป็นอย่างต่อเนื่องกันเป็นส่วนหนึ่งจนเกณฑ์การหยุดเป็นที่พอใจFayyad และ irani เสนอเกณฑ์การหยุดทั่วไปนี้ใช้ระยะเวลาในคำอธิบายหลักการขั้นต่ำ (MDLP) ที่แยกหยุดเมื่อ infogain (s, t) = ข้อมูล (s) - ข้อมูล (s, t) <δ t ที่เป็นช่วงเวลาที่มีศักยภาพ ขอบเขตที่แยก s เป็น s1 (ซ้าย) และ s2 (ขวา) ชิ้นส่วนและδ = [log2 (n-1) log2 (3k -2) - [ข้อมูลเมตร (s) - ข้อมูล m1 (S1) m2 ข้อมูล (s2)]] / n ที่ไมล์คือจำนวนของชั้นเรียนในแต่ละชุด si และ n คือจำนวนของข้อมูลในกรณีของ
การแปล กรุณารอสักครู่..