As Fig. 3.4 shows the information gain is 0.107012. This is calculated การแปล - As Fig. 3.4 shows the information gain is 0.107012. This is calculated ไทย วิธีการพูด

As Fig. 3.4 shows the information g

As Fig. 3.4 shows the information gain is 0.107012. This is calculated by tak
ing the old overall entropy (0.946848) minus the new overall entropy (0.839836). Note that still all persons are classified as young. However, we gained information by splitting on attribute smoker. The information gain, i.e., a reduction in entropy, was obtained because we were able to find a group of persons for which there is less variability; most smokers die young. The goal is to maximize the information
gain by selecting a particular attribute to split on. Maximizing the information gain corresponds to minimizing the entropy and heterogeneity in leaf nodes. We could also have chosen the attribute drinker first. However, this would have resulted in a smaller information gain.
The lower part of Fig. 3.4 shows what happens if we split the set of nonsmokers based on attribute drinker. This results in two new leaf nodes. The node that corresponds to persons who do not smoke and do not drink has a low entropy value
(E = 0.198234). This can be explained by the fact that indeed most of the people
associated to this leaf node live long and there are only two exceptions to this rule.
The entropy of the other new leaf node (people that drink but do not smoke) is again close two one. However, the overall entropy is clearly reduced. The information gain is 0.076468. Since we abstract from the weight attribute we cannot further split the leaf node corresponding to people that drink but do not smoke. Moreover, it makes no sense to split the leaf node with smokers because little can be gained as the entropy is already low.
Note that splitting nodes will always reduce the overall entropy. In the extreme case, all the leaf nodes corresponds to single individuals (or individuals having exactly the same attribute values). The overall entropy is then by definition zero. However, the resulting tree is not very useful and probably has little predictive value. It is vital to realize that the decision tree is learned based on examples. For instance, if in the data set no customer ever ordered six muffins, this does not imply that this is not possible. A decision tree is “overfitting” if it depends too much on the particularities of the data used to learn it (see also Sect. 3.6). An overfitting decision tree is overly complex and performs poorly on unseen instances. Therefore, it is important to select the right attributes and to stop splitting when little can be gained.
Entropy is just one of several measures that can be used to measure the diversity in a leaf node. Another measure is the Gini index of diversity that measures the

“impurity” of a data set: G = 1 − J.k

(pi )2. If all classifications are the same, then

G = 0. G approaches 1 as there is more and more diversity. Hence, an approach can
be to select the attribute that maximizes the reduction of the G value (rather than
the E value).
See [5, 15, 52, 129] for more information (and pointers to the extensive literature) on the different strategies to build decision trees.
Decision tree learning is unrelated to process discovery, however it can be used in combination with process mining techniques. For example, process discovery techniques such as the α-algorithm help to locate all decision points in the process (e.g., the XOR/OR-splits discussed in Chap. 2). Subsequently, we can analyze each decision point using decision tree learning. The response variable is the path taken and the attributes are the data elements known at or before the decision point.
0/5000
จาก: -
เป็น: -
ผลลัพธ์ (ไทย) 1: [สำเนา]
คัดลอก!
Fig. 3.4 แสดงกำไรข้อมูลเป็น 0.107012 นี้จะถูกคำนวณ โดยตากไอเอ็นจีจะเก่ารวมเอนโทรปี (0.946848) ลบเอนโทรปีโดยรวมใหม่ (0.839836) หมายเหตุว่า ทุกคนยังแบ่งออกเป็นเยาวชน อย่างไรก็ตาม เรารับข้อมูล โดยการแบ่งในแอตทริบิวต์สูบบุหรี่ ข้อมูลกำไร ลดเอนโทรปี เช่น กล่าวเนื่องจากเรามีความสามารถในการค้นหากลุ่มบุคคลที่มีความแปรผันน้อย ผู้สูบบุหรี่ส่วนใหญ่ตายหนุ่ม เป้าหมายคือการ เพิ่มข้อมูล ได้ โดยการเลือกแอททริบิวต์เฉพาะที่แบ่งบน เพิ่มกำไรข้อมูลสอดคล้องกับย่อหน้า entropy และ heterogeneity ในโหนโหนดปลายสุด เราสามารถยังเลือก drinker แอตทริบิวต์แรกกัน อย่างไรก็ตาม นี้จะมีผลในการเพิ่มข้อมูลขนาดเล็กส่วนล่างของ Fig. 3.4 แสดงเกิดอะไรขึ้นถ้าเราแบ่งชุดของสูบบุหรี่ตามคุณลักษณะ drinker ซึ่งผลลัพธ์ในสองโหนใบใหม่ โหนดที่เกี่ยวข้องกับคนที่สูบบุหรี่ และไม่ดื่ม มีค่าเอนโทรปีต่ำ(E = 0.198234) สามารถอธิบายความจริงว่าแท้จริงคนส่วนใหญ่เกี่ยวข้องกับโหนดสาขานี้อยู่นาน และมีเพียงสองข้อยกเว้นของกฎนี้เอนโทรปีอื่น ๆ ใหม่ใบโหนด (คนที่ดื่ม แต่ควัน) เป็นอีกสองปิดหนึ่ง อย่างไรก็ตาม เอนโทรปีโดยรวมชัดเจนลดลง ได้รับข้อมูลเป็น 0.076468 ตั้งแต่เราบทคัดย่อจากแอตทริบิวต์น้ำหนัก เราไม่สามารถเพิ่มเติมแยกโหนดสาขาที่สอดคล้องกับคนที่ดื่ม แต่ไม่สูบบุหรี่ นอกจากนี้ มันทำให้รู้สึกไม่แยกโหนดสาขากับผู้สูบบุหรี่เนื่องจากน้อยสามารถรับได้เป็นเอนโทรปีแล้วต่ำสุดหมายเหตุให้ แยกโหนจะเสมอลดเอนโทรปีโดยรวม ในกรณีมาก โหนโหนดปลายสุดสอดคล้องกับบุคคลหนึ่ง (หรือบุคคลที่ไม่ตรงกับค่าที่แอททริบิวต์เดียวกัน) เอนโทรปีโดยรวมแล้วคือการนิยามศูนย์ อย่างไรก็ตาม ต้นไม้ผลเป็นประโยชน์อย่างมาก และอาจมีค่าคาดการณ์เล็กน้อย มันมีความสำคัญเพื่อทราบว่า ต้นไม้การตัดสินใจที่จะเรียนรู้ตามตัวอย่าง ตัวอย่าง ถ้าในชุดข้อมูล ลูกค้าไม่เคยสั่งมัฟฟิน 6 นี้ได้เป็นที่ไม่สามารถ ต้นไม้ตัดสินใจเป็น "overfitting" ถ้าขึ้นอยู่กับ particularities ของข้อมูลที่ใช้ในการเรียน (โปรดดู Sect. 3.6) มากเกินไป ต้นไม้การตัดสินใจ overfitting มีความซับซ้อนมากเกินไป และทำงานกับอินสแตนซ์ unseen ดังนั้น จึงเป็นสิ่งสำคัญ การเลือกแอททริบิวต์ขวา และหยุดแบ่งเมื่อน้อยสามารถได้รับเอนโทรปีเป็นเพียงหนึ่งในหลายมาตรการที่ใช้วัดความหลากหลายในโหนดสาขา ดัชนี Gini ของความหลากหลายที่วัดคือวัดอื่น "มลทิน" ของชุดข้อมูล: G = 1 − J.k (ปี่) 2. ถ้าจัดประเภททั้งหมดนั้นเหมือนกัน G = 0 G ยื่น 1 มีความหลากหลายมาก ขึ้น ดังนั้น สามารถวิธีการการเลือกแอททริบิวต์ที่วางการลดลงของค่า G (rather กว่าE ค่า)ดู [5, 15, 52, 129] สำหรับข้อมูลเพิ่มเติม (และตัวชี้ไปยังวรรณกรรมอย่างละเอียด) ในกลยุทธ์ต่าง ๆ ในการสร้างต้นไม้ตัดสินใจการเรียนรู้ต้นไม้ตัดสินใจเป็นกระบวนการค้นพบ เห็นแต่สามารถใช้ร่วมกับเทคนิคการทำเหมืองแร่ ตัวอย่าง การค้นพบเทคนิคเช่นวิธีใช้α-อัลกอริทึมเพื่อค้นหาจุดที่ตัดสินใจในกระบวนการ (เช่น การ XOR/OR-แยกกล่าวถึงใน Chap. 2) ในเวลาต่อมา เราสามารถวิเคราะห์จุดตัดสินใจแต่ละโดยใช้การเรียนรู้ต้นไม้ตัดสินใจ ตัวแปรตอบสนองเป็นเส้นทางนำ และแอตทริบิวต์ องค์ประกอบข้อมูลที่ทราบที่ หรือ ก่อนจุดตัดสินใจ
การแปล กรุณารอสักครู่..
ผลลัพธ์ (ไทย) 2:[สำเนา]
คัดลอก!
ในฐานะที่เป็นรูป 3.4 แสดงให้เห็นว่าได้รับข้อมูลที่เป็น 0.107012 นี้จะถูกคำนวณโดย tak
ไอเอ็นจีเอนโทรปีเก่าโดยรวม (0.946848) ลบเอนโทรปีใหม่โดยรวม (0.839836) โปรดทราบว่าทุกคนยังคงถูกจัดประเภทเป็นหนุ่มสาว แต่เราได้รับข้อมูลโดยการแยกสูบบุหรี่ในแอตทริบิวต์ ได้รับข้อมูลเช่นการลดลงของเอนโทรปี, ได้รับเพราะเราสามารถที่จะหากลุ่มบุคคลที่มีความแปรปรวนน้อย; สูบบุหรี่ส่วนใหญ่ตายหนุ่ม มีเป้าหมายที่จะเพิ่มข้อมูลที่
กำไรโดยการเลือกคุณลักษณะเฉพาะในการแยกบน กำไรเพิ่มข้อมูลที่สอดคล้องกับการลดเอนโทรปีและความแตกต่างในโหนดใบ นอกจากนี้เรายังจะได้รับการแต่งตั้งเมื่อเข้าแอตทริบิวต์แรก แต่นี้จะมีผลในการเพิ่มของข้อมูลที่มีขนาดเล็ก.
ส่วนล่างของรูป 3.4 แสดงให้เห็นถึงสิ่งที่เกิดขึ้นถ้าเราแยกการตั้งค่าของผู้ไม่สูบบุหรี่ขึ้นอยู่กับการดื่มแอตทริบิวต์ ซึ่งจะส่งผลในสองโหนดใบใหม่ โหนดที่สอดคล้องกับคนที่ไม่สูบบุหรี่และไม่ดื่มเครื่องดื่มที่มีค่าเอนโทรปีต่ำ
(E = 0.198234) นี้สามารถอธิบายได้ด้วยความจริงที่ว่าจริง ๆ ส่วนใหญ่ของคน
ที่เกี่ยวข้องกับโหนดใบนี้ที่มีชีวิตที่ยาวนานและมีเพียงสองข้อยกเว้นกฎนี้.
เอนโทรปีของโหนดใบใหม่อื่น ๆ (คนที่ดื่ม แต่ไม่สูบบุหรี่) เป็นอีกครั้งใกล้ สองหนึ่ง อย่างไรก็ตามเอนโทรปีโดยรวมจะลดลงอย่างเห็นได้ชัด ได้รับข้อมูลที่เป็น 0.076468 เนื่องจากเราเป็นนามธรรมจากน้ำหนักแอตทริบิวต์เราไม่สามารถแยกต่อโหนดใบที่สอดคล้องกับคนที่ดื่ม แต่ไม่สูบบุหรี่ นอกจากนี้ก็จะทำให้ความรู้สึกที่จะแยกโหนดใบที่มีผู้สูบบุหรี่ไม่ได้เพราะเล็ก ๆ น้อย ๆ จะได้รับเป็นเอนโทรปีที่มีอยู่แล้วในระดับต่ำ.
หมายเหตุโหนดแยกที่มักจะลดเอนโทรปีโดยรวม ในกรณีที่รุนแรงทุกโหนดใบสอดคล้องกับบุคคลเดียว (หรือบุคคลที่มีความตรงค่าแอตทริบิวต์เดียวกัน) เอนโทรปีโดยรวมแล้วโดยศูนย์ความหมาย แต่ต้นไม้ที่เกิดขึ้นไม่ได้เป็นประโยชน์อย่างมากและอาจมีค่าพยากรณ์เล็ก ๆ น้อย ๆ มันมีความสำคัญที่จะรู้ว่าต้นไม้ตัดสินใจจะขึ้นอยู่กับการเรียนรู้ตัวอย่าง ตัวอย่างเช่นถ้าในข้อมูลการตั้งค่าของลูกค้าที่สั่งซื้อไม่เคยหกมัฟฟินนี้ไม่ได้หมายความว่าเป็นไปไม่ได้ ต้นไม้ตัดสินใจคือ "overfitting" ถ้ามันขึ้นอยู่มากเกินไปในลักษณะเฉพาะของข้อมูลที่ใช้ในการเรียนรู้มัน (เห็นนิกาย. 3.6) ต้นไม้ตัดสินใจ overfitting มีความซับซ้อนมากเกินไปและมีประสิทธิภาพต่ำในกรณีที่มองไม่เห็น ดังนั้นจึงเป็นสิ่งสำคัญที่จะเลือกคุณลักษณะที่เหมาะสมและจะหยุดเมื่อแยกเล็ก ๆ น้อย ๆ จะได้รับ.
เอนโทรปีเป็นเพียงหนึ่งในหลายมาตรการที่สามารถนำมาใช้ในการวัดความหลากหลายในโหนดใบ มาตรการหนึ่งคือดัชนี Gini ของความหลากหลายที่วัด"ไม่บริสุทธิ์" ของชุดข้อมูล: g = 1 - Jk (ปี่) 2 ถ้าทุกคนมีการจำแนกประเภทเดียวกันแล้วG = 0 G วิธีที่ 1 ที่มีความหลากหลายมากขึ้น ดังนั้นวิธีการที่สามารถจะเลือกแอตทริบิวต์ที่เพิ่มการลดลงของค่า G (มากกว่าค่า E). ดู [5, 15, 52, 129] สำหรับข้อมูลเพิ่มเติม (และตัวชี้ไปที่กว้างขวางวรรณกรรม) ในวันที่แตกต่างกัน กลยุทธ์การสร้างต้นไม้ตัดสินใจ. การเรียนรู้การตัดสินใจต้นไม้ที่ไม่เกี่ยวข้องกับการประมวลผลการค้นพบ แต่มันสามารถนำมาใช้ร่วมกับเทคนิคการทำเหมืองกระบวนการ ยกตัวอย่างเช่นการค้นพบเทคนิคกระบวนการเช่นการช่วยเหลือα-อัลกอริทึมในการค้นหาทุกจุดตัดสินใจในกระบวนการ (เช่นแฮคเกอร์ / หรือ-แยกที่กล่าวไว้ในบทที่. 2) ต่อจากนั้นเราสามารถวิเคราะห์การตัดสินใจในแต่ละจุดโดยใช้การเรียนรู้ต้นไม้ตัดสินใจ ตัวแปรการตอบสนองเป็นเส้นทางนำและคุณลักษณะที่เป็นองค์ประกอบข้อมูลหรือที่รู้จักกันในการตัดสินใจก่อนที่จะจุด










การแปล กรุณารอสักครู่..
ผลลัพธ์ (ไทย) 3:[สำเนา]
คัดลอก!
เป็นรูปที่ 3.4 แสดงข้อมูลเป็น 0.107012 . นี้จะคำนวณโดยตาก
ing เอนโทรปีรวมเก่า ( 0.946848 ) ลบใหม่รวมเอนโทรปี ( 0.839836 ) ทราบว่า ท่านก็ยังถูกจัดเป็นหนุ่ม อย่างไรก็ตาม เราได้รับข้อมูลโดยแยกตามคุณลักษณะที่สูบบุหรี่ ข้อมูลที่ได้รับ เช่น การลดลงของเอนโทรปีได้ เพราะเราได้พบกลุ่มบุคคลซึ่งมีความแปรปรวนน้อยกว่า smokers ส่วนใหญ่ตายหนุ่ม เป้าหมายคือการเพิ่มข้อมูลโดยการเลือกคุณลักษณะเฉพาะ
แยกบน การได้รับข้อมูลที่สอดคล้องกับลดเอนโทรปีและความหลากหลายในโหนดใบ นอกจากนี้เรายังสามารถเลือก Attribute ดื่มก่อน อย่างไรก็ตามนี้จะมีผลในการได้รับข้อมูลขนาดเล็ก .
ส่วนล่างของรูปที่ 3.4 แสดงให้เห็นว่าเกิดอะไรขึ้น ถ้าเราแยกชุดของผู้ไม่สูบบุหรี่ ตามคุณลักษณะของนักดื่ม ผลลัพธ์ที่ได้สองใบ ( ใหม่ โหนดที่สอดคล้องกับผู้ที่ไม่สูบบุหรี่ และไม่ดื่มได้ต่ำค่าเอนโทรปี
( E = 0.198234 ) นี้สามารถอธิบายได้ด้วยความจริงที่ว่าส่วนใหญ่ของคน
แน่นอนเชื่อมโยงไปยังโหนดใบนี้มีชีวิตยืนยาวและมีเพียงสองข้อยกเว้นกฎนี้ .
เอนโทรปีของโหนดอื่น ๆใบใหม่ ( คนที่ดื่มแต่ไม่สูบ ) เป็นอีกครั้งปิด สอง หนึ่ง อย่างไรก็ตาม เอนโทรปีโดยรวมให้ลดลง ได้รับข้อมูลที่เป็น 0.076468 .เนื่องจากเราเป็นนามธรรมจากน้ำหนักของเราไม่สามารถเพิ่มเติมแยกใบโหนดที่สอดคล้องกับคนที่ดื่มแต่ไม่สูบบุหรี่ นอกจากนี้ มันไม่มีเหตุผลเลยที่จะแยกปมใบกับ smokers เพราะน้อยสามารถได้รับเป็นเลือดก็ต่ำ
ทราบว่าแยกโหนดจะลดเอนโทรปีรวม ในกรณีที่รุนแรงโหนดทั้งหมดที่สอดคล้องกับแต่ละบุคคล ใบเดียว ( หรือบุคคลที่มีคุณลักษณะเดียวกันเลยค่า ) โดยรวมแล้วโดยนิยามเอนโทรปีคือศูนย์ อย่างไรก็ตาม ส่งผลให้ต้นไม้ไม่มีประโยชน์มากและอาจได้ค่าพยากรณ์น้อย มันเป็นสิ่งสำคัญที่จะทราบว่าต้นไม้ การตัดสินใจจะเรียนรู้จากตัวอย่าง เช่น ถ้าในชุดข้อมูลลูกค้าที่เคยสั่ง 6 มัฟฟินนี้ไม่ได้หมายความว่ามันเป็นไปไม่ได้ โครงสร้างการตัดสินใจคือ " overfitting " ถ้ามันขึ้นอยู่มากเกินไปในลักษณะเฉพาะของข้อมูลที่ใช้ฝึก ( เห็นนิกาย 3.6 ) การ overfitting ต้นไม้ตัดสินใจซับซ้อนสุดเหวี่ยงและดําเนินงานอินสแตนซ์ที่มองไม่เห็น ดังนั้น จึงเป็นสิ่งสำคัญในการเลือกคุณลักษณะที่เหมาะสมและหยุดแบ่งเมื่อเล็ก ๆน้อย ๆสามารถได้รับ .
เอนโทรปีเป็นเพียงหนึ่งในหลายมาตรการที่สามารถใช้เพื่อวัดความหลากหลายในใบโหนด อีกวัดคือดัชนีจีนีของความหลากหลายที่มาตรการ

" บริสุทธิ์ " ของชุดข้อมูล : G = 1 − j.k

( PI ) 2 . ถ้าเรื่องเป็นแบบเดียวกันแล้ว

g = 0 กรัมวิธีการ 1 มีมากขึ้นและหลากหลายมากขึ้น ดังนั้นวิธีที่สามารถ
ต้องเลือกคุณลักษณะที่เพิ่มการลดลงของค่า g ( มากกว่า
E
เห็นคุณค่า ) [ 5 , 15 , 52 , 129 ] สำหรับข้อมูลเพิ่มเติม ( และตัวชี้ไปยังวรรณกรรม ) ในกลยุทธ์ที่แตกต่างเพื่อสร้างต้นไม้การตัดสินใจ .
การเรียนรู้ต้นไม้ตัดสินใจที่ไม่เกี่ยวข้องกับการค้นพบกระบวนการ อย่างไรก็ตาม มันสามารถใช้ในการรวมกันกับกระบวนการเทคนิคเหมืองแร่ ตัวอย่างเช่นกระบวนการค้นพบเทคนิคเช่นแอลฟาขั้นตอนวิธีที่ช่วยในการค้นหาจุดที่การตัดสินใจในกระบวนการ ( เช่น XOR / หรือแยกกล่าวถึง CHAP 2 ) ต่อมา เราสามารถวิเคราะห์การตัดสินใจแต่ละครั้งจุดโดยใช้ต้นไม้ตัดสินใจ . การตอบสนองตัวแปรเป็นเส้นทางที่ถ่าย และคุณลักษณะที่เป็นองค์ประกอบที่รู้จักกันในข้อมูลหรือก่อนตัดสินใจ
จุด .
การแปล กรุณารอสักครู่..
 
ภาษาอื่น ๆ
การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.

Copyright ©2024 I Love Translation. All reserved.

E-mail: