IE 1062/2062: Data Mining (Fall 2011)
Homework Assignment 2 - Decision Trees (Due Oct. 06, 2011)
Question 1
Download the files zoo.csv (full data set with 101 records), zoo1.csv (training data set with 71
records) and zoo2.csv (testing data set with 30 records) from the course web site
(http://www.pitt.edu/~jrclass/datamining). Each record in these data sets has a number of
characteristics that are used to classify zoological objects into a "type" (the last field) such as
amphibian, bird, fish, reptile, etc.
1. Input the zoo1.csv to train the decision tree classifier (C5.0) and come up with a decision tree
to classify a new record into one of the categories (pick the "favor accuracy" option in the
C5.0 node). Make sure you examine the data first and think about what field(s) to use for the
classification scheme.
2. Rename the generated node as "fulltree" and fully unfold it while browsing it. Use this to
draw the full tree - how many leaves does it have? What is the classification accuracy on
the training dataset? You can check this through an analysis node or through a table.
3. Next, reset the option in C5.0 to choose "ruleset" as opposed to "decision tree" and generate a
new node - rename this "fullrules." Once again fully unfold the ruleset and write out the
rules for each type.
4. Compare your results from parts 2 and 3 and comment on them.
5. Next, use the "fulltree" node and an analysis node to classify the records in the testing
dataset, zoo2.csv (to do this just disconnect the zoo1.csv data source node and instead connect
a new data source node at the beginning of the data stream with zoo2.csv as the var. file).
Compare the classification accuracy here with what you saw in part 2 and comment. What
are the misclassified animals?
6. Suppose you wished to use a single level tree (i.e., 1R - just one attribute to classify) and you
use the full data set (zoo.csv) to determine this. Which of the three attributes "milk",
feathers" and "aquatic" yields the best results? Why do you think the results are so skewed
in each case?
Hint: To do this with Modeler, use a filter node between the type and the C5.0 node and for
each of the three attributes, successively filter out everything except that attribute and the
"type" field. Also, choose the "expert" option in C5.0 and set the "pruning severity" to 100
so that you don't prune anything.
Question 2
Download the datamine.csv file from the class website. This dataset is to be used to predict
whether a person in an MBA program will like a data-mining course or not. The fields for each
of the 2000 records are as below:
• GMAT: GMAT score of student
• BACHELOR: Field of BS degree (A: Arts, S: Science, E: Engineering)
• QUANT, STATS HBO, ACCT: Course rating of the student for each of the courses from
1 (lowest) to 5 (highest)
• E_COMM: Flag that is T if student intends to specialize in e-commerce, F otherwise
• DATAMINE: Course rating of the student for DATA MINING
• LIKEDM: Flag that is T if course rating for Data Mining is 4 or 5; F otherwise
1. Input the data set - our goal is to see if a new student will like Data Mining or not (i.e., to
predict LIKEDM). What should be done with the DATAMINE field?
2. Explore the relationship of LIKEDM to each individual field. What effect does each
field seem to have on LIKEDM? Use histogram nodes with LIKEDM as an overlay. For
the non-integer fields, you may wish to temporarily convert to integer representations to
get histograms or use the distribution node.
3. Create the default C5.0 tree. How many leaves does it have? What are the major
predictors of LIKEDM?
4. For each of the following, use the tree of (3) to predict whether the person will like Data
Mining
Degree GMAT Quant Stats HBO Acct E-Comm
Eng
Sci
Arts
700
500
800
3
4
2
3
5
5
2
1
4
4
3
3
T
T
F
5. Create two alternative decision trees (do each independently) by: (a) using "generality" in
the simple options; (b) decreasing pruning severity to 10 with the expert option. Contrast
these two trees with that in part (3) and comment on the differences.
Question 3
This is a computational exercise that should help you with preparing for the mid-term test. Do
this by hand (not with Modeler).
Download the dataset hwdata.csv from the course website. This dataset has 250 records used by
a mortgage company that says whether someone will purchase a second mortgage or not, based
on several factors. The data has been presorted for your convenience and also summarized in a
table alongside the data.
There are three attributes to consider when predicting whether purchase is true or false:
1. Region: Suburban or Urban
2. Marital Status: Married or Single
3. Income: High, Medium or Low
Answer the following:
1. What is the best single-attribute decision rule and what is its associated error?
2. What is the information measure of the entire data set?
3. What is the information gain for splitting on Region? Marital Status? Income? Based on
this, pick the initial attribute to split on.
4. Complete one more level of the decision tree and stop (i.e., each leaf tests no more than 2
attributes).
5. What is the overall error associated with the training data that the above tree yields?
IE 1062/2062: การทำเหมืองข้อมูล (ฤดูใบไม้ร่วง 2011)
มอบหมายการบ้าน 2 - ต้นไม้การตัดสินใจ (เนื่องจาก 6 ตุลาคม 2011)
คำถามที่ 1
ดาวน์โหลดไฟล์ zoo.csv (ข้อมูลเต็มรูปแบบชุดที่มี 101 บันทึก) zoo1.csv (ข้อมูลการฝึกอบรมชุดที่มี 71
บันทึก) และ zoo2.csv (ข้อมูลการทดสอบชุดที่มี 30 บันทึก) จากเว็บไซต์ของการเรียนการสอน
(http://www.pitt.edu/~jrclass/datamining) แต่ละบันทึกในข้อมูลชุดนี้มีจำนวนของลักษณะที่มีการใช้ในการจำแนกวัตถุสัตว์เป็น "พิมพ์" (เขตที่ผ่านมา) เช่นครึ่งบกครึ่งน้ำ, นก, ปลา, สัตว์เลื้อยคลาน ฯลฯ1 ป้อนข้อมูล zoo1.csv ในการฝึกอบรมการตัดสินใจลักษณนามต้นไม้ (C5.0) และมากับต้นไม้การตัดสินใจที่จะจัดสร้างสถิติใหม่เป็นหนึ่งในประเภท(เลือก "เข้าข้างความถูกต้อง" ในโหนด C5.0) ให้แน่ใจว่าคุณตรวจสอบข้อมูลครั้งแรกและคิดเกี่ยวกับสิ่งเขต (s) ที่จะใช้สำหรับโครงการจัดหมวดหมู่. 2 เปลี่ยนชื่อโหนดที่สร้างขึ้นเป็น "fulltree" และเต็มแฉมันในขณะที่กำลังดูมัน ใช้สิ่งนี้เพื่อวาดต้นไม้เต็มรูปแบบ - วิธีการหลายใบก็ไม่ได้? ความถูกต้องในการจัดหมวดหมู่คืออะไรชุดฝึกอบรมหรือไม่ คุณสามารถตรวจสอบนี้ผ่านการวิเคราะห์โหนดหรือผ่านโต๊ะ. 3 ถัดไปตั้งค่าตัวเลือกใน C5.0 ที่จะเลือก "ruleset" เมื่อเทียบกับ "ต้นไม้ตัดสินใจ" และสร้างโหนดใหม่- ". fullrules" เปลี่ยนชื่อนี้ อีกครั้งหนึ่งที่แฉอย่างเต็มที่ ruleset และเขียนออกกฎสำหรับแต่ละประเภท. 4 เปรียบเทียบผลของคุณจากส่วนที่ 2 และ 3 และแสดงความคิดเห็นเกี่ยวกับพวกเขา. 5 ถัดไปใช้ "fulltree" โหนดและโหนดการวิเคราะห์การจำแนกระเบียนในการทดสอบชุด, zoo2.csv (การทำเช่นนี้เพียงแค่ถอดโหนดแหล่งข้อมูล zoo1.csv และแทนที่จะเชื่อมต่อโหนดแหล่งข้อมูลใหม่ที่จุดเริ่มต้นของกระแสข้อมูลที่มี zoo2.csv เป็นไฟล์ var.) ที่. เปรียบเทียบความถูกต้องจำแนกนี่กับสิ่งที่คุณเห็นในส่วนที่ 2 และแสดงความคิดเห็น สิ่งที่เป็นสัตว์แบ่ง? 6 สมมติว่าคุณอยากจะใช้ต้นไม้ระดับเดียว (เช่น 1R - เพียงหนึ่งแอตทริบิวต์การจำแนก) และคุณใช้ข้อมูลชุดเต็มรูปแบบ(zoo.csv) เพื่อตรวจสอบนี้ ซึ่งในสามคุณลักษณะ "นม" ขนนก "และ" น้ำ "ผลตอบแทนถัวเฉลี่ยผลลัพธ์ที่ดีที่สุดทำไมคุณคิดว่าผลที่ได้จึงเบ้? ในกรณีที่แต่ละคำแนะนำ: การทำเช่นนี้กับ Modeler ใช้โหนดกรองระหว่างชนิดและ โหนด C5.0 และแต่ละสามคุณลักษณะเนื่องกรองทุกอย่างยกเว้นที่แอตทริบิวต์และ"พิมพ์" สนาม. นอกจากนี้เลือกตัวเลือก "ผู้เชี่ยวชาญ" ใน C5.0 และการตั้งค่า "ความรุนแรงการตัดแต่งกิ่ง" 100 เพื่อให้คุณ ไม่ตัดอะไร. คำถามที่ 2 ดาวน์โหลดไฟล์จากเว็บไซต์ของ datamine.csv ชั้น. ชุดนี้จะใช้ในการทำนายว่าบุคคลในหลักสูตรMBA จะชอบหลักสูตรการทำเหมืองข้อมูลหรือไม่. เขตข้อมูลสำหรับแต่ละของ2000 บันทึกมีดังนี้• GMAT: คะแนน GMAT ของนักศึกษา•ปริญญาตรีสาขาปริญญา(A: ศิลปะ, S: วิทยาศาสตร์, E: วิศวกรรม) • QUANT สถิติ HBO, ACCT: การจัดอันดับหลักสูตรของนักเรียนแต่ละ หลักสูตรจาก1 (ต่ำสุด) ถึง 5 (สูงสุด) • E_COMM ธงที่ T ถ้านักเรียนตั้งใจที่จะมีความเชี่ยวชาญใน E-commerce, F อื่น• DataMine: การจัดอันดับสนามของนักเรียนสำหรับเหมืองข้อมูล• LIKEDM ธงที่ T ถ้าแน่นอน คะแนนสำหรับการทำเหมืองข้อมูลเป็น 4 หรือ 5; F เป็นอย่างอื่น1 ป้อนข้อมูลข้อมูลชุด - เป้าหมายของเราคือเพื่อดูว่านักเรียนใหม่จะชอบการทำเหมืองข้อมูลหรือไม่ (เช่นการคาดการณ์LIKEDM) สิ่งที่ควรจะทำกับสนาม DataMine หรือไม่2 สำรวจความสัมพันธ์ของ LIKEDM เพื่อฟิลด์ของแต่ละ ผลอะไรแต่ละสนามดูเหมือนจะมีใน LIKEDM? ใช้โหนด histogram กับ LIKEDM เป็นซ้อนทับ สำหรับเขตที่ไม่ใช่จำนวนเต็มคุณอาจต้องการที่จะชั่วคราวแปลงการแสดงจำนวนเต็มได้รับhistograms หรือใช้โหนดกระจาย. 3 สร้างต้นไม้ C5.0 เริ่มต้น วิธีใบจำนวนมากก็ไม่ได้? สิ่งที่สำคัญคือการพยากรณ์ของ LIKEDM? 4 สำหรับแต่ละต่อไปนี้ใช้โครงสร้างของ (3) ที่จะคาดการณ์ว่าคนจะชอบข้อมูลการทำเหมืองแร่ปริญญาGMAT Quant สถิติ HBO บัญชี E-Comm Eng วิทย์ศิลปะ700 500 800 3 4 2 3 5 5 2 1 4 4 3 3 T T F 5 สร้างต้นไม้สองต้นการตัดสินใจทางเลือก (ทำในแต่ละอิสระ) โดย (ก) การใช้ "ทั่วไป" ในตัวเลือกที่เรียบง่าย; (ข) การลดความรุนแรงการตัดแต่งกิ่ง 10 ที่มีตัวเลือกผู้เชี่ยวชาญ คมชัดทั้งสองต้นไม้ด้วยที่ในส่วน (3) และความเห็นเกี่ยวกับความแตกต่าง. คำถามที่ 3 นี้คือการออกกำลังกายการคำนวณที่จะช่วยให้คุณมีการเตรียมความพร้อมสำหรับการทดสอบระยะกลาง ทำด้วยมือ (ไม่ได้อยู่กับ Modeler). ดาวน์โหลด hwdata.csv ชุดข้อมูลจากเว็บไซต์การเรียนการสอน ชุดนี้มี 250 บันทึกที่ใช้โดยบริษัท จำนองที่บอกว่าไม่ว่าจะเป็นคนที่จะซื้อจำนองที่สองหรือไม่ขึ้นอยู่กับปัจจัยหลายประการ ข้อมูลที่ได้รับการ presorted เพื่อความสะดวกสบายของคุณและยังสรุปไว้ในตารางข้างข้อมูล. มีสามคุณลักษณะที่ควรพิจารณาเมื่อซื้อทำนายว่าเป็นจริงหรือเท็จคือ: 1 ภูมิภาค: ชานเมืองหรือเมือง2 สถานภาพ: แต่งงานหรือเดี่ยว3 รายได้: สูงปานกลางหรือต่ำคำตอบต่อไปนี้: 1 กฎการตัดสินใจเดียวแอตทริบิวต์ที่ดีที่สุดและสิ่งที่เป็นข้อผิดพลาดที่เกี่ยวข้องคืออะไร? 2 เป็นตัวชี้วัดข้อมูลของชุดข้อมูลทั้งหมดคืออะไร? 3 กำไรข้อมูลสำหรับการแยกภาคคืออะไร? สถานภาพ? รายได้? ขึ้นอยู่กับการนี้เลือกแอตทริบิวต์เริ่มต้นที่จะแยกบน. 4 ที่สมบูรณ์ในระดับหนึ่งที่มากขึ้นของต้นไม้ตัดสินใจและหยุด (เช่นการทดสอบแต่ละใบไม่เกิน 2 คุณลักษณะ). 5 ข้อผิดพลาดโดยรวมเป็นสิ่งที่เกี่ยวข้องกับข้อมูลการฝึกอบรมที่อัตราผลตอบแทนต้นไม้ข้างต้น
การแปล กรุณารอสักครู่..