IE 1062/2062: Data Mining (Fall 2011)Homework Assignment 2 - Decision  การแปล - IE 1062/2062: Data Mining (Fall 2011)Homework Assignment 2 - Decision  ไทย วิธีการพูด

IE 1062/2062: Data Mining (Fall 201

IE 1062/2062: Data Mining (Fall 2011)
Homework Assignment 2 - Decision Trees (Due Oct. 06, 2011)
Question 1
Download the files zoo.csv (full data set with 101 records), zoo1.csv (training data set with 71
records) and zoo2.csv (testing data set with 30 records) from the course web site
(http://www.pitt.edu/~jrclass/datamining). Each record in these data sets has a number of
characteristics that are used to classify zoological objects into a "type" (the last field) such as
amphibian, bird, fish, reptile, etc.
1. Input the zoo1.csv to train the decision tree classifier (C5.0) and come up with a decision tree
to classify a new record into one of the categories (pick the "favor accuracy" option in the
C5.0 node). Make sure you examine the data first and think about what field(s) to use for the
classification scheme.
2. Rename the generated node as "fulltree" and fully unfold it while browsing it. Use this to
draw the full tree - how many leaves does it have? What is the classification accuracy on
the training dataset? You can check this through an analysis node or through a table.
3. Next, reset the option in C5.0 to choose "ruleset" as opposed to "decision tree" and generate a
new node - rename this "fullrules." Once again fully unfold the ruleset and write out the
rules for each type.
4. Compare your results from parts 2 and 3 and comment on them.
5. Next, use the "fulltree" node and an analysis node to classify the records in the testing
dataset, zoo2.csv (to do this just disconnect the zoo1.csv data source node and instead connect
a new data source node at the beginning of the data stream with zoo2.csv as the var. file).
Compare the classification accuracy here with what you saw in part 2 and comment. What
are the misclassified animals?
6. Suppose you wished to use a single level tree (i.e., 1R - just one attribute to classify) and you
use the full data set (zoo.csv) to determine this. Which of the three attributes "milk",
feathers" and "aquatic" yields the best results? Why do you think the results are so skewed
in each case?
Hint: To do this with Modeler, use a filter node between the type and the C5.0 node and for
each of the three attributes, successively filter out everything except that attribute and the
"type" field. Also, choose the "expert" option in C5.0 and set the "pruning severity" to 100
so that you don't prune anything.
Question 2
Download the datamine.csv file from the class website. This dataset is to be used to predict
whether a person in an MBA program will like a data-mining course or not. The fields for each
of the 2000 records are as below:
• GMAT: GMAT score of student
• BACHELOR: Field of BS degree (A: Arts, S: Science, E: Engineering)
• QUANT, STATS HBO, ACCT: Course rating of the student for each of the courses from
1 (lowest) to 5 (highest)
• E_COMM: Flag that is T if student intends to specialize in e-commerce, F otherwise
• DATAMINE: Course rating of the student for DATA MINING
• LIKEDM: Flag that is T if course rating for Data Mining is 4 or 5; F otherwise
1. Input the data set - our goal is to see if a new student will like Data Mining or not (i.e., to
predict LIKEDM). What should be done with the DATAMINE field?
2. Explore the relationship of LIKEDM to each individual field. What effect does each
field seem to have on LIKEDM? Use histogram nodes with LIKEDM as an overlay. For
the non-integer fields, you may wish to temporarily convert to integer representations to
get histograms or use the distribution node.
3. Create the default C5.0 tree. How many leaves does it have? What are the major
predictors of LIKEDM?
4. For each of the following, use the tree of (3) to predict whether the person will like Data
Mining
Degree GMAT Quant Stats HBO Acct E-Comm
Eng
Sci
Arts
700
500
800
3
4
2
3
5
5
2
1
4
4
3
3
T
T
F
5. Create two alternative decision trees (do each independently) by: (a) using "generality" in
the simple options; (b) decreasing pruning severity to 10 with the expert option. Contrast
these two trees with that in part (3) and comment on the differences.
Question 3
This is a computational exercise that should help you with preparing for the mid-term test. Do
this by hand (not with Modeler).
Download the dataset hwdata.csv from the course website. This dataset has 250 records used by
a mortgage company that says whether someone will purchase a second mortgage or not, based
on several factors. The data has been presorted for your convenience and also summarized in a
table alongside the data.
There are three attributes to consider when predicting whether purchase is true or false:
1. Region: Suburban or Urban
2. Marital Status: Married or Single
3. Income: High, Medium or Low
Answer the following:
1. What is the best single-attribute decision rule and what is its associated error?
2. What is the information measure of the entire data set?
3. What is the information gain for splitting on Region? Marital Status? Income? Based on
this, pick the initial attribute to split on.
4. Complete one more level of the decision tree and stop (i.e., each leaf tests no more than 2
attributes).
5. What is the overall error associated with the training data that the above tree yields?
0/5000
จาก: -
เป็น: -
ผลลัพธ์ (ไทย) 1: [สำเนา]
คัดลอก!
IE 1062/2062: การทำเหมืองข้อมูล (ฤดูใบไม้ร่วง 2011)กำหนดการบ้าน 2 - ต้นไม้ตัดสินใจ (ครบกำหนด 06 ตุลาคม 2011)คำถาม 1ดาวน์โหลดไฟล์ zoo.csv (ข้อมูลชุดเต็ม มีระเบียน 101), zoo1.csv (ฝึกอบรมชุดข้อมูลกับ 71เรกคอร์ด) และ zoo2.csv (ทดสอบชุดข้อมูล 30 ระเบียน) จากเว็บไซต์หลักสูตร(http://www.pitt.edu/~jrclass/datamining) แต่ละระเบียนในชุดข้อมูลเหล่านี้มีหมายเลขของลักษณะที่ใช้ในการจัดประเภทสัตว์วัตถุเป็น "ชนิด" (ฟิลด์สุดท้าย) เช่นamphibian นก ปลา สัตว์เลื้อยคลาน ฯลฯ1. ป้อน zoo1.csv รถไฟ classifier ต้นไม้การตัดสินใจ (C5.0) และมากับต้นไม้ตัดสินใจการจัดประเภทข้อมูลใหม่เป็นหนึ่งในประเภท (เลือกตัวเลือก "ชอบความถูกต้อง" ในการC5.0 โหน) ให้แน่ใจว่า คุณตรวจสอบข้อมูลก่อน และคิดว่า เขตข้อมูลเพื่อใช้สำหรับการแผนงานการจัดประเภทการ2. เปลี่ยนชื่อโหนสร้างเป็น "fulltree" และเต็มแฉขณะเรียกดูได้ ใช้ในการวาดต้นไม้เต็ม - จำนวนใบไม้ไม่ได้ ความถูกต้องจัดประเภทหรือไม่ชุดข้อมูลการฝึกอบรมหรือไม่ คุณสามารถตรวจสอบนี้ ผ่านโหนดการวิเคราะห์ หรือ ผ่านตาราง3. ถัดไป ตั้งค่าตัวเลือก C5.0 เลือก "ruleset" จำกัด "ต้นไม้การตัดสินใจ" และสร้างความโหนดใหม่ - เปลี่ยนชื่อนี้ "fullrules" แฉ ruleset และเขียนออกมาอีกครั้งอย่างเต็มกฎสำหรับแต่ละชนิด4. จากส่วนที่ 2 และ 3 ผลการเปรียบเทียบ และแสดงความคิดเห็นนั้น5. ถัดไป ใช้ "fulltree" โหนดและโหนดการวิเคราะห์เพื่อจัดประเภทข้อมูลในการทดสอบชุดข้อมูล zoo2.csv (การทำ นี้เพียงยก zoo1.csv ข้อมูลแหล่งโหน และเชื่อมต่อแทนข้อมูลใหม่แหล่งโหนที่เริ่มต้นของกระแสข้อมูลกับ zoo2.csv เป็นเพียงแฟ้ม)เปรียบเทียบการจัดประเภทความถูกต้องที่นี่ มีสิ่งที่คุณเห็นในส่วนที่ 2 และข้อคิดเห็น อะไรนะสัตว์งานบ้าง6. สมมติว่าคุณปรารถนาจะใช้ต้นไม้ระดับเดียว (เช่น 1R - เพียงหนึ่งแอททริบิวต์การจัดประเภท) และคุณใช้ชุดข้อมูลทั้งหมด (zoo.csv) การตรวจสอบนี้ ซึ่งทั้งสามคุณลักษณะ "นม"ขนนก"และ"น้ำ"ก่อให้เกิดผลดีสุด ทำไมคุณคิดว่า ผลลัพธ์เพื่อบิดเบือนหรือไม่ในแต่ละกรณีหรือไม่คำแนะนำ: ทำเช่นนี้กับ Modeler การโหนตัวกรอง ระหว่างชนิดและโหน C5.0 และสำหรับแต่ละแอตทริบิวต์สาม ติด ๆ กันกรองทุกอย่างยกเว้นที่แอตทริบิวต์และฟิลด์ "ชนิด" เลือกตัวเลือก "ใช้" ใน C5.0 ยัง และตั้งค่า "ความรุนแรงตัด" 100เพื่อให้คุณไม่ลิดอะไรคำถาม 2ดาวน์โหลดแฟ้ม datamine.csv จากเว็บไซต์ของคลาส ชุดข้อมูลนี้จะถูกใช้เพื่อทำนายว่าคนในโปรแกรม MBA จะต้องหลักสูตรการทำเหมืองข้อมูล หรือไม่ ฟิลด์สำหรับแต่ละ2000 ระเบียนจะเป็นด้านล่าง:• GMAT: คะแนน GMAT ของนักเรียน•ปริญญาตรี: สาขาปริญญา BS (a:ศิลปะ วิทยาศาสตร์ s: e:วิศวกรรม)• QUANT สถิติเอชบีโอ ด: คะแนนของนักเรียนแต่ละหลักสูตรจากหลักสูตร1 (ต่ำสุด) ถึง 5 (สูงสุด)• E_COMM: ค่าสถานะคือ T ถ้านักเรียนมีเชี่ยวชาญในอีคอมเมิร์ซ F หรือ• DATAMINE: หลักสูตรของนักศึกษาสำหรับข้อมูลที่ทำเหมืองแร่• LIKEDM: ค่าสถานะคือ T ถ้าจัดอันดับหลักสูตรสำหรับการทำเหมืองแร่ข้อมูลเป็น 4 หรือ 5 อื่น ๆ F 1. ป้อนข้อมูลชุดข้อมูล - เป้าหมายของเราจะดูถ้าเป็นนักศึกษาใหม่จะต้องทำเหมืองแร่ข้อมูล หรือไม่ (เช่น การทำนาย LIKEDM) สิ่งควรทำกับฟิลด์ DATAMINE2. สำรวจความสัมพันธ์ของ LIKEDM แต่ละเขตแต่ละ ไม่มีผลอะไรแต่ละดูเหมือน มี LIKEDM ฟิลด์หรือไม่ ใช้ฮิสโตแกรมโหนกับ LIKEDM เป็นการซ้อนทับ สำหรับฟิลด์ไม่ใช่จำนวนเต็ม คุณอาจต้องการแปลงเป็นจำนวนเต็มที่แทนการชั่วคราวดูฮิสโตแกรม หรือใช้โหนดการกระจาย3. สร้างแผนภูมิเริ่มต้น C5.0 มันไม่มีใบจำนวน หลักการคืออะไรpredictors ของ LIKEDM4. สำหรับแต่ละต่อไปนี้ ใช้แผนภูมิ (3) เพื่อทำนายว่า บุคคลจะต้องการข้อมูลการทำเหมืองแร่ปริญญา GMAT Quant สถิติเอชบีโอด E-ไชEngวิทยาศาสตร์วิศวกรรมศิลปะ700500800342355214433TTF5. สร้างต้นไม้ทั้งสองตัดสินใจอื่น (ทำรายงาน) โดย: (a) ใช้ "generality" ในตัวอย่าง (ข) ลดความรุนแรงในการตัด 10 พร้อมผู้เชี่ยวชาญ ความคมชัดต้นไม้ทั้งสองนี้กับในส่วนที่ (3) และข้อคิดเห็นบนความแตกต่างคำถาม 3นี่คือการออกกำลังกายคอมพิวเตอร์จะช่วยคุณเตรียมการสำหรับการทดสอบระยะกลาง ทำนี้ โดยตรง (ไม่มี Modeler)ดาวน์โหลด hwdata.csv ชุดข้อมูลจากเว็บไซต์หลักสูตร ชุดข้อมูลนี้มีระเบียนที่ใช้ 250บริษัทจำนองว่าว่า คนจะซื้อบ้านที่สอง หรือ ไม่ ใช้กับปัจจัยหลายประการ Presorted เพื่อความสะดวกของคุณ และยัง สรุปในข้อมูลการตารางควบคู่ไปกับข้อมูลมีแอตทริบิวต์สามพิจารณาเมื่อคาดการณ์ว่า ซื้อจริง หรือเท็จ:1. ขอบเขต: เมือง หรือชานเมือง2. สถานภาพการสมรส: แต่งงานหรือเดียว3. รายได้: สูง ปานกลาง หรือต่ำคำตอบต่อไปนี้:1 กฎการตัดสินใจแอตทริบิวต์เดียวดีที่สุดและสิ่งที่เป็นข้อผิดพลาดเกี่ยวข้องคือ2. วัดข้อมูลของชุดข้อมูลทั้งหมดคืออะไร3. อะไรคือกำไรข้อมูลสำหรับการแบ่งในภูมิภาค สถานภาพการสมรสหรือไม่ รายได้ ขึ้นอยู่กับรับที่นี้ แอตทริบิวต์เริ่มต้นแบ่งบน4. เสร็จสมบูรณ์ระดับหนึ่งเพิ่มเติมของต้นไม้การตัดสินใจ และหยุด (เช่น ใบไม้แต่ละทดสอบไม่เกิน 2แอตทริบิวต์)5. อะไรคือข้อผิดพลาดโดยรวมที่เกี่ยวข้องกับข้อมูลการฝึกอบรมที่ทำให้แผนภูมิข้างต้น
การแปล กรุณารอสักครู่..
ผลลัพธ์ (ไทย) 2:[สำเนา]
คัดลอก!
IE 1062/2062: การทำเหมืองข้อมูล (ฤดูใบไม้ร่วง 2011)
มอบหมายการบ้าน 2 - ต้นไม้การตัดสินใจ (เนื่องจาก 6 ตุลาคม 2011)
คำถามที่ 1
ดาวน์โหลดไฟล์ zoo.csv (ข้อมูลเต็มรูปแบบชุดที่มี 101 บันทึก) zoo1.csv (ข้อมูลการฝึกอบรมชุดที่มี 71
บันทึก) และ zoo2.csv (ข้อมูลการทดสอบชุดที่มี 30 บันทึก) จากเว็บไซต์ของการเรียนการสอน
(http://www.pitt.edu/~jrclass/datamining) แต่ละบันทึกในข้อมูลชุดนี้มีจำนวนของลักษณะที่มีการใช้ในการจำแนกวัตถุสัตว์เป็น "พิมพ์" (เขตที่ผ่านมา) เช่นครึ่งบกครึ่งน้ำ, นก, ปลา, สัตว์เลื้อยคลาน ฯลฯ1 ป้อนข้อมูล zoo1.csv ในการฝึกอบรมการตัดสินใจลักษณนามต้นไม้ (C5.0) และมากับต้นไม้การตัดสินใจที่จะจัดสร้างสถิติใหม่เป็นหนึ่งในประเภท(เลือก "เข้าข้างความถูกต้อง" ในโหนด C5.0) ให้แน่ใจว่าคุณตรวจสอบข้อมูลครั้งแรกและคิดเกี่ยวกับสิ่งเขต (s) ที่จะใช้สำหรับโครงการจัดหมวดหมู่. 2 เปลี่ยนชื่อโหนดที่สร้างขึ้นเป็น "fulltree" และเต็มแฉมันในขณะที่กำลังดูมัน ใช้สิ่งนี้เพื่อวาดต้นไม้เต็มรูปแบบ - วิธีการหลายใบก็ไม่ได้? ความถูกต้องในการจัดหมวดหมู่คืออะไรชุดฝึกอบรมหรือไม่ คุณสามารถตรวจสอบนี้ผ่านการวิเคราะห์โหนดหรือผ่านโต๊ะ. 3 ถัดไปตั้งค่าตัวเลือกใน C5.0 ที่จะเลือก "ruleset" เมื่อเทียบกับ "ต้นไม้ตัดสินใจ" และสร้างโหนดใหม่- ". fullrules" เปลี่ยนชื่อนี้ อีกครั้งหนึ่งที่แฉอย่างเต็มที่ ruleset และเขียนออกกฎสำหรับแต่ละประเภท. 4 เปรียบเทียบผลของคุณจากส่วนที่ 2 และ 3 และแสดงความคิดเห็นเกี่ยวกับพวกเขา. 5 ถัดไปใช้ "fulltree" โหนดและโหนดการวิเคราะห์การจำแนกระเบียนในการทดสอบชุด, zoo2.csv (การทำเช่นนี้เพียงแค่ถอดโหนดแหล่งข้อมูล zoo1.csv และแทนที่จะเชื่อมต่อโหนดแหล่งข้อมูลใหม่ที่จุดเริ่มต้นของกระแสข้อมูลที่มี zoo2.csv เป็นไฟล์ var.) ที่. เปรียบเทียบความถูกต้องจำแนกนี่กับสิ่งที่คุณเห็นในส่วนที่ 2 และแสดงความคิดเห็น สิ่งที่เป็นสัตว์แบ่ง? 6 สมมติว่าคุณอยากจะใช้ต้นไม้ระดับเดียว (เช่น 1R - เพียงหนึ่งแอตทริบิวต์การจำแนก) และคุณใช้ข้อมูลชุดเต็มรูปแบบ(zoo.csv) เพื่อตรวจสอบนี้ ซึ่งในสามคุณลักษณะ "นม" ขนนก "และ" น้ำ "ผลตอบแทนถัวเฉลี่ยผลลัพธ์ที่ดีที่สุดทำไมคุณคิดว่าผลที่ได้จึงเบ้? ในกรณีที่แต่ละคำแนะนำ: การทำเช่นนี้กับ Modeler ใช้โหนดกรองระหว่างชนิดและ โหนด C5.0 และแต่ละสามคุณลักษณะเนื่องกรองทุกอย่างยกเว้นที่แอตทริบิวต์และ"พิมพ์" สนาม. นอกจากนี้เลือกตัวเลือก "ผู้เชี่ยวชาญ" ใน C5.0 และการตั้งค่า "ความรุนแรงการตัดแต่งกิ่ง" 100 เพื่อให้คุณ ไม่ตัดอะไร. คำถามที่ 2 ดาวน์โหลดไฟล์จากเว็บไซต์ของ datamine.csv ชั้น. ชุดนี้จะใช้ในการทำนายว่าบุคคลในหลักสูตรMBA จะชอบหลักสูตรการทำเหมืองข้อมูลหรือไม่. เขตข้อมูลสำหรับแต่ละของ2000 บันทึกมีดังนี้• GMAT: คะแนน GMAT ของนักศึกษา•ปริญญาตรีสาขาปริญญา(A: ศิลปะ, S: วิทยาศาสตร์, E: วิศวกรรม) • QUANT สถิติ HBO, ACCT: การจัดอันดับหลักสูตรของนักเรียนแต่ละ หลักสูตรจาก1 (ต่ำสุด) ถึง 5 (สูงสุด) • E_COMM ธงที่ T ถ้านักเรียนตั้งใจที่จะมีความเชี่ยวชาญใน E-commerce, F อื่น• DataMine: การจัดอันดับสนามของนักเรียนสำหรับเหมืองข้อมูล• LIKEDM ธงที่ T ถ้าแน่นอน คะแนนสำหรับการทำเหมืองข้อมูลเป็น 4 หรือ 5; F เป็นอย่างอื่น1 ป้อนข้อมูลข้อมูลชุด - เป้าหมายของเราคือเพื่อดูว่านักเรียนใหม่จะชอบการทำเหมืองข้อมูลหรือไม่ (เช่นการคาดการณ์LIKEDM) สิ่งที่ควรจะทำกับสนาม DataMine หรือไม่2 สำรวจความสัมพันธ์ของ LIKEDM เพื่อฟิลด์ของแต่ละ ผลอะไรแต่ละสนามดูเหมือนจะมีใน LIKEDM? ใช้โหนด histogram กับ LIKEDM เป็นซ้อนทับ สำหรับเขตที่ไม่ใช่จำนวนเต็มคุณอาจต้องการที่จะชั่วคราวแปลงการแสดงจำนวนเต็มได้รับhistograms หรือใช้โหนดกระจาย. 3 สร้างต้นไม้ C5.0 เริ่มต้น วิธีใบจำนวนมากก็ไม่ได้? สิ่งที่สำคัญคือการพยากรณ์ของ LIKEDM? 4 สำหรับแต่ละต่อไปนี้ใช้โครงสร้างของ (3) ที่จะคาดการณ์ว่าคนจะชอบข้อมูลการทำเหมืองแร่ปริญญาGMAT Quant สถิติ HBO บัญชี E-Comm Eng วิทย์ศิลปะ700 500 800 3 4 2 3 5 5 2 1 4 4 3 3 T T F 5 สร้างต้นไม้สองต้นการตัดสินใจทางเลือก (ทำในแต่ละอิสระ) โดย (ก) การใช้ "ทั่วไป" ในตัวเลือกที่เรียบง่าย; (ข) การลดความรุนแรงการตัดแต่งกิ่ง 10 ที่มีตัวเลือกผู้เชี่ยวชาญ คมชัดทั้งสองต้นไม้ด้วยที่ในส่วน (3) และความเห็นเกี่ยวกับความแตกต่าง. คำถามที่ 3 นี้คือการออกกำลังกายการคำนวณที่จะช่วยให้คุณมีการเตรียมความพร้อมสำหรับการทดสอบระยะกลาง ทำด้วยมือ (ไม่ได้อยู่กับ Modeler). ดาวน์โหลด hwdata.csv ชุดข้อมูลจากเว็บไซต์การเรียนการสอน ชุดนี้มี 250 บันทึกที่ใช้โดยบริษัท จำนองที่บอกว่าไม่ว่าจะเป็นคนที่จะซื้อจำนองที่สองหรือไม่ขึ้นอยู่กับปัจจัยหลายประการ ข้อมูลที่ได้รับการ presorted เพื่อความสะดวกสบายของคุณและยังสรุปไว้ในตารางข้างข้อมูล. มีสามคุณลักษณะที่ควรพิจารณาเมื่อซื้อทำนายว่าเป็นจริงหรือเท็จคือ: 1 ภูมิภาค: ชานเมืองหรือเมือง2 สถานภาพ: แต่งงานหรือเดี่ยว3 รายได้: สูงปานกลางหรือต่ำคำตอบต่อไปนี้: 1 กฎการตัดสินใจเดียวแอตทริบิวต์ที่ดีที่สุดและสิ่งที่เป็นข้อผิดพลาดที่เกี่ยวข้องคืออะไร? 2 เป็นตัวชี้วัดข้อมูลของชุดข้อมูลทั้งหมดคืออะไร? 3 กำไรข้อมูลสำหรับการแยกภาคคืออะไร? สถานภาพ? รายได้? ขึ้นอยู่กับการนี้เลือกแอตทริบิวต์เริ่มต้นที่จะแยกบน. 4 ที่สมบูรณ์ในระดับหนึ่งที่มากขึ้นของต้นไม้ตัดสินใจและหยุด (เช่นการทดสอบแต่ละใบไม่เกิน 2 คุณลักษณะ). 5 ข้อผิดพลาดโดยรวมเป็นสิ่งที่เกี่ยวข้องกับข้อมูลการฝึกอบรมที่อัตราผลตอบแทนต้นไม้ข้างต้น


























































































การแปล กรุณารอสักครู่..
ผลลัพธ์ (ไทย) 3:[สำเนา]
คัดลอก!
IE 1062 / 2062 : การทำเหมืองข้อมูล ( ฤดูใบไม้ร่วง ) งาน
การบ้าน 2 - ต้นไม้การตัดสินใจ ( เนื่องจากตุลาคม 06 , 2011 )

คำถาม 1 ดาวน์โหลดไฟล์ zoo.csv ( ข้อมูลชุดเต็มกับ 101 ประวัติ ) , zoo1.csv ( ข้อมูลการฝึกอบรมชุด 71
ประวัติ ) และ zoo2.csv ( ข้อมูลชุดทดลอง 30 บันทึก ) จาก หลักสูตรเว็บไซต์
( http : / / www.pitt . edu / ~ jrclass / ดาต้าไมนิ่ง ) บันทึกในแต่ละชุดข้อมูลเหล่านี้มีหมายเลขของ
ลักษณะที่ใช้จำแนกวัตถุสวนสัตว์เป็น " ประเภท " ( สนามสุดท้าย ) เช่น
สัตว์ครึ่งบกครึ่งน้ำ นก ปลา สัตว์เลื้อยคลาน ฯลฯ
1 ใส่ zoo1.csv ฝึกการตัดสินใจแบบต้นไม้ ( c5.0 ) และเกิดขึ้นกับการตัดสินใจแบบต้นไม้
แยกบันทึกใหม่เป็นหนึ่งในประเภท ( เลือก " ชอบความถูกต้อง " ตัวเลือกใน
c5.0 โหนด )ให้แน่ใจว่าคุณตรวจสอบข้อมูลก่อน และคิดเกี่ยวกับสนามที่ ( s ) ที่จะใช้สำหรับโครงการหมวดหมู่
.
2 เปลี่ยนชื่อโหนดที่สร้างขึ้นเป็น " fulltree " พร้อมแฉมันในขณะที่ท่อง . ใช้นี้

วาดต้นไม้เต็มกี่ใบก็มี อะไรคือความถูกต้องในการจำแนกข้อมูล
การฝึกอบรม ? คุณสามารถตรวจสอบนี้ผ่านการวิเคราะห์โหนดหรือผ่านตาราง .
3 ต่อไปตั้งค่าตัวเลือกใน c5.0 เลือก " กฏ " เป็นนอกคอก " ต้นไม้ การตัดสินใจ " และสร้างปมใหม่ - เปลี่ยนชื่อ
" fullrules " อีกครั้ง พร้อมแฉกฏและเขียนออกกฎสำหรับแต่ละประเภท
.
4 เปรียบเทียบผลจากส่วนที่ 2 และ 3 และแสดงความคิดเห็นในพวกเขา .
5 ต่อไป ใช้ " fulltree " โหนดโหนดการวิเคราะห์จำแนกข้อมูลในชุดข้อมูลทดสอบ
zoo2 , และCSV ( ทำแค่ตัด zoo1.csv แหล่งข้อมูลและเชื่อมต่อโหนดแทน
ปมแหล่งข้อมูลใหม่ที่จุดเริ่มต้นของกระแสข้อมูลกับ zoo2.csv เป็นไฟล์ var ) .
เปรียบเทียบความแม่นยำในการจำแนกที่นี่มีสิ่งที่คุณเห็นในส่วนที่ 2 แสดงความคิดเห็น สิ่งที่
เป็น misclassified สัตว์ ?
6 สมมติว่าคุณต้องการใช้ต้นไม้ระดับเดียว ( เช่น คลิป แค่หนึ่งแอตทริบิวต์เพื่อแยกประเภท ) และคุณ
ใช้ข้อมูลชุดเต็ม ( CSV Zoo ) เพื่อตรวจสอบนี้ ซึ่งของทั้งสามคุณสมบัติ " นม "
0 " และ " น้ำ " ให้ผลลัพธ์ที่ดีที่สุด ทำไมคุณถึงคิดว่า ผลลัพธ์จึงเบ้
ในแต่ละกรณี
คำใบ้ : ทำโมเดล , ใช้ตัวกรองโหนดระหว่างพิมพ์ c5.0 โหนดและ
แต่ละสามคุณลักษณะและกระชั้นชิดกรองทุกอย่างยกเว้นคุณลักษณะและ
" ประเภท " สนามแล้วก็เลือก " ผู้เชี่ยวชาญ " ตัวเลือกใน c5.0 และตั้ง " กิ่งความรุนแรง " 100
ดังนั้นคุณไม่ตัดอะไร คำถามที่ 2

datamine.csv ดาวน์โหลดไฟล์จากเว็บไซต์ของชั้นเรียน ข้อมูลนี้จะถูกใช้เพื่อทำนาย
ว่าบุคคลในโปรแกรม MBA จะชอบวิชา Data Mining หรือไม่ เขตข้อมูลสำหรับแต่ละ
ของระเบียน 2000 จะเป็นด้านล่าง :
-
: คะแนน GMAT GMAT ของนักเรียนแต่ละระดับ :
การแปล กรุณารอสักครู่..
 
ภาษาอื่น ๆ
การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.

Copyright ©2024 I Love Translation. All reserved.

E-mail: