More on Automatic Attribute Selecti

More on Automatic Attribute Selection
The Select attributes panel allows us to gain insight into a dataset by applying attribute
selection methods to it. However, as with supervised discretization, using this
information to reduce a dataset becomes problematic if some of the reduced data is
used for testing the model (as in cross-validation). Again, the reason is that we have
looked at the class labels in the test data while selecting attributes, and using the
test data to influence the construction of a model biases the accuracy estimates
obtained.
This can be avoided by dividing the data into training and test sets and applying
attribute selection to the training set only. However, it is usually more convenient
to use AttributeSelectedClassifer, one of Weka’s metalearners, which allows an
attribute selection method and a learning algorithm to be specified as part of a
classification scheme. AttributeSelectedClassifier ensures that the chosen set of
attributes is selected based on the training data only.
Now we test the three attribute selection methods from above in conjunction
with NaïveBayes. NaïveBayes assumes independence of attributes, so attribute
selection can be very helpful. You can see the effect of redundant attributes by
adding multiple copies of an attribute using the filter weka.filters.unsupervised.
attribute.Copy in the Preprocess panel. Each copy is obviously perfectly correlated
with the original.
Exercise 17.4.10. Load the diabetes classification data in diabetes.arff and add
copies of the first attribute. Measure the performance of NaïveBayes (with
useSupervisedDiscretization turned on) using cross-validation after you have
added each one. What do you observe?
Do the above three attribute selection methods, used in conjunction with AttributeSelectedClassifier
and NaïveBayes, successfully eliminate the redundant attributes?
Run each method from within AttributeSelectedClassifier to see the effect on
cross-validated accuracy and check the attribute subset selected by each method.
Note that you need to specify the number of ranked attributes to use for the Ranker
method. Set this to 8 because the original diabetes data contains 8 attributes (excluding
the class). Specify NaïveBayes as the classifier to be used inside the wrapper
method because this is the classifier for which we want to select a subset.
Exercise 17.4.11. What can you say regarding the performance of the three
attribute selection methods? Do they succeed in eliminating redundant copies?
If not, why?

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

ข้อมูลเพิ่มเติมเกี่ยวกับอัตโนมัติเลือกแอททริบิวต์
เลือกแอตทริบิวต์แผงช่วยให้เราสามารถเข้าใจในการชุดข้อมูล โดยใช้แอททริบิวต์
เลือกวิธีนั้น อย่างไรก็ตาม ด้วย discretization มี ใช้
ข้อมูลเพื่อลดการชุดข้อมูลจะมีปัญหาถ้าข้อมูลลดลงบางส่วน
ใช้สำหรับการทดสอบแบบ (อยู่ในระหว่างตรวจสอบ) อีก เหตุผลคือ เรามี
ดูป้ายชื่อชั้นข้อมูลทดสอบขณะเลือกคุณลักษณะ และการใช้
ทดสอบข้อมูลที่มีอิทธิพลต่อการก่อสร้างยอมแบบจำลองการประเมินความถูกต้อง
รับได้
นี้สามารถหลีกเลี่ยง โดยการแบ่งข้อมูลออกเป็นชุดฝึกอบรมและทดสอบใช้
แสดงตัวเลือกการฝึกอบรมที่กำหนดเท่านั้น อย่างไรก็ตาม มันจะสะดวกมากกว่าปกติ
การใช้ AttributeSelectedClassifer หนึ่งของ Weka metalearners ซึ่งช่วยให้การ
แสดงวิธีการเลือกและอัลกอริทึมการเรียนรู้ต้องระบุเป็นส่วนหนึ่งของการ
โครงร่างจัดประเภท AttributeSelectedClassifier ใจที่ชุดท่าน
เลือกแอตทริบิวต์ข้อมูลฝึกอบรมเฉพาะการ
ตอนนี้เราทดสอบ 3 กำหนดวิธีเลือกจากข้างต้นร่วม
กับ NaïveBayes NaïveBayes ถือความเป็นอิสระของแอตทริบิวต์ แอตทริบิวต์ดังนั้น
เลือกได้มากขึ้น คุณสามารถดูผลของแอตทริบิวต์ซ้ำซ้อนโดย
เพิ่มหลายสำเนาของแอตทริบิวต์ที่ใช้ weka.filters.unsupervised.
attribute ตัวกรองได้คัดลอกในแผง Preprocess แต่ละสำเนาไม่ชัดสมบูรณ์ correlated
กับต้นฉบับ
17.4.10 ออกกำลังกาย โหลดข้อมูลประเภทของโรคเบาหวานในโรคเบาหวานarff และเพิ่ม
สำเนาของแอตทริบิวต์แรก วัดประสิทธิภาพของ NaïveBayes (ด้วย
เปิด useSupervisedDiscretization) ใช้ตรวจสอบข้ามหลังจากที่คุณได้
เพิ่มแต่ละ อะไรทำคุณสังเกต?
ทำทั้งสามข้างต้นกำหนดวิธีการเลือก ใช้ร่วมกับ AttributeSelectedClassifier
และ NaïveBayes กำจัดแอตทริบิวต์ซ้ำซ้อนเรียบร้อย?
เรียกใช้แต่ละวิธีจากภายใน AttributeSelectedClassifier เพื่อดูผล
ข้ามตรวจสอบความถูกต้องและตรวจสอบย่อยแอททริบิวต์ที่เลือก โดยวิธีการแต่ละการ
หมายเหตุว่าคุณต้องระบุหมายเลขของแอตทริบิวต์อันดับใช้ Ranker ที่
วิธีการ เซ็ตนี้ไป 8 เนื่องจากโรคเบาหวานข้อมูลเดิมประกอบด้วยแอตทริบิวต์ 8 (ไม่รวม
ชั้น) ระบุ NaïveBayes เป็น classifier เพื่อใช้ในการห่อ
วิธีเนื่องจากเป็น classifier ซึ่งเราต้องเลือกชุดย่อย
17.4.11 ออกกำลังกาย อะไรคุณสามารถพูดเกี่ยวกับประสิทธิภาพของทั้งสาม
วิธีการเลือกแอททริบิวต์หรือไม่ พวกเขาประสบในการตัดคัดลอกซ้ำซ้อน?
ถ้า ไม่ได้ ทำไม

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

เพิ่มเติมเกี่ยวกับการเลือกคุณลักษณะอัตโนมัติ
เลือกคุณลักษณะแผงช่วยให้เราเพื่อเพิ่มความเข้าใจในชุดข้อมูล โดยใช้วิธีการเลือกแอตทริบิวต์
มัน อย่างไรก็ตาม กับค่าดูแลโดยใช้ข้อมูลนี้
ลดชุดข้อมูลกลายเป็นปัญหาถ้าบางส่วนของการลดข้อมูลที่ใช้เพื่อทดสอบแบบจำลอง
( เช่นข้ามการตรวจสอบ ) อีกเหตุผลคือเราได้
มองชั้นป้ายในข้อมูลทดสอบในขณะที่การเลือกคุณลักษณะและการใช้
ข้อมูลทดสอบที่มีอิทธิพลต่อการสร้างรูปแบบอคติความถูกต้องประมาณ

นี้สามารถหลีกเลี่ยงได้ โดยการแบ่งข้อมูลในการฝึกอบรมและชุดทดสอบและใช้คุณลักษณะ
เลือกชุดฝึกอบรมเท่านั้น แต่มันมักจะสะดวกกว่าที่จะใช้ attributeselectedclassifer
,หนึ่งของ metalearners Weka ซึ่งจะช่วยให้คุณลักษณะการเลือกวิธี
และการเรียนรู้วิธีที่จะระบุเป็นส่วนหนึ่งของ
หมวดหมู่โครงการ attributeselectedclassifier ยืนยันว่าเลือกชุดคุณลักษณะถูกเลือกบนพื้นฐานของข้อมูล

ฝึกเท่านั้น ตอนนี้เราทดสอบทั้งสามแอททริบิวต์วิธีการคัดเลือกจากข้างต้นร่วมกับ
กับไต vebayes .นา ไต vebayes ถือว่าความเป็นอิสระของแอตทริบิวต์ ดังนั้นคุณลักษณะ
เลือกสามารถเป็นประโยชน์มาก คุณสามารถดูผลของคำคุณลักษณะโดย
เพิ่มหลายชุดของแอตทริบิวต์ที่ใช้ตัวกรองตัวกรอง unsupervised เวก้า . . .
attribute.copy ใน preprocess แผง แต่ละสำเนาจะเห็นได้ชัดอย่างสมบูรณ์

มีความสัมพันธ์กับต้นฉบับ การออกกำลังกาย 17.4.10 . โหลดโรคเบาหวานการจำแนกข้อมูลในโรคเบาหวานarff และเพิ่ม
สำเนาคุณสมบัติแรก วัดการทำงานของไต vebayes นา (
usesuperviseddiscretization เปิดใช้ข้ามการตรวจสอบหลังจากที่คุณได้
เพิ่มแต่ละ อะไรที่คุณสังเกตเห็น ?
ทำข้างต้นสามคุณลักษณะการเลือกวิธีการ ใช้ร่วมกับ attributeselectedclassifier
และนา ไต vebayes เรียบร้อยแล้วลบแอตทริบิวต์ที่มากเกินไป ?
เรียกใช้แต่ละวิธีจากภายใน attributeselectedclassifier จะเห็นผลในการตรวจสอบความถูกต้อง
ข้ามและตรวจสอบคุณลักษณะย่อยที่เลือก โดยแต่ละวิธี .
หมายเหตุว่า คุณต้องระบุหมายเลขของแอตทริบิวต์อันดับที่จะใช้สำหรับอันดับ
วิธี ชุดนี้ 8 เพราะข้อมูลโรคเบาหวานเดิมมี 8 คุณลักษณะ ( ยกเว้น
คลาส )ระบุ na ไต vebayes เป็นแบบต้องใช้ภายในเสื้อคลุม
วิธี เพราะเป็นแบบที่เราต้องการเลือกส่วนย่อย .
ออกกำลังกาย 17.4.11 . สิ่งที่คุณสามารถพูดเกี่ยวกับประสิทธิภาพของ 3
การคัดเลือกคุณลักษณะวิธีการ พวกเขาประสบความสำเร็จในการสำเนาซ้ำซ้อน ?
ถ้าไม่ทำไม ?

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.