Twelve standard datasets drawn from the UCI collection
(Merz and Murphy, 1996) were used in the experiments:
they are summarised in Table 1. These datasets
were chosen because of the prevalence of nominal features
and their predominance in the literature. Three
of the datasets (australian, lymphography, and horsecolic)
contain a few continuous features; the rest contain
only nominal features.
Fifty runs were done for each machine learning algorithm
on each dataset with features selected by CFS
and by the wrapper. In each run, a dataset was randomly
split into a training and testing set (sizes given in
Table 1). CFS and the wrapper were applied in turn to
the full training set to select features. Separate training
and testing sets consisting of features selected by CFS
and features selected by the wrapper were created and
each machine learning algorithm was applied to these
dimensionally reduced datasets.
Table 2 shows the results of feature selection for naive
Bayes; results for naive Bayes with no feature selection
(All features) are shown as well. Accuracies give the
percentage of correct classi¯cations, averaged over the
¯fty trials. Results for CFS are shown in bold if they
show signi¯cant improvement over the corresponding
result for the wrapper, and vice versa. A +" or ¡"
sign shows where results for CFS are signi¯cantly better
or worse than when no feature selection is performed
(all the features are used), and similarly for the wrapper.
Throughout, we speak of results being signi¯-
cantly di®erent" if the di®erence is statistically di®erent
at the 5% level according to a paired two-sided t-test.
Table 1: Datasets used in the experiments
Dataset Features Max/min
feature
values
Classes Train
size/
test size
mushroom 23 12/1 2 1000/7124
vote 17 2/2 2 218/217
vote1 16 2/2 2 218/217
australian 16 23/2 2 228/462
lymph 19 8/2 4 98/50
primary-tumor 18 3/2 23 226/113
breast-cancer 10 11/2 2 191/95
dna-promoters 56 4/4 2 69/37
audiology 70 6/2 24 149/77
soybean 36 7/2 19 450/223
horse-colic 28 346/2 2 242/126
kr-vs-kp 37 3/2 2 2110/1086
Similarly, Table 3 shows the results of feature selection
for C4.5.
Table 2: Accuracy of naive Bayes with feature selection
by CFS and the wrapper.
Dataset CFS Wrapper All features
mushroom 98.53+ 98.86+ 94.75
vote 95.20+ 95.24+ 90.25
vote1 89.51+ 88.95+ 87.20
australian 85.90+ 85.16+ 78.21
lymph 83.92+ 76.00¡ 82.12
primary-tumor 46.73 42.32¡ 46.87
breast-cancer 72.06 70.96¡ 72.16
dna-promoters 90.58 82.05¡ 89.21
audiology 75.04¡ 79.33 80.24
soybean 92.69+ 92.99+ 91.30
horse-colic 86.24+ 87.70+ 83.13
kr-vs-kp 94.24+ 94.36+ 87.33
Discussion of Results
CFS outperforms the wrapper four times for naive
Bayes and ¯ve times for C4.5, while the wrapper outperforms
CFS three times for both learning algorithms.
Furthermore, as shown by the entries marked with +"
or ¡" in the tables, CFS improves the accuracy of the
learning algorithms more times and degrades accuracy
fewer times than the wrapper does. For naive Bayes,
CFS improves accuracy eight times and degrades accuracy
only once; the wrapper improves accuracy seven
times but degrades accuracy four times. For C4.5,
CFS improves accuracy twice and degrades accuracy
twice; the wrapper improves accuracy three times but
degrades accuracy ¯ve times.
It appears that the wrapper has some di±culty on
datasets with fewer examples. Cross validation accuracy
estimates can exhibit greater variability when
the number of examples is small (Kohavi, 1995), and
the wrapper may be over¯tting these datasets in some
cases. CFS, on the other hand, does not need to reserve
part of the training data for evaluation purposes, and,
in general, tends to do better on smaller datasets than
the wrapper.
Figure 2 shows how feature selection by the wrapper
and the CFS a®ects the size of the trees induced
by C4.5. Bars below the zero line indicate that feature
selection has reduced the size of the trees. The
graph shows that both feature selectors reduce the size
of the trees induced by C4.5 more often than not. The
wrapper tends to result in somewhat smaller trees than
CFS.
Figure 3 shows the average number of features selected
on each dataset by the wrapper using naive Bayes
and by CFS. CFS generally selects a similar sized feature
set as the wrapper1. In many cases the number of
features is reduced by more than half by both methods.
CFS executes many times faster than the wrapper.
On a Sparc server 1000, a single trial took one cpu
unit or less to complete for all datasets except kr-vskp,
which averaged 8 cpu units. By comparison, the
wrapper ranged from 123 cpu units to complete one trial
on breast-cancer to over 9000 cpu units to complete one
trial on kr-vs-kp. The wrapper is cubic in the number
of features, whereas CFS is squared in the number of
features.
สิบสองชุดข้อมูลมาตรฐานมาจากคอลเลกชัน UCI
(Merz และเมอร์ฟี่, 1996) ถูกนำมาใช้ในการทดลองนี้
พวกเขาได้สรุปไว้ในตารางที่ 1 ชุดข้อมูลเหล่านี้
ได้รับเลือกเพราะความชุกของคุณสมบัติที่กำหนด
และความเด่นของพวกเขาในวรรณคดี สาม
ของชุดข้อมูล (ออสเตรเลีย, lymphography และ horsecolic)
มีคุณลักษณะอย่างต่อเนื่องไม่กี่; ส่วนที่เหลือมี
เพียง แต่คุณสมบัติน้อย
ห้าสิบวิ่งได้ทำในแต่ละขั้นตอนวิธีการเรียนรู้
ในแต่ละชุดที่มีคุณสมบัติที่เลือกโดย CFS
และเสื้อคลุม ในแต่ละวิ่งชุดข้อมูลที่ได้รับการสุ่ม
แบ่งออกเป็นการฝึกอบรมและการทดสอบชุด (ขนาดที่กำหนดไว้ใน
ตารางที่ 1) CFS และห่อหุ้มถูกนำไปใช้ในการเปิดการ
ฝึกอบรมชุดเต็มรูปแบบเพื่อเลือกคุณสมบัติ การฝึกอบรมเฉพาะกิจ
และชุดทดสอบประกอบด้วยคุณสมบัติที่เลือกโดย CFS
และคุณสมบัติการคัดเลือกจากเสื้อคลุมที่ถูกสร้างขึ้นและ
แต่ละขั้นตอนวิธีการเรียนรู้เครื่องถูกนำไปใช้กับเหล่านี้
ลดลงมิติชุดข้อมูล
ตารางที่ 2 แสดงให้เห็นถึงผลของการเลือกคุณลักษณะสำหรับหน่อมแน้ม
เบส์; ผลการไร้เดียงสา Bayes ที่ไม่มีตัวเลือกคุณสมบัติ
(คุณสมบัติทั้งหมด) จะถูกแสดงให้เห็นได้เป็นอย่างดี ความถูกต้องให้
ร้อยละของclassi¯cationsถูกต้องเฉลี่ย
ทดลอง fty ผลการ CFS จะแสดงเป็นตัวหนาถ้าพวกเขา
แสดงการปรับปรุงsigni¯cantกว่าที่สอดคล้องกัน
สำหรับห่อผลและในทางกลับกัน + "หรือ ¡"
สัญญาณที่แสดงให้เห็นว่าผลการ CFS มีsigni¯cantlyที่ดีขึ้น
หรือเลวร้ายยิ่งกว่าเมื่อไม่มีการเลือกคุณลักษณะจะดำเนินการ
(คุณลักษณะทั้งหมดที่ถูกนำมาใช้) และเช่นเดียวกันกับเสื้อคลุม
ตลอดเราพูดถึงผลการ signi¯-
di®erentนัย "ถ้าdi®erenceเป็นdi®erentทางสถิติ
ที่ระดับ 5% ตามที่จับคู่สองด้าน t-test
ตารางที่ 1: ชุดข้อมูลที่ใช้ในการทดลอง
ชุดข้อมูลคุณสมบัติ / แม็กซ์นาที
คุณลักษณะ
ค่า
เรียน รถไฟ
ขนาด /
ขนาดการทดสอบ
เห็ด 23 12/1 2 1000/7124
ลงคะแนน 17 2/2 2 218/217
vote1 16 2/2 2 218/217
ออสเตรเลีย 16 23/2 2 228/462
น้ำเหลือง 19 8/2 4 98/50
หลักมะเร็ง 18 3/2 23 226/113
เต้านมมะเร็ง 10 11/2 2 191/95
ดีเอ็นเอโปรโมเตอร์ 56 4/4 2 69/37
audiology 70 6/2 24 149/77
ถั่วเหลือง 36 7/2 19 450 / 223
ม้าอาการจุกเสียด 28 346/2 2 242/126
kr-vs-KP 37 3/2 2 2110/1086
ในทำนองเดียวกันตารางที่ 3 แสดงให้เห็นถึงผลของการเลือกคุณลักษณะ
สำหรับ C4.5
ตารางที่ 2: ความถูกต้องของเบส์ไร้เดียงสากับการเลือกคุณลักษณะ
โดย CFS และเสื้อคลุม
ชุดข้อมูล CFS Wrapper ทั้งหมดมี
เห็ด 98.53+ 98.86+ 94.75
คะแนน 95.20+ 95.24+ 90.25
vote1 89.51+ 88.95+ 87.20
ออสเตรเลีย 85.90+ 85.16+ 78.21
น้ำเหลือง 83.92+ 76.00¡ 82.12
หลัก-เนื้องอก 46.73 46.87 42.32¡
ด้วยนมแม่ มะเร็ง70.96¡ 72.06 72.16
ดีเอ็นเอโปรโมเตอร์-90.58 82.05¡ 89.21
audiology 75.04¡ 79.33 80.24
ถั่วเหลือง 92.69+ 92.99+ 91.30
ม้าอาการจุกเสียด 86.24+ 87.70+ 83.13
kr-vs-KP 94.24+ 94.36+ 87.33
อภิปรายผล
CFS มีประสิทธิภาพดีกว่าเสื้อคลุมสี่ครั้ง สำหรับไร้เดียงสา
Bayes และเวลาและสำหรับ C4.5 ขณะที่เสื้อคลุมมีประสิทธิภาพดีกว่า
CFS สามครั้งเพื่อให้ขั้นตอนวิธีการเรียนรู้ทั้งสอง
นอกจากนี้ที่แสดงโดยรายการที่มีเครื่องหมาย + "
หรือ ¡ "ในตาราง, CFS ช่วยเพิ่มความถูกต้องของ
ขั้นตอนวิธีการเรียนรู้ครั้งมากขึ้นและลดความถูกต้อง
น้อยครั้งกว่าห่อไม่ สำหรับเบส์ไร้เดียงสา,
CFS ช่วยเพิ่มความแม่นยำแปดครั้งและลดความถูกต้อง
เพียงครั้งเดียว; เสื้อคลุมช่วยเพิ่มความแม่นยำเจ็ด
ครั้ง แต่ลดความถูกต้องครั้งที่สี่ สำหรับ C4.5,
CFS เพิ่มความถูกต้องสองครั้งและลดความถูกต้อง
สองครั้ง; กระดาษห่อเพิ่มความถูกต้องสามครั้ง แต่
ลดความถูกต้องและครั้ง
ปรากฏว่าเสื้อคลุมมีดิบาง± culty ใน
ชุดข้อมูลที่มีตัวอย่างน้อยลง รอการตรวจสอบความถูกต้อง
ประมาณการสามารถแสดงความแปรปรวนมากขึ้นเมื่อ
จำนวนตัวอย่างที่มีขนาดเล็ก (Kohavi, 1995) และ
เสื้อคลุมอาจจะover¯ttingชุดข้อมูลเหล่านี้ในบาง
กรณี CFS บนมืออื่น ๆ ที่ไม่จำเป็นต้องสำรอง
ส่วนหนึ่งของข้อมูลการฝึกอบรมเพื่อการประเมินผลและ
โดยทั่วไปมีแนวโน้มที่จะทำดีขึ้นในชุดข้อมูลที่มีขนาดเล็กกว่า
เสื้อคลุม
รูปที่ 2 แสดงให้เห็นว่าการเลือกคุณลักษณะโดยเสื้อคลุม
และ CFS ®ectsขนาดของต้นไม้ที่เกิด
จาก C4.5 บาร์ใต้เส้นศูนย์แสดงให้เห็นว่ามี
ตัวเลือกได้ลดขนาดของต้นไม้
กราฟแสดงให้เห็นว่าทั้งสองตัวเลือกคุณลักษณะลดขนาด
ของต้นไม้ที่เกิดจาก C4.5 บ่อยกว่าไม่
เสื้อคลุมมีแนวโน้มที่จะส่งผลให้ต้นไม้ที่ค่อนข้างมีขนาดเล็กกว่า
CFS
รูปที่ 3 แสดงค่าเฉลี่ยของจำนวนคุณสมบัติที่เลือก
ในชุดเสื้อคลุมโดยแต่ละใช้ไร้เดียงสา Bayes
และ CFS CFS ทั่วไปเลือกคุณลักษณะขนาดใกล้เคียงกัน
กำหนดเป็น wrapper1 ในหลายกรณีจำนวนของ
คุณสมบัติที่จะลดลงโดยมากกว่าครึ่งหนึ่งโดยทั้งสองวิธี
CFS ดำเนินการหลายครั้งเร็วกว่าเสื้อคลุม
บนเซิร์ฟเวอร์ Sparc 1000, การพิจารณาคดีเดียวเอาซีพียูหนึ่ง
หน่วยหรือน้อยกว่าที่จะเสร็จสมบูรณ์สำหรับชุดข้อมูลทั้งหมดยกเว้น kr-vskp ,
ที่เฉลี่ย 8 หน่วยซีพียู โดยเปรียบเทียบ
ห่อตั้งแต่ 123 หน่วยซีพียูให้เสร็จสมบูรณ์หนึ่งในการพิจารณาคดี
เกี่ยวกับเต้านมมะเร็งกว่า 9000 หน่วยซีพียูในการดำเนินการอย่างใดอย่างหนึ่ง
ในการพิจารณาคดี kr-vs-KP เสื้อคลุมเป็นลูกบาศก์ในจำนวน
ของคุณสมบัติในขณะที่ CFS ถูกยกกำลังในจำนวน
คุณสมบัติ
การแปล กรุณารอสักครู่..

12 มาตรฐานข้อมูลที่ดึงจาก UCI คอลเลกชัน
( เมิร์ส และเมอร์ฟี่ , 1996 ) ถูกใช้ในการทดลอง :
พวกเขาสรุปในตารางที่ 1 ข้อมูลเหล่านี้
ถูกเลือกเนื่องจากส่วนของชื่อและคุณสมบัติเด่นของ
วรรณกรรม 3
ของข้อมูล ( ออสเตรเลีย lymphography และ horsecolic )
ประกอบด้วยคุณลักษณะอย่างต่อเนื่องไม่กี่ ; ส่วนที่เหลือประกอบด้วยคุณสมบัติเฉพาะ
ปกติ50 วิ่งเสร็จแต่ละอัลกอริทึม
ในแต่ละชุดข้อมูลที่มีคุณลักษณะที่เลือกโดย CFS
และด้วยกระดาษห่อ ในแต่ละรัน , ข้อมูลสุ่ม
แบ่งออกเป็นการฝึกอบรมและชุดทดลอง ( ขนาดให้
ตารางที่ 1 ) CFS และเสื้อคลุมที่ใช้ในการเปิด
เต็มชุดฝึกอบรมเพื่อเลือกคุณสมบัติ
ฝึกแยกและทดสอบชุดประกอบด้วยคุณลักษณะที่เลือกโดย CFS
และคุณลักษณะที่เลือกโดยเสื้อคลุมที่ถูกสร้างขึ้นและ
ขั้นตอนวิธีการเรียนรู้แต่ละเครื่องจะใช้มิติเหล่านี้
ลดชุดข้อมูล ตารางที่ 2 แสดงผลการคัดเลือกคุณลักษณะ ไร้เดียงสา Bayes Bayes ไร้เดียงสา
; ผลลัพธ์ที่ไม่มีคุณลักษณะการ
( คุณสมบัติทั้งหมด ) จะแสดงเป็นอย่างดี ร้อยละของความถูกต้องให้
classi ¯ถูกต้องชนิดเฉลี่ยมากกว่า
¯ Fty การทดลองผลการค้นหาสำหรับโฆษณาที่แสดงในตัวหนา ถ้าพวกเขา
แสดง signi ¯ลาดเทการปรับปรุงผลที่สอดคล้องกัน
สำหรับห่อ และในทางกลับกัน " หรือ¡ "
ป้ายแสดงผลลัพธ์ที่ การโฆษณาจะลดลงอย่างมีนัยสําคัญเมื่อ signi ¯ดีกว่าหรือแย่กว่าตอนไม่มี
( เลือกจะแสดงคุณสมบัติทั้งหมดที่ใช้ ) , และในทำนองเดียวกันสำหรับห่อ .
ตลอด เราพูดถูก N -
signi ¯ผลลัพธ์ลดลงอย่างมีนัยสําคัญเมื่อ ดิ ® erent " ถ้าตี้® erence นัย ดิ ® erent
ที่ระดับ 5% ตามจับคู่สองกลุ่ม
ตารางที่ 1 : ข้อมูลที่ใช้ในการทดลองประกอบด้วย max / min
ข้อมูลคุณลักษณะค่า
ขนาดชั้นเรียนฝึกทดสอบขนาด
เห็ด 23 12 / 1 2 พัน / 7124
โหวต 17 2 / 2 2 218 / 217
vote1 16 2 / 2 2 218 / 217
ออสเตรเลีย 16 23 / 2 2 228 / 462
น้ำเหลือง 19 8 / 2 4 98 / 50
หลักเนื้องอก 18 3 / 2 23 226 / 113
มะเร็งเต้านม 2 2 10 11 / 191 / 95
ดีเอ็นเอโปรโมเตอร์ 56 4 / 4 2 69 / 37
โสต 70 6 / 2 24 149 / 77
ถั่วเหลือง 36 7 / 2 19 450 / 223
ม้าโคลิค 28 346 / 2 2 242 / 126
KR vs เคพี 37 3 / 2 2 4 / 1086
ในทํานองเดียวกัน ตารางที่ 3 แสดงผลของการเลือกคุณสมบัติสำหรับโปรแกรม C4.5
.
2 โต๊ะ : ความถูกต้องของ Bayes ไร้เดียงสากับ
การเลือกคุณลักษณะโดย CFS และกระดาษห่อ กระดาษห่อคุณสมบัติทั้งหมด
วันที่โฆษณาเห็ด 98.53 98.86 94.75
โหวต 95.20 9524 90.25
vote1 89.51 88.95 87.20
เหลืองออสเตรเลีย 85.90 85.16 78.21 83.92 76.00 ¡ 82.12
หลักเนื้องอก 46.73 42.32 ¡ 46.87
มะเร็งเต้านม 72.06 70.96 ¡ 72.16
ดีเอ็นเอโปรโมเตอร์ 90.58 82.05 ¡ 89.21
โสต 75.04 ¡ 79.33 80.24
ถั่วเหลือง 92.69 92.99 91.30
ม้าโคลิคเพียง 87.70 83.13
KR vs เคพี 94.24 94.36 87.33
การอภิปรายผล
CFS โปรยกระดาษห่อสำหรับไร้เดียงสา
4 ครั้งและได้¯ Bayes ครั้งสำหรับโปรแกรม C4.5 ในขณะที่เสื้อคลุมโปรย
CFS 3 ครั้ง ทั้งการเรียนรู้ขั้นตอนวิธี .
นอกจากนี้ ดังจะเห็นได้จากรายการที่มีเครื่องหมาย " หรือ N ¡
" ตาราง , CFS ปรับปรุงความถูกต้องของ
อัลกอริทึมการเรียนรู้ครั้งและบั่นทอนความถูกต้อง
น้อยครั้งกว่าที่ห่อแล้ว สำหรับ Naive Bayes
CFS , ปรับปรุงความถูกต้องแปดครั้งและบั่นทอนความถูกต้อง
เพียงครั้งเดียวกระดาษห่อปรับปรุงความถูกต้อง 7
ครั้ง แต่บั่นทอนความถูกต้องสี่ครั้ง สำหรับโปรแกรม C4.5
CFS , ปรับปรุงความถูกต้องและความแม่นยำสองครั้งสองครั้งนี้
; เสื้อคลุมปรับปรุงความถูกต้องสามครั้งแต่
บั่นทอนความถูกต้อง¯ได้ครั้ง .
ปรากฏว่าเสื้อคลุมมี ดิ ± culty บน
ข้อมูลตัวอย่างน้อยกว่า ข้ามการตรวจสอบความถูกต้อง สามารถแสดงความแปรปรวนเมื่อประมาณการมากขึ้น
จำนวนตัวอย่างมีขนาดเล็ก ( kohavi , 1995 ) และกระดาษห่ออาจจะมากกว่า¯
ตัดข้อมูลเหล่านี้ในบางกรณี โฆษณาบนมืออื่น ๆที่ไม่ต้องจอง
ส่วนหนึ่งของการฝึกอบรมข้อมูลเพื่อวัตถุประสงค์ในการประเมินและ
โดยทั่วไปมีแนวโน้มที่จะทำให้ดีกว่าบนข้อมูลมีขนาดเล็กกว่า
รูปที่ 2 แสดงให้เห็นว่ากระดาษห่อ คุณลักษณะที่เลือกโดยเสื้อคลุม
และ CFS เป็น®ผลขนาดของต้นไม้เกิด
โดยโปรแกรม C4.5 .แถบด้านล่าง เส้นศูนย์ พบว่า การเลือกคุณลักษณะ
ได้ลดขนาดของต้นไม้
กราฟแสดงให้เห็นว่า ทั้งคุณลักษณะตัวเลือกลดขนาด
ของต้นไม้ที่เกิดจากโปรแกรม C4.5 มากขึ้นมักจะมากกว่าไม่
ห่อมีแนวโน้มที่จะส่งผลให้ต้นไม้ค่อนข้างมีขนาดเล็กกว่า
รูปที่ 3 แสดงงานโฆษณา อัตราเฉลี่ยของการเลือกคุณสมบัติ
ในแต่ละชุดข้อมูลโดยการห่อใช้ Naive Bayes
และงานโฆษณาโฆษณาโดยทั่วไปจะเลือกที่คล้ายกันขนาดคุณลักษณะ
ตั้งเป็น wrapper1 . ในหลายกรณีจํานวน
คุณสมบัติจะลดลงกว่าครึ่ง โดยทั้งสองวิธี
CFS รันหลายครั้งเร็วกว่ากระดาษห่อ
บนเซิร์ฟเวอร์ SPARC 1000 , การทดลองเดียวเอา CPU
หน่วยหรือน้อยกว่าที่จะเสร็จสมบูรณ์ทั้งหมดยกเว้น kr ข้อมูล vskp
, ซึ่งเฉลี่ย 8 หน่วยซีพียู โดยการเปรียบเทียบ ,
กระดาษห่ออยู่ระหว่าง 123 หน่วยซีพียูที่จะเสร็จสมบูรณ์หนึ่งในการทดลอง
มะเร็งเต้านมมากกว่า 9 , 000 หน่วยซีพียูหนึ่งสมบูรณ์
การทดลอง KR vs เคพี . กระดาษห่อเป็นลูกบาศก์ในหมายเลข
คุณสมบัติส่วน CFS ยกกำลังสองในจํานวน
คุณสมบัติ
การแปล กรุณารอสักครู่..
