IV. EXPERIMENTAL EVALUATION
In this section we describe the details of the experimental setup and microarray gene expression data sets and analyze the experimental results.
A. Data sets used In our study, we have used five microarray gene expression data. These are Brain Tumor dataset [14], Colon Cancer data set [15], Leukemia data set [2], Lymphoma dataset [16] and Prostate Cancer dataset [17]. The preprocessed form of these data are publicly available at www.stat.ethz.ch/ det- tling/bagboost.html. The data sets consist of the gene ex- pression values and class information corresponding to each observation. In our experiments, we have taken very small amount of these data as labeled data and used their class information for classification. The remaining part of the set is used as test data. As the number of samples are very few for these microarray gene expression data sets, the entire test data set is used as unlabeled data in our experiment. Though, any subset of the test data or data different from the test data may also be considered as the unlabeled data depending on the nature of the available data sets at hand. 1) Brain tumor dataset: This set [14] contains 42 mi- croarray gene expression profiles. Each observation consists of 5597 genes. The data represent 5 classes of brain-tumor. The five types of brain tumors are medulloblastomas (class: 0 ), malignant gliomas (class: 1), atypical teratoid/rhabdoid tumors (class: 2), primitive neuro-ectodermal tumors (class: 3), human cerabella ( class: 4 ). No of observations for these classes are 10, 10, 10, 8, 4 respectively. 2) Colon cancer dataset: It [15] contains total 62 observa- tions. It has two classes. 40 observations are for cancerous patients and 22 are for normal patients. Each observation contains 2000 gene expression values. 3) Leukemia dataset: This set [2] consists of microarray gene expression data of 72 patients. There are two classes in the dataset. Number of observations corresponding to lym- phoblastic leukemia is 47 and 25 observations correspond to myeloid leukemia. Each observation contains expression values for 3571 genes. 4) Lymphoma dataset: This set [16] consists of microarray gene expression data of 62 patients. Number of classes is 3. Class 0 corresponds to diffuse large B-cell lymphoma(DBCL). Class 1 corresponds to follicular lymphoma. Class 2 corre- sponds to chronic lymphocytic leukemia. Total number of genes = 4026. 5) Prostate cancer dataset: This set [17] contains 102 samples. Total number of classes is 2. 52 observations are from prostate cancer tissues and 50 are from normal patients. Each observation contains expression values for 6033 genes.
B. Methods compared with
In the present work, we have compared semi-supervised fuzzy K-NN with traditional K-NN and fuzzy K-NN classifiers [11]. We have also compared the results with non-fuzzy and non-NN based methods, like Support Vector Machine (SVM) and Naive Bayes classifier. We have adjusted the parameters suitably to get the best result. For implementation of K-NN, fuzzy K-NN and semisupervised fuzzy K-NN we have used C programming language. We have used LIBSVM package [21] for getting results for SVM and Naive Bayes classifier [22] has been implemented in Matlab.
C. Experimental Results
In this section we are presenting the experimental results. Performance of the proposed semi-supervised K-NN classifier has been compared with that of supervised K-NN and super- vised fuzzy- K-NN technique and also with that of SVM and Naive Bayes classifiers. For brain-tumor dataset, at first, one pattern from each of the classes have been taken randomly as labeled pattern (total 5) and rest of the patterns are taken into the test set and then percentage accuracy has been measured. Then we took 2 patterns from each of the classes as labeled patterns (total 10) and compared the accuracy of the classifiers. The results are shown in table II. For colon cancer dataset, 2 patterns from each of the classes have been taken as labeled patterns (total 4) and the results have been shown in table III. For leukemia dataset, at first 2 patterns from each classes in labeled set (total 4) and then 3 patterns from each classes in labeled set (total 6) have been taken and the results are shown in table IV. For lymphoma dataset, at first, 1 pattern from each of the classes have been taken in the
IV. ทดลองประเมิน ในส่วนนี้ เราสามารถอธิบายรายละเอียดของการทดลองตั้งค่าและ microarray ยีนนิพจน์ชุดข้อมูล และวิเคราะห์ผลการทดลองA. ค่าใช้ในการศึกษาของเรา เราได้ใช้ข้อมูลนิพจน์ five microarray ยีน เหล่านี้เป็นชุดข้อมูลของเนื้องอกในสมอง [14], ชุดข้อมูลมะเร็ง [15], ชุดข้อมูลมะเร็งเม็ดเลือดขาว [2], ชุดข้อมูลคอลลา [16] และชุดข้อมูลมะเร็งต่อมลูกหมาก [17] แบบฟอร์มประมวลผลล่วงหน้าของข้อมูลเหล่านี้มีทั่วไปที่ www.stat.ethz.ch/ เดช tling/bagboost.html ชุดข้อมูลประกอบด้วยค่าอดีต-pression ยีนและชั้นข้อมูลที่สอดคล้องกับการสังเกตแต่ละครั้ง ในการทดลองของเรา เราได้นำข้อมูลเหล่านี้เป็นป้ายข้อมูลจำนวนเล็กน้อยมาก และใช้ข้อมูลของคลาส classification ส่วนที่เหลือของชุดจะใช้เป็นข้อมูลการทดสอบ จำนวนตัวอย่าง มีน้อยมากสำหรับชุดข้อมูลนิพจน์ใช้ microarray ยีนเหล่านี้ ชุดข้อมูลทดสอบทั้งหมดจะใช้เป็นข้อมูลในการทดลองของเราไม่ ถึงแม้ว่า ชุดย่อยใด ๆ ของการทดสอบ ข้อมูลที่แตกต่างจากข้อมูลทดสอบหรือข้อมูลอาจถือเป็นข้อมูลที่ไม่ขึ้นอยู่กับลักษณะของชุดข้อมูลที่มีในมือได้ 1) ชุดข้อมูลสมองเนื้องอก: ชุดนี้ [14] ประกอบด้วย 42 mi - croarray ยีนนิพจน์ profiles สังเกตแต่ละครั้งประกอบด้วยยีน 5597 ข้อมูลแสดงถึงชั้น 5 ของเนื้องอกสมอง five ชนิดของเนื้องอกสมองเป็น medulloblastomas (คลาส: 0), gliomas ร้าย (คลาส: 1), เนื้องอก teratoid/rhabdoid อักเสบ (คลาส: 2), เนื้องอกสมอง ectodermal ดั้งเดิม (คลาส: 3), cerabella มนุษย์ (คลาส: 4) ไม่สังเกตเรียนเหล่านี้มี 10, 10, 10, 8, 4 ตามลำดับ 2) ชุดข้อมูลลำไส้ใหญ่โรคมะเร็ง: [15] ประกอบด้วยทั้งหมด 62 observa-tions มี 2 ชั้น สังเกตที่ 40 สำหรับผู้ป่วยมะเร็ง และ 22 เป็นผู้ป่วยปกติ สังเกตแต่ละครั้งประกอบด้วยค่านิพจน์ยีน 2000 3) ชุดข้อมูลมะเร็งเม็ดเลือดขาว: ชุดนี้ [2] ประกอบด้วยข้อมูลนิพจน์ของ microarray ยีนของผู้ป่วย 72 มี 2 ชั้นในชุดข้อมูล จำนวนการสังเกตที่สอดคล้องกับมะเร็งเม็ดเลือดขาว lym phoblastic คือ 47 และ 25 สังเกตตรงกับมะเร็งเม็ดเลือดขาวชนิดไมอิลอยด์ สังเกตแต่ละครั้งประกอบด้วยค่านิพจน์สำหรับยีน 3571 4) ชุดข้อมูลคอลลา: [16] ชุดนี้ประกอบด้วยข้อมูลนิพจน์ของ microarray ยีนของผู้ป่วย 62 จำนวนชั้นเรียนมี 3 ระดับ 0 ตรงกับแฟลช lymphoma(DBCL) B-เซลล์ขนาดใหญ่ ชั้น 1 ตรงกับคอลลา follicular คลาส 2 คอร์-sponds กับมะเร็งเม็ดเลือดขาว lymphocytic เรื้อรัง จำนวนยีน = 4026 5) ชุดข้อมูลมะเร็งต่อมลูกหมาก: ชุดนี้ [17] ประกอบด้วยตัวอย่าง 102 จำนวนชั้นเรียนมี 2 52 สังเกตได้จากเนื้อเยื่อของมะเร็งต่อมลูกหมาก และ 50 ได้จากผู้ป่วยปกติ สังเกตแต่ละครั้งประกอบด้วยค่านิพจน์สำหรับยีน 6033B. วิธีเปรียบเทียบกับ ในงานนำเสนอ เราได้เปรียบเทียบกึ่งมีปุย K-NN NN K ดั้งเดิมและเอิบ classifiers K-NN [11] เรายังได้เปรียบเทียบผลไม่ชัดเจน และไม่ใช่เอ็นเอ็นตามวิธี เช่นเครื่องสนับสนุนเวกเตอร์ (SVM) และ Naive Bayes classifier เราได้ปรับปรุงพารามิเตอร์เหมาะสมเพื่อให้ได้ผลลัพธ์ดีที่สุด สำหรับ K-NN เอิบ K-NN และ semisupervised เอิบ K-NN เราใช้ภาษา C เราใช้แพคเกจ LIBSVM [21] การผลลัพธ์สำหรับ SVM และมีการใช้ Naive Bayes classifier [22] ใน MatlabC. ผลการทดลองในส่วนนี้ เราจะนำเสนอผลการทดลอง มีการเปรียบเทียบประสิทธิภาพของ classifier K-NN กึ่งมีนำเสนอที่มี K-NN และซูเปอร์-vised เทคนิคปุย-K-NN และที่ classifiers SVM และ Naive Bayes สำหรับชุดข้อมูลของเนื้องอกสมอง ที่ first รูปแบบหนึ่งจากแต่ละชั้นเรียนที่ได้ดำเนินการแบบสุ่มเป็นรูปแบบป้าย (รวม 5) เหลือรูปแบบจัดชุดทดสอบ และมีการวัดเปอร์เซ็นต์ความถูกต้องแล้ว แล้วเราเอารูปแบบที่ 2 จากการสอนเป็นรูปแบบป้าย (รวม 10) และเปรียบเทียบความถูกต้องของ classifiers ผลลัพธ์จะแสดงในตารางที่สอง สำหรับชุดข้อมูลมะเร็งลำไส้ใหญ่ การถ่ายรูปแบบที่ 2 จากคลาเป็นป้ายรูปแบบ (รวม 4) และได้รับการแสดงผลในตาราง III สำหรับชุดข้อมูลมะเร็งเม็ดเลือดขาว ที่ first 2 รูปแบบจากแต่ละชั้นในชื่อชุด (รวม 4) แล้ว มีการใช้ 3 รูปแบบจากแต่ละชั้นในป้ายชุด (รวม 6) และแสดงผลลัพธ์ในตาราง IV สำหรับชุดข้อมูลคอลลา ที่ first ได้นำรูปแบบที่ 1 จากคลา
การแปล กรุณารอสักครู่..
