5. Discussion. The discriminant analysis method presented in this paper.
gave much better results than those given by popular statistical and.
machine learning techniques such as Random Forests [Breiman (2001)], AdaBoost.
[Freund and Schapire (1997)] and Bayesian Multinomial Regression.
[Genkin, Lewis and Madigan (2005), Madigan et al. (2005)] and Transductive
SVMs [Vapnik (1995), Joachims (1999)] for the high-dimensional food.
authenticity data sets analysed here. This improvement is further enhanced
by the addition of the updating procedure for including the unlabeled data.
in the estimation method. The results show that the headlong search method.
for variable selection is an efficient method for selecting wavelengths.
In addition to the improvement in classification results in the example.
data sets given, the number of variables needed for classification was substantially.
reduced from 1050 to less than thirty. The variable selection results
in the food authenticity application suggest the possibility of developing authenticity.
sensors that only use reflectance values over a carefully selected.
subset of the near-infrared and visible spectral range. The regions of the
spectrum selected by the method can be interpreted in terms of the underlying.
chemical properties of the foods under analysis.
We have compared our method with four established leading classification.
methods from statistics and machine learning for which standard software.
implementations are available. One of these, AdaBoost, was identified by Leo.
Breiman as "the best off-the-shelf classifier in the world" [Hastie, Tibshirani.
and Friedman (2001)]. It is possible that the large improvement in performance.
of our method relative to the established methods we have compared.
it with is due to the fact that our data have many variables of which only a.
very small proportion (1% -3%) are useful. The variables that are not useful
may introduce a great deal of noise and degrade performance, and so other.
methods that do not reduce the number of variables may suffer from this.
Although the methods were developed for the food authenticity application.
outlined herein, the method could be applied in contexts such as the.
analysis of gene expression data and document classification. The results of
the variable selection procedure could mean a substantial savings in terms.
of time for data collection and space for future data storage.
A range of recent approaches to variable selection in a classification context.
include the DALASS approach of Trendafilov and Jolliffe (2007), variable.
selection for kernel Fisher discriminant analysis [Louw and Steep (2006)].
and the stepwise stopping rule approach of Munita, Barroso and Oliveira.
(2006). A number of different search algorithms (proposed as alternatives.
to backward / forward / stepwise search) wrapped around different discriminant.
functions are compared by Pacheco et al. (2006), and genetic search.
algorithms wrapped around Fisher discriminant analysis are considered by.
Chiang and Pell (2004). Another example of variable selection methods in.
the context of classification using spectroscopic data is given by Indahl and.
Naes (2004).
In terms of other approaches to variable selection, a good review of recent.
work on the problem of variable or feature selection in classification was.
given by Guyon and Elisseeff (2003) from a machine learning perspective. A
good review of methods involving Support Vector Machines (SVMs) (along.
with a proposed criterion for exhaustive variable selection) is given by Mary-.
Huard, Robin and Daudin (2007). An extension allowing variable selection
for the multiclass problem using SVMs is given byWang and Xiatong (2007).
An alternative approach for combining pairwise classifiers, based on Hastie.
and Tibshirani (1998), is given by Szepannek and Weihs (2006). Greenshtein
(2006) looks at theoretical aspects of the n«p classification and variable.
selection problem in terms of empirical risk minimization subject to l1 constraints.
Finally, an alternative to single subset variable selection through.
Bayesian Model Averaging [Madigan and Raftery (1994)] is given by Dash.
and Cooper (2004).
Acknowledgments. We would like to thank the Editor, Associate Editor.
and Referees whose suggestions greatly improved this paper. We would also
like to thank Gerard Downey for providing the food authenticity data and.
for help with interpreting the results of the analysis.
5. สนทนา วิธีการวิเคราะห์ discriminant ที่นำเสนอในเอกสารนี้ให้ผลดีมากกว่าโดยนิยมสถิติ และการเครื่องเรียนรู้เทคนิคเช่นสุ่มป่า [Breiman (2001)], AdaBoost[Freund และ Schapire (1997)] และถดถอยก็ตามทฤษฎีนี้[Genkin ลูอิส และ Madigan (2005), Madigan และ al. (2005)] และ TransductiveSVMs [Vapnik (1995) Joachims (1999)] อาหารสูงมิติชุดข้อมูลแท้ analysed ที่นี่ ปรับปรุงนี้จะเพิ่มเติมโดยการเพิ่มขั้นตอนปรับปรุงการรวมข้อมูลไม่ในวิธีการประเมิน ผลลัพธ์แสดงว่าวิธีการค้นหา headlongเลือกตัวแปรเป็นวิธีมีประสิทธิภาพสำหรับการเลือกความยาวคลื่นนอกจากการปรับปรุงผลการจัดประเภทตัวอย่างกำหนดชุดข้อมูล หมายเลขของตัวแปรที่ต้องการจัดได้มากลดจาก 1050 จะน้อยกว่าสามสิบ ผลลัพธ์ของการเลือกตัวแปรในแอพลิเคชันแท้อาหารแนะนำของการพัฒนาแท้เซนเซอร์ที่ใช้ค่าแบบสะท้อนแสงได้ผ่านการคัดสรรเฉพาะย่อยของช่วงสเปกตรัม อินฟราเรดใกล้ และมองเห็นได้ ขอบเขตของการสเปกตรัมที่เลือก โดยวิธีการสามารถตีความได้ในตัวคุณสมบัติทางเคมีของอาหารภายใต้การวิเคราะห์เราได้เปรียบเทียบวิธีการของเรา มีสี่ประเภทชั้นนำก่อตั้งวิธีการจากสถิติและเครื่องสำหรับซอฟต์แวร์ที่มาตรฐานการเรียนรู้ใช้งานได้พร้อมใช้งาน หนึ่ง AdaBoost ที่ระบุ โดยลีโอBreiman เป็น "ที่สุดรูป classifier ในโลก" [Hastie, Tibshiraniและฟรีดแมน (2001)] เป็นไปได้ที่การปรับปรุงประสิทธิภาพการทำงานขนาดใหญ่วิธีของเราสัมพันธ์กับวิธีการที่สร้าง เราได้เปรียบเทียบด้วยได้เนื่องจากข้อเท็จจริงที่ว่าข้อมูลของเรามีหลายตัวแปรซึ่งเท่าสัดส่วนขนาดเล็กมาก (1% -3%) จะมีประโยชน์ ตัวแปรที่ไม่มีประโยชน์อาจแนะนำมากของเสียงรบกวน และลดทอนประสิทธิภาพการทำงาน และอื่น ๆ เพื่อให้ได้วิธีที่ลดจำนวนของตัวแปรอาจทรมานจากนี้แม้ว่าวิธีการได้รับการพัฒนาโปรแกรมประยุกต์อาหารแท้เค้าร่างนี้ วิธีการสามารถใช้ได้ในบริบทเช่นนี้ได้การวิเคราะห์ยีนนิพจน์ข้อมูลและเอกสารการจัดประเภท ผลลัพธ์ของขั้นตอนการเลือกตัวแปรอาจหมายถึง ประหยัดพบในเงื่อนไขเวลาในการเก็บรวบรวมข้อมูลและพื้นที่สำหรับจัดเก็บข้อมูลในอนาคตมีวิธีล่าสุดให้เลือกตัวแปรในการจัดประเภทรวมวิธี DALASS Trendafilov และ Jolliffe (2007), ตัวแปรเลือกสำหรับเคอร์เนลการวิเคราะห์ discriminant Fisher [Louw และสูงชัน (2006)]และวิธีการกฎหยุด stepwise Munita, Barroso และ Oliveira(2006) ตัวเลขของอัลกอริทึมค้นหาต่าง ๆ (นำเสนอเป็นทางเลือกการค้นหาย้อนหลังไปข้างหน้า / stepwise) รอบ ๆ ต่าง discriminantฟังก์ชันมีการเปรียบเทียบ โดยปาเชโก et al. (2006), และค้นหาทางพันธุกรรมรอบ ๆ Fisher discriminant การวิเคราะห์อัลกอริทึมจะพิจารณาโดยเชียงใหม่และ Pell (2004) อีกตัวอย่างของวิธีการเลือกตัวแปรในบริบทของการจัดประเภทโดยใช้ข้อมูลด้านถูกกำหนด โดย Indahl และNaes (2004)ในแนวทางอื่นให้เลือกตัวแปร การตรวจสอบที่ดีของล่าสุดทำงานกับปัญหาของตัวแปร หรือคุณลักษณะอาหารในประเภทกำหนด โดย Guyon และ Elisseeff (2003) จากเครื่องที่มุมมองการเรียนรู้ Aทบทวนวิธีการเกี่ยวข้องกับการสนับสนุนเครื่องแบบเวกเตอร์ (SVMs) (ตามด้วยดีมีเกณฑ์สำหรับการเลือกตัวแปรครบถ้วนสมบูรณ์เสนอ) ถูกกำหนด โดยแมรี่-Huard โรบิน และ Daudin (2007) ส่วนขยายให้เลือกตัวแปรปัญหา multiclass ใช้ SVMs จะได้รับ byWang และ Xiatong (2007)วิธีการสำรองสำหรับรวมคำนามภาษาแพร์ไวส์ ตาม Hastieและ Tibshirani (1998), ถูกกำหนด โดย Szepannek และ Weihs (2006) Greenshteinลักษณะ (2006) ในด้านทฤษฎีของ «ประเภท p และตัวแปรเลือกปัญหาในการลดความเสี่ยงผลภายใต้ข้อจำกัดของ l1ในที่สุด ทางเลือกเพื่อเลือกตัวแปรย่อยเดียวผ่านหาค่าเฉลี่ยแบบจำลองทฤษฎี [Madigan และ Raftery (1994)] ถูกกำหนด โดยเส้นประและคูเปอร์ (2004)ตอบ เราอยากขอขอบคุณบรรณาธิการ แก้ไขการเชื่อมโยงและประเภทที่มีข้อเสนอแนะมากขึ้นกระดาษนี้ เราจะยังขอบคุณเบิร์ดดาวนีย์ Gerard สำหรับให้ข้อมูลความถูกต้องของอาหาร และการสำหรับความช่วยเหลือเกี่ยวกับการตีความผลการวิเคราะห์
การแปล กรุณารอสักครู่..
5. การอภิปราย วิธีการวิเคราะห์จำแนกนำเสนอในบทความนี้.
ให้ผลที่ดีกว่าผู้ที่ได้รับจากทางสถิติและ.
นิยมใช้เทคนิคการเรียนรู้เครื่องเช่นป่าสุ่ม[Breiman (2001)] AdaBoost.
[Freund และ Schapire (1997)] และการถดถอยพหุแบบเบย์
[Genkin, ลูอิสและดิแกน (2005), et al, ดิแกน (2005)] และ Transductive
SVMs [Vapnik (1995), Joachims (1999)] สำหรับอาหารสูงมิติ.
ชุดข้อมูลความถูกต้องวิเคราะห์ที่นี่ การปรับปรุงนี้จะเพิ่มขึ้นต่อไปโดยนอกเหนือจากขั้นตอนการปรับปรุงสำหรับการรวมข้อมูลที่ไม่มีป้ายกำกับได้. วิธีการประเมิน ผลการศึกษาพบว่าวิธีการค้นหาหัวทิ่ม. สำหรับการเลือกตัวแปรเป็นวิธีที่มีประสิทธิภาพสำหรับการเลือกความยาวคลื่น. นอกเหนือจากการปรับปรุงในผลการจัดหมวดหมู่ในตัวอย่าง. ชุดข้อมูลที่กำหนดจำนวนของตัวแปรที่จำเป็นสำหรับการจัดหมวดหมู่ได้อย่างมีนัยสำคัญ. ลดลงจาก 1050 น้อยกว่าสามสิบ ผลการเลือกตัวแปรในการประยุกต์ใช้ความถูกต้องขอแนะนำอาหารที่เป็นไปได้ในการพัฒนาความถูกต้อง. เซ็นเซอร์ที่ใช้เฉพาะค่าการสะท้อนผ่านการคัดเลือกมาอย่างดี. ย่อยของอินฟราเรดใกล้และมองเห็นช่วงสเปกตรัม ภูมิภาคของคลื่นความถี่ที่เลือกโดยวิธีการที่สามารถตีความในแง่ของพื้นฐาน. คุณสมบัติทางเคมีของอาหารที่อยู่ภายใต้การวิเคราะห์. เราได้เมื่อเทียบกับวิธีการของเรากับสี่จัดตั้งจำแนกชั้นนำ. วิธีการจากสถิติและการเรียนรู้เครื่องที่ซอฟต์แวร์มาตรฐาน. การใช้งานที่มี ที่มีอยู่ หนึ่งในเหล่านี้ AdaBoost ถูกระบุราศีสิงห์. Breiman ว่า "ดีที่สุดออก -the-shelf ลักษณนามในโลก" [Hastie, Tibshirani. และฟรีดแมน (2001)] เป็นไปได้ว่าการพัฒนาขนาดใหญ่ในการทำงาน. ของญาติวิธีการของเรากับวิธีการที่เราได้จัดตั้งขึ้นเมื่อเทียบ. ด้วยเป็นเพราะความจริงที่ว่าข้อมูลของเรามีตัวแปรหลายแห่งซึ่งเพียง. สัดส่วนขนาดเล็กมาก (1% -3%) มีประโยชน์ ตัวแปรที่ไม่เป็นประโยชน์อาจแนะนำการจัดการที่ดีของเสียงและลดประสิทธิภาพการทำงานและอื่น ๆ เพื่อให้. วิธีการที่ไม่ได้ลดจำนวนของตัวแปรอาจได้รับจากนี้. แม้ว่าวิธีการที่ได้รับการพัฒนาสำหรับการประยุกต์ใช้ความถูกต้องอาหาร. ที่ระบุไว้ในเอกสารฉบับนี้ที่ สามารถนำไปใช้วิธีการในบริบทเช่น. การวิเคราะห์ข้อมูลการแสดงออกของยีนและการจำแนกเอกสาร ผลที่ได้จากขั้นตอนการเลือกตัวแปรที่อาจหมายถึงเงินออมที่สำคัญในแง่. ของเวลาในการเก็บรวบรวมข้อมูลและพื้นที่สำหรับการจัดเก็บข้อมูลในอนาคต. ช่วงของวิธีการที่ผ่านการเลือกตัวแปรในบริบทการจำแนก. รวมถึงวิธีการ DALASS ของ Trendafilov และโจลิฟฟ์ (2007 ) ตัวแปร. เลือกสำหรับเคอร์เนลวิเคราะห์จำแนกฟิชเชอร์ [Louw และสูงชัน (2006)]. และวิธีการปกครองแบบขั้นตอนของการหยุด Munita, บาร์โรโซและ Oliveira. (2006) จำนวนของขั้นตอนวิธีการค้นหาที่แตกต่างกัน (เสนอเป็นทางเลือก. ที่จะถอยหลัง / หน้า / การค้นหาแบบขั้นตอน) พันรอบจำแนกที่แตกต่างกัน. ฟังก์ชั่นที่มีการเปรียบเทียบโดยเช et al, (2006) และค้นหาทางพันธุกรรม. ขั้นตอนวิธีการห่อรอบวิเคราะห์จำแนกฟิชเชอร์ได้รับการพิจารณาโดย. เชียงใหม่และเพลล์ (2004) ตัวอย่างของวิธีการคัดเลือกตัวแปร. อีกบริบทของการจัดหมวดหมู่โดยใช้ข้อมูลสเปกโทรสโกจะได้รับโดยIndahl และ. Naes (2004). ในแง่ของวิธีการอื่น ๆ ในการเลือกตัวแปรการตรวจสอบที่ดีของการที่ผ่านมา. ทำงานเกี่ยวกับปัญหาที่เกิดขึ้นของตัวแปรหรือการเลือกคุณลักษณะ ในการจำแนกเป็น. กำหนดโดย Guyon และ Elisseeff (2003) จากมุมมองการเรียนรู้เครื่อง ตรวจสอบที่ดีของวิธีการที่เกี่ยวข้องกับการสนับสนุนเครื่องเวกเตอร์ (SVMs) (พร้อม. มีเกณฑ์ที่นำเสนอสำหรับการเลือกตัวแปรที่ครบถ้วนสมบูรณ์) จะได้รับจาก Mary-. Huard โรบินและ Daudin (2007) เป็นส่วนช่วยให้การเลือกตัวแปรสำหรับปัญหาที่เกิดขึ้นโดยใช้แบบหลาย SVMs จะได้รับ byWang และ Xiatong (2007). วิธีการทางเลือกสำหรับการรวมคู่แยกแยะบนพื้นฐานของ Hastie. และ Tibshirani (1998) จะได้รับจาก Szepannek และ Weihs (2006) Greenshtein (2006) มีลักษณะที่ด้านทฤษฎีของ n «จำแนกพีและตัวแปร. ปัญหาการเลือกในแง่ของเรื่องการลดความเสี่ยงเชิงประจักษ์ข้อ จำกัด l1. ในที่สุดทางเลือกในการเลือกตัวแปรเซตเดียวผ่าน. Averaging รุ่นเบย์ [ดิแกนและ Raftery (1994 )] จะได้รับจาก Dash. และคูเปอร์ (2004). กิตติกรรมประกาศ เราอยากจะขอขอบคุณบรรณาธิการ, บรรณาธิการ. และกรรมการที่มีข้อเสนอแนะที่ดีขึ้นอย่างมากบทความนี้ นอกจากนี้เรายังจะขอขอบคุณเจอราร์ดดาวนีย์ในการให้ข้อมูลที่ถูกต้องอาหารและ. ความช่วยเหลือเกี่ยวกับการตีความผลของการวิเคราะห์
การแปล กรุณารอสักครู่..
5 . การสนทนา การวิเคราะห์จำแนกวิธีการนำเสนอในกระดาษนี้ .
ให้ผลได้ดีกว่าโดยได้รับความนิยมและสถิติ .
เครื่องเรียนรู้เทคนิค เช่น การสุ่มป่า [ breiman ( 2001 ) ] , adaboost .
[ Freund และ schapire ( 1997 ) ] และคชกรรม Multinomial ถดถอย .
[ genkin ลูอิส และ มาดิแกน ( 2005 ) Madigan et al . ( 2005 ) ] และ [ transductive
แบบ vapnik ( 1995 )joachims ( 1999 ) ] สำหรับอาหารสูง - มิติ ข้อมูล
ของแท้ชุดวิเคราะห์ตรงนี้ การปรับปรุงนี้มีการปรับปรุงเพิ่มเติม
โดยเพิ่มของการปรับปรุงกระบวนการรวมทั้งข้อมูลใกล้เคียงกัน
ในการประมาณค่าโดยวิธี ผลลัพธ์จะแสดงวิธีการค้นหาหัวทิ่ม
เลือกตัวแปรที่เป็นวิธีการที่มีประสิทธิภาพสำหรับการเลือก wavelengths
นอกจากการปรับปรุงหมวดหมู่ผลลัพธ์ในตัวอย่าง
ชุดข้อมูลให้ จำนวนของตัวแปรที่จำเป็นสำหรับการขยายตัว .
ลดลงจาก 1050 น้อยกว่า 30 การเลือกตัวแปรผลลัพธ์
ในแท้อาหารการแนะนำเป็นไปได้ของการพัฒนาของแท้ ใช้เซ็นเซอร์ที่สะท้อนเท่านั้นค่า
มากกว่าเลือกอย่างระมัดระวังเซตย่อยของอินฟราเรดใกล้และช่วงสเปกตรัมที่มองเห็น ภูมิภาคของ
สเปกตรัมเลือกโดยใช้วิธีที่สามารถตีความในแง่ของต้นแบบ
คุณสมบัติทางเคมีของอาหารภายใต้การวิเคราะห์ .
เรามีวิธีของเราเทียบกับสี่ขึ้นนำหมวดหมู่ .
วิธีการจากสถิติและการเรียนรู้เครื่องที่ซอฟต์แวร์มาตรฐาน .
ซึ่งมีอยู่ หนึ่งเหล่านี้adaboost , ถูกระบุโดย Leo .
breiman " ดีที่สุดปิดชั้นลักษณนามในโลก " [ เฮสตี้ tibshirani , .
และ ฟรีดแมน ( 2001 ) ] เป็นไปได้ว่าโครงการขนาดใหญ่ในประสิทธิภาพ
วิธีของเราเมื่อเทียบกับวิธีการที่เราได้จัดตั้งขึ้นเมื่อเทียบ .
มันเกิดจากข้อเท็จจริงที่ว่าข้อมูลมีตัวแปรมากมายที่เพียง A .
สัดส่วนเล็กมาก ( 1% - 3% ) เป็นประโยชน์ตัวแปรที่ไม่ได้มีประโยชน์
อาจแนะนำมากเสียงและลดประสิทธิภาพ และอื่น ๆ .
วิธีการที่ไม่ลดจำนวนตัวแปรที่อาจประสบจากมัน .
ถึงแม้ว่าวิธีการพัฒนาความถูกต้องอาหารโปรแกรม .
ที่ระบุไว้ในที่นี้ วิธีการอาจจะใช้ในบริบทเช่น .
วิเคราะห์ข้อมูลการแสดงออกของยีนและการจำแนกเอกสารผลของตัวแปรกระบวนการคัดเลือก
อาจหมายถึง ได้ความประหยัดในแง่
เวลาเก็บรวบรวมข้อมูลพื้นที่สำหรับจัดเก็บข้อมูลในอนาคต .
ช่วงของวิธีการล่าสุดเพื่อการเลือกตัวแปรในการบริบท
รวมถึงวิธีการ dalass ของ trendafilov จอลลิฟ ( 2007 ) , และตัวแปร การจำแนกเคอร์เนล
ฟิชเชอร์ การวิเคราะห์ [ ลูและชัน ( 2006 ) ] .
และแบบสอบถามวิธีการหยุดกฎของ munita Barroso โอลิเวียร่า , และ .
( 2006 ) จำนวนของขั้นตอนวิธีการค้นหาที่แตกต่างกัน ( เสนอเป็นทางเลือก ต้องถอยหลังไปข้างหน้า / ค้นหา /
= ) พันรอบที่แตกต่างกันจำแนกประเภท .
ฟังก์ชันเปรียบเทียบ ปาเชโก และคณะ ( 2006 ) , และการค้นหาอัลกอริทึมพันธุกรรม
ห่อรอบการวิเคราะห์ฟิชเชอร์จะพิจารณาโดย
และเชียงใหม่เพล ( 2004 )อีกตัวอย่างของตัวแปรการเลือกวิธีการ .
บริบทของการจำแนกโดยใช้ข้อมูลทางให้โดย indahl .
naes ( 2004 ) ในแง่ของวิธีการอื่น ๆเพื่อการเลือกตัวแปร , การตรวจสอบที่ดีของล่าสุด
ทำงานในปัญหาของตัวแปร หรือการเลือกคุณลักษณะในการจำแนก .
ให้ elisseeff ์ และ ( 2003 ) จากเครื่องจักร การเรียนรู้ มุมมอง
เป็นความคิดเห็นที่ดีของวิธีการที่เกี่ยวข้องกับเครื่องเวกเตอร์สนับสนุน ( แบบ ) ( พร้อม กับเสนอ
เกณฑ์การเลือกตัวแปรอย่างละเอียด ) จะได้รับโดยแมรี่ - .
ฮวาร์ด โรบิน และ daudin ( 2007 ) ส่วนขยายให้ตัวแปรการเลือกหลายแบบ
สำหรับปัญหาในการใช้และให้ bywang xiatong ( 2550 ) .
ทางเลือกสำหรับการรวมคู่คำลักษณนามตามเฮสตี้ .
tibshirani ( 1998 ) , และได้รับการ szepannek และ weihs ( 2006 ) greenshtein
( 2006 ) มองแง่มุมทางทฤษฎีของ N P และ«จำแนกตัวแปร
ปัญหาการเลือกในแง่ของการลดความเสี่ยงเชิงประจักษ์เรื่อง L1
ในที่สุด ข้อจำกัด แทนการเลือกตัวแปรย่อยเดียวผ่าน
[ Madigan ถัวเฉลี่ยแบบจำลองเบ และ raftery ( 1994 ) ] จะได้รับโดย Dash
และคูเปอร์ ( 2547 ) .
ขอบคุณ .ขอขอบคุณบรรณาธิการ ผู้ช่วยบรรณาธิการ .
และผู้ตัดสินที่มีข้อเสนอแนะการปรับปรุงอย่างมากในกระดาษนี้ นอกจากนี้เรายังขอขอบคุณเจอราร์ดดาวนี่
ให้ข้อมูลความถูกต้องและอาหาร สำหรับช่วยในการตีความ
ผลลัพธ์ของการวิเคราะห์
การแปล กรุณารอสักครู่..