Cancer classification based on microarray has become a popular
research topic in bioinformatics, which can be used to detect subtypes
of cancers and produce therapies. A great many of studies
have appeared for cancer classification [1–3]. These methods include
principal component analysis (PCA) [4,5], k-nearest neighbor
(k-NN) [6], hierarchical clustering analysis (HCA) [7], support vector
machine (SVM) [8], Bayesian method [9], partial least squares
discriminant analysis (PLSDA) [10], ensemble methods [11], etc.
Among these methods, PLSDA has been the most commonly used
one for cancer classification due to its simplicity [12–14]. Moreover,
as a dimension reduction technique, PLS has been used in
gene expression data analysis even in the case where the number
of genes exceeds the number of samples.
Except for a few classification methods using full genes [15],
classification is generally performed based on selecting significant
genes for constructing accurate prediction models. Furthermore,
gene selection may provide insights into understanding the underlying
mechanism of a specific biological phenomenon. Also, such
information can be useful for designing less expensive experiments
by targeting only a handful of genes [16]. However, how to effectively
select significant biomarker genes from thousands or even
ten thousands of genes is a difficult problem. A comprehensive review
of feature selection methods has been described by Saeys
et al. [17]. Depending on how the genes interact with the construction
of the classification model, feature selection techniques can be
characterized into three classes: filter, wrapper and embedded
methods. Filter methods [18] assess the relevance of features by
looking only at the intrinsic properties of the data, and thus they
are computationally simple and fast. Wrapper methods [19] employ
a selection strategy in the space of all possible feature subsets,
guided by the predictive performance of a classification model.
Advantage of these methods includes the interaction between gene
subset search and model selection. However, they may have a
higher risk of over-fitting than filter methods and may be computationally
intensive. Embedded methods [20] make use of the
internal parameters in a classification model to perform feature
selection, and, therefore, the computational cost is reduced but
the advantage of the interaction between the gene selection and
classification model is preserved. Based on the three classes of feature
selection techniques, various gene selection algorithms have
been proposed and successfully used in selecting informative
genes for cancer classification [21–25]. In our previous works,
Monte Carlo based uninformative variable elimination (MC-UVE)
[26], randomization test (RT) [27], PLS with the influential variables
(IVs) [28] and latent projective graph (LPG) [29] have been
proposed for selecting informative variables in near-infrared spectral
analysis. Among these methods, RT has been proved to be an
efficient approach to extract useful information from the spectra.
The method builds a regular model and a series of random models,
and then evaluates the importance of the variables based on the
significance test of coefficients in regular and random models.
The variables with high significance can be selected as the informative
ones.
In this study, RT coupled with PLSDA was employed to seek the
significant genes for cancer classification. A set of PLSDA models
ประเภทมะเร็งตาม microarray ได้กลายเป็นนิยมหัวข้อวิจัย bioinformatics ซึ่งสามารถใช้ตรวจหา subtypesโรคมะเร็งและรักษาผลิตผล ความดีของการศึกษามีปรากฏการจัดโรคมะเร็ง [1-3] วิธีการเหล่านี้รวมวิเคราะห์ส่วนประกอบหลัก (PCA) [4,5] k ใกล้บ้าน(k-เอ็นเอ็น) [6], ลำดับวิเคราะห์ (HCA) [7], เวกเตอร์สนับสนุนคลัสเตอร์เครื่อง (SVM) [8], [9] วิธีการทฤษฎี บางส่วนกำลังสองน้อยสุดการวิเคราะห์ discriminant (PLSDA) [10], [11] วิธีการวงดนตรี ฯลฯในวิธีการเหล่านี้ PLSDA มีการใช้บ่อยที่สุดหนึ่งการจัดโรคมะเร็งเนื่องจากความเรียบง่าย [12-14] นอกจากนี้เป็นเทคนิคการลดขนาด กรุณาใช้ในวิเคราะห์ข้อมูลนิพจน์ยีนแม้ในกรณีหมายเลขของยีนเกินจำนวนตัวอย่างยกเว้นสำหรับบางประเภทวิธีใช้ยีนเต็ม [15],การจัดประเภทโดยทั่วไปดำเนินการตามการเลือกอย่างมีนัยสำคัญยีนสำหรับสร้างแบบจำลองการคาดเดาที่ถูกต้อง นอกจากนี้เลือกยีนอาจให้ลึกเข้าใจตัวกลไกของปรากฏการณ์ทางชีวภาพเฉพาะ ยัง เช่นข้อมูลจะมีประโยชน์สำหรับการออกแบบการทดลองที่แพงโดยการกำหนดเป้าหมายเฉพาะกำมือของยีน [16] อย่างไรก็ตาม วิธีการได้อย่างมีประสิทธิภาพเลือกยีนที่สำคัญไบโอมาร์คเกอร์จากหลักพัน หรือแม้แต่สิบพันยีนเป็นปัญหาที่ยาก ความเห็นที่ครอบคลุมวิธีการเลือกคุณลักษณะได้ถูกอธิบาย โดย Saeysal. ร้อยเอ็ด [17] ขึ้นอยู่กับว่ายีนโต้ตอบกับการก่อสร้างรูปแบบการจัดประเภท เทคนิคการเลือกคุณลักษณะสามารถลักษณะเป็นสามชั้น: กรอง กระดาษห่อ และฝังวิธี ความสำคัญของคุณลักษณะโดยประเมินวิธีการกรอง [18]มองที่คุณสมบัติ intrinsic ของข้อมูล และดังนั้นพวกเขาจะ computationally ง่าย และรวดเร็ว ว่าจ้างห่อวิธี [19]กลยุทธ์การเลือกในช่องว่างของชุดย่อยของคุณลักษณะที่เป็นไปได้ทั้งหมดแนะนำ โดยการมอบประสิทธิภาพของรูปแบบการจัดประเภทประโยชน์ของวิธีการเหล่านี้รวมถึงการโต้ตอบระหว่างยีนชุดย่อยค้นหาและรูปแบบการเลือก อย่างไรก็ตาม พวกเขาอาจมีการความเสี่ยงสูงมากกว่าเหมาะสมกว่าวิธีการกรองข้อมูล และอาจจะ computationallyเร่งรัดการ วิธีการฝังตัว [20] ให้ใช้การภายในพารามิเตอร์ในแบบจำลองการจัดประเภทการคุณลักษณะเลือก และ จึง คำนวณต้นทุนจะลดลง แต่ข้อดีของการโต้ตอบระหว่างการเลือกยีน และประเภทแบบจำลองจะถูกรักษาไว้ อยู่บนชั้นสามของคุณลักษณะเทคนิคการเลือก อัลกอริทึมการเลือกยีนต่าง ๆ ได้การนำเสนอ และใช้ประสบความสำเร็จในการเลือกข้อมูลยีนสำหรับมะเร็งประเภท [21-25] ในงานของเราก่อนหน้านี้Monte Carlo โดยตัดตัวแปร uninformative (MC-UVE)[26], randomization ทดสอบ (RT) [27], กรุณากับตัวแปรมีอิทธิพล(IVs) [28] และกราฟ projective แฝงอยู่ (แก๊ส LPG) [29] ได้รับนำเสนอสำหรับการเลือกข้อมูลตัวแปรในใกล้อินฟราเรดสเปกตรัมวิเคราะห์ ระหว่างวิธีการเหล่านี้ RT ได้ถูกพิสูจน์แล้วว่าเป็นการวิธีที่มีประสิทธิภาพเพื่อดึงข้อมูลจากแรมสเป็คตราวิธีการสร้างรูปแบบปกติและชุดรูปแบบสุ่มแล้ว ประเมินความสำคัญของตัวแปรตามทดสอบนัยสำคัญของสัมประสิทธิ์ในรูปแบบปกติ และแบบสุ่มตัวแปรที่ มีความสำคัญสูงที่สามารถเลือกเป็นแบบข้อมูลคนในการศึกษานี้ RT ควบคู่กับ PLSDA ถูกจ้างเพื่อค้นหาการยีนที่สำคัญสำหรับการจัดประเภทของโรคมะเร็ง ชุดของแบบจำลอง PLSDA
การแปล กรุณารอสักครู่..

การจำแนกโรคมะเร็งขึ้นอยู่กับ microarray ได้กลายเป็นที่นิยมหัวข้องานวิจัยในชีวสารสนเทศซึ่งสามารถนำมาใช้ในการตรวจสอบเชื้อของโรคมะเร็งและการผลิตการรักษา หลายที่ดีของการศึกษาได้ปรากฏตัวขึ้นสำหรับการจำแนกโรคมะเร็ง [1-3] วิธีการเหล่านี้รวมถึงการวิเคราะห์องค์ประกอบหลัก (PCA) [4,5] k-เพื่อนบ้านที่ใกล้ที่สุด (k-NN) [6] การวิเคราะห์การจัดกลุ่มตามลำดับชั้น (HCA) [7] สนับสนุนเวกเตอร์เครื่อง(SVM) [8] วิธีเบส์ [9], สี่เหลี่ยมอย่างน้อยบางส่วนวิเคราะห์จำแนก(PLSDA) [10] วิธีทั้งมวล [11] เป็นต้นในบรรดาวิธีการเหล่านี้PLSDA ได้รับการใช้กันมากที่สุดคนหนึ่งสำหรับการจำแนกโรคมะเร็งอันเนื่องมาจากความเรียบง่าย[12-14] นอกจากนี้ยังเป็นเทคนิคการลดมิติ, PLS มีการใช้ในการแสดงออกของยีนในการวิเคราะห์ข้อมูลแม้ในกรณีที่จำนวนของยีนที่เกินกว่าจำนวนของกลุ่มตัวอย่าง. ยกเว้นวิธีการจำแนกไม่กี่ใช้ยีนเต็ม [15], การจัดหมวดหมู่จะดำเนินการโดยทั่วไปตาม อย่างมีนัยสำคัญในการเลือกยีนสำหรับการสร้างแบบจำลองการคาดการณ์ที่ถูกต้อง นอกจากนี้การเลือกยีนอาจให้ข้อมูลเชิงลึกในการทำความเข้าใจพื้นฐานกลไกของปรากฏการณ์ทางชีวภาพที่เฉพาะเจาะจง นอกจากนี้เช่นข้อมูลที่จะเป็นประโยชน์สำหรับการออกแบบการทดลองที่ราคาไม่แพงโดยการกำหนดเป้าหมายเพียงไม่กี่ยีน[16] แต่วิธีการได้อย่างมีประสิทธิภาพเลือกยีน biomarker อย่างมีนัยสำคัญจากหลายพันหรือหมื่นของยีนที่เป็นปัญหาที่ยาก ทานที่ครอบคลุมของวิธีการคัดเลือกคุณสมบัติที่ได้รับการอธิบายโดย Saeys et al, [17] ขึ้นอยู่กับว่ายีนที่มีผลกระทบกับการก่อสร้างของรูปแบบการจัดหมวดหมู่คุณลักษณะเทคนิคการเลือกสามารถโดดเด่นเป็นสามชั้นเรียน: กรองกระดาษห่อและฝังตัววิธีการ วิธีการกรอง [18] ประเมินความเกี่ยวข้องของคุณสมบัติโดยมองเพียงคุณสมบัติที่แท้จริงของข้อมูลและทำให้พวกเขามีคอมพิวเตอร์ที่ง่ายและรวดเร็ว วิธี Wrapper [19] จ้างกลยุทธ์การเลือกในพื้นที่ของทุกส่วนย่อยคุณลักษณะที่เป็นไปได้รับคำแนะนำจากการคาดการณ์ผลการดำเนินงานของรูปแบบการจัดหมวดหมู่. ข้อดีของวิธีการเหล่านี้รวมถึงการทำงานร่วมกันระหว่างยีนค้นหาย่อยและการเลือกรูปแบบ แต่พวกเขาอาจจะมีความเสี่ยงสูงกว่าที่เหมาะสมกว่าวิธีการกรองและอาจจะมีการคำนวณอย่างเข้มข้น วิธีการฝังตัว [20] ใช้พารามิเตอร์ภายในรูปแบบการจัดหมวดหมู่เพื่อดำเนินการลักษณะการคัดเลือกและมีค่าใช้จ่ายในการคำนวณจะลดลงแต่ข้อได้เปรียบของการทำงานร่วมกันระหว่างการเลือกยีนและรูปแบบการจัดหมวดหมู่การเก็บรักษาไว้ ขึ้นอยู่กับสามชั้นเรียนของคุณลักษณะเทคนิคการเลือกขั้นตอนวิธีการเลือกยีนต่างๆที่ได้รับการเสนอชื่อและใช้ประสบความสำเร็จในการเลือกข้อมูลยีนสำหรับการจำแนกโรคมะเร็ง[21-25] ในผลงานก่อนหน้านี้ของเราMonte Carlo ตามกำจัดตัวแปร uninformative (MC-UVE) [26] การทดสอบการสุ่ม (RT) [27], PLS กับตัวแปรที่มีอิทธิพล(เกลือ) [28] และกราฟ projective แฝง (LPG) [29] ได้รับการเสนอสำหรับการเลือกตัวแปรข้อมูลในสเปกตรัมอินฟราเรดใกล้วิเคราะห์ ในบรรดาวิธีการเหล่านี้ RT ได้รับการพิสูจน์แล้วว่าเป็นวิธีการที่มีประสิทธิภาพในการดึงข้อมูลที่มีประโยชน์จากสเปกตรัม. วิธีการสร้างรูปแบบปกติและชุดของแบบสุ่มแล้วประเมินความสำคัญของตัวแปรที่อยู่บนพื้นฐานของการทดสอบความสำคัญของค่าสัมประสิทธิ์ในรูปแบบปกติและแบบสุ่ม. ตัวแปรที่มีความสำคัญสูงสามารถเลือกเป็นผู้ให้ข้อมูลคน. ในการศึกษานี้ RT ควบคู่ไปกับการ PLSDA ถูกจ้างมาเพื่อหายีนที่สำคัญสำหรับการจำแนกโรคมะเร็ง ชุดของรุ่น PLSDA
การแปล กรุณารอสักครู่..
