SSL is a mainstream methodology for exploiting unlabeled data to improve the prediction
accuracy. Generally, SSL can be classified into four categories [Zhou and Li
2010], that is, generative methods [Fujino et al. 2005; Miller and Uyar 1997; Nigam
et al. 2000], S3VMs (Semi-Supervised Support Vector Machines) [Xu and Schuurmans
2005; Joachims 1999; Chapelle and Zien 2005], graph-based methods [Zhu et al. 2003;
Zhou et al. 2004], and disagreement-based methods [Blum and Mitchell 1998; Zhou and
Li 2010]. Generative methods conduct maximum likelihood estimation to determine
the parameters of models, where the labels of unlabeled data are treated as missing
values. S3VMs usually utilize unlabeled data to adjust the decision boundary built
from labeled examples. In graph-based methods, the SSL problem can be addressed by
propagating the label information in a graph constructed from labeled and unlabeled
data where each node corresponds to one instance. The key of disagreement-based
methods is to generate multiple learners, let them collaborate to exploit unlabeled
data, and maintain a disagreement among the base learners. This line of research
started by Blum and Mitchell [1998]’s seminal work on cotraining, which is a multiview
learning algorithm. Zhou and Li [2005a] proposed a Semi-Supervised Regression
(SSR) approach, COREG, which employs two kNN regressors to conduct the data labeling
and the predictive confidence estimation. COREG does not require multiviews, it utilizes
kNN as the base regressor since it is easy to update and smoothly consistent with the
manifold assumption of SSL. In COREG, the most confidently labeled example is determined
as the one which makes the regressormost consistent with labeled data. Though
studies of disagreement-based SSL approaches started from multiview setting [Blum
and Mitchell 1998], there are many successful algorithms that do not require multiviews
[Zhou and Li 2005a, 2010]. Recently, theoretical studies showed that multiview
is not really needed for disagreement-based algorithms [Wang and Zhou 2007,
2010b].
SSL เป็นวิธีหลักสำหรับ exploiting ข้อมูลเพียงเพื่อปรับปรุงการคาดเดาความถูกต้อง ทั่วไป SSL อาจแบ่งได้เป็น 4 ประเภท [โจวและ Li2010], คือ generative วิธี [กิฟูจิ et al. 2005 มิลเลอร์และ Uyar 1997 NigamS3VMs et al. 2000], (สนับสนุนกึ่งมีเวกเตอร์เครื่อง) [Xu และ Schuurmans2005 ปี 1999 Joachims ปัค Zien 2005], กราฟตามวิธี [ซู et al. 2003โจว et al. 2004], และวิธีที่ใช้กัน [สุ่มและ Mitchell 1998 โจว และหลี่ 2010] วิธี generative ดำเนินการประเมินความเป็นไปได้สูงสุดในการกำหนดพารามิเตอร์ของแบบจำลอง ที่ป้ายชื่อข้อมูลไม่จะถือว่าเป็นการขาดหายไปค่า S3VMs มักจะใช้ข้อมูลเพียงเพื่อปรับขอบเขตการตัดสินใจที่สร้างขึ้นจากป้ายตัวอย่าง ในวิธีใช้กราฟ ปัญหา SSL สามารถส่งโดยป้ายชื่อข้อมูลเป็นกราฟที่สร้างจากป้าย และไม่เผยแพร่ข้อมูลที่แต่ละโหนตรงกับอินสแตนซ์เดียว คีย์ของใช้กันวิธีคือการ สร้างผู้เรียนหลาย ให้ทำงานร่วมกันเพื่อใช้ประโยชน์เพียงข้อมูล และรักษาฐานผู้เรียนเห็นพ้อง สายงานวิจัยนี้เริ่มต้น โดยการสุ่มและ Mitchell [1998] ของงานบรรลุถึงใน cotraining ซึ่งเป็น multiviewอัลกอริทึมการเรียนรู้ นำเสนอถด Semi-Supervised โจวและ Li [2005a]วิธีการ (SSR) COREG ที่มี regressors kNN สองการดำเนินการติดฉลากข้อมูลและการประเมินความเชื่อมั่นคาดการณ์ COREG ต้อง multiviews มันใช้kNN เป็น regressor ฐานเป็นปรับปรุงง่าย และราบรื่นสอดคล้องกับการอัสสัมชัญความหลากหลายนับของ SSL ใน COREG ขึ้นตัวอย่างป้ายสุดมั่นที่ ซึ่งทำให้ regressormost ที่สอดคล้องกับข้อมูลป้าย แม้ว่าศึกษาวิธีการ SSL ที่ใช้กันเริ่มจากการตั้งค่า multiview [สุ่มและ Mitchell 1998], มีกระบวนการประสบความสำเร็จมากมายที่ไม่จำเป็นต้อง multiviews[โจวและ Li 2005a, 2010] ล่าสุด ศึกษาทฤษฎีพบว่า multiviewจริง ๆ ไม่จำเป็นสำหรับใช้กันอัลกอริทึม [วังและโจว 20072010b]
การแปล กรุณารอสักครู่..
