label, such as “spam” or “not spam.” In clustering, however, each item is assigned to
one or more clusters, where the cluster does not necessarily correspond to a meaningful
concept, such as “spam” or “not spam.” Instead, as we will describe later
in this chapter, items are grouped together according to their similarity. Therefore,
rather than mapping items onto a predefined set of labels, clustering allows
the data to “speak for itself ” by uncovering the implicit structure that relates the
items.
Both classification and clustering have been studied for many years by information
retrieval researchers, with the aim of improving the effectiveness, or in
some cases the efficiency, of search applications. From another perspective, these
two tasks are classic machine learning problems. In machine learning, the learning
algorithms are typically characterized as supervised or unsupervised. In supervised
learning, a model is learned using a set of fully labeled items, which is often called
the training set. Once a model is learned, it can be applied to a set of unlabeled
items, called the test set, in order to automatically apply labels. Classification is
often cast as a supervised learning problem. For example, given a set of emails
that have been labeled as “spam” or “not spam” (the training set), a classification
model can be learned. The model then can be applied to incoming emails in order
to classify them as “spam” or “not spam”.
Unsupervised learning algorithms, on the other hand, learn entirely based on
unlabeled data. Unsupervised learning tasks are often posed differently than supervised
learning tasks, since the input data is not mapped to a predefined set of
labels. Clustering is the most common example of unsupervised learning. As we
will show, clustering algorithms take a set of unlabeled data as input and then
group the items using some notion of similarity.
There are many other types of learning paradigms beyond supervised and unsupervised,
such as semi-supervised learning, active learning, and online learning.
However, these subjects are well beyond the scope of this book. Instead, in this
chapter, we provide an overview of basic yet effective classification and clustering
algorithms and methods for evaluating them.
ป้ายชื่อเช่น " ขยะ " หรือ " ไม่พึงประสงค์ " ในการแบ่งกลุ่ม อย่างไรก็ตาม แต่ละรายการจะได้รับหนึ่งหรือมากกว่าหนึ่งกลุ่ม ซึ่งกลุ่มที่ไม่จําเป็นต้องสอดคล้องกับความหมายแนวคิดดังกล่าวเป็น " ขยะ " หรือ " ไม่สแปม แทนที่เราจะอธิบายในภายหลังในบทนี้ สินค้าจะถูกจัดกลุ่มเข้าด้วยกันตามความคล้ายคลึงกันของพวกเขา ดังนั้นมากกว่ารายการแผนที่ไปยังที่กำหนดไว้ล่วงหน้าชุดของป้ายชื่อ , การจัดกลุ่มช่วยให้ข้อมูลที่จะ " พูดให้ตัวเอง " โดยเปิดเผยโครงสร้างที่เกี่ยวข้องโดยปริยายรายการทั้งการจำแนกและแบ่งกลุ่มข้อมูลได้รับการศึกษามานานหลายปี โดยข้อมูลนักวิจัยสืบค้นข้อมูล โดยมีวัตถุประสงค์ของการปรับปรุงประสิทธิภาพ หรือในบางกรณี ประสิทธิภาพของโปรแกรมการค้นหา จากมุมมองอื่น เหล่านี้สองงานคลาสสิค เครื่องมีปัญหาการเรียนรู้ ในการเรียนรู้ของเครื่อง , การเรียนรู้ขั้นตอนวิธีโดยทั่วไปมีลักษณะเป็นแบบ หรือแบบไม่โต้ตอบ ในมีการเรียนรู้แบบการเรียนรู้โดยใช้ชุดของครบ ป้ายสินค้า ซึ่งมักเรียกว่าการตั้งค่า เมื่อนายแบบได้ สามารถใช้กับชุดใกล้เคียงรายการ เรียกว่าชุดทดสอบ , โดยอัตโนมัติเพื่อให้ใช้ฉลาก ประเภท คือมักจะโยนเป็นการเรียนรู้แบบมีผู้สอนปัญหา ตัวอย่างเช่น ได้รับชุดของอีเมลที่ได้รับการระบุว่าเป็น " ขยะ " หรือ " ขยะ " ( ชุดฝึก ) , การจำแนกรุ่นที่สามารถเรียนรู้ รูปแบบแล้วสามารถใช้กับอีเมล์ที่เข้ามาเพื่อแบ่งได้เป็น " ขยะ " หรือ " ไม่พึงประสงค์ "ขั้นตอนวิธีการเรียนรู้แบบไม่มีผู้สอนบนมืออื่น ๆที่เรียนรู้ทั้งหมดขึ้นอยู่กับข้อมูลใกล้เคียงกัน งานดาวแคระดำมักจะวางแตกต่างกว่ามีการเรียนรู้งาน เนื่องจากข้อมูลที่ป้อนเป็นแมปไปยังที่กำหนดไว้ล่วงหน้าชุดป้ายชื่อ การแบ่งกลุ่ม คือ ตัวอย่างที่พบมากที่สุดของการเรียนรู้แบบไม่มีผู้สอน . เป็นเราจะแสดงการจัดกลุ่มขั้นตอนวิธีใช้ชุดของข้อมูลที่ใกล้เคียงเข้าแล้วกลุ่มสินค้าที่ใช้บางความคิดที่คล้ายคลึงกันมีอยู่หลายชนิดอื่น ๆของการเรียนรู้กระบวนทัศน์เกินควบคุมและโดยขาดการควบคุมเช่นกึ่งการเรียนรู้แบบมีผู้สอน , ปราดเปรียว , การเรียนรู้ออนไลน์ การเรียนรู้อย่างไรก็ตาม คนเหล่านี้เป็นอย่างดีนอกเหนือขอบเขตของหนังสือเล่มนี้ ในนี้แทนบทที่ , เราให้ภาพรวมของพื้นฐาน แต่ประสิทธิภาพการจำแนกและแบ่งกลุ่มข้อมูลขั้นตอนวิธีการและวิธีการประเมินพวกเขา
การแปล กรุณารอสักครู่..
