INTRODUCTION
In many real-world applications it is desirable to allow
overlapping clusters as data points may intrinsically belong
to more than one cluster. For example, in social networks
users belong to numerous communities. In biology, a large
fraction of proteins belong to several protein complexes simultaneously,
and genes have multiple coding functions and
participate in different metabolic pathways. In information
retrieval and text mining, documents, news articles, and web
pages can belong to different categories.
In this paper we formulate overlapping clustering as the
problem of mapping each data point to a small set of labels
that represent cluster membership. The number of labels does
not have to be the same for all data points. The objective is to
find a mapping so that the similarity between any pair of points
in the dataset agrees as much as possible with the similarity
of their corresponding sets of labels.
While this idea is general and could be instantiated in
different clustering frameworks, in this paper we apply it to
the setting of correlation clustering [1], a clustering paradigm
defined as follows: given a complete graph with positive and
negative edges, the objective is to partition the graph so as
to minimize the number of positive edges cut by the partition
plus the number of negative edges not cut.
บทนำ
ในหลายโลกจริงๆ มันเป็นที่พึงปรารถนาเพื่อให้
ซ้อนกลุ่มเป็นจุดข้อมูลอาจเป็นของ
ภายในกลุ่มได้มากกว่าหนึ่ง ตัวอย่างเช่น , ในเครือข่ายทางสังคม
ผู้ใช้เป็นของชุมชนมากมาย ในชีววิทยา ส่วนใหญ่
โปรตีนเป็นของหลายโปรตีนเชิงซ้อนพร้อมกัน
และยีนมีหลายหน้าที่และ
นะครับมีส่วนร่วมในการเผาผลาญเซลล์แตกต่างกัน ในการค้นคืนสารสนเทศ
และเหมืองแร่ , เอกสารข้อความ , ข่าว , บทความและเว็บ
หน้าจะเป็นของประเภทที่แตกต่างกัน ในกระดาษนี้เราตั้งซ้อนกัน
สามารถเป็นปัญหาของการทำแผนที่แต่ละจุดข้อมูลเป็นชุดๆป้าย
ที่เป็นตัวแทนของสมาชิกกลุ่ม หมายเลขป้ายไม่
ไม่ต้องเหมือนกันสำหรับข้อมูลทุกจุดโดยมีวัตถุประสงค์เพื่อ
หาแผนที่ให้ ความเหมือนระหว่างคู่คะแนน
ใน DataSet เห็นด้วยมากที่สุดกับความเหมือน
ชุดของป้ายชื่อที่สอดคล้องกันของพวกเขา .
ในขณะที่ความคิดนี้เป็นทั่วไปและสามารถ instantiated
แตกต่างกันในกรอบแบ่งกลุ่ม ในกระดาษนี้เราใช้
ฉากของ ความสัมพันธ์ทางพื้นที่ [ 1 ] , การจัดกลุ่มกระบวนทัศน์
นิยามดังนี้ให้กราฟสมบูรณ์ มีขอบเชิงลบและบวก
, วัตถุประสงค์คือฉากกราฟเพื่อ
เพื่อลดจำนวนของขอบบวกตัดโดยพาร์ทิชัน
บวกจํานวนลบขอบ ไม่ตัด
การแปล กรุณารอสักครู่..
