Correlation Clustering. The problem of CORRELATIONCLUSTERING
was first defined by Bansal et al. [1]. In their
definition, the input is a complete graph with positive and
negative edges. The objective is to partition the nodes of the
graph so as to minimize the number of positive edges that
are cut and the number of negative edges that are not cut;
corresponding to our problems (b, H, 1). This is an APXhard
optimization problem which has received a great deal
of attention in the field of theoretical computer science [16],
[17], [18], [19].
Ailon et al. [16] considered a variety of correlation clustering
problems. They proposed an algorithm that achieves
expected approximation ratio 5 if the weights obey the probability
condition. If the weights Xij obey also the triangle
inequality, then the algorithm achieves expected approximation
ratio 2. Swamy [19] has applied semi-definite programming
to obtain a 0.76-approximation algorithm for the corresponding
maximization problem: maximize agreements, rather than
minimize disagreements. Giotis and Guruswami [18] consider
correlation clustering when the number of clusters is given,
while Ailon and Liberty [17] study a variant of correlation
clustering where the goal is to minimize the number of
disagreements between the produced clustering and a given
ground truth clustering.
To the best of our knowledge, no previous work has consider
the possibility of overlaps in correlation clustering, i.e., the
problem (r, H, p), with p > 1.
Overlapping clustering. In 1979 Shepard and Arabie introduced
the ADCLUS algorithm [20] for additive clustering,
which perhaps can be considered the first overlappingclustering
method. The method, which has been later applied
in the marketing domain [21], subsumes hierarchical clustering
as a special case and can be regarded as a discrete analog of
principal components analysis.
Regardless this ancient roots, in the last decades overlapping
clustering has not attracted as much attention as nonoverlapping
clustering. One close sibling is fuzzy clustering
[22], where each data point has a membership value in all
the clusters. In this context cluster membership is “soft”, as
apposed to our paper that we are interested in “hard” cluster
assignments. Obviously a hard (and overlapping) cluster assignment
can be obtained by thresholding membership values.
The prototypical fuzzy-clustering method is fuzzy c-means,
which is essentially a soft version of k-means.
Recently mixture-models have been generalized to allow
overlapping clusters. Banerjee et al. [7] generalize the work
of Segal et al. [23] to work with any regular exponential
family distribution, and corresponding Bregman divergence.
ความสัมพันธ์ของคลัสเตอร์ ปัญหาของ CORRELATIONCLUSTERINGครั้งแรกถูกกำหนดโดย Bansal et al. [1] ในของพวกเขาคำจำกัดความ การป้อนข้อมูลเป็นกราฟบริบูรณ์ ด้วยบวก และขอบลบ วัตถุประสงค์จะแบ่งพาร์ติชันโหนดของการกราฟเพื่อลดจำนวนบวก edges ที่ตัดและจำนวนลบขอบที่จะไม่ตัดที่สอดคล้องกับปัญหาของเรา (b, H, 1) เป็นการ APXhardปัญหาการเพิ่มประสิทธิภาพที่ได้รับโปรโมชั่นความสนใจในด้านวิทยาการคอมพิวเตอร์ทฤษฎี [16],[17], [18], [19]ความหลากหลายของความสัมพันธ์คลัสเตอร์ถือว่า Ailon et al. [16]ปัญหา พวกเขานำเสนอเป็นอัลกอริทึมที่ได้รับคาดประมาณอัตราส่วน 5 ถ้าน้ำหนักฟังความเป็นไปได้เงื่อนไขการ ถ้าน้ำหนัก Xij ฟังยังสามเหลี่ยมอสมการ แล้วอัลกอริทึมได้รับการคาดประมาณอัตราส่วน 2 Swamy [19] ได้ใช้เขียนโปรแกรมแน่นอนกึ่งรับอัลกอริทึมประมาณ 0.76 สำหรับตรงกันปัญหา maximization: ขยายข้อตกลง rather กว่าลดความขัดแย้ง พิจารณา Giotis และ Guruswami [18]ความสัมพันธ์ของคลัสเตอร์เมื่อกำหนดหมายเลขของคลัสเตอร์ในขณะที่ Ailon และเสรีภาพ [17] ศึกษาการแปรของความสัมพันธ์คลัสเตอร์ที่จะลดจำนวนเป้าหมายความขัดแย้งระหว่างคลัสเตอร์การผลิต และการกำหนดความจริงพื้นที่คลัสเตอร์กับความรู้ของเรา งานก่อนหน้านี้ไม่ได้พิจารณาความเป็นไปได้ของการทับซ้อนในคลัสเตอร์ เช่น ความสัมพันธ์ปัญหา (r, H, p), p > 1ซ้อนคลัสเตอร์ ในปีค.ศ. 1979 เพิร์และ Arabie แนะนำขั้นตอนวิธี ADCLUS [20] ในคลัสเตอร์สามารถซึ่งอาจถือได้ว่า overlappingclustering แรกวิธีการ วิธี ซึ่งถูกใช้ในภายหลังในตลาดโดเมน [21], subsumes คลัสเตอร์ตามลำดับชั้นเป็นพิเศษกรณี และอาจถือเป็นแบบแอนะล็อกเดี่ยว ๆ ของการวิเคราะห์ส่วนประกอบหลักไม่โบราณนี้ราก ในทศวรรษที่ซ้อนทับกันคลัสเตอร์มีไม่ดึงดูดความสนใจมากเป็นขนานคลัสเตอร์ พี่น้องใกล้ชิดหนึ่งคือเอิบคลัสเตอร์[22], ซึ่งแต่ละจุดข้อมูลได้ค่าสมาชิกทั้งหมดคลัสเตอร์ ในคลัสเตอร์นี้บริบท สมาชิกจะ "อ่อน" เป็นapposed กับกระดาษของเราว่า เรามีความสนใจในคลัสเตอร์ "ยาก"กำหนด คลัสเตอร์อย่างหนัก (และทับซ้อนกัน) การกำหนดอย่างชัดเจนสามารถได้รับ โดยค่าสมาชิก thresholdingวิธี prototypical เอิบคลัสเตอร์เป็นปุย c-หมายถึงซึ่งจะเป็นรุ่นที่นุ่มหมายถึง kเมื่อเร็ว ๆ นี้ รูปแบบผสมมีการตั้งค่าทั่วไปให้คลัสเตอร์ที่ทับซ้อน งานทั่วไป Banerjee และ al. [7]ของ Segal et al. [23] การทำงานประจำใด ๆ เนนครอบครัวกระจาย และ divergence Bregman สอดคล้องกัน
การแปล กรุณารอสักครู่..
การจัดกลุ่มสหสัมพันธ์ . ปัญหาของ correlationclustering
เป็นครั้งแรกที่กำหนดโดยเค แบนซัล et al . [ 1 ] ในความหมายของพวกเขา
, ข้อมูลเป็นกราฟสมบูรณ์ มีขอบเชิงลบเป็นบวกและ
โดยมีวัตถุประสงค์เพื่อกั้นโหนดของ
กราฟเพื่อที่จะลดจำนวนของขอบบวก
ตัดและจำนวนของขอบเชิงลบที่ไม่ตัด ;
ที่สอดคล้องกับปัญหาของเรา ( B , G , 1 )นี้เป็น apxhard
optimization ปัญหาที่ได้รับการจัดการที่ดีของความสนใจ
สาขาคอมพิวเตอร์วิทยาศาสตร์ทฤษฎี [ 16 ]
[ 17 ] , [ 18 ] , [ 19 ] .
ailon et al . [ 16 ] พิจารณาความหลากหลายของการจัดกลุ่ม
) ปัญหา พวกเขาเสนออัลกอริทึมที่ใช้
คาดว่าประมาณอัตราส่วน 5 ถ้าน้ำหนักความน่าจะเป็น
ทำตามเงื่อนไข ถ้าน้ำหนักยังสามเหลี่ยม
xij เชื่อฟังความไม่เท่าเทียมกันแล้วขั้นตอนวิธีใช้คาดประมาณ
อัตราส่วน 2 Swamy [ 19 ] ได้ใช้กึ่งแน่นอนโปรแกรม
ขอรับ 0.76-approximation ขั้นตอนวิธีสำหรับปัญหาที่สอดคล้องกัน (
: ขยายข้อตกลงมากกว่า
ลดความขัดแย้ง จิโอทิส และ guruswami [ 18 ] พิจารณาการจัดกลุ่มสหสัมพันธ์
เมื่อจำนวนกลุ่มจะได้รับ ,
ในขณะที่ ailon และเสรีภาพ [ 17 ] ศึกษาตัวแปรความสัมพันธ์
การจัดกลุ่มที่มีเป้าหมายคือการลดจำนวนของความขัดแย้งระหว่างกลุ่มผลิต
ความจริงและให้ดินการจัดกลุ่ม .
เพื่อที่ดีที่สุดของความรู้ของเรา ไม่มีผลงานที่ผ่านมาได้พิจารณาความเป็นไปได้ในความสัมพันธ์ทับซ้อน
ปัญหา clustering คือ ( r , H , P ) p > 1 .
ที่ทับซ้อนกันในการจัดกลุ่ม .ในปี 1979 Shepard และ arabie แนะนำ
adclus ขั้นตอนวิธี [ 20 ] สำหรับการบวก การเข้ากลุ่ม
ซึ่งบางทีก็ถือเป็นวิธี overlappingclustering
ก่อน วิธีที่ได้รับต่อมาประยุกต์
ในการตลาดโดเมน [ 21 ] , subsumes การจัดกลุ่มลำดับชั้น
เป็นกรณีพิเศษ และสามารถถือได้ว่าเป็นอะนาล็อกแบบไม่ต่อเนื่อง การวิเคราะห์องค์ประกอบหลักของ
.
ไม่นี้โบราณ รากในช่วงทศวรรษที่ทับซ้อนกัน
การจัดกลุ่มไม่ได้ดึงดูดความสนใจมากเป็น nonoverlapping
การจัดกลุ่ม . หนึ่งคือ Fuzzy การจัดกลุ่มใกล้ชิดพี่น้อง
[ 22 ] ที่จุดข้อมูลแต่ละค่ามีสมาชิกในกลุ่มทั้งหมด
. ในบริบทของกลุ่มสมาชิก " อ่อน " เป็น
อีกทีกระดาษของเราที่เราสนใจ " ยาก " กลุ่ม
ที่ได้รับมอบหมายเห็นได้ชัดยาก ( และทับซ้อนกัน ) กลุ่มงาน
ได้โดยปรับค่าสมาชิก แบบ Fuzzy การจัดกลุ่ม
วิธีฟัซซีซีมีนซึ่งเป็นหลัก , รุ่นนุ่มของ k-means .
เมื่อเร็ว ๆนี้รุ่นผสมได้ทั่วไปให้
กลุ่มที่ทับซ้อนกัน Banerjee et al . [ 7 ] generalize
ของซีกัล et al . [ 23 ] ทำงานกับใด ๆปกติ
เอกซ์โพเนนเชียลการกระจายของครอบครัว และสอดคล้องกัน เบรกแมน
divergence
การแปล กรุณารอสักครู่..