Overlapping correlation clusteringA

Overlapping correlation clustering

Abstract—We introduce a new approach to the problem of
overlapping clustering. The main idea is to formulate overlapping
clustering as an optimization problem in which each data point
is mapped to a small set of labels, representing membership to
different clusters. The objective is to find a mapping so that the
distances between data points agree as much as possible with
distances taken over their label sets. To define distances between
label sets, we consider two measures: a set-intersection indicator
function and the Jaccard coefficient.
To solve the main optimization problem we propose a localsearch
algorithm. The iterative step of our algorithm requires
solving non-trivial optimization subproblems, which, for the
measures of set-intersection and Jaccard, we solve using a greedy
method and non-negative least squares, respectively.
Since our frameworks uses pairwise similarities of objects
as the input, it lends itself naturally to the task of clustering
structured objects for which feature vectors can be difficult to
obtain. As a proof of concept we show how easily our framework
can be applied in two different complex application domains.
Firstly, we develop overlapping clustering of animal trajectories,
obtaining zoologically meaningful results. Secondly, we apply
our framework for overlapping clustering of proteins based on
pairwise similarities of aminoacid sequences, outperforming the
of state-of-the-art method in matching a ground truth taxonomy

Overlapping correlation clustering

Abstract—We introduce a new approach to the problem of
overlapping clustering. The main idea is to formulate overlapping
clustering as an optimization problem in which each data point
is mapped to a small set of labels, representing membership to
different clusters. The objective is to find a mapping so that the
distances between data points agree as much as possible with
distances taken over their label sets. To define distances between
label sets, we consider two measures: a set-intersection indicator
function and the Jaccard coefficient.
To solve the main optimization problem we propose a localsearch
algorithm. The iterative step of our algorithm requires
solving non-trivial optimization subproblems, which, for the
measures of set-intersection and Jaccard, we solve using a greedy
method and non-negative least squares, respectively.
Since our frameworks uses pairwise similarities of objects
as the input, it lends itself naturally to the task of clustering
structured objects for which feature vectors can be difficult to
obtain. As a proof of concept we show how easily our framework
can be applied in two different complex application domains.
Firstly, we develop overlapping clustering of animal trajectories,
obtaining zoologically meaningful results. Secondly, we apply
our framework for overlapping clustering of proteins based on
pairwise similarities of aminoacid sequences, outperforming the
of state-of-the-art method in matching a ground truth taxonomy

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

ซ้อนความสัมพันธ์คลัสเตอร์นามธรรมซึ่งเราแนะนำวิธีการของใหม่ทับซ้อนคลัสเตอร์ ความคิดหลักคือการ กำหนดซ้อนทับกันคลัสเตอร์เป็นปัญหาการเพิ่มประสิทธิภาพในซึ่งแต่ละจุดข้อมูลถูกแมปชุดเล็กของป้าย เป็นตัวแทนสมาชิกคลัสเตอร์ที่แตกต่างกัน วัตถุประสงค์คือเพื่อ ค้นหาการแม็ปเพื่อให้การระยะทางระหว่างจุดข้อมูลยอมรับมากที่สุดด้วยระยะทางที่มากกว่าชุดของป้ายชื่อ การกำหนดระยะทางระหว่างชุดป้าย เราพิจารณามาตรการที่สอง: ตัวบ่งชี้แยกชุดฟังก์ชันและค่าสัมประสิทธิ์ของ Jaccardการแก้ปัญหาปรับหลัก เราเสนอ localsearch เป็นอัลกอริทึม ต้องมีขั้นตอนซ้ำของอัลกอริทึมของเราแก้ subproblems เพิ่มประสิทธิภาพไม่น่ารำคาญ ที่ สำหรับการมาตรการของชุดแยกและ Jaccard เราแก้ปัญหาโดยใช้ความโลภวิธีการและไม่เป็นลบอย่างน้อยสี่เหลี่ยม ตามลำดับตั้งแต่กรอบของเราใช้แพร์ไวส์ความคล้ายคลึงกันของวัตถุเป็นอินพุต มันยืมตัวเองตามธรรมชาติการใช้งานของคลัสเตอร์โครงสร้างวัตถุสำหรับซึ่งมีเวกเตอร์ได้ยากขอรับ เป็นหลักฐานของแนวคิด ที่เราแสดงวิธีง่ายกรอบของเราสามารถใช้งานได้ในโดเมนโปรแกรมประยุกต์ที่ซับซ้อนแตกต่างกันสองประการแรก เราพัฒนาคลัสเตอร์ของวิถีสัตว์ ที่ทับซ้อนได้รับผลลัพธ์ที่มีความหมาย zoologically ประการที่สอง เราใช้กรอบของเราสำหรับคลัสเตอร์ของโปรตีนตามที่ทับซ้อนแพร์ไวส์ความคล้ายคลึงกันของลำดับ aminoacid, outperformingศิลปะของวิธีการในระบบภาษีพื้นความจริงที่ตรงกัน

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

ความสัมพันธ์ที่ทับซ้อนกันเป็นกลุ่มก้อน

นามธรรมเราแนะนำวิธีการใหม่ในการแก้ไขปัญหาของการ
ทับซ้อนกันเป็นกลุ่มก้อน แนวคิดหลักคือการกำหนดที่ทับซ้อนกัน
เป็นกลุ่มก้อนเป็นปัญหาการเพิ่มประสิทธิภาพซึ่งในแต่ละจุดข้อมูล
จะถูกจับคู่กับชุดเล็ก ๆ ของฉลากที่เป็นตัวแทนของสมาชิกไปยัง
กลุ่มที่แตกต่างกัน โดยมีวัตถุประสงค์เพื่อหาการทำแผนที่เพื่อให้
ระยะทางระหว่างจุดข้อมูลที่เห็นด้วยมากที่สุดเท่าที่เป็นไปได้กับ
ระยะทางที่นำไปชุดฉลากของพวกเขา เพื่อกำหนดระยะทางระหว่าง
ชุดป้ายเราจะพิจารณามาตรการที่สอง: เป็นตัวบ่งชี้การตั้งจุดตัด
ฟังก์ชั่นและค่าสัมประสิทธิ์ Jaccard.
เพื่อแก้ปัญหาการเพิ่มประสิทธิภาพหลักที่เรานำเสนอ localsearch
อัลกอริทึม ขั้นตอนการทำซ้ำขั้นตอนวิธีการของเราต้องมี
การแก้ปัญาการเพิ่มประสิทธิภาพที่ไม่น่ารำคาญซึ่งสำหรับ
มาตรการในการตั้งจุดตัดและ Jaccard, เราแก้โดยใช้โลภ
และวิธีการที่ไม่ใช่เชิงลบน้อยสแควร์ตามลำดับ.
ตั้งแต่กรอบของเราใช้ความคล้ายคลึงกันคู่ของวัตถุที่
เป็น การป้อนข้อมูลก็ยืมตัวเองตามธรรมชาติที่งานของการจัดกลุ่ม
โครงสร้างวัตถุที่มีพาหะอาจเป็นเรื่องยากที่จะ
ได้รับ ในฐานะที่เป็นหลักฐานของแนวคิดที่เราแสดงให้เห็นว่าได้อย่างง่ายดายกรอบของเรา
สามารถนำมาใช้ในสองโดเมนโปรแกรมประยุกต์ที่ซับซ้อนที่แตกต่างกัน.
ประการแรกเราพัฒนาที่ทับซ้อนกันการจัดกลุ่มของไบสัตว์
ได้รับผลที่มีความหมาย zoologically ประการที่สองเราใช้
กรอบของเราสำหรับการจัดกลุ่มที่ทับซ้อนกันของโปรตีนที่อยู่บนพื้นฐานของ
ความคล้ายคลึงกันคู่ของลำดับ aminoacid, ทำงานได้ดีกว่า
วิธีการรัฐของศิลปะในการจับคู่อนุกรมวิธานจริงพื้นดิน

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

ความสัมพันธ์ทางพื้นที่ซ้อนทับกันนามธรรมที่เราแนะนำวิธีการใหม่ในปัญหาของที่ทับซ้อนกันในการจัดกลุ่ม . ความคิดหลักคือการสร้างซ้อนทับกันการจัดกลุ่มเป็นปัญหาการเพิ่มประสิทธิภาพซึ่งในแต่ละจุดข้อมูลเป็นแมปไปยังชุดขนาดเล็กของป้ายชื่อที่เป็นตัวแทนของสมาชิกกลุ่มที่แตกต่างกัน โดยมีวัตถุประสงค์เพื่อหาแผนที่ให้ที่ระยะทางระหว่างจุดข้อมูลที่เห็นด้วยมากที่สุดกับระยะทางมากกว่าชุดป้ายของพวกเขา การกำหนดระยะทางระหว่างชุดป้าย เราพิจารณาสองมาตรการ : การตั้งค่าตัวบ่งชี้ ทางแยกฟังก์ชันและ Jaccard coefficient .เพื่อแก้หลักเพิ่มประสิทธิภาพ ปัญหาที่เราเสนอ localsearchขั้นตอนวิธี ขั้นตอนซ้ำของขั้นตอนวิธีของเราต้องการการเพิ่มประสิทธิภาพ subproblems ไม่จุกจิก ซึ่งสำหรับมาตรการของชุดแยก Jaccard เราแก้โดยใช้ตะกละวิธีกำลังสองน้อยที่สุดและไม่ลบ ตามลำดับเนื่องจากกรอบของเราใช้คู่ความคล้ายคลึงกันของวัตถุเป็น input มันยืมตัวเองตามธรรมชาติเพื่องานของกลุ่มโครงสร้างวัตถุที่เป็นพาหะคุณลักษณะอาจจะยากที่จะขอรับ เป็นหลักฐานของแนวคิดที่เราแสดงวิธีง่ายกรอบของเราสามารถใช้โดเมนที่แตกต่างกันสองโปรแกรมที่ซับซ้อนประการแรก เราพัฒนากันการจัดกลุ่มของวิถีสัตว์ได้รับ zoologically ที่มีผล ประการที่สอง เราใช้กรอบของเราทับซ้อนในการจัดกลุ่มของโปรตีนขึ้นอยู่กับคู่ความคล้ายคลึงกันของลำดับอะมิโน แอซิค , outperformingวิธีที่ดีที่สุดในการจับคู่ความจริงพื้นดินอนุกรมวิธาน

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.