KDD covers a variety of techniques to extract knowledge from large data sets. In several problem domains (e.g., surveillance and auditing, stock market analysis, health monitoring systems, to mention a few), the problem of detecting rare events, deviant objects, and exceptions is very important. Methods for finding such outliers in large data sets are drawing increasing attention [1, 2, 5, 8, 13, 16, 17, 20, 18, 19]. The salient approaches to outlier detection can be classified as either distribution-based [5], depthbased [16], clustering [14], distance-based [17, 20, 18, 19], or density-based [8] (see Section 2).
KDD ครอบคลุมความหลากหลายของเทคนิคการดึงความรู้จากชุดข้อมูลขนาดใหญ่ ปัญหาของเหตุการณ์ที่หายาก วัตถุ deviant และข้อยกเว้นการตรวจจับเป็นไม่อย่างยิ่งในหลายปัญหาโดเมน (เช่น เฝ้าระวังและการตรวจสอบ วิเคราะห์ตลาดหุ้น ตรวจสอบระบบ พูดถึงกี่สุขภาพ), วิธีการ finding เช่น outliers ในชุดข้อมูลขนาดใหญ่มีรูปวาดเพิ่มความสนใจ [1, 2, 5, 8, 13, 16, 17, 20, 18, 19] วิธีเด่น outlier ตรวจสอบสามารถเป็น classified เป็นการแจกจ่ายตาม [5], depthbased [16], [14], คลัสเตอร์ตามระยะ [17, 20, 18, 19], หรือตามความหนาแน่น [8] (ดูส่วนที่ 2)
การแปล กรุณารอสักครู่..

KDD ครอบคลุมความหลากหลายของเทคนิคในการดึงความรู้จากชุดข้อมูลขนาดใหญ่ ในโดเมนปัญหาหลาย (เช่นการเฝ้าระวังและการตรวจสอบการวิเคราะห์การลงทุนในตลาดหุ้นระบบการตรวจสอบสุขภาพ, พูดถึงไม่กี่) ปัญหาของการตรวจสอบเหตุการณ์ที่หายากวัตถุเบี่ยงเบนและข้อยกเว้นเป็นสิ่งสำคัญมาก วิธีการสำหรับ Fi nding ค่าผิดปกติดังกล่าวในชุดข้อมูลขนาดใหญ่กำลังวาดความสนใจเพิ่มขึ้น [1, 2, 5, 8, 13, 16, 17, 20, 18, 19] แนวทางสำคัญที่จะขอบเขตการตรวจสอบสามารถจัดประเภทเป็นทั้งการกระจายตาม [5], depthbased [16], การจัดกลุ่ม [14], ระยะห่างตาม [17, 20, 18, 19] หรือความหนาแน่นตาม [8] (ดู มาตรา 2)
การแปล กรุณารอสักครู่..

KDD ครอบคลุมความหลากหลายของเทคนิคเพื่อสกัดความรู้จากชุดข้อมูลที่มีขนาดใหญ่ ในปัญหาหลายโดเมน ( เช่น การเฝ้าระวัง และการตรวจสอบ การวิเคราะห์ การตรวจสอบสุขภาพระบบตลาดหุ้น พูดถึงไม่กี่ ) ปัญหาของการตรวจหาวัตถุ " เหตุการณ์ที่หายาก และมีข้อยกเว้นที่สำคัญมาก วิธีการหาดังกล่าวจึงผิดปกติในชุดข้อมูลที่มีขนาดใหญ่กำลังได้รับความสนใจเพิ่มขึ้น [ 1 , 2 , 5 , 8 , 13 , 16 , 17 , 20 , 18 , 19 ) แนวทางสำคัญเพื่อตรวจหาค่าสามารถ classi จึงเอ็ดเป็นทั้งการกระจายตาม depthbased [ 5 ] , [ 16 ] , การจัดกลุ่ม [ 14 ] ระยะทางจาก [ 17 , 20 , 18 , 19 ] หรือความหนาแน่นตาม [ 8 ] ( ดูส่วนที่ 2 )
การแปล กรุณารอสักครู่..
