RELATED WORKA survey of outlier det

RELATED WORK

A survey of outlier detection methods was given by
Hodge & Austin , focusing especially on those
developed within the Computer Science community.

Supervised outlier detection methods, are suitable for data whose characteristics do not change through time,
they have training data with normal and abnormal data objects.

There may be multiple normal and/or abnormal classes. Often, the classification problem is highly imbalanced. In semi-supervised recognition methods, the normal class is taught, and data points that do not resemble normal data are considered outliers.

Unsupervised methods process data with no prior knowledge.

Four categories of unsupervised outlier detection algorithms;
(1) In a clustering-based method, like DBSCAN (a density-based algorithm for discovering clusters in large spatial databases) outliers are by-products of the clustering process and will not be in any resulting cluster.

2. The density-based method of uses a Local Outlier Factor (LOF) to find outliers. If the object is isolated with respect to the surrounding neighborhood, the outlier degree would be high, and vice versa.

3. The distribution-based method defines, for instance, outliers to be those points p such that at most 0.02% of points are within 0.13σ of p.

(4) Distance-based outliers are those objects that do not have “enough” neighbours The problem of finding outliers can be solved by answering a nearest neighbour or range query centered at each object O

Several mathematical methods can also be applied to outlier detection. Principal component analysis (PCA) can be used to detect outliers.

PCA computes orthonormal vectors that provide a basis (scores) for the input data. Then principal components are sorted in order of decreasing “significance” or strength. The size of the data can be reduced by eliminating the weaker components which are with low variance.

The convex hull method finds outliers by peeling off the outer layers of convex hulls. Data points on shallow layers are likely to be outliers.

RELATED WORK

A survey of outlier detection methods was given by 
Hodge & Austin , focusing especially on those 
developed within the Computer Science community.

Supervised outlier detection methods, are suitable for data whose characteristics do not change through time, 
they have training data with normal and abnormal data objects.

There may be multiple normal and/or abnormal classes. Often, the classification problem is highly imbalanced. In semi-supervised recognition methods, the normal class is taught, and data points that do not resemble normal data are considered outliers.

Unsupervised methods process data with no prior knowledge.

Four categories of unsupervised outlier detection algorithms;
(1) In a clustering-based method, like DBSCAN (a density-based algorithm for discovering clusters in large spatial databases) outliers are by-products of the clustering process and will not be in any resulting cluster.

2. The density-based method of uses a Local Outlier Factor (LOF) to find outliers. If the object is isolated with respect to the surrounding neighborhood, the outlier degree would be high, and vice versa.

3. The distribution-based method defines, for instance, outliers to be those points p such that at most 0.02% of points are within 0.13σ of p.

(4) Distance-based outliers are those objects that do not have “enough” neighbours The problem of finding outliers can be solved by answering a nearest neighbour or range query centered at each object O

Several mathematical methods can also be applied to outlier detection. Principal component analysis (PCA) can be used to detect outliers.

PCA computes orthonormal vectors that provide a basis (scores) for the input data. Then principal components are sorted in order of decreasing “significance” or strength. The size of the data can be reduced by eliminating the weaker components which are with low variance.

The convex hull method finds outliers by peeling off the outer layers of convex hulls. Data points on shallow layers are likely to be outliers.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

งานที่เกี่ยวข้องสำรวจของ outlier ต่าง ๆ ถูกกำหนดโดย Hodge & Austin มุ่งโดยเฉพาะอย่างยิ่งในผู้ พัฒนาภายในชุมชนวิทยาศาสตร์คอมพิวเตอร์ มี outlier ต่าง ๆ เหมาะสำหรับข้อมูลที่ไม่ได้เปลี่ยนแปลงลักษณะผ่านเวลา มีข้อมูลการฝึกอบรมกับวัตถุข้อมูลที่ปกติ และผิดปกติ อาจมีหลายชั้นเรียนปกติ หรือผิดปกติ มักจะ ปัญหาการจัดประเภทเป็น imbalanced สูง ในวิธีการการรับรู้มีกึ่ง สอนระดับปกติ และจุดข้อมูลที่คล้ายกับข้อมูลปกติถือเป็น outliers Unsupervised วิธีประมวลผลข้อมูลกับความรู้เดิมไม่ ประเภทที่ 4 ของ unsupervised outlier ตรวจสอบอัลกอริทึม(1) วิธีคลัสเตอร์ตาม เช่น DBSCAN (เป็นความหนาแน่นตามอัลกอริทึมสำหรับการค้นพบกลุ่มในฐานข้อมูลปริภูมิขนาดใหญ่) outliers เป็นสินค้าพลอยได้ของกระบวนการระบบคลัสเตอร์ และจะในคลัสเตอร์ใด ๆ ได้ 2. ความหนาแน่นตามวิธีการใช้เฉพาะ Outlier ปัจจัย (LOF) หา outliers ถ้าวัตถุอยู่แยกกับพื้นที่ใกล้เคียงโดยรอบ ระดับ outlier จะได้สูง และในทางกลับกัน 3.วิธีการแจกจ่ายตามกำหนด เช่น outliers เป็น p จุดเหล่านั้นให้มากที่สุด 0.02% ของคะแนนที่อยู่ใน 0.13σ ของ p (4) outliers ระยะห่างตามวัตถุเหล่านั้นที่ไม่มีเพื่อน "พอ" ปัญหาค้นหา outliers สามารถแก้ไขได้ ด้วยการตอบรับเป็นเพื่อนบ้านที่ใกล้ที่สุดหรือแบบสอบถามช่วงแต่ละวัตถุ Oยังสามารถประยุกต์ใช้วิธีการทางคณิตศาสตร์ต่าง ๆ ตรวจสอบ outlier วิเคราะห์ส่วนประกอบหลัก (PCA) สามารถใช้ตรวจหา outliers PCA จะ orthonormal เวกเตอร์ที่ใช้เป็นข้อมูลพื้นฐาน (คะแนน) สำหรับข้อมูลที่ป้อนเข้า แล้ว ส่วนประกอบหลักจะถูกจัดเรียงในลำดับการลด "ความสำคัญ" หรือความแรง คุณสามารถลดขนาดของข้อมูล โดยการกำจัดส่วนประกอบแข็งแกร่งซึ่งมีความแปรปรวนต่ำสุด วิธีฮัลล์นูนพบ outliers โดยปอกเปลือกชั้นนอกของ hulls นูนออก จุดข้อมูลในชั้นตื้นมักจะเป็น outliers

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

ทำงานที่เกี่ยวข้องกับการสำรวจของวิธีการตรวจสอบค่าผิดปกติได้รับโดยฮ็อดจ์และออสตินมุ่งเน้นโดยเฉพาะอย่างยิ่งในผู้ที่ได้รับการพัฒนาภายในชุมชนวิทยาการคอมพิวเตอร์. ภายใต้การควบคุมวิธีการตรวจสอบค่าผิดปกติมีความเหมาะสมสำหรับข้อมูลที่มีลักษณะไม่เปลี่ยนผ่านช่วงเวลาที่พวกเขามีข้อมูลการฝึกอบรมที่มีปกติและ วัตถุข้อมูลที่ผิดปกติ. อาจจะมีหลาย ๆ คนปกติและ / หรือชั้นเรียนที่ผิดปกติ บ่อยครั้งที่ปัญหาการจัดหมวดหมู่เป็นขาดดุลสูง ในวิธีการรับรู้กึ่งดูแลชั้นเรียนปกติการเรียนการสอนและจุดข้อมูลที่ไม่ได้มีลักษณะคล้ายกับข้อมูลที่ปกติจะมีการพิจารณาค่าผิดปกติ. วิธี Unsupervised ประมวลผลข้อมูลมีความรู้ก่อน. สี่ประเภทขอบเขตหากินขั้นตอนวิธีการตรวจจับ(1) ใน clustering- ตามวิธีการเช่น DBSCAN (อัลกอริทึมที่มีความหนาแน่นตามสำหรับการค้นพบกลุ่มในฐานข้อมูลเชิงพื้นที่ขนาดใหญ่) ค่าผิดปกติเป็นผลพลอยได้ของกระบวนการการจัดกลุ่มและจะไม่อยู่ในคลัสเตอร์ผลใด ๆ . 2 วิธีการที่ใช้ความหนาแน่นของการใช้ปัจจัย Outlier ท้องถิ่น (LOF) เพื่อหาค่าผิดปกติ ถ้าวัตถุที่ถูกแยกส่วนที่เกี่ยวกับพื้นที่ใกล้เคียงโดยรอบระดับค่าผิดปกติจะสูงและโอละพ่อ. 3 วิธีการกระจายตามกำหนดเช่นค่าผิดปกติที่จะเป็นผู้ที่จุด P ดังกล่าวว่าที่มากที่สุด 0.02% ของจุดอยู่ภายใน0.13σของพี. (4) ค่าผิดปกติตามระยะทางเป็นวัตถุเหล่านั้นที่ไม่ได้มี "พอ" เพื่อนบ้าน ปัญหาในการหาค่าผิดปกติจะสามารถแก้ไขได้โดยการตอบเพื่อนบ้านที่ใกล้ที่สุดหรือแบบสอบถามช่วงศูนย์กลางที่แต่ละวัตถุ O วิธีการทางคณิตศาสตร์หลายนอกจากนี้ยังสามารถนำไปใช้กับขอบเขตการตรวจสอบ การวิเคราะห์องค์ประกอบหลัก (PCA) สามารถนำมาใช้ในการตรวจสอบค่าผิดปกติ. PCA คำนวณเวกเตอร์ orthonormal ที่ให้พื้นฐาน (คะแนน) สำหรับการป้อนข้อมูล แล้วองค์ประกอบหลักที่มีการเรียงลำดับของการลดลง "ความสำคัญ" หรือความแรง ขนาดของข้อมูลที่สามารถลดลงได้โดยการกำจัดชิ้นส่วนที่อ่อนตัวลงซึ่งจะมีความแปรปรวนต่ำ. วิธีการเรือนูนพบว่าค่าผิดปกติโดยการลอกออกชั้นนอกของเปลือกนูน จุดข้อมูลในชั้นตื้น ๆ มีแนวโน้มที่จะผิดปกติ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

ที่เกี่ยวข้องงาน

การสำรวจวิธีการตรวจสอบค่าผิดปกติให้โดย
ฮอดจ์&ออสติน , เน้นโดยเฉพาะอย่างยิ่งเกี่ยวกับเหล่านั้น
พัฒนาภายในชุมชนวิทยาศาสตร์คอมพิวเตอร์

มีวิธีตรวจจับค่า เหมาะสำหรับข้อมูลที่มีลักษณะไม่เปลี่ยนผ่านเวลา
มีข้อมูลการฝึกอบรมปกติและข้อมูลวัตถุที่ผิดปกติด้วย

อาจจะมีหลายปกติและ / หรือการเรียนมักจะ , การจำแนกปัญหาเป็นอย่างสูงที่ไม่สมดุล . ในแบบวิธีกึ่งการเรียนปกติ สอนและข้อมูลจุดที่ไม่เหมือนข้อมูลที่ปกติจะถือว่าผิดปกติ .

unsupervised วิธีการประมวลผลข้อมูลที่มีความรู้ก่อนไม่มี .

สี่ประเภทของค่าการตรวจสอบขั้นตอนวิธี unsupervised ;
( 1 ) วิธีการในการจัดกลุ่มตามชอบ dbscan ( ความหนาแน่นตามขั้นตอนวิธีการค้นพบกลุ่มในฐานข้อมูลขนาดใหญ่ ) เมื่อเป็นผลิตภัณฑ์ของกลุ่ม และจะไม่อยู่ในกระบวนการใดๆ ที่เกิดจากกลุ่ม

2 ความหนาแน่นตามวิธีของการใช้ปัจจัยค่าท้องถิ่น ( ลอฟ ) พบค่าผิดปกติ . ถ้าเป็นวัตถุที่แยกตามละแวกรอบ , ค่าระดับจะสูงและในทางกลับกัน

3การกระจายตามวิธีที่กำหนด เช่น เมื่อเป็นผู้จุด P ซึ่งส่วนใหญ่อยู่ภายใน 0.13 0.02 % ของคะแนนσ P .

( 4 ) ระยะห่างจากค่าผิดปกติเหล่านั้นที่ไม่ได้มี " เพื่อนบ้านเพียงพอ " ปัญหาที่พบผิดปกติสามารถแก้ไขได้โดยการตอบใกล้เพื่อนบ้านหรือช่วง การเป็นศูนย์กลางในแต่ละวัตถุ O

วิธีการทางคณิตศาสตร์ที่สามารถใช้ตรวจหาค่า . การวิเคราะห์องค์ประกอบหลัก ( PCA ) สามารถใช้ในการตรวจสอบค่าผิดปกติ

PCA จะคำนวณเวกเตอร์การทที่ให้พื้นฐาน ( คะแนน ) สำหรับข้อมูลเริ่มต้น แล้วส่วนประกอบหลักจะถูกจัดเรียงในลำดับของการลด " ความสำคัญ " หรือความแข็งแรงขนาดของข้อมูลที่สามารถจะลดลงโดยการลดลงซึ่งเป็นส่วนประกอบที่มีความแปรปรวนต่ำ

วิธีหาเปลือกนูนผิดปกติ โดยการลอกชั้นนอกของเปลือกนูน . จุดข้อมูลในชั้นตื้นมีแนวโน้มที่จะผิดปกติ .

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.