The key idea of ADASYN algorithm is

The key idea of ADASYN algorithm is to use a density
distribution ˆ ri as a criterion to automatically decide the
number of synthetic samples that need to be generated for
each minority data example. Physically, ˆ ri is a measurement
of the distribution of weights for different minority class
examples according to their level of difficulty in learning.
The resulting dataset post ADASYN will not only provide a
balanced representation of the data distribution (according to
the desired balance level defined by the β coefficient), but it
will also force the learning algorithm to focus on those difficult
to learn examples. This is a major difference compared to the
SMOTE [15] algorithm, in which equal numbers of synthetic
samples are generated for each minority data example. Our
objective here is similar to those in SMOTEBoost [16] and
DataBoost-IM [17] algorithms: providing different weights for
different minority examples to compensate for the skewed
distributions. However, the approach used in ADASYN is
more efficient since both SMOTEBoost and DataBoost-IM
rely on the evaluation of hypothesis performance to update
the distribution function, whereas our algorithm adaptively
updates the distribution based on the data distribution characteristics.
Hence, there is no hypothesis evaluation required
for generating synthetic data samples in our algorithm.
Fig. 1 shows the classification error performance for different
β coefficients for an artificial two-class imbalanced data
set. The training data set includes 50 minority class examples
and 200 majority class examples, and the testing data set
includes 200 examples. All data examples are generated by
multidimensional Gaussian distributions with different mean
and covariance matrix parameters. These results are based
on the average of 100 runs with a decision tree as the base
classifier. In Fig. 1, β = 0 corresponds to the classification
error based on the original imbalanced data set, while β = 1
represents a fully balanced data set generated by the ADASYN

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

ความคิดสำคัญของอัลกอริทึม ADASYN คือการ ใช้ความหนาแน่นˆการกระจาย ri เป็นเกณฑ์ในการตัดสินใจโดยอัตโนมัติจำนวนตัวอย่างที่สังเคราะห์ที่ต้องการสร้างสำหรับตัวอย่างข้อมูลแต่ละส่วนน้อย ร่างกาย ˆรีเป็นการวัดการกระจายตัวของน้ำหนักสำหรับประเภทชนกลุ่มน้อยที่แตกต่างกันตัวอย่างตามระดับความยากในการเรียนรู้ADASYN จะไม่ให้โพสต์ชุดข้อมูลผลลัพธ์แสดงความสมดุลของการกระจายข้อมูล (ตามไปต้องการสมดุลระดับกำหนดไว้ โดยค่าสัมประสิทธิ์β), แต่มันนอกจากนี้ยังจะทำให้อัลกอริทึมการเรียนรู้จะเน้นผู้ยากการเรียนรู้ตัวอย่าง นี่คือความแตกต่างที่สำคัญเมื่อเทียบกับการSMOTE [15] อัลกอริทึม ตัวเลขซึ่งเท่ากับของสังเคราะห์ตัวอย่างจะถูกสร้างขึ้นสำหรับแต่ละตัวอย่างข้อมูลชนกลุ่มน้อย ของเราวัตถุประสงค์นี่คือคล้ายกับใน SMOTEBoost [16] และอัลกอริทึม DataBoost-IM [17]: ให้น้ำหนักที่แตกต่างสำหรับตัวอย่างของชนกลุ่มน้อยต่าง ๆ เพื่อชดเชยการเบ้การกระจาย อย่างไรก็ตาม วิธีที่ใช้ใน ADASYN คือมีประสิทธิภาพมากขึ้นตั้งแต่ SMOTEBoost และ DataBoost-IMอาศัยการประเมินผลของสมมติฐานประสิทธิภาพการปรับปรุงฟังก์ชั่นการกระจาย ในขณะที่อัลกอริทึมของเราอย่างเหมาะสมปรับปรุงการกระจายตามลักษณะการกระจายของข้อมูลดังนั้น มีการประเมินสมมติฐานไม่จำเป็นสำหรับการสร้างอย่างสังเคราะห์ข้อมูลในอัลกอริทึมของเรารูปที่ 1 แสดงการจำแนกผิดพลาดประสิทธิภาพการทำงานสำหรับแตกต่างกันสัมประสิทธิ์βสำหรับข้อมูลการขาดดุลระดับสองประดิษฐ์ตั้งค่า ชุดข้อมูลการฝึกอบรมมีตัวอย่างคลาสส่วนน้อย 50และตัวอย่างคลาสส่วนใหญ่ 200 และชุดข้อมูลทดสอบรวม 200 ตัวอย่าง ตัวอย่างข้อมูลทั้งหมดสร้างขึ้นโดยการกระจายนที่หลายมิติหมายถึงอะไรแตกต่างกันและแปรปรวนเมทริกซ์พารามิเตอร์ ผลลัพธ์เหล่านี้จะขึ้นเมื่อค่าเฉลี่ยของการวิ่ง 100 กับต้นไม้ตัดสินใจเป็นฐานลักษณนาม ในรูปที่ 1 β = 0 ที่สอดคล้องกับการจัดประเภทข้อผิดพลาดตามขาดดุลชุดข้อมูลเดิม ในขณะที่β = 1แสดงถึงชุดข้อมูลอย่างสมดุลโดย ADASYN

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

ความคิดที่สำคัญของอัลกอริทึม ADASYN คือการใช้ความหนาแน่น
ri กระจายเป็นเกณฑ์ในการตัดสินใจโดยอัตโนมัติ
จำนวนตัวอย่างสังเคราะห์ที่จะต้องมีการสร้างขึ้นสำหรับ
แต่ละตัวอย่างเช่นข้อมูลผู้ถือหุ้นส่วนน้อย ร่างกาย ri คือการวัด
การกระจายของน้ำหนักสำหรับการเรียนของชนกลุ่มน้อยที่แตกต่างกัน
ตัวอย่างตามระดับของความยากลำบากในการเรียนรู้.
ส่งผลให้ชุดข้อมูลที่โพสต์ ADASYN จะไม่เพียง แต่ให้
การแสดงความสมดุลของการกระจายข้อมูล (ตาม
ระดับความสมดุลที่ต้องการกำหนด โดยค่าสัมประสิทธิ์β) แต่มัน
ยังจะบังคับให้เรียนรู้ขั้นตอนวิธีการที่จะมุ่งเน้นที่ยาก
ที่จะเรียนรู้ตัวอย่าง นี่คือความแตกต่างที่สำคัญเมื่อเทียบกับ
ขั้นตอนวิธีการประหาร [15] ซึ่งในจำนวนที่เท่ากันของสังเคราะห์
ตัวอย่างจะถูกสร้างขึ้นสำหรับแต่ละตัวอย่างเช่นข้อมูลผู้ถือหุ้นส่วนน้อย ของเรา
มีวัตถุประสงค์ที่นี่จะคล้ายกับผู้ที่อยู่ใน SMOTEBoost [16] และ
DataBoost-IM [17] ขั้นตอนวิธีการ: การให้น้ำหนักที่แตกต่างกันสำหรับ
ตัวอย่างของชนกลุ่มน้อยที่แตกต่างกันเพื่อชดเชยเบ้
กระจาย อย่างไรก็ตามวิธีการที่ใช้ในการ ADASYN เป็น
มีประสิทธิภาพมากขึ้นเนื่องจากทั้งสอง SMOTEBoost และ DataBoost-IM
พึ่งพาประเมินผลการปฏิบัติสมมติฐานในการปรับปรุง
ฟังก์ชั่นการกระจายในขณะที่อัลกอริทึมของเราปรับเปลี่ยน
การปรับปรุงการจัดจำหน่ายขึ้นอยู่กับลักษณะการกระจายข้อมูล.
ดังนั้นไม่มีสมมติฐาน การประเมินผลที่จำเป็น
สำหรับการสร้างตัวอย่างข้อมูลที่สังเคราะห์ในขั้นตอนวิธีการของเรา.
รูป 1 แสดงประสิทธิภาพการทำงานที่ผิดพลาดในการจัดหมวดหมู่ที่แตกต่างกันสำหรับ
ค่าสัมประสิทธิ์βสำหรับเทียมข้อมูลสองชั้นขาดดุล
ชุด ชุดข้อมูลการฝึกอบรมรวม 50 ตัวอย่างระดับของชนกลุ่มน้อย
และ 200 ตัวอย่างส่วนใหญ่ระดับและชุดทดสอบข้อมูลที่
รวมถึง 200 ตัวอย่าง ตัวอย่างข้อมูลทั้งหมดจะถูกสร้างโดย
การกระจาย Gaussian หลายมิติที่มีค่าเฉลี่ยที่แตกต่างกัน
และพารามิเตอร์เมทริกซ์ความแปรปรวน ผลการเหล่านี้จะขึ้น
อยู่กับค่าเฉลี่ยของวิ่ง 100 กับต้นไม้ตัดสินใจเป็นฐาน
ลักษณนาม ในรูป 1 β = 0 สอดคล้องกับการจำแนก
ข้อผิดพลาดอยู่บนพื้นฐานของข้อมูลชุดเดิมขาดดุลในขณะที่β = 1
หมายถึงชุดข้อมูลที่สมดุลอย่างเต็มที่ที่สร้างโดย ADASYN

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

ความคิดที่สำคัญของขั้นตอนวิธี adasyn คือการใช้ความหนาแน่นการกระจายˆริเป็นเกณฑ์ในการเลือกโดยอัตโนมัติเลขสังเคราะห์ตัวอย่างที่ต้องสร้างขึ้นสำหรับข้อมูลแต่ละชนกลุ่มน้อยเช่น ˆริการวัดทางกายภาพของการกระจายน้ำหนักที่แตกต่างกันน้อยชั้นตัวอย่างตามระดับความยากง่ายในการเรียนรู้วันที่โพสต์ adasyn ซึ่งจะไม่เพียง แต่ให้การสมดุลของการกระจายข้อมูล ( ตามที่ต้องการความสมดุลระดับที่กำหนด โดยสัมประสิทธิ์บีตา ) , แต่จะบังคับให้ขั้นตอนวิธีการเรียนรู้เพื่อมุ่งเน้นที่ยากเรียนรู้ตัวอย่าง นี้เป็นความแตกต่างที่สำคัญเมื่อเทียบกับตี [ 15 ] อัลกอริทึม ซึ่งตัวเลขเท่ากันของสังเคราะห์ตัวอย่างจะถูกสร้างขึ้นสำหรับแต่ละข้อมูลชนกลุ่มน้อยเช่น ของเราวัตถุประสงค์ที่นี่คือคล้ายกับผู้ที่อยู่ใน smoteboost [ 16 ] และdataboost im [ 17 ] ขั้นตอนวิธีการให้น้ำหนักที่แตกต่างกันสำหรับตัวอย่างส่วนน้อยที่แตกต่างเพื่อชดเชยการบิดเบือนการแจกแจง . อย่างไรก็ตาม วิธีการที่ใช้ใน adasyn คือมีประสิทธิภาพมากขึ้น เนื่องจากทั้งสอง smoteboost databoost IM และอาศัยการประเมินผลการปฏิบัติสมมุติฐานเพื่อปรับปรุงฟังก์ชันการแจกแจงส่วนขั้นตอนวิธีการปรับตัวของเราการปรับปรุงการกระจายอยู่บนพื้นฐานของการกระจายข้อมูลลักษณะดังนั้น ไม่มีสมมติฐานการประเมินที่จําเป็นผลิตตัวอย่างสังเคราะห์ข้อมูลในแบบของเรารูปที่ 1 แสดงประสิทธิภาพการจำแนกข้อผิดพลาดต่าง ๆสัมประสิทธิ์บีตาเป็นเทียม 2 ชั้นข้อมูลไม่สมดุลชุด อบรมข้อมูล ประกอบด้วย 50 ห้องตัวอย่างส่วนน้อยและ 200 ส่วนใหญ่ห้องตัวอย่างและการทดสอบชุดข้อมูลรวมถึง 200 ตัวอย่าง ข้อมูลตัวอย่างทั้งหมดถูกสร้างขึ้นโดยหลายมิติ ) การแจกแจงแตกต่างกัน หมายถึงและพารามิเตอร์ของเมทริกซ์ความแปรปรวนร่วม ผลลัพธ์เหล่านี้จากโดยเฉลี่ย 100 วิ่งกับการตัดสินใจต้นไม้เป็นฐานลักษณนาม ในรูปที่ 1 , บีตา = 0 สอดคล้องกับการจำแนกข้อผิดพลาดตามต้นฉบับข้อมูลไม่สมดุลในขณะที่บีตา = 1 ชุดเป็นข้อมูลที่สร้างขึ้นโดย adasyn ชุดเต็มที่สมดุล

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.