distributionsGenerally speaking, imbalanced learning occurs whenever
some types of data distribution significantly dominate the
instance space compared to other data distributions. In this
paper, we focus on the two-class classification problem for
imbalanced data sets, a topic of major focus in recent research
activities in the research community. Recently, theoretical
analysis and practical applications for this problem have
attracted a growing attention from both academia and industry.
This is reflected by the establishment of several major workshops
and special issue conferences, including the American
Association for Artificial Intelligence workshop on Learning
from Imbalanced Data Sets (AAAI’00) [9], the International
Conference on Machine Learning workshop on Learning from
Imbalanced Data Sets (ICML’03) [10], and the Association
for Computing Machinery (ACM) Special Interest Group on
Knowledge Discovery and Data Mining explorations (ACM
SIGKDD Explorations’04) [11].
The state-of-the-art research methodologies to handle imbalanced
learning problems can be categorized into the following
five major directions:
(1) Sampling strategies. This method aims to develop various
oversampling and/or undersampling techniques to compensate
for imbalanced distributions in the original data sets.
For instance, in [12] the cost curves technique was used to
study the interaction of both oversampling and undersampling
with decision tree based learning algorithms. Sampling techniques
with the integration of probabilistic estimates, pruning,
and data preprocessing were studied for decision tree learning
in [13]. Additionally, in [14], “JOUS-Boost” was proposed
to handle imbalanced data learning by integrating adaptive
boosting with jittering sampling techniques.
(2) Synthetic data generation. This approach aims to overcome
imbalance in the original data sets by artificially generating
data samples. The SMOTE algorithm [15], generates an
arbitrary number of synthetic minority examples to shift the
classifier learning bias toward the minority class. SMOTEBoost,
an extension work based on this idea, was proposed
in [16], in which the synthetic procedure was integrated with
adaptive boosting techniques to change the method of updating
weights to better compensate for skewed distributions. In order
to ensure optimal classification accuracy for minority and
majority class, DataBoost-IM algorithm was proposed in [17]
where synthetic data examples are generated for both minority
and majority classes through the use of “seed” samples.
(3) Cost-sensitive learning. Instead of creating balanced
data distributions by sampling strategies or synthetic data
generation methods, cost-sensitive learning takes a different
distributionsgenerally สมดุลการเรียนรู้เกิดขึ้นเมื่อใดก็ตามที่พูดบางประเภทของการกระจายของข้อมูลสถิติครองตัวอย่าง พื้นที่ เมื่อเทียบกับการกระจายข้อมูลอื่น ๆ ในนี้กระดาษ เรามุ่งเน้นการจำแนกปัญหาสองระดับจินตนาการจากชุดข้อมูลที่หัวข้อหลักเน้นในงานวิจัยล่าสุดกิจกรรมในชุมชนวิจัย เมื่อเร็ว ๆนี้ , ทฤษฎีการวิเคราะห์และประยุกต์ใช้สำหรับปัญหานี้ได้ดึงดูดความสนใจจากทั้งสถาบันการศึกษาและการเติบโตของอุตสาหกรรมซึ่งจะเห็นได้จากการจัดตั้งการประชุมเชิงปฏิบัติการที่สำคัญหลายปัญหาพิเศษและสัมมนา รวมทั้งอเมริกาสมาคมเพื่อการเรียนรู้เชิงปัญญาประดิษฐ์จากชุดข้อมูลไม่สมดุล ( aaai "00 ) [ 9 ] , นานาชาติการประชุมเชิงปฏิบัติการเกี่ยวกับการเรียนรู้จากการเรียนรู้บนเครื่องข้อมูลไม่สมดุลชุด ( icml "03 ) [ 10 ] และสมาคมเครื่องจักรคำนวณ ( ACM ) ดอกเบี้ยพิเศษกลุ่มการค้นพบและการสำรวจเหมืองแร่ข้อมูลความรู้ ( ACMsigkdd การสำรวจ "04 ) [ 11 ]รัฐ - of - the - art วิจัยวิธีการจัดการไม่สมดุลปัญหาการเรียน สามารถแบ่งได้ดังนี้5 เส้นทางหลัก( 1 ) กลยุทธ์ด้านคน วิธีนี้มีวัตถุประสงค์เพื่อพัฒนาต่าง ๆไท และ / หรือ undersampling เทคนิคเพื่อชดเชยสำหรับการไม่สมดุลในต้นฉบับชุดข้อมูลตัวอย่างเช่นใน [ 12 ] เส้นโค้งต้นทุนโดยใช้เทคนิคศึกษาปฏิสัมพันธ์ของทั้งสอง undersampling oversampling และกับต้นไม้ การตัดสินใจโดยอาศัยการเรียนรู้ขั้นตอนวิธี เทคนิคการสุ่มตัวอย่างโดยรวมประมาณ 11 , การตัดแต่งกิ่ง ,การเตรียมและศึกษาข้อมูลเพื่อการเรียนรู้ต้นไม้ตัดสินใจใน [ 13 ] นอกจากนี้ ใน [ 14 ] , " เพิ่ม " jous เสนอจัดการเรียนรู้โดยการบูรณาการแบบข้อมูลไม่สมดุลการส่งเสริมกับ jittering เทคนิคการสุ่มตัวอย่าง( 2 ) การสร้างข้อมูลสังเคราะห์ วิธีนี้มุ่งที่จะเอาชนะความไม่สมดุลในข้อมูลต้นฉบับ โดยตั้งใจสร้างชุดตัวอย่างข้อมูล การประหารขั้นตอนวิธี [ 15 ] , สร้างเป็นพลจำนวนตัวอย่างส่วนน้อยสังเคราะห์เพื่อเปลี่ยนการเรียนรู้จำแนกประเภทอคติที่มีต่อชนกลุ่มน้อยชนชั้น smoteboost ,การขยายงานตามความคิดนี้ถูกเสนอใน [ 16 ] ซึ่งในกระบวนการสังเคราะห์รวมกับการส่งเสริมเทคนิคที่จะเปลี่ยนวิธีการปรับปรุงน้ำหนักจะมากกว่าชดเชยการกระจายเบ้ . เพื่อให้มีความถูกต้องเหมาะสมสำหรับชนกลุ่มน้อยและการจำแนกชั้นเรียนส่วนใหญ่ได้เสนอขั้นตอนวิธี databoost ม [ 17 ]ตัวอย่างข้อมูลที่สังเคราะห์ขึ้นสำหรับชนกลุ่มน้อยและส่วนใหญ่เรียนผ่านการใช้ " ตัวอย่างเมล็ดพันธุ์ "( 3 ) ค่าใช้จ่ายในการเรียนที่ละเอียดอ่อน แทนการสร้างสมดุลการกระจายข้อมูลตามกลยุทธ์หรือสังเคราะห์ข้อมูลการสุ่มตัวอย่างวิธีการสร้าง ใช้เวลาเรียนแตกต่างกัน ต้นทุนที่ละเอียดอ่อน
การแปล กรุณารอสักครู่..
