distributionsGenerally speaking, im

distributionsGenerally speaking, imbalanced learning occurs whenever
some types of data distribution significantly dominate the
instance space compared to other data distributions. In this
paper, we focus on the two-class classification problem for
imbalanced data sets, a topic of major focus in recent research
activities in the research community. Recently, theoretical
analysis and practical applications for this problem have
attracted a growing attention from both academia and industry.
This is reflected by the establishment of several major workshops
and special issue conferences, including the American
Association for Artificial Intelligence workshop on Learning
from Imbalanced Data Sets (AAAI’00) [9], the International
Conference on Machine Learning workshop on Learning from
Imbalanced Data Sets (ICML’03) [10], and the Association
for Computing Machinery (ACM) Special Interest Group on
Knowledge Discovery and Data Mining explorations (ACM
SIGKDD Explorations’04) [11].
The state-of-the-art research methodologies to handle imbalanced
learning problems can be categorized into the following
five major directions:
(1) Sampling strategies. This method aims to develop various
oversampling and/or undersampling techniques to compensate
for imbalanced distributions in the original data sets.
For instance, in [12] the cost curves technique was used to
study the interaction of both oversampling and undersampling
with decision tree based learning algorithms. Sampling techniques
with the integration of probabilistic estimates, pruning,
and data preprocessing were studied for decision tree learning
in [13]. Additionally, in [14], “JOUS-Boost” was proposed
to handle imbalanced data learning by integrating adaptive
boosting with jittering sampling techniques.
(2) Synthetic data generation. This approach aims to overcome
imbalance in the original data sets by artificially generating
data samples. The SMOTE algorithm [15], generates an
arbitrary number of synthetic minority examples to shift the
classifier learning bias toward the minority class. SMOTEBoost,
an extension work based on this idea, was proposed
in [16], in which the synthetic procedure was integrated with
adaptive boosting techniques to change the method of updating
weights to better compensate for skewed distributions. In order
to ensure optimal classification accuracy for minority and
majority class, DataBoost-IM algorithm was proposed in [17]
where synthetic data examples are generated for both minority
and majority classes through the use of “seed” samples.
(3) Cost-sensitive learning. Instead of creating balanced
data distributions by sampling strategies or synthetic data
generation methods, cost-sensitive learning takes a different

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

distributionsGenerally การพูด การเรียนรู้ขาดดุลเกิดขึ้นเมื่อใดก็ตามบางชนิดกระจายข้อมูลครองอย่างมีนัยสำคัญอินสแตนซ์พื้นที่เปรียบเทียบกับข้อมูลอื่น ๆ การกระจาย ในการนี้กระดาษ เรามุ่งเน้นปัญหาประเภทสองชั้นสำหรับชุดข้อมูลขาดดุล หัวข้อการมุ่งเน้นที่สำคัญในงานวิจัยล่าสุดกิจกรรมในชุมชนวิจัย เมื่อเร็ว ๆ นี้ ทฤษฎีวิเคราะห์และประยุกต์ใช้งานจริงสำหรับปัญหานี้ได้ดึงดูดความสนใจเติบโตจากทั้งแวดวงวิชาการและอุตสาหกรรมรับการจัดตั้งของการอบรมหลายหลักสัมมนาปัญหาพิเศษ รวมทั้งอเมริกันสมาคมการประดิษฐ์อบรมเชิงปฏิบัติการการเรียนรู้จากชุดข้อมูลขาดดุล (AAAI'00) [9], ที่เนการประชุมวิชาการประชุมเชิงปฏิบัติการเรียนรู้ของเครื่องในการเรียนรู้จากชุดข้อมูลขาดดุล (ICML'03) [10], และสมาคมสำหรับคอมพิวเตอร์ (ACM) ดอกเบี้ยพิเศษ กลุ่มบนสำรวจค้นหาความรู้และการทำเหมืองข้อมูล (ACMสำรวจ SIGKDD'04) [11]วิธีวิจัยรัฐของศิลปะการจัดการขาดดุลปัญหาการเรียนรู้สามารถแบ่งออกได้ดังนี้เส้นทางหลักที่ห้า:(1) การสุ่มตัวอย่างกลยุทธ์การ วิธีนี้มีจุดมุ่งหมายในการพัฒนาต่าง ๆoversampling หรือ undersampling เทคนิคเพื่อชดเชยสำหรับการกระจายการขาดดุลในชุดข้อมูลเดิมเช่น ใน [12] เทคนิคกราฟต้นทุนที่ใช้ในการศึกษาปฏิสัมพันธ์ของสุ่มได้และ undersamplingอัลกอริทึมการเรียนรู้ขึ้นกับต้นไม้การตัดสินใจ เทคนิคการสุ่มตัวอย่างด้วยการรวมประมาณการน่าจะ ตัดแต่งกิ่งและมีศึกษาข้อมูลที่ประมวลผลเบื้องต้นสำหรับการเรียนรู้ต้นไม้ตัดสินใจใน [13] นอกจากนี้ ใน [14], "เพิ่ม-JOUS" ถูกเสนอการจัดการเรียนรู้ข้อมูลขาดดุล โดยรวมปรับตัวส่งเสริม ด้วยเทคนิคการสุ่มตัวอย่างอาการ(2) สร้างข้อมูลสังเคราะห์ วิธีการนี้มีวัตถุประสงค์เพื่อเอาชนะความไม่สมดุลในข้อมูลต้นฉบับชุด โดยการสร้างเทียมตัวอย่างข้อมูล สร้างอัลกอริทึม SMOTE [15], การจำนวนตัวอย่างส่วนน้อยสังเคราะห์จะเปลี่ยนเองลักษณนามที่อคติต่อชนกลุ่มน้อยชั้นเรียน SMOTEBoostการทำงานส่วนขยายที่อิงจากความคิดนี้ ถูกเสนอใน [16], ในกระบวนการสังเคราะห์รวมกับซึ่งเทคนิคการส่งเสริมปรับเปลี่ยนวิธีการปรับปรุงตุ้มน้ำหนักเพื่อชดเชยสำหรับการกระจายเบ้ ในใบสั่งการจัดประเภทที่เหมาะสมที่แม่นยำสำหรับชนกลุ่มน้อย และส่วนใหญ่เรียน อัลกอริทึม DataBoost IM ถูกเสนอใน [17]ที่สร้างตัวอย่างข้อมูลสังเคราะห์สำหรับชนกลุ่มน้อยทั้งสองและชั้นเรียนส่วนใหญ่ผ่านการใช้ "เมล็ด" ตัวอย่าง(3) ต้นทุนไวต่อการเรียนรู้ แทนที่จะสร้างสมดุลการกระจายของข้อมูล โดยการสุ่มตัวอย่างกลยุทธ์หรือสังเคราะห์ข้อมูลวิธีสร้าง ต้นทุนไวต่อการเรียนรู้ใช้เวลาที่แตกต่างกัน

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

distributionsGenerally พูดการเรียนรู้เกิดขึ้นเมื่อใดก็ตามที่ไม่สมดุล
บางชนิดของการกระจายข้อมูลอย่างมีนัยสำคัญครอง
พื้นที่เช่นเมื่อเทียบกับการกระจายข้อมูลอื่น ๆ ในการนี้
กระดาษที่เรามุ่งเน้นไปที่ปัญหาการจำแนกประเภทสองชั้นสำหรับ
ชุดข้อมูลขาดดุลหัวข้อของการมุ่งเน้นที่สำคัญในการวิจัยที่ผ่านมา
กิจกรรมในชุมชนการวิจัย เมื่อเร็ว ๆ นี้ทางทฤษฎี
การวิเคราะห์และการใช้งานจริงสำหรับปัญหานี้ได้
ดึงดูดความสนใจที่เพิ่มมากขึ้นทั้งจากการศึกษาและอุตสาหกรรม.
นี้สะท้อนให้เห็นโดยการจัดตั้งการประชุมเชิงปฏิบัติการที่สำคัญหลาย
และการประชุมฉบับพิเศษรวมทั้งอเมริกัน
สมาคมเพื่อการประชุมเชิงปฏิบัติการปัญญาประดิษฐ์ในการเรียนรู้
จากชุดขาดดุลข้อมูล (AAAI'00) [9] นานาชาติ
การประชุมเกี่ยวกับการประชุมเชิงปฏิบัติการการเรียนรู้เครื่องในการเรียนรู้จาก
การขาดดุลชุดข้อมูล (ICML'03) [10] และสมาคม
เครื่องจักรคำนวณ (ACM) กลุ่มสนใจพิเศษในการ
ค้นพบความรู้และการสำรวจการทำเหมืองข้อมูล (ACM
. SIGKDD Explorations'04) [11]
รัฐของศิลปะวิธีการวิจัยในการจัดการการขาดดุล
ปัญหาการเรียนรู้สามารถแบ่งออกเป็นดังต่อไปนี้
ห้าทิศทางที่สำคัญ:
(1) กลยุทธ์การสุ่มตัวอย่าง วิธีการนี้มีวัตถุประสงค์เพื่อพัฒนาต่างๆ
oversampling และ / หรือ undersampling เทคนิคเพื่อชดเชย
สำหรับการกระจายขาดดุลในชุดข้อมูลเดิม.
ยกตัวอย่างเช่นใน [12] เทคนิคเส้นต้นทุนถูกใช้ในการ
ศึกษาปฏิสัมพันธ์ของทั้งสอง oversampling และ undersampling
กับการเรียนรู้ต้นไม้ตัดสินใจตาม อัลกอริทึม เทคนิคของการสุ่มตัวอย่าง
ที่มีการบูรณาการของความน่าจะเป็นประมาณการการตัดแต่งกิ่งที่
preprocessing และข้อมูลการศึกษาเพื่อการเรียนรู้ต้นไม้ตัดสินใจ
ใน [13] นอกจากนี้ใน [14] "JOUS-Boost" ถูกนำเสนอ
ในการจัดการเรียนรู้ข้อมูลที่ไม่สมดุลโดยการบูรณาการการปรับตัว
การส่งเสริมด้วยเทคนิคการสุ่มตัวอย่างที่สั่นพลิ้ว.
(2) สร้างข้อมูลสังเคราะห์ วิธีการนี้มีจุดมุ่งหมายที่จะเอาชนะ
ความไม่สมดุลในชุดข้อมูลต้นฉบับโดยเทียมสร้าง
ตัวอย่างข้อมูล ขั้นตอนวิธีการประหาร [15], สร้าง
จำนวนข้อของชนกลุ่มน้อยตัวอย่างสังเคราะห์เพื่อเปลี่ยน
การเรียนรู้ที่มีอคติต่อการจําแนกชั้นชนกลุ่มน้อย SMOTEBoost,
งานขยายบนพื้นฐานความคิดนี้ถูกเสนอ
ใน [16] ซึ่งในขั้นตอนการสังเคราะห์ถูกบูรณาการกับ
การปรับตัวการส่งเสริมเทคนิคที่จะเปลี่ยนวิธีการของการปรับปรุง
น้ำหนักที่ดีกว่าการชดเชยการแจกแจงเบ้ ในการสั่งซื้อ
เพื่อความถูกต้องการจัดหมวดหมู่ที่เหมาะสมที่สุดสำหรับชนกลุ่มน้อยและ
ระดับส่วนใหญ่อัลกอริทึม DataBoost-IM ถูกนำเสนอใน [17]
ที่ตัวอย่างข้อมูลที่สังเคราะห์จะถูกสร้างขึ้นสำหรับทั้งชนกลุ่มน้อย
และส่วนใหญ่เรียนผ่านการใช้งานของ "เมล็ดพันธุ์" ตัวอย่าง.
(3) ค่าใช้จ่ายที่มีความละเอียดอ่อน การเรียนรู้ แทนการสร้างสมดุล
การกระจายข้อมูลโดยการสุ่มตัวอย่างกลยุทธ์หรือข้อมูลสังเคราะห์
วิธีการสร้างการเรียนรู้ค่าใช้จ่ายที่มีความอ่อนไหวจะใช้เวลาที่แตกต่างกัน

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

distributionsgenerally สมดุลการเรียนรู้เกิดขึ้นเมื่อใดก็ตามที่พูดบางประเภทของการกระจายของข้อมูลสถิติครองตัวอย่าง พื้นที่ เมื่อเทียบกับการกระจายข้อมูลอื่น ๆ ในนี้กระดาษ เรามุ่งเน้นการจำแนกปัญหาสองระดับจินตนาการจากชุดข้อมูลที่หัวข้อหลักเน้นในงานวิจัยล่าสุดกิจกรรมในชุมชนวิจัย เมื่อเร็ว ๆนี้ , ทฤษฎีการวิเคราะห์และประยุกต์ใช้สำหรับปัญหานี้ได้ดึงดูดความสนใจจากทั้งสถาบันการศึกษาและการเติบโตของอุตสาหกรรมซึ่งจะเห็นได้จากการจัดตั้งการประชุมเชิงปฏิบัติการที่สำคัญหลายปัญหาพิเศษและสัมมนา รวมทั้งอเมริกาสมาคมเพื่อการเรียนรู้เชิงปัญญาประดิษฐ์จากชุดข้อมูลไม่สมดุล ( aaai "00 ) [ 9 ] , นานาชาติการประชุมเชิงปฏิบัติการเกี่ยวกับการเรียนรู้จากการเรียนรู้บนเครื่องข้อมูลไม่สมดุลชุด ( icml "03 ) [ 10 ] และสมาคมเครื่องจักรคำนวณ ( ACM ) ดอกเบี้ยพิเศษกลุ่มการค้นพบและการสำรวจเหมืองแร่ข้อมูลความรู้ ( ACMsigkdd การสำรวจ "04 ) [ 11 ]รัฐ - of - the - art วิจัยวิธีการจัดการไม่สมดุลปัญหาการเรียน สามารถแบ่งได้ดังนี้5 เส้นทางหลัก( 1 ) กลยุทธ์ด้านคน วิธีนี้มีวัตถุประสงค์เพื่อพัฒนาต่าง ๆไท และ / หรือ undersampling เทคนิคเพื่อชดเชยสำหรับการไม่สมดุลในต้นฉบับชุดข้อมูลตัวอย่างเช่นใน [ 12 ] เส้นโค้งต้นทุนโดยใช้เทคนิคศึกษาปฏิสัมพันธ์ของทั้งสอง undersampling oversampling และกับต้นไม้ การตัดสินใจโดยอาศัยการเรียนรู้ขั้นตอนวิธี เทคนิคการสุ่มตัวอย่างโดยรวมประมาณ 11 , การตัดแต่งกิ่ง ,การเตรียมและศึกษาข้อมูลเพื่อการเรียนรู้ต้นไม้ตัดสินใจใน [ 13 ] นอกจากนี้ ใน [ 14 ] , " เพิ่ม " jous เสนอจัดการเรียนรู้โดยการบูรณาการแบบข้อมูลไม่สมดุลการส่งเสริมกับ jittering เทคนิคการสุ่มตัวอย่าง( 2 ) การสร้างข้อมูลสังเคราะห์ วิธีนี้มุ่งที่จะเอาชนะความไม่สมดุลในข้อมูลต้นฉบับ โดยตั้งใจสร้างชุดตัวอย่างข้อมูล การประหารขั้นตอนวิธี [ 15 ] , สร้างเป็นพลจำนวนตัวอย่างส่วนน้อยสังเคราะห์เพื่อเปลี่ยนการเรียนรู้จำแนกประเภทอคติที่มีต่อชนกลุ่มน้อยชนชั้น smoteboost ,การขยายงานตามความคิดนี้ถูกเสนอใน [ 16 ] ซึ่งในกระบวนการสังเคราะห์รวมกับการส่งเสริมเทคนิคที่จะเปลี่ยนวิธีการปรับปรุงน้ำหนักจะมากกว่าชดเชยการกระจายเบ้ . เพื่อให้มีความถูกต้องเหมาะสมสำหรับชนกลุ่มน้อยและการจำแนกชั้นเรียนส่วนใหญ่ได้เสนอขั้นตอนวิธี databoost ม [ 17 ]ตัวอย่างข้อมูลที่สังเคราะห์ขึ้นสำหรับชนกลุ่มน้อยและส่วนใหญ่เรียนผ่านการใช้ " ตัวอย่างเมล็ดพันธุ์ "( 3 ) ค่าใช้จ่ายในการเรียนที่ละเอียดอ่อน แทนการสร้างสมดุลการกระจายข้อมูลตามกลยุทธ์หรือสังเคราะห์ข้อมูลการสุ่มตัวอย่างวิธีการสร้าง ใช้เวลาเรียนแตกต่างกัน ต้นทุนที่ละเอียดอ่อน

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.