There may be two kinds of imbalance

There may be two kinds of imbalances in a data set. One is between-class imbalance,
in which case some classes have much more examples than others [1]. The other is
within-class imbalance, in which case some subsets of one class have much fewer
examples than other subsets of the same class [2]. By convention, in imbalanced data
sets, we call the classes having more examples the majority classes and the ones having
fewer examples the minority classes.
The problem of imbalance has got more and more emphasis in recent years. Imbalanced
data sets exists in many real-world domains, such as spotting unreliable telecommunication
customers [3], detection of oil spills in satellite radar images [4],
learning word pronunciations [5], text classification [6], detection of fraudulent telephone
calls [7], information retrieval and filtering tasks [8], and so on. In these domains,
what we are really interested in is the minority class other than the majority
class. Thus, we need a fairly high prediction for the minority class. However, the
traditional data mining algorithms behaves undesirable in the instance of imbalanced
data sets, as the distribution of the data sets is not taken into consideration when these
algorithms are designed.
The structure of this paper is organized as follows. Section 2 gives a brief introduction
to the recent developments in the domains of imbalanced data sets. Section 3

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

อาจมีความไม่สมดุลในชุดข้อมูลสองชนิด หนึ่งคือความไม่สมดุลระหว่างระดับซึ่ง บางประเภทมีตัวอย่างมากขึ้นกว่าคนอื่น ๆ [1] อื่น ๆ ที่เป็นภายในระดับสมดุล ซึ่งในกรณี บางชุดย่อยของชั้นหนึ่งมีมากน้อยตัวอย่างกว่าส่วนย่อยอื่น ๆ ของประเภทเดียวกัน [2] โดยการประชุม ในข้อมูลขาดดุลชุด เราเรียกคลาสที่มีตัวอย่างเพิ่มเติมการเรียนส่วนใหญ่และคนมีอย่างน้อยเรียนชนกลุ่มน้อยปัญหาของความไม่สมดุลมีความสำคัญมาก ขึ้นในปี ขาดดุลชุดข้อมูลที่มีอยู่ในหลายโดเมนจริง เช่นจำโทรคมนาคมไม่น่าเชื่อถือลูกค้า [3], ตรวจจับน้ำมันรั่วในภาพถ่ายดาวเทียมเรดาร์ [4],การเรียนรู้การออกเสียงคำ [5] ตรวจหาโทรศัพท์หลอกลวง การจัดประเภทข้อความ [6]โทร [7], การเรียกข้อมูล และกรองงาน [8], และอื่น ๆ ในโดเมนเหล่านี้สิ่งที่เราสนใจจริง ๆ คือ ระดับส่วนน้อยไม่ใช่ส่วนใหญ่ชนชั้น ดังนั้น เราต้องการคาดเดาที่ค่อนข้างสูงสำหรับคลาชนกลุ่มน้อย อย่างไรก็ตาม การอัลกอริทึมการทำเหมืองข้อมูลดั้งเดิมมีพฤติกรรมไม่พึงประสงค์ในอินสแตนซ์ของการขาดดุลชุดข้อมูล เป็นการกระจายของชุดข้อมูลไม่นำมาพิจารณาเมื่อเหล่านี้อัลกอริทึมออกแบบโครงสร้างของเอกสารนี้ถูกจัดเป็นดังนี้ ส่วนที่ 2 ให้แนะนำสั้น ๆการพัฒนาล่าสุดในโดเมนของชุดข้อมูลที่ขาดดุล ส่วนที่ 3

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

อาจจะมีสองชนิดของความไม่สมดุลในชุดข้อมูล หนึ่งคือระหว่างระดับความไม่สมดุล
ในกรณีที่บางชั้นเรียนมีตัวอย่างอื่น ๆ อีกมากมายกว่าคนอื่น ๆ [1] อื่น ๆ ที่เป็น
ภายในระดับความไม่สมดุลซึ่งในกรณีส่วนย่อยของระดับหนึ่งบางคนมีน้อยมาก
ตัวอย่างกว่าส่วนย่อยอื่น ๆ ของชั้นเดียวกัน [2] โดยการประชุมในข้อมูลขาดดุล
ชุดที่เราเรียกว่าการเรียนที่มีตัวอย่างเพิ่มเติมเรียนส่วนใหญ่และคนที่มี
ตัวอย่าง ๆ ในชนกลุ่มน้อย.
ปัญหาของความไม่สมดุลได้มีความสำคัญมากขึ้นและมากขึ้นในปีที่ผ่านมา ขาดดุล
ชุดข้อมูลที่มีอยู่ในหลายโดเมนโลกแห่งความจริงเช่นการจำการสื่อสารโทรคมนาคมที่ไม่น่าเชื่อถือ
ของลูกค้า [3] การตรวจสอบการรั่วไหลของน้ำมันในภาพเรดาร์ดาวเทียม [4],
การเรียนรู้การออกเสียงคำว่า [5] การจำแนกข้อความ [6] การตรวจสอบโทรศัพท์หลอกลวง
โทร [7], การดึงข้อมูลและงานกรอง [8] และอื่น ๆ ในโดเมนเหล่านี้
สิ่งที่เราสนใจจริงๆในการเป็นชั้นชนกลุ่มน้อยอื่น ๆ ที่ไม่ใช่ส่วนใหญ่
ระดับ ดังนั้นเราจึงจำเป็นต้องมีการคาดการณ์ที่ค่อนข้างสูงสำหรับการเรียนของชนกลุ่มน้อย อย่างไรก็ตาม
ขั้นตอนวิธีการทำเหมืองข้อมูลแบบดั้งเดิมมีพฤติกรรมที่ไม่พึงประสงค์ในตัวอย่างของการขาดดุล
ชุดข้อมูลการกระจายของชุดข้อมูลที่ไม่ได้นำมาพิจารณาเมื่อเหล่านี้
ขั้นตอนวิธีการได้รับการออกแบบ.
โครงสร้างของการวิจัยนี้มีการจัดระเบียบดังต่อไปนี้ ส่วนที่ 2 ให้การแนะนำสั้น ๆ
เพื่อการพัฒนาล่าสุดในโดเมนของชุดข้อมูลขาดดุล ส่วนที่ 3

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

อาจจะมีสองประเภทของความไม่สมดุลในชุดข้อมูล หนึ่งคือความไม่สมดุลระหว่างเรียน ,ซึ่งในกรณีนี้ บางวิชามีตัวอย่างมากขึ้นกว่าคนอื่น ๆ [ 1 ] อื่น ๆภายในห้องเรียนที่ไม่สมดุล ซึ่งในกรณีนี้ บางชุดย่อยของห้องหนึ่งมีมากน้อยตัวอย่างกว่าส่วนย่อยอื่น ๆของห้องเดียวกัน [ 2 ] โดยการประชุมในข้อมูลไม่สมดุลชุด เราเรียกชั้นเรียนมีตัวอย่างส่วนใหญ่มีชั้นเรียนและคนจำนวนตัวอย่างส่วนน้อยที่ชั้นเรียนปัญหาของความไม่สมดุลมีมากขึ้นและเน้นมากขึ้นในช่วงปีที่ผ่านมา สมดุลชุดข้อมูลที่มีอยู่ในโดเมนจริงมากมาย เช่น กิจกรรมโทรคมนาคมที่ไม่น่าเชื่อถือลูกค้า [ 3 ] การเติมน้ำมันในดาวเทียมเรดาร์ภาพ [ 4 ]เรียนรู้คำที่ออกเสียง [ 5 ] ข้อความการจำแนกประเภท [ 6 ] การฉ้อโกงโทรศัพท์โทร [ 7 ] , สืบค้นข้อมูลและกรองงาน [ 8 ] , และดังนั้นบน ใน โดเมนเหล่านี้สิ่งที่เราสนใจจริงๆเป็นส่วนน้อยกว่าชั้นอื่น ๆส่วนใหญ่เรียน ดังนั้น เราต้องเดาค่อนข้างสูง สำหรับส่วนน้อยที่ชั้นเรียน อย่างไรก็ตามขั้นตอนวิธีการทำเหมืองข้อมูลแบบพฤติกรรมที่ไม่พึงประสงค์ในอินสแตนซ์ของสมดุลชุดข้อมูล การกระจายของข้อมูลชุดนั้น ไม่ได้พิจารณาเมื่อเหล่านี้อัลกอริทึมที่ได้รับการออกแบบโครงสร้างของกระดาษนี้จะจัดดังนี้ มาตรา 2 ให้สั้นเบื้องต้นกับความคืบหน้าล่าสุดในโดเมนของ imbalanced ชุดข้อมูล ส่วนที่ 3

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.