3 Safe-Level-SMOTE
Based on SMOTE, Safe-Level-SMOTE, Safe-Level-Synthetic Minority Oversampling
TEchnique, assigns each positive instance its safe level before generating
synthetic instances. Each synthetic instance is positioned closer to the largest safe
level so all synthetic instances are generated only in safe regions.
The safe level (sl) is defined as formula (7). If the safe level of an instance is close
to 0, the instance is nearly noise. If it is close to k, the instance is considered safe. The
safe level ratio is defined as formula (8). It is used for selecting the safe positions to
generate synthetic instances.
safe level (sl) = the number of a positive stances in k nearest neighbours . (7)
safe level ratio = sl of a positive instance / sl of a nearest neighbours . (8)
Safe-Level-SMOTE algorithm is showed in Fig. 1. All variables in this algorithm
are described as follows. p is an instance in the set of all original positive instances D.
n is a selected nearest neighbours of p. s included in the set of all synthetic positive
instances D' is a synthetic instance. slp and sln are safe level of p and safe level of n
respectively. sl_ratio is safe level ratio. numattrs is the number of attributes. dif is the
difference between the values of n and p at the same attribute id. gap is a random
fraction of dif. p[i], n[i], and s[i] are the numeric values of the instances at ith attribute.
p, n, and s are vectors. slp, sln, sl_ratio, numattrs, dif, and gap are scalars.
After assigning the safe level to p and the safe level to n, the algorithm calculates
the safe level ratio. There are five cases corresponding to the value of safe level ratio
showed in the lines 12 to 28 of Fig. 1.
The first case showed in the lines 12 to 14 of Fig. 1. The safe level ratio is equal to
∞ and the safe level of p is equal to 0. It means that both p and n are noises. If this
case occurs, synthetic instance will not be generated because the algorithm does not
want to emphasize the important of noise regions.
The second case showed in the lines 17 to 19 of Fig. 1. The safe level ratio is equal
to ∞ and the safe level of p is not equal to 0. It means that n is noise. If this case occurs,
a synthetic instance will be generated far from noise instance n by duplicating p
because the algorithm want to avoid the noise instance n.
The third case showed in the lines 20 to 22 of Fig. 1. The safe level ratio is equal to
1. It means that the safe level of p and n are the same. If this case occurs, a synthetic
instance will be generated along the line between p and n because p is as safe as n.
The fourth case showed in the lines 23 to 25 of Fig. 1. The safe level ratio is
greater than 1. It means that the safe level of p is greater than that of n. If this case
occurs, a synthetic instance is positioned closer to p because p is safer than n. The
synthetic instance will be generated in the range [0, 1 / safe level ratio].
The fifth case showed in the lines 26 to 28 of Fig. 1. The safe level ratio is less
than 1. It means that the safe level of p is less than that of n. If this case occurs, a
synthetic instance is positioned closer to n because n is safer than p. The synthetic
instance will be generated in the range [1 - safe level ratio, 1].
3 ก็ตบปลอดภัยระดับอิงจากชนกลุ่มน้อยก็ตบก็ ตบปลอดภัยระดับ,, ปลอดภัยระดับสังเคราะห์สุ่มได้เทคนิค กำหนดระดับความปลอดภัยแต่ละอินสแตนซ์ที่เป็นค่าบวกก่อนสร้างอินสแตนซ์ที่สังเคราะห์ แต่ละอินสแตนซ์สังเคราะห์อยู่ใกล้ไปตู้เซฟขนาดใหญ่ที่สุดระดับสังเคราะห์ทั้งหมดดังนั้นอินสแตนซ์ถูกสร้างขึ้นเฉพาะในพื้นที่ที่ปลอดภัยมีกำหนดระดับความปลอดภัย (sl) เป็นสูตร (7) ถ้าระดับความปลอดภัยของอินสแตนซ์ปิด0 อินสแตนซ์เป็นเสียงเกือบ ถ้ามันใกล้กับ k อินสแตนซ์ถือว่าปลอดภัย การอัตราส่วนระดับความปลอดภัยถูกกำหนดเป็นสูตร (8) ใช้สำหรับเลือกตำแหน่งเซฟไปสร้างอินสแตนซ์ที่สังเคราะห์ระดับที่ปลอดภัย (sl) =จำนวนรักบวกใน k ใกล้ประเทศเพื่อนบ้าน (7)อัตราระดับปลอดภัย = sl ของอินสแตนซ์บวก / sl ของเพื่อนบ้านใกล้ที่สุด (8)อัลกอริทึมก็ตบปลอดภัยระดับถูกแสดงในรูปที่ 1 ตัวแปรทั้งหมดในอัลกอริทึมนี้มีอธิบายดังนี้ p คือ อินสแตนซ์ในชุดของ D. กรณีบวกเดิมทั้งหมดn คือ ตัวเลือกที่ใกล้ที่สุดเพื่อนบ้านของ p. s ที่อยู่ในชุดของบวกสังเคราะห์ทั้งหมดกรณี D' เป็นอินสแตนซ์ที่สังเคราะห์ slp sln ความปลอดภัยระดับของ p และ n ระดับที่ปลอดภัยตามลาดับ sl_ratio คือ อัตราส่วนระดับที่ปลอดภัย numattrs คือ หมายเลขของแอตทริบิวต์ dif เป็นการความแตกต่างระหว่างค่าของ n และ p ที่แอตทริบิวต์ id เดียวกัน ช่องว่างเป็นการสุ่มส่วนของ dif. p [i], n [i], s [i] ด้วยตัวเลขค่าของอินสแตนซ์ที่แอตทริบิวต์ระยะมีเวกเตอร์ p, n และ s มี scalars slp, sln, sl_ratio, numattrs, dif และช่องว่างหลังจากกำหนดระดับความปลอดภัยกับ p และ n ระดับปลอดภัย วิธีการคำนวณอัตราส่วนระดับปลอดภัย มี 5 กรณีที่สอดคล้องกับค่าของอัตราส่วนระดับที่ปลอดภัยแสดงให้เห็นว่าในบรรทัด 12 ถึง 28 ของรูปที่ 1กรณีแรกแสดงให้เห็นว่าในบรรทัด 12 ถึง 14 ของรูปที่ 1 ระดับอัตราส่วนปลอดภัยเท่ากับ∞และระดับความปลอดภัยของ p ไม่เท่ากับ 0 มันหมายความ ว่า ทั้ง p และ n มีเสียง ถ้านี้กรณีที่เกิดขึ้น อินสแตนซ์สังเคราะห์จะไม่สร้าง เพราะไม่มีอัลกอริทึมต้องการเน้นความสำคัญของภูมิภาคเสียงกรณีสองแสดงให้เห็นว่าในบรรทัด 17-19 1 รูป ระดับอัตราส่วนปลอดภัยเท่า∞และระดับความปลอดภัยของ p ไม่เท่ากับ 0 หมายความ ว่า n เป็นเสียง ถ้ากรณีนี้เกิดขึ้นจะสร้างอินสแตนซ์ที่สังเคราะห์ไกลจากเสียงรบกวนอย่าง n โดย p ซ้ำเนื่องจากอัลกอริทึมต้องการหลีกเลี่ยงเสียงอินสแตนซ์ nกรณีสามแสดงให้เห็นว่าในบรรทัด 20 ถึง 22 ของรูปที่ 1 ระดับอัตราส่วนปลอดภัยเท่ากับ1. มันหมายความ ว่า ระดับความปลอดภัยของ p และ n จะเหมือนกัน ถ้ากรณีนี้ เกิดขึ้น การสังเคราะห์อินสแตนซ์จะถูกสร้างขึ้นตามแนวระหว่าง p และ n เพราะ p มีความปลอดภัยเป็น nกรณี 4 แสดงให้เห็นว่าในบรรทัด 23-25 ของรูปที่ 1 อัตราส่วนระดับปลอดภัยคือมากกว่า 1 มันหมายความ ว่า ระดับความปลอดภัยของ p เป็น n ที่มากกว่า ถ้ากรณีนี้เกิดขึ้น การอินสแตนซ์ที่สังเคราะห์อยู่ใกล้เพื่อ p เนื่องจาก p จะปลอดภัยกว่า n. การอินสแตนซ์ที่สังเคราะห์จะถูกสร้างขึ้นในช่วง [0, 1 / ปลอดภัยอัตราระดับ]กรณีห้าที่แสดงให้เห็นว่าในบรรทัด 26 ถึง 28 ของรูปที่ 1 อัตราส่วนระดับปลอดภัยคือน้อยกว่า 1 หมายความ ว่า ระดับความปลอดภัยของ p เป็นของ n ถ้ากรณีนี้เกิดขึ้น การอินสแตนซ์สังเคราะห์อยู่ใกล้กับ n เพราะ n คือปลอดภัยกว่า p การสังเคราะห์อินสแตนซ์จะถูกสร้างขึ้นในช่วง [1 - ปลอดภัยระดับ ratio, 1]
การแปล กรุณารอสักครู่..

3 ตู้เซฟระดับประหาร
จากประหาร, ตู้เซฟระดับประหาร, ตู้เซฟระดับสังเคราะห์เสียงข้างน้อย oversampling
เทคนิคกำหนดเช่นกันในเชิงบวกในระดับที่ปลอดภัยก่อนที่จะสร้าง
อินสแตนซ์สังเคราะห์ แต่ละกรณีสังเคราะห์อยู่ในตำแหน่งที่ใกล้ชิดกับความปลอดภัยที่ใหญ่ที่สุด
ระดับเพื่อให้ทุกกรณีสังเคราะห์จะถูกสร้างขึ้นเฉพาะในภูมิภาคที่ปลอดภัย.
ระดับปลอดภัย (SL) ถูกกำหนดให้เป็นสูตร (7) ถ้าระดับความปลอดภัยของอินสแตนซ์อยู่ใกล้
0, อินสแตนซ์เกือบเสียง ถ้ามันอยู่ใกล้กับ K, อินสแตนซ์ถือว่าปลอดภัย
อัตราส่วนในระดับที่ปลอดภัยถูกกำหนดให้เป็นสูตร (8) มันถูกใช้สำหรับการเลือกตำแหน่งที่ปลอดภัยในการ
สร้างอินสแตนซ์สังเคราะห์.
ในระดับที่ปลอดภัย (SL) = จำนวนของสถานการณ์ในเชิงบวกใน K เพื่อนบ้านที่ใกล้ที่สุด (7)
อัตราการใช้ในระดับที่ปลอดภัย = SL ของอินสแตนซ์บวก / SL ของเพื่อนบ้านที่ใกล้ที่สุด (8)
ขั้นตอนวิธีการที่ปลอดภัยระดับประหารจะแสดงให้เห็นในรูป 1. ตัวแปรทั้งหมดในขั้นตอนวิธีนี้
มีรายละเอียดดังนี้ P เป็นตัวอย่างในชุดของทุกกรณีบวกต้นฉบับง
n คือเลือกเพื่อนบ้านที่ใกล้ที่สุดของ P s รวมอยู่ในชุดของทุกสังเคราะห์บวก
กรณี D 'เป็นตัวอย่างสังเคราะห์ SLP และ SLN อยู่ในระดับที่ปลอดภัยของ P และระดับที่ปลอดภัยของ n
ตามลำดับ sl_ratio เป็นอัตราส่วนในระดับที่ปลอดภัย numattrs เป็นจำนวนของคุณลักษณะ DIF เป็น
ความแตกต่างระหว่างค่านิยมของไนโตรเจนและฟอสฟอรัสที่แอตทริบิวต์ ID เดียวกัน ช่องว่างที่เป็นแบบสุ่ม
ส่วนของ DIF P [I], N [I] และ s [I] มีค่าเป็นตัวเลขของอินสแตนซ์ที่แอตทริบิวต์ ith.
P, N, S และเวกเตอร์ SLP, SLN, sl_ratio, numattrs, DIF และช่องว่างจะเกลา.
หลังจากได้กำหนดระดับความปลอดภัยในการ P และระดับความปลอดภัยที่จะ N, ขั้นตอนวิธีการคำนวณ
อัตราส่วนในระดับที่ปลอดภัย มีห้ากรณีที่สอดคล้องกับค่าของอัตราส่วนในระดับที่ปลอดภัยที่มีการ
แสดงให้เห็นว่าในเส้น 12-28 ของรูป 1.
กรณีแรกที่แสดงให้เห็นในสาย 12 ถึง 14 จากรูป 1. อัตราส่วนในระดับที่ปลอดภัยเท่ากับ
∞และระดับความปลอดภัยของ P เท่ากับ 0 มันหมายความว่าทั้ง p และ n เป็นเสียง ถ้าเรื่องนี้
กรณีที่เกิดขึ้นเช่นสังเคราะห์จะไม่ถูกสร้างขึ้นเนื่องจากขั้นตอนวิธีการไม่ได้
ต้องการที่จะเน้นความสำคัญของภูมิภาคเสียง.
กรณีที่สองแสดงให้เห็นในสาย 17 ถึง 19 จากทั้งหมดรูป 1. อัตราส่วนในระดับที่ปลอดภัยเท่ากับ
การ∞และระดับความปลอดภัยของ P ไม่เท่ากับ 0 มันหมายความว่า n เป็นเสียง หากกรณีนี้เกิดขึ้น
อินสแตนซ์สังเคราะห์จะถูกสร้างขึ้นไกลจากตัวอย่างเสียง n โดยการทำซ้ำ P
เพราะอัลกอริทึมต้องการหลีกเลี่ยงเช่นเสียง n.
กรณีที่สามแสดงให้เห็นว่าในเส้น 20-22 ของรูป 1. อัตราส่วนในระดับที่ปลอดภัยจะมีค่าเท่ากับ
1 ก็หมายความว่าอยู่ในระดับที่ปลอดภัยของพีแอนด์เอ็นจะเหมือนกัน หากกรณีนี้เกิดขึ้นสังเคราะห์
เช่นจะถูกสร้างขึ้นตามแนวเส้นแบ่งระหว่างพีแอนด์เอ็นเพราะ P คือเป็นที่ปลอดภัย n.
กรณีที่แสดงให้เห็นในสี่เส้น 23-25 ของรูป 1. อัตราส่วนในระดับที่ปลอดภัยคือ
มากกว่า 1 มันหมายความว่าระดับที่ปลอดภัยของ P เป็นมากกว่าที่ n หากกรณีนี้
เกิดขึ้นอินสแตนซ์สังเคราะห์อยู่ในตำแหน่งที่ใกล้ชิดกับ P P เพราะปลอดภัยกว่า n
เช่นสังเคราะห์จะถูกสร้างขึ้นในช่วง [0, 1 / อัตราส่วนในระดับที่ปลอดภัย].
กรณีที่ห้าแสดงให้เห็นว่าในเส้น 26-28 ของรูป 1. อัตราส่วนในระดับที่ปลอดภัยน้อย
กว่า 1 มันหมายความว่าระดับที่ปลอดภัยของ P น้อยกว่าที่ n หากกรณีนี้เกิดขึ้นเป็น
เช่นสังเคราะห์อยู่ในตำแหน่งที่ใกล้ชิดกับ n n เพราะปลอดภัยกว่า P สังเคราะห์
เช่นจะถูกสร้างขึ้นในช่วง [1 - อัตราส่วนในระดับที่ปลอดภัย, 1]
การแปล กรุณารอสักครู่..

ระดับที่ 3 เซฟตีตามตี ระดับปลอดภัยได้ ปลอดภัยระดับสังเคราะห์ oversampling ชนกลุ่มน้อยเทคนิคกำหนดแต่ละบวกอินสแตนซ์ของระดับที่ปลอดภัยก่อนสร้างอินสแตนซ์สังเคราะห์ แต่ละอินสแตนซ์สังเคราะห์ ตั้งอยู่ใกล้ที่สุดปลอดภัยระดับเพื่ออินสแตนซ์สังเคราะห์ทั้งหมดจะถูกสร้างขึ้นเฉพาะในพื้นที่ปลอดภัยระดับปลอดภัย ( SL ) หมายถึงสูตร ( 7 ) ถ้าระดับที่ปลอดภัยของอินสแตนซ์ถูกปิด0 , ตัวอย่างเกือบเสียง ถ้ามันใกล้ K , ตัวอย่างที่ถือว่าปลอดภัย ที่อัตราส่วนของระดับที่ปลอดภัยหมายถึงสูตร ( 8 ) มันถูกใช้เพื่อเลือกตำแหน่งที่ปลอดภัยสร้างอินสแตนซ์สังเคราะห์ระดับปลอดภัย ( SL ) = จำนวนบวก stances ใน K ใกล้เพื่อนบ้าน ( 7 )ปลอดภัยระดับ Ratio = SL ของบวกอินสแตนซ์ / SL ของใกล้เพื่อนบ้าน ( 8 )ระดับปลอดภัยได้วิธีที่แสดงในรูปที่ 1 . ตัวแปรทั้งหมดในขั้นตอนวิธีนี้ได้อธิบายไว้ดังนี้ P เป็นตัวอย่างในชุดเดิมทั้งหมดบวกอินสแตนซ์ Dเลือกที่ใกล้ที่สุด N เพื่อนบ้านของ PS รวมอยู่ในชุดของบวกสังเคราะห์คืออินสแตนซ์ D " เป็นอินสแตนซ์สังเคราะห์ และเป็นระดับที่ปลอดภัยเฉพาะอย่างยิ่งพาทิเคิล P และ N ในระดับปลอดภัยตามลำดับ อัตราส่วน sl_ratio เป็นระดับที่ปลอดภัย numattrs คือจำนวนของแอตทริบิวต์ ระดับ คือความแตกต่างระหว่างค่าของ N และ P ที่แอตทริบิวต์ id เดียวกันช่องว่างเป็นแบบสุ่มส่วนดิฟ . P [ i ] [ i ] และของ [ i ] เป็นค่าตัวเลขของอินสแตนซ์ใน ith คุณลักษณะฟอสฟอรัส ไนโตรเจน และ เป็นเวกเตอร์ หลับ sl_ratio numattrs พาทิเคิล , , , , scalars DIF และช่องว่างเป็น .หลังจากการกำหนดระดับปลอดภัย P และระดับที่ปลอดภัย n อัลกอริทึมคำนวณอัตราส่วนของระดับที่ปลอดภัย มีห้ารายที่สอดคล้องกับค่าอัตราส่วนของระดับที่ปลอดภัยพบในบรรทัดที่ 12 ถึง 28 ของรูปที่ 1กรณีแรกที่แสดงในบรรทัดที่ 12 กับ 14 ของรูปที่ 1 อัตราส่วนของระดับที่ปลอดภัย จะเท่ากับ∞และระดับที่ปลอดภัยของ P เท่ากับ 0 มันหมายความว่าทั้ง P และ N เสียง ถ้านี้กรณีที่เกิดขึ้น เช่น สังเคราะห์จะถูกสร้างขึ้น เพราะขั้นตอนไม่ได้ต้องการเน้นเสียงสำคัญของภูมิภาคคดีที่สองพบในบรรทัดที่ 17 ถึง 19 รูปที่ 1 อัตราส่วนปลอดภัยเท่ากับระดับเพื่อ∞และระดับที่ปลอดภัยของ P ไม่เท่ากับ 0 มันหมายถึงว่าเป็นเสียงรบกวน ถ้ากรณีนี้เกิดขึ้นอินสแตนซ์สังเคราะห์จะถูกสร้างขึ้นไกลจากตัวอย่างเสียง n โดยโรเนียว pเพราะชุดคำสั่งต้องการหลีกเลี่ยงเสียงตัวอย่าง )คดีที่สาม พบในบรรทัดที่ 20 ถึง 22 รูปที่ 1 อัตราส่วนของระดับที่ปลอดภัย จะเท่ากับ1 . มันหมายถึงว่า ระดับปลอดภัยของ p และ n เป็นเดียวกัน ถ้ากรณีนี้เกิดขึ้น , สังเคราะห์ตัวอย่างจะถูกสร้างขึ้นตามเส้นระหว่าง P และ N เพราะ P เป็นปลอดภัยที่สุด )คดีที่ 4 พบในบรรทัดที่ 23 ของรูปที่ 1 25 อัตราส่วนของระดับที่ปลอดภัยคือมากกว่า 1 มันหมายถึงว่า ระดับปลอดภัยของ P มากกว่า ( ถ้ากรณีนี้เกิดขึ้น , อินสแตนซ์สังเคราะห์ตั้งอยู่ใกล้ P P จะปลอดภัยกว่า เพราะที่อยู่อินสแตนซ์สังเคราะห์จะถูกสร้างขึ้นในช่วง [ 0 , 1 / ระดับที่ปลอดภัยต่อ ]คดีที่ 5 มีในบรรทัด 26 - 28 ของรูปที่ 1 อัตราส่วนของระดับความปลอดภัยน้อยกว่า 1 มันหมายถึงว่า ระดับปลอดภัยของ P น้อยกว่า ( ถ้ากรณีนี้เกิดขึ้น ,อินสแตนซ์สังเคราะห์ ตั้งอยู่ใกล้ เพราะมีความปลอดภัยกว่าสังเคราะห์ n Pตัวอย่างจะถูกสร้างขึ้นในระดับที่ปลอดภัยต่อช่วง [ 1 - 1 ]
การแปล กรุณารอสักครู่..
