Safe-Level-SMOTE algorithm is showed in Fig. 1. All variables in this algorithm
are described as follows. p is an instance in the set of all original positive instances D.
n is a selected nearest neighbours of p. s included in the set of all synthetic positive
instances D' is a synthetic instance. slp and sln are safe level of p and safe level of n
respectively. sl_ratio is safe level ratio. numattrs is the number of attributes. dif is the
difference between the values of n and p at the same attribute id. gap is a random
fraction of dif. p[i], n[i], and s[i] are the numeric values of the instances at ith attribute.
p, n, and s are vectors. slp, sln, sl_ratio, numattrs, dif, and gap are scalars.
After assigning the safe level to p and the safe level to n, the algorithm calculates
the safe level ratio. There are five cases corresponding to the value of safe level ratio
showed in the lines 12 to 28 of Fig. 1.
The first case showed in the lines 12 to 14 of Fig. 1. The safe level ratio is equal to
∞ and the safe level of p is equal to 0. It means that both p and n are noises. If this
case occurs, synthetic instance will not be generated because the algorithm does not
want to emphasize the important of noise regions.
The second case showed in the lines 17 to 19 of Fig. 1. The safe level ratio is equal
to ∞ and the safe level of p is not equal to 0. It means that n is noise. If this case occurs,
a synthetic instance will be generated far from noise instance n by duplicating p
because the algorithm want to avoid the noise instance n.
The third case showed in the lines 20 to 22 of Fig. 1. The safe level ratio is equal to
1. It means that the safe level of p and n are the same. If this case occurs, a synthetic
instance will be generated along the line between p and n because p is as safe as n.
The fourth case showed in the lines 23 to 25 of Fig. 1. The safe level ratio is
greater than 1. It means that the safe level of p is greater than that of n. If this case
occurs, a synthetic instance is positioned closer to p because p is safer than n. The
synthetic instance will be generated in the range [0, 1 / safe level ratio].
The fifth case showed in the lines 26 to 28 of Fig. 1. The safe level ratio is less
than 1. It means that the safe level of p is less than that of n. If this case occurs, a
synthetic instance is positioned closer to n because n is safer than p. The synthetic
instance will be generated in the range [1 - safe level ratio, 1].
Safe-Level-SMOTE: Safe-Level-Synthetic Minority Over-Sampling TEchnique 479
After each iteration of for loop in line 2 finishes, if the first case does not occurs, a
synthetic instance s will be generated along the specific-ranged line between p and n,
and then s will be added to D'.
After the algorithm terminates, it returns a set of all synthetic instances D'. The algorithm
generates |D| - t synthetic instances where |D| is the number of all positive
instances in D, and t is the number of instances that satisfy the first case.
อัลกอริทึมก็ตบปลอดภัยระดับถูกแสดงในรูปที่ 1 ตัวแปรทั้งหมดในอัลกอริทึมนี้มีอธิบายดังนี้ p คือ อินสแตนซ์ในชุดของ D. กรณีบวกเดิมทั้งหมดn คือ ตัวเลือกที่ใกล้ที่สุดเพื่อนบ้านของ p. s ที่อยู่ในชุดของบวกสังเคราะห์ทั้งหมดกรณี D' เป็นอินสแตนซ์ที่สังเคราะห์ slp sln ความปลอดภัยระดับของ p และ n ระดับที่ปลอดภัยตามลาดับ sl_ratio คือ อัตราส่วนระดับที่ปลอดภัย numattrs คือ หมายเลขของแอตทริบิวต์ dif เป็นการความแตกต่างระหว่างค่าของ n และ p ที่แอตทริบิวต์ id เดียวกัน ช่องว่างเป็นการสุ่มส่วนของ dif. p [i], n [i], s [i] ด้วยตัวเลขค่าของอินสแตนซ์ที่แอตทริบิวต์ระยะมีเวกเตอร์ p, n และ s มี scalars slp, sln, sl_ratio, numattrs, dif และช่องว่างหลังจากกำหนดระดับความปลอดภัยกับ p และ n ระดับปลอดภัย วิธีการคำนวณอัตราส่วนระดับปลอดภัย มี 5 กรณีที่สอดคล้องกับค่าของอัตราส่วนระดับที่ปลอดภัยแสดงให้เห็นว่าในบรรทัด 12 ถึง 28 ของรูปที่ 1กรณีแรกแสดงให้เห็นว่าในบรรทัด 12 ถึง 14 ของรูปที่ 1 ระดับอัตราส่วนปลอดภัยเท่ากับ∞และระดับความปลอดภัยของ p ไม่เท่ากับ 0 มันหมายความ ว่า ทั้ง p และ n มีเสียง ถ้านี้กรณีที่เกิดขึ้น อินสแตนซ์สังเคราะห์จะไม่สร้าง เพราะไม่มีอัลกอริทึมต้องการเน้นความสำคัญของภูมิภาคเสียงกรณีสองแสดงให้เห็นว่าในบรรทัด 17-19 1 รูป ระดับอัตราส่วนปลอดภัยเท่า∞และระดับความปลอดภัยของ p ไม่เท่ากับ 0 หมายความ ว่า n เป็นเสียง ถ้ากรณีนี้เกิดขึ้นจะสร้างอินสแตนซ์ที่สังเคราะห์ไกลจากเสียงรบกวนอย่าง n โดย p ซ้ำเนื่องจากอัลกอริทึมต้องการหลีกเลี่ยงเสียงอินสแตนซ์ nกรณีสามแสดงให้เห็นว่าในบรรทัด 20 ถึง 22 ของรูปที่ 1 ระดับอัตราส่วนปลอดภัยเท่ากับ1. มันหมายความ ว่า ระดับความปลอดภัยของ p และ n จะเหมือนกัน ถ้ากรณีนี้ เกิดขึ้น การสังเคราะห์อินสแตนซ์จะถูกสร้างขึ้นตามแนวระหว่าง p และ n เพราะ p มีความปลอดภัยเป็น nกรณี 4 แสดงให้เห็นว่าในบรรทัด 23-25 ของรูปที่ 1 อัตราส่วนระดับปลอดภัยคือมากกว่า 1 มันหมายความ ว่า ระดับความปลอดภัยของ p เป็น n ที่มากกว่า ถ้ากรณีนี้เกิดขึ้น การอินสแตนซ์ที่สังเคราะห์อยู่ใกล้เพื่อ p เนื่องจาก p จะปลอดภัยกว่า n. การอินสแตนซ์ที่สังเคราะห์จะถูกสร้างขึ้นในช่วง [0, 1 / ปลอดภัยอัตราระดับ]กรณีห้าที่แสดงให้เห็นว่าในบรรทัด 26 ถึง 28 ของรูปที่ 1 อัตราส่วนระดับปลอดภัยคือน้อยกว่า 1 หมายความ ว่า ระดับความปลอดภัยของ p เป็นของ n ถ้ากรณีนี้เกิดขึ้น การอินสแตนซ์สังเคราะห์อยู่ใกล้กับ n เพราะ n คือปลอดภัยกว่า p การสังเคราะห์อินสแตนซ์จะถูกสร้างขึ้นในช่วง [1 - ปลอดภัยระดับ ratio, 1]ตู้นิรภัยระดับก็ตบ: ชนกปลอดภัยระดับสังเคราะห์มากกว่าการสุ่มตัวอย่างเทคนิค 479หลังจากเสร็จสิ้นแต่ละซ้ำของการวนรอบในบรรทัดที่ 2 ถ้ากรณีแรกเกิดขึ้น ไม่มีอินสแตนซ์สังเคราะห์ s จะถูกสร้างขึ้นตามสายโจมตีระยะไกลเฉพาะระหว่าง p และ nและจากนั้น จะเพิ่ม s D'.หลังจากที่อัลกอริทึมยุติ กลับชุดสังเคราะห์อินสแตนซ์ทั้งหมด D'. อัลกอริทึมสร้างกรุนด์ฟอส D | -t สังเคราะห์อินสแตนซ์กรุนด์ฟอส D | เป็นจำนวนบวกทั้งหมดอินสแตนซ์ใน D และ t คือ หมายเลขของอินสแตนซ์ที่กรณีแรก
การแปล กรุณารอสักครู่..

ตู้เซฟระดับประหารขั้นตอนวิธีการแสดงให้เห็นในรูป 1. ตัวแปรทั้งหมดในขั้นตอนวิธีนี้
มีรายละเอียดดังนี้ P เป็นตัวอย่างในชุดของทุกกรณีบวกต้นฉบับง
n คือเลือกเพื่อนบ้านที่ใกล้ที่สุดของ P s รวมอยู่ในชุดของทุกสังเคราะห์บวก
กรณี D 'เป็นตัวอย่างสังเคราะห์ SLP และ SLN อยู่ในระดับที่ปลอดภัยของ P และระดับที่ปลอดภัยของ n
ตามลำดับ sl_ratio เป็นอัตราส่วนในระดับที่ปลอดภัย numattrs เป็นจำนวนของคุณลักษณะ DIF เป็น
ความแตกต่างระหว่างค่านิยมของไนโตรเจนและฟอสฟอรัสที่แอตทริบิวต์ ID เดียวกัน ช่องว่างที่เป็นแบบสุ่ม
ส่วนของ DIF P [I], N [I] และ s [I] มีค่าเป็นตัวเลขของอินสแตนซ์ที่แอตทริบิวต์ ith.
P, N, S และเวกเตอร์ SLP, SLN, sl_ratio, numattrs, DIF และช่องว่างจะเกลา.
หลังจากได้กำหนดระดับความปลอดภัยในการ P และระดับความปลอดภัยที่จะ N, ขั้นตอนวิธีการคำนวณ
อัตราส่วนในระดับที่ปลอดภัย มีห้ากรณีที่สอดคล้องกับค่าของอัตราส่วนในระดับที่ปลอดภัยที่มีการ
แสดงให้เห็นว่าในเส้น 12-28 ของรูป 1.
กรณีแรกที่แสดงให้เห็นในสาย 12 ถึง 14 จากรูป 1. อัตราส่วนในระดับที่ปลอดภัยเท่ากับ
∞และระดับความปลอดภัยของ P เท่ากับ 0 มันหมายความว่าทั้ง p และ n เป็นเสียง ถ้าเรื่องนี้
กรณีที่เกิดขึ้นเช่นสังเคราะห์จะไม่ถูกสร้างขึ้นเนื่องจากขั้นตอนวิธีการไม่ได้
ต้องการที่จะเน้นความสำคัญของภูมิภาคเสียง.
กรณีที่สองแสดงให้เห็นในสาย 17 ถึง 19 จากทั้งหมดรูป 1. อัตราส่วนในระดับที่ปลอดภัยเท่ากับ
การ∞และระดับความปลอดภัยของ P ไม่เท่ากับ 0 มันหมายความว่า n เป็นเสียง หากกรณีนี้เกิดขึ้น
อินสแตนซ์สังเคราะห์จะถูกสร้างขึ้นไกลจากตัวอย่างเสียง n โดยการทำซ้ำ P
เพราะอัลกอริทึมต้องการหลีกเลี่ยงเช่นเสียง n.
กรณีที่สามแสดงให้เห็นว่าในเส้น 20-22 ของรูป 1. อัตราส่วนในระดับที่ปลอดภัยจะมีค่าเท่ากับ
1 ก็หมายความว่าอยู่ในระดับที่ปลอดภัยของพีแอนด์เอ็นจะเหมือนกัน หากกรณีนี้เกิดขึ้นสังเคราะห์
เช่นจะถูกสร้างขึ้นตามแนวเส้นแบ่งระหว่างพีแอนด์เอ็นเพราะ P คือเป็นที่ปลอดภัย n.
กรณีที่แสดงให้เห็นในสี่เส้น 23-25 ของรูป 1. อัตราส่วนในระดับที่ปลอดภัยคือ
มากกว่า 1 มันหมายความว่าระดับที่ปลอดภัยของ P เป็นมากกว่าที่ n หากกรณีนี้
เกิดขึ้นอินสแตนซ์สังเคราะห์อยู่ในตำแหน่งที่ใกล้ชิดกับ P P เพราะปลอดภัยกว่า n
เช่นสังเคราะห์จะถูกสร้างขึ้นในช่วง [0, 1 / อัตราส่วนในระดับที่ปลอดภัย].
กรณีที่ห้าแสดงให้เห็นว่าในเส้น 26-28 ของรูป 1. อัตราส่วนในระดับที่ปลอดภัยน้อย
กว่า 1 มันหมายความว่าระดับที่ปลอดภัยของ P น้อยกว่าที่ n หากกรณีนี้เกิดขึ้นเป็น
เช่นสังเคราะห์อยู่ในตำแหน่งที่ใกล้ชิดกับ n n เพราะปลอดภัยกว่า P สังเคราะห์
. อินสแตนซ์จะถูกสร้างขึ้นในช่วง [1 - อัตราส่วนในระดับที่ปลอดภัย, 1]
ตู้เซฟระดับประหาร: ผู้ถือหุ้นส่วนน้อยปลอดภัยระดับสังเคราะห์ Over-Sampling เทคนิค 479
หลังจากทวนของห่วงในบรรทัดที่ 2 เสร็จสิ้นแต่ละถ้าครั้งแรก กรณีที่ไม่ได้เกิดขึ้นเป็น
เช่น s สังเคราะห์จะถูกสร้างขึ้นตามแนวเฉพาะอยู่ระหว่าง P และ n,
และแล้ว s จะถูกเพิ่มลง D '.
หลังจากที่อัลกอริทึมยุติก็จะส่งกลับชุดของทุกกรณีสังเคราะห์มิติ' ขั้นตอนวิธีการ
สร้าง | D | - เสื้อกรณีสังเคราะห์ที่ | D | เป็นจำนวนบวกทุก
กรณี D, และ T คือจำนวนของอินสแตนซ์ที่ตอบสนองกรณีแรก
การแปล กรุณารอสักครู่..
