III. METHODOLOGY
A. Data Preparation
The data set contains 4898 instances of white wines from the UCI Machine Learning Repository [16]. There are 11 physicochemical (inputs) variables that influence the quality of wines, as shown in Table II.
Tartaric acid, citric acid and malic acid are present in wine, while generally, ascorbic, sorbic and sulfurous acids are added during wine making. Residual sugar determines the sweetness of a wine. Although it is not the only factor which determines the sweetness, its still plays a major role in determining the taste of a wine. Alcohol in wine, is a by-product of yeast metabolism.
The quality variable in the data set varies from 3 to 9 with 3 being the poorest quality, while 9 denoting the highest quality. Interestingly, values 1, 2, and 10 do not exist. The values of the quality variable and their “class labels” are:
• Low Quality: 3, 4
• Normal: 5, 6, 7
• High Quality: 8, 9
The distribution of the instances in the data set on quality value is shown in Fig. 1(a) and on quality class is shown in Fig. 1( b ).
The events are clearly not equally dispersed. We see that for quality “Normal”, which pertains to values 5, 6 and, 7, has the highest occurrence. Among 4898 instances, these occur 4535 times. Hence these could be regarded as Normal occurrences. On the other hand, there are only 183 instances of ’Low’ quality (values 3 and 4) and 180 instances of ’High’ quality (values 8 and 9). We call these instances of low and high quality Rare occurrences.
B. SMOTE
The Synthetic Minority Oversampling Technique ( SMOTE ) is an over-sampling method to address the problem of imbalanced distribution of data. The basic idea is to re-sample the data space to create more synthetic points of the rare class.
Here is how the basic SMOTE algorithm works. Let D be the data set, R ⊂ D be the set of minority class. The algorithm iterates through for each r ∈ R, identifies the k nearest neighbor N of r based on some distance measure, where k is a parameter. Then, the algorithm randomly picks a point n ∈ N, interpolating between r and n to create a synthetic point p. The new point p is to be added to the minority class. This is illustrated in Fig. 2, where 2(a) shows the two classes (minority class has only one point) and 2( b ) shows the 4 nearest neighbors of the minority point and the newly generated synthetic point by SMOTE.
III. วิธีก.การเตรียมข้อมูลชุดข้อมูลประกอบด้วยอินสแตนซ์ 4898 ไวน์ขาวจาก UCI เครื่องเรียนเก็บ [16] มี 11 ตัวแปรทางเคมีกายภาพ (ปัจจัย) ที่มีอิทธิพลต่อคุณภาพของไวน์ ดังที่แสดงในตารางที่สองกรดฟอร์ กรด และกรดที่มีอยู่ในไวน์ ในขณะที่โดยทั่วไป แอสคอร์บิค sorbic และมีเพิ่มกรด sulfurous ทำไวน์ น้ำตาลส่วนที่เหลือกำหนดความหวานของไวน์ ถึงแม้ว่ามันไม่ใช่ปัจจัยเดียวที่กำหนดความหวาน ยังคงมีบทบาทสำคัญในการกำหนดรสชาติของไวน์ มีแอลกอฮอล์ในไวน์ การเผาผลาญอาหารของยีสต์ตัวแปรคุณภาพในชุดข้อมูลตั้งแต่ 3 ถึง 9 กับ 3 ถูกคุณภาพจนที่สุด ในขณะที่ 9 ลิปดาคุณภาพสูง เรื่องน่าสนใจ 1, 2, 10 และไม่มีค่า ค่าของตัวแปรคุณภาพและ "ป้ายชื่อชั้น" เป็น:•คุณภาพต่ำ: 3, 4•ปกติ: 5, 6, 7•คุณภาพสูง: 8, 9การกระจายของอินสแตนซ์ในชุดข้อมูลคุณภาพค่าจะแสดงในรูป 1(a) และคุณภาพ ระดับแสดงในรูป 1 (ข)เหตุการณ์จะชัดเจนไม่เท่ากันกระจาย เราเห็นว่า คุณภาพ "ปกติ" ที่เกี่ยวข้องกับค่า 5, 6 และ 7 มีการเกิดขึ้นสูงสุด ในกรณีที่ 4898 เหล่านี้เกิดขึ้น 4535 ครั้ง ดังนั้น เหล่านี้อาจถือว่าเป็นเหตุการณ์ปกติ บนมืออื่น ๆ มีเพียง 183 กรณี 'ต่ำ' คุณภาพ (ค่า 3 และ 4) และกรณีที่ 180 'คุณภาพ ' (ค่า 8 และ 9) เราเรียกเหล่านี้อินสแตนซ์ของเหตุการณ์ที่หายากคุณภาพสูง และต่ำข.ก็ตบการสังเคราะห์ชนกสุ่มได้เทคนิค (SMOTE) เป็นวิธีการสุ่มตัวอย่างมากกว่าการแก้ปัญหาการขาดดุลการกระจายของข้อมูล แนวคิดพื้นฐานคือการ ซ้ำตัวอย่างข้อมูลพื้นที่การสร้างคะแนนเพิ่มเติมสังเคราะห์ประเภทหายากนี่คือวิธีการทำงานของอัลกอริทึม SMOTE พื้นฐาน ให้ D เป็นชุดข้อมูล R ⊂ D เป็นชุดของชนกลุ่มน้อยชั้น อัลกอริทึมการคำนวณซ้ำผ่านแต่ละ∈ r R ระบุ k ใกล้เพื่อนบ้าน N ของอิงบางวัดระยะทาง โดยที่ k คือ พารามิเตอร์ r แล้ว อัลกอริทึมแบบสุ่มเลือกจุด n ∈ N, interpolating ระหว่าง r และ n สร้างสังเคราะห์จุด p จุด p ใหม่จะเพิ่มประเภทชนกลุ่มน้อย ดังรูปที่ 2 รูป ที่ 2(a) แสดงสองชั้น (ชั้นของชนกลุ่มน้อยมีเพียงจุดเดียว) และ 2 (b) แสดง 4 ใกล้บ้านของชนกลุ่มน้อยจุดและจุดสังเคราะห์สร้างขึ้นใหม่ โดย SMOTE
การแปล กรุณารอสักครู่..

III ระเบียบวิธี
กการเตรียมข้อมูล
ชุดข้อมูลที่มี 4898 กรณีของไวน์ขาวจาก UCI เครื่องเรียนรู้ Repository [16] มี 11 ทางเคมีกายภาพ (ปัจจัยการผลิต) เป็นตัวแปรที่มีผลต่อคุณภาพของไวน์ดังแสดงในตารางที่สอง
กรดทาร์ทาริก, กรดซิตริกและกรดมาลิกที่มีอยู่ในไวน์ในขณะที่โดยทั่วไปซีซอร์บิกและกรดกำมะถันจะเพิ่มขึ้นในช่วงการทำไวน์ น้ำตาลที่เหลือจะเป็นตัวกำหนดความหวานของไวน์ แม้ว่าจะไม่ได้เป็นปัจจัยเดียวที่กำหนดความหวานยังคงมีบทบาทสำคัญในการกำหนดรสชาติของไวน์ เครื่องดื่มแอลกอฮอล์ในไวน์เป็นผลพลอยได้จากการเผาผลาญอาหารของยีสต์
ตัวแปรที่มีคุณภาพอยู่ในชุดข้อมูลที่แตกต่างกันไป 3-9 มี 3 เป็นคุณภาพที่ยากจนที่สุดในขณะที่ 9 แสดงถึงที่มีคุณภาพสูงสุด ที่น่าสนใจค่า 1, 2, 10 และไม่อยู่ ค่าของตัวแปรที่มีคุณภาพและ "ป้ายคลาส" ของพวกเขาคือ
•คุณภาพต่ำ: 3, 4
•ปกติ: 5, 6, 7
•คุณภาพสูง: 8, 9
การกระจายตัวของอินสแตนซ์ในชุดข้อมูลเกี่ยวกับคุณค่าที่มีคุณภาพมีการแสดง ในรูป 1 (ก) และในระดับคุณภาพที่แสดงในรูป 1 (ข)
เหตุการณ์ที่เกิดขึ้นได้อย่างชัดเจนไม่ได้แยกย้ายกันไปอย่างเท่าเทียมกัน เราจะเห็นว่ามีคุณภาพสำหรับ "ปกติ" ซึ่งเกี่ยวข้องกับค่า 5, 6 และ 7 มีการเกิดขึ้นสูงสุด ท่ามกลาง 4898 กรณีเหล่านี้เกิดขึ้น 4535 ครั้ง ดังนั้นเหล่านี้อาจจะถือได้ว่าเป็นเหตุการณ์ปกติ บนมืออื่น ๆ มีเพียง 183 อินสแตนซ์ที่มีคุณภาพ 'ต่ำ' (ค่า 3 และ 4) และ 180 กรณีของการที่มีคุณภาพ 'สูง' (ค่า 8 และ 9) เราขอเรียกร้องกรณีเหล่านี้เกิดขึ้นหายากที่มีคุณภาพต่ำและสูง
บีประหาร
สังเคราะห์เสียงข้างน้อย oversampling เทคนิค (ประหาร) เป็นวิธีการมากกว่าการสุ่มตัวอย่างในการแก้ไขปัญหาของการกระจายไม่สมดุลของข้อมูล แนวคิดพื้นฐานคือการ re ตัวอย่างข้อมูลพื้นที่ที่จะสร้างจุดสังเคราะห์มากขึ้นของชนชั้นที่หายาก
นี่คือวิธีการขั้นพื้นฐานประหารขั้นตอนวิธีการทำงาน ให้ D เป็นข้อมูลชุด R ⊂ D เป็นชุดของชั้นชนกลุ่มน้อย iterates ผ่านอัลกอริทึมสำหรับแต่ละ R ∈ R, ระบุ k เพื่อนบ้านที่ใกล้ที่สุดของ N R บนพื้นฐานการวัดระยะทางที่ K เป็นพารามิเตอร์ จากนั้นขั้นตอนวิธีสุ่มเลือกจุด n ∈ N, interpolating ระหว่าง R และ N เพื่อสร้างจุด P สังเคราะห์ P จุดใหม่จะถูกเพิ่มเข้าไปในชั้นเรียนของชนกลุ่มน้อย นี่คือตัวอย่างในรูป 2 ที่ 2 (ก) แสดงให้เห็นถึงสองชั้น (ชั้นชนกลุ่มน้อยมีเพียงจุดเดียว) และ 2 (ข) แสดงให้เห็นถึง 4 เพื่อนบ้านที่ใกล้ที่สุดของจุดชนกลุ่มน้อยและจุดที่สังเคราะห์ที่สร้างขึ้นใหม่โดยการฆ่าฟัน
การแปล กรุณารอสักครู่..

3 . วิธีการการเตรียมข้อมูล .ชุดข้อมูลประกอบด้วย 4898 อินสแตนซ์ของไวน์ขาวจาก UCI การเรียนรู้เครื่องกรุ [ 16 ] 11 มีการเปลี่ยนแปลง ( กระผม ) ตัวแปรที่มีผลต่อคุณภาพของไวน์ ดังแสดงในตารางที่ 2กรด tartaric กรดซิตริกและกรดมาลิกจะอยู่ในไวน์ ในขณะที่โดยทั่วไปวิตามินซีและกรดซอร์บิค , ซัลฟูรัสจะเพิ่มในระหว่างการทำไวน์ น้ำตาลที่เหลือใช้ความหวานของไวน์ แม้ว่าจะไม่ได้เป็นปัจจัยเดียวที่กำหนดความหวานของมันยังคงมีบทบาทสำคัญในการกำหนดรสชาติของไวน์ แอลกอฮอล์ในไวน์ เป็นผลพลอยได้จากการเผาผลาญอาหารของยีสต์คุณภาพตัวแปรในชุดข้อมูลที่แตกต่างกันจาก 3 ถึง 9 กับ 3 มีคุณภาพที่สุด ในขณะที่ 9 แสดงถึงคุณภาพสูงสุด ทั้งนี้ ค่า 1 , 2 , และ 10 ไม่มี ค่าของตัวแปรคุณภาพของ " ป้าย " คลาส :- คุณภาพต่ำ : 3 , 4บริการปกติ : 5 , 6 , 7บริการคุณภาพสูง : 8 , 9การกระจายของอินสแตนซ์ในชุดข้อมูลที่แสดงในรูปที่ 1 ค่าคุณภาพ ( A ) และระดับคุณภาพที่แสดงในรูปที่ 1 ( B )เหตุการณ์จะชัดเจนไม่เท่าเทียมกันกระจาย . เราดูที่คุณภาพ " ปกติ " ซึ่งเกี่ยวข้องกับค่า 5 , 6 และ 7 มีการเกิดสูงสุด ระหว่างอินสแตนซ์ 4898 เหล่านี้เกิดขึ้น 4535 ครั้ง ดังนั้นเหล่านี้อาจจะถือว่าเป็นเหตุการณ์ปกติ บนมืออื่น ๆมีเพียง 183 อินสแตนซ์ของ ' คุณภาพต่ำ ( ค่า 3 และ 4 ) และ 180 กรณีของ ' คุณภาพสูง ' ( ค่า 8 และ 9 ) เราเรียกกรณีเหล่านี้ต่ำและคุณภาพสูง เหตุการณ์ที่หายากบี ตีสังเคราะห์เทคนิค oversampling ชนกลุ่มน้อย ( ตี ) เป็นมากกว่าวิธีการสุ่มตัวอย่างเพื่อแก้ไขปัญหาการไม่สมดุลของการกระจายของข้อมูล ความคิดพื้นฐานคืออีกตัวอย่างข้อมูลพื้นที่เพื่อสร้างจุดสังเคราะห์มากขึ้นของระดับแรร์นี่คือวิธีพื้นฐานโจมตีวิธีการทํางาน ให้ D เป็นชุดข้อมูล ⊂ R D เป็นชุดของคลาสชนกลุ่มน้อย ขั้นตอนวิธีการกล่าวย้ำผ่านแต่ละ r ∈ R , ระบุ K เพื่อนบ้านที่ใกล้ที่สุดของ R ตามระยะทางบางวัดที่ K เป็นพารามิเตอร์ แล้ววิธีสุ่มเลือกจุด N ∈ N การ ประมาณระหว่าง R และ N เพื่อสร้างจุดสังเคราะห์หน้าจุด p ใหม่ที่จะถูกเพิ่มลงในส่วนน้อยที่ชั้นเรียน นี้จะแสดงในรูปที่ 2 ที่ 2 ( ) จะแสดงสองชนชั้น ( Class ชนกลุ่มน้อยมีเพียงจุดเดียว ) และ 2 ( b ) แสดง 4 เพื่อนบ้านที่ใกล้ที่สุดของจุดน้อยและสร้างใหม่โดยสังเคราะห์จุดตี .
การแปล กรุณารอสักครู่..
