I. INTRODUCTION
Developments in innovative storage technology and the
popularization of the internet have caused an explosion of
data during the past decades. As a direct result of this,
data mining, a relative young and interdisciplinary research
field, has emerged to cope with these new volumes of data.
Specifically, data mining concerns itself with the extraction
of patterns from massive amounts of data. When the problem
at hand requires the prediction of an approximately
continuous value, a specific class of techniques under the
denominator of regression techniques have been proposed,
notably Support Vector Machine Regression (SVR) [30] and
Artificial Neural Networks (ANN) [4].
Although most of the state-of-the-art techniques are nonlinear
and have very good performance, the introduced nonlinearities
render the models unfit for introspection, that
is, it is very difficult to understand the logics behind the
predictions made by the black box model. In many domains,
however, it is important for these models to be comprehensible
in order to be acceptable for implementation [20], [10].
Indeed, sometimes this may even be a legal requirement (e.g.
medical diagnosis [24] and credit scoring [21]). Kodratoff
already noticed the need for comprehensibility two decades
ago [17], even so, current data mining research seems to be
focused on predictive performance only.
One way to cope with the opaqueness of non-linear
models is to use so called rule extraction techniques. These
generate predictive rules that mimic the predictions made by
the underlying black-box model [8], [13], [23], [22], [16].
When the rule model approximates the black-box technique
enough, the generated rule sets can provide insights into the
logics underlying the black-box model in a human-readable
form. The extent to which the extracted rules explain the
black-box model is measured in terms of the deviation of
predictions on test data between the black-box model and the
rule model. As the deviation decreases the insight into the
black-box model increases (this is usually characterized by
the fidelity). When the black-box model performs better than
the traditional rule induction technique in terms of accuracy,
the performance of the extracted rules have a good chance of
performing better than those obtained by the rule induction
technique as well [22], [16].
I. บทนำพัฒนาเก็บนวัตกรรมเทคโนโลยีและเชี่ยวของอินเทอร์เน็ตทำให้เกิดการระเบิดของข้อมูลในช่วงทศวรรษ เป็นผลโดยตรงนี้การทำเหมืองข้อมูล วิจัยหนุ่ม และสาขาที่สัมพันธ์กันฟิลด์ ได้โผล่ออกมาเพื่อรองรับปริมาณข้อมูลเหล่านี้ใหม่เฉพาะ การทำเหมืองข้อมูลเกี่ยวตัวเองกับสกัดรูปแบบจากข้อมูลจำนวนมหาศาล เมื่อปัญหาที่ต้องการทำนายของการประมาณค่าต่อเนื่อง แบบเทคนิคภายใต้การได้รับการเสนอส่วนเทคนิคการถดถอยโดยเฉพาะอย่างยิ่งการสนับสนุนเวกเตอร์เครื่องถดถอย (SVR) [30] และข่ายประสาทเทียม (แอน) [4]แม้ว่าเทคนิคของศิลปะที่เป็นเชิงเส้นและมีประสิทธิภาพดีมาก nonlinearities นำแสดงแบบไม่เหมาะสำหรับวิปัสสนา ที่มันเป็นยากที่จะเข้าใจ logics หลังการคาดคะเนโดยรุ่นกล่องดำ ในหลายโดเมนอย่างไรก็ตาม มันเป็นสิ่งสำคัญสำหรับรุ่นเหล่านี้จะเข้าใจเพื่อที่จะยอมรับได้สำหรับการใช้งาน [20], [10]แน่นอน บางครั้งยังเป็นความต้องการทางกฎหมาย (เช่นวินิจฉัยทางการแพทย์ [24] และ [21] การให้คะแนนเครดิต) Kodratoffแล้วสังเกตเห็นต้อง comprehensibility สองทศวรรษผ่านมา [17], แต่กระนั้น วิจัยการทำเหมืองข้อมูลปัจจุบันดูเหมือนว่าจะเน้นประสิทธิภาพการทำงานระบบวิธีหนึ่งที่จะรับมือกับ opaqueness ของสมบัติรูปแบบคือการ ใช้เรียกว่าเทคนิคการสกัดกฎ เหล่านี้สร้างกฎการคาดการณ์ที่คาดคะเนโดยการเลียนแบบต้นแบบกล่องดำแบบ [8], [13], [23], [22], [16]เมื่อรูปแบบกฎสใกล้เคียงกับทองคำเทคนิคกล่องดำเพียงพอ การตั้งค่ากฎที่สร้างขึ้นสามารถให้ข้อมูลเชิงลึกในการlogics ต้นแบบกล่องดำในการอ่านแบบฟอร์ม ขอบเขตที่กฎการแยกอธิบายการรุ่นกล่องดำจะวัดการเบี่ยงเบนของคาดคะเนจากข้อมูลทดสอบระหว่างรุ่นกล่องดำและรุ่นกฎ เป็นการเบี่ยงเบนลดเข้าใจในการเพิ่มรุ่นกล่องดำ (นี้เป็นปกติลักษณะเที่ยงตรง) เมื่อรุ่นกล่องดำทำได้ดีกว่าเทคนิคการเหนี่ยวนำกฎดั้งเดิมในแง่ของความแม่นยำประสิทธิภาพการทำงานของกฎการแยกมีโอกาสดีของประสิทธิภาพดีกว่าได้ โดยการเหนี่ยวนำกฎเทคนิคเป็นอย่างดี [22], [16]
การแปล กรุณารอสักครู่..

ผมแนะนำการพัฒนาเทคโนโลยีการจัดเก็บใหม่และที่นิยมของอินเทอร์เน็ตมีสาเหตุการระเบิดของข้อมูลในช่วงทศวรรษที่ผ่านมา เป็นผลโดยตรงของการทำเหมืองข้อมูล , ญาติหนุ่มและวิจัยสหวิทยาการที่สนามมีชุมนุมเพื่อรับมือกับสิ่งเหล่านี้ใหม่ปริมาณของข้อมูลโดยเฉพาะการทําเหมืองข้อมูลเกี่ยวกับตัวเอง ด้วยการสกัดรูปแบบจากจำนวนมหาศาลของข้อมูล เมื่อมีปัญหาในมือต้องมีการทำนายการประมาณค่าอย่างต่อเนื่อง โดยเฉพาะเทคนิคการเรียนของภายใต้ตัวหารของเทคนิคการถดถอยได้เสนอโดยเฉพาะการสนับสนุนเวกเตอร์เครื่องจักร ( SVR ) [ 30 ] และโครงข่ายประสาทเทียม ( ANN ) [ 4 ]แม้ว่าส่วนใหญ่ของเทคนิคที่ทันสมัยจะไม่เชิงเส้นและมีประสิทธิภาพดีมาก , แนะนำ nonlinearitiesให้นางแบบ ส่วนวิปัสสนานั้นคือ มันเป็นเรื่องยากมากที่จะเข้าใจเหตุผลที่อยู่เบื้องหลังการคาดการณ์โดยแบบจำลองกล่องดำ หลายโดเมนอย่างไรก็ตาม , มันเป็นสิ่งสำคัญสำหรับรูปแบบเหล่านี้จะสามารถเข้าใจได้เพื่อให้เป็นที่ยอมรับของผู้บริโภค [ 20 ] , [ 10 ]แน่นอน บางครั้งอาจจะมีความต้องการทางกฎหมาย ( เช่นการวินิจฉัยทางการแพทย์ [ 24 ] และการให้คะแนนเครดิต [ 21 ] ) kodratoffแล้วสังเกตความต้องการความเข้าใจสองทศวรรษที่ผ่านมา [ 17 ] , แม้ดังนั้น , การวิจัยเหมืองข้อมูลในปัจจุบันน่าจะเน้นประสิทธิภาพในการทำนายเท่านั้นวิธีหนึ่งในการรับมือกับ opaqueness ของเส้นรูปแบบคือการใช้กฎการสกัดเพื่อเรียกใช้ เหล่านี้สามารถสร้างกฎที่เลียนแบบคาดคะเนทำโดยมีกล่องสีดำแบบ [ 8 ] , [ 13 ] , [ 23 ] , [ 22 ] , [ 16 ]เมื่อการปกครองแบบมีเทคนิค กล่องสีดำพอตั้งกฎที่สร้างขึ้นสามารถให้ข้อมูลเชิงลึกเข้าไปตรรกะพื้นฐานแบบกล่องสีดำในมนุษย์สามารถอ่านได้แบบฟอร์ม ขอบเขตการใช้กฎอธิบายแบบกล่องสีดำเป็นวัดในแง่ของการเบี่ยงเบนของการคาดคะเนข้อมูลการทดสอบระหว่างสีดำและกล่องโมเดลรูปแบบการปกครอง เป็นส่วนที่ลึกลงไปของลดลงเพิ่มแบบกล่องสีดำ ( ซึ่งมักจะเป็นลักษณะโดยความจงรักภักดี ) เมื่อมีประสิทธิภาพดีกว่าแบบกล่องสีดำเทคนิคการเหนี่ยวนำกฎแบบดั้งเดิมในแง่ของความถูกต้องประสิทธิภาพของการสกัดกฎมีโอกาสที่ดีของการแสดงที่ดีกว่าได้โดยกฎการเหนี่ยวนำเทคนิคเช่นกัน [ 22 ] , [ 16 ]
การแปล กรุณารอสักครู่..
