where the number of training sets is ttrials and the number of parameter initializations
is wtrials. This can of course then be averaged over several testing points (x, d), as in
equation (2.7). By designing our learning algorithm such that it can minimise this quantity,
we hope to be able to minimise error on future unseen data. Part of the Supervised Learning
problem is to update the parameters so the predictor can generalise to new data—to use
t in such a way as to achieve low error on an unseen testing set t′. Practically, a testing
set could be obtained by splitting the original set t into two parts, t and t′. If we perform
well on t but not on t′ we are said to have overfitted the function—we have fine-tuned our
predictor so much that now it only works on the training set t, and is consequently not a
good representation of φ. This issue will be further discussed in section 2.1.3.
Classification Problems
We mentioned that our output space is continuous, Y ⊆ R, this means the reconstruction
of the map φ is a regression problem. If the output space Y is discrete, Y = {c1, c2, c3, ...},
where each ci is a possible ‘class’ to which each element of X can be mapped, we have a
classification problem. Classification problems are assessed by a 0-1 (zero-one) loss function;
as such, analagously to (2.7), we have:
หมายเลขของชุดฝึกอบรม ttrials และหมายเลขของพารามิเตอร์ initializationswtrials ได้ นี้สามารถแน่นอนแล้วจะ averaged ผ่านหลายทดสอบจุด (x, d), ในสมการ (2.7) โดยการออกแบบของเราเรียนรู้ขั้นตอนวิธีดังกล่าว ที่สามารถลดปริมาณนี้เราหวังว่าจะสามารถลดข้อผิดพลาดในข้อมูล unseen ในอนาคต ส่วนหนึ่งของการเรียนรู้ที่มีปัญหาคือการ ปรับปรุงพารามิเตอร์เพื่อจำนวนประตูที่สามารถ generalise ข้อมูลใหม่โดยใช้t ด้วยวิธีบรรลุต่ำข้อผิดพลาดในการทดสอบ unseen ตั้ง t′ ในทางปฏิบัติ การทดสอบชุดสามารถได้รับ โดยแบ่ง t ชุดเดิมออกเป็นสองส่วน t และ t′ ถ้าเราทำดี ใน t แต่ไม่ t′ เราจะกล่าวได้ overfitted ฟังก์ชันซึ่งเราได้ปรับแต่งของเราจำนวนประตูมากว่า ตอนนี้ทำงานใน การฝึกตั้ง t และดังนั้นไม่มีตัวแทนที่ดีของφ ปัญหานี้จะได้กล่าวในหัวข้อ 2.1.3 เพิ่มเติมปัญหาการจัดประเภทเรากล่าวว่า เนื้อที่ผลผลิตของเราอย่างต่อเนื่อง Y ⊆ R นี้หมายถึง การฟื้นฟูแผนที่φเป็นปัญหาถดถอย ถ้าพื้นที่ผลผลิต Y แยกกัน Y = {c1, c2, c3,...},ซึ่งแต่ละเครื่อง เป็นไปได้ 'คลาส' ซึ่งแต่ละองค์ประกอบของ X สามารถแม็ป เรามีการปัญหาการจัดประเภทการ มีประเมินปัญหาประเภทตาม 0-1 (ศูนย์หนึ่ง) สูญเสียฟังก์ชันเช่น analagously การ (2.7), เรามี:
การแปล กรุณารอสักครู่..

ที่จำนวนของชุดการฝึก ttrials และจำนวนของพารามิเตอร์ initializations
เป็น wtrials . นี้แน่นอนแล้วจะเฉลี่ยไปทดสอบหลายจุด ( x , D ) , ใน
สมการ ( 2.7 ) โดยการออกแบบขั้นตอนวิธีการเรียนรู้ของเรานั้นมันสามารถลดปริมาณนี้
เราหวังว่าจะสามารถลดข้อผิดพลาดในข้อมูลที่มองไม่เห็นอนาคต ส่วนหนึ่งของการเรียนรู้แบบ Supervised Learning
ปัญหาคือการปรับปรุงพารามิเตอร์ดังนั้นตัวแปรสามารถกล่าวสรุปข้อมูลใหม่ที่จะใช้
t ในลักษณะเช่นนี้เพื่อให้เกิดความผิดพลาดน้อยในการทดสอบที่มองไม่เห็นชุด T ’ . จริง การทดสอบ
ชุดอาจจะได้รับโดยการแยก T ชุดเดิมออกเป็น 2 ส่วน ที แอนด์ ที นั้น . ถ้าเราแสดงได้ดีแต่ไม่ได้ T
T นั้น เราว่ามี overfitted ฟังก์ชันที่เราต้องปรับจูนของเรา
ทำนายมากว่า ตอนนี้มันทำงานเฉพาะในการฝึกอบรมชุด T และจึงไม่ได้
ที่ดีเป็นตัวแทนของφ . เรื่องนี้จะกล่าวถึงในส่วนเพิ่มเติมทาง .
เรากล่าวว่า ปัญหาการจำแนกพื้นที่ ออกของเราอย่างต่อเนื่อง และ⊆ R , นี้หมายถึงการฟื้นฟู
ของφแผนที่เป็นปัญหาการถดถอย ถ้าพื้นที่ออก Y จะไม่ต่อเนื่อง , Y = { C1 , C2 , C3 } ,
. . . . . . .ซึ่งแต่ละสายที่เป็นไปได้ ' คลาส ' ซึ่งแต่ละองค์ประกอบของ X สามารถแมป เรามี
ปัญหาการจำแนก ปัญหาการได้รับการประเมินโดย 0-1 ( ศูนย์หนึ่ง ) ฟังก์ชันการสูญเสีย ;
เช่น analagously ( 2.7 ) เรามี :
การแปล กรุณารอสักครู่..
