largest and most striking aspects o

largest and most striking aspects of the data structure,
and then turns to progressively smaller aspects
(stopping, one hopes, before the process begins to
model idiosyncrasies of the observed sample of data
rather than aspects of the true underlying distribution).
In Section 2 we show that this means that the
large gains in predictive accuracy in classification
are won using relatively simple models at the start of
the process, leaving potential gains which decrease
in size as the modeling process is taken further. All
of this means that the extra accuracy of the more
sophisticated approaches, beyond that attained by
simple models, is achieved from “minor” aspects of
the distributions and classification problems.
Second, in Section 3 we argue that in many, perhaps
most, real classification problems the data points
in the design set are not, in fact, randomly drawn
from the same distribution as the data points to
which the classifier will be applied. There are many
reasons for this discrepancy, and some are illustrated.
It goes without saying that statements about classifier
accuracy based on a false assumption about the
identity of the design set distribution and the distribution
of future points may well be inaccurate.
Third, when constructing classification rules, various
other assumptions and choices are often made
which may not be appropriate and which may give
misleading impressions of future classifier performance.
For example, it is typically assumed that the classes
are objectively defined, with no arbitrariness or uncertainty
about the class labels, but this is sometimes
not the case. Likewise, parameters are often
estimated by optimizing criteria which are not relevant
to the real aim of classification accuracy. Such
issues are described in Section 4 and, once again, it
is obvious that these introduce doubts about how
the claimed classifier performance will generalize to
real problems.
The phenomena with which we are concerned in
Sections 3 and 4 are related to the phenomenon of
overfitting. A model overfits when it models the design
sample too closely rather than modeling the distribution
from which this sample is drawn. In Sections
3 and 4 we are concerned with situations in
which the models may accurately reflect the design
distributions (so they do not underfit or overfit), but
where they fail to recognize that these distributions,
and the apparent classification problems described,
are in fact merely a single such problem drawn from
a notional distribution of problems. The real aim
might be to solve a rather different problem. One

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

ลักษณะโดดเด่นที่สุด และใหญ่ที่สุดของโครงสร้างข้อมูลและเปลี่ยนแล้วจะมีขนาดเล็กความก้าวหน้าด้าน(หยุด หนึ่งหวัง ก่อนเริ่มกระบวนการidiosyncrasies จำลองของตัวอย่างที่สังเกตของข้อมูลนอกจากแง่มุมของจริงต้นแบบกระจาย)ในส่วนที่ 2 แสดงว่า นี้หมายความ ว่า การกำไรขนาดใหญ่ในงานความถูกต้องในการจัดประเภทชนะใช้โมเดลค่อนข้างง่ายในการเริ่มต้นกระบวนการ ออกไปกำไรที่ลดลงขนาดเป็นกระบวนการสร้างโมเดลจะนำมาเพิ่มเติม ทั้งหมดนี้หมายความ ว่า ความพิเศษของวิธีที่ซับซ้อน นอกเหนือจากที่ได้เรื่องโมเดล ทำจากด้าน "รอง"การกระจายและการจัดประเภทปัญหาวินาที ใน 3 ส่วน เราโต้เถียงที่ใน ทีการจัดประเภทมากที่สุด แท้จริงปัญหาจุดข้อมูลในการออกแบบ ชุดจะไม่ ในความเป็นจริง สุ่มออกจากการกระจายเดียวกันเป็นจุดข้อมูลที่จะซึ่งจะใช้การ classifier มีเป็นจำนวนมากสาเหตุความขัดแย้งนี้ และบางส่วนมีภาพประกอบมันไปโดยไม่พูดคำที่เกี่ยวกับ classifierความแม่นยำขึ้นอยู่กับความคิดผิด ๆ เกี่ยวกับการตั้งลักษณะเฉพาะของการออกแบบจัดจำหน่ายและการกระจายจุดในอนาคตอาจจะดีไม่สาม เมื่อสร้างกฎการจัดประเภท ต่าง ๆสมมติฐานและทางเลือกอื่น ๆ มักจะทำซึ่งอาจไม่เหมาะสม และการที่จะให้หลอกลวงความรู้สึกประสิทธิภาพ classifier ในอนาคตตัวอย่าง จะโดยทั่วไปถือว่าเป็นที่เรียนเป็นกำหนด ไม่มี arbitrariness หรือความไม่แน่นอนเกี่ยวกับชั้น ป้าย แต่นี้เป็นบางครั้งไม่เช่นนั้น ในทำนองเดียวกัน พารามิเตอร์มักประเมิน โดยเพิ่มเงื่อนไขที่ไม่เกี่ยวข้องเพื่อจุดมุ่งหมายแท้จริงของความถูกต้องของประเภท ดังกล่าวปัญหาอธิบายไว้ในมาตรา ๔ และ อีกครั้งเป็นที่ชัดเจนว่า นี้แนะนำข้อสงสัยเกี่ยวกับวิธีประสิทธิภาพ classifier อ้างว่าจะทั่วไปเพื่อปัญหาที่แท้จริงปรากฏการณ์ที่เรามีความกังวลในส่วนที่ 3 และ 4 เกี่ยวข้องกับปรากฏการณ์ของoverfitting แบบ overfits เมื่อได้โมเดลการออกแบบชิ้นงานตัวอย่างอย่างใกล้ชิดเกินไปแทนที่จะกระจายการสร้างโมเดลซึ่งตัวอย่างนี้ออก ในส่วน3 และ 4 เรามีความกังวลกับสถานการณ์ในซึ่งรูปแบบอาจถูกต้องสะท้อนให้เห็นถึงการออกแบบการกระจาย (ดังนั้นพวกเขาไม่ underfit หรือ overfit), แต่ที่พวกเขาไม่รู้จักที่กระจายเหล่านี้ปัญหาประเภทที่ชัดเจนอธิบาย และมีเพียงคำเดียวในความเป็นจริงปัญหาดังกล่าวออกจากกระจายปัญหาประจำชาติ จุดมุ่งหมายที่แท้จริงอาจแก้ปัญหาค่อนข้างแตกต่างกัน หนึ่ง

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

ที่ใหญ่ที่สุดและด้านที่โดดเด่นที่สุดของโครงสร้างข้อมูลแล้วหันไปมีความก้าวหน้าด้านที่มีขนาดเล็ก(หยุดหนึ่งความหวังก่อนที่กระบวนการจะเริ่มแบบเฉพาะตัวของกลุ่มตัวอย่างที่สังเกตของข้อมูลมากกว่าแง่มุมของการกระจายต้นแบบจริง). ในส่วนที่ 2 เรา แสดงให้เห็นว่านี้หมายความว่ากำไรที่มีขนาดใหญ่ในความถูกต้องคาดการณ์ในการจำแนกประเภทจะได้รับรางวัลโดยใช้แบบจำลองที่ค่อนข้างง่ายในช่วงเริ่มต้นของกระบวนการออกจากกำไรที่มีศักยภาพที่ลดลงในขนาดที่เป็นกระบวนการการสร้างแบบจำลองที่มีการดำเนินการต่อไป ทั้งหมดนี้หมายความว่าความถูกต้องเพิ่มมากขึ้นวิธีการที่มีความซับซ้อนเกินกว่าที่บรรลุโดยรูปแบบที่เรียบง่ายคือความสำเร็จจาก"มาตรฐาน" แง่มุมของการกระจายและปัญหาการจัดหมวดหมู่. ประการที่สองในส่วนที่ 3 ที่เรายืนยันว่าในหลาย ๆ อาจจะมากที่สุดจริงปัญหาการจำแนกจุดข้อมูลในชุดที่ออกแบบไม่ได้ในความเป็นจริงสุ่มจากการจำหน่ายเช่นเดียวกับจุดข้อมูลเพื่อที่ลักษณนามจะนำไปใช้ มีหลายเหตุผลที่แตกต่างนี้และบางส่วนจะแสดง. มันไปโดยไม่บอกว่างบเกี่ยวกับการจําแนกความถูกต้องอยู่บนพื้นฐานของสมมติฐานที่ผิดพลาดเกี่ยวกับตัวตนของการกระจายการออกแบบชุดและการกระจายของจุดในอนาคตอาจจะไม่ถูกต้อง. ประการที่สามเมื่อสร้าง กฎการจัดหมวดหมู่ต่างๆสมมติฐานอื่นๆ และทางเลือกที่มักจะทำซึ่งอาจจะไม่เหมาะสมและอาจทำให้การแสดงผลที่ทำให้เข้าใจผิดของประสิทธิภาพการทำงานลักษณนามในอนาคต. ยกตัวอย่างเช่นมันจะสันนิษฐานโดยทั่วไปว่าการเรียนจะมีการกำหนดวัตถุที่ไม่มีความเด็ดขาดหรือความไม่แน่นอนเกี่ยวกับฉลากชั้นเรียนแต่บางครั้งก็ไม่ได้กรณีที่ ในทำนองเดียวกันพารามิเตอร์มักจะประมาณโดยการเพิ่มประสิทธิภาพตามเกณฑ์ที่ไม่เกี่ยวข้องกับจุดมุ่งหมายที่แท้จริงของความถูกต้องของการจัดหมวดหมู่ เช่นปัญหาที่อธิบายไว้ในมาตรา 4 และอีกครั้งก็เป็นที่ชัดเจนว่าสิ่งเหล่านี้แนะนำข้อสงสัยเกี่ยวกับวิธีการปฏิบัติงานจําแนกอ้างว่าจะพูดคุยเพื่อปัญหาที่แท้จริง. ปรากฏการณ์ที่เรามีความกังวลในส่วนที่ 3 และ 4 ที่เกี่ยวข้องกับปรากฏการณ์ของอิง. รูปแบบรุ่น overfits เมื่อมันออกแบบตัวอย่างอย่างใกล้ชิดเกินไปมากกว่าการสร้างแบบจำลองการจัดจำหน่ายซึ่งตัวอย่างนี้จะถูกดึงมา ในส่วนที่ 3 และ 4 เรามีความกังวลกับสถานการณ์ที่จำลองได้อย่างถูกต้องอาจสะท้อนให้เห็นถึงการออกแบบการกระจาย(เพื่อให้พวกเขาไม่ underfit หรือ overfit) แต่ที่พวกเขาล้มเหลวที่จะยอมรับว่าการกระจายเหล่านี้และปัญหาการจัดหมวดหมู่ที่ชัดเจนอธิบายในความเป็นจริงเพียงคนเดียวปัญหาดังกล่าวมาจากการกระจายความคิดของปัญหา โดยมีจุดมุ่งหมายที่แท้จริงอาจจะมีการแก้ปัญหาที่แตกต่างกันค่อนข้าง หนึ่ง

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

ลักษณะที่ใหญ่ที่สุดและโดดเด่นที่สุดของข้อมูลโครงสร้าง
แล้วเปลี่ยนเป็นผู้ที่มีลักษณะ
( หยุดหนึ่งความหวัง ก่อนที่กระบวนการเริ่มต้น

นางแบบ idiosyncrasies ของสังเกตตัวอย่างของข้อมูล
มากกว่าด้านของความจริง ( กระจาย ) .
ส่วนที่ 2 เราแสดงให้เห็นว่านี้หมายความว่า
กำไรขนาดใหญ่ ในการพยากรณ์ความแม่นยำในการจำแนก
ก็จะใช้โมเดลค่อนข้างง่ายที่เริ่มต้นของ
กระบวนการออกที่มีศักยภาพกำไรที่ลดลง
ขนาดเป็นการสร้างแบบจำลองจะถ่ายเพิ่มเติม ทั้งหมดนี้หมายความว่าความถูกต้อง

เพิ่มมากขึ้นซับซ้อนวิธีนอกเหนือจากที่ได้รับจาก
รุ่นง่ายได้จาก " ด้านรอง " ของปัญหาการกระจาย
.
2ในส่วนที่ 3 ที่เรายืนยันว่าในมาก บางที
ที่สุดจริง การจำแนกปัญหาจุดข้อมูล
ในการออกแบบชุดไม่ได้ ในความเป็นจริง สุ่มจากการแจกแจงเหมือนกัน

จุดข้อมูลที่ตัวจะใช้ มีหลายเหตุผลสำหรับความแตกต่างนี้

และมีภาพประกอบ มันไปโดยไม่บอกว่า ข้อความเกี่ยวกับตัว
ความถูกต้องบนพื้นฐานของสมมติฐานที่เป็นเท็จเกี่ยวกับเอกลักษณ์ของการออกแบบชุด

จำหน่ายและการกระจายของจุดในอนาคตอาจไม่ถูกต้อง .
3 เมื่อสร้างกฎการจำแนก , สมมติฐานต่างๆอื่น ๆและตัวเลือกมักทำให้

ซึ่งอาจจะไม่เหมาะสม ซึ่งอาจจะให้แสดงผลของประสิทธิภาพการจำแนกเข้าใจผิดต่อไป
.
สำหรับ ตัวอย่างมันเป็นโดยทั่วไปถือว่าเรียน
เป็นวัตถุที่กำหนดไม่มีตามอำเภอใจ หรือความไม่แน่นอน
เกี่ยวกับคลาสป้ายชื่อ แต่นี้บางครั้ง
ไม่ได้กรณี อนึ่ง พารามิเตอร์มักจะ
ประมาณโดยการเพิ่มเกณฑ์ที่ไม่เกี่ยวข้อง
เพื่อจุดมุ่งหมายที่แท้จริงของการจัดหมวดหมู่ได้อย่างถูกต้อง ประเด็นดังกล่าวได้อธิบายไว้ในมาตรา 4

และ อีกครั้งเป็นที่ชัดเจนว่าเหล่านี้แนะนำข้อสงสัยเกี่ยวกับวิธี

ขนาดอ้างว่าการแสดงจะหาปัญหาที่แท้จริง ปรากฏการณ์ที่เรา

มีความกังวลในส่วนที่ 3 และ 4 ที่เกี่ยวข้องกับปรากฏการณ์ของ
overfitting . รูปแบบ overfits เมื่อนางแบบตัวอย่างการออกแบบด้วยอย่างใกล้ชิดมากกว่า

แบบกระจายซึ่งตัวอย่างนี้จะวาด
ในส่วน

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.