The central problem investigated he

The central problem investigated here is the problem of minimizing the cost of classification
when the tests are expensive. We argued that this requires assigning a cost to classification
errors. We also argued that a decision tree is the natural form of knowledge representation
for this type of problem. We then presented a general method for calculating the average cost
of classification for a decision tree, given a decision tree, information on the calculation of
test costs, a classification cost matrix, and a set of testing data. This method is applicable to
standard classification decision trees, without regard to how the decision tree is generated.
The method is sensitive to test costs, sensitive to classification error costs, capable of handling
conditional test costs, and capable of handling delayed tests.
We introduced ICET, a hybrid genetic decision tree induction algorithm. ICET uses a
genetic algorithm to evolve a population of biases for a decision tree induction algorithm.
Each individual in the population represents one set of biases. The fitness of an individual is
determined by using it to generate a decision tree with a training dataset, then calculating the
average cost of classification for the decision tree with a testing dataset.
We analyzed the behavior of ICET in a series of experiments, using five real-world medical
datasets. Three groups of experiments were performed. The first group looked at the
baseline performance of the five algorithms on the five datasets. ICET was found to have sig-nificantly lower costs than the other algorithms. Although it executes more slowly, an average
time of 23 minutes (for a typical dataset) is acceptable for many applications, and there
is the possibility of much greater speed on a parallel machine. The second group of experiments
studied the robustness of ICET under a variety of modifications to its input. The
results show that ICET is robust. The third group of experiments examined ICET’s search in
bias space. We discovered that the search could be improved by seeding the initial population
of biases.
In general, our research is concerned with pragmatic constraints on classification problems
(Provost & Buchanan, in press). We believe that many real-world classification problems
involve more than merely maximizing accuracy (Turney, in press). The results
presented here indicate that, in certain applications, a decision tree that merely maximizes
accuracy (e.g., trees generated by C4.5) may be far from the performance that is possible
with an algorithm that considers such realistic constraints as test costs, classification error
costs, conditional test costs, and delayed test results. These are just a few of the pragmatic
constraints that are faced in real-world classification problems.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

ปัญหากลางสอบสวนนี่เป็นปัญหาของการลดต้นทุนของการจัดประเภทเมื่อทดสอบที่มีราคาแพง เราโต้เถียงว่า การกำหนดต้นทุนการจัดประเภทข้อผิดพลาด เรายังโต้เถียงว่า ต้นไม้การตัดสินใจแบบธรรมชาติของการแสดงความรู้สำหรับปัญหาชนิดนี้ เรานำเสนอวิธีการคำนวณต้นทุนเฉลี่ยทั่วไปแล้วจัดประเภทสำหรับต้นไม้การตัดสินใจ กำหนดต้นไม้ตัดสินใจ ข้อมูลเกี่ยวกับการคำนวณทดสอบต้นทุน การจัดประเภทต้นทุนเมตริกซ์ และชุดข้อมูลทดสอบ วิธีนี้เป็นการการจัดประเภทมาตรฐานตัดสินใจต้นไม้ โดยไม่คำนึงถึงวิธีสร้างต้นไม้ตัดสินใจวิธีการเป็นการทดสอบต้นทุน ความไวต่อการจัดประเภทข้อผิดพลาดค่าใช้จ่าย ความสามารถในการจัดการทดสอบเงื่อนไขต้นทุน และความสามารถในการจัดการทดสอบล่าช้าเราแนะนำ ICET การผสมพันธุกรรมตัดสินใจต้นไม้เหนี่ยวนำอัลกอริทึม ICET ใช้เป็นขั้นตอนวิธีพันธุกรรมเพื่อพัฒนาประชากรยอมสำหรับอัลกอริทึมการเหนี่ยวนำของต้นไม้ตัดสินใจแต่ละคนในประชากรแสดงชุดของยอม ออกกำลังกายของบุคคลเป็นกำหนด โดยใช้การสร้างต้นไม้ตัดสินใจ ด้วยการชุดข้อมูลฝึกอบรม แล้ว คำนวณการต้นทุนเฉลี่ยของการจัดประเภทสำหรับต้นไม้การตัดสินใจด้วยชุดข้อมูลทดสอบเราวิเคราะห์พฤติกรรม ICET ในชุดการทดลอง การใช้แพทย์จริงห้าdatasets กลุ่มทดลองที่ได้ทำ ดูกลุ่มแรกประสิทธิภาพหลักของอัลกอริทึมห้าบน datasets ห้า พบ ICET มี sig nificantly ต้นทุนต่ำกว่าอัลกอริทึมอื่น ๆ แม้ว่าจะดำเนินช้า เฉลี่ยเวลา 23 นาที (สำหรับการชุดข้อมูลทั่วไป) เป็นที่ยอมรับสำหรับการใช้งานมาก และมีเป็นไปได้ของความเร็วสูงมากในเครื่องจักรแบบขนาน กลุ่มที่สองของการทดลองศึกษาเสถียรภาพของ ICET ภายใต้ความหลากหลายของการป้อนข้อมูลการปรับเปลี่ยน ที่ผลลัพธ์แสดงว่า ICET แข็งแกร่ง กลุ่มที่สามการทดลองตรวจสอบค้นหาของ ICETพื้นที่ตั้ง เราพบว่า การค้นหาสามารถปรับปรุง โดยอัตราประชากรเริ่มต้นของยอมทั่วไป งานวิจัยของเราเกี่ยวข้องกับการปฏิบัติข้อจำกัดในการจัดประเภทปัญหา(Provost & buchanan ทำยอด ในข่าว) เราเชื่อว่าปัญหาจริงประเภทให้เกี่ยวข้องกับการเพิ่มความถูกต้อง (Turney ในข่าว) มากไปกว่า ผลลัพธ์นำเสนอที่นี่บ่งชี้ว่า ใน ต้นไม้การตัดสินใจที่เพียงวางความถูกต้อง (เช่น ต้นไม้สร้าง โดย C4.5) อาจจะจากประสิทธิภาพที่เป็นไปได้มีขั้นตอนวิธีการ ที่พิจารณาข้อจำกัดดังกล่าวเป็นจริงเป็นต้นทุนการทดสอบ การจัดประเภทข้อผิดพลาดต้นทุน ต้นทุนตามเงื่อนไขการทดสอบ และผลการทดสอบที่ล่าช้า เหล่านี้เป็นเพียงไม่กี่ pragmaticข้อจำกัดที่ต้องเผชิญกับปัญหาจริงประเภท

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

ปัญหาที่เกิดขึ้นกลางตรวจสอบที่นี่เป็นปัญหาของการลดค่าใช้จ่ายของการจัดหมวดหมู่ที่เมื่อการทดสอบที่มีราคาแพง
เราถกเถียงกันอยู่ว่านี้ต้องใช้การกำหนดค่าใช้จ่ายให้จำแนกข้อผิดพลาด
นอกจากนี้เรายังเป็นที่ถกเถียงกันว่าต้นไม้ตัดสินใจเป็นรูปแบบที่เป็นธรรมชาติของการเป็นตัวแทนความรู้สำหรับประเภทของปัญหานี้ จากนั้นเราจะนำเสนอวิธีการทั่วไปสำหรับการคำนวณค่าใช้จ่ายเฉลี่ยของการจำแนกต้นไม้ตัดสินใจรับต้นไม้ตัดสินใจข้อมูลเกี่ยวกับการคำนวณค่าใช้จ่ายในการทดสอบค่าใช้จ่ายในการจัดหมวดหมู่เมทริกซ์และชุดของข้อมูลการทดสอบ วิธีนี้เป็นวิธีที่ใช้บังคับกับต้นไม้ตัดสินใจจำแนกมาตรฐานโดยไม่คำนึงถึงวิธีการที่ต้นไม้การตัดสินใจที่ถูกสร้างขึ้น. วิธีการที่มีความไวต่อค่าใช้จ่ายในการทดสอบความไวต่อค่าใช้จ่ายข้อผิดพลาดการจัดหมวดหมู่ที่มีความสามารถในการจัดการค่าใช้จ่ายในการทดสอบเงื่อนไขและมีความสามารถในการจัดการทดสอบความล่าช้า. เราแนะนำ ICET การตัดสินใจทางพันธุกรรมไฮบริดขั้นตอนวิธีการเหนี่ยวนำต้นไม้ ICET ใช้ขั้นตอนวิธีพันธุกรรมที่จะพัฒนาประชากรอคติสำหรับขั้นตอนวิธีการเหนี่ยวนำการตัดสินใจต้นไม้. ในแต่ละประชากรแต่ละหนึ่งชุดของอคติ การออกกำลังกายของบุคคลที่ถูกกำหนดโดยใช้มันเพื่อสร้างต้นไม้ตัดสินใจกับชุดการฝึกอบรมแล้วคำนวณต้นทุนเฉลี่ยของการจัดหมวดหมู่สำหรับต้นไม้ตัดสินใจด้วยชุดทดสอบ. เราวิเคราะห์พฤติกรรมของ ICET ในชุดการทดลองโดยใช้ห้า ทางการแพทย์ที่แท้จริงของโลกชุดข้อมูล กลุ่มที่สามของการทดลองได้ดำเนินการ กลุ่มแรกมองไปที่ผลการดำเนินงานพื้นฐานของห้าขั้นตอนวิธีการในห้าชุดข้อมูล ICET ก็พบว่ามี sig-nificantly ค่าใช้จ่ายที่ต่ำกว่าขั้นตอนวิธีการอื่น ๆ แม้ว่ามันจะดำเนินการช้ากว่าค่าเฉลี่ยเวลา 23 นาที (สำหรับชุดปกติ) เป็นที่ยอมรับสำหรับการใช้งานมากและมีความเป็นไปได้ของความเร็วมากขึ้นบนเครื่องขนาน กลุ่มที่สองของการทดลองศึกษาความทนทานของ ICET ภายใต้ความหลากหลายของการปรับเปลี่ยนที่จะใส่มัน ผลปรากฏว่า ICET มีประสิทธิภาพ กลุ่มที่สามของการทดลองการตรวจสอบค้นหา ICET ในพื้นที่อคติ เราค้นพบว่าการค้นหาอาจจะดีขึ้นโดยการเพาะประชากรเริ่มต้นของอคติ. โดยทั่วไปการวิจัยของเราเป็นกังวลกับข้อ จำกัด ในทางปฏิบัติเกี่ยวกับปัญหาการจัดหมวดหมู่(พระครูและบูคานันในการกด) เราเชื่อว่าการจัดหมวดหมู่ปัญหาที่แท้จริงของโลกหลายคนที่เกี่ยวข้องกับการมากกว่าแค่การเพิ่มความถูกต้อง (Turney, ในการกด) ผลการนำเสนอที่นี่แสดงให้เห็นว่าในการใช้งานบางอย่างต้นไม้ตัดสินใจเพียงเพิ่มความถูกต้อง(เช่นต้นไม้ที่สร้างขึ้นโดย C4.5) อาจจะห่างไกลจากผลการดำเนินงานที่มีความเป็นไปได้ที่มีขั้นตอนวิธีการที่จะพิจารณาข้อจำกัด ที่เหมือนจริงเช่นค่าใช้จ่ายในการทดสอบการจำแนก ข้อผิดพลาดค่าใช้จ่ายค่าใช้จ่ายในการทดสอบเงื่อนไขและผลการทดสอบความล่าช้า เหล่านี้เป็นเพียงบางส่วนของการปฏิบัติข้อ จำกัด ที่ต้องเผชิญกับปัญหาในการจัดหมวดหมู่โลกแห่งความจริง

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

กลางปัญหางานวิจัยนี้เป็นปัญหาของการลดต้นทุนของการจัดหมวดหมู่
เมื่อการทดสอบจะแพง เราถกเถียงกันว่าต้องการให้ต้นทุนการจำแนกประเภท
ข้อผิดพลาด เรายังถกเถียงกันอยู่ว่า การตัดสินใจแบบต้นไม้ธรรมชาติ
การแทนความรู้สำหรับประเภทของปัญหานี้ เราจึงนำเสนอวิธีการทั่วไปสำหรับการคำนวณ
ต้นทุนเฉลี่ยของหมวดหมู่สำหรับโครงสร้างการตัดสินใจ กำหนดโครงสร้างการตัดสินใจ ข้อมูลในการคำนวณ
ต้นทุนทดสอบ การจำแนกประเภทต้นทุนเมทริกซ์ และชุดข้อมูลทดสอบ วิธีนี้ใช้ได้กับ
การจัดประเภทมาตรฐานการตัดสินใจต้นไม้ โดยไม่ว่าต้นไม้ การตัดสินใจจะถูกสร้างขึ้น วิธีการทดสอบ
ไวต่อค่าใช้จ่ายต้นทุนการไวต่อข้อผิดพลาดความสามารถในการจัดการ
ค่าใช้จ่ายในการทดสอบเงื่อนไขและความสามารถในการจัดการทดสอบล่าช้า .
แนะนำตัว icet ลูกผสมทางพันธุกรรม , โครงสร้างการตัดสินใจแบบอัลกอริทึม icet ใช้
ขั้นตอนวิธีทางพันธุกรรมวิวัฒนาการประชากรอคติสำหรับการตัดสินใจแบบต้นไม้อัลกอริทึม .
แต่ละคน ในประชากร หมายถึง ชุดของ biases ความเหมาะสมของบุคคล
กำหนดโดยการใช้มันเพื่อสร้างต้นไม้การตัดสินใจกับการฝึกชุดข้อมูลแล้วคำนวณ
ต้นทุนเฉลี่ยของหมวดหมู่สำหรับต้นไม้การตัดสินใจกับชุดข้อมูลทดสอบ .
เราวิเคราะห์พฤติกรรมของ icet ในชุดของการทดลองใช้จริงทางการแพทย์
5 ชุดข้อมูล กลุ่มทดลอง . กลุ่มแรกดู
พื้นฐานการทำงานของห้าในห้าของชุดข้อมูล icet พบ Sig ต้นทุน nificantly ต่ำกว่าวิธีการอื่น ๆ ถึงแม้ว่าจะรันช้า เวลาเฉลี่ย
23 นาที ( สำหรับชุดข้อมูลทั่วไป ) เป็นที่ยอมรับสำหรับการใช้งานมาก และไม่มี
คือความเป็นไปได้ของความเร็วที่มากขึ้นในเครื่องขนาน กลุ่มที่สองของการทดลอง
ศึกษาความทนทานของ icet ภายใต้ความหลากหลายของการป้อนข้อมูลของ
ผล icet เป็นที่แข็งแกร่ง กลุ่มที่สามของการค้นหาในการทดลอง icet
พื้นที่อคติ . เราพบว่า การค้นหาสามารถปรับปรุงได้ โดยการเริ่มต้นจากอคติของประชากร
.
ทั่วไป งานวิจัยของเราจะเกี่ยวข้องกับปัญหาในทางปฏิบัติปัญหาการจำแนก
( พระครู& บูแคแนนในข่าว ) เราเชื่อว่าหลายคนจริงการจำแนกปัญหา
เกี่ยวข้องกับมากกว่าเพียงแค่เพิ่มความแม่นยำ ( เทอร์นีย์ในกด ) ผลลัพธ์
แสดงที่นี่แสดงให้เห็นว่าในการใช้งานบางอย่าง การตัดสินใจ ต้นไม้ที่เพียงเพิ่ม
ความถูกต้อง ( เช่นต้นไม้ที่สร้างขึ้นโดยโปรแกรม C4.5 ) อาจจะไกลจากการปฏิบัติที่เป็นไปได้
กับขั้นตอนวิธีที่พิจารณาดังกล่าวเป็นจริงข้อจำกัดเป็นค่าใช้จ่ายการทดสอบการจำแนกต้นทุนความผิดพลาด
, ต้นทุนการทดสอบเงื่อนไข และล่าช้า ผลการทดสอบ เหล่านี้เป็นเพียงไม่กี่ของ pragmatic
ข้อจำกัดที่เผชิญปัญหาในการจำแนกประเภทที่เป็นจริง

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.