The most frequently used regression technique is linear regression. Given a
response variable y and predictor variables x1, x2,..., xn a linear model
yˆ =
f (x1, x2,... , xn) = a0 + J.n
ai xi is learned over the data set. For every instance
in the data set, there is an error |y − yˆ|. A popular approach is to minimize the sum
of squared errors, i.e., given m instances the goal is to find a function f such that
J.m 2
j =1(yj − yˆj )
is minimal. Other scoring functions are possible and more general
regression models or even neural networks can be used. However, these techniques
are out of the scope of this book and the interested reader is referred to [52].
Classification requires a categorical response variable. In some cases it makes sense to transform a numerical response variable into a categorical one. For example, for Table 3.1 one could decide to transform variable age into a categorical response variable by mapping values below 70 onto label “young” and values of 70 and above onto label “old”. Now a decision tree can be constructed to classify instances into people that die(d) “young” and people that die(d) “old”. Similarly, all values in Table 3.3 can be made categorical. For example, positive values are mapped onto “true” (the item was purchased) and value 0 is mapped onto “false” (the item was not purchased). After applying this mapping to Table 3.3, we can
เทคนิคการถดถอยที่ใช้บ่อยเป็นการถดถอยเชิงเส้น ได้รับการ ตอบตัวแปร y และผู้ทายผลตัวแปร x 1, x 2,..., xn แบบเชิงเส้น yˆ = f (x 1, x 2,..., xn) = a0 + J.n ไอซีได้เรียนรู้ผ่านชุดข้อมูล สำหรับทุก ๆ อินสแตนซ์ ในชุดข้อมูล ไม่มีข้อผิดพลาด |y − yˆ| วิธีที่นิยมคือการ ลดผลรวมข้อผิดพลาดกำลังสอง เช่น ให้อินสแตนซ์เมตรเป้าหมายคือหา f เป็นฟังก์ชันที่J.m 2 j = 1 (yj − yˆj) มีน้อยที่สุด ฟังก์ชั่นอื่น ๆ ให้คะแนนจะเป็นไปได้ และเพิ่มเติม สามารถใช้แบบจำลองถดถอยหรือเครือข่ายแม้ประสาท อย่างไรก็ตาม เทคนิคเหล่านี้อยู่นอกขอบเขตของหนังสือเล่มนี้และที่สนใจอ่านว่า [52]การจัดประเภทต้องใช้ตัวแปรคำตอบที่แน่ชัด ในบางกรณี มันทำให้รู้สึกการแปลงตัวแปรตอบสนองตัวเลขเป็นอันแน่ชัด ตัวอย่าง ตาราง 3.1 หนึ่งสามารถจะแปลงตัวแปรอายุเป็นตัวแปรคำตอบที่แน่ชัด โดยการแม็ปค่าต่ำกว่า 70 ลงป้ายชื่อ "หนุ่ม" และค่า 70 และข้างบนป้ายชื่อ "เก่า" ตอนนี้ สามารถสร้างต้นไม้การตัดสินใจ การจัดประเภทกรณีเป็นคนที่ die(d) "หนุ่ม" คน die(d) ว่า "เก่า" ในทำนองเดียวกัน ค่าทั้งหมดในตาราง 3.3 ได้แน่ชัด ตัวอย่าง บวกมีแม็ปค่า "จริง" (สินค้าสั่งซื้อ) และค่า 0 ถูกแมปไป "เท็จ" (สินค้าไม่ได้ซื้อ) หลังจากใช้การแมปนี้ตาราง 3.3 เราสามารถ
การแปล กรุณารอสักครู่..
เทคนิคการถดถอยที่ใช้บ่อยที่สุดคือการถดถอยเชิงเส้น ได้รับการตอบสนองตัวแปร Y และทำนายตัวแปร x1, x2, ... , xn โมเดลเชิงเส้นตรงY = f (x1, x2, ... , xn) = + a0 ยไอจินจะเรียนรู้มากกว่าข้อมูลชุด สำหรับทุกกรณีอยู่ในชุดข้อมูลที่มีข้อผิดพลาด | Y - Y | วิธีที่นิยมคือการลดผลรวมของความผิดพลาดสองคือกรณีที่ได้รับม. มีเป้าหมายที่จะหาฟังก์ชั่นดังกล่าวที่ฉJm 2 เจ = 1 (yj - yj) มีน้อย ฟังก์ชั่นอื่น ๆ ที่มีการให้คะแนนที่เป็นไปได้และอื่น ๆ ทั่วไปรูปแบบการถดถอยหรือแม้กระทั่งเครือข่ายประสาทสามารถนำมาใช้ แต่เทคนิคเหล่านี้จะออกจากขอบเขตของหนังสือเล่มนี้และผู้อ่านที่สนใจจะเรียกว่า [52]. การจำแนกประเภทต้องมีตัวแปรตอบสนองเด็ดขาด ในบางกรณีก็ทำให้ความรู้สึกที่จะเปลี่ยนตัวแปรตอบสนองตัวเลขเป็นเด็ดขาดหนึ่ง ตัวอย่างเช่นสำหรับตารางที่ 3.1 หนึ่งสามารถตัดสินใจที่จะเปลี่ยนอายุตัวแปรเป็นตัวแปรตอบสนองโดยเด็ดขาดค่าทำแผนที่ต่ำกว่า 70 ลงบนฉลาก "หนุ่ม" และค่านิยมของ 70 และเหนือบนฉลาก "เก่า" ตอนนี้ต้นไม้ตัดสินใจสามารถสร้างที่จะจัดลงในกรณีคนที่ตาย (ง) "หนุ่ม" และคนที่ตาย (ง) "เก่า" ในทำนองเดียวกันค่าทั้งหมดในตารางที่ 3.3 สามารถทำเด็ดขาด ยกตัวอย่างเช่นค่าบวกจะถูกแมปลง "ความจริง" (รายการที่ถูกซื้อ) และความคุ้มค่า 0 เป็นแมปไปยัง "เท็จ" (รายการที่ไม่ได้ซื้อ) หลังจากใช้การทำแผนที่นี้ตารางที่ 3.3 เราสามารถ
การแปล กรุณารอสักครู่..
เทคนิคที่ใช้บ่อยที่สุดคือการถดถอยเชิงเส้น ได้รับการตอบสนองตัวแปร
Y และทำนายตัวแปร x1 , x2 , . . . , คริสเตียนเชิงเส้น แบบจำลอง
Y ˆ =
f ( x1 , x2 , . . . คริสเตียน ) , = j.n A0
ไอซีจะเรียนรู้ผ่านชุดข้อมูล สำหรับทุก ๆอินสแตนซ์
ในชุดข้อมูลมีข้อผิดพลาด | y − Y ˆ | . วิธีที่นิยมคือการลดผลรวมของกำลังสอง
ข้อผิดพลาดคือให้ m กรณีเป้าหมายคือเพื่อหาฟังก์ชัน f ที่ j.m
J
2 = 1 ( เยจิน− Y ˆ J )
คือน้อยที่สุด เกณฑ์การให้คะแนนการทำงานอื่น ๆที่เป็นไปได้และเพิ่มเติมทั่วไป
ถดถอยแบบจำลองโครงข่ายประสาท หรือแม้แต่ สามารถใช้ อย่างไรก็ตามเทคนิคเหล่านี้
ออกจากขอบเขตของหนังสือเล่มนี้และผู้อ่านสนใจจะเรียกว่า [ 52 ] .
การจำแนกการใช้ตัวแปรเชิงคุณภาพในบางกรณี มันทำให้รู้สึกเพื่อแปลงตัวแปรตอบสนองเชิงเลขเป็นอย่างแท้จริงคนหนึ่ง ตัวอย่างเช่นตารางที่ 3.1 หนึ่งอาจตัดสินใจที่จะแปลงตัวแปรอายุลงในตัวแปรตอบสนองอย่างแท้จริงโดยการทำแผนที่ค่าด้านล่าง 70 บนฉลาก " หนุ่ม " และค่า 70 ขึ้นไปบนป้าย " เก่า "ตอนนี้การตัดสินใจจำแนกต้นไม้สามารถสร้างอินสแตนซ์เป็นคนที่ตาย ( D ) " หนุ่ม " และคนที่ตาย ( D ) " เก่า " โดยค่าทั้งหมดในตาราง 3.3 ได้เด็ดขาด ตัวอย่างเช่น ค่าเป็นบวกจะถูกแมปไปยัง " จริง " ( ซื้อสินค้า ) และค่า 0 เป็นแมปไปยัง " เท็จ " ( สินค้าไม่ซื้อ ) หลังจากใช้แผนที่นี้เพื่อตารางที่ 3.3 , เราสามารถ
การแปล กรุณารอสักครู่..