Fig. 1 shows a scatter-plot of these mock data, relating recovery to hours of treatment per week. Although not particularly
interesting in itself, this figure serves to highlight a number of important issues regarding why logistic regression is to be
preferred in these contexts over other regression procedures. There are a number of things to note immediately based on
an inspection of these data. The first is that the outcome chosen for analysis in this example can only take one of two values
(0 = not recovered and 1 = recovered), any regression technique that has the possibility of predicting any other value is clearly
inappropriate for such data (it should be noted that it is not always the case that the outcome has to be divided into two
categories, sometimes the outcome will be a continuous variable; whether to actually divide this into two will depend on
the design chosen) secondly, the relationship between the predictor (hours per week) and outcome (recovery) cannot be
termed linear, but are best described by an S-shaped (‘sigmoidal’) curve; and thirdly, the variance in the outcomes (recovery)
is much smaller at the extreme values of the predictor (intervention time per week) than it is at the central values. This
tendency can be seen more easily in the plot of these values displayed in Fig. 2. This figure represents the mean recovery rate
at each level of treatment intensity (not a particularly appropriate statistic), but more importantly, it shows the confidence
intervals around those means. Inspection of these confidence intervals reveals much larger intervals (variance) in the middle
values of intervention time per week than at the extreme values. These features, especially the latter concerning unequal
variance in the outcome variable across all values of the predictor variable, make such data typically unsuitable for simple
regression analyses (see Howell, 1997, and section on alternative techniques below).
Fig. 1 แสดงพล็อตกระจายข้อมูลเหล่านี้จำลอง กู้คืนชั่วโมงต่อสัปดาห์การรักษาที่เกี่ยวข้อง แม้ไม่ได้โดยเฉพาะที่น่าสนใจในตัวเอง ตัวเลขนี้ทำหน้าที่เพื่อเน้นจำนวนประเด็นสำคัญเกี่ยวกับเหตุจะมีการถดถอยโลจิสติกต้องในบริบทนี้ผ่านขั้นตอนอื่นถดถอย มีสิ่งที่ต้องทราบทันทีตามการตรวจสอบข้อมูลเหล่านี้ แรกคือ ว่า ผลที่ได้สำหรับวิเคราะห์ในตัวอย่างนี้สามารถรองรับค่าสองค่าอย่างใดอย่างหนึ่ง(0 =ไม่สามารถกู้คืน และ 1 =กู้), เทคนิคการถดถอยที่มีความเป็นไปได้ของการคาดการณ์ค่าอื่น ๆ อย่างชัดเจนไม่เหมาะสมสำหรับข้อมูลดังกล่าว (จึงควรจดบันทึกว่า ไม่เสมอกรณีที่ผลที่ได้มีการแบ่งออกเป็นสองประเภท บางครั้งผลที่ได้จะเป็นตัวแปรต่อเนื่อง ว่าจริง นี้แบ่งออกเป็นสองจะขึ้นอยู่กับออกแบบที่เลือก) ประการที่สอง ความสัมพันธ์ระหว่างผู้ที่ทายผล (ชั่วโมงต่อสัปดาห์) และผลลัพธ์ (กู้คืน) ไม่ได้เรียกว่าเส้นตรง แต่ส่วนอธิบาย โดยมีตัว S ('sigmoidal') โค้ง ประการ ผลต่างเป็นผล (กู้คืน) และมีขนาดเล็กที่ผู้ทายผล (แทรกแซงเวลาต่อสัปดาห์) ค่ามากมันอยู่ที่ค่ากลาง นี้สามารถมองเห็นแนวโน้มได้ง่ายขึ้นในการลงจุดของค่าเหล่านี้แสดงใน Fig. 2 รูปนี้แสดงถึงอัตราหมายถึงการกู้คืนในแต่ละระดับของความเข้มของการรักษา (ไม่มีสถิติที่เหมาะสมโดยเฉพาะอย่างยิ่ง), แต่เพิ่มเติม สำคัญ แสดงความเชื่อมั่นintervals around those means. Inspection of these confidence intervals reveals much larger intervals (variance) in the middlevalues of intervention time per week than at the extreme values. These features, especially the latter concerning unequalvariance in the outcome variable across all values of the predictor variable, make such data typically unsuitable for simpleregression analyses (see Howell, 1997, and section on alternative techniques below).
การแปล กรุณารอสักครู่..