As discussed above, the overdispersion can be due to two facts: heterogeneity of data or excess of zero. The histogram of the number of claims (Fig. 2) is highly peaked at zero value because of the preponderance of zero in data. However, large numbers of claims are less frequently observed. This leads to right skewed distribution. An alternative way for modeling this type of data is the Zero-inflated Poisson regression which takes into account the excess of zeroes. Table 6 provides estimate parameters of Zero-inflated Poisson regression model. For nonzero outcomes, we can see that all factors are significant for k since their p values are less than 5 %. However, the factor Industrial_city does not impact the parameter h. The deviance test, measured as twice the difference between likelihood of the model without covariates and that of the full model (2 9 (-233600 - (-265300)) = 63 400 *v18), proves that the full model is statistically significant. The sign of the parameters in the positive part of the ZIP model is the same in the Poisson model. However the percentages changes in the factors are largely changed; and are more realistic than that of the Poisson model. The percentages changes of the factors status_married, status_single, Industry_activity and services_activity are 22, -30, 12 and 31 %, respectively. The parameters of zero outcomes model can be interpreted in odds ratio. The change in odds ratio for the factor Size_family is -17 %; this means that the probability of notification of a claim can be increased by 17 % according to an increase by a unit in the size of family. One of important change in odds ratio is that of the factor services_activity. It is around -61 %. The probability of notification of a claim by persons working in services activity is 61 % greater than that of people working in the other sectors. The histogram of the probability integral transform is flat (Fig. 3); this means that the zero inflated Poisson model gives a good prediction of the number of claims. This result can be shown also in the Fig. 2. In fact, the histogram (Fig. 2) shows that Zero-inflated Poisson distribution has the ability to reproduce the number of zeroes in the population better than standard Poisson distribution. A third measure used in this article is the vuong’s test (Table 7). The computed statistic of this test is V = 144.7145. Under the null hypothesis this statistic is asymptotically normally distributed. If we consider the significance level of 5 %, we conclude easily that Zero-inflated Poisson regression fits the number of claims better than the standard Poisson regression.
ตามที่กล่าวไว้ข้างต้น overdispersion ได้เนื่องจากข้อเท็จจริงสอง : ความหลากหลายของข้อมูลหรือส่วนของศูนย์ ฮิสโตแกรมของจํานวนของการเรียกร้อง ( รูปที่ 2 ) เป็นอย่างสูงที่แหลมที่ศูนย์ค่าเพราะความเหนือกว่าของศูนย์ข้อมูล อย่างไรก็ตาม ตัวเลขขนาดใหญ่ของการเรียกร้องจะน้อยกว่า ) ไปสู่การแจกแจงแบบเบ้ขวา . ทางเลือกสำหรับการสร้างแบบจำลองข้อมูลประเภทนี้เป็นศูนย์ในflจากการถดถอยปัวชงซึ่งใช้เวลาในบัญชีส่วนเกินของศูนย์ . ตารางที่ 6 แสดงประมาณการค่าพารามิเตอร์ของแบบจำลองการถดถอยปัวซอflจากศูนย์ใน . ร้อยละ 0 , เราสามารถดูว่าปัจจัยทั้งหมดเป็น signi จึงไม่สามารถให้ K ตั้งแต่ P ค่าของพวกเขาน้อยกว่า 5% อย่างไรก็ตาม ปัจจัย industrial_city ไม่ผลกระทบต่อพารามิเตอร์ชั่วโมงเบี่ยงเบนทดสอบวัดเป็นสองเท่า ความแตกต่างระหว่างความเป็นไปได้ของรูปแบบโดยไม่มีความรู้และของรุ่นเต็ม ( 2 9 - 233600 - ( - 265300 ) = 63 , 400 * v18 ) พิสูจน์ว่า แบบมีความ signi จึงไม่ได้ เครื่องหมายของพารามิเตอร์ในส่วนบวกของซิปเป็นแบบเดียวกันในพารามิเตอร์รูปแบบ แต่เปอร์เซ็นต์การเปลี่ยนแปลงในปัจจัยที่ส่วนใหญ่จะเปลี่ยนไป และมีเหตุผลมากกว่าที่ของพารามิเตอร์รูปแบบ เปอร์เซ็นต์การเปลี่ยนแปลงของปัจจัย status_married status_single industry_activity , และ , services_activity เป็น 22 - 30 , 12 และ 31 ตามลำดับ พารามิเตอร์ของแบบจำลองศูนย์ผลลัพธ์ที่สามารถตีความในอัตราส่วนราคา การเปลี่ยนแปลงในอัตราเดิมพันเพื่อปัจจัย size_family - 17% ; นี้หมายความ ว่า ความน่าจะเป็นของการเรียกร้องจึงเก็บไว้ตรงไหนก็ได้ของสามารถจะเพิ่มขึ้น 17% ตามการเพิ่มขึ้นของหน่วยในขนาดของครอบครัว หนึ่งของการเปลี่ยนแปลงที่สำคัญในอัตราเดิมพันที่ของปัจจัย services_activity . มันเป็นประมาณ 61 % ความน่าจะเป็นของการถ่ายทอดของเก็บไว้ตรงไหนก็ได้เรียกร้องโดยบุคคลที่ทำงานในกิจกรรมบริการ 61 % มากกว่าคนที่ทำงานในภาคอื่น ๆ กราฟแสดงความถี่ของความน่าจะเป็นหนึ่งเปลี่ยนเป็นflที่ ( รูปที่ 3 ) ; นี้หมายความว่าศูนย์ในflด้วยรูปแบบปัวซอให้ทำนายที่ดีของจำนวนของการเรียกร้อง ผลที่ได้นี้จะถูกแสดงในรูปที่ 2 ในความเป็นจริง , ฮิสโตแกรม ( รูปที่ 2 ) พบว่า ศูนย์ในflด้วยการแจกแจงปัวส์ซอง มีความสามารถในการสร้างจำนวนของศูนย์ ในประชากรกว่าการแจกแจงปัวส์ซองมาตรฐาน สามวัดที่ใช้ในบทความนี้คือการทดสอบของวุง ( ตารางที่ 7 ) คำนวณสถิติของการทดสอบนี้คือ v = 144.7145 . ภายใต้สมมติฐานโมฆะสถิตินี้เป็น asymptotically แบบปกติ ถ้าเราพิจารณา signi ถ่ายทอดโรคมะเร็งระดับ 5 % สรุปได้ง่ายๆ ว่า ศูนย์ในflจากการถดถอยปัวชงจึงใช้หมายเลขของการเรียกร้องที่ดีกว่าการถดถอยปัวซอมาตรฐาน
การแปล กรุณารอสักครู่..
