This study examines measures of predictive power for a generalized linear model (GLM). Although many measures of predictive power for GLMs have been proposed, most have limitations. Hence, we focus on the regression correlation coefficient (RCC) (Zheng and Agresti, 2000), which satisfies the four requirements of (i) interpretability, (ii) applicability, (iii) consistency, and (iv) affinity. The RCC is a population value that is defined by the correlation between a response variable and the conditional expectation of the response variable. Its sample value is defined by the sample correlation between the observed response values and estimated values of the response variable. For an arbitrary GLM, we do not always have an explicit form of the RCC. However, for a Poisson regression model, assuming that the predictor variables have a multivariate normal distribution, we can find the explicit form of the RCC (true value). Therefore, it is possible to compare the estimators (sample values) of the RCC in terms of bias and RMSE (root of the mean square error) by using the true value. Furthermore, by using the explicit form, we propose a new estimator of the RCC for the Poisson regression model. We then compare the new estimator with the sample correlation estimator, the jack-knife estimator, and the leave-one-out cross validation estimator in terms of bias and RMSE. The leave-one-out cross validation estimator has large negative bias and large RMSE. Although the remaining three estimators show similar behavior for a large sample size, for a small sample size the new estimator shows the best behavior in terms of bias and RMSE.
Keywords
Regression correlation coefficient; Measure of predictive power; Multiple correlation coefficient; Goodness of fit; Generalized linear model; Poisson regression model
Gadget timed out while loading
1. Introduction
Statistical models created from the given data must be evaluated by using a certain criterion in order to allow the best candidate model to be selected. In this study, we focus on measures of predictive power for a specific model, the generalized linear model (GLM) (Dobson and Barnett, 2008 and Nelder and Wedderburn, 1972). While many well-known measures of predictive power exist, such as the multiple correlation coefficient , coefficient of determination , and AIC, these have limitations in certain situations (we discuss the limitations of existing measures and requirements in detail later).
The measure of predictive power satisfying our requirements was proposed by Zheng and Agresti (2000), the so-called regression correlation coefficient (RCC). In addition, similar measures of predictive power, such as the entropy correlation coefficient (ECC) and entropy coefficient of determination (ECD), which rely on Kullback–Leibler information, were proposed by Eshima and Tabata (2007) and Eshima and Tabata (2010). The RCC is the most basic measure of predictive measure of the three since it was proposed initially, while the latter two measures of predictive power were based on the RCC. Hence, we focus on this basic measure of predictive power in this study. The RCC is a population value defined by the correlation between the response variable Y and conditional expectation . If the response variable Y has a strong correlation with the conditional expectation , then the RCC tends to 1 and we judge the model as good. On the contrary, if the RCC tends to 0, then we do not regard it as a good model. Indeed, the RCC lies between 0 and 1.
For an arbitrary GLM, the explicit form of the RCC is unknown. However, in the Poisson regression model, assuming that the predictor variables have a multivariate normal distribution, the explicit form of the RCC can be found. By using this explicit form, we propose a new estimator of the RCC and compare it with the sample correlation estimator, the jack-knife estimator, and the leave-one-out cross validation estimator in terms of bias and RMSE.
The remainder of the paper is organized as follows. In Section 2, we explain the Poisson regression model, while Section 3 introduces the existing measures of predictive power and their limitations. Then, we discuss the requirements in detail and confirm that the RCC satisfies them. Moreover, the explicit form of the RCC is shown. We conduct a simulation study to compare the estimators of the RCC in terms of bias and RMSE in Section 4. In Section 5, we apply the RCC to the Poisson regression model by using real data.
2. Poisson regression model
The GLM is written as
Turn MathJax on
where α is an intercept term, is a vector of coefficients, g(⋅) is a link function, and D(θ) is a distribution in the exponential family with a parameter θ. The Poisson regression model assumes a Poisson distribution P(θ) as the error structure and a logarithmic function as the link function. Then, the Poisson regression model is written as
equation(1)
Turn MathJax on
Since , then we have
equation(2)
Turn MathJax on
R
การวิจัยครั้งนี้มีวัตถุประสงค์เพื่อศึกษาถึงมาตรการของความสามารถสำหรับตัวแบบเชิงเส้น ( glm ) แม้ว่าหลายมาตรการของอำนาจพยากรณ์สำหรับ glms ได้รับการเสนอ ส่วนใหญ่มีข้อจำกัด ดังนั้น เรามุ่งเน้นวิเคราะห์สัมประสิทธิ์สหสัมพันธ์ ( RCC ) ( เจิ้ง และ agresti , 2000 ) ซึ่งตอบสนองความต้องการของ interpretability ( 4 ) , ( ii ) การใช้ ( 3 ) ความสอดคล้อง และ ( 4 ) ความสัมพันธ์กัน ที่เป็นประชากรและมูลค่าที่กำหนดโดยความสัมพันธ์ระหว่างตัวแปรและการตอบสนองต่อความคาดหวังของการตอบสนองที่มีเงื่อนไขตัวแปร ค่าของตัวอย่างที่ถูกกำหนดโดยตัวอย่างความสัมพันธ์ระหว่างค่าสังเกตการตอบสนองและการประมาณค่าของตัวแปร สำหรับ glm โดยพลการ เรา จะ ไม่ มักจะมีแบบฟอร์มที่ชัดเจนของ RCC . อย่างไรก็ตาม สำหรับการถดถอยปัวชงแบบ สมมติว่าตัวแปรหลายตัวแปรทำนายมีการแจกแจงแบบปกติ เราสามารถหารูปแบบที่ชัดเจนของเม็ดเลือดแดง ( คุณค่า ) ดังนั้นจึงเป็นไปได้ที่จะเปรียบเทียบตัวประมาณ ( ตัวอย่างค่าของเม็ดเลือดแดงในแง่อคติและ RMSE ( Root Mean Square Error ของ ) โดยใช้ค่าจริง นอกจากนี้ โดยการใช้แบบฟอร์มที่ชัดเจน เราเสนอประมาณการใหม่ของ RCC สำหรับพารามิเตอร์การถดถอยแบบ จากนั้นเราเปรียบเทียบประมาณการใหม่กับตัวอย่างความสัมพันธ์ประมาณการ , ประมาณการแจ็คมีด และปล่อยออกข้ามการตรวจสอบประมาณการในแง่อคติและ RMSE . ปล่อยออกมาตรวจสอบประมาณการข้ามมีขนาดใหญ่ลบอคติและวิธีการที่มีขนาดใหญ่ แม้ว่าจะเหลือสามตัวประมาณแสดงพฤติกรรมที่คล้ายกันสำหรับขนาดตัวอย่างใหญ่ สำหรับขนาดตัวอย่างเล็กประมาณการใหม่แสดงพฤติกรรมที่ดีที่สุดในแง่ของอคติและ RMSE .คำสำคัญสัมประสิทธิ์สหสัมพันธ์การถดถอย ; วัดความสามารถ ; สหสัมพันธ์พหุคูณ ; ความสอดคล้อง ; ตัวแบบเชิงเส้นทั่วไป รูปแบบถดถอยปัวซอแกดเจ็ตหมดเวลาในขณะที่โหลด1 . แนะนำแบบจำลองทางสถิติที่สร้างขึ้นจากข้อมูลที่ให้ต้องถูกประเมินโดยใช้เกณฑ์บางอย่างเพื่อให้ที่ดีที่สุดของผู้สมัครรุ่นที่ถูกเลือก ในการศึกษานี้จึงมุ่งวัดความสามารถสำหรับรุ่นที่เฉพาะเจาะจง , ตัวแบบเชิงเส้นทั่วไป ( glm ( ใหญ่ ) และ บาร์เน็ตต์ , 2008 และ nelder และ เวดเดอร์เบิร์น , 1972 ) ในขณะที่หลายรู้จักกันดีวัดความสามารถที่มีอยู่ เช่น สหสัมพันธ์พหุคูณ สัมประสิทธิ์การกำหนด และ ตาม เหล่านี้มีข้อจำกัดในบางสถานการณ์ ( ที่เรากล่าวถึงข้อจำกัดของมาตรการที่มีอยู่และความต้องการในรายละเอียดในภายหลัง )วัดอำนาจพยากรณ์ความพึงพอใจความต้องการของเราที่เสนอโดย เจิ้ง และ agresti ( 2000 ) , ที่เรียกว่าสัมประสิทธิ์สหสัมพันธ์ถดถอย ( RCC ) นอกจากนี้ มาตรการที่คล้ายคลึงกันของอำนาจในการทำนาย เช่น ค่าสัมประสิทธิ์สหสัมพันธ์ ( ECC ) และค่าเอนโทรปีของตัวกำหนด ( ECD ) ซึ่งอาศัยข้อมูลลี๊บเลอร์ - คัลแบ็ก ถูกเสนอโดยเอชิม่า และทาบาตะ ( 2007 ) และเอชิม่า และทาบาตะ ( 2010 ) ที่พอเหมาะคือพื้นฐานส่วนใหญ่วัดวัดทำนาย 3 ตั้งแต่มันถูกเสนอในตอนแรก ในขณะที่หลังสองวัดความสามารถตาม RCC . ดังนั้น เรามุ่งเน้นวัดนี้พื้นฐานของความสามารถในการ เป็นประชากรที่พอเหมาะ มูลค่าที่กำหนด โดยความสัมพันธ์ระหว่างการตอบสนองตัวแปร Y และความคาดหวังที่เป็นเงื่อนไข ถ้าการตอบสนองตัวแปร y มีความสัมพันธ์ที่แข็งแกร่งกับความคาดหมายตามเงื่อนไขแล้วและมีแนวโน้มที่ 1 และเราตัดสินแบบดี ในทางตรงกันข้ามหาก RCC มีแนวโน้มที่ 0 แล้วเราไม่ถือว่ามันเป็นรูปแบบที่ดี แท้จริงแล้ว และอยู่ระหว่าง 0 และ 1สำหรับ glm โดยพลการ รูปแบบ ที่ชัดเจนของ RCC จะไม่รู้จัก อย่างไรก็ตาม ในแบบจำลองการถดถอยปัวซง สมมติว่าตัวแปรทำนายมีการแจกแจงแบบปกติหลายตัวแปร , รูปแบบที่ชัดเจนของ RCC สามารถพบได้ โดยการใช้แบบฟอร์มที่ชัดเจนนี้ เราเสนอประมาณการใหม่ของ RCC และเปรียบเทียบกับตัวอย่างความสัมพันธ์ประมาณการ , ประมาณการแจ็คมีด และปล่อยออกข้ามการตรวจสอบประมาณการในแง่อคติและ RMSE .ส่วนที่เหลือของกระดาษจะจัดดังนี้ ในส่วนที่ 2 เราจะอธิบายแบบจำลองการถดถอยปัวซง ขณะที่ส่วนที่ 3 แนะนำมาตรการที่มีอยู่ของความสามารถและข้อจำกัดของตนเอง งั้น , เราจะหารือในรายละเอียด และยืนยันว่า ความต้องการและตอบสนองพวกเขา นอกจากนี้ ฟอร์มที่ชัดเจนของ RCC จะแสดง เราได้ทำการจำลองเปรียบเทียบตัวประมาณของ RCC ในแง่อคติและ RMSE ในมาตรา 4 ในส่วนที่ 5 เราใช้พอเหมาะกับการถดถอยปัวชงแบบจำลองโดยใช้ข้อมูลที่แท้จริง2 . รูปแบบถดถอยปัวซอการ glm เขียนเป็นเปิด mathjax บนที่αเป็นการสกัดกั้นในระยะเป็นเวกเตอร์ของสัมประสิทธิ์ , g ( ⋅ ) คือการเชื่อมโยงฟังก์ชัน , และ D ( θ ) คือการกระจายในครอบครัวชี้แจงกับพารามิเตอร์θ . และแบบจำลองการถดถอยปัวซอถือว่าการแจกแจงปัวซง P ( θ ) เป็นโครงสร้างข้อผิดพลาดและฟังก์ชันลอการิทึมเป็นฟังก์ชันเชื่อมโยง แล้ว จะเขียนเป็นแบบจำลองการถดถอยปัวซงสมการ ( 1 )เปิด mathjax บนเพราะ เราก็มีสมการ ( 2 )เปิด mathjax
การแปล กรุณารอสักครู่..