Thailand StatisticianJanuary 2008; 6(1) : 27-46http://statassoc.or.thC การแปล - Thailand StatisticianJanuary 2008; 6(1) : 27-46http://statassoc.or.thC ไทย วิธีการพูด

Thailand StatisticianJanuary 2008;


Thailand Statistician
January 2008; 6(1) : 27-46
http://statassoc.or.th
Contributed paper
Contingency-Table Sparseness under Cumulative Logit
Models for Ordinal Response Categories and Nominal
Explanatory Variables with Two-Factor Interaction
Sujin Sukgumphaphan and Veeranun Pongsapukdee*
Department of Statistics, Faculty of Science, Silpakorn University,
Nakhon Pathom 73000, Thailand.
*Author for correspondence; e-mail: veeranun@su.ac.th
Received: 10 July 2007
Accepted: 19 September 2007.
Abstract
In this article the sparseness and the assessing goodness of fit of cumulative
models for ordinal response categories and nominal explanatory variables with twofactor
interaction are investigated. The sparseness is computed from the number of
occurrence of at least one empty cell in each simulation in 1,000 simulations. The
magnitude of goodness-of-fit statistics, the coefficients of determination or 2 R analogs,
the likelihood ratio statistic, GM , AIC (Akaike Information Criterion, [2]),and BIC
(Bayesian Information Criterion, Schwarz, 1978) are calculated. The simulations have
been conducted for the multinomial logit models with K=3 response categories and two
random explanatory variables X1 and X 2 whose joint distribution of (X , 1 X 2 ) is assumed
to be multinomial with probabilities 123 πππ ,,, and π4 , corresponding to (X , 1 X 2 )
values of (0, 0), (0,1), (1, 0), (1, 1), respectively. Three sets of ( ) 1 2 3 4 π ,π ,π ,π are
studied to represent different distributional shapes, which were chosen to induce
possibly strong effects such that log2, β1 = log3, β2 = and β12 = 0.0 − 4.5 ,
namely (X , 1 X 2 )~multinomial(0.10,0.35,0.45,0.10), (X , 1 X 2 )~ multinomial
(0.50,0.30,0.10,0.10), and (X , 1 X 2 )~multinomial (0.25,0.25,0.25,0.25). Four sets of the 28 Thailand Statistician, 2008; 6(1):27-46
three ordered category distributing corresponding with the (X , 1 X 2 ) were again
generated through the models under the proportions of ( p1 , p2 , p3 ), namely
Y~multinomial( p1 , p2 , p3 ): (0.05,0.20,0.75), (0.25,0.50,0.25), (0.5,0.20,0.25), and
(0.33,0.33,0.33) from which it follows that the true model intercepts are
log ,
2 3
1
1 p p
p
+
α = log ,
3
1 2
2 p
p + p α = corresponding to the proportions of Y = 1, 2,
3 respectively. Four sample sizes of 600, 800, 1,000, and 1,500 units were performed.
Each condition was carried out for 1,000 repeated simulations using the developed
macro program run with the Minitab Release 11 [17].
The results indicate that the minimum sparseness of contingency tables and the
maximum of goodness-of-fit statistics, R 2
analogs and BIC, occur for the distribution of
Y~multinomial (0.05,0.20,0.75) with (X , 1 X 2 )~multinomial(0.25,0.25,0.25,0.25) as well
as when each distribution of Y and (X , 1 X 2 ) is equally symmetric proportions. In contrast,
the maximum sparse cells occur for the distributions of Y~ multinomial (0.25,0.50,0.25)
with (X , 1 X 2 )~multinomial (0.50,0.30,0.10,0.10). In addition, when (X , 1 X 2 ) is
(0.25,0.25,0.25,0.25), it always gives less tendency of sparseness than those when
(X , 1 X 2 ) are asymmetric, as the sample size become large. Moreover, the number of
sparseness tends to increase as the interaction parameter, β12 increases; however, it is
also relatively decreased when the sample sizes increase. Hence, for the true model with
correlated structures are presented, the sparseness of the contingency tables increases
as the interaction- parameter increases, and the rate of increasing will decrease as the
sample sizes increase. These results indicate and confirm some association patterns in
the models and the contingency tables. Therefore, when the distribution of Y is either
equally symmetry or that’s in increasing ordered proportions, corresponding with those of
( Χ1 Χ2 , ) are also symmetric, the moderate to small sample sizes are possible; however,
when most distributions are asymmetric we do recommend only the large sample sizes
for suitable analysis of the association and sparse contingency tables.
____________________________
Keyword: contingency table, goodness of fit, interaction effect, multinomial cumulative
logit models, sparseness.Sujin Sukgumphaphan 29
1. Introduction
Traditionally, goodness of fit in contingency tables is tested by using either the
Pearson 2 χ -statistic or the likelihood ratio 2 χ -statistic. The asymptotic properties of
these statistics are studied on the assumption that the expected cell frequencies become
large. Contingency tables with relatively few observations or having small or empty cell
counts are referred to as sparse [19]. Sparse tables occur when the sample size n is
small. They also occur when n is large but so is the number of cells. These empty cells
are of two types: sampling zeros and structural zeros. For sampling zeros, cell counts ni
will be greater than zero with sufficient large n but for structural zeros, observations are
impossible. A count of zero value is permissible outcome for a Poisson or multinomial
variable [1]. For (I × J × K) contingency tables, the nonstandard setting in which
K →∞ as, the sample size, n →∞ is called sparse-data asymptotic. The
asymptotic theory for likelihood-ratio and Wald tests require the number of parameters
(and hence K) to be fixed. Ordinary ML estimation then breaks down because the
number of parameters is not fixed, instead having the same order as the sample size. In
particular, an approximate chi-squared distribution holds for the likelihood-ratio and Wald
statistics for testing conditional independence only when the strata or grouped marginal
totals generally exceed about 5 to 10 and K is fixed and small relative to n. An alternative
approach uses sparse asymptotic approximation that applies when the number of cells,
N increases as n increases. For this approach,{µi
} need not increase, as they must do
in the usual (fixed N, n →∞ ) large-sample theory. Nonetheless, often some
associations are not affected by empty cells and give stable results for the various
analyses, whereas some others that are affected are unstable. Although empty cells and
sparse tables need not affect parameter estimates of interest, they can cause sampling
distribution goodness-of-fit statistics to be far from chi-squared [1]. Thus, to handle this
problem in this paper we choose the most versatile G 2
(M 0 M1 | ) statistic for testing the
goodness-of-fit of models.
The model comparison statistic G 2
(M 0 M1 | ) often has an approximate chisquared
null distribution even when separate G 2
(M i ) do not. For instance, when a
predictor is continuous or a contingency table has very small fitted values, the sampling 30 Thailand Statistician, 2008; 6(1):27-46
distribution of G 2
(M i
) may be far from chi-squared. However, if the degrees of freedom
for the comparison statistic is modest (as in comparing two models that differ by a few
parameter), the null distribution of G 2
(M 0 M1 | ) is approximately chi-squared [4]. The
test statistic comparing two models is identical to the difference between G 2
(M 0
) -
G 2
(M 1
), goodness-of-fit statistics (deviances) for the two models. Then,
G 2
(M 0 M1 | ) = -2 ( ) L0 − L1
= ( ) [ ( )] − 2 L0 − Ls − − 2 L1 − Ls
= G 2
(M 0
) - G 2
(M 1
)
has the form of –2 (log likelihood ratio) for testing that M 0
holds against the alternative
that M 1 holds. In addition, theory for likelihood–ratio tests suggests that when the
simpler model holds, the asymptotic distribution of G 2
(M 0
) - G 2
(M 1 ) is chi-squared
with the difference of degrees of freedom of the two models.
Moreover, these tests can perform well even for the large sparse tables, as long
as the difference of degrees of freedom is small compared to the sample size [7]. The
G 2
(M 0
) - G 2
(M 1
) converges to its limiting chi-squared distribution more quickly than
does G 2
(M 0
), which depends also on individual cell counts.
In this research we present the analysis of data using the G 2
(M 0 M1 | ) statistic
to study the sparseness obtained from the number of occurrence of at least one empty
cell in each simulation in 1,000 simulations and also to investigate the goodness-of-fit
statistics for the contingency tables having some sparse cells under situation where
sampling zeros are as a part of data set. The primary emphasis is on the statistical
models of the multinomial cumulative logit models for the ordinal response categories
and nominal explanatory variables including two–factor interaction term. As the
associations between the variables in contingency table occur, some patterns of the cell
counts are usually presented and are also probably leading to some sparseness of data,
especially when the effect of X’s tend to be strong. The purpose is then to analyze the Sujin Sukgumphaphan 31
performance of the above models for fixed N, n→∞, and varied interaction parameter,
from 0-4.5, increment 0.3 in terms of goodness-of-fit statistics and the occurrence of
sparseness in 1,000 simulations. We aim to study how and when the sparseness occur;
meanwhile, the parameter estimation and the goodness-of-fit of the considered models
are expected to be working well under the chosen appropriately statistics.
2. The Cumulative Logit Models
The cumulative logit model was originally proposed by Walker and Duncan [22]
and later called the proportional odds model by McCullagh [11]. The cumulative logits
are defined [1] as
P(Y ≤ j | x ) = 1 p + 2 p +……+ j p , j = 1,…., K. Then,
logit [P(Y ≤ j | x )] = log [
1- P( | x )
P( | x )
Y j
Y j


]
= log [
P( | x )
P( | x )
Y j
Y j
>

]
= log [ 1 2 j
j1 2 K
p + p +……+ p
p + p +……+ p +
], j = 1, 2, ……, K-1.
A model that simultaneously uses all cumulative logit is
logit P(Y ≤ j | x ) = αj + x'β , j = 1,…., K-1.
This model, which extends the logistic model for binary responses to allow for
several ordinal responses, has often involved modeling cumulative logits, generalized
cumulative logit models [5] and also those
0/5000
จาก: -
เป็น: -
ผลลัพธ์ (ไทย) 1: [สำเนา]
คัดลอก!
Statistician ไทย2551 มกราคม 6(1): 27-46http://statassoc.or.thกระดาษหรอกSparseness ฉุกเฉินตารางภายใต้สะสม Logitแบบจำลองการตอบสนองเครื่องหมายสัญลักษณ์ประเภท Nominalตัวแปรอธิบายกับโต้ตอบสองปัจจัยสุจินต์ Sukgumphaphan และ Veeranun Pongsapukdee *วิชาสถิติ คณะวิทยาศาสตร์ มหาวิทยาลัยศิลปากรนครปฐม 73000 ไทย* ผู้เขียนสำหรับการโต้ตอบ อีเมล์: veeranun@su.ac.thรับ: 10 2007 กรกฎาคมยอมรับ: 19 2007 กันยายนบทคัดย่อในบทความที่ sparseness และประเมินความกตัญญูพอดีของสะสมรูปแบบประเภทตอบเครื่องหมายสัญลักษณ์และตัวแปรอธิบายระบุ ด้วย twofactorตรวจสอบโต้ตอบได้ Sparseness จะคำนวณจากจำนวนเกิดเซลล์ว่างน้อยในแต่ละอัตรา 1000 จำลอง ที่ขนาดของสัมประสิทธิ์ของความมุ่งมั่นหรือ 2 R analogs สถิติความดีพอสถิติอัตราความเป็นไปได้ GM, AIC (Akaike ข้อมูลเกณฑ์, [2]), และ BIC(ทฤษฎีข้อมูลเงื่อนไข โรลด์ 1978) ที่คำนวณ แบบจำลองได้การดำเนินการสำหรับแบบจำลอง logit ก็ตามด้วยประเภทตอบ K = 3 และ 2ตัวแปรอธิบายสุ่ม X 1 และ X 2 สันนิษฐานที่การแจกแจงร่วมของ (X, 1 X 2)ให้ ก็ตาม ด้วยกิจกรรม 123 πππและ π4 ที่สอดคล้องกับ (X, 1 X 2)ค่าของ (0, 0), (0,1), (1, 0), (1, 1), ตามลำดับ มีสามชุด() 1 2 3 4 π π π πศึกษาถึงรูปร่างขึ้นต่าง ๆ ซึ่งถูกเลือกเพื่อก่อให้เกิดอาจจะแข็งแกร่งลักษณะเช่นนั้น log2, β1 = log3, β2 = และ β12 =− 0.0 4.5คือ (X, 1 X 2) ~ multinomial(0.10,0.35,0.45,0.10), (X, 1 X 2) ~ ก็ตาม(0.50,0.30,0.10,0.10), และ (X, 1 X 2) ~ (0.25,0.25,0.25,0.25) ก็ตาม ชุด 4 ของ Statistician ไทย 28, 2008 6 (1): 27-46สามประเภทสั่งกระจายกับ (X, 1 X 2) ได้อีกสร้างขึ้นโดยใช้รูปแบบภายใต้สัดส่วน (p1, p 2, p3), ได้แก่Y ~ ก็ตาม (p1, p 2, p3): (0.05,0.20,0.75), (0.25,0.50,0.25), (0.5,0.20,0.25), และ(0.33,0.33,0.33) จากการที่ได้เป็นไปตามที่แบบจริงคเกอร์ดักล็อก2 311 p pp+Α =ล็อก31 2p 2p + p α =ที่สอดคล้องกับสัดส่วนของ Y = 1, 23 ตามลำดับ 4 กลุ่มตัวอย่างขนาด 600, 800, 1000 และ 1500 หน่วยดำเนินการเงื่อนไขแต่ละเงื่อนไขถูกดำเนินการสำหรับจำลองซ้ำ 1000 ที่ใช้การพัฒนาโปรแกรมแมโครที่ทำงานกับการปัจจัยรุ่น 11 [17]ผลลัพธ์บ่งชี้ว่า sparseness ต่ำสุดตารางฉุกเฉินและสูงสุดของความดีของพอดีสถิติ R 2analogs และ BIC เกิดการกระจายของY ~ ก็ตาม (0.05,0.20,0.75) กับ (X, 1 X 2) เช่น ~multinomial(0.25,0.25,0.25,0.25)เป็นเมื่อแต่ละการกระจายของ Y (X, 1 X 2) เท่า ๆ กัน สัดส่วนสมมาตร ในทางตรงกันข้ามเซลล์ห่างสูงสุดที่เกิดขึ้นในการกระจายของ Y ~ (0.25,0.50,0.25) ก็ตามมี (X, 1 X 2) ~ (0.50,0.30,0.10,0.10) ก็ตาม นอกจากนี้ เมื่อ (X, 1 X 2)(0.25,0.25,0.25,0.25), เสมอให้โน้ม sparseness น้อยกว่าเมื่อนั้น(X, 1 X 2) มี asymmetric เป็นขนาดตัวอย่างที่เป็นขนาดใหญ่ นอกจากนี้ จำนวนsparseness มีแนวโน้มเพิ่มขึ้นเป็นพารามิเตอร์การโต้ตอบ เพิ่ม β12 อย่างไรก็ตาม เป็นนอกจากนี้ยัง ค่อนข้างลดลงเมื่อขนาดตัวอย่างเพิ่ม ดังนั้น สำหรับรูปแบบจริงด้วยโครงสร้าง correlated แสดง sparseness เพิ่มตารางฉุกเฉินเป็นการโต้ตอบพารามิเตอร์ เพิ่ม และอัตราเพิ่มจะลดลงเป็นการขนาดตัวอย่างเพิ่มขึ้น ผลลัพธ์เหล่านี้บ่งชี้ และยืนยันรูปแบบความสัมพันธ์บางอย่างในรูปแบบและตารางฉุกเฉิน ดังนั้น เมื่อการกระจายของ Y จะสมมาตรกัน หรือที่มีเพิ่มขึ้นในสัดส่วนสั่ง ที่สอดคล้องกับ(Χ1 Χ2,) มีสมมาตรยัง ขนาดปานกลางถึงเล็กอย่างใจได้ อย่างไรก็ตามเมื่อการกระจายส่วนใหญ่ asymmetric เราแนะนำเท่านั้นขนาดตัวอย่างขนาดใหญ่สำหรับการวิเคราะห์ที่เหมาะสมเชื่อมโยงและตารางฉุกเฉินห่าง____________________________คำสำคัญ: ฉุกเฉินตาราง ความกตัญญูพอดี ผลโต้ตอบ สะสมก็ตามแบบจำลอง logit, sparsenessสุจินต์ Sukgumphaphan 291. บทนำประเพณี ทดสอบความกตัญญูพอดีฉุกเฉินตาราง โดยใช้การเพียร์สัน 2 χ-สถิติหรือχ 2 อัตราส่วนความน่าเป็น-สถิติ คุณสมบัติของ asymptoticสถิติเหล่านี้ได้ศึกษาบนสมมุติฐานที่ว่าความถี่ที่คาดไว้เซลล์กลายเป็นขนาดใหญ่ ฉุกเฉินตารางสังเกตค่อนข้างน้อยหรือมีเซลล์ขนาดเล็ก หรือเปล่านับเป็นอ้างถึงห่าง [19] ตารางห่างเกิดขึ้นเมื่อตัวอย่างขนาด nขนาดเล็ก นอกจากนี้ยังเกิดขึ้นเมื่อ n มีขนาดใหญ่ แต่เพื่อให้ มีจำนวนเซลล์ เซลล์เหล่านี้มีสองชนิด: ศูนย์และศูนย์โครงสร้างของการสุ่มตัวอย่าง การสุ่มตัวอย่างศูนย์ เซลล์นับ niจะมีค่ามากกว่าศูนย์กับ n ขนาดใหญ่เพียงพอ แต่สำหรับศูนย์โครงสร้าง ข้อสังเกตุอยู่เป็นไปไม่ จำนวนค่าศูนย์เป็นผลอนุญาตปัวหรือก็ตามตัวแปร [1] สำหรับ (ฉัน×× J K) ฉุกเฉินตาราง การตั้งค่าที่ไม่เป็นมาตรฐานที่K →∞เป็น ขนาดตัวอย่าง n →∞เรียกว่าบ่อข้อมูล asymptotic ที่หมายเลขของพารามิเตอร์ต้องใช้ทฤษฎี asymptotic อัตราความเป็นไปได้และทดสอบ Wald(และดังนั้น K) จะ ประมาณ ML ปกติแล้วแบ่งลงเนื่องจากการจำนวนพารามิเตอร์จะไม่ถาวร แต่ มีใบสั่งเดียวกันเป็นขนาดตัวอย่าง ในเฉพาะ การแจกแจงประมาณมีอัตราส่วนความเป็นไปได้และ Waldสถิติสำหรับการทดสอบความเป็นอิสระแบบมีเงื่อนไขเฉพาะเมื่อชั้นหรือกำไรจัดยอดรวมเกินโดยทั่วไปประมาณ 5 ถึง 10 และ K จะคงที่ และขนาดเล็กเมื่อเทียบกับ n ทางเลือกหนึ่งวิธีใช้ประมาณ asymptotic บ่อที่ใช้เมื่อหมายเลขของเซลล์N เพิ่มขึ้นเป็น n สำหรับวิธีการนี้, {µi} ต้องไม่เพิ่มขึ้น พวกเขาต้องทำในปกติ (ถาวร N, n →∞) ขนาดใหญ่ตัวอย่างทฤษฎีการ กระนั้น มักจะบางสมาคมไม่ได้รับผลกระทบจากเซลล์ว่าง และให้ผลลัพธ์ที่มั่นคงสำหรับการวิเคราะห์ ในขณะที่บางคนอื่น ๆ ที่ได้รับผลกระทบจะไม่เสถียร แม้ว่าเซลล์ และตารางบ่อต้องมีผลประเมินพารามิเตอร์ที่น่าสนใจ พวกเขาจะทำการสุ่มตัวอย่างสถิติความดีพอแจกจ่ายให้จากไคสแควร์ [1] ดังนั้น การจัดการนี้ปัญหาในเอกสารนี้เราเลือก 2 G หลากหลายมากที่สุด(M 0 M1 |) สถิติสำหรับการทดสอบความดีของพอดีของโมเดลสถิติเปรียบเทียบรุ่น G 2(M 0 M1 |) มีการ chisquared โดยประมาณกระจายเป็น null แม้เมื่อแยก G 2(M ผม) ไม่ ตัวอย่าง เมื่อเป็นจำนวนประตูได้อย่างต่อเนื่อง หรือตารางฉุกเฉินมีค่าผ่อนเล็ก ๆ การสุ่มตัวอย่าง 30 ไทย Statistician, 2008 6 (1): 27-46กระจายของ G 2(M ผม) อาจจะห่างจากไคสแควร์ อย่างไรก็ตาม ถ้าองศาความเป็นอิสระสำหรับการเปรียบเทียบ สถิติจะเจียมเนื้อเจียมตัว (ในการเปรียบเทียบ 2 รุ่นที่แตกต่างกัน โดยบางพารามิเตอร์), การกระจายเป็น null 2 G(M 0 M1 |) คือประมาณไคสแควร์ [4] ที่สถิติทดสอบเปรียบเทียบสองรุ่นเป็นเหมือนกับความแตกต่างระหว่าง G 2(M 0) -G 2(M 1), สถิติความดีพอ (deviances) สำหรับรุ่นสอง แล้วG 2(M 0 M1 |) = -2 L1 − L0 ()= [()] ()− 2 L0 − Ls −− 2 L1 − Ls= G 2(M 0) -G 2(M 1)มีรูปแบบของ –2 (อัตราส่วนโอกาสล็อก) สำหรับการทดสอบที่ M 0มีต่อทางเลือก1 M ที่มี นอกจากนี้ ทฤษฎีทดสอบโอกาส – อัตราส่วนที่แนะนำว่า เมื่อการรูปแบบเรียบง่ายถือ กระจาย asymptotic 2 G(M 0) -G 2(M 1) คือไคสแควร์มีความแตกต่างขององศาความเป็นอิสระของนอกจากนี้ ทดสอบเหล่านี้สามารถทำดีแม้ห่างโต๊ะขนาดใหญ่ เป็นเวลานานความแตกต่างขององศาความเป็นอิสระมีขนาดเล็ก เมื่อเทียบกับขนาดตัวอย่าง [7] ที่G 2(M 0) -G 2(M 1) การแจกแจงแบบไคสแควร์จำกัด converges รวดเร็วขึ้นกว่าไม่ G 2(M 0), ซึ่งยังขึ้นอยู่กับจำนวนแต่ละเซลล์ในงานวิจัยนี้ เสนอการวิเคราะห์ข้อมูลโดยใช้ G 2(M 0 M1 |) สถิติเรียน sparseness ที่ได้รับจากหมายเลขของเหตุการณ์ของว่างน้อยเซลล์ในการจำลองแต่ละ ใน 1000 จำลอง และ การตรวจสอบความดีพอสถิติตารางฉุกเฉินมีเซลล์บางเบาภายใต้สถานการณ์ที่การสุ่มตัวอย่างศูนย์เป็นส่วนหนึ่งของชุดข้อมูล เน้นหลักอยู่ในสถิติที่แบบจำลอง logit สะสมก็ตามสำหรับประเภทตอบเลขลำดับและระบุตัวแปรอธิบายรวมทั้งคำโต้ตอบสอง – ปัจจัย เป็นความสัมพันธ์ระหว่างตัวแปรในตารางฉุกเฉินเกิดขึ้น บางรูปแบบของเซลล์นับจะแสดงปกติ และยังอาจจะนำไปบาง sparseness ของข้อมูลโดยเฉพาะอย่างยิ่งเมื่อผลของรายมีแนวโน้มที่จะแข็งแรง วัตถุประสงค์คือเพื่อ วิเคราะห์ 31 Sukgumphaphan สุจินต์แล้วประสิทธิภาพของแบบจำลองข้างต้นสำหรับ N ถาวร n→∞ และการโต้ตอบที่แตกต่างกัน พารามิเตอร์จาก 0-4.5 เพิ่ม 0.3 สถิติความดีพอและเกิดsparseness ในจำลอง 1000 เรามุ่งมั่นที่จะศึกษาอย่างไร และเมื่อ sparseness ที่เกิดขึ้นในขณะเดียวกัน การประเมินพารามิเตอร์ และในความดีของพอดีรุ่นที่พิจารณาคาดว่าจะทำงานระหว่างเลือกอย่างเหมาะสมสถิติ2. แบบจำลอง Logit สะสมแบบจำลอง logit สะสมเดิมถูกเสนอ โดย Walker และดันแคน [22]และเรียกว่ารุ่นราคาเป็นสัดส่วน โดยแสดง [11] ในภายหลัง Logits สะสมเป็นการกำหนด [1]P (Y ≤ j | x) = p + p 2 1 +... + j p, j = 1,..., คุณ แล้วlogit [P (Y ≤ j | x)] =[บันทึก1-P (| x)P (| x)Y jY j≤≤]=[บันทึกP (| x)P (| x)Y jY j>≤] ล็อก = [1 2 เจj1 2 Kp + p +... + p p + p +... + p +], j = 1, 2,..., K-1เป็นรูปแบบที่พร้อมใช้ logit สะสมทั้งหมดlogit P (Y ≤ j | x) = αj + x'β, j = 1,..., K-1รุ่นนี้ ซึ่งขยายแบบโลจิสติกสำหรับการตอบสนองแบบไบนารีเพื่อให้ตอบเครื่องหมายสัญลักษณ์ต่าง ๆ ได้มักจะเกี่ยวข้องกับโมเดล logits สะสม การตั้งค่าทั่วไปแบบจำลอง logit สะสม [5] และผู้
การแปล กรุณารอสักครู่..
ผลลัพธ์ (ไทย) 2:[สำเนา]
คัดลอก!

ประเทศไทยสถิติ
มกราคม 2008; 6 (1): 27-46
http://statassoc.or.th
กระดาษ Contributed
ฉุกเฉินตารางเบาบางภายใต้ Logit สะสม
รุ่นสำหรับหมวดหมู่การตอบสนองลำดับและกำหนด
ตัวแปรอธิบายปฏิสัมพันธ์กับสองปัจจัย
สุจินต์ Sukgumphaphan และ Veeranun Pongsapukdee *
ภาควิชาสถิติ คณะวิทยาศาสตร์มหาวิทยาลัยศิลปากร
นครปฐม 73000, ประเทศไทย.
ผู้เขียน * สำหรับการติดต่อ; E-mail: veeranun@su.ac.th
ที่ได้รับ: 10 กรกฎาคม 2007
ได้รับการยอมรับ. 19 กันยายน 2007
บทคัดย่อ
ในบทความนี้เบาบางและคุณงามความดีของการประเมินความพอดีของสะสม
แบบจำลองสำหรับการตอบสนองลำดับหมวดหมู่และตัวแปรอธิบายเล็กน้อยกับ twofactor
ปฏิสัมพันธ์จะถูกตรวจสอบ . เบาบางคือการคำนวณจากจำนวนของ
การเกิดขึ้นของอย่างน้อยหนึ่งเซลล์ว่างในแต่ละจำลองใน 1,000 จำลอง
ขนาดของสถิติความดีของพอดีค่าสัมประสิทธิ์ของความมุ่งมั่นหรือ 2 analogs R,
สถิติความน่าจะเป็นสัดส่วน, GM, AIC (Akaike ข้อมูลเกณฑ์ [2]) และ BIC
(คชกรรมข้อมูลเกณฑ์, ชวา, 1978) ที่มีการคำนวณ . จำลองได้
รับการดำเนินการสำหรับแบบจำลองโลจิตพหุนามกับ K = 3 ประเภทการตอบสนองและสอง
ตัวแปรสุ่ม X1 และ X 2 ที่มีการจัดจำหน่ายร่วมกันของ (X 1 X 2) สันนิษฐาน
ว่าจะเป็นพหุนามที่มีความน่าจะเป็น 123 πππ ,,, และπ4 สอดคล้องกับ (X 1 X 2)
ค่านิยมของ (0, 0), (0,1), (1, 0), (1, 1) ตามลำดับ สามชุด () 1 2 3 4 π, π, π, πมีการ
ศึกษาที่จะเป็นตัวแทนกระจายรูปทรงที่แตกต่างกันซึ่งได้รับการแต่งตั้งเพื่อก่อให้เกิด
ผลกระทบที่แข็งแกร่งอาจจะเป็นเช่นนั้น log2, β1 = log3, β2 = และβ12 = 0.0-4.5,
คือ (X 1 X 2) ~ พหุนาม (0.10,0.35,0.45,0.10), (x, 1 X 2) ~ พหุนาม
(0.50,0.30,0.10,0.10) และ (x, 1 X 2) ~ พหุนาม (0.25 , 0.25,0.25,0.25) สี่ชุดของประเทศไทย 28 สถิติ, 2008; 6 (1): 27-46
สามประเภทมีคำสั่งให้จำหน่ายที่สอดคล้องกับ (X 1 X 2) เป็นอีกครั้ง
ที่สร้างขึ้นผ่านรูปแบบภายใต้สัดส่วนของ (p1, p2, p3) คือ
Y ~ พหุนาม (p1, p2, p3 ): (0.05,0.20,0.75) (0.25,0.50,0.25) (0.5,0.20,0.25) และ
(0.33,0.33,0.33) จากการที่มันตามที่ดักรูปแบบที่แท้จริง
เข้าสู่ระบบ
2 3
1
1 PP
P
+
α = บันทึก
3
1 2
2 P
P + p α = สอดคล้องกับสัดส่วนของ Y = 1, 2,
3 ตามลำดับ สี่ขนาดตัวอย่าง 600, 800, 1,000, และ 1,500 หน่วยได้ดำเนินการ.
แต่ละเงื่อนไขจะได้รับการดำเนินการ 1,000 จำลองซ้ำโดยใช้การพัฒนา
รันโปรแกรมแมโครกับที่วางจำหน่าย Minitab 11 [17].
ผลระบุว่าเบาบางต่ำสุดของตารางฉุกเฉิน และ
สูงสุดของความดีของพอดีสถิติวิจัย 2
analogs และ BIC เกิดขึ้นสำหรับการกระจายของ
Y ~ พหุนาม (0.05,0.20,0.75) กับ (X 1 X 2) ~ พหุนาม (0.25,0.25,0.25,0.25 ) เช่นเดียว
กับเมื่อการกระจายของแต่ละ Y และ (X 1 X 2) เป็นสัดส่วนสมมาตรอย่างเท่าเทียมกัน ในทางตรงกันข้าม
เซลล์เบาบางสูงสุดเกิดขึ้นสำหรับการกระจายของ Y ~ พหุนาม (0.25,0.50,0.25)
กับ (X 1 X 2) ~ พหุนาม (0.50,0.30,0.10,0.10) นอกจากนี้เมื่อ (X 1 X 2) เป็น
(0.25,0.25,0.25,0.25) ก็มักจะให้แนวโน้มน้อยเบาบางกว่านั้นเมื่อ
(X 1 X 2) มีความไม่สมดุลเช่นขนาดของกลุ่มตัวอย่างมีขนาดใหญ่ นอกจากนี้จำนวนของ
เบาบางมีแนวโน้มที่จะเพิ่มขึ้นเป็นพารามิเตอร์ปฏิสัมพันธ์β12เพิ่มขึ้น; อย่างไรก็ตามมันก็
ยังลดลงค่อนข้างเมื่อขนาดตัวอย่างเพิ่มขึ้น ดังนั้นสำหรับรูปแบบจริงกับ
โครงสร้างที่มีลักษณะจะนำเสนอเบาบางของตารางฉุกเฉินเพิ่มขึ้น
เป็นเพิ่มขึ้นพารามิเตอร์ interaction- และอัตราการเพิ่มขึ้นจะลดลงเมื่อ
ขนาดตัวอย่างเพิ่มขึ้น ผลลัพธ์เหล่านี้บ่งบอกและยืนยันบางรูปแบบการเชื่อมโยงใน
รูปแบบตารางและฉุกเฉิน ดังนั้นเมื่อการกระจายของ Y เป็นทั้ง
สมมาตรอย่างเท่าเทียมกันหรือที่อยู่ในสัดส่วนที่เพิ่มขึ้นมีคำสั่งให้สอดคล้องกับผู้
(Χ1Χ2) นอกจากนี้ยังมีสมมาตรปานกลางขนาดตัวอย่างเล็ก ๆ ที่เป็นไปได้; แต่
เมื่อการกระจายมากที่สุดคือไม่สมมาตรเราไม่แนะนำเท่านั้นขนาดตัวอย่างที่มีขนาดใหญ่
สำหรับการวิเคราะห์ความเหมาะสมของสมาคมและตารางฉุกเฉินเบาบาง.
____________________________
คำสำคัญ: ตารางฉุกเฉินดีของพอดีผลปฏิสัมพันธ์พหุนามสะสม
แบบจำลองโลจิต sparseness.Sujin Sukgumphaphan 29
1 . บทนำ
ตามเนื้อผ้าดีของพอดีในตารางฉุกเฉินได้รับการทดสอบโดยใช้
เพียร์สัน 2 χ -statistic หรืออัตราส่วน 2 χ -statistic คุณสมบัติของ asymptotic
สถิติเหล่านี้มีการศึกษาบนสมมติฐานว่าความถี่มือถือที่คาดว่าจะกลายเป็น
ขนาดใหญ่ ตารางฉุกเฉินกับข้อสังเกตค่อนข้างน้อยหรือมีเซลล์ขนาดเล็กหรือที่ว่างเปล่า
นับจะเรียกว่าเบาบางเป็น [19] ตารางเบาบางเกิดขึ้นเมื่อขนาด n ตัวอย่างมี
ขนาดเล็ก นอกจากนี้ยังเกิดขึ้นเมื่อ n มีขนาดใหญ่ แต่เพื่อให้เป็นจำนวนของเซลล์ เซลล์เหล่านี้ว่างเปล่า
เป็นสองประเภท: ศูนย์การสุ่มตัวอย่างและศูนย์โครงสร้าง สำหรับศูนย์การสุ่มตัวอย่างจำนวนเซลล์พรรณี
จะมากกว่าศูนย์ n ขนาดใหญ่เพียงพอ แต่สำหรับศูนย์โครงสร้างการสังเกตเป็น
ไปไม่ได้ นับเป็นศูนย์ค่าเป็นผลที่อนุญาตสำหรับ Poisson หรือพหุนาม
ตัวแปร [1] สำหรับ (I ×× J K) ตารางฉุกเฉิน, การตั้งค่าที่ไม่เป็นมาตรฐานในการที่
K →∞เป็นขนาดตัวอย่าง n →∞เรียกว่าเบาบางข้อมูลเชิง
ทฤษฎีความน่าจะเป็นสำหรับอัตราส่วนและการทดสอบ Wald ต้องจำนวนพารามิเตอร์
(และด้วยเหตุนี้ K) ได้รับการแก้ไข การประมาณค่าสามัญ ML แล้วหยุดลงเพราะ
จำนวนพารามิเตอร์ไม่คงที่แทนมีลำดับเดียวกับขนาดของกลุ่มตัวอย่าง ใน
โดยเฉพาะอย่างยิ่งการกระจายไคสแควร์ประมาณถือสำหรับโอกาสอัตราส่วน Wald และ
สถิติสำหรับการทดสอบความเป็นอิสระมีเงื่อนไขเฉพาะเมื่อชั้นหรือกลุ่มชายขอบ
ผลรวมโดยทั่วไปเกินประมาณ 5 ถึง 10 K ได้รับการแก้ไขและขนาดเล็กเมื่อเทียบถึง n ทางเลือก
วิธีการใช้การประมาณ asymptotic เบาบางที่ใช้เมื่อจำนวนของเซลล์ที่
ยังไม่มีเพิ่มขึ้นตามการเพิ่มขึ้นของ n สำหรับวิธีการนี้μi {
} ไม่จำเป็นต้องเพิ่มขึ้นขณะที่พวกเขาต้องทำ
ในปกติ (คงที่ N, N →∞) ทฤษฎีกลุ่มตัวอย่างขนาดใหญ่ อย่างไรก็ตามมักจะมี
การเชื่อมโยงไม่ได้รับผลกระทบจากเซลล์ที่ว่างเปล่าและให้ผลลัพธ์ที่ต่าง ๆ ที่มั่นคงสำหรับ
การวิเคราะห์ในขณะที่บางคนอื่น ๆ ที่ได้รับผลกระทบจะไม่แน่นอน แม้ว่าเซลล์ที่ว่างเปล่าและ
ตารางเบาบางไม่จำเป็นต้องส่งผลกระทบต่อประมาณการพารามิเตอร์ที่สนใจของพวกเขาสามารถก่อให้เกิดการสุ่มตัวอย่าง
สถิติการกระจายความดีของพอดีกับจะห่างไกลจากไคสแควร์ [1] ดังนั้นในการจัดการนี้
ปัญหาในบทความนี้เราเลือกที่หลากหลายที่สุด G 2
(M 0 M1 |) สถิติสำหรับการทดสอบ
ความดีของพอดีของรุ่น.
เปรียบเทียบแบบจำลองทางสถิติ G 2
(M 0 M1 |) มักจะมีประมาณ chisquared
กระจาย null แม้เมื่อแยกต่างหาก G 2
(M i) ทำไม่ได้ ตัวอย่างเช่นเมื่อ
ทำนายเป็นอย่างต่อเนื่องหรือตารางฉุกเฉินมีค่าติดตั้งขนาดเล็กมากสุ่มตัวอย่าง 30 สถิติประเทศไทย, 2008; 6 (1): 27-46
การกระจายตัวของ G 2
(M ฉัน
) อาจจะห่างไกลจากไคสแควร์ แต่ถ้าองศาอิสระ
สำหรับสถิติการเปรียบเทียบเป็นเจียมเนื้อเจียมตัว (ในขณะที่การเปรียบเทียบสองรุ่นที่แตกต่างกันไม่กี่
พารามิเตอร์) การกระจาย null ของ G 2
(M 0 M1 |) จะอยู่ที่ประมาณไคสแควร์ [4]
สถิติทดสอบเปรียบเทียบสองรุ่นเป็นเหมือนความแตกต่างระหว่าง 2 G
(M 0
) -
G 2
(M 1
) ความดีของพอดีสถิติ (deviances) สำหรับสองรุ่น จากนั้น
G 2
(M 0 M1 |) = -2 () L0 - L1
= () [()] - 2 L0 - Ls - - 2 L1 - Ls
= G 2
(M 0
) - G 2
(M 1
)
มีรูปแบบของ -2 (log อัตราส่วนความเป็นไปได้) สำหรับการทดสอบว่า M 0
ถือกับทางเลือก
ที่ 1 M ถือ นอกจากนี้สำหรับการทดสอบทฤษฎีความน่าจะเป็นอัตราส่วนที่แสดงให้เห็นว่าเมื่อ
รูปแบบที่เรียบง่ายถือกระจาย asymptotic ของ G 2
(M 0
) - G 2
(M 1) เป็นไคกำลังสอง
มีความแตกต่างขององศาอิสระของทั้งสองรุ่น
นอกจากนี้การทดสอบเหล่านี้สามารถทำงานได้ดีแม้สำหรับตารางเบาบางขนาดใหญ่เป็นเวลานาน
เป็นความแตกต่างขององศาอิสระที่มีขนาดเล็กเมื่อเทียบกับขนาดของกลุ่มตัวอย่าง [7]
G 2
(M 0
) - G 2
(M 1
) ลู่ที่จะ จำกัด การกระจายไคสแควร์ของตนได้อย่างรวดเร็วกว่า
ไม่ G 2
(M 0
) ซึ่งขึ้นอยู่ยังอยู่ในจำนวนเซลล์แต่ละ.
ในงานวิจัยนี้เรานำเสนอการวิเคราะห์ข้อมูล โดยใช้ G 2
(M 0 M1 |) สถิติ
เพื่อการศึกษาเบาบางที่ได้จากจำนวนของการเกิดอย่างน้อยหนึ่งที่ว่างเปล่า
ของเซลล์ในการจำลองในแต่ละ 1,000 การจำลองและการตรวจสอบความดีของพอดี
สถิติสำหรับตารางฉุกเฉินมีบางส่วน เซลล์เบาบางภายใต้สถานการณ์ที่
ศูนย์การสุ่มตัวอย่างจะเป็นส่วนหนึ่งของชุดข้อมูล เน้นหลักอยู่บนทางสถิติ
รูปแบบของพหุนามแบบจำลองโลจิตที่สะสมสำหรับประเภทการตอบสนองลำดับ
และตัวแปรอธิบายเล็กน้อยรวมทั้งระยะการทำงานร่วมกันทั้งสองปัจจัย ในขณะที่
ความสัมพันธ์ระหว่างตัวแปรในตารางฉุกเฉินเกิดขึ้นรูปแบบบางส่วนของมือถือ
นับเป็นการนำเสนอและมักจะยังอาจนำไปสู่การกระจัดกระจายของข้อมูลบางอย่าง
โดยเฉพาะอย่างยิ่งเมื่อผลของเอ็กซ์มีแนวโน้มที่จะมีความแข็งแรง วัตถุประสงค์ก็คือการวิเคราะห์สุจินต์ Sukgumphaphan 31
ประสิทธิภาพการทำงานของรุ่นข้างต้นสำหรับการแก้ไข N, N →∞และพารามิเตอร์ปฏิสัมพันธ์หลากหลาย
0-4.5, เพิ่มขึ้น 0.3 ในแง่ของสถิติความดีของพอดีและการเกิดขึ้นของ
เบาบางใน 1,000 จำลอง เรามีจุดมุ่งหมายเพื่อศึกษาวิธีการและเมื่อเบาบางเกิดขึ้น
ขณะที่การประมาณค่าพารามิเตอร์และคุณงามความดีของพอดีของรูปแบบการพิจารณา
. ที่คาดว่าจะทำงานได้ดีภายใต้การได้รับการแต่งตั้งอย่างเหมาะสมสถิติ
2 รุ่น Logit สะสม
แบบจำลองโลจิตที่สะสมนี้ถูกนำเสนอโดยเดิมทีวอล์คเกอร์และดันแคน [22]
และต่อมาเรียกว่าราคาต่อรองแบบสัดส่วนโดยแมคคัล [11] logits สะสม
ที่กำหนดไว้ [1] เป็น
P (Y ≤ J | x) = 1 p + 2 p + ...... + JP, J = 1, ... , เคแล้ว.
logit [P (Y ≤ J | x) ] = เข้าสู่ระบบ [
1 P (| x)
P (| x)
Y J
Y J


]
= เข้าสู่ระบบ [
P (| x)
P (| x)
Y J
Y J
>

]
= เข้าสู่ระบบ [1 2 J
j1 2 K
p + p + ...... + p
p + p + ...... + p +
.], J = 1, 2, ...... , K-1
รูปแบบที่พร้อมใช้ logit สะสมทั้งหมดเป็น
logit P (Y ≤ J | x) = αj + x'β, J = 1, ... ., K-1.
รุ่นนี้ซึ่งจะขยายรูปแบบการโลจิสติกสำหรับการตอบสนองไบนารีเพื่อให้สามารถ
ตอบสนองลำดับหลายได้มักจะเกี่ยวข้องกับการสร้างแบบจำลอง logits สะสมทั่วไป
แบบจำลองโลจิตสะสม [ 5] และยังมีผู้
การแปล กรุณารอสักครู่..
ผลลัพธ์ (ไทย) 3:[สำเนา]
คัดลอก!
สถิติ

ประเทศไทยมกราคม 2551 ; 6 ( 1 ) : 27-46
http : / / statassoc . หรือ . th
ส่วนกระดาษ
สำรองโต๊ะ sparseness ภายใต้รูปแบบการสะสมโลจิต
.
อธิบายประเภทและระบุตัวแปรที่มีสององค์ประกอบและปฏิสัมพันธ์
สุจินต์ sukgumphaphan วีณา pongsapukdee
ภาควิชาสถิติ คณะวิทยาศาสตร์ มหาวิทยาลัยศิลปากร

นครปฐม , ประเทศไทย* ผู้เขียนสำหรับการติดต่อ e - mail : วีณา @ ซู โดย : 10 กรกฎาคม 2550

ได้รับการยอมรับ : 19 กันยายน 2007

ในบทคัดย่อบทความนี้ sparseness และการประเมินความสอดคล้องของโมเดลสะสม
สำหรับประเภทการตอบสนองและการระบุตัวแปร . มีปฏิสัมพันธ์ twofactor
) ได้แก่ การ sparseness จะคำนวณจากจำนวน
เหตุการณ์อย่างน้อยหนึ่งเซลล์ที่ว่างเปล่าในแต่ละจำลอง , จำลอง .
สถิติขนาดของความดีของพอดี ค่าสัมประสิทธิ์ของปริมาณหรือชนิด 2 R
โอกาสอัตราส่วน , สถิติ , GM , AIC ( ข้อมูลเกณฑ์เคราะห์ [ 2 ] ) และบิ๊ก
( เบส์ข้อมูล เกณฑ์ ชวาร์ซ , 1978 ) การคำนวณ จำลองมี
3 วิธีโลจิตสำหรับรุ่นที่มี K = 3 ประเภทคือการอธิบายตัวแปร x1 และสุ่ม 2
x 2 ที่ร่วมแจกของ ( x 1 x 2 ) ถือว่าเป็นวิธีที่มีความน่าจะเป็น
123 πππ , , , และπ 4 ที่ ( x 1 x 2 )
( ค่าของ 0 , 0 ) , ( 0.1 ) , ( 1 , 0 ) , ( 1 , 1 ) , ตามลำดับ ชุด 3 ( ) 1 2 3 4 πππ , , ,
πเป็นศึกษาการแจกแจงแสดงรูปทรงที่แตกต่างกัน ซึ่งเลือกที่จะก่อให้เกิดผลเช่นที่ LOG ที่แข็งแกร่งอาจจะ log3 บีตา 1 = , = และบีตา 2 บีตา 12 = 0.0 − 4.5
คือ ( x 1 x 2 ) ~ i โดย ( 0.10,0.35,0.45,0.10 ) , ( x 1 x 2 ) ~ i โดย
( 0.50,0.30,0.10,0.10 ) และ ( x 1 x 2 ) ~ i โดย ( 0.25,0.25,0.25,0.25 ) สี่ชุดของไทยแลนด์สถิติ , 2008 ; 6 ( 1 ) : 27-46
สามประเภทกระจายให้สอดคล้องกับ ( x 1 x 2 ) อีกครั้ง
สร้างผ่านรูปแบบภายใต้สัดส่วนของ ( P1 , P2 , P3 ) คือ
Y ~ MULTINOMIAL ( P1 , P2 , P3 ) : ( 0.05,0.20,0.75 ) , ( 0.25,0.50,0.25 ) , ( 0.5,0.20,0.25 ) ,
( 0.33,0.33,0.33 ) จาก ซึ่งก็เป็นไปตามที่แบบจริงสกัดเป็น
3
1 log ,
2
1 P P
p

α = บันทึก ,
3
1
2
2 pP P α = สอดคล้องกับสัดส่วนของ Y
= 1 , 2 , 3 ตามลำดับ สี่ตัวอย่างขนาด 600 , 800 , 1000 และ 1500 หน่วยปฏิบัติ .
แต่ละสภาวะพบว่า 1 , 000 ซ้ำจำลองใช้พัฒนาโปรแกรมแมโครที่ใช้กับ Photoshop
ปล่อย 11 [ 17 ] .
ผลการศึกษาพบว่า sparseness ต่ำสุดและสูงสุดของตารางการณ์จร
ความดีของสถิติพอดี r 2
และสาร BIC , เกิดจากการกระจายของ
Y ~ MULTINOMIAL ( 0.05,0.20,0.75 ) กับ ( x 1 x 2 ) ~ i โดย ( 0.25,0.25,0.25,0.25 ) เช่นกัน
เมื่อแต่ละการแจกแจงของ y และ x 1 x 2 ) เท่าเทียมกันสมมาตรสัดส่วน ในทางตรงกันข้าม
สูงสุดเบาบางเซลล์เกิดขึ้นสำหรับการกระจายของ Y ~ MULTINOMIAL ( 0.25,0.50,0.25 )
( x 1 x 2 ) ~ i โดย ( 0.50,0.30,0.10,0.10 ) นอกจากนี้ เมื่อ ( X1 x 2 )
( 0.25,0.25,0.25,0.25 ) มันก็จะน้อยลง แนวโน้ม sparseness สูงกว่าเมื่อ
( x 1 x 2 ) สมมาตร เมื่อขนาดตัวอย่างมีขนาดใหญ่ . นอกจากนี้ จำนวน
sparseness มีแนวโน้มที่จะเพิ่มขึ้นเป็นปฏิสัมพันธ์ระหว่างตัวแปร บีตา 12 เพิ่ม อย่างไรก็ตาม มันเป็น
ยังค่อนข้างลดลงเมื่อขนาดตัวอย่างเพิ่มขึ้น ดังนั้น สำหรับรูปแบบจริงกับ
ความสัมพันธ์โครงสร้างที่นำเสนอการ sparseness ของสำรองตารางเพิ่ม
เป็นปฏิสัมพันธ์ - เพิ่มพารามิเตอร์และอัตราการเพิ่มจะลดลงเมื่อขนาดตัวอย่างเพิ่มขึ้น
. ผลลัพธ์เหล่านี้บ่งชี้และยืนยันในรูปแบบสมาคม
นางแบบและสำรองโต๊ะ ดังนั้น เมื่อการกระจายของ Y คือ
เท่าเทียมกันสมมาตรหรือที่ในการสั่งให้สัดส่วนสอดคล้องกับบรรดา
( Χ 1 Χ 2 ) นอกจากนี้ยังมีสมมาตร , ขนาดตัวอย่างเล็ก ๆอยู่ได้ อย่างไรก็ตาม การกระจายส่วนใหญ่เป็นแบบอสมมาตร
เมื่อเราแนะนำเพียงขนาดใหญ่ขนาดตัวอย่างสำหรับการวิเคราะห์ที่เหมาะสมของสมาคม

และตารางการณ์จรป่าโปร่ง ____________________________
284 ตารางการจรณ์ ความดีของพอดี ผลการโต้ตอบ โดยสะสม
แบบจำลองโลจิต sparseness . สุจินต์ sukgumphaphan 29
1 บทนำ
ผ้า ความดีของพอดีกับตารางการณ์จรทดสอบ โดยการใช้ทั้ง 2 χ
เพียร์สันสถิติหรืออัตราส่วนความน่าจะเป็น 2 χ - สถิติ คุณสมบัติของแหล่ง
สถิติเหล่านี้จะใช้สมมติฐานที่คาดว่ามือถือความถี่กลายเป็น
ขนาดใหญ่สำรองโต๊ะ ด้วยการสังเกตค่อนข้างน้อย หรือมีขนาดเล็กหรือเซลล์ที่ว่างเปล่า
นับจะเรียกว่าหร็อมแหร็ม [ 19 ] ตารางที่ขึ้นเกิดขึ้นเมื่อขนาดตัวอย่าง n
ขนาดเล็ก นอกจากนี้ยังเกิดขึ้นเมื่อ n มีขนาดใหญ่แต่เพื่อให้มีจำนวนเซลล์ เซลล์ว่างเหล่านี้
เป็นสองประเภท : ศูนย์ศูนย์โครงสร้างและตัวอย่าง สำหรับศูนย์ ( เซลล์ผม
.จะเป็นมากกว่าศูนย์ที่มีขนาดใหญ่เพียงพอแต่สำหรับศูนย์โครงสร้างตัวอย่าง
เป็นไปไม่ได้ นับจากศูนย์ ค่าผลอนุญาตสำหรับพารามิเตอร์หรือตัวแปรโดย
[ 1 ] ( ฉัน×× k J ) ตารางการณ์จร การตั้งค่ามาตรฐานที่
K →∞ว่าขนาดตัวอย่าง n →∞เรียกว่าแหล่งข้อมูลป่าโปร่ง
ทฤษฎีซีมโทติคสำหรับอัตราส่วนความน่าจะเป็นและแบบทดสอบ Wald ต้องจำนวนของพารามิเตอร์
( และด้วยเหตุนี้ K ) ที่จะต้องแก้ไข ธรรมดา ml ประมาณนั้นแบ่งลงเนื่องจาก
จำนวนพารามิเตอร์ไม่คงที่ แทนการมีคำสั่งเดียวกับขนาดตัวอย่าง ใน
โดยเฉพาะ , ชิประมาณพร้อมกระจายถือสำหรับอัตราส่วนความน่าจะเป็น และ วอลด์
สถิติสำหรับการทดสอบความเป็นอิสระที่มีเงื่อนไขเฉพาะ เมื่อชั้นหรือจัดกลุ่มโดย
รวมโดยทั่วไปเกินประมาณ 5 ถึง 10 และ K คือคงที่และเล็กญาติเพื่อ ทางเลือก
ใช้เฉลี่ยประมาณเบาบางที่ใช้เมื่อจำนวนเซลล์
n เมื่อ n มีค่าเพิ่มขึ้น สำหรับวิธีการนี้ µผม
} { ไม่ต้องเพิ่ม ตามที่พวกเขาต้องทำ
ในปกติคงที่ nN →∞ ) ทฤษฎีตัวอย่างใหญ่ อย่างไรก็ตาม มักจะมี
สมาคมไม่ได้รับผลกระทบ โดยเซลล์ว่าง และให้ผลที่มั่นคงสำหรับการวิเคราะห์ต่าง ๆ
, ในขณะที่บางคนอื่น ๆที่ได้รับผลกระทบจะไม่เสถียร ถึงแม้ว่าเซลล์ที่ว่างเปล่าและป่าโปร่ง ต้องไม่มีผลต่อค่า
ตารางประมาณการของดอกเบี้ยที่พวกเขาสามารถทำให้เกิดการกระจายสุ่ม
ความดีของสถิติพอดีจะไกลจากไคกำลังสอง [ 1 ] ดังนั้นเพื่อจัดการกับปัญหานี้
ในกระดาษนี้เราเลือกหลากหลายมากที่สุด ก. 2
( M 0 M1 | ) สถิติเพื่อทดสอบความสอดคล้องของโมเดล
.
รูปแบบการเปรียบเทียบสถิติ G 2
( M 0 M1 | ) มักจะมีประมาณ chisquared
null กระจายเมื่อแยก G 2
( m ฉัน ) ไม่ ตัวอย่างเช่นเมื่อ
ทำนายเป็นอย่างต่อเนื่องหรือตารางการจรณ์มีขนาดเล็กติดตั้งค่าการสุ่มตัวอย่าง ( สถิติ 30 , 2008 ; 6 ( 1 ) : 27-46
จำหน่าย G 2
( I m
) อาจจะไกลจากชิยกกําลังสอง อย่างไรก็ตาม ถ้าองศาของเสรีภาพ
เพื่อเปรียบเทียบสถิติเป็นเจียมเนื้อเจียมตัว ( เช่นในการเปรียบเทียบสองรุ่นที่แตกต่างกันโดยพารามิเตอร์บาง
) , การกระจายศูนย์ของ G 2
( M 0 M1 | ) ประมาณไคกำลังสอง [ 4 ]
สถิติทดสอบเปรียบเทียบสองรุ่นเป็นเหมือนความแตกต่างระหว่าง G 2
( M -
0
) G ( 2
1
) ความดีของสถิติพอดี ( deviances ) สำหรับทั้งสองรุ่น แล้ว 2

g ( M 0 M1 | ) = - 2 ( ) l0 l1
= ( − ) [ ( ) ] −−−− 2 LS 2 l0 L1 g 2 − LS
=
( M 0
- G ( m ) 2
1

) มีรูปแบบจำกัด 2 ( อัตราส่วนความน่าจะเป็นเข้าสู่ระบบ ) สำหรับการทดสอบที่ M 0

ถือกับทางเลือกที่ 1 ถือ นอกจากนี้ทฤษฎีอัตราส่วนความน่าจะเป็น–การทดสอบแสดงให้เห็นว่าเมื่อ
ง่ายกว่า แบบถือ การเฉลี่ยของ G ( 2
0
M - g ) 2
( M 1 ) ไคกำลังสอง
กับความแตกต่างขององศาของอิสรภาพของทั้งสองรุ่น
นอกจากนี้ การทดสอบเหล่านี้สามารถทำงานได้ดีแม้มีขนาดใหญ่มากตารางยาว
เป็นความแตกต่างขององศาอิสระมีขนาดเล็กเมื่อเทียบกับขนาดตัวอย่าง [ 7 ]
g ( m 2
0
) 2
- กรัม( M 1
) ตัวไคกำลังสองจำกัดกระจายเร็วกว่า

ไม่ g 2 ( M 0
) ซึ่งขึ้นกับนับเซลล์แต่ละ .
ในงานวิจัยนี้ได้เสนอการวิเคราะห์ข้อมูลใช้ G 2
( M
0 M1 | ) สถิติเพื่อศึกษา sparseness ที่ได้รับจาก จำนวนของการเกิดขึ้นของอย่างน้อยหนึ่งว่างเปล่า
เซลล์ในแต่ละจำลองและการจำลองด้วย 1000 เพื่อศึกษาความสอดคล้อง
สถิติสำหรับสำรองตารางมีเบาบางเซลล์ภายใต้สถานการณ์ที่
ตัวอย่างศูนย์เป็นส่วนหนึ่งของชุดข้อมูล เน้นหลักในแบบจำลองทางสถิติ
ของแบบจำลองโลจิทสะสมโดยลำดับที่ประเภทตอบสนอง
และตัวแปรอธิบายชื่อรวมทั้งสอง - ปัจจัยปฏิสัมพันธ์ในระยะ เป็น
สมาคมระหว่างตัวแปรในตารางฉุกเฉินเกิดขึ้นบางรูปแบบของเซลล์
นับมักจะนำเสนอและยังอาจนำไปสู่บาง sparseness ข้อมูล
โดยเฉพาะอย่างยิ่งเมื่อผลของ X มักจะเข้มแข็ง มีวัตถุประสงค์เพื่อศึกษาประสิทธิภาพของซูจิน sukgumphaphan
31 รุ่นข้างต้นเพื่อแก้ไข N , N →∞และปฏิสัมพันธ์พารามิเตอร์ที่แตกต่างกัน
จาก 0-4.5 เพิ่มขึ้น , 0.3 ในแง่ความดีของพอดีและเกิด
สถิติsparseness ใน 1000 จำลอง . เรามุ่งมั่นที่จะศึกษาวิธีการและเมื่อ sparseness เกิดขึ้น ;
สำหรับประมาณค่าพารามิเตอร์ และความสอดคล้องของการพิจารณาแบบจำลอง
คาดว่าจะทำงานได้ดีภายใต้การเลือกสถิติที่เหมาะสม .
2 แบบจำลองโลจิทสะสม
แบบจำลองโลจิทสะสมเดิมที่เสนอโดยวอล์คเกอร์และดันแคน [ 22 ]
และต่อมาเรียกราคาตามแบบโดยเมิ่กคัลเลิก [ 11 ]
logits สะสมถูกกำหนด [ 1 ]
P ( Y ≤ J | x ) = 1 P 2 P . J P , j = 1 , . . . . . . . . งั้น
โลจิต [ P ( Y ≤ J | x ) ] = log [
1 - P ( | X )
( P | X Y
Y J J )




= ] ≤≤เข้าสู่ระบบ [
p ( | X )
( P | X Y
Y J J )

>

]
= log [ 1 2 J
2 K
p p J1 P P P P . . . . . .

. . . . . . ] , j = 1 , 2 , . . . . . . .
, K - 1 .เป็นแบบจำลองที่ใช้สะสมพร้อมกันโลจิตเป็น
โลจิต P ( Y ≤ J | x ) = α J x ' บีตา J = 1 , . . . , K-1 .
รุ่นนี้ ซึ่งขยายโมเดลโลจิสติกสำหรับการตอบสนองเลขฐานสองเพื่อให้ช่วงการตอบสนอง
หลายได้มักจะเกี่ยวข้องกับการสะสม logits ทั่วไป
สะสม แบบจำลองโลจิต [ 5 ] และยังนั้น
การแปล กรุณารอสักครู่..
 
ภาษาอื่น ๆ
การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.

Copyright ©2024 I Love Translation. All reserved.

E-mail: