ECON 5360 Class Notes
Qualitative Dependent Variable Models
Here we consider models where the dependent variable is discrete in nature.
1 Linear Probability Model
Consider the linear probability (LP) model
yi =
0
xi + i
where E(i
) = 0. The conditional expectation
E(yi
jxi) =
0
xi
is interpreted as the probability of an event occurring given xi
. There are a couple of drawbacks to the LP
model that limits its use:
1. Heteroscedasticity. Given that yi = f0; 1g, the error term can take on two values with probability
i f(i
)
1
0
xi
0
xi
0
xi 1
0
xi
so that the variance is
var(i
) =
0
xi(1
0
xi)
2 + (1
0
xi)(
0
xi)
2
=
0
xi(1
0
xi)
= E(yi)[1
E(yi)]:
2. Predictions outside [0,1]. The predicted probabilities from the LP model, y^i =
0
xi
, can be less than
zero and greater than one.
1
2 Binomial Probit and Logit Models
The drawbacks of the LP model are solved by letting the probability of an event (i.e., y = 1) be given by a
well-deÖned cumulative density function
P rob(yi = 1jx) = Z x
0
1
f(t)dt = F(x
0): (1)
In this manner, the predicted probabilities will always be bounded between zero and one. If F(x
0) is the
cdf for a standard normal random variable, we get the probit model. If
F(x
0) = e
x
0
1 + e
x0
;
then we get the logit model. Estimates from the logit and probit models often give similar results. The
logit model is less computationally intense because F(x
0) has a closed form, however, the logistic pdf f()
has fatter tails than the standard normal pdf. Because yi = f0; 1g is discrete, while (1) implies continuity,
we replace yi with the latent variable y
i
. This produces
y
i =
0
xi + i
.
y
i
can be interpreted as an unobservable index function that measures individual iís propensity to choose
y = 1. For example, y
i
could be the net beneÖts (beneÖts less costs) of selecting option A. Alternatively,
y
i
could be interpreted as the di§erence in utility derived from choosing option A less the utility of choosing
option B. Therefore, we assume
if y
i > 0 then yi = 1
if y
i 0 then yi = 0.
The choice of zero as a threshold is innocuous if the vector xi
includes a constant term.
2.1 Estimation
The parameters of the model are estimated via maximum likelihood. The relevant probability can be written
as
P rob(yi = 1jx) = P rob(y
i > 0jx) = P rob(
0
xi + i > 0jx) = P rob(i >
0
xi
jx):
Assuming a symmetric, mean-zero pdf for i
, we have
P rob(i >
0
xi
jx) = P rob(i < 0
xi
jx):
2
It will be convenient to standardize i
, which gives
P rob(
i
< (
)
0xi
jx) = ((
)
0xi),
where () and are the cdf and standard deviation for i
, respectively. Therefore, the parameters are
only identiÖable up to a scalar , which is commonly set to unity (i.e., = 1). The likelihood function is
given by
L =
Yn
i=1
yi
i
f1
ig
1yi
and the log-likelihood function is given by
lnL() = Xn
i=1
fyi
ln(i) + (1
yi) ln(1
i)g: (2)
Maximization of (2) will require nonlinear optimization methods, such as Newtonís algorithm.
2.2 Marginal E§ects
The estimated coe¢ cients, ^ML, are problematic in two senses:
1. The true s are not identiÖed. Recall, that all we can really estimate is =.
2. Aside from problem #1, we know that
^
k =
@y
i
@xi;k
.
Because y
i
is an unobservable index function, it is di¢ cult to interpret this derivative.
A simple solution is to calculate
^i;k =
@P rob(yi = 1)
@xi;k
= ((
)
0xi)
k
(3)
where () is the pdf for i
. The advantage of the estimated marginal e§ect, ^i;k, is that it only depends
on = (so that it is identiÖable) and it is easy to interpret. Note that ^i;k depends on the entire vectors
for xi and . The standard errors for ^i;k can be calculated using the delta method, which is based on a
Örst-order Taylor approximation. We have
asy:var:(
^) =
@^
@^
0
!
V
@^
@^
0
!0
where V is the variance-covariance matrix for ^ML.
3
2.3 Goodness of Fit
Unfortunately, the standard R2 measure of goodness of Öt does not have the same interpretation (i.e.,
percentage of variation in Y explained by the variation in X) in binary choice models. Many alternatives
have been suggested, of which a few are:
McFaddenís pseudo R2
. This measure,
R~2 = 1
lnLU
lnLR
;
is bounded between zero and one but is di¢ cult to interpret between the limits. It is not uncommon
to see low R~2 values (e.g., less than 0.25) for models that seemingly explain the data well.
Likelihood ratio statistic. The standard likelihood ratio statistic is
LR = 2(lnLR
lnLU )
and is asymptotically distributed chi-square.
Table of hits and misses. In the binary case, a 2 x 2 table can be created to summarize the number of
correct and incorrect predictions. Typically, predicted probabilities greater than 0.5 (i.e., (^
0
xi) >
0
จดโน้ต 5360 ชโรดรูปแบบตัวแปรเชิงคุณภาพที่นี่เราสามารถพิจารณารุ่นแยกลักษณะตัวแปรแบบจำลองเชิงเส้นความน่าเป็น 1พิจารณาแบบจำลองความน่าเป็นเชิงเส้น (LP)yi = 0ซี + iที่ E (i) = 0. ความคาดหวังแบบมีเงื่อนไขE (ยี่jxi) = 0ซีอานซีกวนถูกตีความว่าเป็นการน่าที่มีเหตุการณ์เกิดรับสิ. มีคู่ของข้อเสียไป LPรุ่นที่จำกัดการใช้งาน:1. Heteroscedasticity กำหนดว่า yi = f0 1g ระยะผิดพลาดสามารถนำสองค่าความน่าเป็นฉัน f (i)10ซีอานซีกวน 0ซีอานซีกวน0ซี 10ซีอานซีกวนเพื่อให้เป็นผลต่างvar (i) = 0ซี (10ซีอานซีกวน)(1 + 20(xi)0ซีอานซีกวน)2= 0ซี (10ซีอานซีกวน)= E(yi) [1E(yi)]:2. คาดคะเนนอก [0, 1] น่าจะคาดการณ์จากแบบ LP, y ^ ฉัน = 0ซีอานซีกวนได้น้อยกว่าศูนย์มากกว่าหนึ่ง12 แบบทวิ Probit และแบบจำลอง Logitข้อเสียของรูปแบบ LP ได้รับการแก้ไข โดยให้ความน่าเป็นของเหตุการณ์ (เช่น y = 1) ได้รับโดยมีฟังก์ชันความหนาแน่นสะสมดี deÖnedP rob(yi = 1jx) = Z x0 1f (t) dt = F (x0): (1)ในลักษณะนี้ น่าจะคาดการณ์จะเสมอจะล้อมรอบระหว่างศูนย์กับหนึ่ง ถ้า F (x0) เป็นการcdf สำหรับตัวแปรสุ่มปกติมาตรฐาน เราได้รับแบบจำลอง probit ถ้าF (x0) = ex0 1 + ex0 ;แล้ว เราได้รับแบบจำลอง logit ประมาณการจากแบบจำลอง probit logit มักจะให้ผลที่คล้ายกัน การแบบจำลอง logit จะ computationally น้อยรุนแรงเนื่องจาก F (x0) มีปิดฟอร์ม อย่างไรก็ตาม แบบโลจิสติก pdf f ()มีหางอ้วนขึ้นกว่ามาตรฐานปกติไฟล์ pdf เนื่องจาก yi = f0 1g คือแยก ในขณะที่ (1) หมายถึงความต่อเนื่องเราแทนยี่กับตัวแปร y แฝงอยู่ผม. นี้ผลิตyฉัน = 0ซี + i.yผมสามารถตีความเป็นฟังก์ชันการ unobservable ดัชนีที่วัดนิสัยชอบ iís แต่ละตัวเลือกy = 1 ตัวอย่างเช่น yผมสามารถสุทธิ beneÖts (beneÖts หักค่าใช้จ่าย) ของตัวเลือก A. อีกyผมสามารถตีความเป็นการ di§erence ในอรรถประโยชน์ที่ได้มาจากการเลือก A น้อยกว่าโปรแกรมอรรถประโยชน์ของการเลือกตัวเลือก b ดังนั้น เราสมมติถ้า yฉัน > 0 แล้ว yi = 1ถ้า yฉัน 0 แล้ว yi = 0ทางเลือกของศูนย์เป็นเกณฑ์คือ innocuous ถ้า xi เวกเตอร์มีคำคง2.1 การประเมินพารามิเตอร์ของแบบจำลองที่ประมาณผ่านโอกาสสูงสุด เขียนได้น่าเป็นที่เกี่ยวข้องเป็นP rob(yi = 1jx) = P ปล้น (yผม > 0jx) = P (ปล้น 0ซี + i > 0jx) = P ปล้น (ฉัน >0ซีอานซีกวนjx):สมมติว่าเป็น pdf สมมาตร ศูนย์หมายถึงอะไรสำหรับฉันเรามีปล้น P (ผม >0ซีอานซีกวนjx) = P ปล้น (ฉัน < 0ซีอานซีกวนjx):2มันจะสะดวกในการกำหนดมาตรฐานผมซึ่งช่วยให้P (ปล้นผม< ()0xijx) = (( )0xi),ที่()และ cdf และส่วนเบี่ยงเบนมาตรฐานสำหรับฉันตามลำดับ ดังนั้น มีพารามิเตอร์identiÖable เฉพาะถึงเ ซึ่งตั้งอยู่ทั่วไปเพื่อความสามัคคี (เช่น = 1) ฟังก์ชั่นความน่าเป็นกำหนดโดยL =Ynฉัน = 1ยี่ผมf1ig1yiและฟังก์ชันล็อกโอกาสโดยlnL () = Xnฉัน = 1เบาln (i) + (1ln ยี่) (1i) g: (2)Maximization (2) จะต้องมีวิธีการเพิ่มประสิทธิภาพเชิงเส้น เช่นอัลกอริทึม Newtonís2.2 กำไร E§ectsCients ลอกประมาณ coe, ^ ML มีปัญหาในสองความรู้สึก:1. s จริงไม่ได้ identiÖed จำ ทั้งหมดที่เราจะได้ประเมินจริง ๆ คือ =2. น้องจากปัญหา #1 เรารู้ว่า^k =@yผม@xi; k.เนื่องจาก yผมเป็นฟังก์ชั่น unobservable ดัชนี เป็นลัทธิลอก di แปลเรื่องนี้วิธีง่ายคือการ คำนวณ^ ผม k =@P rob(yi = 1)@xi; k= (()0xi) k(3)ที่()เป็น pdf สำหรับฉัน. ประโยชน์ของ e§ect ร่อแร่ประมาณ, ^ ฉัน k คือ ว่า เพียงขึ้นกับบน = (ที่ identiÖable) และมันง่ายที่จะตีความ หมายเหตุว่า ^ ฉัน k ขึ้นจากเวกเตอร์ทั้งหมดสำหรับซี และ ข้อผิดพลาดมาตรฐาน ^ ฉัน k สามารถคำนวณได้โดยใช้วิธีการเดลต้า ซึ่งเป็นไปตามสั่ง Örst เทย์เลอร์ประมาณ เรามีasy:var: (^) =@^@^0!V@^@^0! 0โดยที่ V คือ เมทริกซ์ความแปรปรวนแปรปรวนสำหรับ ^ ML32.3 ดีของพอดีอับ วัด R2 มาตรฐานของความดีของ Öt ไม่มีความหมายเดียวกัน (เช่นเปอร์เซ็นต์ของการเปลี่ยนแปลงใน Y อธิบายความเปลี่ยนแปลงใน X) ในรูปแบบไบนารีตัวเลือก หลายทางเลือกมีการแนะนำ ของไม่กี่:หลอก McFaddenís R2. วัดนี้R ~ 2 = 1lnLUlnLR;ล้อมรอบระหว่างศูนย์กับหนึ่ง แต่เป็นลัทธิลอก di แปลระหว่างขีดจำกัด ไม่ใช่เรื่องแปลกดูต่ำ R ~ 2 ค่า (เช่น น้อยกว่า 0.25) รุ่นที่ดูเหมือนจะอธิบายข้อมูลที่ดีสถิติอัตราความเป็นไปได้ เป็นสถิติอัตราส่วนมาตรฐานโอกาสLR = 2 (lnLRlnLU)และไคสแควร์ asymptotically กระจายตารางของฮิตและการหาย ในกรณีไบนารี 2 x 2 ตารางสามารถสร้างการสรุปจำนวนการคาดคะเนถูกต้อง และไม่ถูกต้อง โดยทั่วไป คาดว่า น่าจะมากกว่า 0.5 (เช่น, (^0xi) >0
การแปล กรุณารอสักครู่..
