An Introduction to Quantile Regression and the QUANTREG Procedure
ABSTRACT
Ordinary least-squares regression models the relationship between one or more covariates X and the conditional
mean of a response variable Y given X = x. In contrast, quantile regression models the relationship
between X and the conditional quantiles of Y given X = x, so it is especially useful in applications where
extremes are important, such as environmental studies where upper quantiles of pollution levels are critical
from a public health perspective. Quantile regression also provides a more complete picture of the conditional
distribution of Y given X = x when both lower and upper or all quantiles are of interest, as in the
analysis of body mass index where both lower (underweight) and upper (overweight) quantiles are closely
watched health standards. This paper describes the new QUANTREG procedure in SAS 9.1, which computes
estimates and related quantities for quantile regression by solving a modification of the least-squares
criterion.
INTRODUCTION
This paper introduces the QUANTREG procedure, which computes estimates and related quantities for
quantile regression. For SAS 9.1, an experimental version of the procedure can be downloaded from
Software Downloads at support.sas.com.
Ordinary least-squares regression models the relationship between one or more covariates X and the
conditional mean of the response variable Y given X = x. Quantile regression, which was introduced
by Koenker and Bassett (1978), extends the regression model to conditional quantiles of the response
variable, such as the 90th percentile. Quantile regression is particularly useful when the rate of change in
the conditional quantile, expressed by the regression coefficients, depends on the quantile.
As an example of data with this structure, consider the scatterplot in Figure 1 of body mass index (BMI)
against age for 8,250 men from a four-year (1999–2002) survey by the National Center for Health Statistics.
More details about the data can be found in Chen (2004). Body mass index, defined as the ratio of weight
(kg) to squared height (m2), is a measure of overweight or underweight. The percentiles of BMI for specified
ages are of particular interest. As age increases, these percentiles provide growth patterns of BMI not only
for the majority of the population, but also for underweight or overweight extremes of the population. In
addition, the percentiles of BMI for a specified age provide a reference for individuals at that age with
respect to the population.
The curves in Figure 1 represent fitted conditional quantiles of BMI, including the median, computed with
the QUANTREG procedure for a polynomial regression model in age. During the quick growth period (ages
2 to 20), the dispersion of BMI increases dramatically; it becomes stable during middle age, and then it
contracts after age 60. This pattern suggests that an effective way to control overweight in a population is
to start in childhood.
Note that ordinary least-squares regression can be used to estimate conditional percentiles by making
a distributional assumption such as normality for the error term in the model. However, it would not be
appropriate here since the difference between each fitted percentile curve and the mean curve would be
constant with age. Least-squares regression assumes that the covariates affect only the location of the
conditional distribution of the response, and not its scale or any other aspect of its distributional shape.
The main advantage of quantile regression over least-squares regression is its flexibility for modeling data
with heterogeneous conditional distributions. Data of this type occur in many fields, including econometrics,
survival analysis, and ecology; refer to Koenker and Hallock (2001). Quantile regression provides a
complete picture of the covariate effect when a set of percentiles is modeled, and it makes no distributional
assumption about the error term in the model.
The next section provides a more formal definition of quantile regression, followed by a closer look at the use
of the QUANTREG procedure in the BMI example. A second example introduces nonparametric quantile
regression. Subsequent sections discuss various aspects of quantile regression, including algorithms for
estimating regression coefficients, confidence intervals, statistical tests, detection of leverage points and
outliers, and quantile process plots. These aspects are illustrated with a third example using economic
growth data. The last section discusses the scalability of the QUANTREG procedure.
QUANTILE REGRESSION
Quantile regression generalizes the concept of a univariate quantile to a conditional quantile given one or
more covariates.
For a random variable Y with probability distribution function
F(y) = Prob (Y y)
the th quantile of Y is defined as the inverse function
Q( ) = inf {y : F(y) }
Recall that a student’s score on a test is at the th quantile if his (or her) grade is better than 100% of the students who took the
test. The score is also said to be at the 100th percentile.
where 0 < < 1. In particular, the median is Q(1/2).
For a random sample {y1, ..., yn} of Y , it is well known that the sample median is the minimizer of the sum
of absolute deviations
min
2R
Xn
i=1
|yi − |
Likewise, the general th sample quantile ( ), which is the analogue of Q( ), may be formulated as the
solution of the optimization problem
min
2R
Xn
i=1
(yi − )
where (z) = z( − I(z < 0)), 0 < < 1. Here I(·) denotes the indicator function.
Just as the sample mean, which minimizes the sum of squared residuals
ˆμ = argminμ2R
Xn
i=1
(yi − μ)2
can be extended to the linear conditional mean function E(Y |X = x) = x0 by solving
ˆ = argmin2Rp
Xn
i=1
(yi − x0
i)2
the linear conditional quantile function, Q( |X = x) = x0( ), can be estimated by solving
ˆ ( ) = argmin2Rp
Xn
i=1
(yi − x0
i)
for any quantile 2 (0, 1). The quantity ˆ ( ) is called the th regression quantile. The case = 1/2,
which minimizes the sum of absolute residuals, corresponds to median regression, which is also known as
L1 regression.
USING THE QUANTREG PROCEDURE
The QUANTREG procedure computes the quantile function Q( |X = x) and conducts statistical inferences
on the estimated parameters ˆ ( ). This section introduces the QUANTREG procedure by revisiting the
body mass index example and by applying nonparametric quantile regression to ozone data.
Growth Charts with Body Mass Index
Smooth quantile curves have been widely used for reference charts in medical diagnosis to identify unusual
subjects, whose measurements lie in the tails of the reference distribution. This example explains how to
use the QUANTREG procedure to create growth charts for BMI.
A SAS data set named bmimen was created by merging and cleaning the 1999–2000 and 2001–2002
survey results for men published by the National Center for Health Statistics. This data set contains the
แนะนำขั้นตอนและกระบวนการควอนไทล์ quantreg นามธรรม
ปกติวิธีถดถอยแบบความสัมพันธ์ระหว่างหนึ่งหรือมากกว่าความรู้ X และเงื่อนไข
หมายถึงการตอบสนองตัวแปร Y ให้ X = X . ในทางตรงกันข้าม , ควอนไทล์ถดถอยรูปแบบความสัมพันธ์
ระหว่าง X และ Y quantiles ตามเงื่อนไขให้ x = x , ดังนั้นมันจึงเป็นประโยชน์ โดยเฉพาะอย่างยิ่งในการใช้งานที่
สุดขั้วเป็นสำคัญ เช่น การศึกษาสิ่งแวดล้อมที่ด้านบน quantiles ระดับมลพิษที่สำคัญ
จากสาธารณสุขมุมมอง ควอนไทล์ถดถอยยังให้ภาพที่สมบูรณ์มากขึ้นของการกระจายแบบมีเงื่อนไข
Y ให้ x = x เมื่อทั้งบนและล่าง หรือ ทั้งหมด quantiles มีความสนใจใน
การวิเคราะห์ดัชนีมวลร่างกายที่ทั้งล่าง ( underweight ) และด้านบน ( อ้วน ) quantiles อย่างใกล้ชิด
ดูมาตรฐานสุขภาพ กระดาษนี้จะอธิบายขั้นตอน quantreg ใหม่ใน SAS 9.1 ซึ่งคำนวณประมาณการปริมาณ
และที่เกี่ยวข้องกับการแก้ไขดัดแปลงโดย ควอนไทล์ของวิธี
แนะนำเกณฑ์ กระดาษนี้แนะนำ quantreg ขั้นตอน ,ซึ่งคำนวณจากปริมาณที่เกี่ยวข้องสำหรับ
ควอนไทล์การถดถอย SAS ส่วนรุ่นทดลองของกระบวนการสามารถดาวน์โหลดได้จาก
ดาวน์โหลดซอฟต์แวร์ที่สนับสนุน เช่น . com .
ธรรมดาวิธีการหนึ่งหรือมากกว่าหนึ่งรูปแบบความสัมพันธ์ระหว่างความรู้และเงื่อนไขของ x
หมายถึงการกำหนดตัวแปร x y = x
ควอนไทล์ถดถอย ซึ่งแนะนำโดย koenker Bassett ( 1978 ) และขยายแบบจำลองการถดถอยในเงื่อนไขของการ quantiles
ตัวแปรเช่นร้อยละ 90 . ควอนไทล์ถดถอยเป็นประโยชน์โดยเฉพาะอย่างยิ่งเมื่อการเปลี่ยนแปลงอัตรา
ควอนไทล์ในเงื่อนไข แสดงโดยสัมประสิทธิ์ถดถอย ขึ้นอยู่กับควอนไทล์ .
เป็นตัวอย่างของข้อมูลที่มีโครงสร้างนี้พิจารณา scatterplot ในรูปที่ 1 ของดัชนีมวลร่างกาย ( BMI )
กับ 8250 ผู้ชายอายุ 4 ปี ( ปี 1999 - 2002 ) สำรวจโดยศูนย์สถิติสุขภาพแห่งชาติ .
รายละเอียดเพิ่มเติมเกี่ยวกับข้อมูลที่สามารถพบได้ใน เฉิน ( 2004 ) ดัชนีมวลร่างกาย หมายถึง อัตราส่วนของน้ำหนัก ( กิโลกรัม ) ส่วนสูงยกกำลังสอง
( M2 ) คือ การวัดน้ำหนักตัวมากเกินหรือต่ำ ที่เป็นเปอร์เซ็นต์ของค่าดัชนีมวลกายสำหรับระบุ
ทุกเพศทุกวัยมีความสนใจเฉพาะ เป็นการเพิ่มอายุ เปอร์เซ็นต์เหล่านี้มีรูปแบบการเจริญเติบโตของ BMI ไม่เพียง
สำหรับส่วนใหญ่ของประชากร แต่ยังต่ำ หรืออ้วนสุดขั้วของประชากร ใน
ส่วนเปอร์เซ็นต์ของค่าดัชนีมวลกายสำหรับอายุที่ระบุให้การอ้างอิงสำหรับบุคคลวัยนี้ด้วย
ส่วนประชากรเส้นโค้งในรูปที่ 1 แสดงการติดตั้ง quantiles เงื่อนไขของค่าดัชนีมวลกายรวมทั้งมัธยฐาน คำนวณกับ
ขั้นตอน quantreg สำหรับการวิเคราะห์การถดถอยพหุนามในยุค ในช่วงระยะเวลาการเจริญเติบโตอย่างรวดเร็ว ( อายุ
2 ( 20 ) , การเพิ่มขึ้นของค่าดัชนีมวลกายอย่างมาก มันกลายเป็นมีเสถียรภาพในช่วงวัยกลางคน แล้วมัน
สัญญาหลังจากอายุ 60รูปแบบนี้ชี้ให้เห็นว่าวิธีที่มีประสิทธิภาพในการควบคุมโรคอ้วนในประชากรเริ่มต้นในวัยเด็ก
.
ทราบว่าวิธีการปกติสามารถใช้ในการประมาณการเปอร์เซ็นต์ตามเงื่อนไข โดยการสุ่ม
อัสสัมชัญเช่นปกติในระยะข้อผิดพลาดในรูปแบบ แต่มันจะไม่ถูก
ที่เหมาะสมที่นี่ เนื่องจากความแตกต่างระหว่างแต่ละค่าติดตั้งโค้งและหมายถึงเส้นโค้งจะ
คงที่กับอายุ การถดถอยกำลังสองน้อยที่สุดถือว่าความรู้มีผลต่อเฉพาะตำแหน่งของ
เงื่อนไขกระจายการตอบสนอง และด้านอื่น ๆของขนาดหรือรูปร่าง
สุ่ม .ประโยชน์หลักของการถดถอยกว่าวิธีควอนไทล์สมการคือความยืดหยุ่นของการจำลองข้อมูลตามเงื่อนไขการแจกแจงข้อมูล
ด้วย . ข้อมูลประเภทนี้เกิดขึ้นในหลายด้าน รวมถึงเศรษฐมิติการวิเคราะห์และนิเวศวิทยา
, , อยู่รอด ; อ้างถึง และ koenker Hallock ( 2001 ) ควอนไทล์ถดถอยให้
ภาพที่สมบูรณ์ของชุดผลเมื่อชุดของเปอร์เซ็นไทล์เป็นหุ่นจำลองและมันไม่สุ่ม
ข้อสมมติเกี่ยวกับในระยะข้อผิดพลาดในรูปแบบ .
ส่วนถัดไปมีการนิยามของควอนไทล์ถดถอยลงมามองใกล้ที่ใช้
ของกระบวนการ quantreg ในค่าเช่น ตัวอย่างที่สองเปิดตัวควอนไทล์
การถดถอย ต่อมาส่วนที่หารือด้านต่างๆของควอนไทล์ถดถอย รวมทั้งขั้นตอนวิธีสำหรับ
การประมาณค่าสัมประสิทธิ์การถดถอยความเชื่อมั่นการทดสอบทางสถิติ การตรวจหาจุด leverage และ
ผิดปกติ และกระบวนการควอนไทล์แปลง ลักษณะเหล่านี้มีภาพประกอบกับสามตัวอย่างที่ใช้ข้อมูลการเติบโตทางเศรษฐกิจ
ส่วนสุดท้ายกล่าวถึงการทำงานของกระบวนการ quantreg ถดถอย
.
ควอนไทล์ควอนไทล์ถดถอยเช่นนี้ได้ขยายแนวคิดของควอนไทล์ เพื่อรักษาเงื่อนไขควอนไทล์ได้รับความรู้เพิ่มเติมหรือ
.
สำหรับฟังก์ชันการแจกแจงความน่าจะเป็นตัวแปรสุ่ม Y
F ( Y ) ( Y prob = Y )
th ควอนไทล์ของ Y หมายถึงฟังก์ชันผกผัน
Q ( ) = inf { Y : f ( y ) }
จำได้ว่าเป็นนักเรียนคะแนนในการทดสอบที่ th ควอนไทล์ ถ้าเขา ( หรือเธอ ) เกรดดีกว่า 100 % ของนักศึกษาที่เรียน
ทดสอบ คะแนนก็บอกว่าจะอยู่ที่ 100 th ? .
ที่ 0 < < 1 โดยเฉพาะอย่างยิ่ง มัธยฐานคือ Q ( 1 / 2 ) .
สำหรับการสุ่มตัวอย่าง y1 } { , Y . . . . . ในที่สุดก็เป็นที่รู้จักกันดีว่ามัธยฐานตัวอย่างเป็นผู้ทำให้มีค่าน้อยลงของผลรวมของค่า
แน่นอนมิน
ซิน 2R = 1
ฉัน| ยี− |
โดย th ทั่วไปตัวอย่างควอนไทล์ ( ) ซึ่งเป็นอะนาล็อกของ Q ( ) อาจกำหนดเป็นทางออกของปัญหาที่เหมาะสม
ซินมิน 2R = 1
( ยี− )
( ที่ ) Z = z ( − i ( Z < 0 ) ) , 0 < < 1 ที่นี่ฉัน ( ด้วย ) หมายถึงการทำงาน .
เช่นเดียวกับค่าเฉลี่ยตัวอย่างซึ่งช่วยลดผลรวมของค่าคลาดเคลื่อนกำลังสองˆμ =
ผมซิน argmin μ 2R = 1
( ยี− 2
μ )สามารถขยายไปยังฟังก์ชันเชิงเส้นที่มีเงื่อนไขว่า E ( Y | x = x = x0 แก้
ˆ = argmin 2rp
ซิน
( ยีผม = 1 − x0
ฉัน ) 2
ควอนไทล์เป็นฟังก์ชันเชิงเส้น , Q ( | x = x = x0 ( ) สามารถประมาณได้โดยการแก้
ˆ ( ) = argmin 2rp
ผมซิน = 1
( ยี− x0
ผม ) ใด ๆ ควอนไทล์ 2 ( 0 , 1 ) ปริมาณˆ ( ) เรียกว่า th ถดถอยควอนไทล์ . กรณี
= 1 / 2ซึ่งช่วยลดผลรวมของค่าคลาดเคลื่อนสัมบูรณ์เฉลี่ยสอดคล้องกับสมการถดถอย ซึ่งจะเรียกว่า L1
คน โดยใช้วิธีการ quantreg
ขั้นตอน quantreg คำนวณฟังก์ชันควอนไทล์ Q ( | X = X ) และความประพฤติ
สรุปสถิติประมาณการพารามิเตอร์ˆ ( ) ในส่วนนี้แนะนำขั้นตอน quantreg โดย revisiting
การแปล กรุณารอสักครู่..