The General Linear Model and PROC GLM
The general linear model in statistics has the form Y = b0 + b1X1 + b2X2 + ... + bkXk + e, where e
represents a random error term which is assumed to be normally distributed with mean 0 and constant
variance and does not depend on the value of any other observation. A linear regression model is one
example of a GLM. Analysis of variance (ANOVA) and analysis of covariance (ANOCOVA) models are also
examples of GLMs. These use indicator variables to represent the different categorical levels of a factor. An
example of an indicator variable is X1=1 if the subject is male, 0 if female. Then, b1 represents the mean
difference between males and females.
The most commonly used procedure for fitting these models in SAS is PROC GLM. The Little SAS Book
describes PROC ANOVA rather than PROC GLM. However, PROC GLM follows the same general syntax as
PROC ANOVA and is more versatile. Also, PROC ANOVA was developed specifically for balanced data, or
data in which all combinations of factors are observed an equal number of times. This situation does not
always occur. For these reasons, we will learn to use PROC GLM rather than PROC ANOVA.
When fitting a general linear model, the first statement is PROC GLM. Next, a CLASS statement is used.
Here, list any variables whose values should be regarded to be categories. For example, suppose that
temperature is an effect in your model, with values of 1, 2, 3, and 4. If you specify the temperature in the
CLASS statement, then SAS will fit a model which investigates differences among the four levels
individually. For example, it will be possible for SAS to find that temperatures 1 and 3 have higher
responses than temperatures 2 and 4. However, if you leave temperature out of the CLASS statement, then
SAS will assume that 1, 2, 3, and 4 are numerical measurements of temperature, such as degrees Celsius,
to be fitted with a regression coefficient. In other words, you will be telling SAS that you expect some
constant gradient to reflect the differences among 1, 2, 3, and 4, and you want to estimate the number
that reflects the change in the response for each one-unit difference in temperature. A CLASS statement
must list all character variables to be used in the model. If you do not use a CLASS statement in PROC
GLM, then SAS will fit a linear regression model.
Next, the MODEL statement is used to specify the response and its predictors. Models involving categorical
data, such as ANOVA and ANOCOVA models, can have complicated terms to indicate interaction and
nesting terms, and these must be carefully specified in the MODEL statement. The interaction of two
factors A and B is used when we think that the differences among levels of B may depend on the level of A;
this term is specified as A*B. If B is nested within A, then each level of A is measured with several levels of
B, but the levels of B change among levels of A. This term is written as B(A). Do not write terms such as
A*B and B(A) in the CLASS statement; they may appear in the MODEL statement.
Suppose that we want to examine the effects of two types of fertilizer (FERTILIZ) on strawberry yields
(YIELD). To do this, we use two varieties (VARIETY) of strawberry and use three different rates (RATE) of each fertilizer. Two replicates (REPLICAT) are measured for each set of conditions. The dataset may look
like this:
แบบจำลองเชิงเส้นทั่วไปและ PROC GLMแบบจำลองเชิงเส้นทั่วไปสถิติมีฟอร์ม Y = b0 + b1X1 + b2X2 +... + bkXk + e ซึ่งอีหมายถึงเงื่อนไขข้อผิดพลาดแบบสุ่มซึ่งสมมติให้มีกระจายปกติ มีค่าเฉลี่ย 0 และค่าคงผลต่าง และขึ้นอยู่กับค่าเก็บข้อมูลอื่น แบบจำลองถดถอยเชิงเส้นเป็นหนึ่งตัวอย่างของการ GLM วิเคราะห์ผลต่างของ (การวิเคราะห์ความแปรปรวน) และวิเคราะห์ความแปรปรวนร่วม (ANOCOVA) รุ่นตัวอย่างของ GLMs เหล่านี้ใช้ตัวแปรบ่งชี้ถึงระดับแตกต่างกันของปัจจัยการ มีตัวอย่างของตัวแปรตัวบ่งชี้คือ X 1 = 1 ถ้าเรื่องชาย 0 ถ้าหญิง แล้ว b1 แทนค่าเฉลี่ยความแตกต่างระหว่างชายและหญิงขั้นตอนใช้บ่อยเหมาะสมรูปแบบเหล่านี้ใน SAS เป็น PROC GLM หนังสือ SAS น้อยอธิบายกระบวนการวิเคราะห์ความแปรปรวนมากกว่า PROC GLM อย่างไรก็ตาม PROC GLM ตามไวยากรณ์ทั่วไปเดียวกันเป็นกระบวนการวิเคราะห์ความแปรปรวน และเป็นประโยชน์ กระบวนการวิเคราะห์ความแปรปรวนถูกพัฒนาขึ้นโดยเฉพาะสำหรับข้อมูลสมดุล ยัง หรือข้อมูลชุดของปัจจัยทั้งหมดที่สังเกตได้จำนวนครั้งเท่า กรณีนี้ไม่ได้เกิดขึ้นเสมอ ด้วยเหตุนี้ เราจะได้เรียนรู้การใช้ PROC GLM มากกว่ากระบวนการการวิเคราะห์ความแปรปรวนเมื่อแบบจำลองเชิงเส้นทั่วไปที่เหมาะสม คำสั่งแรกเป็น PROC GLM ถัดไป จะใช้คำระดับนี่ แสดงรายการตัวแปรใด ๆ ที่มีค่าควรถือว่าเป็น ประเภท ตัวอย่าง สมมติว่าอุณหภูมิมีผลกระทบในรูปแบบของคุณ มีค่า 1, 2, 3 และ 4 ถ้าคุณระบุในการคลาสงบ แล้ว SAS จะพอดีกับรูปแบบที่แตกต่างระหว่างระดับ 4 การตรวจสอบแต่ละ ตัวอย่าง มันจะเป็น SAS หาที่อุณหภูมิ 1 และ 3 ได้สูงสุดตอบสนองมากกว่าอุณหภูมิ 2 และ 4 อย่างไรก็ตาม ถ้าคุณปล่อยอุณหภูมิจากชั้นยอด แล้วSAS จะสมมติว่า 1, 2, 3 และ 4 เป็นตัวเลขวัดอุณหภูมิ เช่นองศาเซลเซียสการได้อาบสัมประสิทธิ์ถดถอย ในคำอื่น ๆ คุณจะสามารถบอก SAS ที่ คุณคาดหวังบางอย่างไล่ระดับสีที่คงที่เพื่อแสดงความแตกต่างระหว่าง 1, 2, 3 และ 4 และคุณต้องการประเมินจำนวนที่สะท้อนให้เห็นถึงการเปลี่ยนแปลงในการตอบสนองในความแตกต่างของแต่ละหนึ่งหน่วยอุณหภูมิ คำสั่งระดับต้องแสดงรายการตัวแปรอักขระทั้งหมดที่จะใช้ในแบบจำลอง ถ้าคุณไม่ได้ใช้งบระดับกระบวนการGLM แล้ว SAS จะพอดีแบบจำลองถดถอยเชิงเส้นถัดไป รายงานรุ่นใช้เพื่อระบุการตอบสนองและ predictors ของ รุ่นเกี่ยวข้องกับแตกข้อมูล เช่นรูปแบบการวิเคราะห์ความแปรปรวนและ ANOCOVA สามารถซับซ้อนคำเพื่อบ่งชี้ว่า การโต้ตอบ และเงื่อนไขซ้อน และเหล่านี้ต้องระมัดระวังระบุในคำสั่งรูปแบบ การโต้ตอบที่สองปัจจัย A และ B จะใช้เมื่อเราคิดว่า ความแตกต่างระหว่างระดับของ B อาจขึ้นอยู่กับระดับของ Aระยะนี้มีระบุเป็น A * B ถ้า B จะซ้อนอยู่ใน A แล้วแต่ละระดับของ A วัด มีหลายระดับB แต่ในระดับของ B เปลี่ยนแปลงในระดับของ คำนี้เขียนเป็น B(A) ไม่ต้องเขียนคำเช่นA * B และ B(A) ในงบระดับ พวกเขาอาจปรากฏในรูปแบบรายงานสมมติว่า เราต้องการตรวจสอบผลกระทบของปุ๋ย (FERTILIZ) สองชนิดในผลผลิตสตรอเบอรี่(ผลผลิต) การทำเช่นนี้ เราใช้สองสายพันธุ์ (หลากหลาย) ของสตรอเบอร์รี่ และใช้สามอัตราต่าง ๆ (อัตรา) ของปุ๋ยแต่ละ (REPLICAT) เหมือนกับสองเป็นวัดสำหรับแต่ละชุดของเงื่อนไข ชุดข้อมูลอาจดูแบบนี้:
การแปล กรุณารอสักครู่..

ตรงรุ่นทั่วไปและ PROC GLM
แบบจำลองเชิงเส้นทั่วไปในสถิติมีรูปแบบ Y = b0 + b1X1 b2X2 + + ... + bkXk + e ที่ E
หมายถึงระยะความผิดพลาดแบบสุ่มซึ่งจะถือว่าการกระจายตามปกติที่มีค่าเฉลี่ย 0 และ คงที่
แปรปรวนและไม่ได้ขึ้นอยู่กับมูลค่าของการสังเกตอื่น ๆ รูปแบบการถดถอยเชิงเส้นเป็นหนึ่งใน
ตัวอย่างของ GLM การวิเคราะห์ความแปรปรวน (ANOVA) และการวิเคราะห์ความแปรปรวนร่วม (ANOCOVA) รุ่นนี้ยังมี
ตัวอย่างของ GLMs ตัวแปรตัวบ่งชี้การใช้งานเหล่านี้เพื่อเป็นตัวแทนระดับเด็ดขาดแตกต่างกันของปัจจัย
ตัวอย่างของตัวแปรตัวบ่งชี้คือ X1 = 1 ถ้าเรื่องเป็นชาย 0 ถ้าหญิง จากนั้น b1 หมายถึงหมายถึง
ความแตกต่างระหว่างเพศชายและหญิง.
ขั้นตอนการใช้กันมากที่สุดสำหรับการปรับรูปแบบเหล่านี้ในแซสเป็น PROC GLM ลิตเติ้ล SAS หนังสือ
อธิบาย PROC ANOVA มากกว่า PROC GLM อย่างไรก็ตาม PROC GLM ดังนี้ไวยากรณ์ทั่วไปเช่นเดียวกับ
PROC ANOVA และมีความหลากหลายมากขึ้น นอกจากนี้ PROC ANOVA ได้รับการพัฒนาโดยเฉพาะสำหรับข้อมูลที่สมดุลหรือ
ข้อมูลที่รวมกันของปัจจัยที่มีการตั้งข้อสังเกตจำนวนครั้งเท่า สถานการณ์เช่นนี้ไม่ได้
เกิดขึ้นได้เสมอ ด้วยเหตุผลเหล่านี้เราจะได้เรียนรู้ที่จะใช้ PROC GLM มากกว่า PROC ANOVA.
เมื่อกระชับแบบจำลองเชิงเส้นทั่วไปคำสั่งแรกคือ PROC GLM ถัดไปงบเรียนจะใช้.
นี่คือรายการตัวแปรใด ๆ ที่มีค่าควรได้รับการยกย่องให้เป็นหมวดหมู่ ตัวอย่างเช่นสมมติว่า
อุณหภูมิมีผลบังคับใช้ในรูปแบบของคุณมีค่า 1, 2, 3, และ 4 ถ้าคุณระบุอุณหภูมิใน
งบเรียนแล้ว SAS จะพอดีกับรูปแบบซึ่งสำรวจความแตกต่างระหว่างสี่ระดับ
รายบุคคล ยกตัวอย่างเช่นมันจะเป็นไปได้สำหรับ SAS จะพบว่าอุณหภูมิที่ 1 และ 3 มีความสูง
กว่าอุณหภูมิการตอบสนองที่ 2 และ 4 แต่ถ้าคุณปล่อยให้อุณหภูมิออกจากงบเรียนแล้ว
SAS จะสมมติว่า 1, 2, 3 และ 4 จะวัดเป็นตัวเลขของอุณหภูมิเช่นองศาเซลเซียส
จะพอดีกับค่าสัมประสิทธิ์การถดถอย ในคำอื่น ๆ ที่คุณจะได้รับการบอก SAS ที่คุณคาดว่าบาง
ลาดอย่างต่อเนื่องเพื่อสะท้อนให้เห็นถึงความแตกต่างระหว่าง 1, 2, 3, และ 4 และคุณต้องการที่จะประเมินจำนวน
ที่สะท้อนให้เห็นถึงการเปลี่ยนแปลงในการตอบสนองความแตกต่างกันสำหรับแต่ละหนึ่งหน่วยใน อุณหภูมิ งบเรียน
ต้องแสดงรายการตัวแปรตัวละครทั้งหมดที่จะใช้ในรูปแบบ หากคุณไม่ได้ใช้คำสั่งในชั้น PROC
GLM แล้ว SAS จะพอดีกับรูปแบบการถดถอยเชิงเส้น.
ต่อไปคำสั่งรุ่นถูกใช้เพื่อระบุการตอบสนองและการพยากรณ์ของ รุ่นที่เกี่ยวข้องกับเด็ดขาด
ข้อมูลเช่น ANOVA และรูปแบบ ANOCOVA สามารถมีเงื่อนไขซับซ้อนเพื่อบ่งชี้ถึงการปฏิสัมพันธ์และ
เงื่อนไขการทำรังและสิ่งเหล่านี้จะต้องระบุอย่างระมัดระวังในงบ MODEL การทำงานร่วมกันของทั้งสอง
ปัจจัย A และ B จะใช้เมื่อเราคิดว่าความแตกต่างระหว่างระดับของ B อาจขึ้นอยู่กับระดับของ;
คำนี้ถูกระบุว่าเป็น * B ถ้า B ซ้อนกันภายในแล้วระดับของแต่ละเป็นวัดที่มีหลายระดับของ
B แต่ระดับของการเปลี่ยนแปลงในหมู่ B ระดับของ A. คำนี้เขียนเป็น B (A) อย่าเขียนคำเช่น
* B และ B (A) ในงบชั้น; พวกเขาอาจปรากฏในงบ MODEL.
สมมติว่าเราต้องการที่จะตรวจสอบผลกระทบของทั้งสองประเภทของปุ๋ย (ปุ๋ย) ต่อผลผลิตสตรอเบอร์รี่
(ผลผลิต) การทำเช่นนี้เราจะใช้สองสายพันธุ์ (พันธุ์) สตรอเบอร์รี่และใช้สามอัตราที่แตกต่าง (อัตรา) ปุ๋ยแต่ละ สองซ้ำ (RepliCat) วัดสำหรับชุดของเงื่อนไขแต่ละ ชุดข้อมูลที่อาจมีลักษณะ
เช่นนี้
การแปล กรุณารอสักครู่..

โดยทั่วไปเชิงเส้นรูปแบบและ proc glm
แบบเชิงเส้นทั่วไปในสถิติมีรูปแบบ b1x1 b2x2 B0 Y = . . . . . . . bkxk E , E
แสดงข้อผิดพลาดแบบสุ่มระยะซึ่งสันนิษฐานได้ว่าเป็นแบบปกติที่มีค่าเฉลี่ยและความแปรปรวนคงที่
0 และไม่ขึ้นอยู่กับค่าอื่นๆ จากการสังเกต การถดถอยแบบเชิงเส้นเป็นหนึ่งในตัวอย่างของ glm
.การวิเคราะห์ความแปรปรวน ( ANOVA ) และการวิเคราะห์ความแปรปรวนร่วม ( anocova ) รุ่นยังมี
ตัวอย่างของ glms . ตัวบ่งชี้ที่ใช้ตัวแปรเหล่านี้เป็นตัวแทนอย่างแท้จริง ระดับของปัจจัย มีตัวอย่างของตัวบ่งชี้
ตัวแปร x1 = 1 ถ้าเรื่องเป็น 0 ถ้าชาย หญิง งั้น , B1 แสดงถึงความแตกต่างระหว่างเพศชายและเพศหญิงหมายถึง
.
ที่ใช้กันมากที่สุดรูปแบบในขั้นตอนที่เหมาะสมเหล่านี้เป็น proc SAS glm . เล็ก ๆน้อย ๆที่หนังสืออธิบาย proc SAS
( มากกว่า glm proc . อย่างไรก็ตาม , proc glm ตามเดียวกันทั่วไปไวยากรณ์มาก
proc ANOVA และหลากหลายมากขึ้น นอกจากนี้ การพัฒนาโดยเฉพาะสำหรับข้อมูล proc ความสมดุลหรือ
ข้อมูลซึ่งทั้งหมดรวมกันของปัจจัยเดียวเป็นจำนวนครั้ง สถานการณ์นี้ไม่ได้
มักจะเกิดขึ้น ด้วยเหตุผลเหล่านี้ เราต้องเรียนรู้ที่จะใช้ proc glm มากกว่า proc ANOVA .
เมื่อกระชับทั่วไปเชิงเส้นรูปแบบข้อความแรกคือ glm proc . ต่อไป ชั้นสั่งใช้
ที่นี่รายชื่อตัวแปรที่มีค่าควรถือว่าเป็นประเภท ตัวอย่างเช่นสมมติว่า
อุณหภูมิผลในรูปแบบของคุณกับค่าของ 1 , 2 , 3 และ 4ถ้าคุณระบุอุณหภูมิใน
งบคลาส แล้ว SAS จะพอดีกับรูปแบบซึ่งศึกษาความแตกต่างระหว่างระดับสี่
เป็นรายบุคคล ตัวอย่างเช่นจะเป็นไปได้สำหรับ SAS เพื่อหาที่ 1 และ 3 มีการตอบสนองที่อุณหภูมิที่สูงกว่าอุณหภูมิ
2 และ 4 อย่างไรก็ตาม หากปล่อยให้อุณหภูมิจากงบเรียนแล้ว
SAS จะสมมติว่า 1 , 2 , 3และ 4 . การวัดเชิงตัวเลขของอุณหภูมิ เช่น องศาเซลเซียส
จะติดตั้งที่มีถดถอยโดย ในคำอื่น ๆที่คุณจะต้องบอกลูกค้าที่คุณคาดหวังบางอย่าง
คงไล่ระดับเพื่อสะท้อนให้เห็นถึงความแตกต่างระหว่าง 1 , 2 , 3 , 4 และ คุณต้องประมาณการจำนวน
ที่สะท้อนให้เห็นถึงการเปลี่ยนแปลงในการตอบสนองในแต่ละหน่วยหนึ่ง ความแตกต่างของอุณหภูมิ เรียนชี้แจง
ต้องรายชื่อตัวแปรอักขระทั้งหมดที่จะใช้ในรูปแบบ ถ้าคุณไม่ได้ใช้งบในชั้นเรียน proc
glm แล้ว SAS จะพอดีกับตัวแบบการถดถอยเชิงเส้น .
ต่อไปงบแบบใช้ในการระบุการตอบสนองและพยากรณ์ แบบจำลองที่เกี่ยวข้องกับข้อมูลจำแนกประเภท
เช่นแบบ ANOVA และ anocova สามารถมีเงื่อนไขที่ซับซ้อน เพื่อแสดงความสัมพันธ์และ
แง่ทำรังและเหล่านี้จะต้องระบุไว้ในแถลงการณ์อย่างนางแบบ ปฏิสัมพันธ์ของทั้งสอง
ปัจจัย A และ B จะถูกใช้เมื่อเราคิดว่า ความแตกต่างระหว่างระดับ B อาจขึ้นอยู่กับระดับของ ;
เทอมนี้ถูกกำหนดเป็น * บี ถ้าบีอยู่ภายใน แล้วระดับของแต่ละวัดมีหลายระดับของ
B แต่ระดับบี การเปลี่ยนแปลงในระดับของ เทอมนี้เขียนเป็น B ( A )อย่าเขียนเงื่อนไขเช่น
* B และ B ( A ) ในงบชั้น ; พวกเขาอาจจะปรากฏในงบแบบ
สมมติว่าเราต้องการตรวจสอบผลของทั้งสองประเภทของปุ๋ย ( fertiliz ) ผลผลิตสตรอเบอรี่
( ผลผลิต ) ทำแบบนี้ เราใช้สองสายพันธุ์ ( หลากหลาย ) ของสตรอเบอรี่ และใช้ 3 อัตรา ( อัตราของแต่ละคนแตกต่างกัน ) ปุ๋ย สองแบบ ( ฟรี ) เป็นวัดสำหรับแต่ละชุดของเงื่อนไขข้อมูลอาจดู
เช่นนี้ :
การแปล กรุณารอสักครู่..
