Measures of the Magnitude of DIF (Effect size)
Two points are noteworthy at this juncture. First, as per usual in statistical
hypothesis testing, the test statistic should accompanied by some measure of the
magnitude of the effect. This is necessary because small sample sizes can hide interesting
statistical effects whereas large sample sizes (like the ones found in typical psychometric
studies) can point to statistically significant findings where the effect is quite small and
meaningless (Kirk, 1996). Second, I endorse the advice of Zumbo and Hubley (1998)
who urge researchers to report effect sizes for both statistically significant and for
statistically non-significant results. Following this practice, with time the psychometric
community will have amassed an archive of effects for both statistically significant and
Theory and Methods of DIF 27
non-significant DIF and therefore we can eventually move away from the somewhat
arbitrary standards set by Cohen (1992).
Measuring the magnitude of DIF follows, as it should, the same strategy as the
statistical hypothesis testing except that one only works with the R-squared values at each
step. Zumbo and Thomas (1997) indicate that an examination of both the 2-df Chi-square
test (of the likelihood ratio statistics) in logistic regression and a measure of effect size is
needed to identify DIF. Without an examination of effect size, trivial effects could be
statistically significant when the DIF test is based on a large sample size (i.e., too much
statistical power). The Zumbo-Thomas measure of effect size for R2 parallels effect size
measures available for other statistics (see Cohen, 1992).
For an item to be classified as displaying DIF, the two-degree-of-freedom Chisquared
test in logistic regression had to have had a p-value less than or equal to 0.01 (set
at this level because of the multiple hypotheses tested) and the Zumbo-Thomas effect size
measure had to be at least an R-squared of 0.130. Pope (1997) has applied a similar
criterion to binary personality items. It should be noted that Gierl and his colleagues
(Gierl & McEwen, 1998, Gierl, Rogers, and Klinger, 1999) have adopted a more
conservative criteria (i.e., the requisite R-squared for DIF is smaller) for the Zumbo-
Thomas effect size in the context of educational measurement. They have also shown
that the Zumbo-Thomas effect size measure is correlated with other DIF techniques like
the Mantel-Haenszel and SIBTEST hence lending validity to the method.
In summary, I have found that a useful practice is to compute the R-squared effect
for both (a) uniform DIF, and (b) a simultaneous test of uniform and non-uniform DIF.
This strategy is useful because one is able to take advantage of the hierarchical nature of
DIF modeling and therefore compare the R-squared for uniform DIF with the
simultaneous uniform and non-uniform DIF to gage a sense of the magnitude or nonuniform
DIF. The examples will demonstrate this approach.
การวัดขนาดของดิฟ ( ขนาดพิเศษ )สองจุดที่น่าสังเกตในช่วงหัวเลี้ยวหัวต่อนี้ แรก ตามปกติในทางสถิติการทดสอบสมมติฐาน การทดสอบทางสถิติควรมีบางวัดของขนาดของผล นี้เป็นสิ่งจำเป็นเนื่องจากขนาดตัวอย่างขนาดเล็กสามารถซ่อนที่น่าสนใจสถิติผลและขนาดตัวอย่างใหญ่ ( เหมือนที่พบในทั่วไปทางจิตวิทยาการศึกษา ) อย่างมีนัยสำคัญทางสถิติที่สามารถชี้ผล ผลค่อนข้างเล็ก และไม่มีความหมาย ( เคิร์ก , 1996 ) ประการที่สอง ผมยอมรับคำแนะนำของ zumbo ฮับลีย์ ( 1998 ) และที่กระตุ้นให้นักวิจัยรายงานผลขนาดทั้งสองอย่างมีนัยสำคัญทางสถิติและนัยสำคัญทางสถิติผลอย่างมีนัยสำคัญ ต่อไปนี้การปฏิบัตินี้ ด้วยเวลาทางจิตวิทยาชุมชนจะสะสมเก็บผลทั้งสองอย่างมีนัยสำคัญทางสถิติและทฤษฎีและวิธีการแยก 27พบว่าระดับและดังนั้นเราสามารถย้ายหนีไปในที่สุด จาก ค่อนข้างกฎเกณฑ์ มาตรฐานที่กำหนดโดยโคเฮน ( 1992 )การวัดขนาดของดิฟดังนี้เท่าที่ควร กลยุทธ์ เหมือนกันสถิติการทดสอบสมมติฐาน ยกเว้นตัวนั้นใช้ได้เฉพาะกับ r-squared คุณค่าที่แต่ละขั้นตอน zumbo โธมัส ( 1997 ) ระบุว่า การตรวจสอบของทั้ง 2-df ไคสแควร์ทดสอบ ( ของความน่าจะเป็นและสถิติถดถอยแบบอัตราส่วนในการวัดขนาดของผล คือต้องระบุแยก . โดยไม่มีการตรวจสอบขนาดของผล ผล เล็กน้อย อาจจะอย่างมีนัยสำคัญทางสถิติที่ระดับการทดสอบจะขึ้นอยู่กับขนาดตัวอย่างใหญ่ ( เช่น มากเกินไปสถิติพลังงาน ) การ zumbo โทมัส การวัดขนาดของผลสำหรับ R2 เปรียบเทียบผลขนาดมาตรการที่ใช้ได้สำหรับสถิติอื่น ๆ ( ดู โคเฮน , 1992 )สำหรับรายการที่ถูกจัดว่าเป็น แสดงระดับ สองระดับของเสรีภาพ chisquaredทดสอบในการถดถอยโลจิสติกต้องมี p-value น้อยกว่าหรือเท่ากับ 0.01 ( ชุดในระดับนี้ เพราะหลายสมมติฐานทดสอบ ) และ zumbo โทมัส ผลขนาดวัดต้องมีอย่างน้อยหนึ่ง r-squared ของ 0.130 . สมเด็จพระสันตะปาปา ( 1997 ) ได้ใช้ที่คล้ายกันเกณฑ์การรายการบุคลิกภาพแบบไบนารี มันควรจะสังเกตว่า gierl และเพื่อนร่วมงานของเขา( gierl & McEwen , 1998 , gierl โรเจอร์ และ คลิงเงอร์ , 1999 ) ได้ประกาศใช้เพิ่มเติมเกณฑ์อนุรักษ์นิยม ( เช่น r-squared ที่จําเป็นสําหรับ DIF ขนาดเล็ก ) สำหรับ zumbo -โทมัสขนาดอิทธิพลในบริบทของการวัดผลการศึกษา พวกเขายังได้แสดงที่ zumbo โทมัส ผลขนาดวัด มีความสัมพันธ์กับระดับเทคนิคอื่นๆ เช่นอะ - ตรวจสอบความถูกต้องและจึงให้ยืมเพื่อวิธีการในการสรุป , ฉันได้พบว่า การฝึกที่มีประโยชน์คือการ คำนวณ r-squared ผลทั้ง ( A ) dif เครื่องแบบ และ ( ข ) การทดสอบพร้อมกันสม่ำเสมอและไม่สม่ำเสมอดิฟ .กลยุทธ์นี้จะเป็นประโยชน์เพราะสามารถใช้ประโยชน์จากการของธรรมชาติจึงเปรียบเทียบ r-squared สำหรับชุดดิฟกับแบบดิฟชุดพร้อมกัน และความไม่สม่ำเสมอของดิฟ gage ความรู้สึกของขนาดหรือความไม่สม่ำเสมอดิฟ . ตัวอย่างจะแสดงให้เห็นถึงวิธีการนี้
การแปล กรุณารอสักครู่..
