Reliabilities and Standard Errors of Measurement
Score Scale Reliability Estimate
SEM
Reading 0-30 0.85 3.35
Listening 0-30 0.85 3.20
Speaking 0-30 0.88 1.62
Writing 0-30 0.74 2.76
Total 0-120 0.94 5.64
The reliability estimates for the Reading, Listening, Speaking, and Total scores are relatively high, while the reliability of the Writing score is somewhat lower. This is a typical result for writing measures composed of only two tasks (Breland, Bridgeman, & Fowles, 1999) and reflects one well-documented limitation of performance testing—reliability estimates for measures composed of a small number of time-consuming tasks are often lower than estimates for measures composed of many shorter, less time-consuming tasks. However, the construct of academic writing as defined for the TOEFL iBT test required the production of extended writing samples (Cumming, Kantor, Powers, Santos, & Taylor, 2000). One implication
of these results is that, for making high-stakes decisions such as admissions to college or graduate school, the Total score provides the best information, both because it reflects all four language skills and because it is the most reliable. Nevertheless, there are circumstances under which decision makers may want to examine the profile of scores for test takers, such as the demands of the curriculum or a need for additional language training. Also note that ETS encourages score users to consider a number of other factors, when making admissions decisions, including grade point average, scores on other admissions exams, teacher recommendations, and interviews with individuals.
The reliability estimates in Table 1 are what are used for the TOEFL iBT operational test scores. Other types of reliability estimates also exist that take into account other sources of variability such as differences in test forms or changes in examinees’ performances from day to day. Alternate form reliability, for example, is calculated based on examinees’ scores on two different forms of a test. This requires examinees to take two different test forms, something only a few examinees would volunteer to do. But some examinees do take the test twice during a period of time too short for much learning to occur, for reasons of their own. An analysis of the scores of these repeat test takers on the two test forms provides an approximation of alternate form reliability. Zhang (February 2008) compared the test scores of more than 12,000 examinees who were identified as having taken two TOEFL iBT tests within a period of one month. The correlations of their scores on the two test forms were 0.77 for the listening and writing sections, 0.78 for reading, 0.84 for speaking, and 0.91 for the total test score. Because these measures of reliability take into account additional sources of variability, they are typically lower than internal consistency measures. Nevertheless, they indicate a high degree of consistency in the rank ordering of the scores of these test repeaters.
Reliabilities และข้อผิดพลาดมาตรฐานของการวัดประเมินระดับคะแนนความน่าเชื่อถือSEMอ่าน 0-30 0.85 3.35ฟัง 0-30 0.85 3.20พูด 0-30 0.88 1.62เขียน 0-30 0.74 2.760-120 รวม 0.94 5.64ประเมินความน่าเชื่อถือสำหรับการอ่าน ฟัง พูด และคะแนนรวมค่อนข้างสูง ในขณะที่ความน่าเชื่อถือของคะแนนเขียนค่อนข้างล่าง นี้เป็นผลโดยทั่วไปสำหรับเขียนมาตรการประกอบด้วยงานสองเท่า (Breland, Bridgeman, & Fowles, 1999) และสะท้อนให้เห็นถึงข้อจำกัดของเอกสารแห่งหนึ่งของการทดสอบประสิทธิภาพซึ่งประเมินความน่าเชื่อถือสำหรับมาตรการประกอบด้วยจำนวนน้อยของงานที่ใช้เวลานานมักต่ำกว่าประเมินสำหรับมาตรการประกอบด้วยหลายที่สั้นกว่า น้อยกว่าเวลางาน อย่างไรก็ตาม โครงสร้างของการเขียนเชิงวิชาการตามที่กำหนดไว้สำหรับการทดสอบ TOEFL iBT ต้องผลิตตัวอย่างการเขียนแบบขยาย (Cumming, Kantor อำนาจ ซานโตส และ เทย์เลอร์ 2000) ปริยายหนึ่ง ผลเหล่านี้ได้ว่า ตัดสินระทึกเช่นสมัครเรียนวิทยาลัยหรือบัณฑิตวิทยาลัย คะแนนรวมให้ข้อมูลดีที่สุด เนื่อง จากมันสะท้อนทั้งหมด 4 ภาษา และเนื่อง จากเป็นที่เชื่อถือได้มากที่สุด อย่างไรก็ตาม มีสถานการณ์ที่ผู้ตัดสินใจอาจต้องการตรวจสอบโพรไฟล์ของคะแนนสำหรับผู้ทำการทดสอบ เช่นความต้องการของหลักสูตรหรือต้องการฝึกภาษาเพิ่มเติม นอกจากนี้ยัง ทราบว่า ETS ให้คะแนนให้พิจารณาปัจจัยอื่น ๆ เมื่อทำการตัดสินใจสมัครเรียน คะแนนเฉลี่ย คะแนนในการรับสมัครสอบ คำแนะนำของครู และอื่น ๆ การสัมภาษณ์กับบุคคลรวมถึงผู้ใช้The reliability estimates in Table 1 are what are used for the TOEFL iBT operational test scores. Other types of reliability estimates also exist that take into account other sources of variability such as differences in test forms or changes in examinees’ performances from day to day. Alternate form reliability, for example, is calculated based on examinees’ scores on two different forms of a test. This requires examinees to take two different test forms, something only a few examinees would volunteer to do. But some examinees do take the test twice during a period of time too short for much learning to occur, for reasons of their own. An analysis of the scores of these repeat test takers on the two test forms provides an approximation of alternate form reliability. Zhang (February 2008) compared the test scores of more than 12,000 examinees who were identified as having taken two TOEFL iBT tests within a period of one month. The correlations of their scores on the two test forms were 0.77 for the listening and writing sections, 0.78 for reading, 0.84 for speaking, and 0.91 for the total test score. Because these measures of reliability take into account additional sources of variability, they are typically lower than internal consistency measures. Nevertheless, they indicate a high degree of consistency in the rank ordering of the scores of these test repeaters.
การแปล กรุณารอสักครู่..

ความเชื่อมั่นและมาตรฐานข้อผิดพลาดของการวัดคะแนนความน่าเชื่อถือขนาดประมาณ0-30
SEM
อ่าน 0.85 3.35
ฟัง 0-30 0.85 3.20
0.88 0-30
การพูดการเขียน0-30 1.62 0.74 2.76
0.94 รวม 0-120 5.64
ความน่าเชื่อถือประมาณการสำหรับการอ่าน, การฟัง, การพูดและคะแนนรวมที่ค่อนข้างสูงในขณะที่ความน่าเชื่อถือของคะแนนการเขียนที่มีค่อนข้างต่ำ นี้เป็นผลโดยทั่วไปสำหรับการเขียนมาตรการประกอบด้วยเพียงสองงาน (Breland, บริดจ์และ Fowles, 1999) และสะท้อนให้เห็นอย่างใดอย่างหนึ่งดีเอกสารข้อ จำกัด ของการประมาณการการทดสอบความน่าเชื่อถือประสิทธิภาพการทำงานสำหรับมาตรการประกอบด้วยจำนวนเล็ก ๆ ของงานที่ใช้เวลานานมักจะมี ต่ำกว่าประมาณการสำหรับมาตรการประกอบด้วยหลายสั้นงานน้อยใช้เวลานาน แต่โครงสร้างของการเขียนทางวิชาการตามที่กำหนดไว้สำหรับการทดสอบสอบ TOEFL iBT ที่จำเป็นในการผลิตของกลุ่มตัวอย่างการเขียนขยาย (คัมมิงลอยพลังซานโตสและเทย์เลอร์, 2000)
หนึ่งในความหมายของผลลัพธ์เหล่านี้ก็คือว่าการตัดสินใจเดิมพันสูงเช่นการรับสมัครเรียนที่วิทยาลัยหรือโรงเรียนระดับบัณฑิตศึกษาคะแนนรวมให้ข้อมูลที่ดีที่สุดทั้งสองเพราะมันสะท้อนให้เห็นถึงทักษะการใช้ภาษาทั้งสี่และเพราะมันเป็นที่น่าเชื่อถือมากที่สุด แต่มีกรณีตามที่ผู้มีอำนาจตัดสินใจอาจต้องการที่จะตรวจสอบรายละเอียดของคะแนนสำหรับผู้สอบเช่นความต้องการของหลักสูตรหรือความจำเป็นในการฝึกอบรมภาษาเพิ่มเติม นอกจากนี้ทราบว่า ETS สนับสนุนให้ผู้ใช้คะแนนที่จะต้องพิจารณาจำนวนของปัจจัยอื่น ๆ เมื่อการตัดสินใจการรับสมัครรวมทั้งคะแนนเฉลี่ยสะสมคะแนนในการสอบรับสมัครอื่น ๆ คำแนะนำของครูและการสัมภาษณ์กับบุคคล.
ประมาณการความน่าเชื่อถือในตารางที่ 1 เป็นสิ่งที่จะใช้สำหรับการ สอบ TOEFL iBT คะแนนการทดสอบการดำเนินงาน ประเภทอื่น ๆ นอกจากนี้ยังมีการประมาณการความน่าเชื่อถืออยู่ที่คำนึงถึงแหล่งอื่น ๆ ของความแปรปรวนเช่นความแตกต่างในรูปแบบการทดสอบหรือการเปลี่ยนแปลงในการแสดงสอบจากแบบวันต่อวัน ความน่าเชื่อถือรูปแบบอื่นตัวอย่างเช่นคำนวณจากคะแนนสอบ 'ในสองรูปแบบที่แตกต่างกันของการทดสอบ นี้ต้องสอบจะใช้เวลาสองรูปแบบที่แตกต่างกันการทดสอบอะไรบางอย่างเพียงไม่กี่สอบจะเป็นอาสาสมัครที่จะทำ แต่สอบบางคนใช้การทดสอบสองครั้งในช่วงระยะเวลาสั้นเกินไปสำหรับการเรียนรู้มากที่จะเกิดขึ้นด้วยเหตุผลของตัวเอง การวิเคราะห์ของคะแนนของทั้งผู้สอบซ้ำในสองรูปแบบการทดสอบให้ใกล้เคียงกับความน่าเชื่อถือแบบฟอร์มการสำรอง Zhang (กุมภาพันธ์ 2008) เมื่อเทียบกับคะแนนการทดสอบกว่า 12,000 สอบที่ถูกระบุว่าเป็นต้องเอาสองการทดสอบสอบ TOEFL iBT ภายในระยะเวลาหนึ่งเดือน ความสัมพันธ์ของคะแนนของพวกเขาในสองรูปแบบการทดสอบเป็น 0.77 สำหรับส่วนการฟังและการเขียน 0.78 สำหรับการอ่าน 0.84 สำหรับการพูดและ 0.91 สำหรับคะแนนการทดสอบรวม เพราะมาตรการเหล่านี้ของความน่าเชื่อถือที่จะเข้ามาเพิ่มเติมบัญชีแปรปรวนพวกเขามักจะต่ำกว่ามาตรการที่สอดคล้องภายใน อย่างไรก็ตามพวกเขาแสดงให้เห็นระดับสูงของความมั่นคงในการสั่งซื้อตำแหน่งของคะแนนของขาประจำทดสอบเหล่านี้
การแปล กรุณารอสักครู่..
