One major issue for tests with constructed-response (CR) items is the reliability and accuracy of
scoring. Responses to CR items are typically rated by trained human raters, which are subject to a
variety of rater effects. For example, different raters may have different understandings of the scoring
rubric (Saal, Downey, & Lahey, 1980); raters may be differentially stringent in scoring; raters may
tend to use some score categories more often than others; or raters’ rating behavior may drift over
time due to fatigue or other factors (Fitzpatrick, Ercikan, & Yen, 1998; Hoskens & Wilson, 2001). The
existence of rater effects will introduce measurement errors to test scores and thus will harm the
usefulness of a test.
Despite the inherent scoring issue, tests with CR items are appealing in the sense of directly
measuring productive skills that closely approximate tasks encountered in daily life. They also
eliminate the possibility that test takers can answer correctly by guessing among multiple choices.
For these reasons, tests with CR items are widely used by many large-scale testing programs in
high-stakes tests. It is critical for every testing program using CR tests to enhance scoring consistency
and accuracy by training or monitoring raters or by conducting statistical adjustments (Allalouf,
2007; Dunbar, Koretz, & Hoover, 1991). For all tests with CR items, training and monitoring raters is a
continuous process that occurs throughout the whole scoring period.
The purpose of this paper is to describe procedures implemented by the TOEIC® Speaking and
Writing tests for monitoring rater performance and enhancing overall scoring quality during
and after each administration. The focus of this paper is on monitoring and improving raters’
performance at the individual level so that trainers can provide more targeted training or retraining
to raters for the TOEIC Speaking and Writing tests.
The following section introduces the current procedures developed to monitor overall and individual
rater performance at the item level both during and after each administration. Future directions for
monitoring rater performance for the TOEIC Speaking and Writing tests are also provided.
หนึ่งในปัญหาหลักสำหรับการทดสอบกับสร้างการตอบสนอง ( CR ) สินค้ามีความน่าเชื่อถือและความถูกต้องของ
เกณฑ์การให้คะแนน การตอบสนองต่อรายการ CR มักจะให้คะแนนโดย raters มนุษย์การฝึกอบรมซึ่งจะขึ้นอยู่กับความหลากหลายของระดับผล
. ตัวอย่างเช่น ผู้ประเมินที่แตกต่างกันอาจมีความเข้าใจที่แตกต่างกันของคะแนน
รูบริค ( Saal ดาวนี่& ) , 2523 ) ; จำนวนอาจจะแตกต่างกันที่เข้มงวดในการให้คะแนน ;ผู้ประเมินอาจ
มีแนวโน้มที่จะใช้บางประเภทคะแนนบ่อยกว่าคนอื่น ๆ ; หรือพฤติกรรมการประเมินผู้ประเมินอาจจะฟุ้ง
เวลาเนื่องจากความเหนื่อยล้า หรือปัจจัยอื่น ๆ ( ฟิตซ์แพตทริค ercikan &เยน , 1998 ; hoskens &วิลสัน , 2001 )
การดำรงอยู่ของกลุ่มผลจะแนะนำการวัดความคลาดเคลื่อนในการทดสอบคะแนนจึงจะทำร้าย
ประโยชน์ของการทดสอบ
แม้จะโดยธรรมชาติคะแนนออกการทดสอบกับรายการ CR น่าสนใจในแง่ของการผลิตโดยตรง
วัดทักษะงานประมาณอย่างใกล้ชิดที่พบในชีวิตประจําวัน พวกเขายัง
ขจัดความเป็นไปได้ที่ผู้สอบสามารถตอบได้อย่างถูกต้องโดยการคาดเดาของตัวเลือกหลาย
เหตุผลเหล่านี้ การทดสอบกับรายการ CR ที่ใช้กันอย่างแพร่หลาย โดยโปรแกรมการทดสอบขนาดใหญ่มากใน
เดิมพันสูงทดสอบมันเป็นสิ่งสำคัญสำหรับทุกโปรแกรมที่ใช้เพื่อเพิ่มคะแนนสอบและความสอดคล้องและความถูกต้องโดยการฝึกอบรมหรือการตรวจสอบ
2 หรือโดยการปรับเปลี่ยนทางสถิติ ( allalouf
, 2007 ; ดันบาร์ koretz & , , Hoover , 1991 ) สำหรับการทดสอบทั้งหมดกับรายการ CR , การฝึกอบรมและการตรวจสอบผู้ประเมินเป็น
อย่างต่อเนื่องกระบวนการที่เกิดขึ้นตลอดทั้งการให้ระยะเวลา
การวิจัยครั้งนี้มีวัตถุประสงค์เพื่ออธิบายขั้นตอนดำเนินการโดยการพูดและเขียน TOEIC ®
การทดสอบการตรวจสอบประสิทธิภาพโดยรวมของกลุ่ม และเพิ่มคะแนนคุณภาพในระหว่าง
และหลังจากแต่ละงาน โฟกัสของบทความนี้คือการตรวจสอบและการปรับปรุงประสิทธิภาพ '
2 ในระดับบุคคล เพื่อให้ผู้ฝึกสามารถให้เพิ่มเป้าหมายการฝึกอบรมหรือการฝึกอบรม
เพื่อผู้ประเมินสำหรับ TOEIC การพูดและการเขียนการทดสอบ
ส่วนต่อไปนี้แนะนำปัจจุบันขั้นตอนการพัฒนาเพื่อตรวจสอบโดยรวมและแต่ละกลุ่มที่รายการระดับ
ประสิทธิภาพทั้งในระหว่างและหลังจากแต่ละงาน ทิศทางในอนาคตของการตรวจสอบประสิทธิภาพสำหรับ TOEIC
ไม่มีการทดสอบการพูดและการเขียน นอกจากนี้ยังให้
การแปล กรุณารอสักครู่..
![](//thimg.ilovetranslation.com/pic/loading_3.gif?v=b9814dd30c1d7c59_8619)