One major issue for tests with cons

One major issue for tests with constructed-response (CR) items is the reliability and accuracy of
scoring. Responses to CR items are typically rated by trained human raters, which are subject to a
variety of rater effects. For example, different raters may have different understandings of the scoring
rubric (Saal, Downey, & Lahey, 1980); raters may be differentially stringent in scoring; raters may
tend to use some score categories more often than others; or raters’ rating behavior may drift over
time due to fatigue or other factors (Fitzpatrick, Ercikan, & Yen, 1998; Hoskens & Wilson, 2001). The
existence of rater effects will introduce measurement errors to test scores and thus will harm the
usefulness of a test.
Despite the inherent scoring issue, tests with CR items are appealing in the sense of directly
measuring productive skills that closely approximate tasks encountered in daily life. They also
eliminate the possibility that test takers can answer correctly by guessing among multiple choices.
For these reasons, tests with CR items are widely used by many large-scale testing programs in
high-stakes tests. It is critical for every testing program using CR tests to enhance scoring consistency
and accuracy by training or monitoring raters or by conducting statistical adjustments (Allalouf,
2007; Dunbar, Koretz, & Hoover, 1991). For all tests with CR items, training and monitoring raters is a
continuous process that occurs throughout the whole scoring period.
The purpose of this paper is to describe procedures implemented by the TOEIC® Speaking and
Writing tests for monitoring rater performance and enhancing overall scoring quality during
and after each administration. The focus of this paper is on monitoring and improving raters’
performance at the individual level so that trainers can provide more targeted training or retraining
to raters for the TOEIC Speaking and Writing tests.
The following section introduces the current procedures developed to monitor overall and individual
rater performance at the item level both during and after each administration. Future directions for
monitoring rater performance for the TOEIC Speaking and Writing tests are also provided.

One major issue for tests with constructed-response (CR) items is the reliability and accuracy of 
scoring. Responses to CR items are typically rated by trained human raters, which are subject to a 
variety of rater effects. For example, different raters may have different understandings of the scoring 
rubric (Saal, Downey, & Lahey, 1980); raters may be differentially stringent in scoring; raters may 
tend to use some score categories more often than others; or raters’ rating behavior may drift over 
time due to fatigue or other factors (Fitzpatrick, Ercikan, & Yen, 1998; Hoskens & Wilson, 2001). The 
existence of rater effects will introduce measurement errors to test scores and thus will harm the 
usefulness of a test. 
Despite the inherent scoring issue, tests with CR items are appealing in the sense of directly 
measuring productive skills that closely approximate tasks encountered in daily life. They also 
eliminate the possibility that test takers can answer correctly by guessing among multiple choices. 
For these reasons, tests with CR items are widely used by many large-scale testing programs in 
high-stakes tests. It is critical for every testing program using CR tests to enhance scoring consistency 
and accuracy by training or monitoring raters or by conducting statistical adjustments (Allalouf, 
2007; Dunbar, Koretz, & Hoover, 1991). For all tests with CR items, training and monitoring raters is a 
continuous process that occurs throughout the whole scoring period. 
The purpose of this paper is to describe procedures implemented by the TOEIC® Speaking and 
Writing tests for monitoring rater performance and enhancing overall scoring quality during 
and after each administration. The focus of this paper is on monitoring and improving raters’ 
performance at the individual level so that trainers can provide more targeted training or retraining 
to raters for the TOEIC Speaking and Writing tests. 
The following section introduces the current procedures developed to monitor overall and individual 
rater performance at the item level both during and after each administration. Future directions for 
monitoring rater performance for the TOEIC Speaking and Writing tests are also provided.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

ประเด็นสำคัญสำหรับการทดสอบการตอบสนองสร้าง (CR) สินค้ามีความน่าเชื่อถือและความถูกต้องของ ให้คะแนน ตอบสินค้า CR ได้รับคะแนนโดยทั่วไปจะฝึกมนุษย์ raters ซึ่งจะเป็น หลากหลายลักษณะ rater ตัวอย่าง raters ที่แตกต่างกันอาจมีการเปลี่ยนความเข้าใจแตกต่างกันของการให้คะแนน rubric (Saal เบิร์ดดาวนีย์ และ Lahey, 1980); raters อาจเข้มงวดในการให้คะแนน differentially raters อาจ มักจะ ใช้ประเภทบางคะแนนบ่อยขึ้นกว่าคนอื่น ๆ หรืออาจดริฟท์ raters' คะแนนพฤติกรรมมากกว่า เวลาเนื่องจากความอ่อนเพลียหรือปัจจัยอื่น ๆ (ฟิทซ์แพทริก Ercikan และ เย็น 1998 Hoskens & Wilson, 2001) ที่ มีลักษณะพิเศษ rater จะเกิดข้อผิดพลาดในการวัดการทดสอบคะแนน และจึง จะเป็นอันตรายต่อการ ประโยชน์ของการทดสอบ แม้ มีปัญหาการให้คะแนนโดยธรรมชาติ ทดสอบกับ CR สินค้าน่าสนใจในแง่ของโดยตรง วัดทักษะการผลิตอย่างใกล้ชิดประมาณงานที่พบในชีวิตประจำวัน พวกเขายัง ขจัดความเป็นไปได้ว่า ผู้ทำการทดสอบสามารถตอบได้อย่างถูกต้อง โดยการคาดเดาในหมู่ตัวเลือกหลาย ด้วยเหตุนี้ การทดสอบสินค้า CR ใช้หลายโปรแกรมทดสอบขนาดใหญ่ใน ระทึกทดสอบ มีความสำคัญสำหรับทุกโปรแกรมทดสอบที่ใช้ทดสอบ CR เพื่อเพิ่มความสอดคล้องให้คะแนน และความถูกต้อง โดยการฝึกอบรม หรือตรวจสอบ raters หรือดำเนินการปรับปรุงสถิติ (Allalouf 2007 ดันบาร์ Koretz และ ฮูเวอร์ 1991) สำหรับการทดสอบทั้งหมดกับรายการ CR ฝึกอบรม และตรวจสอบ raters เป็นการ กระบวนการต่อเนื่องที่เกิดขึ้นตลอดระยะเวลาให้คะแนนทั้งหมด วัตถุประสงค์ของเอกสารนี้จะอธิบายขั้นตอนดำเนินการ โดยการสอบ TOEIC ®พูด และ เขียนทดสอบสำหรับการตรวจสอบประสิทธิภาพ rater และเพิ่มคุณภาพโดยรวมให้คะแนนระหว่าง และหลัง จากจัดการแต่ละ โฟกัสของกระดาษนี้จะตรวจสอบ และปรับปรุงของ raters ประสิทธิภาพการทำงานในแต่ละระดับเพื่อให้ผู้ฝึกสามารถให้ฝึกอบรม หรือการ retraining เป้าหมายมากขึ้น การ raters กรณีการสอบ toeic ทดสอบการเขียน และพูด ส่วนต่อไปนี้แนะนำขั้นตอนปัจจุบันการพัฒนาจอภาพโดยรวม และแต่ละ rater ประสิทธิภาพระดับสินค้าทั้งในระหว่าง และ หลังการบริหารแต่ละ ทิศทางในอนาคตสำหรับ นอกจากนี้ยังให้บริการตรวจสอบประสิทธิภาพ rater กรณีการสอบ toeic ทดสอบการเขียน และพูด

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

ปัญหาหนึ่งที่สำคัญสำหรับการทดสอบด้วยการสร้างการตอบสนอง (CR) รายการคือความน่าเชื่อถือและความถูกต้องของ
การให้คะแนน คำตอบกับรายการ CR ได้รับการประเมินโดยทั่วไปผ่านการฝึกอบรมผู้ประเมินของมนุษย์ซึ่งอยู่ภายใต้
ความหลากหลายของผลประเมิน ตัวอย่างเช่นผู้ประเมินที่แตกต่างกันอาจจะมีความเข้าใจที่แตกต่างกันของการให้คะแนน
เกณฑ์ (Saal ดาวนีย์และ Lahey 1980); ผู้ประเมินอาจจะแตกต่างกันที่เข้มงวดในการให้คะแนน; ผู้ประเมินอาจ
มีแนวโน้มที่จะใช้บางประเภทคะแนนบ่อยขึ้นกว่าคนอื่น ๆ ; หรือพฤติกรรมคะแนนผู้ประเมินอาจลอยกว่า
เวลาที่กำหนดเพื่อความเมื่อยล้าหรือปัจจัยอื่น ๆ (ฟิทซ์ Ercikan และเยน 1998; Hoskens และวิลสัน, 2001)
การดำรงอยู่ของผู้ประเมินผลกระทบที่จะนำข้อผิดพลาดในการทดสอบการวัดคะแนนจึงจะเป็นอันตรายต่อ
ประโยชน์ของการทดสอบ.
แม้จะมีปัญหาการให้คะแนนโดยธรรมชาติการทดสอบกับรายการ CR มีความน่าสนใจในแง่ของโดยตรง
ทักษะการผลิตที่งานวัดโดยประมาณอย่างใกล้ชิดพบในชีวิตประจำวัน . พวกเขายัง
ขจัดความเป็นไปได้ว่าผู้สอบสามารถตอบได้อย่างถูกต้องโดยการคาดเดาในหมู่เลือกหลาย.
ด้วยเหตุผลเหล่านี้ทดสอบกับรายการ CR ถูกนำมาใช้กันอย่างแพร่หลายโดยโปรแกรมการทดสอบขนาดใหญ่จำนวนมากใน
การทดสอบเดิมพันสูง มันเป็นสิ่งสำคัญสำหรับทุกโปรแกรมการทดสอบโดยใช้การทดสอบ CR เพื่อเสริมสร้างความมั่นคงให้คะแนน
และความถูกต้องโดยผู้ประเมินการฝึกอบรมหรือการตรวจสอบหรือการปรับเปลี่ยนโดยการดำเนินการทางสถิติ (Allalouf,
2007; ดันบาร์ Koretz และฮูเวอร์ 1991) สำหรับการทดสอบทั้งหมดที่มีรายการ CR, การฝึกอบรมและการตรวจสอบผู้ประเมินเป็น
กระบวนการที่ต่อเนื่องที่เกิดขึ้นตลอดระยะเวลาการให้คะแนนทั้ง.
วัตถุประสงค์ของงานวิจัยนี้คือการอธิบายขั้นตอนการดำเนินการโดยTOEIC®การพูดและการ
เขียนการทดสอบสำหรับการตรวจสอบผลการดำเนินงานและประเมินการพัฒนาคุณภาพการให้คะแนนโดยรวม ในระหว่าง
และหลังการบริหารแต่ละ ความสำคัญของงานวิจัยนี้คือการตรวจสอบและการปรับปรุงผู้ประเมิน "
ผลการดำเนินงานในระดับบุคคลเพื่อให้การฝึกอบรมสามารถให้การฝึกอบรมกลุ่มเป้าหมายมากขึ้นหรือการฝึกอบรม
ผู้ประเมินการสอบ TOEIC สำหรับการพูดการเขียนและการทดสอบ.
ส่วนต่อไปนี้แนะนำขั้นตอนในปัจจุบันได้รับการพัฒนาในการตรวจสอบโดยรวมและเป็นรายบุคคล
ประเมินผลการปฏิบัติงานในระดับรายการทั้งในระหว่างและหลังการบริหารแต่ละ ทิศทางในอนาคตสำหรับ
การตรวจสอบประสิทธิภาพการทำงานของผู้ประเมินสำหรับการพูด TOEIC และการทดสอบการเขียนนอกจากนี้ยังมี

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

หนึ่งในปัญหาหลักสำหรับการทดสอบกับสร้างการตอบสนอง ( CR ) สินค้ามีความน่าเชื่อถือและความถูกต้องของ
เกณฑ์การให้คะแนน การตอบสนองต่อรายการ CR มักจะให้คะแนนโดย raters มนุษย์การฝึกอบรมซึ่งจะขึ้นอยู่กับความหลากหลายของระดับผล
. ตัวอย่างเช่น ผู้ประเมินที่แตกต่างกันอาจมีความเข้าใจที่แตกต่างกันของคะแนน
รูบริค ( Saal ดาวนี่& ) , 2523 ) ; จำนวนอาจจะแตกต่างกันที่เข้มงวดในการให้คะแนน ;ผู้ประเมินอาจ
มีแนวโน้มที่จะใช้บางประเภทคะแนนบ่อยกว่าคนอื่น ๆ ; หรือพฤติกรรมการประเมินผู้ประเมินอาจจะฟุ้ง
เวลาเนื่องจากความเหนื่อยล้า หรือปัจจัยอื่น ๆ ( ฟิตซ์แพตทริค ercikan &เยน , 1998 ; hoskens &วิลสัน , 2001 )
การดำรงอยู่ของกลุ่มผลจะแนะนำการวัดความคลาดเคลื่อนในการทดสอบคะแนนจึงจะทำร้าย
ประโยชน์ของการทดสอบ
แม้จะโดยธรรมชาติคะแนนออกการทดสอบกับรายการ CR น่าสนใจในแง่ของการผลิตโดยตรง
วัดทักษะงานประมาณอย่างใกล้ชิดที่พบในชีวิตประจําวัน พวกเขายัง
ขจัดความเป็นไปได้ที่ผู้สอบสามารถตอบได้อย่างถูกต้องโดยการคาดเดาของตัวเลือกหลาย
เหตุผลเหล่านี้ การทดสอบกับรายการ CR ที่ใช้กันอย่างแพร่หลาย โดยโปรแกรมการทดสอบขนาดใหญ่มากใน
เดิมพันสูงทดสอบมันเป็นสิ่งสำคัญสำหรับทุกโปรแกรมที่ใช้เพื่อเพิ่มคะแนนสอบและความสอดคล้องและความถูกต้องโดยการฝึกอบรมหรือการตรวจสอบ
2 หรือโดยการปรับเปลี่ยนทางสถิติ ( allalouf
, 2007 ; ดันบาร์ koretz & , , Hoover , 1991 ) สำหรับการทดสอบทั้งหมดกับรายการ CR , การฝึกอบรมและการตรวจสอบผู้ประเมินเป็น
อย่างต่อเนื่องกระบวนการที่เกิดขึ้นตลอดทั้งการให้ระยะเวลา
การวิจัยครั้งนี้มีวัตถุประสงค์เพื่ออธิบายขั้นตอนดำเนินการโดยการพูดและเขียน TOEIC ®
การทดสอบการตรวจสอบประสิทธิภาพโดยรวมของกลุ่ม และเพิ่มคะแนนคุณภาพในระหว่าง
และหลังจากแต่ละงาน โฟกัสของบทความนี้คือการตรวจสอบและการปรับปรุงประสิทธิภาพ '
2 ในระดับบุคคล เพื่อให้ผู้ฝึกสามารถให้เพิ่มเป้าหมายการฝึกอบรมหรือการฝึกอบรม
เพื่อผู้ประเมินสำหรับ TOEIC การพูดและการเขียนการทดสอบ
ส่วนต่อไปนี้แนะนำปัจจุบันขั้นตอนการพัฒนาเพื่อตรวจสอบโดยรวมและแต่ละกลุ่มที่รายการระดับ
ประสิทธิภาพทั้งในระหว่างและหลังจากแต่ละงาน ทิศทางในอนาคตของการตรวจสอบประสิทธิภาพสำหรับ TOEIC
ไม่มีการทดสอบการพูดและการเขียน นอกจากนี้ยังให้

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.