At the start of the meeting, we provided the experts with an overview of the general purpose of
the meeting, which was to identify scores of the TOEIC test that corresponded to the STANAG levels,
and explained the experts’ role in the process of identifying the scores. The first day of the meeting,
however, was devoted to alignment. We explained that because the assessment was not specifically
designed to measure the four skill areas as defined by the STANAG, it was necessary to consider the
extent to which the two were aligned. Prior to engaging in the actual alignment process, the experts
independently reviewed the STANAG level descriptions for each skill and the four parts of the TOEIC
test. A whole-panel discussion followed in which the experts were asked to share their perceptions
about the meaning of the levels and what differentiated one level from the next higher level, and
to share their perceptions of what the assessment measured and what might make some types
of questions challenging for English-language learners. Although the experts had reviewed the
levels and had taken the assessment before the meeting, this exercise reinforced that preparatory
experience and helped to make known the different perceptions of the experts.
The alignment judgment was whether the experts perceived that the assessment section (e.g., the
TOEIC Listening section) met the general expectations delineated by a STANAG level. The alignment
judgment was holistic. The experts considered all the questions that formed the TOEIC Listening
section, for example, and considered whether the measured listening skills, collectively, addressed
the STANAG listening skills described, collectively, at each level (1, 2, 3, 4, and/or 5). Level 0, no
proficiency, was not relevant. The form to record the alignment judgments was a simple matrix with
the four parts of the TOEIC test listed in rows and the five STANAG levels listed in columns. An expert
filled in a cell if alignment was perceived.
We trained the experts in the alignment process, including how to record their judgments. We
explained that an alignment between an assessment section and a level would be counted if
at least 10 of the 15 experts (67%) filled in that cell; in other words, a clear majority needed to
indicate the existence of an alignment. Two rounds of alignment judgments occurred. The first
round consisted of independent judgments. We tallied the results and presented them to the
experts, who were asked to share their judgment rationales and reactions to the Round 1 results. In
addition to presenting their Round 1 judgments, we also shared two performance samples (actual
test-taker responses) with the experts, one for writing and one for speaking. Each sample had
earned the highest total raw score possible for the TOEIC Writing test and the TOEIC Speaking test.
The samples were intended to help clarify the extent of writing and speaking proficiency these
two parts of the test could elicit from test takers. (This was not feasible to do for the two selectedresponse
sections of the TOEIC test.) The experts then completed a second round of judgments for
the four skill areas. While they were not obligated to change their Round 1 judgments, this was an
opportunity for them to do so, if the Round 1 discussion persuaded them to reconsider
ในช่วงเริ่มต้นของการประชุมที่เรามีให้กับผู้เชี่ยวชาญด้านภาพรวมของวัตถุประสงค์ทั่วไปของ
การประชุมซึ่งจะระบุคะแนนของการสอบ TOEIC ที่ตรงกับระดับ STANAG,
และอธิบายบทบาทของผู้เชี่ยวชาญในกระบวนการของการระบุ คะแนน วันแรกของการประชุม
แต่ได้อุทิศให้กับการจัดตำแหน่ง เราอธิบายว่าเพราะการประเมินที่ไม่ได้โดยเฉพาะ
ออกแบบมาเพื่อวัดทักษะพื้นที่สี่ตามที่กำหนดโดย STANAG มันก็จำเป็นที่จะต้องพิจารณา
ขอบเขตที่สองถูกจัดชิด ก่อนที่จะมีส่วนร่วมในขั้นตอนการจัดตำแหน่งที่เกิดขึ้นจริงผู้เชี่ยวชาญ
อิสระตรวจสอบรายละเอียดระดับ STANAG สำหรับแต่ละทักษะและสี่ส่วนของการสอบ TOEIC
ทดสอบ การอภิปรายทั้งแผงตามที่ผู้เชี่ยวชาญได้ขอให้มีส่วนร่วมรับรู้ของพวกเขา
เกี่ยวกับความหมายของระดับและสิ่งที่แตกต่างในระดับหนึ่งจากระดับที่สูงขึ้นต่อไปและ
เพื่อแบ่งปันการรับรู้ของพวกเขาในสิ่งที่ประเมินวัดและสิ่งที่อาจจะทำให้บางชนิด
ของ คำถามที่ท้าทายสำหรับผู้เรียนภาษาอังกฤษ แม้ว่าผู้เชี่ยวชาญได้รับการตรวจสอบ
ระดับและได้รับการประเมินก่อนการประชุม, การออกกำลังกายนี้เตรียมความพร้อมเสริมว่า
ประสบการณ์และช่วยในการทำให้เป็นที่รู้จักในการรับรู้ที่แตกต่างกันของผู้เชี่ยวชาญ.
ตัดสินการจัดตำแหน่งไม่ว่าจะเป็นผู้เชี่ยวชาญเห็นว่าส่วนการประเมินผล (เช่น
ส่วนการฟัง TOEIC) ได้พบกับความคาดหวังทั่วไปเบี่ยงระดับ STANAG การจัดตำแหน่ง
การตัดสินเป็นแบบองค์รวม ผู้เชี่ยวชาญด้านการพิจารณาคำถามทั้งหมดที่เกิดขึ้นฟัง TOEIC
ส่วนเช่นและพิจารณาว่าทักษะการฟังที่วัดเรียกจ่าหน้า
ทักษะการฟัง STANAG อธิบายเรียกรวมกันในแต่ละระดับ (1, 2, 3, 4, และ / หรือ 5) ระดับ 0, ไม่มี
ความสามารถก็ไม่เกี่ยวข้อง รูปแบบในการบันทึกคำตัดสินการจัดตำแหน่งเป็นเมทริกซ์ที่เรียบง่ายกับ
สี่ส่วนของการสอบ TOEIC ที่ระบุไว้ในแถวและห้าระดับ STANAG ระบุไว้ในคอลัมน์ ผู้เชี่ยวชาญด้านการ
เติมเต็มในเซลล์ถ้าการจัดตำแหน่งถูกมองว่า.
เราผ่านการฝึกอบรมผู้เชี่ยวชาญในกระบวนการจัดตำแหน่งรวมถึงวิธีการบันทึกคำตัดสินของพวกเขา เรา
อธิบายว่าการจัดตำแหน่งระหว่างส่วนการประเมินและระดับจะนับถ้า
อย่างน้อย 10 จาก 15 ผู้เชี่ยวชาญ (67%) ที่เต็มไปในเซลล์ที่มิ ในคำอื่น ๆ ส่วนใหญ่ที่ชัดเจนที่จำเป็นในการ
บ่งบอกถึงการดำรงอยู่ของการจัดตำแหน่ง รอบสองของการตัดสินการจัดตำแหน่งที่เกิดขึ้น เป็นครั้งแรก
ในรอบประกอบด้วยการตัดสินที่เป็นอิสระ เราคาดการณ์ผลและนำเสนอไปยัง
ผู้เชี่ยวชาญที่ได้รับการขอให้แบ่งปันเหตุผลตัดสินของพวกเขาและปฏิกิริยากับผลรอบ 1 ใน
นอกเหนือไปจากการนำเสนอรอบที่ 1 คำตัดสินของพวกเขาเรายังได้ร่วมกันทั้งสองตัวอย่างผลการปฏิบัติงาน (ที่เกิดขึ้นจริง
การตอบสนองการทดสอบเมล์) กับผู้เชี่ยวชาญด้านหนึ่งสำหรับการเขียนและหนึ่งสำหรับการพูด ตัวอย่างแต่ละคนได้
รับคะแนนดิบทั้งหมดที่เป็นไปได้สำหรับการทดสอบการเขียน TOEIC สูงสุดและการสอบ TOEIC พูด.
ตัวอย่างที่ตั้งใจจะช่วยให้ความกระจ่างในขอบเขตของการเขียนและการพูดความสามารถเหล่านี้
สองส่วนของการทดสอบสามารถล้วงเอาจากผู้สอบ (ซึ่งเป็นไปไม่ได้ที่จะทำทั้งสอง selectedresponse
ในส่วนของการสอบ TOEIC.) ผู้เชี่ยวชาญด้านการเสร็จแล้วรอบที่สองของการตัดสินสำหรับ
พื้นที่สี่ทักษะ ขณะที่พวกเขาไม่จำเป็นต้องเปลี่ยนการตัดสินรอบที่ 1 ของพวกเขานี้เป็น
โอกาสสำหรับพวกเขาที่จะทำเช่นนั้นถ้ารอบที่ 1 อภิปรายชักชวนให้พวกเขาที่จะพิจารณา
การแปล กรุณารอสักครู่..

ในช่วงเริ่มต้นของการประชุม โดยผู้เชี่ยวชาญ ด้วยภาพรวมของวัตถุประสงค์ทั่วไปของ
การประชุมที่ระบุของคะแนน TOEIC ทดสอบที่ตรงกับระดับ stanag
อธิบายของผู้เชี่ยวชาญ , และบทบาทในกระบวนการของการระบุคะแนน วันแรกของการประชุม ,
แต่ถูกอุทิศให้กับแนว เราอธิบายว่า เพราะการประเมินไม่เฉพาะ
ที่ออกแบบมาเพื่อวัดทักษะทั้งสี่ด้านเป็น กําหนดโดย stanag จึงจำเป็นต้องพิจารณา
ขอบเขตซึ่งทั้งสองได้รับการจัดชิด ก่อนที่จะมีส่วนร่วมในกระบวนการจัดจริง ผู้เชี่ยวชาญ
ดูเป็นอิสระระดับ stanag คำอธิบายสำหรับแต่ละทักษะและ 4 ส่วนของการสอบ
แผงการสนทนาทั้งหมดตามที่ผู้เชี่ยวชาญถูกถามเพื่อแบ่งปันความคิดเห็น
เกี่ยวกับความหมายของระดับที่แตกต่างจากระดับหนึ่งและระดับที่สูงขึ้นต่อไป และเพื่อแบ่งปันความคิดเห็น
ของสิ่งที่ประเมินวัดและสิ่งที่อาจจะทำให้บางชนิดของคำถามที่ท้าทาย
สำหรับผู้เรียนภาษาอังกฤษ แม้ว่าผู้เชี่ยวชาญได้ตรวจสอบ
ระดับและได้รับการประเมินก่อนประชุม การออกกำลังกายนี้เสริมที่เตรียมอุดมศึกษา
ประสบการณ์และช่วยให้รู้จักการรับรู้ที่แตกต่างกัน ของผู้เชี่ยวชาญ การพิพากษา
คือว่าผู้เชี่ยวชาญเห็นว่า ส่วนการประเมิน ( เช่น
การฟังส่วน ) พบทั่วไปความคาดหวัง delineated โดย stanag ระดับ แนว
การตัดสินแบบองค์รวมผู้เชี่ยวชาญพิจารณาทุกคำถามที่เกิดขึ้นในการฟัง
ส่วน ตัวอย่างเช่น พิจารณาได้ว่า วัดทักษะการฟัง , รวม , addressed
stanag ทักษะการฟังอธิบายโดยรวม ในแต่ละระดับ ( 1 , 2 , 3 , 4 และ / หรือ 5 ) ระดับ 0 ไม่มี
ถิ่นไม่ได้เกี่ยวข้อง แบบฟอร์มบันทึกการพิพากษาเป็นเมทริกซ์ง่ายด้วย
สี่ส่วนของ TOEIC ทดสอบที่ระบุไว้ในแถวและห้า stanag ระดับที่ระบุไว้ในคอลัมน์ ผู้เชี่ยวชาญ
เต็มในเซลล์ ถ้าจัดการ .
เราฝึกผู้เชี่ยวชาญในกระบวนการจัด รวมถึงวิธีการบันทึกคำตัดสินของพวกเขา เราอธิบายว่า การจัดตำแหน่งระหว่าง
ส่วนการประเมินและระดับจะนับถ้า
อย่างน้อย 10 จาก 15 คน ( 67% ) กรอกที่เซลล์ในคำอื่น ๆที่ชัดเจนส่วนใหญ่ต้องการ
บ่งชี้ถึงการดำรงอยู่ของแนว สองรอบของการพิพากษาเกิดขึ้น รอบแรก
มีคำตัดสินที่เป็นอิสระ เราบันทึกผลและนำเสนอให้พวกเขา
ผู้เชี่ยวชาญที่ถูกถามที่จะแบ่งปันมีเหตุผล การตัดสินของพวกเขาและปฏิกิริยากับรอบที่ 1 ผล ในส่วนของ 1 รอบ
เสนอให้ตัดสินเรายังใช้สองงานตัวอย่าง ( จริง
ทดสอบคนรับการตอบสนอง ) กับผู้เชี่ยวชาญ สำหรับการเขียนและหนึ่งสำหรับการพูด แต่ละตัวอย่างมี
รายได้รวมสูงสุดคะแนนดิบเป็นไปได้สำหรับการทดสอบการเขียน TOEIC และสอบ TOEIC สอบการพูด .
ตัวอย่างมีวัตถุประสงค์เพื่อช่วยชี้แจงขอบเขตของการเขียนและการพูดภาษาอังกฤษเหล่านี้
2 ส่วนของการทดสอบสามารถกระตุ้นจากผู้ทดสอบ( นี้ไม่ได้เป็นไปได้ที่จะทำสอง selectedresponse
ส่วนของข้อสอบ TOEIC ) ผู้เชี่ยวชาญแล้วเสร็จเป็นรอบที่สองของคำตัดสินสำหรับ
4 ทักษะด้าน ในขณะที่พวกเขาไม่สามารถเปลี่ยนของ 1 รอบตัดสินนี้เป็น
โอกาสเขาทำอย่างนั้น ถ้า 1 รอบการอภิปรายโน้มน้าวให้พวกเขาพิจารณา
การแปล กรุณารอสักครู่..
