Five basic steps of CAT
The previous paragraph already introduced the five basic steps of CAT. They are
being dealt with more into detail in this section of the paper to provide more insight
into the specificities of CAT. Some steps are rather straightforward to implement,
but especially the step of item selection entails many issues.
Step 1. Initiation
In Step 1, an initial estimate is made of the proficiency level of the
candidate. Generally, the ability level is initialized at the mean of the
proficiency distribution of the population (THISSEN; MISLEVY, 2000). An
alternative is to randomly draw it from the ability distribution. Besides,
initialization based on previously known information about the candidate
might be applied as well (VAN DER LINDEN, 1999).
Step 2. Item selection
Many item selection rules have been proposed for CAT. Maximum Fisher
information (BIRNBAUM, 1968) is most commonly applied, but Fisher interval
information (VEERKAMP; BERGER,1997), Kullback-Leibler information (CHANG;
YING, 1996; VELDKAMP; VAN DER LINDEN, 2002), or mutual information
(WEISSMAN, 2007) might be applied as well. All these item selection rules
have in common that they try to maximize information obtained about the
candidate in order to minimize the error of estimation. Chang e Ying (1999),
on the other hand, observed that during the early stages of CAT administration,
the ability estimate is not very precise yet. They reasoned that selection of
very informative items at an uncertain ability estimates might not be optimal
in practice. As an alternative, they proposed alpha-stratified CAT, where the
item bank is stratified with respect to the discrimination parameter. Items
with lower discrimination parameters have flatter item information curves.
By selecting items with lower discrimination parameters during the early
stages of CAT, the items will provide a comparable amount of information
irrespective of the true ability of the candidate. When the estimated ability
level is more precise, items from higher discrimination strata can be selected.
Over the past ten years, many comparison studies have been carried out to
find the best item selection rule. No overall winner has been found. Most of
the item selection rules perform rather well when twenty or more items are
being selected for the test.
During the second step, test specifications have to be taken into account
as well. These specifications can be related to the content of the test, they can
be about time limits, or about the distribution of answer keys. They can also
be about the word count or about items excluding each other from the same
test when one item contains clues to the other. Specifications can be about the
psychometric properties of the test, or about technical issues, like a minimum
number of items to be selected for a text passage or a graph. For an overview
of various types of specifications, see Van der Linden (2005, chap. 2). Kingsbury
e Zara (1998) proposed to stratify the item bank with respect to, for example,
content classifications, and to rotate item selection over the various strata.
When a limited number of specifications have to be met, this approach might work well. For testing programs where large numbers of specifications have be
formulated, this approach can become intractable. Stocking e Swanson (1993)
introduced a Weighted Deviation Model, where targets were set for various
specifications and the weighted deviation from these targets was minimized, and
Luecht (1998) developed a Normalized Weighted Absolute Deviation Heuristic.
However, both of these methods cannot guarantee that the final CAT will meet
all specifications. As an alternative, Van der Linden e Reese (1998) proposed the
shadow test approach, a 2-stage procedure for item selection where 0-1 linear
programming techniques are applied to make sure that all specifications will be
met. During the first stage, a full-length test is constructed (the shadow test)
that performs optimal with respect to the item selection rule at the current
ability estimate and meets all the specifications. During the 2nd stage, the best
unadministered item is selected from the shadow test to be presented to the
candidate. For an extensive description of the shadow test approach, see also
Van der Linden (2005, Chap. 9).
ขั้นตอนพื้นฐาน 5 แมวย่อหน้าก่อนหน้าแล้วแนะนำห้าขั้นตอนพื้นฐานของแมว พวกเขาเป็นถูกจัดการในรายละเอียดในส่วนนี้ของกระดาษที่จะให้ข้อมูลเชิงลึกเพิ่มเติมใน - แมว บางขั้นตอนค่อนข้างตรงไปตรงมาเพื่อใช้แต่โดยเฉพาะอย่างยิ่งขั้นตอนของการเลือกรายการที่ใช้หลายๆ ประเด็นขั้นตอนที่ 1 ริเริ่มในขั้นตอนที่ 1 การประเมินเบื้องต้นได้จากระดับของความสามารถทางผู้สมัคร โดยทั่วไป ระดับความสามารถ คือ เริ่มต้นที่ค่าเฉลี่ยของความสามารถในการกระจายของประชากร ( ทีสั้น ; mislevy , 2000 ) เป็นทางเลือกคือการสุ่มวาดมันจากความสามารถในการกระจายสินค้า นอกจากนี้เริ่มต้นจากที่รู้จักกันก่อนหน้านี้เป็นข้อมูลเกี่ยวกับผู้สมัครอาจจะประยุกต์เป็นอย่างดี ( Van der Linden , 1999 )ขั้นตอนที่ 2 การเลือกรายการกฎการเลือกหลายรายการได้รับการเสนอสำหรับแมว ฟิชเชอร์ สูงสุดข้อมูล ( บัม , 1968 ) มักใช้ แต่ช่วง ฟิชเชอร์ข้อมูล ( veerkamp ; Berger , 1997 ) , ข้อมูลลี๊บเลอร์คัลแบ็ก ( ช้าง ;ญิ๋ง , 1996 ; veldkamp ; van der Linden , 2002 ) , หรือข้อมูลซึ่งกันและกัน( Weissman , 2007 ) อาจนำมาใช้ได้เช่นกัน กฎการเลือกรายการเหล่านี้ทั้งหมดมีเหมือนกันที่พวกเขาพยายามที่จะเพิ่มข้อมูลที่ได้รับเกี่ยวกับผู้สมัครเพื่อลดความคลาดเคลื่อนของการประมาณค่า ชางอีอิง ( 1999 )บนมืออื่น ๆ พบว่าในช่วง ระยะ แรก ของ แมว )ความสามารถคงยังไม่แม่นยำมากครับ พวกเขาให้เหตุผลว่า การเลือกของรายการข้อมูลมากที่ไม่แน่นอนสามารถประมาณการอาจไม่เหมาะสมในการปฏิบัติงาน เป็นทางเลือกที่พวกเขาเสนอ อัลฟ่า และแมว ที่รายการธนาคารจะแบ่งเป็นส่วนที่เกี่ยวข้องกับค่าพารามิเตอร์ รายการกับพารามิเตอร์การลดได้ประจบเส้นโค้งข้อมูลรายการโดยการเลือกรายการที่มีพารามิเตอร์การลดลงในช่วงต้นขั้นตอนของแมว , รายการจะให้จำนวนเงินเทียบเท่าของข้อมูลโดยไม่คำนึงถึงความสามารถที่แท้จริงของผู้สมัคร เมื่อประเมินความสามารถระดับความแม่นยำสูงกว่ารายการจากการแบ่งแยกชนชั้น สามารถเลือกได้กว่าสิบปีที่ผ่านมา การศึกษามีวัตถุประสงค์เพื่อเปรียบเทียบค้นหาสินค้าที่ดีที่สุดการเลือกกฎ ไม่รวมผู้ชนะได้ถูกค้นพบ มากที่สุดของรายการการเลือกกฎปฏิบัติค่อนข้างดีเมื่อยี่สิบหรือมากกว่ารายการจะถูกเลือกสำหรับการทดสอบในระหว่างขั้นตอนที่สอง กำหนดทดสอบต้องนํามาพิจารณาได้เป็นอย่างดี คุณสมบัติเหล่านี้สามารถที่เกี่ยวข้องกับเนื้อหาของการทดสอบ พวกเขาสามารถเกี่ยวกับการ จำกัด เวลา หรือ เกี่ยวกับการกระจายของคีย์ตอบ พวกเขายังสามารถจะเกี่ยวกับการนับจำนวนคำหรือเกี่ยวกับรายการไม่รวมกันเหมือนเดิมทดสอบเมื่อรายการหนึ่งมีเบาะแสอื่น ๆ คุณสมบัติสามารถเกี่ยวกับคุณสมบัติไซโครเมตริกของการทดสอบหรือเกี่ยวกับปัญหาด้านเทคนิค เช่น น้อยจำนวนของรายการที่ถูกเลือกสำหรับข้อความผ่านหรือกราฟ สำหรับภาพรวมประเภทต่างๆของข้อมูลดู van der Linden ( 2005 , CHAP 2 ) คิงส์เบอร์รี่และ ซาร่า ( 1998 ) ได้เสนอให้แบ่งเป็นชั้นๆรายการธนาคารด้วยความเคารพ ตัวอย่างหมวดหมู่เนื้อหาและหมุนเลือกสินค้าผ่านชั้นต่าง ๆเมื่อมีจำนวนจำกัดคุณสมบัติ ต้องเจอ วิธีการนี้จะทำงานได้ดี สำหรับโปรแกรมทดสอบที่ตัวเลขขนาดใหญ่ของข้อมูลได้เป็นสูตร วิธีการนี้สามารถกลายเป็น แก่นแก้ว ถุงน่อง E Swanson ( 2536 )แนะนำรูปแบบค่าถ่วงน้ำหนักที่เป้าหมายถูกตั้งค่าต่าง ๆคุณสมบัติและส่วนเบี่ยงเบนจากเป้าหมายเหล่านี้ คือ น้ำหนักลด และluecht ( 1998 ) พัฒนามาตรฐาน ส่วนเบี่ยงเบนสัมบูรณ์ถ่วงน้ำหนักแบบศึกษาสำนึกอย่างไรก็ตาม ทั้งสองวิธีไม่สามารถรับประกันได้ว่าแมวสุดท้ายจะเจอคุณสมบัติทั้งหมด เป็นทางเลือกที่ Van der Linden E รีส ( 1998 ) ได้เสนอวิธีการทดสอบเงา , ขั้นตอนการเลือกรายการที่ 1 พื้นที่เชิงเส้นเทคนิคการเขียนโปรแกรมที่ใช้เพื่อให้แน่ใจว่ารายละเอียดทั้งหมดจะเป็นเจอกัน ในระหว่างขั้นตอนแรก ทดสอบยาวขึ้น ( เงาทดสอบ )ที่มีประสิทธิภาพที่เหมาะสมกับการเคารพกฎในการเลือกรายการปัจจุบันความสามารถในการประเมินค่าและตรงตามข้อกำหนดทั้งหมด ในช่วงระยะที่ 2 ดีที่สุดunadministered รายการที่เลือกจากการทดสอบจะถูกนำเสนอไป เงาผู้สมัคร สำหรับคำอธิบายอย่างละเอียดของเงาทดสอบวิธีการ ดูvan der Linden ( 2005 , CHAP 9 )
การแปล กรุณารอสักครู่..
