Our test for mathematical reasoning consisted of a pool with 13 items adapted mainly from the HarmoS project. Each student worked for 30 min on one of the six booklets with five items each. Two raters judged the students’ answers after reaching a satisfying interrater reliability (Cohen’s kappa > .70) across all dimensions of the four levels. We used Rasch-modelling (Yen & Fitzpatrick, 2006) and the software Winsteps (Linacre, 2010) to calculate the item difficulties and the individual’s competence. The fit indices INFIT and OUTFIT were good (.97). While the reliability of the item values was satisfying (r = .88), the reliability of the personal values (r = .64) was too low; reliability should be approximately 0.80– 0.90. Because we used time-demanding, open-ended questions, the students could only complete a few of the items. To solve this problem, competence stages could be combined or more test items for each student could be added. With 10 items (twice the actual number), the reliability would rise to r = .78. Reviewing the ‘‘wright’’ map (item distribution), we also discovered that students with lower ability required easier items than we presented. A particular focus was the investigation of the rubric’s four competence levels based on the probability of a student with a certain competence would master the items of appropriate difficulty. Across competence levels, we expected that particular scores would be more probable than other scores. That is, we expected 4 prominent curves, representing each of the 4 competence levels (1, 2, 3, 4). Fig. 4 shows that each rating category is most probable at a particular competence level. This indicates that the levels of the rubric are distinct and the description (criteria or performance indicators) of the levels seems to be valid
เราทดสอบการใช้เหตุผลทางคณิตศาสตร์ของกลุ่มประกอบด้วย 13 รายการดัดแปลงส่วนใหญ่จากโครงการ HarmoS นักศึกษาทำงานใน 30 นาทีในหนึ่งเล่ม 6 กับ 5 รายการ สอง raters ที่ตัดสินคำตอบของนักเรียนหลังจากถึงความ interrater ความพึงพอใจ (ของโคเฮนกัปปะ > .70) ข้ามมิติทั้งหมดของ 4 ระดับ เราใช้ Rasch-สร้างแบบจำลอง (เย็นและฟิทซ์แพทริก 2006) และซอฟต์แวร์ Winsteps (Linacre, 2010) ในการคำนวณปัญหาสินค้าและความสามารถของแต่ละบุคคล ดัชนีพอดี INFIT และเครื่องแต่งกายดี (97) ในขณะที่ความน่าเชื่อถือของค่าของสินค้ามีความพึงพอใจ (r =.88), ความน่าเชื่อถือของค่าส่วนบุคคล (r =.64) อยู่ในระดับต่ำเกินไป ความน่าเชื่อถือควรประมาณ 0.80 – 0.90 เนื่องจากเราใช้ถามเวลาเรียกร้อง แบบเปิด นักเรียนสามารถทำกี่รายการเท่านั้น เพื่อแก้ไขปัญหานี้ สามารถรวมขั้นตอนของความสามารถ หรือไม่สามารถเพิ่มรายการทดสอบสำหรับนักเรียน มีสินค้า 10 (สองหมายเลขจริง), ความน่าเชื่อถือจะเพิ่มขึ้นเป็น r =.78 ทบทวนแผนที่ ''ไรต์ '' (กระจายสินค้า), เรายังพบว่า นักเรียน มีความสามารถต่ำจำเป็นต้องใช้สินค้าได้ง่ายขึ้นกว่าที่เรานำเสนอนั้น เฉพาะการตรวจสอบของ rubric 4 ความสามารถระดับตามความน่าเป็นของนักเรียนมีความสามารถบางอย่างจะหลักรายการของปัญหาที่เหมาะสม ในระดับความสามารถ เราคาดว่า ผลคะแนนเฉพาะจะดำรงยิ่งกว่าคะแนนอื่น ๆ นั่นคือ เราคาดว่าโค้งเด่น 4 แสดงถึงแต่ละระดับความสามารถ 4 (1, 2, 3, 4) Fig. 4 แสดงว่า คะแนนมีมากที่สุดน่าเป็นในระดับความสามารถเฉพาะ บ่งชี้ว่า ระดับของ rubric จะแตกต่าง และคำอธิบาย (เงื่อนไขหรือประสิทธิภาพตัวบ่งชี้) ของระดับน่าจะถูกต้อง
การแปล กรุณารอสักครู่..
