Our test for mathematical reasoning

Our test for mathematical reasoning consisted of a pool with 13 items adapted mainly from the HarmoS project. Each student worked for 30 min on one of the six booklets with five items each. Two raters judged the students’ answers after reaching a satisfying interrater reliability (Cohen’s kappa > .70) across all dimensions of the four levels. We used Rasch-modelling (Yen & Fitzpatrick, 2006) and the software Winsteps (Linacre, 2010) to calculate the item difficulties and the individual’s competence. The fit indices INFIT and OUTFIT were good (.97). While the reliability of the item values was satisfying (r = .88), the reliability of the personal values (r = .64) was too low; reliability should be approximately 0.80– 0.90. Because we used time-demanding, open-ended questions, the students could only complete a few of the items. To solve this problem, competence stages could be combined or more test items for each student could be added. With 10 items (twice the actual number), the reliability would rise to r = .78. Reviewing the ‘‘wright’’ map (item distribution), we also discovered that students with lower ability required easier items than we presented. A particular focus was the investigation of the rubric’s four competence levels based on the probability of a student with a certain competence would master the items of appropriate difficulty. Across competence levels, we expected that particular scores would be more probable than other scores. That is, we expected 4 prominent curves, representing each of the 4 competence levels (1, 2, 3, 4). Fig. 4 shows that each rating category is most probable at a particular competence level. This indicates that the levels of the rubric are distinct and the description (criteria or performance indicators) of the levels seems to be valid

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

เราทดสอบการใช้เหตุผลทางคณิตศาสตร์ของกลุ่มประกอบด้วย 13 รายการดัดแปลงส่วนใหญ่จากโครงการ HarmoS นักศึกษาทำงานใน 30 นาทีในหนึ่งเล่ม 6 กับ 5 รายการ สอง raters ที่ตัดสินคำตอบของนักเรียนหลังจากถึงความ interrater ความพึงพอใจ (ของโคเฮนกัปปะ > .70) ข้ามมิติทั้งหมดของ 4 ระดับ เราใช้ Rasch-สร้างแบบจำลอง (เย็นและฟิทซ์แพทริก 2006) และซอฟต์แวร์ Winsteps (Linacre, 2010) ในการคำนวณปัญหาสินค้าและความสามารถของแต่ละบุคคล ดัชนีพอดี INFIT และเครื่องแต่งกายดี (97) ในขณะที่ความน่าเชื่อถือของค่าของสินค้ามีความพึงพอใจ (r =.88), ความน่าเชื่อถือของค่าส่วนบุคคล (r =.64) อยู่ในระดับต่ำเกินไป ความน่าเชื่อถือควรประมาณ 0.80 – 0.90 เนื่องจากเราใช้ถามเวลาเรียกร้อง แบบเปิด นักเรียนสามารถทำกี่รายการเท่านั้น เพื่อแก้ไขปัญหานี้ สามารถรวมขั้นตอนของความสามารถ หรือไม่สามารถเพิ่มรายการทดสอบสำหรับนักเรียน มีสินค้า 10 (สองหมายเลขจริง), ความน่าเชื่อถือจะเพิ่มขึ้นเป็น r =.78 ทบทวนแผนที่ ''ไรต์ '' (กระจายสินค้า), เรายังพบว่า นักเรียน มีความสามารถต่ำจำเป็นต้องใช้สินค้าได้ง่ายขึ้นกว่าที่เรานำเสนอนั้น เฉพาะการตรวจสอบของ rubric 4 ความสามารถระดับตามความน่าเป็นของนักเรียนมีความสามารถบางอย่างจะหลักรายการของปัญหาที่เหมาะสม ในระดับความสามารถ เราคาดว่า ผลคะแนนเฉพาะจะดำรงยิ่งกว่าคะแนนอื่น ๆ นั่นคือ เราคาดว่าโค้งเด่น 4 แสดงถึงแต่ละระดับความสามารถ 4 (1, 2, 3, 4) Fig. 4 แสดงว่า คะแนนมีมากที่สุดน่าเป็นในระดับความสามารถเฉพาะ บ่งชี้ว่า ระดับของ rubric จะแตกต่าง และคำอธิบาย (เงื่อนไขหรือประสิทธิภาพตัวบ่งชี้) ของระดับน่าจะถูกต้อง

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

การทดสอบของเราสำหรับเหตุผลทางคณิตศาสตร์ประกอบด้วยสระว่ายน้ำที่มี 13 รายการที่ดัดแปลงมาส่วนใหญ่มาจากโครงการ HarmoS นักเรียนแต่ละคนทำงานเป็นเวลา 30 นาทีในหนึ่งในหกเล่มกับห้าแต่ละรายการ สองผู้ประเมินการตัดสินคำตอบของนักเรียนหลังจากถึงเที่ยงที่น่าพอใจ (คัปปาโคเฮน> 0.70) ทั่วทุกมิติของสี่ระดับ เราใช้ Rasch-การสร้างแบบจำลอง (เยนและฟิทซ์ 2006) และ Winsteps ซอฟแวร์ (Linacre 2010) ความยากลำบากในการคำนวณรายการและความสามารถของแต่ละบุคคล ดัชนีพอดี Infit และ OUTFIT ได้ดี (0.97) ในขณะที่ความน่าเชื่อถือของค่ารายการที่ได้รับความพึงพอใจ (r = 0.88) ความน่าเชื่อถือของค่าส่วนบุคคล (r = 0.64) ต่ำเกินไป; ความน่าเชื่อถือควรจะอยู่ที่ประมาณ 0.80- 0.90 เพราะเราใช้เวลาเรียกร้องคำถามปลายเปิด, นักเรียนเท่านั้นที่สามารถดำเนินการไม่กี่รายการ เพื่อแก้ปัญหานี้ขั้นตอนความสามารถอาจจะรวมหรือมากกว่ารายการทดสอบสำหรับนักเรียนแต่ละคนอาจจะเพิ่ม ด้วย 10 รายการ (สองจำนวนที่เกิดขึ้นจริง) ความน่าเชื่อถือจะเพิ่มขึ้นเป็น r = 0.78 ทบทวนแผนที่ '' ไรท์ '' (การกระจายรายการ) เรายังพบว่านักเรียนที่มีความสามารถต่ำกว่าที่จำเป็นรายการได้ง่ายขึ้นกว่าที่เรานำเสนอ โดยเฉพาะอย่างยิ่งคือการสอบสวนของตัวหนังสือของสี่ระดับความสามารถบนพื้นฐานของความน่าจะเป็นของนักเรียนที่มีความสามารถบางอย่างที่จะ master รายการของความยากลำบากที่เหมาะสม ในระดับความสามารถที่เราคาดหวังว่าคะแนนโดยเฉพาะอย่างยิ่งจะเป็นน่าจะเป็นมากกว่าคะแนนอื่น ๆ นั่นก็คือเราคาด 4 เส้นโค้งที่โดดเด่นเป็นตัวแทนของแต่ละ 4 ระดับความสามารถ (1, 2, 3, 4) มะเดื่อ 4 แสดงให้เห็นว่าในประเภทคะแนนแต่ละอาจเป็นไปได้มากที่สุดในระดับความสามารถโดยเฉพาะอย่างยิ่ง นี้บ่งชี้ว่าระดับของตัวหนังสือมีความแตกต่างและคำอธิบาย (เกณฑ์หรือตัวชี้วัดประสิทธิภาพ) ระดับดูเหมือนว่าจะถูกต้อง

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

การทดสอบของเราสำหรับการให้เหตุผลทางคณิตศาสตร์ ประกอบด้วยสระว่ายน้ำ 13 รายการปรับ harmos ส่วนใหญ่จากโครงการ นักเรียนทำงาน 30 นาที ในหนึ่งในหกเล่มกับห้ารายการแต่ละ สองผู้ประเมินตัดสินคำตอบของนักเรียนหลังจากการเข้าถึงความพึงพอใจความเที่ยง ( Cohen Kappa > 70 ) ครอบคลุมทุกมิติทั้งสี่ระดับ เราใช้วิธีแบบ ( เยน&ฟิตซ์แพตทริค2549 ) และซอฟต์แวร์ winsteps ( Linacre 2010 ) เพื่อคำนวณรายการปัญหาและความสามารถของแต่ละบุคคล ดัชนีพอดี infit และชุดดี ( . 97 ) ในขณะที่ความน่าเชื่อถือของรายการค่าความพึงพอใจ ( r = . 88 ) , ความน่าเชื่อถือของค่าส่วนบุคคล ( r = . 64 ) ต่ำเกินไป ความน่าเชื่อถือน่าจะประมาณ 0.80 - 1.00 . เพราะเราใช้เวลาเรียกร้อง คำถามปลายเปิดนักเรียนอาจจะเสร็จไม่กี่รายการ เพื่อแก้ปัญหานี้ ขั้นตอนความสามารถอาจจะรวมกันหรือมากกว่าข้อสอบสำหรับนักเรียนแต่ละคน อาจจะเพิ่ม กับ 10 รายการ ( สองตัวเลขจริง ) , ความน่าเชื่อถือจะเพิ่มขึ้นเท่ากับ . 78 ทบทวน ' 'wright ' ' แผนที่ ( กระจายสินค้า ) เรายังพบว่า นักเรียนที่มีความสามารถที่ต้องการลดง่ายรายการมากกว่าที่เรานำเสนอโฟกัสเฉพาะคือการสอบสวนของอุเบกขา 4 ความสามารถระดับตามความน่าจะเป็นของนักเรียนที่มีความสามารถบางอย่างที่จะโทรายการของปัญหาที่เหมาะสม ความสามารถในระดับที่เราคาดหวังว่าคะแนนเฉพาะจะน่าจะเป็นมากขึ้นกว่ากลุ่มอื่น ๆ คือว่า เราคาดว่า 4 โค้ง เด่น แสดงความสามารถทั้ง 4 ระดับ ( 1 , 2 , 3 , 4 )รูปที่ 4 แสดงให้เห็นว่า สม่ำเสมอเป็น น่าจะเป็นมากที่สุด ที่ระดับความสามารถเฉพาะ นี้บ่งชี้ว่าระดับของการบีบอัดที่แตกต่างกันและมีคำอธิบาย ( เกณฑ์หรือตัวชี้วัดประสิทธิภาพของระดับดูเหมือนจะถูกต้อง

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.