Each item of each test was scored separately; however, for
correct responses a total score was derived from each test and
used in the analysis. All tests were scored and coded blind to
the condition in which the student was placed. The scoring of
each item was performed through the use of a scoring rubric
table that included pre-set criteria (expected correct answer
and expected correct explanation; see
Appendix A
for an
example), which were used to score both whether a partic-
ipant’s answer to a question of an item and its accompanied
explanation were correct. A correct answer to a question was
always scored with one point, across all tests, and its corre-
sponding explanation in accordance with how many of its pre-
set criteria (expected knowledge needed to explain an answer)
were met. Each explanation criterion was scored with half
point, across all tests. The maximum score of each question of
an item of a test varied according to the number of criteria
used for scoring its explanation. Hence, the maximum score of
an item of a test varied both across the items of a test and
across the items of the other tests, unless two items shared the
same total number of explanation criteria. An individual’s
total score on a test was derived by adding all the assigned
scores, both those of an answer and an explanation, of all
questions (of all items) of a test, and by adjusting it to a 100-
point scale. The minimum score was 0 and the total maximum
score was 100 on each test. Two independent raters scored
about 20% of the data. The reliability measures (Cohen’s
kappa) for scoring of the
H
&
T
test (pre- and posttest) and
Tests 1, 2, 3 and 4 (pre- and posttests), were 0.89, 0.90, 0.92,
0.88, and 0.90, respectively. The reliability (proportion of
agreement) of the scoring of the qualitative data (students’
conceptions; e.g., ‘‘Suppose equal volumes of iron and water
interact thermally. Which will change temperature more?
Explain your reasoning’’) was 0.91. Disagreements were dis-
cussed after the reliability analysis, and were classified when
mutual agreement was reached
แต่ละรายการของแต่ละการทดสอบเป็นคะแนนแยกต่างหาก อย่างไรก็ตาม สำหรับแก้ไขคะแนนรวมที่มาจากแต่ละการทดสอบคำตอบ และใช้ในการวิเคราะห์ ทดสอบทั้งหมดได้คะแนน และเขียนตาบอดเงื่อนไขที่นักเรียนถูกจัดวาง คะแนนของสินค้าแต่ละรายการถูกดำเนินการโดยใช้ rubric ให้คะแนนตารางที่เกณฑ์ที่ตั้งไว้ล่วงหน้า (คาดการณ์ถูกต้องคำตอบและคำ อธิบายที่คาดไว้ถูกต้อง ดูภาคผนวก Aสำหรับการตัวอย่าง), ซึ่งใช้คะแนนทั้งสองว่าเป็น partic-ตอบคำถามของสินค้าของ ipant และมันมาพร้อมกับอธิบายได้ถูกต้อง คำตอบที่ถูกต้องคำถามคะแนนเสมอกับจุดหนึ่ง ผ่านการทดสอบทั้งหมด และของคอร์-sponding อธิบายตามจำนวนของมันก่อนกำหนดเกณฑ์ที่คาดหวังความรู้ต้องอธิบายคำตอบ)ได้ตรงตาม แต่ละเกณฑ์อธิบายได้คะแนนมื้อจุด ผ่านการทดสอบทั้งหมด คะแนนสูงสุดของแต่ละคำถามของรายการของการทดสอบที่แตกต่างกันตามจำนวนของเงื่อนไขใช้สำหรับการอธิบายการให้คะแนน ดังนั้น คะแนนสูงสุดของรายการของการทดสอบที่แตกต่างกันทั้งในรายการของการทดสอบ และในรายการของการทดสอบอื่น ๆ เว้นแต่ใช้ร่วมกันสองรายการจำนวนทั้งหมดเดียวกันอธิบายเกณฑ์ ของแต่ละบุคคลคะแนนรวมในการทดสอบได้มา โดยการเพิ่มทั้งหมดที่กำหนดคะแนน ทั้งที่คำตอบและคำอธิบาย ทั้งหมดคำถาม (สินค้าทั้งหมด) ของการทดสอบ และปรับไป 100 แบบชี้สเกล คะแนนต่ำสุดคือ 0 และสูงสุดรวมคะแนนเป็น 100 ในแต่ละการทดสอบ Raters อิสระสองคะแนนประมาณ 20% ของข้อมูล (โคเฮนเป็นวัดความน่าเชื่อถือกัปปะ) สำหรับการให้คะแนนของการel&Tทดสอบ (ก่อน และ posttest) และทดสอบ 1, 2, 3 และ 4 (ก่อน และ posttests), ได้ 0.89, 0.90, 0.920.88 และ 0.90 ตามลำดับ ความน่าเชื่อถือ (สัดส่วนของข้อตกลง) ของคะแนนของข้อมูลเชิงคุณภาพ (นักเรียนconceptions เช่น, '' สมมติว่า ปริมาณเท่ากับเหล็กและน้ำติดต่อแพ ซึ่งจะเปลี่ยนแปลงอุณหภูมิเพิ่มเติมอธิบายเหตุผลของคุณ '') ได้ 0.91 ความขัดแย้งได้หรือไม่??-cussed หลังจากการวิเคราะห์ความน่าเชื่อถือ และจัดเมื่อถึงข้อตกลงร่วมกัน
การแปล กรุณารอสักครู่..

แต่ละรายการของการทดสอบแต่ละคะแนนแยกต่างหาก แต่สำหรับ
ถูกต้องตอบสนองคะแนนทั้งหมดที่ได้มาจากแต่ละการทดสอบและ
ที่ใช้ในการวิเคราะห์ การทดสอบทั้งหมดถูกยิงและรหัสบอด
สภาพที่นักเรียนอยู่ การให้คะแนนของแต่ละรายการที่ทำผ่าน
ใช้คะแนนรูบริค
โต๊ะรวมเกณฑ์ที่ตั้งไว้ ( คาด
ตอบถูกต้องและคาดว่าจะมีคำอธิบายที่ถูกต้อง เห็นไส้ติ่ง
สำหรับตัวอย่าง ) , ซึ่งถูกใช้เพื่อคะแนนทั้งไม่ว่าจะเป็น partic -
ipant ตอบคำถามของรายการและมาพร้อมกับ
อธิบายได้ถูกต้อง คำตอบที่ถูกต้องคำถามเป็น
เสมอคะแนนกับจุดหนึ่งในการทดสอบทั้งหมดและโทรศัพท์ -
sponding คำอธิบายตามจํานวนของ pre -
กำหนด ( คาดว่าความรู้ที่จำเป็นเพื่ออธิบายคำตอบ )
ได้เจอกัน แต่ละคำอธิบายเกณฑ์คะแนนครึ่ง
จุดข้ามการทดสอบทั้งหมด คะแนนสูงสุดของแต่ละคำถาม
รายการของการทดสอบที่แตกต่างกันตามจำนวนของเกณฑ์การให้คะแนน
ใช้คำอธิบายของ ดังนั้น คะแนนสูงสุดของ
รายการของการทดสอบที่หลากหลายทั้งในรายการของการทดสอบและ
ในรายการของการทดสอบอื่น ๆ นอกจากสองรายการใช้เบอร์เดียวกันทั้งหมด
เกณฑ์คำอธิบาย ของคะแนนรวมในแต่ละ
ทดสอบได้โดยการเพิ่มทั้งหมดมอบหมาย
คะแนน ทั้งที่เป็นคำตอบ และคำอธิบายของคำถามทั้งหมด
( รายการทั้งหมด ) ของแบบทดสอบ และปรับเป็น 100 -
จุดขนาด คะแนนต่ำสุด คือ 0 คะแนนสูงสุด
รวม 100 ในแต่ละแบบผู้ประเมินอิสระ 2 คะแนน
ประมาณ 20% ของข้อมูล เครื่องมือวัด ( Cohen
กัปปะ ) สำหรับการให้คะแนนของ
H
T
&ทดสอบ ( ก่อนและหลัง ) และ
ทดสอบ 1 , 2 , 3 และ 4 ( pre - ภาษาไทย ) , 0.89 , 0.92 ,
0.90 0.88 และ 0.90 ตามลำดับ ความน่าเชื่อถือ ( สัดส่วนของ
ข้อตกลง ) ของการให้คะแนนของข้อมูลเชิงคุณภาพ ( นักศึกษา
แนวคิด เช่น' 'suppose เท่ากับปริมาณเหล็กและน้ำ
โต้ตอบแช . ซึ่งจะเปลี่ยนอุณหภูมิมากขึ้น
อธิบายเหตุผล ' ' ) คือ 0.91 . ความขัดแย้งเป็น dis -
สบถหลังจากการวิเคราะห์ความเชื่อถือได้ และแบ่งเมื่อ
ข้อตกลงร่วมกันได้ถึง
การแปล กรุณารอสักครู่..
