and Pike (2012) have argued that th

and Pike (2012) have argued that the skills and outcomes
measured by testing represent only a small part of what is
important in higher education and in working life (see also Sackett,
Borneman, & Connelly, 2008). With these criticisms in mind, we
assume that there is a need for studies that investigate more deeply
the results of critical thinking tests.
In the area of critical thinking, previous studies have compared
the results of self-reports and performance-based assessments
(e.g., Bowman, 2010; Bowman & Seifert, 2011). These studies have
shown that self-reports and performance assessments measure
different aspects of students’ abilities and therefore yield different
pictures of those abilities. The present study addresses this issue by
comparing the test results of two different performance-based
critical thinking tests, both of which were used in AHELO. These
two approaches measure critical thinking still differ from each
other although they both represent the performance-based
assessments. The aim of this study is to explore how closely the
measures of these two tests are aligned. A strong variance in the
test results would have profound implications, as this would mean
that the form of assessment substantially affects the findings about
student outcomes (Bowman, 2010). Information about the
differences between various performance assessment instruments
is valuable for interpreting the results of critical thinking tests.
The strengths and challenges of assessments of critical thinking
Critical thinking is defined as purposeful, reasoned and
reflective thinking involving an ability to make a reasoned decision
between conflicting claims (Ennis, 1991). A critical thinker has the
skills to evaluate the credibility of sources, identify assumptions,
conclusions and reasons, ask appropriate clarifying questions,
synthesise information from a variety of sources and draw
appropriate explanations from particular context or type of task
(Halpern, 2014). Many researchers have claimed that critical
thinking cannot be defined by referring only to skills, because such
thinking always involves a disposition to use these skills
adequately (e.g., Bailin & Siegel, 2003; Halpern, 2014; Holma,
submitted for publication). In this respect a critical thinker knows
how to assess the strength of the evidence and the reasons given
and, at the same time, shows the disposition to do so (Bailin &
Siegel, 2003; Halpern, 2014).
In examining the critical thinking, researchers have used a
variety of different tests. The assessments can be roughly divided
into two main measurement protocols: self-reports and performance-based assessment. Self-reports, such as surveys, questionnaires and qualitative interviews, focus on students’ perceptions of
their current attributes or how these attributes have developed
over time (Bowman, 2010). The validity of self-report assessment
has been discussed extensively (e.g., Bowman, 2010; Bowman &
Seifert, 2011; Halpern, 1993; Pike, 1995, 1996, 1999). For example,
Halpern (1993, 279; see also 2014) condenses the problems of selfreport instruments in the following way: ‘‘students may report
that they have learned to think better when, in fact, they have not
or, conversely, that they have not improved when they really
have’’.
Performance assessment is sometimes presented as a new
assessment approach (Andrews & Wulfeck, 2014; Dierick & Dochy,
2001). However, there is a long history of using performance-based
assessment as an indicator of higher education student learning
and development in order to make educational decisions (see
Douglass et al., 2012; Ennis, 1991). The roots of today’s
performance-based assessment can be traced to the first third of
the twentieth century with the beginning of standardised testing
(Shavelson, 2010). What the various performance assessments
have in common is the goal of eliciting what students know
and can do (Andrews & Wulfeck, 2014). Performance-based
assessments can be further grouped into two main approaches,
namely (1) multiple-choice tests or questionnaires and (2)
constructed-response tasks. Below we discuss these two main
forms of performance-based assessments.
Multiple-choice tests have been a dominant testing regime
within the field of research on critical thinking (see Ennis, 1991;
Shavelson, 2010). In the test situation the student must analyse a
question and then identify and select the correct answers from a
list of given options (Popham, 2003). In contrast to the
constructed-response task, multiple-choice tests are often promoted as cost effective and objective (Brown, 2001; Fellenz, 2004),
as there is no need for human evaluation in scoring them. However,
the cognitive demands of multiple-choice tests have been under
discussion (e.g., Lindblom-Yla¨nne, Lonka, & Leskinen, 1996; Nicol,
2007). Many researchers have argued that a multiple-choice test
does not necessary encourage students to use higher-order
thinking processes (Nicol, 2007; Scouller, 1998). The reason
behind that claim is that multiple-choice tests may be answered
merely by low-level processing, such as factual recognition and
selection (Lindblom-Yla¨nne et al., 1996; Nicol, 2007). The general
view also suggests that it is more difficult to construct an answer
than to recognise the right alternative. It is also possible to select a
correct multiple-choice answer without really understanding a
problem or knowing the various aspects related to it. For example,
students can choose one item amongst the possible choices that
best suits the question asked, and, of course, it is possible to guess
the right answer from the alternatives given (Fellenz, 2004).
Examinees can be assured that the correct answer is amongst the
response options. Another weakness is that students ‘‘may be able
to recognise a correct answer that they would never been able to
generate on their own. In that sense, multiple-choice items can
present an exaggerated picture of a students’ understanding or
competence, which might lead teachers to invalid inferences’’
(Popham, 2003, 81–82). Although there is evidence that by
applying a well-designed multiple-choice questionnaire it is
possible to measure higher-order thinking (e.g., Fellenz, 2004;
Jensen, McDaniel, Woodard, & Kummer, 2014), on the basis of a
student’s answer it is not possible to determine how the student
has processed the test questions (Lindblom-Yla¨nne et al., 1996).
Multiple-choice test can never assess student’s skill to synthesise
or generate own answer either (Popham, 2003).
To address the limitation of multiple-choice tests, researchers
have developed alternative assessment methods, namely the
constructed-response tasks (Bennett & Ward, 1993). In the
constructed-response tasks examinees create their own answers
to the questions (Coates & Richardson, 2012; Rodriguez, 2003;
Shavelson, 2010). This type of measures are often open-ended
tasks in which students need to analyse, evaluate and synthesise
complex information as well as provide reasoned explanation (see
Popham, 2003; Shavelson, 2010). Therefore, the constructedresponse tasks are said to promote higher-order thinking and to
encourage extended problem solving more than the multiplechoice tasks. Another advantage is that the constructed response
tasks can reveal the level of understanding (Popham, 2003).
The constructed-response task also allows students to demonstrate their writing skills (VanTassel-Baska, 2014). These kinds of
tasks are sometimes referred to as ‘authentic assessment’ because
these tasks demonstrate the same thinking processes that
individuals use when they solve complex problems in their
everyday lives (Andrews & Wulfeck, 2014; Baartman, Bastiaens,
Kirschner, & van der Vleuten, 2007). However, several disadvantages of the constructed-response task have been reported.
The most important is the difficulty of scoring (Attali, 2014).
The constructed-response assessment is characterised as subjective and open to scoring bias, because examinees’ responses are
traditionally scored by using human evaluation (Popham, 2003;
H. Hyytinen et al. / Studies in Educational Evaluation 44 (2015) 1–8 2
Snow, 1993). The scoring of constructed-response tasks is also
considered time consuming and expensive; a large amount of time
and effort is needed to train scorers and to score the responses
(Attali, 2014). Recently, automated scoring of constructed-response
tasks has been developed (Almond, 2014). Popham (2003, 87) has
also argued that constructed-response tasks ‘‘are tougher for testtakers’’, because ‘‘a student really needs to understand something in
order to construct a response on that understanding’’.
Whether the multiple-choice test and the constructed-response
task of the same content do measure precisely the same
characteristics has been under di

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

และ (2012) จนมีโต้เถียงที่ทักษะและผลวัด โดยการทดสอบเป็นเพียงส่วนเล็ก ๆ ของสิ่งแสดงถึงสิ่งสำคัญ ในการศึกษา และ ในชีวิตการทำงาน (ดู SackettBorneman และคอนเนลลี 2008) มีวิจารณ์เหล่านี้ในจิตใจ เราสมมติว่า มีความจำเป็นสำหรับการศึกษาที่ตรวจสอบให้ลึกซึ้งยิ่งผลการทดสอบการคิดที่สำคัญในพื้นที่ของวิจารณญาณ การศึกษาก่อนหน้านี้ได้เปรียบเทียบผลลัพธ์ของรายงานด้วยตนเอง และประเมินจากประสิทธิภาพการทำงาน(เช่น Bowman, 2010 Bowman และหลาย 2011) การศึกษาเหล่านี้ได้แสดงที่รายงานตนเอง และการวัดประเมินประสิทธิภาพด้านต่าง ๆ ของนักเรียนความสามารถ และดังนั้น ผลผลิตแตกต่างกันภาพของความสามารถเหล่านั้น การศึกษาปัจจุบันเน้นปัญหานี้โดยเปรียบเทียบผลการทดสอบของทั้งสองแตกต่างกันตามประสิทธิภาพวิจารณญาณทดสอบ ซึ่งทั้งสองถูกใช้ใน AHELO เหล่านี้สองใกล้วัดสำคัญคิดยังแตกต่างจากอื่น ๆ ถึงแม้ว่าพวกเขาทั้งสองแทนประสิทธิภาพตามประเมินผลการ จุดมุ่งหมายของการศึกษานี้คือการ สำรวจว่าการมีจัดมาตรการของการทดสอบเหล่านี้สอง ผลต่างที่แข็งแกร่งในการผลการทดสอบจะมีผลกระทบอย่างลึกซึ้ง นี้จะหมายถึงว่า รูปแบบของการประเมินมากส่งผลกระทบต่อผลการวิจัยเกี่ยวกับนักศึกษาผล (Bowman, 2010) ข้อมูลเกี่ยวกับการความแตกต่างระหว่างเครื่องมือประเมินประสิทธิภาพการทำงานต่าง ๆจะมีคุณค่าการทำนายผลของการทดสอบวิจารณญาณจุดแข็งและความท้าทายของการประเมินผลของการคิดที่สำคัญวิจารณญาณไว้เป็น purposeful, reasoned และสะท้อนความคิดเกี่ยวข้องกับความสามารถในการตัดสินใจ reasonedระหว่างขัดแย้งเรียกร้อง (Ennis, 1991) Thinker สำคัญมีการทักษะในการประเมินความน่าเชื่อถือของแหล่งที่มา ระบุสมมติฐานข้อสรุปและเหตุผล คำถามที่เหมาะสมทำsynthesise ข้อมูลจากหลากหลายแหล่ง และวาดคำอธิบายที่เหมาะสมจากบริบทเฉพาะหรือชนิดของงาน(Halpern, 2014) นักวิจัยจำนวนมากได้อ้างว่า ที่สำคัญคิดไม่กำหนด โดยอ้างอิงถึงทักษะ เท่านั้นเนื่องจากกล่าวคิดจะเกี่ยวข้องกับการครอบครองการใช้ทักษะเหล่านี้เพียงพอ (เช่น Bailin & Siegel, 2003 Halpern, 2014 Holmaส่งตีพิมพ์) ในนี้รู้ thinker สำคัญวิธีการประเมินความแข็งแรงของหลักฐานและเหตุผลกำหนดให้และ พร้อมกัน แสดงการจัดการการทำงาน (Bailin &Siegel, 2003 Halpern, 2014)นักวิจัยได้ใช้ในการตรวจสอบการวิจารณญาณ การความหลากหลายของการทดสอบที่แตกต่างกัน การประเมินสามารถแบ่งคร่าว ๆ ได้เป็นโปรโตคอวัดหลักสอง: รายงานตนเอง และการประเมินผลประสิทธิภาพการทำงานตาม ตนเองรายงาน เช่นแบบสำรวจ แบบสอบถาม และ สัมภาษณ์เชิงคุณภาพ เน้นเข้าใจของแอตทริบิวต์ของปัจจุบันหรือว่าแอตทริบิวต์เหล่านี้ได้พัฒนาช่วงเวลา (Bowman, 2010) มีผลบังคับใช้การประเมินตนเองรายงานมีการกล่าวถึงอย่างกว้างขวาง (เช่น Bowman, 2010 Bowman และหลาย 2011 Halpern, 1993 จน 1995, 1996, 1999) ตัวอย่างHalpern (1993, 279 ดูยัง 2014) มีปัญหาของเครื่องมือ selfreport การควบแน่นใน: '' อาจรายงานนักเรียนว่า พวกเขาได้เรียนรู้คิดดีเมื่อ ในความเป็นจริง พวกเขาได้ไม่หรือ ในทางกลับกัน จะได้ไม่เพิ่มขึ้นเมื่อพวกเขาจริง ๆมี ''การประเมินประสิทธิภาพการทำงานบางครั้งแสดงเป็นใหม่วิธีการประเมิน (แอนดรูวส์และ Wulfeck, 2014 Dierick และ Dochy2001) . อย่างไรก็ตาม มีประวัติศาสตร์ยาวนานของการใช้ตามประสิทธิภาพประเมินเป็นตัวบ่งชี้นักเรียนศึกษาเรียนรู้และพัฒนาเพื่อทำการตัดสินใจทางการศึกษา (ดูAl. อริคดักลาสร้อยเอ็ด 2012 Ennis, 1991) รากของวันนี้สามารถติดตามประเมินประสิทธิภาพตามไปสามแรกของศตวรรษที่ยี่สิบ ด้วยจุดเริ่มต้นของแบบทดสอบ(Shavelson, 2010) สิ่งที่ต่าง ๆ ประสิทธิภาพการทำงานประเมินผลมีที่เหมือนกันคือเป้าหมายของ eliciting สิ่งที่เรียนรู้และสามารถทำได้ (แอนดรูวส์และ Wulfeck, 2014) ตามประสิทธิภาพการทำงานประเมินสามารถเพิ่มเติมจัดเป็นกลุ่มวิธีหลักสองได้แก่ (1) multiple-choice ทดสอบ หรือแบบสอบถาม และ (2)ตอบสร้างงาน ด้านล่างเราหารือหลักเหล่านี้สองรูปแบบของการประเมินประสิทธิภาพตามทดสอบ multiple-choice ได้ระบอบการทดสอบหลักในด้านการวิจัยสำคัญคิด (ดู Ennis, 1991Shavelson, 2010) ในสถานการณ์การทดสอบ นักเรียนต้องวิเคราะห์ความต้องการคำถามแล้วระบุ และเลือกคำตอบที่ถูกต้องจากการรายการให้เลือก (Popham, 2003) ในทางตรงกันข้ามกับตอบสร้างงาน ทดสอบ multiple-choice มักมีประสิทธิภาพต้นทุนและวัตถุประสงค์ (สีน้ำตาล 2001 การส่งเสริม Fellenz, 2004),เป็นการประเมินบุคคลในการให้คะแนนนั้นไม่จำเป็น อย่างไรก็ตามความต้องการรับรู้ของทดสอบ multiple-choice ได้ภายใต้สนทนา (เช่น Lindblom Yla¨nne, Lonka, & Leskinen, 1996 Nicol2007) . นักวิจัยจำนวนมากได้โต้เถียงที่ทดสอบ multiple-choiceไม่จำเป็นส่งเสริมให้นักเรียนใช้ขั้นสูงกระบวนการคิด (Nicol, 2007 Scouller, 1998) เหตุผลหลังอ้างว่าถูกว่า อาจตอบทดสอบ multiple-choiceเพียงแค่ โดยการประมวลผลระดับต่ำ เช่นรู้เรื่อง และเลือก (Lindblom Yla¨nne et al., 1996 Nicol, 2007) โดยทั่วไปดูยังแนะนำว่า เป็นยากต่อการสร้างคำตอบกว่าจะรู้ทางขวา ก็ยังสามารถเลือกแก้ไขคำตอบ multiple-choice ไม่เข้าใจจริง ๆ เป็นปัญหาหรือรู้แง่มุมต่าง ๆ ที่สัมพันธ์กัน ตัวอย่างนักเรียนสามารถเลือกหนึ่งในบรรดาตัวเลือกที่เป็นไปได้ที่ส่วนคำถามที่ถามที่เหมาะสมกับ และ แน่นอน เป็นไปได้ที่จะคาดเดาดูคำตอบจากตัวเลือกที่กำหนด (Fellenz, 2004)Examinees สามารถมั่นใจได้ว่า คำตอบถูกต้องคือหมู่ตัวเลือกคำตอบ อีกจุดอ่อนคือนักเรียน '' อาจจะรู้คำตอบที่ถูกต้องที่พวกเขาจะไม่สร้างตนเอง สามารถ ในรายการ multiple-choiceนำเสนอภาพ exaggerated ความเข้าใจของนักเรียน หรือความสามารถ ซึ่งอาจนำครูไปสู่ inferences ถูกต้อง ''(Popham, 2003, 81-82) มี หลักฐานการใช้แบบสอบถาม multiple-choice ห้องเป็นสามารถวัดความคิดขั้นสูง (เช่น Fellenz, 2004เจนเซน แม็กแดเนียล Woodard และอย่างไร Kummer, 2014), บนพื้นฐานของการคำตอบของนักเรียนที่ไม่สามารถกำหนดว่านักเรียนมีการประมวลผลคำถามทดสอบ (Lindblom Yla¨nne et al., 1996)ทดสอบ multiple-choice ไม่สามารถประเมินทักษะของนักเรียนเพื่อ synthesiseหรือสร้างคำตอบเองอย่างใดอย่างหนึ่ง (Popham, 2003)เพื่อแก้ไขข้อจำกัดของการทดสอบ multiple-choice นักวิจัยได้พัฒนาวิธีการประเมินทางเลือก ได้แก่การตอบสร้างงาน (เบนเนตและ Ward, 1993) ในexaminees งานสร้างตอบสร้างคำตอบของตนเองถาม (Coates แอนด์ริชาร์ดสัน 2012 ร็อดริเกซ 2003Shavelson, 2010) วัดประเภทนี้มักแบบเปิดงานที่นักเรียนต้องวิเคราะห์ ประเมิน และ synthesiseข้อมูลที่ซับซ้อนและด้วยความมีอธิบาย reasoned (ดูPopham, 2003 Shavelson, 2010) ดังนั้น กล่าวว่า งาน constructedresponse เพื่อส่งเสริมการคิดขั้นสูงและส่งเสริมการแก้ปัญหาเพิ่มเติมมากกว่างาน multiplechoice ประโยชน์อีกประการหนึ่งคือการสร้างการตอบสนองงานสามารถแสดงระดับความเข้าใจ (Popham, 2003)ตอบสร้างงานยังช่วยให้นักเรียนแสดงให้เห็นถึงทักษะการเขียน (VanTassel-Baska, 2014) ชนิดเหล่านี้ของงานบางอย่างเป็น 'ประเมินตามสภาพจริง"เนื่องจากงานเหล่านี้แสดงให้เห็นถึงกระบวนความคิดเดียวกันที่บุคคลใช้เมื่อพวกเขาแก้ปัญหาที่ซับซ้อนในการชีวิตประจำวัน (แอนดรูวส์และ Wulfeck, 2014 Baartman, BastiaensKirschner, & van der Vleuten, 2007) อย่างไรก็ตาม เสียหลายงานตอบสนองสร้างรายงานสำคัญสุดคือ ความยากของการให้คะแนน (Attali, 2014)การประเมินการตอบสนองสร้างมีประสบการ์เป็นตามอัตวิสัย และเปิดการให้คะแนนความโน้มเอียง เนื่องจากการตอบสนองของ examineesคะแนนโดยประเมินบุคคล (Popham, 2003 ประเพณีH. Hyytinen et al. / ศึกษาในการประเมินผลการศึกษา 44 (2015) 2 1-8หิมะ 1993) คะแนนตอบรับสร้างงานก็ถือว่าใช้เวลานาน และ แพง จำนวนมากของเวลาและต้องพยายามฝึก scorers และคะแนนการตอบสนอง(Attali, 2014) ล่าสุด อัตโนมัติคะแนนของคำตอบที่สร้างงานได้รับการพัฒนา (อัลมอนด์ 2014) Popham (2003, 87) มีนอกจากนี้ยัง มีโต้เถียงที่สร้างตอบงาน ''จะรุนแรงมากสำหรับ testtakers'' เนื่องจาก '' นักเรียนจริง ๆ ต้องเข้าใจบางอย่างในสั่งให้สร้างการตอบสนองในการทำความเข้าใจว่า ''ว่าการทดสอบ multiple-choice และสร้างตอบสนองงานของเนื้อหาเดียวกันวัดได้แม่นยำเหมือนกันมีลักษณะภายใต้ดิ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

และหอก (2012) ได้เสนอว่าทักษะและผลการ
วัดโดยการทดสอบเป็นเพียงส่วนเล็ก ๆ ของสิ่งที่เป็น
สิ่งสำคัญในการศึกษาที่สูงขึ้นและในชีวิตการทำงาน (เห็นเก็ตต์,
Borneman และคอนเนลลี, 2008) ด้วยการวิพากษ์วิจารณ์เหล่านี้ในใจเรา
คิดว่ามีความจำเป็นสำหรับการศึกษาที่ดำเนินการตรวจสอบอย่างลึกซึ้งยิ่งขึ้น
ผลการทดสอบการคิดเชิงวิพากษ์.
ในพื้นที่ของการคิดเชิงวิพากษ์การศึกษาก่อนหน้านี้ได้มีการเปรียบเทียบ
ผลของการรายงานตนเองและการประเมินผลการปฏิบัติงานตาม
(เช่น , ยิงธนู, 2010; โบว์แมนและ Seifert, 2011) การศึกษาเหล่านี้ได้
แสดงให้เห็นว่ารายงานของตนเองและการประเมินผลการปฏิบัติงานวัด
ด้านที่แตกต่างกันของความสามารถของนักเรียนและดังนั้นจึงให้ผลที่แตกต่างกัน
ภาพของความสามารถเหล่านั้น การศึกษาครั้งนี้เน้นปัญหานี้โดยการ
เปรียบเทียบผลการทดสอบประสิทธิภาพการทำงานของทั้งสองแตกต่างกันตาม
การทดสอบการคิดเชิงวิพากษ์ซึ่งทั้งสองถูกนำมาใช้ใน AHELO เหล่านี้
สองมาตรการวิธีการคิดอย่างมีวิจารณญาณยังคงแตกต่างจากแต่ละ
อื่น ๆ แม้ว่าพวกเขาทั้งสองเป็นตัวแทนของผลการดำเนินงานตาม
การประเมินผล จุดมุ่งหมายของการศึกษาครั้งนี้คือการสำรวจวิธีการอย่างใกล้ชิด
มาตรการของทั้งสองการทดสอบมีความสอดคล้อง ความแปรปรวนที่แข็งแกร่งใน
ผลการทดสอบจะมีความหมายที่ลึกซึ้งเช่นนี้จะหมายถึง
ว่ารูปแบบของการประเมินอย่างมากส่งผลกระทบต่อผลการวิจัยเกี่ยวกับ
ผลงานของนักเรียน (โบว์แมน, 2010) ข้อมูลเกี่ยวกับ
ความแตกต่างระหว่างเครื่องมือการประเมินผลการปฏิบัติงานต่าง ๆ
ที่มีคุณค่าสำหรับการตีความผลการทดสอบการคิดเชิงวิพากษ์.
จุดแข็งและความท้าทายของการประเมินผลของการคิดอย่างมีวิจารณญาณ
คิดอย่างมีวิจารณญาณมีการกำหนดเป็นเด็ดเดี่ยวเหตุผลและ
การคิดไตร่ตรองที่เกี่ยวข้องกับความสามารถในการที่จะทำให้การตัดสินใจที่มีเหตุผล
ที่ขัดแย้งกันระหว่าง เรียกร้อง (Ennis, 1991) นักคิดที่สำคัญมี
ทักษะในการประเมินความน่าเชื่อถือของแหล่งที่มาระบุสมมติฐาน
ข้อสรุปและเหตุผลที่ถามคำถาม Clarifying เหมาะสม
สังเคราะห์ข้อมูลจากความหลากหลายของแหล่งที่มาและวาด
คำอธิบายที่เหมาะสมจากบริบทเฉพาะหรือประเภทของงาน
(Halpern, 2014) นักวิจัยหลายคนได้อ้างว่าที่สำคัญ
คิดไม่สามารถกำหนดโดยอ้างเพียงเพื่อทักษะดังกล่าวเพราะ
คิดเสมอเกี่ยวกับการจำหน่ายที่จะใช้ทักษะเหล่านี้
อย่างเพียงพอ (เช่น Bailin ซีเกลและ 2003; Halpern, 2014; Holma,
ส่งสำหรับการตีพิมพ์) ในแง่นี้เป็นนักคิดที่สำคัญรู้
วิธีการประเมินความแข็งแรงของหลักฐานและเหตุผลที่ได้รับ
และในเวลาเดียวกันแสดงให้เห็นถึงวิสัยในการทำเช่นนั้น (Bailin และ
ซีเกล, 2003; Halpern, 2014).
ในการตรวจสอบการคิดเชิงวิเคราะห์ นักวิจัยได้ใช้
ความหลากหลายของการทดสอบที่แตกต่างกัน การประเมินผลสามารถแบ่ง
ออกเป็นสองโปรโตคอลวัดหลัก: รายงานตนเองและการประเมินผลการปฏิบัติงานตาม รายงานตนเองเช่นการสำรวจแบบสอบถามและการสัมภาษณ์เชิงคุณภาพมุ่งเน้นไปที่การรับรู้ของนักเรียน
คุณลักษณะปัจจุบันของพวกเขาหรือวิธีแอตทริบิวต์เหล่านี้ได้มีการพัฒนา
อยู่ตลอดเวลา (โบว์แมน, 2010) ความถูกต้องของการประเมินตนเองรายงาน
ได้รับการกล่าวถึงอย่างกว้างขวาง (เช่นโบว์แมน, 2010; โบว์แมนและ
Seifert, 2011; Halpern, 1993; หอก 1995, 1996, 1999) ตัวอย่างเช่น
Halpern (1993, 279 ดูยัง 2014) ควบแน่นปัญหาของเครื่องมือ selfreport ในทางที่ต่อไปนี้: '' นักเรียนอาจรายงาน
ว่าพวกเขาได้เรียนรู้ที่จะคิดว่าดีขึ้นเมื่อในความเป็นจริงพวกเขาไม่ได้
หรือตรงกันข้ามว่าพวกเขา ยังไม่ดีขึ้นเมื่อพวกเขาจริงๆ
มี ''.
การประเมินผลการดำเนินงานที่จะนำเสนอเป็นบางครั้งใหม่
วิธีการประเมินผล (แอนดรูและ Wulfeck, 2014; Dierick & Dochy,
2001) แต่มีประวัติศาสตร์อันยาวนานของการใช้ผลการดำเนินงานตาม
การประเมินเป็นตัวบ่งชี้ของการศึกษาเรียนรู้ของนักเรียนที่สูงขึ้น
และการพัฒนาเพื่อที่จะทำให้การตัดสินใจการศึกษา (ดู
ดักลาส, et al, 2012;. เอ็นนิส, 1991) รากของวันนี้
การประเมินผลการปฏิบัติงานตามที่สามารถโยงไปถึงสามปีแรกของ
ศตวรรษที่ยี่สิบกับจุดเริ่มต้นของการทดสอบมาตรฐาน
(Shavelson 2010) สิ่งที่การประเมินผลการปฏิบัติงานต่าง ๆ
มีเหมือนกันคือเป้าหมายของการหาความรู้สิ่งที่นักเรียนรู้
และสามารถทำ (แอนดรูและ Wulfeck, 2014) ผลการดำเนินงานตาม
การประเมินผลสามารถแบ่งเป็นสองแนวทางหลัก
คือ (1) การทดสอบแบบปรนัยหรือแบบสอบถามและ (2)
การตอบสนองงานสร้าง ด้านล่างนี้เราจะหารือทั้งสองหลัก
. รูปแบบของการประเมินผลการปฏิบัติงานตาม
การทดสอบหลายทางเลือกที่ได้รับการทดสอบระบอบการปกครองที่โดดเด่น
ภายในเขตของงานวิจัยเกี่ยวกับการคิดเชิงวิพากษ์ (ดู Ennis, 1991;
Shavelson 2010) ในสถานการณ์การทดสอบนักเรียนต้องวิเคราะห์
คำถามแล้วระบุและเลือกคำตอบที่ถูกต้องจาก
รายการของตัวเลือกที่กำหนด (ค็อตต์ 2003) ในทางตรงกันข้ามกับ
งานสร้างการตอบสนองการทดสอบแบบปรนัยมีการส่งเสริมมักจะเป็นค่าใช้จ่ายที่มีประสิทธิภาพและวัตถุประสงค์ (สีน้ำตาล, 2001; Fellenz, 2004)
ในขณะที่มีความจำเป็นสำหรับการประเมินผลของมนุษย์ในการให้คะแนนพวกเขาไม่ อย่างไรก็ตาม
ความต้องการองค์ความรู้ของการทดสอบแบบปรนัยได้รับภายใต้
การสนทนา (เช่น Lindblom-Yla¨nne, Lonka และ Leskinen, 1996; โรล,
2007) นักวิจัยหลายคนแย้งว่าการทดสอบแบบปรนัย
ไม่จำเป็นส่งเสริมให้นักเรียนได้ใช้ลำดับที่สูงกว่า
กระบวนการคิด (โรล, 2007; Scouller, 1998) เหตุผล
ที่อยู่เบื้องหลังการที่อ้างว่าเป็นที่การทดสอบแบบปรนัยอาจจะตอบ
เพียงโดยการประมวลผลระดับต่ำเช่นการรับรู้ข้อเท็จจริงและ
ตัวเลือก (Lindblom-Yla¨nne et al, 1996;. โรล 2007) ทั่วไป
มุมมองยังแสดงให้เห็นว่ามันเป็นเรื่องยากมากที่จะสร้างคำตอบ
กว่าที่จะรับรู้ทางเลือกที่เหมาะสม นอกจากนี้ยังเป็นไปได้ที่จะเลือก
คำตอบแบบปรนัยที่ถูกต้องโดยไม่ต้องเข้าใจจริงๆ
ปัญหาหรือความรู้ด้านต่างๆที่เกี่ยวข้องกับมัน ตัวอย่างเช่น
นักเรียนสามารถเลือกรายการหนึ่งในหมู่ทางเลือกที่เป็นไปได้ที่
เหมาะสมที่สุดกับคำถามที่ถามและแน่นอนมันเป็นไปได้ที่จะคาดเดา
คำตอบที่ถูกต้องจากทางเลือกที่กำหนด (Fellenz, 2004).
สอบสามารถมั่นใจได้ว่าตอบที่ถูกต้อง เป็นหนึ่งใน
ตัวเลือกการตอบสนอง จุดอ่อนก็คือการที่นักเรียน '' อาจจะไม่สามารถ
ที่จะยอมรับคำตอบที่ถูกต้องว่าพวกเขาจะไม่สามารถที่จะ
สร้างได้ด้วยตัวเอง ในแง่ที่ว่ารายการแบบปรนัยสามารถ
นำเสนอภาพที่พูดเกินจริงของนักเรียน 'ความเข้าใจหรือ
ความสามารถซึ่งอาจนำไปสู่ครูที่ไม่ถูกต้องอนุมาน ''
(ค็อตต์, 2003, 81-82) ถึงแม้จะมีหลักฐานที่แสดงว่าโดย
ใช้การออกแบบที่ดีแบบสอบถามหลายทางเลือกมันเป็น
ไปได้ที่จะวัดการคิดขั้นสูง (เช่น Fellenz 2004;
เซ่น McDaniel, วูดาร์ดแอนด์ Kummer, 2014) บนพื้นฐานของ
คำตอบของนักเรียน มันไม่ได้เป็นไปได้ที่จะกำหนดวิธีการที่นักเรียน
มีการประมวลผลคำถามทดสอบ (Lindblom-Yla¨nne et al., 1996).
การทดสอบหลายตัวเลือกไม่สามารถประเมินทักษะของนักเรียนในการสังเคราะห์
หรือสร้างคำตอบของตัวเองทั้ง (ค็อตต์, 2003).
การ อยู่ที่ข้อ จำกัด ของการทดสอบแบบปรนัยนักวิจัย
ได้มีการพัฒนาวิธีการประเมินทางเลือกคือ
การตอบสนองงานสร้าง (เบนเน็ตต์และวอร์ด 1993) ใน
การตอบสนองงานสร้างสอบไล่สร้างคำตอบของตัวเอง
คำถาม (โคตส์และริชาร์ด, 2012; Rodriguez, 2003;
Shavelson 2010) ประเภทของมาตรการนี้มักจะมีปลายเปิด
งานที่นักเรียนต้องวิเคราะห์ประเมินผลและสังเคราะห์
ข้อมูลที่ซับซ้อนเช่นเดียวกับการให้คำอธิบายเหตุผล (ดู
ค็อตต์, 2003; Shavelson 2010) ดังนั้นงาน constructedresponse จะกล่าวว่าเพื่อส่งเสริมการคิดขั้นสูงและเพื่อ
กระตุ้นให้เกิดการแก้ปัญหาการขยายมากกว่างาน multiplechoice ข้อดีก็คือว่าการตอบสนองต่อการสร้าง
งานสามารถที่จะเปิดเผยระดับของความเข้าใจ (ค็อตต์, 2003).
งานสร้างการตอบสนองยังช่วยให้นักเรียนที่จะแสดงให้เห็นถึงทักษะการเขียนของพวกเขา (vanTassel-Baska, 2014) ชนิดนี้ของ
งานบางครั้งจะเรียกว่า 'การประเมินของแท้' เพราะ
งานเหล่านี้แสดงให้เห็นถึงกระบวนการคิดเหมือนกันว่า
บุคคลที่ใช้เมื่อพวกเขาแก้ปัญหาที่ซับซ้อนของพวกเขาใน
ชีวิตประจำวัน (แอนดรูและ Wulfeck, 2014; Baartman, Bastiaens,
ริชเนอร์และแวนเดอร์ Vleuten 2007) อย่างไรก็ตามหลายข้อเสียของการตอบสนองงานสร้างที่ได้รับรายงาน.
ที่สำคัญที่สุดคือความยากลำบากของการให้คะแนน (Attali, 2014).
การประเมินผลการสร้างการตอบสนองเป็นลักษณะเป็นอัตนัยและเปิดให้คะแนนอคติเพราะการตอบสนองสอบ 'จะ
ทำแต้มแบบดั้งเดิม โดยใช้การประเมินผลของมนุษย์ (ค็อตต์, 2003;
. เอช Hyytinen และคณะ / การศึกษาในการประเมินผลการศึกษาที่ 44 (2015) 01-08 กุมภาพันธ์
หิมะ, 1993) การให้คะแนนของงานที่ตอบสนองต่อการสร้างนอกจากนี้ยัง
ถือเป็นเวลานานและมีราคาแพง จำนวนมากของเวลา
และความพยายามเป็นสิ่งจำเป็นในการฝึกอบรมเรอร์และให้คะแนนการตอบสนอง
(Attali, 2014) เมื่อเร็ว ๆ นี้การให้คะแนนของการตอบสนองโดยอัตโนมัติสร้าง
งานได้รับการพัฒนา (อัลมอนด์, 2014) ค็อตต์ (2003, 87) ได้
นอกจากนี้ยังเป็นที่ถกเถียงกันว่างานสร้างการตอบสนอง '' มีความรุนแรงสำหรับ testtakers '' เพราะ '' นักเรียนจริงๆต้องการที่จะเข้าใจสิ่งที่อยู่ใน
เพื่อสร้างการตอบสนองต่อการเข้าใจว่า ''.
ไม่ว่าจะเป็นทางเลือกที่หลาย การทดสอบและการสร้างการตอบสนอง
งานของเนื้อหาเดียวกันจะวัดได้อย่างแม่นยำเดียวกัน
ลักษณะได้รับภายใต้ดิ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

และไพค์ ( 2012 ) ได้เสนอว่าผลจากการทดสอบวัดทักษะและ
เป็นตัวแทนเพียงส่วนเล็ก ๆของสิ่งที่
สำคัญในระดับอุดมศึกษา และในชีวิตการทำงาน ( เห็นแซคเค้ทท์
บอร์นเมิ่น& Connelly , , , 2008 ) กับเหล่านี้วิพากษ์วิจารณ์ในใจเรา
สันนิษฐานว่าต้องมีการศึกษาที่ศึกษาอย่างลึกซึ้งยิ่งขึ้น

ผลการทดสอบวิจารณญาณ ในพื้นที่ของการคิดเชิงวิพากษ์ก่อนหน้านี้มีการศึกษาเปรียบเทียบผลของ self-reports

ผลงานและการประเมิน ( เช่น โบว์แมน , 2010 ; ไซเฟิร์ท&โบว์แมน , 2011 ) การศึกษานี้แสดงให้เห็นว่าการประเมินประสิทธิภาพ self-reports

และวัดลักษณะต่าง ๆของความสามารถของนักเรียนและดังนั้นจึงให้ผลภาพที่แตกต่าง
ความสามารถเหล่านั้น การศึกษาที่อยู่ปัญหานี้โดย
การเปรียบเทียบผลการทดสอบที่แตกต่างกันสองผลงาน
วิจารณญาณการทดสอบ ซึ่งทั้งสองถูกใช้ใน ahelo . เหล่านี้สองวิธีการวัดการคิดอย่างมีวิจารณญาณ

ยังแตกต่างจากแต่ละอื่น ๆแม้ว่าพวกเขาทั้งสองแสดงผลงาน
การประเมิน จุดมุ่งหมายของการศึกษานี้เพื่อสำรวจวิธีการอย่างใกล้ชิด
มาตรการเหล่านี้ การทดสอบสองชิด ความแปรปรวนที่แข็งแกร่งใน
ผลการทดสอบจะมีความหมายลึกซึ้ง นี้จะหมายถึงว่า รูปแบบการประเมินอย่างมาก

ผลต่อข้อค้นพบเกี่ยวกับนักเรียน ( โบว์แมน , 2010 ) ข้อมูลเกี่ยวกับความแตกต่างระหว่างการประเมินแบบต่างๆ

เป็นเครื่องมือที่มีคุณค่าสำหรับการตีความผลลัพธ์ของการทดสอบวิจารณญาณ

จุดแข็งและความท้าทายของการคิดอย่างมีวิจารณญาณการคิดอย่างมีวิจารณญาณ หมายถึง เด็ดเดี่ยวและคิดไตร่ตรองเหตุผล
, ที่เกี่ยวข้องกับความสามารถในการให้เหตุผลการตัดสินใจ
ระหว่างความขัดแย้ง ( เอนนิส , 1991 ) นักคิดที่สำคัญมี
ทักษะเพื่อประเมินความน่าเชื่อถือของแหล่งข่าว ระบุสมมติฐาน
ข้อสรุปและเหตุผลที่ถามเหมาะสมชี้แจงคำถาม
สังเคราะห์ข้อมูลจากหลากหลายแหล่ง และวาดรูป
เหมาะสมคำอธิบายจากบริบทเฉพาะหรือประเภทของงาน
( ลเพิร์น ปี 2014 ) นักวิจัยหลายคนได้อ้างว่าวิกฤต
คิดไม่สามารถกำหนดโดยอ้างอิงเฉพาะทักษะ เพราะคิดแบบนี้
เสมอเกี่ยวข้องกับการจัดการการใช้ทักษะเหล่านี้
อย่างเพียงพอ เช่น ไป่ ิน& ซีเกล , 2003 ; ลเพิร์น 2014 ; holma
, และสิ่งพิมพ์ ) ในส่วนนี้เป็นนักคิดที่สำคัญรู้
วิธีการประเมินความแข็งแรงของหลักฐานและเหตุผลให้
และในเวลาเดียวกันแสดงความต้องการที่จะทำเช่นนั้น ( ไป่ ิน&
ซี , 2003 ; ลเพิร์น ปี 2014 ) .
ในการคิดอย่างมีวิจารณญาณ นักวิจัยได้ใช้
หลากหลายของการทดสอบที่แตกต่างกัน การประเมินผลสามารถประมาณแบ่งออกเป็นสองระบบหลัก :
self-reports การวัดและประเมินผลงาน . รายงานตนเองเช่น แบบสำรวจ แบบสอบถาม และการสัมภาษณ์เชิงคุณภาพที่เน้นการรับรู้ของนักศึกษา คุณลักษณะปัจจุบันของพวกเขาหรือวิธีการของ

คุณสมบัติเหล่านี้ได้มีการพัฒนาตลอดเวลา ( โบว์แมน , 2010 ) ความถูกต้องของการประเมินตนเอง
ได้รับการกล่าวถึงอย่างกว้างขวาง เช่น โบว์แมน , 2010 ; โบว์แมน&
ไซเฟิร์ต , 2011 ; ลเพิร์น , 1993 ; หอก , 1995 , 1996 , 1999 ) ตัวอย่างเช่น
ลเพิร์น ( 1993 , 279 ;ดูปี 2014 ) จะควบแน่นปัญหาของเครื่องมือ selfreport ในวิธีต่อไปนี้ : ' 'students อาจรายงาน
ที่พวกเขาได้เรียนรู้ที่จะคิดขึ้นเมื่อในความเป็นจริงพวกเขาไม่ได้
หรือตรงกันข้าม ก็ไม่ได้ดีขึ้นเมื่อพวกเขาได้จริงๆ

' ' ประเมินการปฏิบัติบางครั้งแสดงเป็นใหม่
. โดยแอนดรู& wulfeck 2014 ; dierick & dochy
, 2001 ) อย่างไรก็ตามมีประวัติศาสตร์ที่ยาวนานของการใช้ผลงาน
การประเมินเป็นตัวบ่งชี้ของนักเรียนการศึกษาสูงการเรียนรู้
และการพัฒนาเพื่อที่จะทำให้การตัดสินใจการศึกษา ( ดู
ดักลาส et al . , 2012 ; เอนนิส , 1991 ) รากของวันนี้
ผลงานการประเมินสามารถโยงไปถึงแรกที่สามของ
ศตวรรษที่ยี่สิบกับจุดเริ่มต้นของมาตรฐานการทดสอบ
( shavelson , 2010 )สิ่งที่ประเมินประสิทธิภาพต่างๆ
มีร่วมกันคือเป้าหมายของ eliciting สิ่งที่นักเรียนรู้
และสามารถทำ ( แอนดรู& wulfeck 2014 ) ประสิทธิภาพตาม
การประเมินสามารถเพิ่มเติมแบ่งออกได้เป็น 2 วิธีหลัก คือ ( 1 )
แบบทดสอบ หรือ แบบสอบถาม และ ( 2 )
สร้างงานตอบสนอง ด้านล่างเราจะหารือรูปแบบหลักเหล่านี้
2
ผลงาน การประเมินข้อสอบปรนัยมีเด่นการทดสอบระบบ
ภายในเขตของการวิจัยในการคิดอย่างมีวิจารณญาณ ( ดูในเอนนิส , 1991 ;
shavelson , 2010 ) ในสถานการณ์การทดสอบนักศึกษาต้องวิเคราะห์
คำถามแล้ว ระบุ และเลือกคำตอบที่ถูกต้องจาก
รายชื่อให้เลือก ( พอเฟิ่ม , 2003 ) ในทางตรงกันข้ามกับ
สร้างงานตอบสนองแบบทดสอบแบบปรนัย มักจะเป็นค่าใช้จ่ายที่มีประสิทธิภาพและวัตถุประสงค์ ( สีน้ำตาล , 2001 ; fellenz , 2004 ) ,
เป็นไม่ต้องมีการประเมินบุคคลในการให้พวกเขา อย่างไรก็ตาม ความต้องการทางปัญญาของแบบสอบเลือกตอบ

ได้รับภายใต้การอภิปราย ( เช่น ลินด์บลอม yla ตั้ง nne lonka & , , leskinen , 1996 ; นิโคล
, 2550 ) นักวิจัยหลายคนได้เสนอว่าเป็นแบบทดสอบ
ไม่จําเป็นต้องกระตุ้นให้นักเรียนใช้กระบวนการคิดขั้นสูง
( นิโคล , 2007 ; scouller , 1998 ) เหตุผลที่อ้างคือ
หลังแบบสอบเลือกตอบจะตอบ
เพียงโดยการประมวลผลระดับล่าง เช่น การยอมรับข้อเท็จจริงและ
เลือก ( ลินด์บลอม yla ตั้ง nne et al . , 1996 ; นิโคล , 2007 ) มุมมองทั่วไป
ยังชี้ให้เห็นว่ามันเป็นเรื่องยากมากที่จะสร้างคำตอบ
กว่าที่จะยอมรับทางเลือกที่เหมาะสม นอกจากนี้ยังเป็นไปได้ที่จะ เลือก ตอบแบบถูกต้องโดยไม่เข้าใจจริงๆ

มีปัญหาหรือรู้ในแง่มุมต่าง ๆที่เกี่ยวข้อง ตัวอย่างเช่น นักศึกษาสามารถเลือกรายการหนึ่ง

ในหมู่ตัวเลือกที่เป็นไปได้ที่ดีที่สุดเหมาะกับคำถามที่ถาม และแน่นอนมันเป็นไปได้ที่จะเดา
คำตอบที่ถูกต้องจากทางเลือกให้ (
fellenz , 2004 )ผู้สอบสามารถมั่นใจได้ว่า คำตอบที่ถูกต้องคือในหมู่
คำตอบตัวเลือก จุดอ่อนอีก ว่า ' ขอนักเรียนสามารถ
ยอมรับคำตอบที่ถูกต้องที่พวกเขาไม่เคยจะได้
สร้างด้วยตนเอง ในแง่ที่สามารถนำเสนอรายการแบบ
ภาพเกินจริงของนักเรียนเข้าใจหรือ
ความสามารถซึ่งอาจนำครูที่ไม่ถูกต้องใช้ ' '
( พอเฟิ่ม ,2003 , 81 ( 82 ) แม้ว่าจะมีหลักฐานที่ใช้ดี ตอบแบบสอบถามด้วย

มันคือสามารถวัดการคิดขั้นสูง ( เช่น fellenz , 2004 ;
เจนเซ่น แม็คแดเนียล วูดาร์ด& , Kummer 2014 ) บนพื้นฐานของตอบ
นักเรียนมันเป็นไปไม่ได้ที่จะตรวจสอบว่านักศึกษาพยาบาลมีการประมวลผลคำถามทดสอบ ( ลินด์บลอม yla ตั้ง nne et al . , 1996 ) .
แบบทดสอบหลายตัวเลือกไม่สามารถประเมินทักษะของนักเรียนเพื่อสังเคราะห์หรือสร้างคำตอบเองเหมือนกัน (

พอเฟิ่ม , 2003 ) เพื่อแก้ไขข้อจำกัดของแบบสอบเลือกตอบ นักวิจัย
ได้พัฒนาวิธีการประเมินทางเลือก คือ การสร้างงาน
( เบนเน็ตต์&วอร์ด , 1993 ) ในการสร้างงานสร้างระดับ

ให้ตนเองตอบคำถาม ( โคตส์&ริชาร์ดสัน2012 ; Rodriguez , 2003 ;
shavelson , 2010 ) มาตรการประเภทนี้มักจะเปิด
งานที่นักเรียนต้องวิเคราะห์ ประเมินและสังเคราะห์
ข้อมูลที่ซับซ้อน รวมทั้งให้เหตุผลอธิบาย ( ดู
พอเฟิ่ม , 2003 ; shavelson , 2010 ) ดังนั้น constructedresponse งานว่า เพื่อส่งเสริมการคิดขั้นสูงและ
สนับสนุนการแก้ไขปัญหามากกว่า multiplechoice งาน ข้อดีอีกคือ ว่า สร้างการตอบสนอง
งานสามารถแสดงระดับของความเข้าใจ ( พอเฟิ่ม , 2003 ) .
สร้างการตอบสนองงานยังช่วยให้นักเรียนของพวกเขาที่จะแสดงให้เห็นถึงทักษะการเขียน ( vantassel แบสค่า 2014 ) ชนิดเหล่านี้ของ
งานบางครั้งจะเรียกว่าเป็น ' ' เพราะ
การประเมินตามสภาพจริงงานเหล่านี้แสดงให้เห็นถึงกระบวนการคิดเดียวกันที่
บุคคลใช้เมื่อพวกเขาแก้ปัญหาที่ซับซ้อนในชีวิตประจําวัน
( แอนดรู& wulfeck 2014 ; baartman bastiaens
, , kirschner & , ฟาน เดอร์ vleuten , 2007 ) อย่างไรก็ตาม ข้อเสียของการสร้างการตอบสนองงานต่าง ๆมีการรายงาน .
ที่สำคัญที่สุดคือความยากของคะแนน ( attali
2014 )การสร้างการตอบสนองการประเมินมีลักษณะเป็นอัตนัย และเปิดให้คะแนนลำเอียง เพราะคำตอบของผู้สอบมีคะแนนตามเกณฑ์การประเมินของมนุษย์โดยใช้
( พอเฟิ่ม , 2003 ;
h hyytinen et al . การศึกษา / การประเมินทางการศึกษา 44 ( 2015 ) 1 – 8 2
หิมะ , 1993 ) การให้คะแนนของการสร้างงานตอบรับยัง
ถือว่าใช้เวลานานและมีราคาแพง ; เวลาจํานวนมาก
และความพยายามเป็นสิ่งจำเป็นในการฝึกอบรมครั้งและคะแนนการตอบสนอง
( attali 2014 ) เมื่อเร็ว ๆนี้โดยอัตโนมัติคะแนนของการสร้างงานตอบสนอง
ได้รับการพัฒนา ( อัลมอนด์ , 2014 ) พอเฟิ่ม ( 2003 , 87 )
ยังแย้งว่าสร้างการตอบสนองงาน ' การอัพขึ้น สำหรับ testtakers ' ' เพราะ ' ' นักเรียนต้องการที่จะเข้าใจบางอย่างใน
เพื่อสร้างการตอบสนองในความเข้าใจ
' 'ว่าแบบทดสอบและสร้างการตอบสนอง
งานของเนื้อหาเดียวกันทำวัดได้อย่างแม่นยำลักษณะเดียวกัน
ได้รับภายใต้ ดิ

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.