Curriculum Materials
Four projects were designed to engage students in inquiry-based learning activities supported
by embedded learning technologies. The projects, which take about 8–10 weeks to complete,
were designed to align with science education standards identified in Benchmarks for Science
1068 MARX ET AL.
Literacy (American Association for the Advancement of Science, 1993) and the National Science
Education Standards (National Research Council, 1996). In addition, they were carefully aligned
with the middle school science curriculum framework for Detroit Public Schools. These curricula:
(a) use driving questions related to students daily lives, (b) embed learning technologies; (c)
engage students in inquiry, (d) contain activities to build skills and background knowledge to
prepare students for investigations; and (d) contextualize the learning experiences (see Singer
et al., 2000a):
HowCan I Build Big Things? This sixth-grade project (Rivet&Krajcik, 2002) enables the
learner to develop understanding of simple machines, mechanical advantage, and the
relationship among balanced and unbalanced forces in using building structures to
contextualize. Students examine built structures such as their school building or other
community sites, and investigate the machines that were used in their construction.
Learners use technology for interpreting and visualizing physical phenomena graphically.
The project integrates the use of microcomputer based labs such as force probes
to compare how unbalanced forces result in motion.
What Is the Quality of Air inMyCommunity? In this seventh-grade project (Amati, Singer,
& Carrillo, 1999), the learner develops an understanding of factors that affect air quality
with a focus on the particulate nature of matter and chemical and physical properties.
Learners examine different sources of pollution in their neighborhood and use archived
data to compare air quality in Detroit with that of other cities. Through the use of Model-It
(Jackson, Krajcik, & Soloway, 2000), a dynamic modeling tool, students model their
emerging understanding of factors that affect the quality of the air in their community.
Students also use eChem software (Wu, Krajcik, & Soloway, 2001) to visualize and
compare molecules in air.
What Is the Water Like in My River? In the context of learning about water ecology
(Singer, Rivet, Schneider, Krajcik, Amati, & Marx, 2000b), seventh-grade learners
construct an integrated understanding of science concepts such as watersheds, erosion
and deposition, and chemistry concepts such as pH and dissolved oxygen. Students use
microcomputer based labs (i.e., pH, dissolved oxygen, and temperature probes) to collect
and visualize real-time data as they conduct water quality testing. Students use Model-It
to represent their understandings of the watershed, erosion and deposition, runoff, and the
impact of these factors on water quality.
Why Do I Need to Wear a Helmet When I Ride My Bike? In this eighth-grade project
(Schneider, Krajcik, & Blumenfeld, 2002) students focus on the investigation of the
Table 1
Number of teachers, classrooms, and students
Project Grade Year Teachers Classrooms Students
Air 7 1998–1999 10 31 627
1999–2000 8 33 900
2000–2001 14 40 1203
Water 7 1998–1999 11 33 615
1999–2000 12 35 1091
2000–2001 19 58 1201
Helmets 8 1998–1999 3 6 110
1999–2000 8 25 750
2000–2001 11 26 800
Big Things 6 1999–2000 2 7 210
2000–2001 4 14 490
INQUIRY-BASED SCIENCE IN MIDDLE GRADES: LEARNING IN URBAN SYSTEMIC REFORM 1069
physics of collisions. Learners develop an integrated understanding of force, velocity,
acceleration and Newton’s first law in the context of being pitched off their bike, getting
injured, and learning how helmets work. Learners also develop strategies for interpreting
and visualizing physical phenomena graphically. The project integrates the use of
microcomputer-based labs such as the use of motion probes to explore the relationship in
distance and time graphs.
The curriculum materials were revised annually based on feedback from teachers and analyses
of student test data. In all cases, however, core content remained essentially the same.
Revisions often addressed clarity of tasks for students, revision of activities in order to focus them
more clearly on intended outcomes, and attention to instructional issues to make the curriculum
more teachable.
Measures
To assess student understanding of the curriculum content and science process skills, we
developed written assessment instruments that were administered to each student participating in
the curriculum projects (for sample items, see the Appendix). Each unit included a range of
artifacts that could measure student learning. In other articles, we have reported the results of
analyses of some of these artifacts (Hug & Krajcik, 2002; Moje et al., 2004). In the present
study, we concentrate on those aspects of learning from the units that are assessed by achievement
measures we constructed.We recognized that these achievement measures represent only a range
of the student learning that is possible and even desirable from participation in the units. However,
these measures do reflect performance on tests that are commonly used to assess the impact of
curriculum materials.
The assessments consisted of a combination of multiple choice and free response items,
which were further classified as either curriculum content knowledge or science process skill
items. Content and process items were categorized into one of three cognitive levels (Anderson&
Krathwohl, 2001): lower (recalling information; understanding simple and complex information);
middle (drawing or understanding simple relationships; applying knowledge to new or different
situations; shifting between representations such as verbal to graphic; scientific processes such as
identifying hypotheses, procedures, results, or conclusions); and higher (describing or analyzing
data from charts and graphs; framing hypotheses; drawing conclusions; defining or isolating
variables given in a scenario; applying investigation skills; and using concepts to explain
phenomena). Content validity was ensured by creating items based on a matrix of topics that
reflected the relative importance of the content and processes in the curriculum materials. Our
approach to construct validity follows Cronbach’s (1971) conception. Each year, the measures
were changed slightly in order to correct inappropriately worded items and to ensure that the tests
remained closely aligned with the curriculum materials, which were also modified slightly each
year. A large core set of items was retained across all 3 years.
Total score reliability (Cronbach’s alpha) for each of the test instruments fell in the range 0.63
to 0.78, with the exception of the Helmets unit (alpha0.5 over 3 years). Subscale reliabilities fell
within the range of 0.30–0.69, again with the exception of some Helmets subscales. As a relatively
small number of items were contributing simultaneously to several constructs, we considered
somewhat weak statistical scale reliabilities to be acceptable when coupled with strong theoretical
content validity.
The curriculum development teams (including science educators, content specialists,
educational psychologists, and classroom teachers) constructed the tests. We analyzed all
questions on all tests according to the scheme described above with teams of 3–5 raters (senior
1070 MARX ET AL.
researchers and graduate students working in LeTUS), achieving at least 95% accuracy in
categorizing items on each test. Disagreements were settled by consensus. Yearly,we used rubrics
to score each open-ended question using a 10% sample of actual item responses for each test (pre
and post). Two to four scorers (undergraduate science students and graduate science and science
education students) scored the open-ended items after reaching 95% agreement. Again, disagreements
were settled by consensus.
Data Collection
The tests were administered to all the students participating in a curriculum project at the start
of the first week of the curriculum (pretest), and again at the conclusion of the last week of the
curriculum as implemented by the individual teachers (posttest). The same tests were used both as
pre- and posttests. Test administration time allotted was one class period.
Test administration in urban curriculum projects involving many schools and teachers poses
considerable challenges, including students not returning informed consent forms, and high
absenteeism and mobility. Additional logistical problems were raised by the fact that teachers
finished the curriculum at different times. During the first year, blizzards with accompanying
school closures and student absences resulted in considerable attrition. For each curriculum
enactment, analysis of achievement in science content and process skills consisted of the set of
students for whom we were able to obtain matched pretest–posttest pair; the attrition rate between
pretest and posttest was relatively consistent at 20% across curricula and years. All subsequent
analyses were conducted on a paired-sample basis using this sample only. Checks showed some
differences between this group and students without posttests.
วัสดุหลักสูตร
สี่โครงการที่ถูกออกแบบมาเพื่อดึงดูดนักเรียนในสอบถามรายละเอียดเพิ่มเติมที่ใช้กิจกรรมการเรียนรู้ได้รับการสนับสนุน
โดยเทคโนโลยีการเรียนรู้ที่ฝังตัว โครงการซึ่งจะใช้เวลาประมาณ 8-10 สัปดาห์เพื่อให้
ได้รับการออกแบบเพื่อให้สอดคล้องกับมาตรฐานการศึกษาวิทยาศาสตร์ที่ระบุไว้ในมาตรฐานวิทยาศาสตร์
1068 MARX et al.
ความรู้ (สมาคมอเมริกันเพื่อความก้าวหน้าของวิทยาศาสตร์ 1993) และวิทยาศาสตร์แห่งชาติ
มาตรฐานการศึกษา ( สภาวิจัยแห่งชาติ, 1996) นอกจากนี้พวกเขาถูกจัดชิดอย่างรอบคอบ
กับกรอบวิทยาศาสตร์โรงเรียนมัธยมหลักสูตรดีทรอยต์ในโรงเรียนรัฐบาล หลักสูตรเหล่านี้:
(ก) การใช้คำถามการขับรถที่เกี่ยวข้องกับชีวิตประจำวันของนักเรียน (ข) การเรียนรู้เทคโนโลยีการฝัง; (ค) การ
มีส่วนร่วมของนักเรียนในสอบถามรายละเอียดเพิ่มเติม (ง) มีการจัดกิจกรรมเพื่อสร้างทักษะและความรู้พื้นหลังเพื่อ
เตรียมนักเรียนสำหรับการตรวจสอบ; และ (ง) บริบทประสบการณ์การเรียนรู้ (ดูนักร้อง
และคณะ, 2000a.)
? HowCan ฉันสร้างสิ่งที่บิ๊ก? โครงการนี้หกเกรด (Rivet & Krajcik, 2002) ช่วยให้
ผู้เรียนในการพัฒนาความเข้าใจในเครื่องง่ายประโยชน์กลและ
ความสัมพันธ์ระหว่างกองกำลังที่สมดุลและไม่สมดุลในการใช้โครงสร้างอาคารที่จะ
บริบท นักเรียนตรวจสอบสร้างโครงสร้างดังกล่าวเป็นอาคารเรียนของพวกเขาหรืออื่น ๆ
เว็บไซต์ชุมชนและตรวจสอบเครื่องที่ถูกนำมาใช้ในการก่อสร้างของพวกเขา.
ผู้เรียนใช้เทคโนโลยีสำหรับการตีความและแสดงปรากฏการณ์ทางกายภาพกราฟิก.
โครงการบูรณาการการใช้งานของห้องปฏิบัติการตามไมโครคอมพิวเตอร์เช่นฟิวส์แรง
ไป เปรียบเทียบวิธีการที่ไม่สมดุลส่งผลให้กองกำลังในการเคลื่อนไหว.
? อะไรคือคุณภาพของอากาศ inMyCommunity? ในการนี้โครงการเจ็ดชั้น (มาตี, นักร้อง,
และการิ, 1999), ผู้เรียนพัฒนาความเข้าใจเกี่ยวกับปัจจัยที่ส่งผลกระทบต่อคุณภาพอากาศ
ให้ความสำคัญกับธรรมชาติอนุภาคของสสารและสมบัติทางเคมีและกายภาพ.
ผู้เรียนตรวจสอบแหล่งกำเนิดมลพิษที่แตกต่างกันใน และพื้นที่ใกล้เคียงของพวกเขาใช้เก็บ
ข้อมูลเพื่อเปรียบเทียบคุณภาพอากาศในดีทรอยต์กับที่ของเมืองอื่น ๆ ผ่านการใช้ Model-มัน
(แจ็คสัน, Krajcik และ Soloway, 2000) ซึ่งเป็นเครื่องมือสร้างแบบจำลองแบบไดนามิกนักเรียนแบบจำลองของพวกเขา
เข้าใจที่เกิดขึ้นใหม่ของปัจจัยที่ส่งผลกระทบต่อคุณภาพของอากาศในชุมชนของพวกเขา.
นักเรียนยังใช้ซอฟต์แวร์ eChem (วู Krajcik และ Soloway, 2001) จะเห็นภาพและ
เปรียบเทียบโมเลกุลในอากาศ.
? อะไรคือน้ำเช่นเดียวกับในแม่น้ำของฉัน? ในบริบทของการเรียนรู้เกี่ยวกับระบบนิเวศน้ำ
(นักร้อง Rivet, ชไนเดอ Krajcik, มาตีและมาร์กซ์, 2000b) เรียนเจ็ดชั้น
สร้างความเข้าใจแบบบูรณาการแนวความคิดทางวิทยาศาสตร์เช่นแหล่งต้นน้ำกัดเซาะ
และการสะสมและแนวคิดทางเคมีเช่นค่า pH และออกซิเจนที่ละลายในน้ำ นักเรียนใช้
ห้องปฏิบัติการไมโครคอมพิวเตอร์ตาม (เช่นค่า pH, ปริมาณออกซิเจนที่ละลายและอุณหภูมิ probes) การเก็บรวบรวม
และเห็นภาพข้อมูลเรียลไทม์ที่พวกเขาดำเนินการทดสอบคุณภาพน้ำ นักเรียนใช้ Model-มัน
จะเป็นตัวแทนของความเข้าใจของพวกเขาจากการพังทลายของลุ่มน้ำและการสะสมไหลบ่าและ
ผลกระทบของปัจจัยเหล่านี้ต่อคุณภาพน้ำ.
? ทำไมฉันต้องสวมหมวกกันน็อคเมื่อผมขี่จักรยานของฉัน? ในโครงการนี้เกรดแปด
(ชไนเดอ Krajcik และ Blumenfeld, 2002) นักเรียนมุ่งเน้นไปที่การสอบสวนของ
ตารางที่ 1
จำนวนครูห้องเรียนและนักเรียน
โครงการครูประถมศึกษาปีปีนักเรียนห้องเรียน
อากาศ 7 1998-1999 10 31 627
1999-2000 8 33 900
2,000-2001 14 40 1203
น้ำ 7 1998-1999 11 33 615
12 35 1999-2000 1091
2000-2001 19 58 1201
หมวกกันน็อค 8 1998-1999 3 6 110
1,999-2,000 8 25 750
2000-2001 11 26 800
บิ๊ก สิ่งที่ 6 1999-2000 2 7 210
2000-2001 4 14 490
วิทยาศาสตร์แบบสืบเสาะหาความในระดับกลาง: การเรียนรู้ในระบบการปฏิรูป URBAN 1069
ฟิสิกส์ของการชน ผู้เรียนพัฒนาความเข้าใจแบบบูรณาการของแรงความเร็ว
เร่งและกฎข้อที่หนึ่งของนิวตันในบริบทของการเป็นแหลมออกจักรยานของพวกเขาได้รับ
บาดเจ็บและการเรียนรู้วิธีการทำงานของหมวกกันน็อก ผู้เรียนยังพัฒนากลยุทธ์สำหรับการตีความ
และแสดงปรากฏการณ์ทางกายภาพกราฟิก โครงการบูรณาการการใช้งานของ
ห้องปฏิบัติการไมโครคอมพิวเตอร์ที่ใช้เช่นการใช้ยานสำรวจการเคลื่อนไหวในการสำรวจความสัมพันธ์ใน
กราฟระยะทางและเวลา.
วัสดุหลักสูตรได้รับการปรับปรุงขึ้นอยู่ประจำทุกปีในการตอบรับจากครูและวิเคราะห์
ข้อมูลการทดสอบนักเรียน ในทุกกรณี แต่เนื้อหาหลักยังคงเป็นหลักเดียวกัน.
แก้ไขบ่อยครั้งที่ความชัดเจนของงานสำหรับนักศึกษา, การแก้ไขของกิจกรรมเพื่อมุ่งเน้นให้พวกเขา
มากขึ้นอย่างชัดเจนในผลการตั้งใจและให้ความสนใจกับปัญหาการเรียนการสอนที่จะทำให้การเรียนการสอน
มากขึ้นเชื่อฟัง.
มาตรการ
ในการ ประเมินความเข้าใจของนักเรียนของเนื้อหาหลักสูตรและทักษะกระบวนการทางวิทยาศาสตร์เรา
พัฒนาเครื่องมือที่ใช้ในการประเมินเป็นลายลักษณ์อักษรที่ได้รับการบริหารให้กับนักเรียนที่เข้าร่วมโครงการในแต่ละ
โครงการหลักสูตร (สำหรับรายการตัวอย่างให้ดูภาคผนวก) แต่ละหน่วยรวมช่วงของ
สิ่งประดิษฐ์ที่สามารถวัดการเรียนรู้ของนักเรียน ในบทความอื่น ๆ เราได้มีการรายงานผลการ
วิเคราะห์ของบางส่วนของสิ่งประดิษฐ์เหล่านี้ (กอด & Krajcik 2002;. Moje et al, 2004) ในปัจจุบัน
การศึกษาเรามีสมาธิในด้านที่ของการเรียนรู้จากหน่วยงานที่ได้รับการประเมินผลสัมฤทธิ์ทางการเรียนโดย
มาตรการที่เรา constructed.We รับการยอมรับว่ามาตรการความสำเร็จเหล่านี้เป็นเพียงช่วง
ของการเรียนรู้ของนักเรียนที่เป็นไปได้และแม้กระทั่งเป็นที่น่าพอใจจากการเข้าร่วมในหน่วย อย่างไรก็ตาม
มาตรการเหล่านี้จะสะท้อนให้เห็นถึงประสิทธิภาพในการทดสอบที่เป็นที่นิยมใช้ในการประเมินผลกระทบของ
วัสดุหลักสูตร.
การประเมินผลประกอบด้วยการรวมกันของหลายทางเลือกและรายการการตอบสนองฟรี
ซึ่งถูกแยกเป็นทั้งความรู้เนื้อหาหลักสูตรหรือทักษะกระบวนการทางวิทยาศาสตร์
รายการ รายการเนื้อหาและกระบวนการที่ถูกแบ่งออกเป็นหนึ่งในสามของระดับความรู้ความเข้าใจ (Anderson &
Krathwohl, 2001): ลดลง (นึกถึงข้อมูลทำความเข้าใจข้อมูลที่ง่ายและซับซ้อน)
กลาง (การวาดภาพหรือการทำความเข้าใจความสัมพันธ์ที่ง่ายใช้ความรู้ใหม่หรือแตกต่างกัน
สถานการณ์; ขยับระหว่างการแสดง เช่นคำพูดที่จะกราฟิก; กระบวนการทางวิทยาศาสตร์เช่น
การตั้งสมมติฐานการระบุขั้นตอนผลหรือข้อสรุป); และสูงกว่า (การอธิบายหรือการวิเคราะห์
ข้อมูลจากแผนภูมิและกราฟ; กรอบสมมติฐานข้อสรุป; กำหนดหรือการแยก
ตัวแปรที่กำหนดในสถานการณ์; ใช้ทักษะการสอบสวนและการใช้แนวความคิดที่จะอธิบาย
ปรากฏการณ์) ตรงตามเนื้อหาถูกมั่นใจโดยการสร้างรายการขึ้นอยู่กับเมทริกซ์ของหัวข้อที่
สะท้อนให้เห็นถึงความสำคัญของเนื้อหาและกระบวนการในวัสดุหลักสูตร ของเรา
วิธีการที่จะสร้างความถูกต้องต่อไปนี้ของครอนบาค (1971) ความคิด ในแต่ละปีมีมาตรการที่
มีการเปลี่ยนแปลงเล็กน้อยในการที่จะแก้ไขรายการคำที่ไม่เหมาะสมและเพื่อให้แน่ใจว่าการทดสอบ
ยังคงใกล้ชิดกับวัสดุหลักสูตรซึ่งมีการแก้ไขเล็กน้อยในแต่ละ
ปี หลักใหญ่ของรายการตั้งไว้ในทุก 3 ปี.
ความน่าเชื่อถือคะแนนรวม (เที่ยง) ของแต่ละเครื่องมือทดสอบลดลงในช่วง 0.63
0.78 มีข้อยกเว้นของหน่วยหมวกนิรภัย (อัลฟา? 0.5 ในช่วง 3 ปี) subscale เที่ยงลดลง
อยู่ในช่วงของ 0.30-0.69 อีกครั้งด้วยข้อยกเว้นของบาง subscales หมวกกันน็อก ในฐานะที่เป็นที่ค่อนข้าง
เล็ก ๆ จำนวนมากของรายการที่ได้รับการบริจาคพร้อมกันเพื่อสร้างหลายเราถือว่า
ค่อนข้างอ่อนแอขนาดความเชื่อมั่นทางสถิติในการเป็นที่ยอมรับเมื่อคู่กับทฤษฎีที่แข็งแกร่ง
ความตรงตามเนื้อหา.
ทีมพัฒนาหลักสูตร (รวมถึงการศึกษาวิทยาศาสตร์ผู้เชี่ยวชาญด้านเนื้อหา,
นักจิตวิทยาการศึกษาและครูประจำชั้น ) สร้างการทดสอบ เราวิเคราะห์ทุก
คำถามเกี่ยวกับการทดสอบทั้งหมดตามโครงการที่อธิบายข้างต้นกับทีมงานของผู้ประเมิน 3-5 (อาวุโส
1070 MARX et al.
นักวิจัยและนักศึกษาระดับบัณฑิตศึกษาที่ทำงานใน letus) ประสบความสำเร็จอย่างน้อย 95% ความถูกต้องใน
การจัดประเภทรายการในการทดสอบแต่ละ ความขัดแย้งได้รับการตัดสินโดยฉันทามติ ประจำปีเราใช้เกณฑ์
ให้คะแนนแต่ละคำถามปลายเปิดโดยใช้กลุ่มตัวอย่าง 10% ของการตอบสนองรายการที่เกิดขึ้นจริงในแต่ละการทดสอบ (ก่อน
และโพสต์) สองถึงสี่เรอร์ (นักศึกษาระดับปริญญาตรีทางด้านวิทยาศาสตร์และวิทยาศาสตร์บัณฑิตศึกษาและวิทยาศาสตร์
ของนักเรียนการศึกษา) คะแนนรายการที่เปิดกว้างหลังจากถึงข้อตกลง 95% อีกครั้งที่ความขัดแย้ง
ได้รับการตัดสินโดยฉันทามติ.
การเก็บรวบรวมข้อมูล
การทดสอบการบริหารงานให้นักเรียนทุกคนมีส่วนร่วมในโครงการหลักสูตรในช่วงเริ่มต้น
ของสัปดาห์แรกของการเรียนการสอน (ก่อนการทดลอง) และอีกครั้งในช่วงท้ายของสัปดาห์สุดท้ายของ
การเรียนการสอนเป็น ดำเนินการโดยครูของแต่ละบุคคล (หลังเรียน) การทดสอบเดียวกันถูกนำมาใช้เป็นทั้ง
ก่อนและหลังเรียน การบริหารเวลาในการทดสอบได้รับการจัดสรรเป็นหนึ่งในช่วงเวลาที่ระดับ.
การบริหารการทดสอบในโครงการที่เกี่ยวข้องกับการเรียนการสอนในเมืองหลายโรงเรียนและครู poses
ความท้าทายมากรวมทั้งนักเรียนไม่กลับแจ้งรูปแบบที่ได้รับความยินยอมและสูง
ขาดและการเคลื่อนไหว ปัญหาจิสติกส์เพิ่มเติมถูกยกขึ้นโดยความจริงที่ว่าครู
หลักสูตรเสร็จในเวลาที่แตกต่างกัน ในช่วงปีแรก, พายุหิมะที่มาพร้อมกับ
การปิดโรงเรียนและนักเรียนขาดผลในการขัดสีมาก สำหรับหลักสูตรแต่ละ
ตรากฎหมายการวิเคราะห์ผลสัมฤทธิ์ทางการเรียนในเนื้อหาของวิทยาศาสตร์และทักษะกระบวนการประกอบด้วยชุดของ
นักเรียนสำหรับผู้ที่เรามีความสามารถที่จะได้รับการจับคู่คู่ก่อนการทดลองหลังการทดลอง-; อัตราการขัดสีระหว่าง
ก่อนเรียนและหลังเรียนค่อนข้างสอดคล้องกันที่ 20% ทั่วหลักสูตรและปี ต่อมาทั้งหมด
ได้ดำเนินการวิเคราะห์บนพื้นฐานที่จับคู่ตัวอย่างโดยใช้ตัวอย่างนี้เท่านั้น ตรวจสอบพบว่ามีบางอย่างที่
แตกต่างกันระหว่างกลุ่มนี้และนักเรียนโดยไม่ต้องหลังเรียน
การแปล กรุณารอสักครู่..
