This study aimed to gain knowledge of students' beliefs and difficulties in understanding p-values, and to use this knowledge to develop improved teaching programs. This study took place over four consecutive teaching semesters of a one-semester tertiary statistics unit. The study was cyclical, in that the results of each semester were used to inform the instructional design for the following semester. Over the semesters, the following instructional techniques were introduced computer simulation, the introduction of hypothetical probabilistic reasoning using a familiar context, and the use of alternative representations. The students were also encouraged to write about their work. As the interventions progressed a higher proportion of students successfully defined and used p-values in Null Hypothesis Testing procedures.
1. INTRODUCTION
This study examined students' problems in understanding p-values, and the results of an intervention that aimed to improve this understanding. Null Hypothesis Testing (NHT) is one of the main techniques in inferential statistics, yet previous research has shown that the concept of the p- value can be problematic for students (Batanero, 2008: Gliner, Leech & Morgan, 2002; Nickerson 2000)
P-values have come about from the desire to estimate the likelihood that a sample was drawn from a population with a specified value for the population parameter. When a venous blood sample has been taken correctly, the sample will be like the blood in the rest of the venous system. In most sampling situations, however, it is extremely unlikely that a sample will be exactly representative of the population. If another sample were taken, it too is unlikely to be exactly representative of the population, and in addition, unlikely to be exactly like the first sample. Despite this, researchers know that the sample will in some way tend to resemble the population, and that it is still possible to make conclusions about the population, even if it is not possible to be absolutely certain about the accuracy conclusions.
One way around the problem of uncertainty is to perform NHT. With this process, a proposition (the null hypothesis) is made about a population parameter. A sample is then collected, the relevant sample statistic calculated, and a judgment is made as to how likely the sample statistic (or one even more extreme) would be if the proposition about the parameter were true. In the NHT process, this judgment is made by calculating a conditional probability, the probability of obtaining the sample with the given or more extreme statistic, if the population has the parameter proposed in the null hypothesis. It is this probability that is known as the p-value. One way to interpret this P-value is to compare it to a pre-set value. If this p-value is below the pre-set value, it is concluded that it is unlikely that the sample came from a population with the stated null hypothesis and the null hypothesis is rejected. If this p-value is above the pre-set value, then it is concluded that the sample could have come from a population with the proposed value and one fails to reject the null hypothesis.
Previous research shows that students of statistics can have problems understanding this process, and this lack of understanding can be undetected by their instructors because the students may follow the procedures accurately (Garfield & Ahlgren, 1988) It is only when questions are asked that require students to describe their reasoning that this lack of understanding is detected. The aim of this study was to gain knowledge of students' beliefs and difficulties in understanding p-values, and to use this knowledge to develop teaching programs to enhance student understandings of this concept. The research questions were: What are students' understandings of p-values? What misconceptions may they hold? And can teaching methods be developed to improve students' understandings?
1.1. LITERATURE REVIEW
A null hypothesis test starts with the statement of the null hypothesis containing the proposed value of the population parameter. Previous research shows that students may believe that this hypothesis refers to both the sample and the population, and are therefore confused about NHT form the very start the process (Sotos, Vanhoof,Ven den Noortgate,2007). It has also been found that students may carry out the procedures for NHT correctly, but then may misinterpret the results through lack of understanding of what rejecting and failing to reject the null hypothesis really indicates. This problem was investigated by Haller and Krauss (2002) who conducted a survey of staff and students, some of whom were statistics instructors, from the psychology departments of six universities. In this survey, an example of an independent samples t-test was given where the p-value was 0.01. Approximately 26% of the participants (including a small number of statistics methodology instructors) agreed with the statement: "You have found the probability of the null hypothesis being true." Approximately 69% of the participants (including approximately one third of the statistics methodology instructors) agreed with the statement: "You know, if you decide to reject the hypothesis, the probability that you are making the wrong decision." Those who agreed with this statement did not seem to be aware of the conditional nature of the probability the p-value represents. That is, the p-value is the probability of making the wrong decision if the null hypothesis is true.
The belief that the p-value is the probability that the null hypothesis is true appears to be a commonly held misconception. A related misconception is that 1-P is the probability that the alternative hypothesis is true. It may also be believed that rejecting a null hypothesis proves the underlying theory that predicted the rejection. It may also be believed that a low the value for the p-value suggests that the results are replicable (Nickerson, 2000)
1.2. WHY USE P-VALUES?
The use of the null-hypothesis test is widespread and p-values are reported widely in the literature. The way a p-value is used differs and is the subject of debate (cumming, 2010: Gliner, Leech, & Morgan, 2002: Hubbard & Lindsay, 2008). One way p values can be used, attributed to Neyman and Pearson, is that a pre-existing level of significance is chosen, and the null hypothesis is rejected if the p-value is less than this level of significance. This form of analysis leads to the possible calculation of Type I and Type II error rates. An alternative (advocated by Fisher) is to look at the level of support a
p-value gives to a null hypothesis. As the p-value decreases, the level of support given for the null hypothesis is also considered to decrease (Wagenmakers, 2007). Recently, however, the question has been asked: should p-values be used at all?
One tenet of a scientific experiment is that it should be replicable. Therefore, it would seem not unreasonable to assume that if an experiment should be repeatable then the p-value would also be replicable. Cumming (2010) has shown that in fact p-values vary much more from sample to sample than many researchers realise. Hubbard and Lindsay (2008) show that p-values can vary even with the same data, depending on the method of analysis chosen by the researcher and on whether the researcher has chosen a one- or two-tailed test.
Another problem with p-values is that they do not indicate the effect size. A small study with a large effect size can yield the same p-value as a large study with small effect size (Hubbard & Lindsay, 2008: Wagenmakers, 2007). In addition, there is concern about the validity of the way p-values are calculated. Assuming the null hypothesis is true, a p-value is the probability of the observed data and the probability of more extreme data, yet these more extreme data are not actually observed. It is questionable whether decisions should be made on unobserved data (Hubbard & Lindsay, 2008).
It is for these reasons that it has been suggested that the results of scientific experiments should instead be presented as confidence interval estimates of the parameters. Confidence intervals have the advantage that they are in the same units as the point estimate, and make it easier for the reader to determine if an effect is important, rather than just if it is statistically significant. of even more consequence is that confidence intervals give an idea of the precision of an estimate via the width of the interval. In addition, the width of the interval gives an idea of what the infinite set of possible results may look like (Cumming, 2010; Wagenmakers, 2007). The contrast between the variation in p- values and the variation in confidence intervals is graphically and amusingly illustrated by the "Dance of the p-values
การศึกษานี้มีวัตถุประสงค์เพื่อเพิ่มความรู้ของนักเรียน ' ความเชื่อและความยากในความเข้าใจ p-values และใช้ความรู้นี้ไปพัฒนาปรับปรุงโปรแกรมการสอน การศึกษานี้ใช้เวลาติดต่อกันสี่สอนเทอมของเทอมหนึ่งสถิติระบบหน่วย การศึกษาวัฏจักร ,ในผลลัพธ์ของแต่ละภาคการศึกษาเพื่อใช้แจ้งออกแบบการเรียนการสอนในภาคการศึกษาต่อไป ผ่านเทอม , ต่อไปนี้การแนะนำเทคนิคการจำลองคอมพิวเตอร์เบื้องต้นของสมมุติความน่าจะเป็นเหตุผลโดยใช้บริบทที่คุ้นเคย และใช้แนวทางอื่น นักเรียน ส่งเสริมให้เขียนเกี่ยวกับการทำงานของพวกเขาเป็นมาตรการขึ้น สัดส่วนที่สูงของนักเรียนเรียบร้อยแล้ว กำหนดและใช้ p-values ในขั้นตอนการทดสอบสมมติฐานโมฆะ .
1 บทนำ
นี้เพื่อศึกษาปัญหาของนักเรียนในการทำความเข้าใจ p-values และผลลัพธ์ของการแทรกแซงที่มีวัตถุประสงค์เพื่อปรับปรุงความเข้าใจนี้ การทดสอบสมมติฐานว่าง ( nht ) เป็นหนึ่งในเทคนิคหลักสถิติเชิงอนุมานแต่งานวิจัยก่อนหน้านี้ได้แสดงให้เห็นว่าแนวคิดของ p สามารถเป็นปัญหาสำหรับนักศึกษา ( batanero 2008 : gliner , ปลิง&มอร์แกน , 2002 ; นิเคอร์สัน 2000 )
p-values ได้มาจากความปรารถนาที่จะประเมินโอกาสที่จำนวนสุ่มจากประชากรที่มีกําหนดค่าพารามิเตอร์ของประชากร . เมื่อเลือดจากหลอดเลือดดำตัวอย่างได้ถูกต้องตัวอย่างจะเป็นเหมือนเลือดในส่วนที่เหลือของระบบหลอดเลือดดำ . ในกลุ่มตัวอย่างส่วนใหญ่สถานการณ์ อย่างไรก็ตาม เป็นไปได้ยากมากที่ ตัวอย่างจะเป็นเหมือนตัวแทนของประชากร ถ้าอย่างอื่นถ่าย มันก็ไม่น่าจะเป็นเหมือนตัวแทนของประชากร และนอกจากนี้ ไม่น่าจะเหมือนกับตัวอย่างก่อน แม้นี้นักวิจัยทราบว่าตัวอย่างในบางวิธีที่มักจะมีลักษณะประชากร และมันยังสามารถให้ข้อสรุปเกี่ยวกับประชากร แม้ว่ามันเป็นไปไม่ได้เพื่อให้แน่ใจเกี่ยวกับความถูกต้องของบทสรุป
วิธีหนึ่งปัญหาของความไม่แน่นอนคือการ nht . ด้วยกระบวนการนี้ ข้อเสนอ ( สมมติฐานโมฆะ ) ทำเกี่ยวกับประชากรพารามิเตอร์ตัวอย่างมีแล้วเก็บสถิติที่เกี่ยวข้อง ตัวอย่างการคำนวณ และการพิพากษาไว้เป็นอย่างไร อาจใช้สถิติ ( หรือยิ่งมาก ) จะมีเรื่องเกี่ยวกับพารามิเตอร์จริง ในกระบวนการ nht การตัดสินใจนี้ถูกสร้างโดยการคำนวณความน่าจะเป็นแบบมีเงื่อนไข ความเป็นไปได้ที่จะได้รับตัวอย่างที่มีให้หรือสถิติรุนแรงมากขึ้นถ้าประชากรมีพารามิเตอร์ที่เสนอในสมมติฐานโมฆะ . มันคือความน่าจะเป็นที่เรียกได้ว่าเป็นระดับ . วิธีหนึ่งในการตีความระดับนี้คือการเปรียบเทียบกับค่าที่ตั้งไว้ล่วงหน้า ถ้าระดับนี้อยู่ด้านล่างมูลค่าที่ตั้งไว้ พบว่า มันไม่น่าที่กลุ่มตัวอย่างประชากรด้วยการระบุสมมติฐานว่างและสมมติฐานว่างคือปฏิเสธถ้าระดับนี้สูงกว่ามูลค่าที่ตั้งไว้ แล้วสรุปได้ว่า กลุ่มตัวอย่างที่ได้จากประชากรด้วยมาเสนอค่า และหนึ่งไม่สามารถปฏิเสธสมมติฐานโมฆะ .
งานวิจัยก่อนหน้านี้แสดงให้เห็นว่านักศึกษาสถิติสามารถมีปัญหาความเข้าใจในกระบวนการนี้และขาดความเข้าใจอาจตรวจไม่พบโดยอาจารย์ของพวกเขา เพราะนักเรียนอาจทำตามขั้นตอนอย่างถูกต้อง ( การ์ฟิลด์&อัลเกรน , 1988 ) มันเป็นเพียงเมื่อคำถามที่ถามที่ต้องให้นักเรียนอธิบายเหตุผลของตนที่ขาดความเข้าใจถูกตรวจพบ จุดมุ่งหมายของการศึกษานี้คือ เพื่อความรู้ของนักเรียนและความยากใน p-values ความเชื่อความเข้าใจ ,และใช้ความรู้นี้เพื่อพัฒนาโปรแกรมการสอนเพื่อเพิ่มความเข้าใจของผู้เรียน แนวคิดนี้ การวิจัย คำถามคือ : อะไรคือความเข้าใจของนักเรียน p-values ? อะไรที่คลาดเคลื่อน อาจจะถือ ? และสามารถสอนได้รับการพัฒนาเพื่อปรับปรุงความเข้าใจของนักเรียน
1.1 .
ทบทวนวรรณกรรมการทดสอบสมมติฐานโมฆะเริ่มต้นด้วยงบของสมมติฐานว่างที่มีการนำเสนอคุณค่าของประชากรพารามิเตอร์ งานวิจัยก่อนหน้านี้แสดงให้เห็นว่านักศึกษาอาจเชื่อว่าสมมติฐานนี้หมายถึงทั้งสองกลุ่มตัวอย่างและประชากร และดังนั้นจึง งง กับ nht ฟอร์มมากเริ่มต้นกระบวนการ ( sotos vanhoof เวนเดน , , noortgate , 2007 )ก็ยังได้รับพบว่านักเรียนอาจจะทำตามขั้นตอน nht ได้อย่างถูกต้อง แต่อาจจะเข้าใจผิดในการขาดความเข้าใจเรื่องการปฏิเสธและการปฏิเสธสมมติฐานว่างจริงๆหมายถึง . ปัญหานี้ถูกตรวจสอบโดย ลเลอร์ และ เคราส์ ( 2545 ) ที่ได้ทำการสำรวจนักเรียนจากเจ้าหน้าที่ และ บางคนคืออาจารย์จากจิตวิทยาของแผนก 6 มหาวิทยาลัย ในการสำรวจนี้ ตัวอย่างของกลุ่มตัวอย่างที่เป็นอิสระได้รับร้อยละ 0.01 ประมาณ 26 % ของผู้เข้าร่วม ( รวมถึงตัวเลขขนาดเล็กของระเบียบวิธีสถิติอาจารย์ ) เห็นด้วยกับข้อความ " คุณพบความเป็นไปได้ของสมมติฐานว่างถูกจริง" ประมาณ 69% ของผู้เข้าร่วม ( รวมประมาณ 1 ใน 3 ของสถิติและอาจารย์ ) เห็นด้วยกับคำสั่ง " คุณจะรู้ว่าถ้าคุณตัดสินใจที่จะปฏิเสธสมมติฐาน โอกาสที่คุณจะทำให้การตัดสินใจผิด . " บรรดาผู้ที่เห็นด้วยกับคำกล่าวนี้ดูเหมือนจะไม่ได้ตระหนักถึงลักษณะเงื่อนไขของ ความน่าจะเป็นภายหลังแทน นั่นคือที่ p คือความเป็นไปได้ของการตัดสินใจผิดพลาดถ้าสมมติฐานโมฆะจริง
ความเชื่อที่ว่า และมีความเป็นไปได้ ที่สมมติฐานโมฆะจริง ปรากฏเป็น มักถือความเข้าใจผิด เป็น misconception ที่เกี่ยวข้องคือ 1-p คือความน่าจะเป็นที่สมมติฐานทางเลือกจริงมันอาจจะเชื่อว่าการปฏิเสธสมมติฐานว่าง พิสูจน์ทฤษฎีพื้นฐานที่คาดการณ์การปฏิเสธ มันอาจจะเชื่อว่าต่ำค่า P-value ชี้ให้เห็นว่า ผลลัพธ์ที่ได้จะสามารถจําลองแบบ ( นิเคอร์สัน , 2000 )
1.2 ทำไมต้องใช้ p-values ?
ใช้ทดสอบสมมติฐานว่างคืออย่างกว้างขวางและ p-values รายงานกันอย่างแพร่หลายในวรรณกรรมและใช้วิธีแตกต่าง และเรื่องของการอภิปราย ( คัมมิง , 2010 : gliner , ปลิง& , มอร์แกน , 2002 : Hubbard & Lindsay , 2008 ) วิธีหนึ่งที่ P ค่าสามารถใช้ประกอบกับเนย์เมิ่นและ เพียร์สัน ที่ระดับนัยสำคัญ คือ เลือกที่มีอยู่ และสมมติฐานโมฆะถูกปฏิเสธถ้า p-value น้อยกว่าระดับนี้รูปแบบของการวิเคราะห์ข้อมูลเพื่อการคำนวณที่เป็นไปได้ของชนิด และอัตราความผิดพลาด 2 ชนิด ทางเลือก ( สนับสนุนโดย ฟิชเชอร์ ) คือดูที่ระดับของการสนับสนุน
p ให้สมมติฐานโมฆะ . เป็นสัมประสิทธิ์ลดลง ระดับของการสนับสนุนให้สมมติฐานโมฆะยังถือว่าลดลง ( wagenmakers , 2007 ) เมื่อเร็วๆ นี้ อย่างไรก็ตาม คำถามได้ถูกถามว่า :ควร p-values จะใช้ ?
หนึ่งหลักของการทดลองทางวิทยาศาสตร์ คือ ว่า มันควรจะสามารถจําลองแบบ . ดังนั้น , ก็จะดูเหมือนไม่มีเหตุผล สมมติว่า ถ้าการทดลองควรทำซ้ำแล้ว p ก็จะสามารถจําลองแบบ . คัมมิง ( 2010 ) ได้แสดงให้เห็นว่าในความเป็นจริง p-values แตกต่างกันมากจากตัวอย่างตัวอย่างกว่านักวิจัยหลายคนตระหนักฮับบาร์ด และ Lindsay ( 2551 ) แสดงให้เห็นว่า p-values สามารถแตกต่างกันแม้จะมีข้อมูลเดียวกัน ขึ้นอยู่กับวิธีการวิเคราะห์เลือกโดยผู้วิจัยและว่าผู้วิจัยได้เลือกหนึ่งหรือสองหางทดสอบ
p-values อีกปัญหาคือ ว่า พวกเขาไม่แสดงผลขนาดการศึกษาขนาดเล็กที่มีขนาดผลใหญ่ สามารถให้ผลผลิตระดับเดียวกับการศึกษาขนาดใหญ่ที่มีขนาดผลเล็ก ( Hubbard & Lindsay , 2008 : wagenmakers , 2007 ) นอกจากนี้ ยังมีความกังวลเกี่ยวกับความถูกต้องของวิธี p-values ที่มีการคํานวณ สมมติว่าสมมติฐานโมฆะจริง ผลคือความเป็นไปได้ของข้อมูลและความน่าจะเป็นของข้อมูลมากเพิ่มเติมแต่ข้อมูลที่รุนแรงมากขึ้น เหล่านี้จะไม่ได้สังเกต มันน่าสงสัยว่า การตัดสินใจควรจะทำข้อมูล unobserved ( Hubbard & Lindsay , 2008 ) .
จะด้วยเหตุผลเหล่านี้ที่จะได้รับการชี้ให้เห็นว่าผลของการทดลองวิทยาศาสตร์ ควรนำเสนอที่ช่วงความเชื่อมั่นที่ประมาณค่าพารามิเตอร์ความเชื่อมั่นมีข้อได้เปรียบที่พวกเขาอยู่ในหน่วยเดียวกับประมาณการจุด และทำให้มันง่ายสำหรับผู้อ่านเพื่อตรวจสอบว่าผลเป็นสำคัญ มากกว่า แค่ถ้ามันอย่างมีนัยสำคัญทางสถิติ ของมากขึ้น ผลคือ ความเชื่อมั่นให้ความคิดของความเที่ยงตรงของการประเมินทางความกว้างของช่วง นอกจากนี้ความกว้างของช่วงจะช่วยให้ความคิดของสิ่งที่อนันต์ เซตของผลลัพธ์ที่เป็นไปได้อาจดูเหมือน ( คัมมิง , 2010 ; wagenmakers , 2007 ) ความแตกต่างระหว่างการเปลี่ยนแปลงใน P - ค่านิยมและการเปลี่ยนแปลงในช่วงความเชื่อมั่นคือกราฟิกและภาพประกอบ อย่างสนุกสนาน โดย " การเต้นของ p-values
การแปล กรุณารอสักครู่..