Journal’s ban on null hypothesis significance testing: reactions from the statistical arena
Written by Oz Flanagan on 04 March 2015. Posted in Opinion
The decision of one academic journal to ban null hypothesis significance testing procedures (NHSTP) has caused a stir in the statistical community. It makes you wonder if the editors of Basic and Applied Social Psychology, David Trafimow and Michael Marks, realised what a nerve they would hit when they published their editorial.
The journal’s new rule has opened up debate surrounding the wider issue of how statistics is performed in the pursuit of scientific analysis. It poses the question of what conclusions can you draw from the result of a statistical test and how definitively does this verify your conclusion. It also makes you ponder what Ronald Fisher, Jerzy Neyman and Egon Pearson would have made of the way modern science employs the statistical theories they developed.
The news provoked a range of opinions from academics across the globe. To provide a snapshot of the discussion, we asked Peter Diggle, Stephen Senn, Andrew Gelman, Geoff Cummings and Robert Grant for their initial reaction to the issues raised.
Peter Diggle – RSS president and professor of biostatistics, epidemiology and population health at Lancaster University
The recent editorial in the journal Basic and Applied Social Psychology announces a ban on any use of significance testing in papers published in the journal. The editorial begins with a questionable assertion that ‘the null hypothesis significance testing procedure (NHSTP) is invalid’, but later states that papers which do use significance testing will not be automatically rejected. Rather, if a paper is accepted for publication ‘authors will have to remove all vestiges of the NHSTP.’ So it is acceptable to use significance testing as an integral part of your scientific method, but not to admit in print that you have done so.
The editorial is kinder to Bayesian inference, but not by much, stating that ‘The usual problem with Bayesian procedures is that they... generate numbers where none exist.’ The journal’s preferred approach is to rely on descriptive statistics. This begs the admittedly difficult question of what, in any particular circumstance, is the correct way to convert a description into a conclusion.
I share the editors’ concerns that inferential statistical methods are open to mis-use and mis-interpretation, but do not feel that a blanket ban on any particular inferential method is the most constructive response.
Stephen Senn - Head of Competence Center for Methodology and Statistics at the Luxembourg Institute of Health
The problem is not the inference in psychology it’s the psychology of inference. Some scientists have unreasonable expectations of replication of results and, unfortunately, many of those currently fingering p-values have no idea what a reasonable rate of replication should be.
Banning formal statistical methods will not make the so-called crisis of replication better, it will only make it worse. The editors’ policy will only add to the current confusion. They can ban formal inferences but the informal inferences will just multiply. Psychologists will still attempt to separate signal from noise.
Consider the field I research in, drug development. A common illogical complaint is that not all phase III trials are successful. However, they could only be made successful by making phase II trials so much larger that money and lives would be wasted investigating potential cures. The crisis of non-replication of positive results would be reduced at the cost of a massive increase in false negatives, promising drugs would be binned and the average cost of finding successful treatments would increase.
The editors would be better exercised in promising space to studies that try to repeat previous studies rather than trying to ban all inferential statistics. They should also try to promote a better standard of inference (proper control, pre-specification, avoiding spurious precision, dealing with regression to the mean etc). Even the most dogged anti-frequentists rarely go so far as outlawing the humble standard error.
If you don’t make mistakes you don’t learn. Attempting to eliminate false positives in inference is to attempt scientific sterility and banning formal inferential methods won’t even help to achieve this foolish aim.
Andrew Gelman - Professor of statistics and political science and director of the Applied Statistics Center at Columbia University
The day this came out, I received 10 emails about it, mostly from people I don’t even know. So, at the very least, this was an effective publicity stunt. One of my correspondents pointed me to a post by John Kruschke who flagged this part of the editorial in question:
‘The usual problem with Bayesian procedures is that they depend on some sort of Laplacian assumption to generate numbers where none exist. The Laplacian assumption is that when in a state of ignorance, the research should assign an equal probability to each possibility.’
This seems a bit odd to me, given that I just about always work on continuous problems, so that the ‘possibilities’ can’t be counted and it is meaningless to talk about assigning probabilities to each of them. Plus, the bit about ‘generating numbers where none exist’ seems to reflect a misunderstanding of the distinction between a distribution (which reflects uncertainty) and data (which are specific). You don’t want to deterministically impute numbers where the data don’t exist, but it’s OK to assign a distribution to reflect your uncertainty about such numbers. It’s what we always do when we do forecasting - the only thing special about Bayesian analysis is that it applies the principles of forecasting to all unknowns in a problem.
I was amused to see that, when they were looking for an example where Bayesian inference is OK, they used a book by Ronald Fisher! Trafimow and Marks conclude:
‘Some might view the NHSTP ban as indicating that it will be easier to publish in Basic and Applied Social Psychology, or that less rigorous manuscripts will be acceptable. This is not so. On the contrary, we believe that the p < 0.05 bar is too easy to pass and sometimes serves as an excuse for lower quality research. We hope and anticipate that banning the NHSTP will have the effect of increasing the quality of submitted manuscripts by liberating authors from the stultified structure of NHSTP thinking thereby eliminating an important obstacle to creative thinking.’
I’m with them on that. Actually, I think standard errors, p-values, and confidence intervals can be very helpful in research when considered as convenient parts of a data analysis. Standard errors etc. are helpful in giving a lower bound on uncertainty. The problem comes when they’re considered as the culmination of the analysis, as if ‘p less than 0.05’ represents some kind of proof of something. I do like the idea of requiring that research claims stand on their own without requiring the (often spurious) support of p-values.
Geoff Cumming - Emeritus professor at the School of Psychological Science at La Trobe University
NHSTP and p-values are deeply flawed. The greatest cause of the replication crisis may be the imperative to achieve 0.05, as John Ioannidis famously explained in his paper - Why most published research findings are false. I make the case for moving entirely from NHSTP to estimation or other good approaches in a tutorial article I wrote for the top journal Psychological Science in January 2014. The article accompanied new editorial policies that encourage estimation (the 'new statistics') rather than NHSTP, and also a range of open science practices.
Sure, p-values and confidence intervals are based on the same theory and, given a little extra information, it's easy to translate between them. But they are importantly different. We have published evidence that, at least in some common situations, researchers often make better interpretations when they see confidence intervals (without p-values) and think in terms of estimates, without invoking statistical significance.
One big problem is that p is a single value, which suggests certainty, whereas the extent of a confidence interval makes uncertainty salient. On replication, p-values bounce around amazingly - the 'dance of the p-values'. Confidence intervals also bounce, but the extent of any interval gives a reasonable idea of the amount of bouncing. In stark contrast, a single p-value gives almost no idea how much p is likely to bounce on replication. Using estimation and meta-analysis, and not NHSTP, is the way to better research and more quantitative disciplines.
In 1990, Ken Rothman was founding editor of the journal Epidemiology. He declared he would not publish p values, and for 10 years he didn't. The journal published good science, and flourished. It's possible and it's also highly desirable.
Robert Grant - Senior lecturer in health and social care statistics at St George's, University of London and Kingston University
When studying the causes and risk factors for disease, one is at great risk of heeding false alarms. That is how we get risible headlines announcing that coffee prevents depression or oversleeping causes strokes. The problem is one of education.
At school and afterwards, we learn deductive science: predict a result based on a hypothesis, run an experiment to see if the result happens, and on that basis incontrovertibly prove or destroy the hypothesis. Deduction is simple, strong and objective, and NHSTP wears a deductive uniform. But science is not like that, because we push our instruments to their limits, and have to distinguish signal from noise.
Complex systems like society, economy or the human body make inference difficult too. More fundamentally, science has always been inductive (or strictly speaking, abductive) because
บ้าน ของสมุดรายวันในการทดสอบนัยสำคัญของสมมติฐานว่าง: ปฏิกิริยาจากเวทีทางสถิติเขียน โดยฟลานาแกน Oz บน 04 2015 มีนาคม ความคิดเห็นลงในการตัดสินใจศึกษาสมุดหนึ่งบ้านสำคัญ null สมมติฐานทดสอบกระบวนการ (NHSTP) ได้เกิดจากคนในชุมชนทางสถิติ มันทำให้คุณสงสัยถ้า Basic และใช้จิตวิทยาสังคม David Trafimow และเครื่อง หมายของ Michael บรรณาธิการเองก็ยังคิดว่าเส้นประสาทจะต้องตีเมื่อพวกเขาเผยแพร่กองของพวกเขากฎใหม่ของสมุดรายวันได้เปิดอภิปรายรอบออกกว้างวิธีทำสถิติในการวิเคราะห์ทางวิทยาศาสตร์แสวงหา จะทำคำถามของบทสรุปใดคุณสามารถวาดจากผลการทดสอบทางสถิติ และแน่นอนว่าไม่นี้ตรวจสอบบทสรุปของคุณ นอกจากนี้ยังทำให้คุณไตร่ตรองอะไร Jerzy Neyman โรนัลด์ฟิชเชอร์ และ Egon Pearson จะทำของทางวิทยาการสมัยใหม่ใช้ทฤษฎีทางสถิติที่จะพัฒนาข่าวท่านมีความคิดเห็นจากนักวิชาการทั่วโลก เพื่อให้ภาพรวมของการอภิปราย เราขอ Diggle ปีเตอร์ Stephen Senn แอนดรูว์เกลแมน Geoff Cummings และโรเบิร์ตให้ปฏิกิริยาของพวกเขาเริ่มต้นการอ่านDiggle ปีเตอร์ – RSS ประธานและศาสตราจารย์ชีวสถิติ ระบาดวิทยา และประชากรสุขภาพมหาวิทยาลัยแลงคาสเตอร์The recent editorial in the journal Basic and Applied Social Psychology announces a ban on any use of significance testing in papers published in the journal. The editorial begins with a questionable assertion that ‘the null hypothesis significance testing procedure (NHSTP) is invalid’, but later states that papers which do use significance testing will not be automatically rejected. Rather, if a paper is accepted for publication ‘authors will have to remove all vestiges of the NHSTP.’ So it is acceptable to use significance testing as an integral part of your scientific method, but not to admit in print that you have done so.The editorial is kinder to Bayesian inference, but not by much, stating that ‘The usual problem with Bayesian procedures is that they... generate numbers where none exist.’ The journal’s preferred approach is to rely on descriptive statistics. This begs the admittedly difficult question of what, in any particular circumstance, is the correct way to convert a description into a conclusion. I share the editors’ concerns that inferential statistical methods are open to mis-use and mis-interpretation, but do not feel that a blanket ban on any particular inferential method is the most constructive response.Stephen Senn - Head of Competence Center for Methodology and Statistics at the Luxembourg Institute of Healthปัญหาไม่ใช่ข้อจิตวิทยาเป็นจิตวิทยาของข้อ นักวิทยาศาสตร์บางคนมีความคาดหวัง unreasonable จำลองผล และ แต่ หลายคนกำลังโยนค่า p มีความคิดใดที่เหมาะสมควรมีอัตราของการจำลองแบบห้ามวิธีทางสถิติจะไม่ทำให้วิกฤตเรียกว่าการจำลองดี มันจะทำมันแย่ เฉพาะนโยบายของบรรณาธิการที่จะเพิ่มให้สับสนปัจจุบัน พวกเขาสามารถบ้าน inferences อย่างเป็นทางการ แต่เพียงจะคูณ inferences เป็น นักจิตวิทยาจะยังคงพยายามแยกสัญญาณจากเสียงรบกวนพิจารณาฟิลด์ผมวิจัยใน ยาพัฒนา ร้องเรียนเรื่องไร้เหตุผลทั่วไปเป็นทดลอง III ระยะไม่ประสบความสำเร็จ อย่างไรก็ตาม พวกเขาสามารถเพียงทำประสบความสำเร็จ โดยทำการทดลองระยะ II มากใหญ่เงิน และจะเสียชีวิตตรวจรักษาเป็นไปได้ วิกฤตไม่ใช่จำลองแบบผลบวกจะลดลงค่าการเพิ่มในสิ่งที่เท็จ จะ binned สัญญายา และต้นทุนเฉลี่ยของการค้นหาการรักษาประสบความสำเร็จจะเพิ่มขึ้นบรรณาธิการจะถูกใช้ในพื้นที่ว่าการศึกษาที่พยายามที่จะทำซ้ำการศึกษาก่อนหน้านี้แทนที่พยายามบ้านสถิติทั้งหมดเพียงน้อยนิด ดีกว่า นอกจากนี้พวกเขายังควรพยายามส่งเสริมมาตรฐานที่ดีของข้อ (ควบคุมเหมาะสม ข้อมูลจำเพาะก่อน ความแม่นยำเก๊ เผชิญกับการถดถอยเพื่อเป็นต้นหมายถึงการหลีกเลี่ยง) แม้ที่สุด dogged anti-frequentists ไม่ค่อยไปตราบใดที่ outlawing ข้อผิดพลาดมาตรฐานอีกถ้าคุณไม่ทำผิดพลาด คุณไม่เรียน พยายามกำจัดทำงานผิดพลาดเท็จในข้อจะพยายาม sterility วิทยาศาสตร์ และแม้จะไม่ช่วยห้ามวิธีเพียงน้อยนิดอย่างเป็นทางการเพื่อให้บรรลุจุดมุ่งหมายนี้โง่เกลแมนแอนดรูว์ - ศาสตราจารย์สถิติ และรัฐศาสตร์และผู้อำนวยการศูนย์สถิติประยุกต์ที่มหาวิทยาลัยโคลัมเบียวันนี้มา ฉันรับอีเมล์ 10 เกี่ยวกับเรื่องนี้ ส่วนใหญ่จากคนที่ฉันไม่ได้รู้ ดังนั้น อย่างน้อย นี้ได้แสดงความสามารถการประชาสัมพันธ์ที่มีประสิทธิภาพ ร่วมของฉันหนึ่งชี้ฉันไปโพสต์โดยจอห์น Kruschke ผู้กองสอบถามในส่วนนี้ค่าสถานะ: ' ปกติปัญหากับขั้นตอนของทฤษฎีคือ ว่า ขึ้นอยู่กับการเรียงลำดับบางอย่างของอัสสัมชัญ Laplacian เพื่อสร้างหมายเลขที่ไม่มีอยู่ อัสสัมชัญ Laplacian คือ ว่า เมื่ออยู่ในสถานะของความไม่รู้ วิจัยควรกำหนดพอ ๆ กันมีความเป็นไปได้แต่ละกัน 'นี้บิตคี่ ฉันเหมือน ที่ฉันเกือบตลอดเวลาทำงานอย่างต่อเนื่องปัญหา เพื่อ ให้ไม่นับ 'ไป' และจะไม่พูดคุยเกี่ยวกับการกำหนดกิจกรรมไว้ พลัส บิตเกี่ยวกับ 'สร้างหมายเลขที่ไม่มีอยู่' ดูเหมือนว่าจะ สะท้อนถึงความเข้าใจผิดของความแตกต่างระหว่างการกระจาย (ซึ่งสะท้อนถึงความไม่แน่นอน) และข้อมูล (ซึ่งมีเฉพาะ) คุณไม่ต้องการ deterministically impute เลขที่ข้อมูลไม่มีอยู่ แต่ก็ตกลงเพื่อกำหนดแจกจ่ายเพื่อแสดงถึงความไม่แน่นอนของคุณเกี่ยวกับตัวเลขดังกล่าว สิ่งที่เรามักจะทำเมื่อเราทำการคาดการณ์ - สิ่งเดียวที่พิเศษเกี่ยวกับทฤษฎีวิเคราะห์คือ ว่า มันใช้หลักการคาดการณ์ทั้งหมด unknowns ในปัญหาได้ผมเราจะเห็นว่า เมื่อพวกเขากำลังมองหาตัวอย่างที่ทฤษฎีข้อได้ พวกเขาใช้หนังสือ โดยโรนัลด์ฟิชเชอร์ Trafimow และเครื่องหมายสรุป:' บางอย่างอาจดูบ้าน NHSTP เป็นการบ่งชี้ว่า มันจะง่ายต่อการเผยแพร่ใน Basic และใช้จิตวิทยาสังคม หรือว่า ต้นฉบับอย่างเข้มงวดน้อยกว่าจะยอมรับได้ นี่ไม่ใช่เพื่อการ ดอก เราเชื่อว่า เป็นเรื่องง่ายเกินไปที่ผ่านแถบ < 0.05 p และบางครั้งทำหน้าที่เป็นข้อแก้ตัวสำหรับการวิจัยคุณภาพต่ำ เราหวัง และคาดว่า ห้าม NHSTP จะมีผลของการเพิ่มคุณภาพของต้นฉบับที่เขียนโดยผู้สร้างจากโครงสร้าง stultified ของจึงขจัดอุปสรรคสำคัญในความคิดสร้างสรรค์คิด NHSTP ปลด 'I’m with them on that. Actually, I think standard errors, p-values, and confidence intervals can be very helpful in research when considered as convenient parts of a data analysis. Standard errors etc. are helpful in giving a lower bound on uncertainty. The problem comes when they’re considered as the culmination of the analysis, as if ‘p less than 0.05’ represents some kind of proof of something. I do like the idea of requiring that research claims stand on their own without requiring the (often spurious) support of p-values.Geoff Cumming - Emeritus professor at the School of Psychological Science at La Trobe UniversityNHSTP and p-values are deeply flawed. The greatest cause of the replication crisis may be the imperative to achieve 0.05, as John Ioannidis famously explained in his paper - Why most published research findings are false. I make the case for moving entirely from NHSTP to estimation or other good approaches in a tutorial article I wrote for the top journal Psychological Science in January 2014. The article accompanied new editorial policies that encourage estimation (the 'new statistics') rather than NHSTP, and also a range of open science practices.Sure, p-values and confidence intervals are based on the same theory and, given a little extra information, it's easy to translate between them. But they are importantly different. We have published evidence that, at least in some common situations, researchers often make better interpretations when they see confidence intervals (without p-values) and think in terms of estimates, without invoking statistical significance.
One big problem is that p is a single value, which suggests certainty, whereas the extent of a confidence interval makes uncertainty salient. On replication, p-values bounce around amazingly - the 'dance of the p-values'. Confidence intervals also bounce, but the extent of any interval gives a reasonable idea of the amount of bouncing. In stark contrast, a single p-value gives almost no idea how much p is likely to bounce on replication. Using estimation and meta-analysis, and not NHSTP, is the way to better research and more quantitative disciplines.
In 1990, Ken Rothman was founding editor of the journal Epidemiology. He declared he would not publish p values, and for 10 years he didn't. The journal published good science, and flourished. It's possible and it's also highly desirable.
Robert Grant - Senior lecturer in health and social care statistics at St George's, University of London and Kingston University
When studying the causes and risk factors for disease, one is at great risk of heeding false alarms. That is how we get risible headlines announcing that coffee prevents depression or oversleeping causes strokes. The problem is one of education.
At school and afterwards, we learn deductive science: predict a result based on a hypothesis, run an experiment to see if the result happens, and on that basis incontrovertibly prove or destroy the hypothesis. Deduction is simple, strong and objective, and NHSTP wears a deductive uniform. But science is not like that, because we push our instruments to their limits, and have to distinguish signal from noise.
Complex systems like society, economy or the human body make inference difficult too. More fundamentally, science has always been inductive (or strictly speaking, abductive) because
การแปล กรุณารอสักครู่..