統計検定手法の改革...その2: p値使用禁止!?
テストの平均点がある二群で異なるかを探るには,t検定等の統計計算によってp値を求めて,優位水準より大きいか否かに基づいて有意差の有無を議論するのが一昔前まで主流だった。ところが最近は この方法はもうやめよう…という方向に世の中は変わりつつあって,学会の投稿規定もそのように変わりつつある。
- APA(アメリカ心理学会)は論文作成マニュアル(p.28)に「帰無仮説有意検定は1つの出発点に過ぎず,結果の意味を最も完全な形で伝えるには,効果量,信頼区間,それらに伴うさらなる記述などの付加的な報告要素が必要….」と明記。
- p値使用禁止とまで明言する論文誌(BASP, Basic and Applied Social Psychology)もある
- Natureにのった,p値は思ってるほど信用出来ないよという記事: R. Muzzo, “Statiscal Errors”, Nature, 506(13), 2014。
p値の利用は慎重に行わないといけない理由を解説した論文はいろいろある。例えば,Cumming (2014)は,2つの母集団からランダムに20個くらいのサンプルをとって検定を行うと,p値は試行ごとに大きく変わりうる。Cumming はこれを"p値のダンス"と読んで紹介している。 また,p値による議論だと有意差の有無が議論の焦点になってしまい,結局のところ比較している群間にどの程度の差があるのか,その値の信頼性はどうなのかといった議論がなくなってしまう。 例えば,二群の平均値にはほんのわずかの差しかなくても,サンプルサイズが大きいと有意差ありと判定され,そして優位差があることばかり過度に強調されることも多い。この点については,下記参考資料の効果量,Cohen’s d,検出力,検出限界にわかりやすい例が紹介されている。
参考資料
- G. Cumming, “The New Statidtics: Why and How”, Psychological Science, 25(1), 7-29, (2014)
- p値は使った議論の問題点は何か,効果量や信頼区間によりどのような新たな議論が可能かを詳しく解説。
- 効果量,Cohen’s d,検出力,検出限界
- 効果量メモ(効果サイズ,エフェクトサイズ,effect size)
- 参考文献等紹介が詳しくて役に立つ