統計検定手法の改革...その2: p値使用禁止!?

テストの平均点がある二群で異なるかを探るには,t検定等の統計計算によってp値を求めて,優位水準より大きいか否かに基づいて有意差の有無を議論するのが一昔前まで主流だった。ところが最近は この方法はもうやめよう…という方向に世の中は変わりつつあって,学会の投稿規定もそのように変わりつつある。

  • APA(アメリカ心理学会)は論文作成マニュアル(p.28)に「帰無仮説有意検定は1つの出発点に過ぎず,結果の意味を最も完全な形で伝えるには,効果量,信頼区間,それらに伴うさらなる記述などの付加的な報告要素が必要….」と明記。

p値の利用は慎重に行わないといけない理由を解説した論文はいろいろある。例えば,Cumming (2014)は,2つの母集団からランダムに20個くらいのサンプルをとって検定を行うと,p値は試行ごとに大きく変わりうる。Cumming はこれを"p値のダンス"と読んで紹介している。 また,p値による議論だと有意差の有無が議論の焦点になってしまい,結局のところ比較している群間にどの程度の差があるのか,その値の信頼性はどうなのかといった議論がなくなってしまう。 例えば,二群の平均値にはほんのわずかの差しかなくても,サンプルサイズが大きいと有意差ありと判定され,そして優位差があることばかり過度に強調されることも多い。この点については,下記参考資料の効果量,Cohen’s d,検出力,検出限界にわかりやすい例が紹介されている。

参考資料