テストの平均点がある二群で異なるかを探るには,t検定等の統計計算によってp値を求めて,優位水準より大きいか否かに基づいて有意差の有無を議論するのが一昔前まで主流だった。ところが最近は この方法はもうやめよう...という方向に世の中は変わりつつあって,学会の投稿規定もそのように変わりつつある。

p値の利用は慎重に行わないといけない理由を解説した論文はいろいろある。例えば,Cumming (2014)は,2つの母集団からランダムに20個くらいのサンプルをとって検定を行うと,p値は試行ごとに大きく変わりうる。Cumming はこれを"p値のダンス"と読んで紹介している。 また,p値による議論だと有意差の有無が議論の焦点になってしまい,結局のところ比較している群間にどの程度の差があるのか,その値の信頼性はどうなのかといった議論がなくなってしまう。 例えば,二群の平均値にはほんのわずかの差しかなくても,サンプルサイズが大きいと有意差ありと判定され,そして優位差があることばかり過度に強調されることも多い。この点については,下記参考資料の効果量,Cohen's d,検出力,検出限界にわかりやすい例が紹介されている。

参考資料

Next Post Previous Post

Blog Comments powered by Disqus.