等分散性の検定について
分かっている人は分かっている問題だろうが、対応のないt検定を行う前に等分散に関する検定を行うことはあまり望ましくないという主張がある。
今あるところで使っている教科書や私が心理統計の分野の参考書としてみる「心理統計学の基礎」(南風原,2002)などを改めてみてみると心理統計分野においては等分散性の検定→t検定(またはWelch検定)という流れが一般的な手順らしい(例えば南風原(2002),p158の注意書きを見ると明確ではないがそのようなことが書いてあった)
ところがこの方法、気持ち悪いところが2つある。
- 1.帰無仮説が棄却されるということは等分散性を保証しているわけではない。「等分散でないとはいえない」だけである。
- 2.事前検定による有意水準の問題。多重比較のときと同様にあるデータに対して複数の検定を行う手順を実施するとき、各検定の有意水準を5%にすると手順全体における有意水準が5%にならない。
1についてはSEMの適合度を調べる場合のカイ二乗検定についても感じた。(今はあまり使われませんけど)2については多重比較と同じように最初から各検定の有意水準を5%以下の値に設定すれば済むと思っていた。
ところが、この2つを一気に解決するインパクトのある主張を見つけてしまった。
「二群の平均値(代表値)の差を検定するとき」(群馬大青木先生)
http://aoki2.si.gunma-u.ac.jp/lecture/BF/index.html
話題としては平均の差の検定においていくつかの方法を実際にシミュレーション研究をしながらも検証し、最後は等分散である如何に関わらずウェルチ検定を使うことが望ましいと結論付けている。
(もし、間違えた読み方をしていたらごめんなさい)
もちろん一流の研究者の主張であるからまっとうなものであるし、シミュレーションの内容を見ても実データとして扱う代表的なパターンをフォローしているように思えた。
でも、なんかこれも気持ち悪いんですよね。ウェルチ検定って元々が近似的な検定方法だったように思えるのですが、わざわざ等分散であるデータに対してもより正確で分かりやすい通常の対応のないt検定を用いずにウェルチを使わなければならないのか。
だったら、(多少有意水準の問題は残るにしても)多重比較で昔行われていたように各検定の有意水準を5%以下にしてから等分散性の検定→t検定(またはWelch検定)を行った方がより過誤に関するリスクは少なくなるのではないか。
そもそも、どんなデータにもウェルチ検定を用いたときと簡易的な有意水準の設定の下で事前検定を行った場合のリスク(損失の期待値)はどちらが数理的に大きいのだろうか。
それにしても上記の1の気持ち悪さはいまだに解消できない。それなら青木先生の主張どおりある意味で分散の変化に「頑健」なウェルチ検定を使った方が説明が通るのではないか。
。。。非常に謎が深まるのは私がまだまだ「統計勉強」にしか過ぎないからでしょうか??
誰かわかる人こそっと教えてください。。。。
でも、あるホームページを見たら「データ数が均一で30個以上あれば2群は等分散とみなしてよい」という衝撃的な文章を見かけたので、それよりはよいのかな?と自問自答する今日1日でした。
(追記)
あとで気になって「実践としての統計学」(佐伯、松原編)の4章を見たら等分散性の検定に関して上記1と同じような疑問を呈している先生がいた(ちなみに、4章の執筆は繁桝先生。いつも切れ味の鋭い批評をされる方です)この部分では、仮説検定(統計学)を「データから仮説を評価する機能のための一貫した方法論であるという考え方が各、雑多な手法の寄せ集めになっているのが現状」と評していた。ベイズ法という一貫した方法論を研究された先生の偽りない感想ではないかと思った。
そういえば、統計学の一貫性については昔同じベイジアンの松原先生からも同様の話を聞いたことがある。そのときは、統計「学」というのが応用数学の派生としての理論的側面だけでなく、実践的方法論の組み合わせによって成立したことを前提に話していたのであまり否定的な意味ではなかったと思う。
いずれにしろ、他人に説明するのは結構大変ですね、こりゃ。
test