誤差のある話
先週、ある学会のために九州まで行ってきた。
学会の内容は非常に有意義でかつ楽しかったのだが、最も印象に残ったのは飲み会だった。
(といってもこれは「勉強コラム」なので、飲み会の与太話ではなく、真面目な話です。ご安心を。)
当日の学会の発表が終わり、先輩方と一緒にあるマイニング系の研究グループの飲み会に参加させていただいた。
そのとき同席させていただいたのが、最近では統計教育に関する研究に力を入れていらっしゃる先生。初めてお会いしたので自己紹介をしながら、先生が発表をされた統計教育関連のセッションの話題を振ってみた。何でも学習指導要領が変わって統計教育が少しずつ重視され始めたらしい。喜ばしいことだと思っていたら先生は開口一番、
「私は、数学の先生がはたして統計を教えることが出来るか、少し不安に思っているのです。」
とのお答え。なぜか分からないという顔をしている私に先生は丁寧に説明してくださった。
「数学のように非常に整合性・一貫性を保った学問と違い、統計はどうしても誤差や残差などの説明しきれない領域が残ってしまいます。それに対して数学的な定理や公式の証明と同様のアプローチをとったときに学生さんが理解してくれるのかどうか。難しいかもしれません。」
なるほど、前に仮説検定の結果が正誤でないという話を書いた直後だったので非常に共感できた。
「確かに統計に代表されるデータサイエンスは数学的な土台の上に成り立っていますが、より実用的な方法論としての側面も持ち合わせているはずです。ですから、統計を数学の授業で教えずに理科や社会科など他の授業で教えるのも効果的かもしれませんね。」
他の先生(だったと思う)がコメントした。確かに統計分野は数理統計などの理論的な側面ばかりではなく、むしろ現実のデータ処理をどのように行うかというのが重視される。その意味では総合科目的な位置づけに置かれるのかもしれない。
その後も九州のおいしいお酒を飲みながら議論は進んでいったが、ここで重視されたのは誤差(あるいは残差)という概念をどのように扱うかということのように思える。
誤差や残差というのは、一般的にはあるモデルや処理(測定などもこれに含まれる)を行ったとき、実データ値と期待される値の間に生じた「差分」である。確かに、昔自分が高校生だったときにこの誤差という概念をどのように説明されたか、全く覚えていない。
その一方で大学を出て就職したら世の中「誤差」だらけのことに気づいた。経済の行く先、企業の業績、卑近なところでは先輩や同輩との付き合い、どれをとっても望ましい「モデル」どおりにはいかず、必ずどこかで誤差が生じた。
もっとまともな話で言うならば、最初の就職先ではソフトウェア開発を行っており、バグ収束の判定にはSQCを使っていたが、モデルどおりにバグが収束せず大変苦労した記憶がある。
自分はこれらの「誤差」をどのように理解し、処理したのだろうか。おそらく「世の中はモデルどおりにいかない。こんなものだ」と何となくあいまいに解釈したのではないかと思う。
教育指導要領で統計が重視されているそうだ。
それならば、是非「誤差のある話」を分かりやすく説明できるものであってほしい、やたらと蒸し暑い九州の夜空を見上げながらつくづくそう思った。
仮説検定の結論は正誤か?
今回も「気持ち悪い」話からはじめてしまう。(申し訳ありません)
「○○さん、仮説検定で帰無仮説が棄却されたから対立仮説が『正しい』んだよね?」
現在、ある大学のTAをしているが、たまにこのような質問を受ける。感覚的に気持ち悪いので、すぐに言い直す。
「いえいえ、対立仮説は『妥当である』んです。」
自分にあまり学がないのでそれ以上は言わないが、相手は何か不思議な顔をしながら一応納得したような顔を見せてくれる。(ありがたい)
私の中では感覚的に仮説検定というのは意思決定問題、またはモデル選択問題の1種である。というのも、有意水準の値というものが理論的な合理性を持つものではなく、単に経験的に使われている基準値である以上、帰無仮説/対立仮説のどちかをとるかという判断は正しく分析者の主観にゆだねられていると考えるからである。
無論、通常は各分野で慣習的に5%とか1%といった有意水準の基準値が利用され、これに従わない場合は変人扱いされたり、常識はずれ?とみなされるが、「常識的な有意水準で分析を行う」というのも分析者の意思である以上、それが分析者の主観による意思決定の1つであることには間違いない。
この辺はやはり専門家が詳しい。昔勉強した「意思決定の基礎」(松原望先生のもの。旧版しか手元にないけど)の7章を見てみると、ちゃんと「仮説を棄却する→否定する」「採択する→認める」という意思決定の言葉に則った説明がしてあった。さすが分かりやすい統計学!の先生である。
それに加えて前述の通り仮説検定はモデル選択問題の1種である。これは帰無仮説が元々確率モデルであり、ソフトウェアが計算するp値が1種の適合度を示しているという事実を考えれば明らかである。
たまに本屋で見かける入門編の教科書にはこの重要な事実が書いていない。すると、片側検定と両側検定の問題や多重検定などの少し発展した問題を説明できなくなる。結果として統計を勉強する学生は余計分からなくなり、統計勉強達は奇人変人のようにみなされてしまう。
これは、非常に困ることです。
ここまで熱く語るのには訳がある。おなじみ「Wikipedia」の記述を発見してしまったからなのだ。
以下Wikipediaの「仮説検定」の項からの引用。(リンクははずしました)
仮説検定(かせつけんてい)、もしくは統計学的仮説検定 (Statistical hypothesis testing)、あるいは単に検定法とは、ある仮説が正しいといってよいかどうかを統計学的・確率論的に判断するためのアルゴリズムである。 |
ちゃんと「判断するための」という文言が書いてあるからいいのだろうが、「アルゴリズム」という言い方はどうかな、と思ってしまった。判断するのは分析者(あるいは分析者が選んだ業界的慣習)である以上、何らかの恣意性がそこに存在するはずである。それを機械的作業を連想させるアルゴリズムという言葉を使って説明するのはどうだろうか(ある意味的をえているが)。。。しかも「妥当」ではなく、「正しい」という言葉を使っているし。。
すいません、絡んでしまいました。私、Wikipedia大好きです。これを編集しているボランティアの方も尊敬しています。もっといい表現を見つけたら私も編集に参加したいです。本当に。
ちなみに、私が大好きな「意思決定の基礎」にも少し違和感があるところがある。先ほどの第7章「仮説と仮説検定」で仮説検定を背理法と比較しているところである。
背理法とは本来主張したい仮設と逆の仮説(帰無仮説)を設定し、この帰無仮説を基に論理を進めていくと最低1つの矛盾が生じることを証明することによって本来の仮説の正しさを証明する方法である。つまり、帰無仮説の状態については論理的に正誤の2値しか存在しないし、一旦誤りと判断された仮説にはもはや正しさ(ある種の真実)は少しも存在しないことを前提としている。
ところが、統計的仮説検定は過誤や有意水準いう確率概念を取り入れ、正誤2つの状態の間に人間の意思決定により近いあいまいさを取り入れているのではないか。このあいまいさのお陰で人間が起こす決定ミスを数理の枠組みで評価できる。私はこの確率概念の導入こそ仮説検定をより実践的な技法にしているすばらしいアイディアだと思っている。それを二元論的な視点に基づいた背理法と比較されると少し違和感がある。
もちろん、松原先生もこんなことまで意識はしてなさらなかっただろう。仮説検定を知らない学生に説明を行う際、プロセスとしての背理法との比較は妥当なものであり、教えられる方も分かりやすいと思う。
今日はいたるところで絡んでいます。少し反省します、はい。
等分散性の検定について
分かっている人は分かっている問題だろうが、対応のないt検定を行う前に等分散に関する検定を行うことはあまり望ましくないという主張がある。
今あるところで使っている教科書や私が心理統計の分野の参考書としてみる「心理統計学の基礎」(南風原,2002)などを改めてみてみると心理統計分野においては等分散性の検定→t検定(またはWelch検定)という流れが一般的な手順らしい(例えば南風原(2002),p158の注意書きを見ると明確ではないがそのようなことが書いてあった)
ところがこの方法、気持ち悪いところが2つある。
- 1.帰無仮説が棄却されるということは等分散性を保証しているわけではない。「等分散でないとはいえない」だけである。
- 2.事前検定による有意水準の問題。多重比較のときと同様にあるデータに対して複数の検定を行う手順を実施するとき、各検定の有意水準を5%にすると手順全体における有意水準が5%にならない。
1についてはSEMの適合度を調べる場合のカイ二乗検定についても感じた。(今はあまり使われませんけど)2については多重比較と同じように最初から各検定の有意水準を5%以下の値に設定すれば済むと思っていた。
ところが、この2つを一気に解決するインパクトのある主張を見つけてしまった。
「二群の平均値(代表値)の差を検定するとき」(群馬大青木先生)
http://aoki2.si.gunma-u.ac.jp/lecture/BF/index.html
話題としては平均の差の検定においていくつかの方法を実際にシミュレーション研究をしながらも検証し、最後は等分散である如何に関わらずウェルチ検定を使うことが望ましいと結論付けている。
(もし、間違えた読み方をしていたらごめんなさい)
もちろん一流の研究者の主張であるからまっとうなものであるし、シミュレーションの内容を見ても実データとして扱う代表的なパターンをフォローしているように思えた。
でも、なんかこれも気持ち悪いんですよね。ウェルチ検定って元々が近似的な検定方法だったように思えるのですが、わざわざ等分散であるデータに対してもより正確で分かりやすい通常の対応のないt検定を用いずにウェルチを使わなければならないのか。
だったら、(多少有意水準の問題は残るにしても)多重比較で昔行われていたように各検定の有意水準を5%以下にしてから等分散性の検定→t検定(またはWelch検定)を行った方がより過誤に関するリスクは少なくなるのではないか。
そもそも、どんなデータにもウェルチ検定を用いたときと簡易的な有意水準の設定の下で事前検定を行った場合のリスク(損失の期待値)はどちらが数理的に大きいのだろうか。
それにしても上記の1の気持ち悪さはいまだに解消できない。それなら青木先生の主張どおりある意味で分散の変化に「頑健」なウェルチ検定を使った方が説明が通るのではないか。
。。。非常に謎が深まるのは私がまだまだ「統計勉強」にしか過ぎないからでしょうか??
誰かわかる人こそっと教えてください。。。。
でも、あるホームページを見たら「データ数が均一で30個以上あれば2群は等分散とみなしてよい」という衝撃的な文章を見かけたので、それよりはよいのかな?と自問自答する今日1日でした。
(追記)
あとで気になって「実践としての統計学」(佐伯、松原編)の4章を見たら等分散性の検定に関して上記1と同じような疑問を呈している先生がいた(ちなみに、4章の執筆は繁桝先生。いつも切れ味の鋭い批評をされる方です)この部分では、仮説検定(統計学)を「データから仮説を評価する機能のための一貫した方法論であるという考え方が各、雑多な手法の寄せ集めになっているのが現状」と評していた。ベイズ法という一貫した方法論を研究された先生の偽りない感想ではないかと思った。
そういえば、統計学の一貫性については昔同じベイジアンの松原先生からも同様の話を聞いたことがある。そのときは、統計「学」というのが応用数学の派生としての理論的側面だけでなく、実践的方法論の組み合わせによって成立したことを前提に話していたのであまり否定的な意味ではなかったと思う。
いずれにしろ、他人に説明するのは結構大変ですね、こりゃ。
test