第2回:『有意性検定に未来はあるか』
(公開:2021年2月9日(火) 公開終了:2022年2月9日(水))
アメリカ統計学会(ASA)が2016年に有意性検定の誤解と誤用をいましめる声明を発表し、世界の統計ユーザーに衝撃を与えました。ASAは「有意確率pは効果の大きさを表すものではなく、本当に知りたい仮説が正しい確率を測るものではない」と指摘しました。この声明の意味を解題し、マーケティング・リサーチャーが今後どう検定に対応すべきかを提言します。
第2回の資料はこちら
講師のご紹介
朝野煕彦
氏 東京都立大学/専修大学元教授
「スズキ」さん)検定が有効に使える、適切なサンプル数というのは示せるのでしょうか。前半の数値例のように、検定は数十から数百人規模のデータに適した方法のように思われます。なぜ、そのような検定が作られたのでしょうか。
(朝野)歴史的に、せいぜい数十の区画にしか種が撒けなかった農事試験の分析法として、推測統計学が開発されたからです。近代の統計学は農事試験所で生まれました。
(匿名希望さん)原データは正規分布に従う必要があるのでしょうか。平均値の差の検定をするには、調査データが正規分布しなければならないと先生は言っておられるのですか?
(朝野)そのような制約はありません。ただし、確率分布が正規分布する必要はありませんが、実験群は実験群で、ある一定の確率分布に従ってデータが発生しなければなりません。統制群は別の確率分布で構いませんが、統制群の中でデータは同一の確率分布に従わなければ、検定の前提を満たしません。今回ご紹介した例では、同じ条件に該当するモニターが同一の状況を経て測定値を生み出しているので、同一の確率分布に従うとみなしたのです。
(匿名希望さん)モンテカルロ法では、どんな確率分布に従う乱数でも発生させることができるのでしょうか。自分が持っている統計ソフトには、正規分布と一様分布の乱数だけしかないのですが。
(朝野)MCMC(マルコフ連鎖モンテカルロ法)を使えばできます。詳しく説明するにはスペースが足りませんので、まずはネットで検索してみてください。
(「初心者」さん)ベイズ統計学の予測分布を使えば、仮説が正しい真の確率が分かるのでしょうか?
(朝野)ベイズ統計学であっても、普遍的な真実を知ることはできません。結論が調査データに依存するのは、伝統的な推測統計学と変わりません。
(匿名希望さん)なぜ、これまで仮説検定への誤解を誰も教えてくれなかったのでしょうか。統計教育に問題があったのでしょうか。
(朝野)理由はいくつもあったと思います。統計学の研究者にとって、利用者が検定をどう理解しているかは研究上の重要なテーマには入らなかったためではないでしょうか。
(「統計学徒」さん)①失礼な言い方になってしまいますが、「しょせん、統計分析を使っても厳密なことは分からない」と心得ておけば、今回の指摘はさほど気にするような問題ではないと思いますが?
(朝野)誤解をしたままでは、時間が経っても気にしないでよい状態にはならないと思います。
(「統計学徒」さん)②今回、先生は「仮説が正しい比率」という言葉を使いましたが、ふつうは「確率」と言いませんか?
(朝野)ベイズ統計学でも、事後確率とか予測分布の確率といいます。シミュレーションしたデータで集計した結果は厳密にいえば比率であって、数学的な確率ではないので、乱数を発生するつど結果が変わります。けれども、気にするほど結果が違うかといえば、乱数の数が多くなると実質的にはほぼ同じです。あまり神経質にならなければ、確率と呼んで構わないと思います。
(「村人B」さん)推測統計では、グループについて何を前提にしているのでしょうか。
(朝野)母集団と標本抽出を、推測統計学ではどうとらえているかという重要な疑問です。この本質に触れずに、検定の手続きだけを書いている統計ガイドが多いように思います。ぜひ最終回で議論したいテーマです。
(「村人B」さん)対立仮説をたてて検定すれば、何も問題はないように思うのですが。
(朝野)ネイマン・ピアソン流の対立仮説を具体化する自然な方法がありません。対立仮説は一見もっともらしいのですが、空理空論だったのでしょう。「H0:等しい」が帰無仮説だったとして、では調査をする前に「H1(対立仮説)」はいくつの差がよいのかを一意に決められるでしょうか? むしろモンテカルロ法などのシミュレーションで、事後的にさまざまな効果が出現する割合を出す方が実際的だと思います。
(「初心者」さん)今回のキャストで紹介された平均値の差の検定は、検定法のごく一部なのではないでしょうか。他の検定法にも指摘されたのと同じ欠陥があるのでしょうか。
(朝野)検定には順序データやカテゴリーデータのためのノンパラメトリック検定という一群の方法がありますし、数量的なデータを検定する場面でもグループ数が1つか2つか多数かの場合、さらにデータ数の違いによっても方法が異なります。検定論は各手続きによって論理が一貫しない雑然とした方法群になっています。それぞれの検定が成り立つ前提条件が違いますし、限界も異なります。今回、説明としてあげた平均値の差の検定は、市場調査の分野でよく使われてきた方法ですので、取り上げました。
((匿名希望さん)朝野先生は棄却水準とか危険率という表現に否定的なのでしょうか。
(朝野)棄却水準あるいは危険率の設定には、科学的・客観的な根拠がありません。p値だけを報告して、そこから先は意思決定者に判断を任せるというのが近年の流儀です。p=0.154をどう理解するかは、エンドユーザーに任せるという意味です。「有意vs有意でない」では2値の情報しかありませんから、p値の方が情報が多いとは言えますね。
(「素朴な疑問」さん)検定の解釈の間違いはどうして発生し、定着してしまったのでしょうか。
(朝野)「高度に有意であることが、効果が大きいことの証拠になる」という誤解そのものがユーザーにとって都合がよい誤解だったために、検定の利用が増えて社会的に定着してきたのでしょうね。