―存在とは何か

真理への飽くなき追究

仮説を検証する方法はコントロール実験だけでは無い。無作為抽出テストとは?

―無作為抽出テストとは何か?
・大規模なデータを集め、仮説を検証する実験の事。
・母集団から無作為に、実験の対象を抽出する。
・無作為に抽出した対象を2つ以上のグループに分ける。それぞれのグループに異なる内容を同時にテストする
・少なくとも数千以上のデータを集める。異なる内容のテストにより、データに違いがどのくらいあるか調べる。
・コントロール実験は、比較する内容以外のあらゆる条件を同じにコントロールする。これは、データの差が、比較する内容以外の要因が原因となる可能性を防ぐため。
・しかし、無作為抽出テストは、比較する内容以外を同じ様にコントロールする必要はない。それは、比較するデータ数が圧倒的に多い為だ。データ数が圧倒的に多いと、それぞれでのグループで生じる、比較する内容以外の要因のデータのバラツキも同じようになる。
それは、母集団からサンプルを無差別(ランダム)に抽出しているからだ。
・つまり、データ数が多いと、比較する内容以外の要因もそれぞれのグループで同じになる。結果、グループの差は、比較する内容の要因であると言えるのだ。
・よって無作為抽出テストのメリットは、じらべたい内容以外の要因を同じ様にコントロールする必要がない。統計など、ややこしい計算をしなくても、データの差があるか無いかを見れば、効果がすぐに分かる。
 
―無作為抽出テストはあらゆる場所で利用される。
・広告の文章で最も、客の購買意欲を掻きたてる文章は?(googlの広告、adwords)
・新薬の効果があるか、無いかの検証。
・新しい、政策が効果があるか、ないか?
 
―予測に統計的データを利用する
・人間の予想と言うのは、80%くらいの確率で間違っている。しかも、専門家程、自分の予測がほぼ100%正しいと信じ込む。人間は、自分の過去の記憶、経験を絶対視しやすいので、盲目的に自分の意見が正しいと信じ込む。これが非常に危険。常に自分の仮説、意見が間違っている可能性がある事を考慮しておく必要がある。
・統計を利用すると、予測が合っている確率が信頼限界という確率で表される。データに情はないので、人の意思が反映される事は少ない。
・医療ミスで生じやすいのが、誤診断。特に、日本の医者は自分の経験や、権威のある人が、公言する、診断を信用する。統計的データベースを利用しようとしない。
・海外では、「イザベル」という診断プログラムがある。症状をいくつか入力し、検索を掛けると、データベースより、相関の高い、病名の一覧が表示される。
ニューラルネットワークを使った統計的予測。
・いわゆる、デープラーニングと呼ばれる物。
・人間のニューロンネットワークに似せた物。人間の脳では、情報は処理され、重みづけ、計算がされ、次の神経細胞に送られる。しかも、ニューロン同士の結合は、強化されたり、弱くなったりする。次の神経細胞は複数の入力を受け、閾値に達すれば、いくつかの予測結果を生み出す。
・同じような事が、ニューラルネットワークでも用いられる。どのような映画が最も復興収入が高いか?計算では、監督、キャスト、脚本、セリフ、など、50以上の要因に対し、それぞれ、異なる方程式を当てはめ、重みづけをする。計算された結果は、次のネットワークに送られ、入力の加重和がそれなりに多ければ、スイッチが入り、さらに次のネットワークに送られる。つまり、様々な、要因の相互作用の重み付けも計算する。ネットワークの最後には最後のスイッチがあり、入力された、情報の加重和が全体の予測結果としてあらわされる。
ニューラルネットワークは過去のデータベースをあさり、それぞれの要因に対し、いくつもの数学的方程式を何万回と試し、要因の重み付けを行う。最終的に最も、予測精度が高い、変数が採用される。
・結果、データが蓄積されるほど、精度は向上する。また、データが蓄積されるたびに、計算方法を変化させ、最も予測精度が高い変数を採用する様に学習する。
・どんな曲を作ればヒットするか?過去のヒットした曲のデータを漁り、様々な要因に対し、予測精度が最も高い、数学的方程式が試される。要因の重みづけがされ、効果的な方法が分かる。
・この様なニューラルネットワークの予測で分かった事は、ヒットする映画であれば、キャスト、製作費は、ヒットに直接関係しないという事が分かった。統計的、数学的解析を行う事により、人間が予想しなかった様な要因が重要である事も分かってきた。また、人間の予測がいかに間違っているかも分かってきた。
・しかし、本物のニューロンネットワークを持つ、脳の予測システムの予測精度は低く、それを似せた物に過ぎないニューラルネットワークの方が予測精度が高いのはなぜなのか?
それは、人間の脳の予測システムに、実際に、自分が、体験、経験した情報に対し強い重み付けがされるという傾向がある為だ。
もう一つは、情報量の差だ。例えば、映画のタイトル、売上、その他様々な要因に対し人間の脳が記憶しているデータ量と、コンピュータが記憶しているデータ量では、コンピュータの方が圧倒的に正確でデーが多い。
つまり、情報が不足していると、自らの経験、体験を元にしか予測できない。また、実際に体験、経験していない、情報に対しては、同じような重み付けが出せないのだ。
・結果、盲目的に、自分の予測が絶対に正しいと判断してしまうのだ。
・人間は、自分の経験、体験を重要視する傾向がある事。人間の持っているデータ量は少ない。この2点を意識していないと誤った予測を立ててしまう。視野が狭くなり、他者の意見に耳を傾けなくなる。
 
参考文献:その数学が戦略を決める  イアン・エアーズ