読書ノート

楽しみながら学ぶベイズ統計

中学や高校で確率を学ぶ。この時に学んでいるのは、「コインを投げて表が出る確率は?」のような、頻度論という手法である。

確かに頻度論は有用であるが、企業レベルの話になるとベイズ統計というものを使うのが良い場合が多い。頻度論では、「土日のiPhone 12 Pro Max <256GB スペースグレイ>の販売は、5台」というような予測を立てるが、ベイズ統計では、「土日のiPhone 12 Pro Max <256GB スペースグレイ>の販売は、95%の確率で2〜5台」というように予測を立てる。要は、不確実性をもって予測をする。不確実性を持って予測を立てることで安全な意思決定が可能になる。

楽しみながら学ぶベイズ統計は、面白くて多様な事例を使って、ベイズ統計の基礎と活用法を解説する入門書である。楽しみながら学ぶベイズ統計をマスターすることで、不確実な事柄を数学でモデル化して、限られたデータの中でより良い選択を行えるようになる。

ベイズ統計とは何か

中学や高校で習う統計は、頻度論的統計学という。頻度論的統計学の基礎は、「確率とは何かが起こる頻度である」というもの。コインを1回投げて表が出る確率が0.5であるというのは、1回投げると表が半分出ると予測できるという意味である。

それに対してベイズ統計では、ある情報に関して自分がどれだけ確信を持っていないか、それを確率で表現することを考える。ベイズ統計では、コインを1回投げて表が出る確率が0.5であるというのは、自分は表が出るとは確信できないし、それと同程度で裏が出るとも確信できない、という意味である。コインの例ではどっちでも良さそうだが、次の選挙で贔屓の候補が勝つとどれだけ強く信じているか、それを知恵量化しようとしたら、ベイズ的解釈の方がはるかに理にかなっている。ベイズ統計を使う際には、この世界について自分が何を信じるかを、すでに持っている情報に基づいて正確に表現しようとすればいい。

また、ベイズ統計には大きな長所が一つある。ベイズ統計は不確実な事柄に関する推論として捉えられるので、ベイズ統計の道具や手法は全て直観と合致している。ベイズ統計とは、直面した問題を見つめ、自分がそれを数学的にどのように表現したいかを定め、推論によってそれを解決することに他ならない。

オッズから確率を導く

番長・三浦大輔を好きだし、元山口県民だから横浜を応援しているけど、今年の横浜は弱すぎる。息を吐くように負けてしまう。そんな横浜が絶好調の阪神と試合をする。おそらく今日の試合は阪神には勝てないだろうと見込んでる。そこで友達に「自分の予想通り横浜が負ければ500円もらうが、予想を外して横浜が勝てば10,000円払う」と約束したとする。

この賭けのオッズを見れば、自分の仮設をどれだけ強く信じているかが分かる。オッズは「m対n」と表されるのが普通だが、m/nと比のように表現することもできる。今回の例では、「10000/500 = 20」となる。これは、ベイスターズが負けるという仮設を、勝つという仮設より20倍強い、ということになる。この事実に基づいて、高校レベルの代数を使えば、仮設に対する正確な確立を計算できる。

オッズOを確率に変換するプロセスを一般化すると、P(H) = O(H) / (1 + O(H))という数式を使えばいい。

今回の横浜ベイスターズの例では、P(H) = 20 / (1 + 20)、P(H) = 20/21、P(H) = 95%となる。

二項分布

二項分布を使うと、挑戦する回数(試行回数)と成功する確率(成功確率)をが与えられた上で、ある回数成功する確率を計算できる。二項分布の「二」とは、ある出来事が起こる場合と怒らない場合という、2通りの結果を対象とすることを指している。結果が3通り以上ある場合には、多項分布という。

二項分布は以下の3つのパラメータで表現する。

k: 関心のある結果が起こる確率
n: 挑戦する総回数
p: 関心のある結果が起こる確率

例えば、コインを3回投げて表が2回出る確率を計算する場合は、

k = 2: 関心のある結果、この場合には表が出る回数
n = 3: 挑戦する総回数、この場合はコインを3回投げるので3
p = 0.5: コインを1回投げて表が出る確率

これを数式で表すと、

ブルーアイズホワイトドラゴン

さて、ここでデュエリストを目指す君が、遊戯王カードを買うときの例で二項分布の説明をする。

デュエリストを目指す君は、ブルーアイズホワイトドラゴン(青眼の白龍)を引き当てなければならない。遊戯王の公式サイトにブルーアイズホワイトドラゴンが出る確率は0.72%と書かれているものとする。また、遊戯王がキャンペーン中で10円で100枚購入できるとする。この時、ブルーアイズホワイトドラゴンが出る確率が0.5以上の場合にだけ、遊戯王カードを購入するつもりである。

二項分の公式にブルーアイズホワイトドラゴンが出る確率を放り込むと、

答えは0.5より小さいので、止めるべきだと出る。いや、本物のデュエリストは諦めてはいけない。今の式ではカードがちょうど1枚出る確率を計算したに過ぎない。ブルーアイズホワイトドラゴンは2枚とか3枚でるかもしれない。だから本当に知りたいのはブルーアイズホワイトドラゴンが1枚以上出る確率である。それは次のように書ける。

100枚分続くと、かなり長ったらしいので、シグマを使って書く。すると、

となる。これを計算すると、0.515となる。今すぐお金を突っ込んで一流デュエリストの仲間入りをしよう!

平均絶対値偏差と分散、標準偏差

平均はよく使う。これは非常に便利だが、データの散らばり具合を考慮するともっと有益になる。このデータの散らばりを定量化するために、平均絶対偏差と分散、標準偏差というものがある。

平均絶対偏差とは平均からその測定値を引いただけである。これはとても有用で、測定値がどれだけ散らばっているかを直感的に表している。

データを台無しにせずに散らばり具合を求める方法に、差の二乗するというものがある。これが分散である。分散の1つ目の利点は、数学的には、絶対値を取るよりも値を2乗するほうが、はるかに容易ということ(数学者にとっては実用的らしい)。2つ目の利点は、2乗することでペナルティーに大きな差が付く、つまり、期待値から大きく離れた測定値ほど大きなペナルティーが科せられること。要するに、直感的な感覚のとおり、小さな差は大きな差に比べて重要度が低いということである。分散も数学的に正室が良いため(詳しくは数学屋さんに聞いてくれ)、確率論では平均的絶対偏差よりも分散の方が頻繁に使われる。

しかし、理論上は分散には有用な性質がいくつもあるが、実用面ではその値の解釈が難しい。平均絶対偏差の長所は、その値が僕らの直観とうまく合致することでもある。分散の平方根を取ることで、その問題を解消する。分散の平方根を標準偏差といい、σで表す。

標準偏差は、直感的な平均的絶対偏差と数学的に扱いやすい分散との、いいとこ取りと言える。標準偏差はとても有用で至るところで使われているため、確率論や統計学のほとんどの文献では、分散の方が逆にσ^2と定義されていたりする。

散らばり具合を求めるためのこれらの方法のうち、どれが正しくてどれが間違っているということはない。ただし、飛び抜けて多く使われているのは標準偏差である。標準偏差と期待値(平均)を組み合わせて用いると正規分布を定義でき、それによって、それぞれの値が真の値である確率をはっきりと定めることができる。

正規分布

正規分布は連続的な確率分布で、期待値と標準偏差が分かっている場合に、ある不確実な値をどれだけ強く信じられるかを、もっともよく記述している。

正規分布は、期待値がどれだけ強く信じられるかを反映している。要は、測定値が散らばっていればいるほど、信じられる値の範囲は広くなり、中心の期待値に対する確信の度合いは低くなる。逆に測定値が全てほぼ同じであれば(σが小さければ)、測定値はかなり精確だと信じることができる。例えば、落として割れたグラスの破片が近くにまとまっていれば、どこを掃除すべきかを革新できるが、破片が散らばっていたら、どこに破片があるか確信が持てなくなる、という具合である。

正規分布の威力は、期待値とは異なる幅広い範囲の値について確率論的に推論して、期待値にどの程度現実味があるかを推し量れることにある。期待値と標準偏差しか分かっていないようなデータについても、正規分布を使えば推論することができるのだ。ただし、正規分布を仮定しても構わないのは、データについて期待値と標準偏差以外何も分かっていない場合に限られる。

ピンポンダッシュの成功率を測る

しがないSI屋さんから外資系コンサルティングファームに転職した君は、雨も滴る良い男になるかと想像していたが、実際には泥臭い業務をやらされ、休みも取れず、毎日上司のパワハラに苦しめられている。そこで、そんな嫌いな上司に対してピンポンダッシュで復讐することを決意する。

都内某所にある上司宅に行って、ピンポンを押してダッシュするが、完全に見えなくなるまでは60m走らなければならない。60m走りきるまでに見つかってしまうと、翌日から地獄のような日々が待っている。絶対に失敗したくない。そこで君は、上司宅まで行って、ピンポンを押さずに60m走った。60m走りきるまでのタイムは、18秒だった。

また、上司宅は建売住宅なので、似たような間取りの家がズラッと並んでる。そこで、内見をしてピンポンが押されてから玄関先まで出るまでのタイムを計測した。不動産屋さんに変な目で見られたが、復讐に目が眩んでいる君には関係ない。そのシミュレーションは5回実施した。計測の結果、チャイムが押されてから玄関までは、19秒、22秒、20秒、19秒、23秒だった。

タイムを見ると、チャイムが押されてから玄関先までは18秒以上かかるので実行したいが、バレるとパワハラがひどくなり、精神を病んでうつ病になるかもしれないため、99%以上成功しない限り実行したくない。馬鹿な人は5回とも18秒以上かかった結果だけを見て復讐を実行するが、はたして君は復讐するべきなのか?そこで登場するのが正規分布である。

19秒、22秒、20秒、19秒、23秒の平均値は20.6秒、標準偏差は1.62となる。そこで、μ=20.6、σ=1.62を正規分布の確率密度関数に入力し、18以下の値について積分する。すると、答え、P(限界先に出てくる時間 < 18) は、約0.05となる。つまり、18秒かからずに玄関先に出てくる可能性が5%あることが分かる。

復讐は復讐しか生まない。君は復讐なんかせずに転職したほうが良い!

データが考えを左右するのであって、考えがデータを左右すべきではない

「第1章 ベイズ的思考と日常の推論」より

どんな例でも絶対的なのはデータだけである。あなたの仮説は変化するし、世界におけるあなたの経験は、他の人の経験と違うかもしれないが、データは全ての人に共通している。もし、データが自分の仮説や経験と違う場合は、データを変えるのではなく、自分の考えを変えるべきた。観察されるデータは全て現実なので、考えを次々に変えていって、最終的にはデータと合致するようにしなければならない。

僕は仕事でいわゆるデータ分析をしたりするが、データを扱う全ての人は、「データが考えを左右するのであって、考えがデータを左右すべきではない」を肝に銘じなければならない。しかし、恐ろしいことに、自分の経験と勘に合わせてデータをいじる(改竄する)人が存在する。たちが悪いことに、そういう人に限ってなぜか出世していて、プライドが高く人の話を聞かない。そういう人に出会った場合は、自分を信じてその悪者と闘ってほしい。

そして分析する人は、問題を解決するには自分の事前の信念を進んで変える必要があるのだということを、肝に銘じておかなけらばならない。道理に合わない事前の考えを捨てる気がないのであれば、最低限、自分は論理的な方法では推論していないのだと自覚するべきだ。

人の話を聞かない人と話す時は、最初に「どんなことが示されたら考えを変えられるか」と尋ねておくのも良い。もし相手が「どんなことがあっても考えを変えない」と答えたのであれば、さらなる証拠を示さないほうがまだまし。そんな人相手に何か語っても、逆に自分の信念をますます深めるだけだ。

おすすめ記事

読書ノート

2021/4/13

なんでもわかるキリスト教大辞典

キリスト教の教えや特徴、独特の用語をキリスト教の内部にある複数の流れ、要は「教派」ごとに説明している。聖書や神学、教義、教会史、礼拝学、芸術、個人の伝記、信仰録など、キリスト教を知るための切り口は様々だけど、その中でも「教会」に焦点を当てている。図解も多くわかりやすい。

続きを読む

読書ノート

2021/3/31

政治のキホンが2時間で頭に入る

政治とは国会と内閣、裁判所について学ぶことである。この本は政治について「分かった!」という感覚を与えてくれる。

続きを読む

読書ノート

2021/4/14

医者が教えるサウナの教科書

「仕事ができる人はサウナが好きではなく、サウナが好きだから、仕事ができる」として、サウナへの愛を語っている。理由なしにこれを言うとただの洗脳だが、サウナが仕事のパフォーマンスを上げる医学的根拠をきちんと説明して、医学的に正しいサウナへの入り方(ととのい方)を紹介している。

続きを読む

読書ノート

2021/4/20

プロテスタンティズム

ルターが新しい宗派であるプロテスタントを生み出したという説明は事実に反する。ルター自身がプロテスタントという意識を持っていなかった。教会の改革や刷新を願ってはいたが、新しい宗派を創設する意志などなかった。ルターは、壊れた家を新しく立て直そうとしたのではなく、土台や大黒柱は残して、修繕が必要な部分を新しくしようとしたのである。

続きを読む

読書ノート

2021/4/21

ナチスの発明

野蛮で残虐な侵攻や迫害は世界のあらゆる国、あらゆる民族でも行われた。それが最も極端な形で現れたのがナチス(ヒトラー)である。人類は、ナチスが何を思い、何をやったのかを、もっと冷静に、もっと深く知る必要がある。ナチスの時代を真っ黒に塗りつぶしてきた歴史観は、そろそろ修正されなければならないのではないか。

続きを読む

読書ノート

2021/4/22

楽しみながら学ぶベイズ統計

面白くて多様な事例を使って、ベイズ統計の基礎と活用法を解説する入門書である。本書をマスターすることで、不確実な事柄を数学でモデル化して、限られたデータの中でより良い選択を行えるようになる。

続きを読む

読書ノート

2021/4/28

仏教が好き!

根っからの仏教好きな二人による仏教の愛の対談。古色蒼然とした仏教イメージが一気に吹き飛ばされる。

続きを読む

読書ノート

2021/5/27

日本人のための第一次世界大戦史

ビスマルクは「愚者は経験に学び、賢者は歴史に学ぶ」と言った。歴史からエッセンスを抽出し、条件の異なる現代を正しく理解するということ。まず第一次世界大戦という基本的な史実を知らなければならない。

続きを読む

読書ノート

2021/5/20

ヒトラーとナチ・ドイツ

ヒトラーとナチ・ドイツは、21世紀を生きる我々が一度は見つめるべき歴史的事象に真摯に向き合うことで、現在・未来のための教訓をたくさん導き出すことのできる歴史である。

続きを読む

読書ノート

2021/6/6

物語創世

文字を読むことができる人は一読に値する本。聖書からハリー・ポッターまで、書字技術の発展と共にそれらがどう広まり、どのように宗教、政治、経済を歴史や人物そのものを変えていったのかを説いている。

続きを読む

読書ノート

2021/6/8

日本車は生き残れるか

本書は、欧米に比べて日本がいかにダメなのかを語るのが目的ではない。日本の自動車産業も一刻も早く、モノづくり以上の付加価値を生み出すことで、「日本経済の大黒柱」であり続けて欲しいと願っている良書である。

続きを読む

読書ノート

2021/8/21

完全教祖マニュアル

新興宗教の教祖になれば夢は全て叶う。本書を読むだけで遥かに有利なスタートを切れる。本書を信じ、本書の指針のままに行動してください。本書を信じるのです。本書を信じなさい。本書を信じれば救われます。

続きを読む

読書ノート

2021/9/20

13歳のきみと、戦国時代の「戦」の話をしよう。

“終わりの見えない戦乱の世”も、まさに先の見えない時代であった。そんな時代を生き抜いた武将たちのエピソードが、参考にならないわけがない。歴史は、失敗も成功もバズりも炎上も書いてある、生きた教科書である。

続きを読む

 

 

 

 

 

 

 

-読書ノート
-,

© 2023 Fukurogiブログ Powered by AFFINGER5