75、ベイズ統計


統計や確率を誤解していた。
というより統計や確率には、共有の言葉があり、それが統計的概念と確率的概念をごっちゃにしてしまうのだろう。

その最たる事が分布である。

分布で一番、有名なのは正規分布であるが、正規分布というのは、どちらかというと確率分布で有効なのであって、世の中に正規分布になる事象というのは、稀である。
ところが、あたかも世の中の全ての事象は、正規分布になるような記述をしている教科書さえある。
この様な間違った指導が、確率分布に対する深刻な誤解を生みだし、統計や確率嫌いを生み出し原因ともなっている。

分布について語る前に、まず確率とは何かを明らかにする必要がある。

確率とは、任意の事象が起こりうるすべての事象に対して起こりうる割合を言う。
つまり、確率を明らかにするためには、起こりうる総ての事象を何らかの形で想定しなければ計算できない事を意味している。
この起こりうる総ての事象の分散を表しているのが、確率分布である。

人が生まれた数だけ死ぬ確率が想定されるのである。それが確率分布である。
人が生まれた数が全体の確率分布を表している。確率の個数は、人が生まれた数を表す。
何に対する確率なのか。何を全体とした確率なのかは、確率分布によって規定されるのである。

確率を成り立たせているのは、統計的前提である。統計的前提というのは、確率分布を指して言う。確率分布をどう想定するかを意味しているのである。つまり、確率は、確率分布を何に基づいて設定するかによって制約されるのである。

確率は、確率分布を想定することによって成り立っている。逆にいえば、確率分布を想定となければ成り立たないのである。
確率分布を想定するためには、確率の背後に存在するであろう母集団を推定する必要がある。その母集団が確率分布なのである。

確率分布を想定するのに必要とされる手法の一つが統計的手法である。
気を付けてほしいのは、統計的手法がすべてではない。ただ、統計的概念は必須の事である。故に、統計と確率は切っても切れない関係にある。

統計的な手段や概念を基礎としていても、統計と確率とでは概念も目的も違う。
統計も確率は、合目的的手段であるから、目的が違うという事は、統計と確率は根本を違えている事を意味する。

一番の違いは、統計と確率の前提の違いである。統計は、あくまでも現実の上に立脚しているのに対して確率は、仮定の上に立脚していると言う点である。

統計の分布は現実の物や事に基づいているのに対して、確率分布は想定の上に成り立っている。

その点が間違いの本なのである。
そして、あたかも確率も統計も正規分布ありきの発想にとらわれがちとなる。
正規分布は現実に一番多く存在する分布なんて書いてある教科書すらある。しかし、正規分布している事象というのにめったにお目にかかる事はない。
正規分布というのはあくまでも確率分布であって仮想的な分布であり、確率を分析する為の基準として都合の良い分布、数学的に扱いやすい分布だというだけである。正規分布は、数学的にきれいな形をしているのである。

現実に現れる分布は、漠然としたもの、とらえどころのない、得体のしれない、混沌としたものである。きれいな形をしている事の方が稀である。現実の分布は、雑然として何の規則性もないように見える。

正規分布は、一つの想定された形なのである。現実ではない。正規分布に基づいた事というのは、現実には稀である。
正規分布に基づいて対象を分析した方が据わりがいいという事である。
正規分布も「大数の法則」の上に成り立った仮定である事を忘れてはならない。「大数の法則」も一種の信仰である。成るから成るのである。

確率分布の難しさ、怪しさはそれが仮想であるという事に由来する。
それを学校ではあたかも現実であるかのように教える。世の中の出来事はすべての分布は正規分布に還元できるような教え方をする。この様な事は迷信の一つである。

科学は、客観的、相対的認識の上に成り立っているという誤解が一般に蔓延している。しかし、科学の前提が相対であり、仮定である事を忘れてはならない。つまり、客観的、絶対的真理なんて前提としていないのである。
つまり、主観や相対を前提とするから科学は成り立っている。科学が客観的とし、絶対とするのは事実である。人間の認識を指しているわけではない。

一般に確率を教育しようとした際、平均、偏差、分散等から確率を教え始めようとする。平均、偏差、分散等から確率を教え始めようとするのは、頭に正規分布ありきという発想があるからである。
平均や偏差、分散は、正規分布を前提として考えると、確率を教えるのに都合がいいという理由によっている。なぜならば、正規分布は、平均からの偏差によって分布を構成するからである。ゆえに、偏差の分布は、正規分布に近づく。
正規分布によって平均を中心とした偏差や分布を考えるうえで、正規分布は都合がいい。しかし、それは、確率分布が特定されている場合を除くと逆に都合が悪くなる。一般に事象が正規分布に忠実に分布するような事は稀だからである。

子供が最初に確率的発想に出会う、ともするとそれが統計との出会いにもなるが、それは成績の偏差値であろう。
そして、偏差値が統計や確率の概念に結び付いてしまう。
なぜ、成績の位置づけとして偏差値を使うのかというと、成績の順位だけでは、位置づけが難しく、また当人に与える影響も少なす。順位だけでは、子供に実感を持たせるのが難しいからであろう。しかし、偏差値がすべてであるような統計や確率に対する認識を最初に持たせられるのは、子供たちにとっても教える側にとっても不幸である。

正規分布というのは数学的な美学である。しかも「大数の法則」を前提としている。

確率を習い始めるとサイコロの話が引き合いに出される。サイコロの話は、とっつきは良いが、それが確率の話を代表しているかというと少しずれといると思う。
確率は、賭け事の延長線上で発達してきたのは事実である。しかし、確率の本質は意思決定にある。日常的なものごとの判断や重大な局面岐路にあたってどの様な判断をすべきか、そこに、確率の真骨頂がある。そうなると、確率の本筋を賭け事や投機に求めるのは間違いである。そして、それが確率に対して誤解を招く原因でもある。

確率は数当てではない。確率で学ぶべき事は、ごく日常的で常識的な問題の判断である。確率は数当てではない。確率は、意思決定を補助する事である。確率の本質は、現実にあるのである。だからこそ確率の精度が求められるのである。地震はいつ起こるのか。どうすれば事故を防げるのか。病気にかかる確率は。どうしたら病気にかからずに済むのか。不良品の数を減らすためにはどうしたらいいのか。何を売ったらいいのか。いくらで売ればいいのか。統計や確率で扱う事は、本来、切実な事なのである。
確率で学ぶべき事は、ごく日常的で常識的な問題の判断である。
なのに身近で切実な問題から統計や確率を教えようとはしない。生徒の身長とか、サイコロの出目の確率から教え始めるのである。だから統計や確率は自分が生きていくうえで大切な事なんて思わない。ただ目の前の試験を通るためにだけ確率や統計を学ぼうとするのである。

正規分布は、仮想される確率分布の一つに過ぎない。ただ、いろいろな事を分析したり、説明するのに正規分布は都合がいいというだけなのである。ただ、この点は本質をついている。基準としては最適なのである。この点に正規分布の真骨頂がある。
ただ忘れてならないのは、正規分布は絶対ではないし、無欠でもない。それなりの弱点欠点を持っている。あくまでも正規分布は確率分布の一つなのである。

確率分布の原則は、漏れなく、重複なく、総てである。確率分布を想定するためには乱数が下敷きになる。おきりうることを漏れなく、重複なく、総て想定する必要がある。だから乱数は難しい。

確率に時間的変異を織り込んだのが、ベイズ統計である。
確率や統計に時間軸を導入することで、統計や確率は、ダイナミックに変化した。

確率分布の時間的変異を想定すると、事前確率と事後確率が重要となる。
そして、最尤分布をどうするかがカギとなる。
要するに形である。

事前確率というのは、事前の予測に基づく確率である。事前確率は、当然、事前の推定する確率分布に基づいている。そして、事前の予測に対する結果によって事後の確率分布の想定を変更する。そうやって確率分布の精度を高めていくのである。

これは、将棋等のゲームでは、自然に行われている手法である。相手の動きを予測して自分の手を決める。その自分の指し手に対する相手の指し手を見てそれまでの推測を変え次の一手を決める。次の指し手を決める為には、最尤推定を行うのである。

事前確率が設定されれば事前分布が問題となる。何らかの結論が出て事後確率が明らかになったら、事後分布を推定する必要が生じる。大切なのは分布の形である。

この様な発想は、従前の確率分布では想定外の事である。
従前の統計では、確率分布を変更することはない。最初に設定された確率分布の中で頻度の高いものから手を選んでいく。
だから基本的に正規分布ありきなのである。

ベイズ統計では、時間的変異を繰り返す事によって結果的に正規分布に接近していく。つまり、正規分布は結果であって原因ではない。
時間的変異を想定しているからこそ、正規分布が重要となる。しかし、だからと言って正規分布ありきなのではない。正規分布も分布の形の一つに過ぎないのである。
今の学校の成績は、偏差値をもって表現される。長い間偏差値にならされるとあたかも偏差値が現実の分布を表しているように錯覚する。しかし、偏差値は、あくまでも仮定の上に成り立っている。確率である。記述統計上の事ではない。つまり、実体的に正規分布が存在するわけではない。あくまでも経験的に正規分布に近づいていくという事が前提なのである。だから、「大数の法則」が前提となる。

確率分布というのはあくまでも想定である。何か確定的な正規分布になる統計があるのではなく。正規分布を想定しているのに過ぎない。正規分布は、確率分布の分散や要素の位置を想定するのに都合がいいから設定しているのに過ぎない。
正規分布はイデアのようなものであり、思想だと考えてもいい。黄金比のようなものである。

ベイズだから主観的で頻度主義は客観的だという訳ではない。どちらもある意味で主観的である。要は、何に基づいてるかの問題である。
何に対して何がどれくらいの割合で起こるかの指標が確率である。前提となる確率分布の全体をどの様に設定するかが、ベイズ統計か、頻度主義統計課の違いである。

十分に統計データがある場合は、頻度分析は有効である。頻度分析は、時間が陰に作用しているのである。

時間的変化は、時系列として現れる。
時間的変化は、数列として表現することが可能である。

また、確率分布は集合体として想定される。ベイズは、過程に応じてこの確率分布の形が変異する。過程に応じて変異するのは、前提条件が変化する事を想定するからである。

それに対して従前の確立、頻度主義的確率は、確率分布を一定として想定する。すなわち、確率分布はあらかじめ与えられている。所与の事象として想定するのである。
ベイズにも頻度主義にも一長一短がある。ただ、これまでの数学と違うのは、いずれも想定される事象を絶対的、確実な事としていない点である。ベイズ統計にせよ、頻度主義にせよ、結果は不確かなのである。

ベイズ統計を理解するためには、数表を理解する必要がある。
数表は、行列であり、数列の組み合わせを意味する。

従来の考え方では、数列を一筋の数の並びとして認識する。
しかし、数列は一筋の数の集合、並びではない。

数表にとって数の性格は重要な意味を持つ。同時に数の並び方は、数の性格に重要な働きをしている。
数を性格づける尺度には、一般と特殊、内と外(自他、自動と他動)、主体と客観、全体と部分、汎用と個別、固定と変動(定数と変数)、独立と従属(独立と相関、原因と結果)、連続と不連続、規則的と不規則、収束と発散がある。
この様な数の性格が経済や社会の構造を明らかにするために重要な役割を果たし始めている。

統計や確率を支配しているのは、数の性格である。故に、統計や確率を学ぶ時、数論や集合論、群論が必須になるのである。




確率と統計


       

このホームページはリンク・フリーです
ページの著作権は全て制作者の小谷野敬一郎に属しますので、一切の無断転載を禁じます。
The Copyright of these webpages including all the tables, figures and pictures belongs the author, Keiichirou Koyano.Don't reproduce any copyright withiout permission of the author.Thanks.

Copyright(C) 2017.7.18 Keiichirou Koyano