76、統計とは(統計を考える)


確率・統計の今を考える



確率・統計を難しくしてしまっているのは、出鱈目な教育が横行しているからである。
第一に、統計と確率の働きや目的の違いが不明瞭だという事である。第二に、一般に使われている分布と確率分布の意味の区分が不明瞭だという事である。第三に、正規分布に対する正しい認識をせずに、正規分布を必要以上に重視している事である。
確率・統計の枠組みから組み立てなおす必要がある。


確率・統計は合目的的な事である。


確率・統計は、合目的的な事象である。
確率・統計は、合目的的な事象であるから、目的に応じた枠組みが必要となる。

確率・統計の最終的な目的は、意思決定のための裏付け、根拠を与える事にある。
意思決定をするためには、将来を予測したり、何らかの法則を見出したり、幾つかの事柄から特定の事柄を選んだりする必要がある。
そして、将来を予測したり、法則を仮定したり、選別をする際、何らかの裏付けや根拠を示す必要がある。
その裏付けや根拠を保証するのが確率や統計の目的である。

統計と確率は、全体と部分、部分と部分の関係を明らかにする事なのである。
故に、何を全体とし、何を部分とするかそれを明確にする必要がある。
それが統計や確率が成り立つ為の前提条件となる。
何を全体とし、何を部分とするかは、統計や確率によって何を明らかにしたいかによって決まる。
つまり、何を全体とし、何を部分とするかは、目的によって決まるのである。


確率・統計は、歴史的な背景が重要な意義を持つ。


確率や統計が合目的的な事だとすると確率や統計が確立された歴史的背景が重要となる。
統計は、長い歴史があると言われている。
統計の語源がラテン語の「status」(国家・状態)だと言われるように、統計は、為政者の徴税や兵役のための資料の作成というところから始まっていると言われる。
それに対して、確率は若い学問である。しかも、その動機は賭け事だと言われる。
もう一つ忘れてはならないのは、近代統計が科学の発達に伴って成立したと言う点である。
これらの事は、統計と確率の性格の違いを端的に表している。

統計が実態を知るという事に重点があり、確率は、未来を予測すると言う点に重点がある。そして、これらの点をの上に近代統計は、実証のための手段として発達してきたのである。第一に、対象の実状、実態を知る。第二に、不確かな現実から未来を予測する。第三に、実験や観測に基づいて導き出された仮説を実証するというのが確率統計の目的であり、それが統計や確率の枠組みの前提となるのである。
そして、これらに共通する目的が意思決定なのである。つまり、確率、統計は意思決定のための手段だと言える。

要するに、統計や確率の目的は、実態を明らかにして、将来を予測し、適切な判断を下す事にある。

確率や統計の目的を、それぞれの主体から見た場合、行政的目的、実務的目的、科学的目的に分類する事が出来る。確率や統計の目的は、その性格上、実利的動機に基づくものである。つまり、行政や経済に関わるところから統計は発達してきた。その為に、母集団のとなるは、主として、社会集団である。近年に入ると遺伝学や疫学研究の基礎資料として統計は用いられるようになり、自然現象をも含まれるようになってきた。また、確率は、その性格上経済的事象に重きを置いている。
これらが、行政的目的、科学的目的、実務的目的の基となっている。



確率や統計が目指すところ


まず何が知りたいかを明らかにすることである。
統計は目的をもって調査、あるいは、観察された数値によって成り立っている。
何の意図もなく集められた数値ではない。
まず何を知りたかったかが問題なのである。

留意しなければならないのは、統計は、何らかの調査や観察、実験を前提として成り立っていると言う点である。
何らかの調査や観察、実験を前提としているという事は、何らかの目的を持っているという事である。
また、確率は、確率を計算するための目的がなければ成り立たない。
いずれにしても確率・統計は合目的的行為である。故に、目的を確認しなければ、統計・確率の本旨は理解できない。

人々が、確率や統計に何を求めているのか。何を期待しているのかを知る事である。
それも理解しないままに、ただデータを収集している者もいる。
しかし、それは一種の偏執狂の類である。情報を集めるからには何かの目的があるはずである。
時々、学問は、無目的、無用の用だなんて勘違いしている者がいるが、世の中の役に立たないことをいくら研究しても時間の無駄である。

確かに、純粋数学は、必ずしも直接的に社会や世の中の役に立たない事もあるかもしれない。
しかし、確率や統計は違う。確率や統計というのは、人々の欲求や期待に直接結びついている。
病気だの不景気だの災害だのといった人間にとって災いをもたらす事を事前に予知し、あるいは、予測してそれに対処するための手段として役立つ事が確率や統計は大いに期待されている。
知りたいのは、災いや成功の根本にある事である。結果ではなく、原因を知りたいのである。
結果を予測するためにその結果をもたらした原因を明らかにし、そのうえで対策を建てられるようにするのが統計や確率の使命なのである。

突き詰めると確率や統計でまず明らかにしたいのは、関係であり、働きである。
最初に相関関係を知り、その中から因果関係を見出し、規則や法則を導き出す。その上で全体と部分の位置と運動と関係を明らかにして全体像を再構築する。

結局、確率や統計の目的を突き詰めてみると因果関係が知る事なのである。
何が原因でどんな結果になるのか。
現在は、必ずしも因果関係にこだわらずに相関関係が明らかになればいいとされている。
しかし、そうはいっても根本には因果関係を明らかにしたいという動機が働いているのである。

確率や統計が目指すところは、間違いのない決断である。間違いを犯さないためには、因果関係を明らかにしたい。それが確率や統計の目指すところなのであろう。



確率・統計の要はアルゴリズムである。


確率や統計のロジック、論理展開は、予め定められてはいない。
確率や統計は、一定の論理に縛られているわけではない。確率や統計は、目的によって自分で論理の手続き、手順を設定しなければならない。目的は、自分で定めなければならない。

確率・統計の道筋は、目的によって自分でつけなければならない。その道筋がアルゴリズムである。
故に、道筋を理解しなければ、確率や統計によって出された値の意味を理解することはできない。
何を求め、どこへ行こうとしているのかを最初に明らかにしておかないとすぐに道に迷う事になる。
確率や統計を推し進めるためには、地図を描く必要があるのである。

確率や統計で重要となるのは、アルゴリズムであり、過程である。過程とは、道筋である。

過程には、始点と終点がある。
道筋を明らかにする。道筋をつけるという場合、始点と終点を明確にする必要がある。
確率・統計の始点は仮定、仮説である。仮定、仮説を明確にしなければ統計や確率は、始まらない。
統計や確率は任意に基づいた行為なのである。

確率や統計を成立させるための前提は、母集団の推定である。つまり、確率や統計の当座の目的は母集団の推定にある。
ただ、母集団の意味が統計と確率では、明確に違う。
統計上の母集団は、何らかの調査や実験に基づく実際的、実体的な集合である。それに対して確率における母集団は仮定に基づいている。

確率や統計のアルゴリズムは、目的に応じて変化する。目的地に応じて道筋や手段が違うように確率や統計の道筋や手段も目標とするところによって違ってくるのである。

確率・統計で重要なのは、予め筋道を設定し、明らかにしておく事なのである。


確率・統計を活用すべき時は、はじめに目的を明らかにする。


まず確率や統計を使う場合は、目的を明確にすべきである。

何のために、体温だの、血圧だの、血糖値だの、コレステロール値だのを調べるのか。健康診断のためなのか、それとも何らかの症状が出たのでその症状の原因となる病気を明らかにする為なのか、それを明確にしなければ、体温や血圧を測る意味はないし、結果を活用する事もできない。個人の体温や血圧も統計の一種である。
だから、統計や確率を学ぶ時は、なぜ、何を明らかにしようとしているのか、その目的を明確にする必要がある。
目的を明らかにしないで、平均値がどうの、中央値がどうの、偏差値がどうの、分布がどうのと教えたところで、教わる者は意味がわからない。

また、確率や統計を学習させる際は、身近で切実な問題を取り上げるべきなのである。
成績の偏差値などは、最も、切実な問題であるはずなのに、偏差値だけが独り歩きし、学生の成績の位置づけ、序列付け、進学の際の基礎資料としか使われていないのは残念な事である。
偏差値を用いるのならば、適性や潜在的能力、学習の為の指標といった学生の可能性を引き出すための資料として使われるのならば統計本来の力をより発揮する事が出来るように思う。
確率や統計というのは、目的をあからさまにする。結局、現在の教育の目的は、試験による学生の序列付けなのである。
もし、人材の育成というのならば、調査項目や調査手段が違ったものになる。
現に、多くの国では試験の結果だけでなく、多様な要素を評価システムの中に織り込んでいる。

学生が偏差値の事で問題とするのは、自分がどの学校に入れるかがわかればいいので、結局、偏差値の意味も解らないまま、数字に踊らされているだけなのである。偏差値によって人生を左右されるというのに、統計や確率の事を学んでいるわけではない。それは、学生が偏差値の目的が学生の序列を決める事だと考えているからである。

教育の目的を明らかにしない限り、統計を正しく活用することはできない。本来の目的を逸脱したところでデータが活用され、教育本来の目的を見失わせてしまう。そして、偏差値が独り歩きしだし、教育の本質まで歪める結果を招くのである。

結局、現代の教育は、試験のための教育になっている。試験は本来、データを集めるための手段なのである。手段が目的を歪め支配する典型的な事例になっている。本末の転倒である。試験制度に囚われている限り、いくらゆとり教育などと目先を変えても教育本来の目的を取り戻す事はできない。



確率・統計に求められる事


確率や統計の最終的な目的は、与えられた情報に基づいて適切な判断をする事にある。
しかし、確率や統計の直接的な目的は別にある。
統計や確率は、決断に対する情報、資料を提供する事にあり、決断自体は、意思決定者がする。

つまり、統計や確率の目的は、意思決定に必要な資料を提供する事である。
では、意思決定に必要とされる資料にはどのような要件があるのか、その要件が統計や確率の目的となる。

統計や確率によって結論を導き出したからと言って必ず勝負に勝てるとは限らない。
間違いを犯さないと断言できない。災害を防げるとも約束できない。
統計や確率は、資料を提供しているのに過ぎないのである。
だから、何事も百パーセントという訳ではない。

統計や確率に求められることは、第一に、全体を構成する要素、部分を割り出すことである。
第二に、全体を構成する要素、部分の割合を導き出す。
第三に、要素、部分から全体を推定する。
第四に、変化の様相を明らかにする。
第五に、与えられた情報から起こりうる結果を予測する。
第六に、起こりうる全ての事象に対し、特定の事象が起こる割合を導き出す。
第七に、表れた事象から因果関係、法則を明らかにする。
第八に、結果から仮説の信憑性を立証する等である。

そして、これらの要件を実現するためには、その根拠となる母集団を特定する作業から始めなければならない。
全体とか、起こりうるすべての事象の分布というのも母集団の一つである。

ただし、確率や統計は、あくまでも資料を提供する事にとどまり。
最終的に判断するのは、人である。


母集団を導き出す


母集団は、統計や確率の根拠となる集合である。
母集団は、合目的的集合である。母集団は、目的によって規制される。

母集団は、絶対的な集団でもないし、唯一の集団でもない。
母集団は、目的に応じて設定される集団なのである。

何を目的として統計を活用するかによって母集団の性格も変わる。
母集団の性格が変われば母集団の導き方も変わる。
母集団は一律一様ではない。

母集団は、何らかの全体を表す集合である。
母集団は、調査や観察、実験などによって導き出されるものがある。また、標本から、部分から推定される場合もある。仮定・仮想される場合もある。母集団は、導き出される手段によっても性格が異なる。

競馬の勝ち馬を予測する場合の母集団と、大統領選挙の当選者を予測するための母集団と、テレビの視聴率を推定するための母集団と、経済の成長率を予測するための母集団と、薬の効果を検証するための母集団とは明らかに違う。

確率や統計の働きから見て、母集団の設定の仕方や母集団が成立する前提条件に重要な意味がある。
確率や統計は母集団に大きく制約を受けている。母集団が設定されれば、確率や統計の目的はほぼ達成されたともいえる。
そうなると、確率も統計も母集団を推定する事に最終的な目的があるとさえいえる。

また、確率は、まず確率分布の基となる母集団を想定する事に始まる。
母集団が想定されていなければ確率を計算する事が出来ないからである。
確率は、母集団に対する分布に基づくからである。
逆にいえば母集団を想定することで基本的な要件は満たされるともいえる。

記述統計では、全数調査によって母集団を確定する場合もある。
ただ、標本から母集団を導き出すよりも全数調査の方が優れているとは言い切れない。
また、技術的、時間的、物理的に不可能であったり、費用対効果から見て無駄な場合もある。
要するに肝心なのは目的である。
いずれにしても母集団は基数を構成する要素である。

そして、確率・統計の中で母集団の役割と位置づけが重要になる。
母集団が全体を表すのか、分布を表すのかは、統計や確率が何を目的とし、何を表しているのかによって決まる。
母集団とは、原因や資源となる集団である。
母集団の性格は、実態調査・観察によるのか、実験によるのか、推測によるのか、仮定によるのかによっても変わってくる。


母集団の役割


母集団は、統計や確率の基礎となる集団である。
つまり、母集団の性格や形が統計や確率の働きを制約している。
母集団の設定を間違えると統計や確率の精度は落ちる。
ある意味で母集団をどの様に設定するかが、統計や確率の成否を決定づけると言える。

母集団は、目的や前提条件に応じて想定される。目的や前提条件によって母集団の想定の仕方は違ってくる。
故に、統計や確率は合目的的な手段だと言われるのである。
母集団が想定されたら、次に、目的や前提条件に応じて母集団を分析する。

母集団は、前提条件によって違ってくる。
第一に、母集団が何によって構築されたかである。第二に、母集団を構成するにあたっての前提条件である。第三に母集団の状態である。
母集団が何によって構築されたか、そのカギを握るのは、母集団を構築するための手段である。つまり、何によって母集団は構築されたかである。調査、観察、実験によって構築されたのか、部分から導き出されたのか、理論的に導き出されたものなのか、手段が重要な意味を持つのである。
母集団を構築する手段としては、実体的手段と観念的手段の二つがある。
実体的手段には、全数調査と標本に基づくものがある。そして、導き出された手段によって母集団の性格にも違いが生じるのである。

また、何を前提として構築された母集団なのかによっても母集団に性格に差が生じる。
無風状態でとられた記録と強風の中でとられた記録では違いが出る。
早朝の通行量と昼間の通行量には違いがある。この様に時間帯によっても違いが生じる。
無記名でとせれた記録と記名でとられた記録とでは違いが生じる。
電話を使った調査か、インターネットによる調査か、手紙によるのか、面接によるのかによっても差が出る。
何らかの基準に基づくのか、無作為なのかによっても違ってくる。
また、前提条件で一番重要となるのは、データの数である。
前提条件によっては決定的な差が生じる危険性がある事象もある。

母集団の状態によっても結果に違いがでる。母集団の状態とは、均質であるか、偏りがあるか、離散分布であるか、連続分布であるか、どの様な分布をしているのか等である。
この様な前提条件によって統計や確率に微妙な差が生じるのである。

母集団の性格や働きを明らかにするためには、何らかの基準となる数字を決めなければならない。基準となる数字を母数、パラメータという。
母数で代表的な平均値や中央値、頻度といった代表値である。

確率的に値が決まる変数を確率変数という。

段階ごとに母集団を割り出す


母集団は合目的的集団である。故に、目的に応じて母集団は選択される。
統計分析をする過程で母集団は一つとは限らない。段階、目的に応じて母集団は設定される。

計算機や計測器の発達によってビックデータの処理が容易となり、全数調査も可能となった。
ただ勘違いしてはならないのは、全数調査がいいとは限らないのである。
全数調査は、基礎データを分析する際には有効でも、将来を予測したり、検定したり、市場調査をしたり、薬効を検証したりする際には、必ずしも有効だとは限らない。
問題は、統計や確率から何を導き出したいかなのである。
事実を事実として単に受け入れる際には全数調査は意味を持つ。しかし、表面の後ろに隠された事象を明らかにしようとした場合は、全数よりも標本を基にした方がより精度が高まる場合もあるのである。

まず事実を正しく認識し、その背後にある全体を把握して、そこにある法則性や規則性を割り出して予測や選別、即ち、意思決定の根拠とする。
これらの段階ごとに必要とされる母集団が変化する。我々は、与えられた情報に基づいて何を明らかにしようとしているのか、分析しようとしているのかによって根拠となる母集団も変えていく必要がある。

統計上の母集団というのは、あくまでも、調査や実験に基づく実体のある集合を指す。つまり、現実である。実際の数字に基づいて対象を分析したり、因果関係を取り扱うのが記述統計である。

統計によって導き出された法則や因果関係を参考にして将来生起する事象を予測するのが確率である。

故に、確率分布で前提となるのが「大数の法則」である。



分布を表す尺度


分布や分散を導き出すのは、合目的的な事である。分布や分散の意味は、一律ではなく、目的によって変わる。故に、分散や分布の定義は、要件定義によってなされる必要がある。

数学的行為は、本来合目的的な行為である。数学が進化するにつれて目的の部分が失われ、あたかも、数学は数学それ自体によって生まれ発展してきたかのごとく、錯覚している。それは数学者の思い上がりである。数学においては、目的や動機が重要な働き、意味を持っている。

例えば正規分布である。実測に基づく正規分布と理論に基づく確率分布とでは本質が違う。実測に基づいて正規分布はめったにない。

どの様な目的で、何を基準として、何の分布を、どの様な分散を用いて、何を調べようとしているのか。
それによって分布や分散の定義が変わる。

例えば患者の病気を診断する目的で、一定期間の血圧の測定値から、指標に基づいて、血圧の状態から病名を明らかにする等である。この様な場合も目的は明確でなければ為すべき事は定まらない、

母集団で問題とされるのは形である。
母集団は、形によって性格付けがされるからである。
母集団の形を形成するのは分布である。

母集団を性格づけているのは、分布である。
分布は、母集団を前提として成り立っている。

何らかの理由がない限り、総ての可能性は、均等であるというのが「理由不十分の原則」である。

分布は、観察や調査、実験によって現れたものと任意に想定されるものがある。
観察や調査による分布と想定された分布は異質なものである。ただ、分布に変わりはない。

正規分布や二項分布は、面によって分布を表している。面によって表される分布だけでなく、点や線によって表される分布もある。また、多次元の分布もある。

分布を表す尺度には、平均値、頻度、中央値、最大値、最小値、範囲、偏差、分散等がある。
また、尖度、歪度等もある。
これらは、分布の形に係る概念である。この点が重要なのである。
分布をどの様に設定するかによって確率や統計に対する見方も変わってくる。

特に、確率分布には決まった形はない。確率を活用する者がどのような目的で何の確率を計算したいかによって選択する確率分布も変わってくるのである。

故に、確率分布は任意に設定される。





正規分布は基準となる分布である。


正規分布というのは、母集団の基準となる形を持っている。なぜならば、正規分布は、平均と分散を基にして設定された形だからである。
分布の形を表す基準として平均値、中央値、頻度、偏差値などがある。
正規分布は平均値、中央値、頻度が一体となっており、これが重要な意味を持っている。

正規分布になる現象というのは一般には稀である。滅多にない。
ところが、一般の現象に正規分布が多くあるとしている教科書すらある。
ただ、正規分布は実際の分布を測る基準としては極めて有効である。
また、確率分布においても正規分布を想定する事は一般に行われている。

記述統計でいう分布と確率分布との区分を付けずに記述統計の分布にも確率分布でも同じように有効だとする教科書が見受けられる。正規分布は万能なのではない。正規分布は特定の目的に活用すると有効なのである。
根拠もなく多くの入門書があたかも統計や確率のあらゆる現象の根底に正規分布があるかのような記述をしている。
そして、一般に正規分布になる現象が多くあると決めつける。
そのうえで、いきなりサイコロの話になる。これでは、初心者は、記述統計における分布と確率分布との区別がつかなくなる。それが確率や統計を一般にわかりにくくしている最大の原因である。

日本語で正規分布と訳されている事が誤解の原因にもなっている。正規分布の正規は、英語では、normalとされる。normalという意味には、正規という以外に、標準の、規定の、正常の、常態の、一般並みの、平均の、正常な発達をしている、垂直のという意味がある。


正規分布は、平均と偏差値を基に想定された分布である。



確率・統計で最終的に要求されるのは、分析結果の信憑性を保証する事である。その為に検定が必要となる。
そして、検定で力を発揮するのが正規分布である。検定においてなぜ、正規分布が威力を発揮するのかというと、標準偏差は、正規分布を基にして想定されているからである。つまり、平均と偏差によって想定されているのが正規分布であり、正規分布を基にした方が他の分布を基にした場合より、個々のデータの位置づけや検定をしやすいからである。

個々のデータの位置づけという観点からすると偏差値は、きわめて有効である。有効だから、全国の学生の位置づけに使われている。その結果偏差値が独り歩きし、統計に対する偏見の基となっている。
偏差値というのは、特定の学業の結果を全国的な集団の中に位置付けているだけで、必ずしも能力や人格、意欲まで反映されているとは限らない。しかし、偏差値によって成績に序列をつけるのは容易くわかりやすく説得力があるというだけである。
この様な偏差値の根底に正規分布が想定されているのである。

正規分布は、平均と偏差値の関係によって設定された分布なのである。

あくまでも、正規分布は基準形なのである。その証拠に正規分布に当てはまらない事象は、正規分布を基準として尖度や歪度が測定される。

分布は、正規分布だけに限られているわけではない。
平均を表す分布として二項分布やt分布などがある。分散を表す分布としては、F分布がある。サンプリングを表す分布としては、ベルヌーイ分布、ポワソン分布等がある。


分散は、母集団の性格を測る尺度である。


分散は、母集団を構成する要素の散らばり具合を言う。分散を表す尺度としては偏差がある。
偏差とは、代表値から母集団を構成する要素への距離を意味する。代表値で一般的なのは、平均値であり。平均との距離を偏差という。分散は、偏差によって平均値の距離に還元する事で、平準化される。

分散の分布は、偏差によって分布が平準化されると中心軸が平均値と中央値と最頻値が一致する。
なぜ、正規分布なのかというと正規分布が平均値と分散によって設定されているからである。
特に標準偏差は、正規分布を前提として考えられている概念であるから、標準偏差を基準にして分析した場合、必然的に正規分布に近似することになる。正規分布というのは近似値に基づいている。
実測値が正規分布する事は稀である。

ただ、実測値を無理やり正規分布に当てはめるのではなく、実測値の歪みや偏りを、偏差値に基づいて導き出された正規分布と比較した方が母集合の性格を明らかにできる。
正規分布というのは基準として有効なのである。全てを正規分布に当てはめようとすると統計や確率の真意は失われる。



検定とは



推定統計や確率統計は、推測値、予測値である。問題はその妥当性である。つまり、信憑性が問題なのである。どれくらい出された結果が信用できるのかを数値に表そうというのが検定である。

検定には、平均や分散の誤差、性質の違いがあるか、また相関関係の有無などの目的があり、それによって母集団の設定の仕方、範囲の特定、分析の手法を選定していく。まず、何をどの様な目的で検証しようとしているかを確認する事である。

検定の正当性を評価するためには、目的や前提条件、情報の収集方法等を確認する事は必須な事である。

検定とは、任意の仮説に基づいて出された結論の尤もらしさ、信憑度を判定する事である。

検定とは何かを一概に規定する事はできない。なぜならば、検定とは、統計や確率の目的によって制約を受けているからである。
検定は合目的的な行為である。
要は、検定するというからには、何を検定するかが問題なのである。何を検定するかによって検定との基となる母集団をどの様に設定するか、検定の手段をどの様な事にするのか、範囲をどの様に設定するかが決まる。

検定でできる事には、次のような事がある。
対応あるデータの場合、二群の平均値に差があるかどうか。
対応のあるデータで、母集団の分散が等しい場合で、二群の平均値に差があるかどうか。
対応のないデータで、母集団の分散が等しくない場合で、二群の平均値に差があるかどうか。
対応のないデータの場合で、三群以上の群間の平均値に差があるか。
二群の中央値に差があるかどうか。
両側検定で定で二群の分散に差があるかどうか。
片側検定で、二群の分散に差があるかどうか。
二つの属性が独立であるか、ないか。
母集団がある離散分布に従っているか。
二つの変量に関係があるか。
重回帰分析で回帰直線が適合しているか。
重回帰分析の係数の有効性等である。

検定は、一定の条件のもとに集められたデータの妥当性をデータの基となる母集団の有意性の範囲内で判定する。
母集団をどの様な範囲でどの様に設定するかによって左右されている。

統計・確率は、誤差の測定によって成り立っていると言える。
検定は、誤差の範囲を特定する事ともいえる。
問題は、何を以て基準とし、何をもって誤差とするかである。
どの様な分布を根拠にして、どの様な誤差をどの様に判定するのかが検定の正当性を規定している。



検定が成り立つ為には



統計の信憑性は、その根拠となるデータの信憑性によって保証されている。
いくら中途の手続きが厳格でも、前提となるデータがいい加減だったら最初から結果の信憑性はないのである。

まずデータの数や品質、母数、平均、分散、偏りから検定の前提となる分布が想定される。

データを活用する目的、データの量、データを収集するための手段、データの性格等によって母集団の性格や特性は変わる。
データの性格は、定性的データの集まりか、定量的データの集まりか等を意味する。

特定の地域や対象に絞ったアンケート調査か国勢調査のような大規模な調査か、工場生産におけるサンプリング調査なのか、速度計や高度計、温度計のような機械による記録に基づくのかによっても母集団の性格は変わってくるし、検定の仕方や信憑性にも差が生じる。つまり、データを集める手段によっても母集団の性格は違ってくる。
今日、測定装置や計測器等の技術革新によって大量のデータを自動的に収集処理する事が可能になった。この様な大量なデータを処理するための検定技術、手段は自ずから変わってくる。

目的によって集める対象や項目、データの量、データを集める期日、タイミング、データの収集の仕方、データの収集する領域、誰がデータを集めたか、データの分析手段なの度の妥当性を検証する必要がある。そのうえで検定は成り立つ。

例えば、五十人足らずの教室の成績を集めた場合と、一定の地域の学校の生徒の成績を集めた場合と、全数、全国の生徒全員の成績を集めた場合、また、理論的に設定した成績分布に基づく場合とでは自ずと母集団は違ってくるし、検定の仕方も違ってくる。

売上を予測する目的なのか、費用対効果を測定する目的なのか、損益分岐点を割り出す事が目的なのか、不正を暴くことが目的なのか、成績の悪化した原因を明らかにすることが目的なのか、同じ事でも目的によっても検定の仕方には違いが出てくる。
それを一意的に教えたり、捉えることはできない。

薬の効果を検証するのと、品質を一定に保つために検証するのと、テレビの視聴率を検証するのと、野球の成績を検証するのと、経済成長を検証するのと、遺伝を検証するのと、予算を検証するのとでは、検証方法も結果も評価も違って当然である。

確率だ統計だと一括りにすることはできない。


P値とは


検定をするためには、母集団を特定する必要がある。そのうえで母集団の中で有意性の範囲を画定しなければならない。
その範囲を画定する一指標がP値である。では、P値をいかに設定するか。それは任意である。
任意というのは、主観的に設定しろという事である。

ベイズ統計は、主観が入るから信用ならないというのは言いがかりである。
確率統計というのは、本来、主観的な事である。

P値が任意なら、有意性といったところで、主観から逃れられない。

確率や統計というのは、目的や妥当性の範囲で想定する事なのであり、それ故に、確率や統計の有用性が発揮される。
確率や統計をギスギスの枠に当てはめたら、確率や統計は用をなさなくなる。

いい加減と言えばいい加減だが、いい加減だからこそ確率や統計は意味があるのである。
それを代数や幾何の如く厳密な枠組みの中で捉えようとするから、統計や確率は理解できなくなるのである。

ある意味で統計や確率はいい加減でいいのである。

P値というのは、絶対的基準ではない。要するに妥当性の問題である。どの程度が信頼するに足りるか、言い換えるとどこから誤差の範囲に入るかを予め設定しているのに過ぎない。要するに足切りである。足切りをしないと際限がなくなり、なんでもよくなってしまうからである。
P値だけでなく、信頼期間であっても妥当だと思えば、構わないのである。
問題は、何を妥当とするかである。


検定の種類


検定には、検定の目的やデータの数等によっていくつかの種類がある。絶対的な検定というのはない。検定の仕方によって資料の評価も変わる。
この点も確率や統計を学ぶ時に錯覚を起こしやすいところである。極端な場合、指導者によっても差が出るところである。

母集団の分布などのモデルを前提とした検定をパラメトリック検定と言い、モデルを前提としない検定をノンパラメトリック検定という。

Z検定は、正規分布を基とした検定であり、データ数が30以上ある場合の平均を検定する目的で行われる。
F検定は、分散を検定する際に使われる。
T検定は、Z検定と同様、平均の検定を目的としている。データ数が少ない場合、Z検定では精度が落ちるので、Z検定に代わって使われる。

母集団が正規分布していない場合は、マン・ホイットニー検定を行う。この場合は、平均値ではなく、中央値の差を検定する。

分布の形の違いを検定するためには、カイ二乗検定を用います。独立性の検定ともいう。
独立性の検定をする場合は、期待値を設定しておく必要がある。
カイ二乗検定は、理論的に導き出された期待度数と観察などによって得られた観察度数との違いの検定する場合に用いられる検定である。いうなれば予実績管理に用いられるものである。

滅多に起こらない事を検定する手段は、ポアソン検定である。
また、離散分布か連続分布かによっても検定は変わってくる。

この様に、目的やデータの数によって検定のしかたは変わる。

また、時系列データや相関関係を測定する手法として回帰分析や重回帰分析等があり、T検定やF検定は、その際にも用いられるが、時間軸を伴わない場合の検定とは意味が違う。

この様に検定も一様ではない。検定も目的やデータの状態によって任意に選択する必要がある。
また、同じ用語が本質が違う検定にも用いられているために、実際に検定をする場合や評価を下す際に目的や前提を確認する必要がある。

薬効の検定、品質の検定、死亡率の検定、人口構成の検定、経済の成長率の検定、宝くじの検定、野球の勝率の検定、大統領選挙の結果に対する検定、競馬の結果の検定、試験の合否の検定、テレビの視聴率の検定等、総てを一律に扱う事はできない。
統計や確率の目的は千差万別。目的によって検定の意義もやり方も変わってくるのである。当然統計や確率の教え方も目的に応じて変えるべきなのである。

統計、確率は合目的的な行為なのである。検定もまた合目的的な行為である。
検定は、結果よりむしろ考え方の方がより重要な場合すらある。


統計とは



統計とは、集団的現象を調査、観察によって数字で表したものである。
集団的現象というのは、自然現象もあれば、社会現象もある。集団的現象というのは、何らかの全体と部分からなる集まりである。
集団的現象が数値の集まりだという事は、統計の基本は、集合だという事を意味している。

何を全体とし、何を部分、要素とし、何を明らかにした以下で統計の在り様は変わる。

統計を正しく理解するためには、なぜ、何の目的で、何が知りたくてデータを集めたのかを明らかにするところから始めなければならない。
意味もなく、目的も明らかにしないで統計の基礎的知識、用語を覚えさせても空しいだけである。

統計の根本は、調べる事と観察する事である。即ち、調査、観察が統計の前提となる。


統計の目的は、データの分析にある。


統計の目的とは、データの分析にある。
まず何の目的でデータを集めるのか、それを明確にすることである。

データの分析の目的が明らかであるから、データの集め方や分析の仕方が決まるのである。
何のために、データを分析するのかが明らかでなければ、どの様にしてどのようなデータを集めたらいいか確定することはではない。
何が知りたくてデータを集め分析するのかを明らかにしないままに、学校では、統計を教えようとしている。そこに学校教育の危うさである。何を知りたいかは、生徒の自由意志によるべきなのである。

子供たちは漫画やゲームのキャラクターについて、また、自分の関心のある事、自動車とか乗り物についてやたらに詳しい。これも統計なのである。そして、子供たちの関心の向くところにこそ統計の原点がある。知りたいことだから熱心にデータを集めるのである。

データの分析とは、全体と部分、部分と部分の関係を明らかにすることである。
全体を分析するとは、全体や部分の外形の変化、全体と部分の関係の変化、全体と部分の因果関係、全体と部分の相関関係などを明らかにすることである。何が何に対してどのような働きを及ぼしているのか、そして、それは全体に対してどのようなは影響を与えているのか。それを解明するのが統計分析である。

即ち、推移(時系列的データ)、構成比率、位置(順位、序列等)、対照(比較)、関係(相関、因果)を明らかにすることである。明らかにしたうえで、当初の目的とどう関わり合うかそれが問題なのである。全体と部分の関係、部分と部分の関係を明らかにするために、統計は基礎資料を提供する。肝心なのは、分析者が何を知りたいのかである。
この様な欲求に合わせてどの様なデータを収集しなければならないかが定まる。どの様なデータを集めなければならないのかが明らかになってはじめてデータを集める手段が決まる。闇雲にデータを集めればいいというのではない。統計とは合目的的な行為である。目的が定まらずにデータを集めても後処理が定まらないのである。
ただし、仮説は目的の基になる事を忘れてはならない。仮説を設定することでより目的は明確になる。

統計は、対象をあるがままに受け入れる事から始まる。
その上で平均や分散を明らかにする。
平均や分散の前提となるのが分布である。ゆえに、統計においては、分布は、現実に基づき、平均も分散も現実を反映したものになる。

統計は、あるがままの現実を受け入れてそれを数値化したものである。

その点が統計上の分布と確率分布の根本的違いである。
統計は、実態を現実を知る事に目的がある。確率は、未知なる事を明らかにするところに目的がある。
目的が違えば、同じ分布に対する認識も違ってくる。統計と確率では分布の意味も働きも違うのである。

統計の生のデータで正規分布が当てはまる事例は少ない。
正規分布は、平均と分散の関係を明らかにするうえで有効なのであり、ある程度、平均と分散が計算できる場合において有効である。データが限られている場合は、推定に基づく以外に手段はない。
故に、統計の生データを活用する際は、平均を計算したうえで二次加工する必要がある。
それが、標準正規分布であり、偏差値であり、中心極限定理である。

注意しなければならないのは、正規分布のような何らかの分布をモデル、基準とする場合は、「大数の法則」を前提としているという点である。


確率は繰り返される事象を前提としている。


確率は、同じが繰り返される事象や行為を前提として成り立っている。
それが事前や事後という発想につながるのである。
歴史は繰り返すという考え方があれば、歴史的事象も確率の範疇でとらえる事が可能となる。歴史から学べである。

この様に確率分布は、目的に応じて選択されるべきであり、是々非々の問題ではなく、妥当性の問題なのである。

そして、確率分布の基準となる分布が正規分布なのである。故に、正規分布に分布する事象、よくパチンコの山などが引き合いに出されるが実際に現象として現れる事は稀である。一番、一般に用いられるのが成績の順位付け、位置づけである。それがまた、混乱を招いている。子供たちは偏差値によって振り分けられるからである。そのために、妙なところで偏差値が一般化してしまっていて本来の偏差値の意味が正しく伝わっていない傾向がある。それが、統計嫌いや統計に対する偏見を生み出す原因となっているのならば、本末転倒である。

繰り返すという事は、何らかの周期性を前提としている事を意味する。


確率は、確率分布の上に成り立っている。


確率は、確率分布を想定することによって成り立っている。
逆にいえば、確率分布を想定しなければ成り立たないのである。

基本的に、確率の計算ができるのは、規則性、反復性、再現性がある、即ち、規則性があって繰り返して同じ、あるいは類似した事象が起こる、そして、同じ事象を再現できる事が将来起こる可能性を計算することが確率なのである。
これが確率の前提となる。
そして、確率は生起するであろうかとをすべて予測できることが成立条件でもある。
生起する可能性がある事の全ての分布が想定されていなければ、確率は成り立たない事を意味する。そのために、確率分布は想定されるのである。
確率分布はあくまでも想定であるが、確率分布は確率を制約することでもある。

確率や統計の目的は、将来を予測したり、法則を仮定したり、物事を選別したりする事であるが、この目的を実現するためには、いくつかの段階を経なければならない。


確率分布は、目的に応じて想定される。


確率分布は、目的に応じて任意に想定される。
確率分布は、正規分布だけではない。例えば、一様分布、二項分布、F分布、T分布、ベルヌーイ分布、ポアソン分布とか、指数分布とか、ガンマ分布、幾何分布などの分布がある。

ベイズ統計では、確率分布を事前分布、尤度、事後分布といった様に分布の在り方を事前、事中、事後と何を設定するかがカギを握のである。この様に事前、事中、事後に確率分布を設定するのは、予測の動的変化を想定しているからである。


大数の法則


確率分布は「大数の法則」を前提として成り立っている。
確率に対して間違った認識を持っている人が多くいる。確率というのは、不確かさ、曖昧さを前提として成り立っているという事である。しかし、数学を演繹的な事、確実な事と捉えている人は、確率のこの不確かさ、曖昧さが受け入れられないのである。
それで確率がわからなくなる。

サイコロを六回振ったらそのうち一回は、六の目が出るという事を確率は示しているわけではない。
数多く。究極的には、無限にサイコロを振ったら六の目が出る回数は総数の六分の一に近づくと仮定しているのである。しかも、これは経験的な事である。

確率というのは、この程度の曖昧さの上に成り立っている。
正規分布も「大数の法則」の上に成り立っている。正規分布ありきなのではない。
あくまでも正規分布に近くなるというだけであり、正規分布になると言っているわけではない。

分布というのは、目的や対象に応じて当て嵌まりやすいものを選択するというのが本旨である。
最初からこれでなければならないと決めつけられているわけではない。
確率というのは、曖昧さの上に成り立っているのである。

また、データの数や状況によって分布の形というのは特定できない場合がある。そのような場合は、正規分布にせよ「大数の法則」に基づいて設定されているといことが大前提となる。

確率自体が必ず起こるという事を想定しているのではなく仮想によるのである。

70%の確率で当たると言っても30%の人間はやっぱり外れるのである。
6分の一の確率と言ってもサイコロを6回振ったら必ず一回は、一の目が出るという訳ではない。

法則と言っても一般に法則というのは仮定の域を出ない。
特に「大数の法則」は、経験則である。
なぜだかわからないけれど、そうなるからそうなるのでしょうという程度の事なのである。
法則は絶対という事はない。それを一番実践している学問が統計学である。


確率分布としての正規分布


正規分布は、確率においてその威力を発揮する。
正規分布は、確率分布の核となる分布である。

正規分布というのは、確率分布の基準となる分布である。
正規分布本来の役割は、確率分布の母集団を推定する為に基準を提供する事にある。

正規分布が確率分布として有効なのは、正規分布が平均と分散を基にして設定されている事にる。
正規分布を母集団として対象となる確率を計算するとよく当て嵌まり説明がしやすい事象が多くあるという事である。
確率分布を想定する際、平均と分散がカギを握る。その平均と分散を基にして分布を想定する際、正規分布を基にすると都合がいいのである。

確率分布は、正規分布だけではない。例えば、一様分布、かい二乗分布、二項分布、F分布、T分布、ベルヌーイ分布、ポアソン分布とか、指数分布とか、ガンマ分布、幾何分布などの分布があり、前提条件や目的に応じて使う分けられている。

確率分布は目的や前提条件に応じて設定される。


クロス・セクション分析と時系列分析


確率・統計分析には、クロス・セクション分析と時系列分析がある。時点を特定したクロス・セクション分析の場合は、記述統計が妥当であり、時間の変化を想定した時系列分析の場合、推定統計、ベイズ統計などが妥当である。
この様に目的や前提によって統計に対する考え方も変えるべきなのである。なぜならば確率や統計は、目的ではなく手段だからである。
目的に関わらず手段を絶対化するのは、本末転倒である。
科学や数学の危うさ怪しさは手段を目的化する事に負う事が多い。科学や数学は、手段であって目的にはならない。
真理を探究するのは、人々を幸せにするため、正しい生き方を実践するのが目的であって真理を探究すること自体は手段に過ぎない。
科学を目的化して科学万能だとするのは、神を冒涜する事である。


時系列分析の特徴


時系列分析は、最も用いられる統計の一つである。
時系列とは、時間軸を含んだ統計や確率である。
時系列は、変化の様相を表している。

時系列分析とは、変化を予測したり、比較する事によって成り立っている。

時系列分析は、推測統計の一種だと言える。
推計統計は、母集団の構成や偏り、歪み、重み、関係、働きなどを分析するのに対して時系列分析は、変化の様相を重視する。変化の様相とは、増減、拡大、縮小、成長、衰退といった変化が表す様相から推測できる事である。
また、変化を分析する事によって因果関係や相関関係等の全体と部分、部分と部分の関係を明らかにすることも目的の一つとされる。
その為に、時系列分析は、他の推測統計と違い、主として変化の形を線分として捉えようとする傾向がある。
また、変化を何らかの方程式に置き換える事を目的の一つとしている。
その一例が回帰分析であり、多変量解析である。
平均や分散も時系列に沿った形で考察される。
ただし、変化の形は、単純ではなく、一様でもない、一定の形にはまるものは少ない。それ故に、時系列分析では変化の傾向をとらえる事を重視する。

また、時系列分析は、固有の傾向がある。
例えば、傾向線、季節変動等である。

時系列分析で重要となるのは、相関関係である。
また時系列分析では、任意の時点を選んで指数化する事も有効である。


時系列分析は近似計算である。



一番活用される統計の一つが時系列分析であるが、統計分析の中で、一番異端的扱いを受けているのも、時系列分析である。

時系列分析は、原則的に近似計算である。
現象や動きを近似する事で相互の関係や変化の先を予測するのが時系列分析の目的である。
相互の関係や予測をするために、時系列分析の第一の目標は、変化の背後にある要因、背後で働く力の関係や構造を明らかにすることである。

時系列分析は、時間が陽に働く場合と陰に働いている場合の両面から検討する必要がある。
時間を陰にした分析に記述統計等の従来の統計、確率が基盤を提供する。

時間的変化の分散や偏差を測定し、その傾向を明らかにする。その上で変化を引き起こしている要因を探究するのが時系列分析である。その典型的な手法が回帰分析、重回帰分析、多変量解析である。

時系列における偏差というのは、変化の中心線からの距離を言う。中心線が平均を表している。中心線からの偏差は誤差の尺度にもなる。中心線は直線とは限らない。中心線は傾向を表している。

傾向線を表す回帰式には、直線回帰式、ルート回帰式、自然対数回帰式、分数回帰式、べき乗回帰式、指数回帰式、修正指数回帰式、ロジスティック回帰式、ゴンペルツ回帰式等がある。

時系列分析で特に注意しなければならないのは、時差である。
前兆的な動きと遅行的な動きは、変化がもたらす影響を考える上で重要になる。
何らかの前兆現象をとらえる事が出来れば、予防する事が出来るし、遅行的な現象を知れば備える事が出来る。
また、因果関係を知る手掛かりにもなる。

時差は、誤差に通じる。故に、時系列分析においては近似計算が有効なのである。

時間軸と言っても目的によって違いがある。例えば、医療でいえば、患者個人固有の時間、社会的に固定されている時間、統計データに基づく一般的時間などがある。また、単位の取り方によっても違いが出る。基本的にカレンダーに従って決まる単位時間、時計によって決まる単位時間、日の出日没等の自然現象に従って決まる単位時間、物事の順序に従って決まる単位時間などがある。

時系列分析は、傾向を調べる。傾向に基づいて個々の時点における増減、上下、強弱、速度などがある。基本的に個々の変化は、位置と運動と関係によって測られる。位置の基準は、高低や量。運動(働き)の尺度は、速度、強弱等であり、方向は、増減、拡大縮小、上下、左右などがある。時系列分析では、ベクトルが重要になる。

同時に個々の局面における様相も加味して考える必要がある。
経済成長ならば、個々の局面における人口構成、生産量、在庫量、消費量、需要と供給、物価といった要因が変化に対してどのような働きをしているか。また、時間が陰に作用した場合、陽に作用した場合とではどのような差が生じるかである。
経営ならば、収益と費用の関係、資産と負債、市場の状態等がある時点でどの様に作用し、また、変化に対してどのように対応していくかである。

変化には、周期的変化と非周期的変化がある。また、規則的変化と不規則な変化がある。
変化の方向には、発散型、収束型、平衡型があり、それぞれの傾向によって変化の次元が変わる。
量的変化は質的変化を伴う。



ベイズ統計


近年、ベイズ統計が注目されている。
従来は、ベイズ統計と既存の統計を対立的捉え、特に既存の統計側からベイズ統計は否定的に扱われてきた。
しかし、ベイズ統計と既存の統計は、必ずしも対立的な事ではない。

例えば、患者の症状から病名を特定しようとしたばあ、ベイズ統計のアルゴリズムは有効である。
ベイズ統計は基本的にアルゴリズムの問題である。

まず患者の症状から病気を予測する。その予測に基づいて血圧や体温、症状の変化などを記録し、そのカルテと学会に承認を受けた指標、基準と照らし合わせ事前の予測、確率を変更していき、最終的に病気を診断して、処方を決め治療を開始する。
ベイズ統計というのは、その時々の局面において従来の統計技術を活用しているのであり。ベイズ統計単独で成り立っているわけではない。ベイズ統計は、統計のダイナミックな部分を代表しているに過ぎない。

記述統計に対する出鱈目な教育は、ベイズ統計に対する正しい認識を妨げてもいる。
ベイズ統計は、従来の統計を否定するものではない。むしろ、相互に補完し、補強するものである。この点を理解しないとベイズ統計の健全な発展も望めない。

ベイズ統計では時間が陽に働いている


記述統計等は、法則や規則、有効性などを解明、あるいは、仮説を立証するといった時間が陰に作用している事象に効果的である。それに対して予測、予実績管理といった時間が陽に作用している事象には、ベイズ統計や時系列分析などが有効となる。

ベイズが事前確率、尤度、事後確率等を重視するのは、ベイズ統計が時間軸を含んでいるからである。


ベイズ統計では、事前、事後確率が重要となる。



確率的に前の事象から次の事象が決定される過程を確率過程という。
ベイズ統計では、この確率過程が重要とされるのである。

ベイズ確率では、事前、事後で確率分布に変化がある事を前提としている。
つまり、母集団に対する想定が、経験値や実験値等の新たな情報を追加する事によって変化する事を前提としているのである。
故に、確率分布も事前、尤度、事後に設定している。

事前確率とは、特定の事象が起こったという前提のもとに別の事象が起こる確率を条件つき確率と言い。前提となる事象を事前確率という。事後確率は、前提となる確率分布は別の事象が起こる確率の原因と見なす事が出来る。
事後確率は、ある特定の結果が表れた時、その原因を示す事から原因の確率ともいう。

連続的な確率変数では、事前確率と事後確率は、事前分布と事後分布に言い換わる。

ベイズ統計では、母集団の変遷をどう設定するかが、重要な意味を持つ。
即ち、事前分布、尤度分布、事後分布をどのような形の分布を想定するかが鍵を握っているのである。

尤度と事前分布の積に事後分布は比例する。



現代の魔術師


統計というのが変に権威になってしまって、統計的に説明されると反論できない雰囲気がある。
その癖、統計のロジックとか、前提や信憑性なんてあまり問題にされない。
特定の権威がある者が数字を操りだすと聞く者は皆幻惑されてしまう。
統計家と言うのは、現代の魔術師である。
でも、統計は、手段なのである。意思決定のための手段である。
確率なんて最初から博打が目的なのだから。怪しい話なのである。
だから、当事者がどう判断していいかわからないような結果は意味がないのである。
それこそ、統計がどうのこうのというより、サイコロを転がした方がましである。

統計で嘘をつくという。しかし、嘘をついているわけではない。いい加減なのである。
統計だの確立だのというのは、尤もらしくいっているに過ぎないのである。
それを前提とするから統計や確率というのは役に立つのである。
統計や確率は、判断材料、参考資料を表しているに過ぎない。
決断するのは、自分なのである。

統計や確率は、最初から完全とか、絶対という事を捨てている。
完全とか、絶対というのは神の領域の出来事なのである。
人は、神にはなれない。

統計家が神の如く振舞ったらお終いである。


統計や確率は尤もらしさの上に成り立っている。


確率や統計なんて尤もらしさの上に成り立っている。

統計や確率が扱っている事象というのは、本来あやふやな事なのである。
不確かな事から将来を予測したり、関係を割り出したり、原因を明らかにしたり、要因を分析したりする事なのである。
統計や確率は、演繹的な手段ではなく、帰納法的手段である。
だからこそ、統計や確率を学問として確立するのに、信頼を得るのに苦労したりもしたのである。
それが反面、統計とか、確率とか、数値分析が独り歩きし、権威になってしまった。
何でもそうだが権威になるとろくなことをしない。
科学者は、真の権威は神のみにしかなりえない事を常に忘れてはならない。
己の限界をわきまえる事こそが、信仰こそが科学者を科学者として保つ唯一の手段なのである。

科学者は人間のそして己の愚かしさを常に自覚しなければならない。
己の愚かしさを忘れたら狂気しか残されていないのである。

よく西暦何年の何月、何日に世界の破滅が訪れるなんて予言されていて、それが外れると一遍に預言者の信頼が失われる。
些細な事でも、予言が偶然に的中すると逆に神の如く崇拝される。
予言を信じるか信じないかは、その人次第である。人類滅亡なんて信じない者にとっては馬鹿馬鹿しい世迷言なのであっても信じた者は、人生を変える、時には自殺してしまうほどの確言なのである。
しかし、予言だけが未来を予測しているわけではない。統計や確率だって未来を予測する。人々の多くは、予言は非科学的であり、統計や確率は科学的だという。
予言と統計、確率のどこが違うのか。統計や確率は、科学的根拠に基づくというのがその答えのように思われているが、予言だって何の根拠もないという訳ではない。根拠を信じるかどうかの問題であって科学的根拠だから信じられるというのもおかしな話である。
結局、予言と統計や確率の違いは、統計や確率は、絶対的な事でなく、相対的であり、外れる事もあるという事を前提としているという事である。つまり、正直なのである。だから信じられる。突き詰めてみると、いい加減だという事を前提としているから、統計や確率というのは成り立っている。
それに対して予言というのは、絶対的だから、疑わしいのであり、怪しいのである。
統計や確率は、曖昧さやあやふやな事の上に成り立っている。だから、統計や確率を絶対化する事は、統計や確率を自己否定している事になるのである。いい加減で、あやふやだという事を否定したら統計や確率は成り立たない。少なくとも科学的でなくなる。
要は、確率なんて外れる事を前提としている。あたる方が不思議なのである。だから、外れたところで確率だからと言い切れるのである。

地震予知なんてその好例である。向こう何十年間に何十%の確率で地震が起こると言ったって西暦何年の何月何日何時何分に大地震が起こるなんて予知しているわけではない。要するにいい加減なのである。じゃあいい加減だから意味がないと結論付けるのは、短絡的である。
いい加減だから確率や統計は、意味があるのである。それが予言とは違う事である。

どんなに突き詰めても不確かであいまいなところが残る。それを前提としているのが確率であり、統計である。厳密な手続きに従おうが従うまいが、そんな事とは、統計や確率が、不確かな現実の上に成り立っているという前提に何の影響も与えはしない。

統計や確率は、いい加減な事だという前提を忘れてはならない。

統計や確率は判断のための材料を用意してくれる。しかし、最終的に決断するのは人間なのである。
故に、統計や確率は、最初から最後まで主観的なものである。
統計や確率を頼りにし過ぎては統計・確率を活用することはできない。いわんや統計・確率を絶対するのは危険極まれない事である。
最終的に決断をするのは自分なのである。その事を自覚していれば統計や確率程頼りになるものはない。




ベイズ統計
確率と統計
確率と統計(教育)



参照
「道具としてのベイズ統計」 涌井良幸著 日本実業出版
「Excel統計入門」羽山博&できるシリーズ編集部緒 インプレス
「Excelで学ぶ統計的予測」菅 民郎著 オーム社
「Excelで学ぶ回帰分析」上田太一郎・淵上美喜・小林真紀 共著 オーム社
「多変量解析」菅 民郎著 オーム社
「Excelでかんたんデータ分析」河野真紀・河野善仁著 オーム社
「Excelでかんたん統計分析」上田太一郎監修 近藤宏・淵上美喜・末吉正成・村田真樹共著 オーム社
「時系列データ分析」横内大介・青木義允著 技術評論社
「駄目な統計学」アレックス・ラインハート著 西原史暁著 勁草書房
「統計学が最強の学問である」西内啓著 ダイヤモンド社
「経済時系列と季節調整法」高岡 慎著 朝倉書店
「Excelで学ぶビジネスデータ分析の基礎」玄場公規、湊宣明、豊田裕貴著 Odyssey
「流れるようにわかる統計学」佐々木隆宏著 角川書店
「予測にいかす統計モデリングの基本」樋口知之著 講談社


       

このホームページはリンク・フリーです
ページの著作権は全て制作者の小谷野敬一郎に属しますので、一切の無断転載を禁じます。
The Copyright of these webpages including all the tables, figures and pictures belongs the author, Keiichirou Koyano.Don't reproduce any copyright withiout permission of the author.Thanks.

Copyright(C) 2017.7.18 Keiichirou Koyano