今回は統計学において頻出である「正規分布」について取り上げていきます。「正規分布」とは、確率論や統計学で必ずといっていいほど出てくる分布のことで、発見したドイツの数学者ガウス名前から別名:ガウス分布ともいわれています。
正規分布の確率は直接的に計算しやすい点、 正規分布の応用において優れた結果を出してきたことなどから、「計算しやすく現実で結果が生かせる分布」ということで統計学において欠かせない要素となっています。
どのような形の分布かというと「平均値付近が一番高く、平均から離れるに従って低くなっていく形」で、よく釣り鐘のような形だと形容されます。
こんな形です
余談ですが、上のグラフは統計解析フリーソフトRというやつで作ったグラフです。正規分布の乱数はRで簡単に作ることができ、Rのほうがエクセルよりも精密な乱数を作成してくれます。(詳しくは↓ を参照)
そして、正規分布には釣り鐘型という特徴に加えて下のような特徴もあります。
・「平均」と※「最頻値」と※「中央値」が一致する。
・「平均」を中心にして左右対称である。
※最頻値(モード):データの中で最も出てくる頻度が高い値のこと。
※中央値(メディアン):データを大きい順(または小さい順)に並べたとき,真ん中の値のことを指します。もしデータの数が偶数のときは「真ん中の値」が二つ登場するのでそれらを足して2で割ったものを中央値とします。
【統計学】平均・中央値・最頻値について ~基本統計量 その1
これが私たちの日常生活にどう関係してるんだ?と思う方もいらっしゃるでしょうが、この正規分布は私たちの身の回りの様々な事象に存在していており、ビジネスなどでも様々に応用されているとても重要なものです。
正規分布がよく利用される理由としてまず挙げられるのは、社会現象・自然現象などの確率変数の度数 分布をよく近似する点です。
正規分布は、連続分布の中で最も良く現れる分布で、例えば模試などの学力テストや測定誤差などは正規分布することが有名です。
また、部品の大きさ、食料品の重量が正規分布することが多く、品質管理の分野で応用されています。
他にも売上高や生産高も正規分布することが多く、これはマーケティングや経営の分野で利用されています。 (まあ実際は、正規分布が当てはまるかどうか不明な分布もありますが・・・)
しかし、 標本平均の分布は標本のサイズが大きくなる ほど、正規分布に近づくという性質があり、このことからデータ数が多ければ正規分布を仮定することも正当化され
ています。
例えば株や債券の価格変動や多くの経済モデルは、実際の分布は不明だが、正規分布を仮定することが多いです。
このように正規分布は、確率の計算しやすい点、多くの応用において優れた経営判断に導いてきた実績などがあり、幅広く使われています。
そんなことを言ってみたものの実際に分析するとなると、標本のデータ数が少なかったりで、分析した事象が正規分布にならないということは実は結構あります。
ですが、上でも述べたとおり世の中の大半の事象の分布は正規分布になるので、どうせこいつも正規分布になるやろー的な感じで、その母集団が十分に大きければその母集団の分布を、正規分布だと仮定して分析を行ったりするので、確率や統計に基づいた分析をするうえで、正規分布はとても重要なものです。
次はRを使って正規分布の検定を行っていきます。
⇨【R言語】データが正規分布なのか検定する方法 – 暇人の研究室
追記:統計学の初歩的学習にはコチラのマンガでわかる統計学入門という本が分かりやすかったので紹介しておきます。
関連記事
コメント