統計学を用いたデータ分析における基本的な考え方とプロセス

統計学の目的

まず統計学を使ってデータを分析することで何が分かるのかという話ですが、統計学を使う目的は大きく分けて2つあります。まず1つ目は手持ちのデータの中身を知るためです。これは手持ちのデータの平均や分散の計算・グラフ化などを指します。そして2つ目は未知のデータを推測するという目的です。例えば今日の天気から明日の天気を予測するみたいな話です。

つまり統計学を用いたデータ解析はこの手持ちのデータを分析する「記述統計」 と手持ちのデータから未知のデータを予測する「推測統計」 の2つに分類することができます。

上でもチラッと触れましたが、まず記述統計とは、集計したデータの平均や標準偏差などを計算し、分布を明らかにすることで、データの傾向や性質を把握する解析手法です。

記述統計の代表的な例としては、ベ〇ッセや河〇塾などの予備校の模試の結果が点数や偏差値などで表されたりしているやつです。

一方、推測統計とは、収集できたデータを全体のデータ(母集団)から得られた一部の標本と見なし、そこで得られた標本データから元の母集団の性質や傾向を推測する解析手法です。

日常生活における代表例としては、選挙の出口調査における速報などがあります。まさに出口調査の結果(標本データ)から投票者全体の傾向(母集団)を予測する推測的データ解析です。

代表的なのはこの2つなのですが、近年になって発展してきたアプローチとして、探索的データ解析(EDA)というものがあります。これは推測統計のように特定のモデルや確率分布をはじめに仮定するのではなく、まずデータの情報を最大限に吟味した上で、そのデータに最も適切な分析法や確率モデルを模索しようとする手法です。

推測統計はデータがまだ少なく、演算処理も未熟だった頃の手法であり、ビックデータが当たり前となり、そしてそれをすぐ解析できるまで演算処理の技術が進歩した現代においては確率分布やモデルを仮定して当てはめるのではなく、膨大なデータを解析し、その母集団にあったモデルを模索して分析を行うすることでさらに有用な分析結果が得られるのではと期待されています。これの進化系が最近巷でよく言われる機械学習・ディープラーニングってやつです。

機械学習やディープラーニングも統計学と全く別物というわけではなく、一応関係があります。ただこれらは統計学というよりベイズ統計学の考え方でデータに対するアプローチの方法が違うので異母兄弟みたいなものですが・・・。

一般的に統計学といえば、この記述統計と推測統計なので今回はこちらの統計学について取り上げていきます。まあ実際にビジネスに使うのはたぶんベイズ統計の方だと思いますが、データサイエンティストなどになる場合でも教養として勉強する必要があります。

というわけでまずはデータの特徴をざっくり把握する記述統計のプロセスと基本的な用語について取り上げていきます。

基本統計量

まずデータを集計した値のことを「統計量」といいます。統計量といわれるとピンとこない人が多いと思いますが、要は平均や標準偏差みたいなもののことです。よく出てくるのが平均・期待値・分散・標準偏差辺りです。この4つが分かっていれば統計の基本は抑えたことになります。

確率と確率分布

統計学において大切なのがまず確率と確率分布です。確率は英語の「probability」からPと表記されることが一般的です。そして確率分布とは確率変数とそれぞれに対応した確率の分布のことを指します。

確率変数』とはとりうる値の範囲は分かっているけど、事前にその範囲の中からどの数になるかは分からないものというのが、一番分かりやすい表現かと思います。

例えばサイコロの場合だと1~6が確率変数ということになります。サイコロのとりうる値は1から6ですが、振ったときにどの目は出るかはイカサマでもしていない限り、1つに絞り込むことは不可能です。

なので確率変数は1つの数字ではなく、ある事象が取りうる数字の範囲なので、一般的に『確率変数X』と表されます。そして各確率変数と発生する確率を対応させた分布図が確率分布なのです。

サイコロの場合だと1~6まで目が出る確率はどれも1/6で一様なので、こんな感じの棒の長さが変わらない確率分布になります、

標本と母集団

そして基本統計量・確率変数・確率分布を抑えたら次に押さえておきたいのが分析するデータの種類の違いですね。まず統計データとは、観察した対象について得られた測定値の集合で、データの分析には全数調査(分析対象を全て調べる)標本調査(分析対象の一部を標本として抽出したもの)との2種類があります。

一般的に全数調査ができないことがはるかに多く、大低は全体の一部分である標本データを分析する、標本調査を行います。そして分析対象の一部が「標本」と呼ばれるのに対して、分析対象全体は、「母集団」と呼ばれます。

分析自体は標本データで行いますが、ここで知りたいのはあくまで母集団の特徴なので、標本に基づいて統計分析を行う場合は、全体の一部である標本が、全体である母集団の特徴を正しく反映している必要があります。

全体である母集団の特徴を正しく反映している標本を取り出すために、理想的な方法とされているのが、無作為抽出(ランダム · サンプリング)と呼ばれる方法です。

イメージとしては、500mlのコーラのペットボトルに本当に500mlのコーラが入ってるのかを調べたいときには、工場で無数に作られたコーラの中から適当に100本くらい取り出すような感じです。

推定と検定

というわけで分析するデータには基本的に標本と母集団という2種類があり、この標本から母集団の性質を調べることを「推定」といいます。基本的にデータ分析においては母集団の確率分布が分かっていないということが多く、その母集団の性質(母平均・母分散)を計算するということになります。一般的に標本データから母集団の性質を把握するというのが統計学によるデータ分析のプロセスです。

そして、記述統計学における推定では仮説を立てることで計算を簡単にします。ここでどういう仮説を立てるのかというと、「分析するデータはの確率分布は正規分布である」という仮説です。

なぜ正規分布を前提にするのかというと、世の中には正規分布の確率分布を取る事象が多いからです。例えば大手学習塾の模試の受験生の得点分布もグラフにすると不思議と正規分布みたいな形になります。だから、模試の成績表をみたことがある人は分かると思いますが、平均や標準偏差といった記述統計における統計量で模試の結果を分析しているわけです。そしてもう1つの理由は正規分布だと事象の確率の計算が行いやすいというものです。

①正規分布の事象が世の中に多い

②計算が楽

このような理由から伝統的な統計学においては一般的に正規分布を仮定して計算が行われます。ですが、世の中には正規分布を取らない事象も実は結構あって、これまで統計学が使えないと言われていたのは、ビジネスなんかでは正規分布ではない事象は多いことが原因でした。

例えば株価の値動きの確率分布は正規分布ではありません。ボリンジャーバンドという株価の値動きを正規分布として仮定したテクニカル指標があるのですが、考案者は破産しています。

まあ正規分布を仮定しているのは昔はPCもなくデータの数が少なかったので、計算しやすい正規分布ということにしておかないと話がならなかったというのが大きな原因です。

ですが、最近ではPCの性能も向上したことから正規分布を仮定する以外のアプローチもあります。これが機械学習やディープラーニングというものです。これらはビジネスでも一定の成果を上げており、今後も社会でより使われるようになると思われるので、勉強しておくと色々と役に立つかもしれません。

そして正規分布をどうやって確率計算に使用するかという話ですが、正規分布は↓みたいな形をとっています。この形は平均付近の確率密度が大きく平均から離れるほど確率密度が小さくなっていく・平均を中心として左右対称という性質から非常に計算しやすいわけです。

統計学における確率の計算というのは、この確率分布の裾の面積を計算することです。求めたい事象の確率密度が事象全体の面積の何%を占めているかを計算するのが統計学による確率計算なのです。

この時に使うのが微分・積分なわけです。高校の頃出てきたときは何に使うのかさっぱりわからなかった微分積分はこういうところに役に立つのです。

実際にはどうやって統計学でデータ分析をするのか

これが統計学の基本的な考え方で、統計検定2級をとるとなれば鉛筆で計算したりする必要がありますが、実際問題ビジネスで統計学を使ってデータを分析するとなれば、PCでプログラミング言語を使って計算します。

プログラミング言語というとウェブサイトなどを連想する人が多いと思いますが、こういった統計学を用いたデータ分析にもプログラミング言語はバリバリ使いますし、統計学を使って仕事をするにあたってはプログラミング言語を扱えるようになっておく必要があるでしょう。

データ分析に使われている言語は基本的に「R」と「python」の2つです。Rはデータ分析専門のプログラミング言語ですが、pythonはデータ分析だけではなく、ウェブサイト制作なども簡単にできるますし、ディープラーニングも簡単にできるので、初学者であればpythonがオススメです。

まとめ

データ解析の手法は記述的解析と推測的解析の2つに大きく分類され、最近はビックデータとそれを扱える高性能PCの普及により探索的データ解析が発達してきている。

The following two tabs change content below.

刃牙

株式投資5年目。2017年に仮想通貨に参入し、大幅上昇で一時億り人になるも2018年の一連の騒動で転落中。最近は株式投資と仮想通貨に関連するテーマを記事にしています。
スポンサーリンク
スポンサーリンク


仮想通貨を始めるなら今!



ビットコインの価格は2009年から100万倍以上に値上がりしており、仮想通貨市場は現在急速に拡大しています。今から仮想通貨を購入するなら「リップル(XRP)」がオススメです。リップルは日本ではビットバンク(Bitbank)で一番安く購入することができます。





シェアする

  • このエントリーをはてなブックマークに追加

フォローする

スポンサーリンク
スポンサーリンク