【統計学】統計データ分析の基本的な考え方

 

・データの種類

まず統計データとは、観察した対象について得られた測定値の集合で、データの分析には全数調査(分析対象を全て調べる)と標本調査(分析対象の一部を標本として抽出したもの)との2種類があります。

 

 一般的に全数調査ができないことがはるかに多く、大低は全体の一部分である標本データを分析する、標本調査を行います。

 

そして分析対象の一部が「標本」と呼ばれるのに対して、分析対象全体は、「母集団」と呼ばれます。

 

分析自体は標本データで行いますが、ここで知りたいのはあくまで母集団の特徴なので、標本に基づいて統計分析を行う場合は、全体の一部である標本が、全体である母集団の特徴を正しく反映している必要があります。

 

全体である母集団の特徴を正しく反映している標本を取り出すために、理想的な方法とされているのが、無作為抽出(ランダム · サンプリング)と呼ばれる方法です。

 

イメージとしては、500mlのコーラのペットボトルに本当に500mlのコーラが入ってるのかを調べたいときには、工場で無数に作られたコーラの中から適当に100本くらい取り出すような感じです。

 

 

・データ解析の種類

統計学のデータ解析は「 記述的解析」 と「 推測的解析」 の2つに分類することができます。

 

記述的解析とは、集計したデータの平均や標準偏差などを計算し、分布を明らかにすることで、データの傾向や性質を把握する解析手法です。

 

記述統計の代表的な例としては、ベ〇ッセや河〇塾などの予備校の模試の結果が点数や偏差値などで表されたりしているやつです。

 

一方、推測的解析とは、収集できたデータを全体のデータ(母集団)から得られた一部の標本と見なし、そこで得られた標本データから元の母集団の性質や傾向を推測する解析手法です。

 

日常生活における代表例としては、選挙の出口調査における速報などがあります。まさに出口調査の結果(標本データ)から投票者全体の傾向(母集団)を予測する推測的データ解析です。

代表的なのはこの2つなのですが、近年になって発展してきたアプローチとして、探索的データ解析というものがあります。これは推測的解析のように特定のモデルや確率分布をはじめに仮定するのではなく、まずデータの情報を最大限に吟味した上で、そのデータに最も適切な分析法や確率モデルを模索しようとする手法です。

 

推測的統計はデータがまだ少なく、演算処理も未熟だった頃の手法であり、ビックデータが当たり前となり、そしてそれをすぐ解析できるまで演算処理の技術が進歩した現代においては確率分布やモデルを仮定して当てはめるのではなく、膨大なデータを解析し、その母集団にあったモデルを模索して分析を行うすることでさらに有用な分析結果が得られるのではと期待されています。

 

・まとめ

 データ解析の手法は記述的解析と推測的解析の2つに大きく分類され、最近はビックデータとそれを扱える高性能PCの普及により探索的データ解析が発達してきている。

 

 

 

www.dmjtmj-stock.com

www.dmjtmj-stock.com

 

 

スポンサーリンク
スポンサーリンク

シェアする

  • このエントリーをはてなブックマークに追加

フォローする

スポンサーリンク
スポンサーリンク