AnalyticsStudy



AnalyticsStudy

0 0


AnalyticsStudy


On Github hitenkoku / AnalyticsStudy

統計学勉強会

~俺たちのビッグデータはまだ始まったばかりだ~

2014/11/22

Alan Smithee @...

Topics

勉強会の目的

自己紹介

本題

勉強会の目的

個人的なフラストレーション

環境へのフラストレーション

個人的なフラストレーション

  • 基礎を勉強してもなかなか手がつけられない……

環境へのフラストレーション

  • 統計学にフォーカスした勉強会が少ない。

  • オフラインでの有名な勉強会や読書会はあるが、やってることがかなり発展的(かなり人気であったり、平日であったりして参加することが難しい)。

    • PRML読んだりみどりぼん読んだり……結局読んでもそういうものなのかぁぐらいで終わりがち

    • TokyoRさんの内容もR言語に基づいたものが多い。

で、どうするの?

じゃあ作っちゃおう!

自己紹介

  • 名前(HNでも問題なし):
    • Alan Smithee
  • Twitterアカウント
    • XXX
  • 今回の勉強参加の目的:
    • 勉強会を通した統計学勉強仲間を見つける
    • 勉強会講師の資料作成を通して統計学をしっかりと勉強するため
    • Githubのgh-pagesブランチ使ったreveal.jsのプレゼンを作ってみたかった

それでは、本題の勉強会を始め……る前に

使う教材

統計学入門(基礎統計学)

基本的にはなくても大丈夫なように努力します。

数式が書いてあったり小難しい言葉が書いてあったりしますが、数式には慣れていきましょう。

数式がなくてわかりやすい本というのもあるらしいですが、是非一度は泥沼にはまりましょう。

データと統計量と私

お品書き

  • データとは?
  • (閑話休題)データの種類と取扱いの注意
  • 基本統計量とは?

データとは?

世の中には多くのデータがあふれている

  • 月の売り上げ
  • 選挙の投票結果
  • 株価
  • 身長
  • 性別
  • テストの点数
  • 某有名SNSゲームのスリーサイズ etc...

世の中のデータは2つ(尺度を加えると4つになる)

  • 定量的

    • 順序尺度
    • 間隔尺度
    • 比率尺度または比例尺度
  • 定性的

    • 名義尺度 ※但し、尺度については議論があるので参考書にはあまり書いてないことが多いです。

定量的=そのままのデータを数字で表せる

定性的=そのままのデータを数字では表せない

例えば……

  • 定量的

    • 月の売り上げ
    • 選挙の投票結果
    • 株価
    • 身長
    • テストの点数
    • 某有名SNSゲームのスリーサイズ
  • 定性的

    • 性別(ダミー変数により、数字に変換することは可能)

データの種類 一次統計 調査対象を直接調べるタイプの統計 第一義統計 調査目的:統計資料の作成 国勢調査 第二義統計 統計資料の作成ではない資料から作成された統計 法務・犯罪統計 貿易統計 二次統計 統計資料統計を加工して作成された統計資料 国民経済計算

統計資料を分析対象とするときに注意すべきこと

  • 統計資料の調査目的は?
  • 全数調査か?標本調査か?(大概は標本調査です)
  • 対象者は?
  • いつ、どこでデータを取得した?
  • 分類の定義は?

統計量

統計量

得られたデータから傾向を得たい。

しかし、データを1つ1つ突き合わせることは非現実的

計算によって集団の特性を見たい→統計量

  • 平均
  • 分散
  • 中央値
  • 最小値・最大値
  • 変動係数

平均

式で表すとこんな感じ(Nはこの場合2以上の自然数)

ちょっと小難しい言い方をすると原点周りの1次モーメント(重心を求める)

分散

データのばらつきを表す統計量

単位の関係から標準偏差のほうがよく用いられる

標準偏差は分散の平方根

変動係数

標準偏差を平均で割った値

相対的なばらつきをあらわす。

ex.月収所得格差(分散)はB村のほうがA村の2倍だが……変動係数を調べると予想と反している。

  • A村の住民の月収(平均:19万、標準偏差3.5万)→CV=0.18
  • B村の住民の月収(平均:42万、標準偏差6.2万)→CV=0.147

中央値

2N個のデータを昇順(もしくは降順)に並べたときにN番目のデータを中央値という

データの個数が2N+1個の場合、N番目のデータと(N+1)番目のデータの平均を中央値とする。

偏りがあるデータだと平均値はあてにならないこともある

例えばサラリーマンの平均年収

階層で分かれているので仮の値を当てはめたとして平均だと大体500万

中央値だと大体400万

最頻値

データの中で最も出現頻度が高い値を最頻値という。

ex. 以下のデータについて考える。 11,21,33,11,33,26,11 最頻値は11

データの種類に気を付けましょう

せめて定量的か定性的かは確認しないと意味のない分析をしてしまいます。

男が1、女が0とされたデータに対して平均を求める?

最後に

本勉強会は発表者並びに運営を募集致します。 自分の勉強したい知識を作り出す機会を運営として動かしてみませんか?

分布、検定、回帰については実際にデータを使って話をしたいと思います。

そのときにplotとかでデモを見せるときにR言語を用いる予定です(R言語の基礎についてがっちりやる予定はありませんが。リクエストがあれば)

ご清聴ありがとうございました。