2014/11/22
Alan Smithee @...
統計学にフォーカスした勉強会が少ない。
オフラインでの有名な勉強会や読書会はあるが、やってることがかなり発展的(かなり人気であったり、平日であったりして参加することが難しい)。
PRML読んだりみどりぼん読んだり……結局読んでもそういうものなのかぁぐらいで終わりがち
TokyoRさんの内容もR言語に基づいたものが多い。
例
統計学入門(基礎統計学)
基本的にはなくても大丈夫なように努力します。
数式が書いてあったり小難しい言葉が書いてあったりしますが、数式には慣れていきましょう。
数式がなくてわかりやすい本というのもあるらしいですが、是非一度は泥沼にはまりましょう。
定量的
定性的
例えば……
定量的
定性的
データの種類 一次統計 調査対象を直接調べるタイプの統計 第一義統計 調査目的:統計資料の作成 国勢調査 第二義統計 統計資料の作成ではない資料から作成された統計 法務・犯罪統計 貿易統計 二次統計 統計資料統計を加工して作成された統計資料 国民経済計算
統計資料を分析対象とするときに注意すべきこと
統計量
得られたデータから傾向を得たい。
しかし、データを1つ1つ突き合わせることは非現実的
計算によって集団の特性を見たい→統計量
式で表すとこんな感じ(Nはこの場合2以上の自然数)
ちょっと小難しい言い方をすると原点周りの1次モーメント(重心を求める)
データのばらつきを表す統計量
単位の関係から標準偏差のほうがよく用いられる
標準偏差は分散の平方根
標準偏差を平均で割った値
相対的なばらつきをあらわす。
ex.月収所得格差(分散)はB村のほうがA村の2倍だが……変動係数を調べると予想と反している。
2N個のデータを昇順(もしくは降順)に並べたときにN番目のデータを中央値という
データの個数が2N+1個の場合、N番目のデータと(N+1)番目のデータの平均を中央値とする。
偏りがあるデータだと平均値はあてにならないこともある
例えばサラリーマンの平均年収
階層で分かれているので仮の値を当てはめたとして平均だと大体500万
中央値だと大体400万
最頻値
データの中で最も出現頻度が高い値を最頻値という。
ex. 以下のデータについて考える。 11,21,33,11,33,26,11 最頻値は11
せめて定量的か定性的かは確認しないと意味のない分析をしてしまいます。
男が1、女が0とされたデータに対して平均を求める?
本勉強会は発表者並びに運営を募集致します。 自分の勉強したい知識を作り出す機会を運営として動かしてみませんか?
分布、検定、回帰については実際にデータを使って話をしたいと思います。
そのときにplotとかでデモを見せるときにR言語を用いる予定です(R言語の基礎についてがっちりやる予定はありませんが。リクエストがあれば)
ご清聴ありがとうございました。