『Rによるやさしい統計学』読書まとめ - 第3章 2つの変数の記述統計

- 作者: 山田剛史,杉澤武俊,村井潤一郎
- 出版社/メーカー: オーム社
- 発売日: 2008/01/25
- メディア: 単行本
- 購入: 64人 クリック: 782回
- この商品を含むブログ (69件) を見る

- 作者: 山田剛史,杉澤武俊,村井潤一郎
- 出版社/メーカー: オーム社
- 発売日: 2013/07/17
- メディア: Kindle版
- この商品を含むブログを見る
社内読書会対象書籍の読みまとめ第3章。比較的読み進め易かったです。対照的に次の第4章は...orz うむ、頑張って読もう。
3.1 2つの変数の関連について
- 相関(correlation):量的変数同士の関係の事。(国語の点数が高い人ほど英語の点数が低い、等)
- 連関:質的変数同士の関係の事。(洋食派の人には甘党が多く、和食派の人には辛党が多い、等)
3.2 散布図(Scatter plot)
- 散布図に於ける相関
- 正の相関(xが大きくなるとyも大きくなる)
- 負の相関(xが大きくなるとyは小さくなる)
- 無相関(関連無し)
- 散布図の使い方
plot(データ1,データ2)
3.3 共分散 / 3.4 相関係数
- 共分散(analysis of covariance):(平均からの)偏差の積の平均。
- 相関係数(correlation coefficient):相関の強さを示す係数。共分散を2変数の標準偏差の積で割る。2変数の相関関係が強い程、値(絶対値)が大きくなる。無相関の場合、相関関数は0、正の相関が強くなるに従って1に近づいていく。(※負の相関の場合はどうなる?)
- 相関係数の大きさの評価:数値的に見ることはできるが、まずは散布図を書いてみよう。
相関係数 | 大きさの評価 |
---|---|
-0.2 ≦ x ≦ 0.2 | ほとんど相関無し |
-0.4 ≦ x ≦ -0.2 0.2 ≦ x ≦ 0.4 | 弱い相関あり |
-0.7 ≦ x ≦ -0.4 0.4 ≦ x ≦ 0.7 | 中程度の相関あり |
-0.7 ≦ x ≦ -1.0 0.7 ≦ x ≦ 1.0 | 強い相関あり |
3.5 クロス集計表(cross-tabulation)
質的変数同士の関連を見る場合に使える。
> table(数学) 数学 嫌い 好き 14 6 >
> table(統計) 統計 嫌い 好き 12 8 >
クロス集計もtable()で得られる。
> table(数学,統計) 統計 数学 嫌い 好き 嫌い 10 4 好き 2 4 >
3.6 ファイ係数(phi coefficient)
相関係数の特別な場合で、1と0の2つからなる変数(2値変数)に対して計算される相関係数。
> 数学イチゼロ <- ifelse(数学 == "好き",1,0) > 数学イチゼロ [1] 0 0 1 1 0 0 0 0 0 1 1 0 1 0 0 1 0 0 0 0 > > 統計イチゼロ <- ifelse(統計 == "好き",1,0) > 統計イチゼロ [1] 1 1 1 1 0 0 0 0 0 0 1 1 1 0 1 0 0 0 0 0 > > > cor(数学イチゼロ,統計イチゼロ) [1] 0.3563483