日々の出来事や調べ物に関するネタを備忘録(Memorandum)として残していくBlogです。

『Rによるやさしい統計学』読書まとめ - 第3章 2つの変数の記述統計

Rによるやさしい統計学

Rによるやさしい統計学

Rによるやさしい統計学

Rによるやさしい統計学

社内読書会対象書籍の読みまとめ第3章。比較的読み進め易かったです。対照的に次の第4章は...orz うむ、頑張って読もう。

3.1 2つの変数の関連について

  • 相関(correlation):量的変数同士の関係の事。(国語の点数が高い人ほど英語の点数が低い、等)
  • 連関:質的変数同士の関係の事。(洋食派の人には甘党が多く、和食派の人には辛党が多い、等)

3.2 散布図(Scatter plot)

  • 散布図に於ける相関
    • 正の相関(xが大きくなるとyも大きくなる)
    • 負の相関(xが大きくなるとyは小さくなる)
    • 無相関(関連無し)
  • 散布図の使い方
plot(データ1,データ2)
    • f:id:shinyaa31:20150215064502p:plain

3.3 共分散 / 3.4 相関係数

  • 共分散(analysis of covariance):(平均からの)偏差の積の平均。
  • 相関係数(correlation coefficient):相関の強さを示す係数。共分散を2変数の標準偏差の積で割る。2変数の相関関係が強い程、値(絶対値)が大きくなる。無相関の場合、相関関数は0、正の相関が強くなるに従って1に近づいていく。(※負の相関の場合はどうなる?)
  • 相関係数の大きさの評価:数値的に見ることはできるが、まずは散布図を書いてみよう。

相関係数大きさの評価
-0.2 ≦ x ≦ 0.2ほとんど相関無し
-0.4 ≦ x ≦ -0.2 0.2 ≦ x ≦ 0.4弱い相関あり
-0.7 ≦ x ≦ -0.4 0.4 ≦ x ≦ 0.7中程度の相関あり
-0.7 ≦ x ≦ -1.0 0.7 ≦ x ≦ 1.0強い相関あり

R関数

  • cov():共分散を算出する。不偏共分散の場合はcon()をn-1で割る。
  • sd():標準偏差を計算。
  • cor():相関関数を算出する。

3.5 クロス集計表(cross-tabulation)

質的変数同士の関連を見る場合に使える。

> table(数学)
数学
嫌い 好き 
  14    6 
> 
> table(統計)
統計
嫌い 好き 
  12    8 
> 

クロス集計もtable()で得られる。

> table(数学,統計)
      統計
数学 嫌い 好き
  嫌い   10    4
  好き    2    4
>

3.6 ファイ係数(phi coefficient)

相関係数の特別な場合で、1と0の2つからなる変数(2値変数)に対して計算される相関係数。

> 数学イチゼロ <- ifelse(数学 == "好き",1,0)
> 数学イチゼロ
 [1] 0 0 1 1 0 0 0 0 0 1 1 0 1 0 0 1 0 0 0 0
> 
> 統計イチゼロ <- ifelse(統計 == "好き",1,0)
> 統計イチゼロ
 [1] 1 1 1 1 0 0 0 0 0 0 1 1 1 0 1 0 0 0 0 0
> 
> 
> cor(数学イチゼロ,統計イチゼロ)
[1] 0.3563483