読者です 読者をやめる 読者になる 読者になる

日々の出来事や調べ物に関するネタを備忘録(Memorandum)として残していくBlogです。

『Rによるやさしい統計学』読書まとめ - 第2章 1つの変数の記述統計

Rによるやさしい統計学

Rによるやさしい統計学

Rによるやさしい統計学

Rによるやさしい統計学

社内読書会対象書籍の読みまとめ第2章。計算式が入り出してきて若干個人的にはハードルが上がり始めては来ましたが、この辺りは例題や練習問題を見ながら何度も繰り返し実践してみて使い方を身に染みこませるしかないですね。Rの計算式で出してみてもいますが、お仕事で扱っているTableauやAlteryx等でもこの辺り様々なデータを出して遊んで見ようかと思います。

ポイントメモ: 用語解説

  • 数値要約:データの持つ特徴を1つの数値にまとめること
  • 質的変数:データを構成する対象を分類する変数。男/女、好き/嫌いなど。2つの場合は『二値変数』とも呼ぶ。
  • 量的変数:数値的な大小を主眼に置いた変数。
  • 中央値(median):『真ん中』に位置する値。奇数の場合は真ん中が存在するが、偶数の場合は真ん中2つの平均値をあてる場合もある。
  • 代表値(averages):分布の中心的位置を示す代表的な値。『平均』もこの代表値のうちの1つ。
  • 最頻値(mode):読んで字の如く。代表値の1つではあるが、必ずしも分布の中心であるとは限らない。
  • 散布度(scatter〜):データの散らばり度合い
  • 不偏分散(unbiased variance):データの背後に母集団を想定し、その値を推測する場合に使う
  • 標本分散(sample variance):手元に全てのデータがある中で、そのデータの分散を見る場合に使う
  • 不偏分散と標本分散の違い:"標本"という言葉が全数的な意味合いと結びつかないので若干イメージズレますよね...
  • 平均偏差(mean deviation):『平均からの偏差』の絶対値の平均。
  • 範囲(range):最大値から最小値を引いたもの。
  • 標準化:平均と標準偏差がある特定の値になるように全てのデータの値を、同じ式を使って変換する事。
    • 標準偏差の求め方:※これはもう"こういう式だ"と覚えるしかない
標準偏差 <- sqrt(mean((数値 - 数値の平均)^2))
  • z得点:標準化によって変換された得点を標準得点と呼ぶが、その中でも『平均0、標準偏差1』になるように変換された得点。
z得点 = (数値 - 数値の平均) / 数値の標準偏差
  • 偏差値:平均50、標準偏差10になるように標準化した標準得点。算出式は以下。
偏差値 = z得点+10x50

用語の英訳は以下サイトを参照。

各種数値の求め方、使い方

  • c():配列内容を連結
  • 変数:内容を表示
  • table(変数):度数分布の一覧を表示
  • hist(変数):変数内容をヒストグラム表示
  • sum(変数):合計値を表示
  • length():データの個数をカウント
  • mean(変数):平均値を表示
  • var():不偏分散を求める。偏差の二乗の合計を『データの個数 - 1』で割っている。不偏分散から標本分散を求める場合は『不偏分散 * (データ数 - 1) / データ数』。
  • sd():標準偏差を求める。
  • max():変数の最大値を求める。
  • min():変数の最小値を求める。