【R】Rで基本統計量を算出する

今回はRで基本統計量を算出する方法を2つ紹介します。

基本統計量

基本統計量

Rのirisデータを使って実際に基本統計量を求めてみましょう。

summary

おそらく1番メジャーなのがsummaryだと思います。

書き方はシンプルに
summary(データ)　です。

summary(iris)
  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width          Species  
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100   setosa    :50  
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300   versicolor:50  
 Median :5.800   Median :3.000   Median :4.350   Median :1.300   virginica :50  
 Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199                  
 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800                  
 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500

summary(iris)

Sepal.Length Sepal.Width Petal.Length Petal.Width Species

Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100 setosa :50

1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300 versicolor:50

Median :5.800 Median :3.000 Median :4.350 Median :1.300 virginica :50

Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199

3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800

Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500

数値データに関しては、上から順に次のものが表示されています。

表示名	内容
Min.	最小値
1st Qu.	第１四分位
Median	中央値
Mean	平均値
3rd Qu.	第３四分位
Max.	最大値

名義データに関してはデータの個数が表示されます。

ここで思ったことは、「数値データもデータ個数があればなおさらいいのに…」ということです。
そこで、次の方法も紹介します。

describe

データの個数も表示してくれるものの一つとして、describe関数があります。
これは、psychパッケージに含まれるものです。

初めて使う場合はインストールしておきましょう。
こちらも書き方はシンプルに
describe(データ)　でOKです。

install.packages("psych") #初めての場合はインストール
library(psych)
describe(iris)
             vars   n mean   sd median trimmed  mad min max range  skew kurtosis   se
Sepal.Length    1 150 5.84 0.83   5.80    5.81 1.04 4.3 7.9   3.6  0.31    -0.61 0.07
Sepal.Width     2 150 3.06 0.44   3.00    3.04 0.44 2.0 4.4   2.4  0.31     0.14 0.04
Petal.Length    3 150 3.76 1.77   4.35    3.76 1.85 1.0 6.9   5.9 -0.27    -1.42 0.14
Petal.Width     4 150 1.20 0.76   1.30    1.18 1.04 0.1 2.5   2.4 -0.10    -1.36 0.06
Species*        5 150 2.00 0.82   2.00    2.00 1.48 1.0 3.0   2.0  0.00    -1.52 0.07

install.packages("psych") #初めての場合はインストール

library(psych)

describe(iris)

vars n mean sd median trimmed mad min max range skew kurtosis se

Sepal.Length 1 150 5.84 0.83 5.80 5.81 1.04 4.3 7.9 3.6 0.31 -0.61 0.07

Sepal.Width 2 150 3.06 0.44 3.00 3.04 0.44 2.0 4.4 2.4 0.31 0.14 0.04

Petal.Length 3 150 3.76 1.77 4.35 3.76 1.85 1.0 6.9 5.9 -0.27 -1.42 0.14

Petal.Width 4 150 1.20 0.76 1.30 1.18 1.04 0.1 2.5 2.4 -0.10 -1.36 0.06

Species* 5 150 2.00 0.82 2.00 2.00 1.48 1.0 3.0 2.0 0.00 -1.52 0.07

この場合は項目が横に並んでいます。
数が多くて少し見づらいですが、左から順に次の項目が並んでいます。

表示名	内容
vars	変数の番号
n	データの個数
mean	平均値
sd	標準偏差
median	中央値
trimmed	トリム平均（最大側、最小側から10%を除いた平均値）
mad	中央絶対偏差（median absolute deviationの略）
min	最小値
max	最大値
range	範囲（最大値-最小値）
skew	歪度
kurtosis	尖度
se	標準誤差

summaryと違ってすべての変数に対して基本統計量が算出されていますが、一番下のSpeiciesには*がついています。
これは、名義データなので注意してくださいね、という意味です。

describeの方は比較的マイナーな統計量も出ていますね。
必要に応じて使っていきましょう！