今回はRで基本統計量を算出する方法を2つ紹介します。
基本統計量
Rのirisデータを使って実際に基本統計量を求めてみましょう。
summary
おそらく1番メジャーなのがsummaryだと思います。
書き方はシンプルに
summary(データ) です。
1 2 3 4 5 6 7 8 |
summary(iris) Sepal.Length Sepal.Width Petal.Length Petal.Width Species Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100 setosa :50 1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300 versicolor:50 Median :5.800 Median :3.000 Median :4.350 Median :1.300 virginica :50 Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199 3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800 Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500 |
数値データに関しては、上から順に次のものが表示されています。
表示名 | 内容 |
---|---|
Min. | 最小値 |
1st Qu. | 第1四分位 |
Median | 中央値 |
Mean | 平均値 |
3rd Qu. | 第3四分位 |
Max. | 最大値 |
名義データに関してはデータの個数が表示されます。
ここで思ったことは、「数値データもデータ個数があればなおさらいいのに…」ということです。
そこで、次の方法も紹介します。
describe
データの個数も表示してくれるものの一つとして、describe関数があります。
これは、psychパッケージに含まれるものです。
初めて使う場合はインストールしておきましょう。
こちらも書き方はシンプルに
describe(データ) でOKです。
1 2 3 4 5 6 7 8 9 |
install.packages("psych") #初めての場合はインストール library(psych) describe(iris) vars n mean sd median trimmed mad min max range skew kurtosis se Sepal.Length 1 150 5.84 0.83 5.80 5.81 1.04 4.3 7.9 3.6 0.31 -0.61 0.07 Sepal.Width 2 150 3.06 0.44 3.00 3.04 0.44 2.0 4.4 2.4 0.31 0.14 0.04 Petal.Length 3 150 3.76 1.77 4.35 3.76 1.85 1.0 6.9 5.9 -0.27 -1.42 0.14 Petal.Width 4 150 1.20 0.76 1.30 1.18 1.04 0.1 2.5 2.4 -0.10 -1.36 0.06 Species* 5 150 2.00 0.82 2.00 2.00 1.48 1.0 3.0 2.0 0.00 -1.52 0.07 |
この場合は項目が横に並んでいます。
数が多くて少し見づらいですが、左から順に次の項目が並んでいます。
表示名 | 内容 |
---|---|
vars | 変数の番号 |
n | データの個数 |
mean | 平均値 |
sd | 標準偏差 |
median | 中央値 |
trimmed | トリム平均 (最大側、最小側から10%を除いた平均値) |
mad | 中央絶対偏差 (median absolute deviationの略) |
min | 最小値 |
max | 最大値 |
range | 範囲(最大値-最小値) |
skew | 歪度 |
kurtosis | 尖度 |
se | 標準誤差 |
summaryと違ってすべての変数に対して基本統計量が算出されていますが、一番下のSpeiciesには*がついています。
これは、名義データなので注意してくださいね、という意味です。
describeの方は比較的マイナーな統計量も出ていますね。
必要に応じて使っていきましょう!
コメント