【R】Rで基本統計量を算出する

R

今回はRで基本統計量を算出する方法を2つ紹介します。

基本統計量

Rのirisデータを使って実際に基本統計量を求めてみましょう。

summary

おそらく1番メジャーなのがsummaryだと思います。

書き方はシンプルに
summary(データ) です。

数値データに関しては、上から順に次のものが表示されています。

表示名内容
Min.最小値
1st Qu.第1四分位
Median中央値
Mean平均値
3rd Qu.第3四分位
Max.最大値

名義データに関してはデータの個数が表示されます。

ここで思ったことは、「数値データもデータ個数があればなおさらいいのに…」ということです。
そこで、次の方法も紹介します。

describe

データの個数も表示してくれるものの一つとして、describe関数があります。
これは、psychパッケージに含まれるものです。

初めて使う場合はインストールしておきましょう。
こちらも書き方はシンプルに
describe(データ) でOKです。

この場合は項目が横に並んでいます。
数が多くて少し見づらいですが、左から順に次の項目が並んでいます。

表示名内容
vars変数の番号
nデータの個数
mean平均値
sd標準偏差
median中央値
trimmedトリム平均
(最大側、最小側から10%を除いた平均値)
mad中央絶対偏差
(median absolute deviationの略)
min最小値
max最大値
range範囲(最大値-最小値)
skew歪度
kurtosis尖度
se標準誤差

summaryと違ってすべての変数に対して基本統計量が算出されていますが、一番下のSpeiciesには*がついています。
これは、名義データなので注意してくださいね、という意味です。

describeの方は比較的マイナーな統計量も出ていますね。
必要に応じて使っていきましょう!

コメント

タイトルとURLをコピーしました