データの集計や分析を行うにはデータの中身を理解していないといけないですよね。かといってデータの全部を見ようとするのは、よほど小さいデータセットでない限りは難しいものです。
今回はRのirisデータセットを例に、概要を確認する方法をいくつか紹介します。
データの一部を確認する
データ全体を見るのが困難であれば一部のみ確認する、という方法もとれます。データセットの数行を確認するのに使えるのがheadとtailです。
head
headは最初の数行を表示します。デフォルトでは6行ですが、どれだけ表示するかはオプションで設定可能です。
書き方は、head(データ,(表示行数)) です。
1 2 3 4 5 6 7 8 9 |
head(iris) Sepal.Length Sepal.Width Petal.Length Petal.Width Species 1 5.1 3.5 1.4 0.2 setosa 2 4.9 3.0 1.4 0.2 setosa 3 4.7 3.2 1.3 0.2 setosa 4 4.6 3.1 1.5 0.2 setosa 5 5.0 3.6 1.4 0.2 setosa 6 5.4 3.9 1.7 0.4 setosa |
1 2 3 4 5 6 7 8 9 10 |
head(iris, 7) #最初の7行を確認 Sepal.Length Sepal.Width Petal.Length Petal.Width Species 1 5.1 3.5 1.4 0.2 setosa 2 4.9 3.0 1.4 0.2 setosa 3 4.7 3.2 1.3 0.2 setosa 4 4.6 3.1 1.5 0.2 setosa 5 5.0 3.6 1.4 0.2 setosa 6 5.4 3.9 1.7 0.4 setosa 7 4.6 3.4 1.4 0.3 setosa |
tail
tailはheadとは逆に最後の数行を確認することができます。たまに、データセットの前半は整備されているが後半はぐちゃぐちゃになっているおかしなデータを確認するのに有効です。
こちらもheadと同様にデフォルトでは6行表示されますが、何行表示するかは指定できます。
1 2 3 4 5 6 7 8 9 |
tail(iris) Sepal.Length Sepal.Width Petal.Length Petal.Width Species 145 6.7 3.3 5.7 2.5 virginica 146 6.7 3.0 5.2 2.3 virginica 147 6.3 2.5 5.0 1.9 virginica 148 6.5 3.0 5.2 2.0 virginica 149 6.2 3.4 5.4 2.3 virginica 150 5.9 3.0 5.1 1.8 virginica |
1 2 3 4 5 6 |
tail(iris,3) #最後の3行を確認 Sepal.Length Sepal.Width Petal.Length Petal.Width Species 148 6.5 3.0 5.2 2.0 virginica 149 6.2 3.4 5.4 2.3 virginica 150 5.9 3.0 5.1 1.8 virginica |
データ型も含めて確認する
データセットの中のデータを見るだけではなくて、レコードがどれだけあってどんなデータ型なのかなども理解する必要があります。
そこで使えるのがstrとglimpseです。
str
strは、structure(構造)の頭3文字をとったもので、その名の通りデータ構造を確認できます。
書き方も、str(データ) といたってシンプルです。
1 2 3 4 5 6 7 8 |
str(iris) 'data.frame': 150 obs. of 5 variables: $ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ... $ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ... $ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ... $ Petal.Width : num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ... $ Species : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ... |
strの結果の1行目を見ると、irisはデータフレームで150レコードで5つの変数を持つデータだと分かります。
また、結果の2行目以降は各変数の情報が示されており、Speciesはfactor型、それ以外の変数は数値型であることが分かります。
glimpse
glimpseはdplyrパッケージの関数です。返ってくる結果はstrとほぼ同じです。
1 2 3 4 5 6 7 8 9 10 |
library(dplyr) #パッケージdplyrを利用 glimpse(iris) Rows: 150 Columns: 5 $ Sepal.Length <dbl> 5.1, 4.9, 4.7, 4.6, 5.0, 5.4, 4.6, 5.0, 4.4, 4.9, 5.4, 4.8, … $ Sepal.Width <dbl> 3.5, 3.0, 3.2, 3.1, 3.6, 3.9, 3.4, 3.4, 2.9, 3.1, 3.7, 3.4, … $ Petal.Length <dbl> 1.4, 1.4, 1.3, 1.5, 1.4, 1.7, 1.4, 1.5, 1.4, 1.5, 1.5, 1.6, … $ Petal.Width <dbl> 0.2, 0.2, 0.2, 0.2, 0.2, 0.4, 0.3, 0.2, 0.2, 0.1, 0.2, 0.2, … $ Species <fct> setosa, setosa, setosa, setosa, setosa, setosa, setosa, set … |
今回はデータの概要の確認方法をいくつか紹介しました。
データを扱う際には、しっかりとデータの中身を理解しておきましょう!
コメント