【R】Rでデータの概要を見る方法いろいろ

R

 データの集計や分析を行うにはデータの中身を理解していないといけないですよね。かといってデータの全部を見ようとするのは、よほど小さいデータセットでない限りは難しいものです。
 今回はRのirisデータセットを例に、概要を確認する方法をいくつか紹介します。

データの一部を確認する

 データ全体を見るのが困難であれば一部のみ確認する、という方法もとれます。データセットの数行を確認するのに使えるのがheadとtailです。

head

 headは最初の数行を表示します。デフォルトでは6行ですが、どれだけ表示するかはオプションで設定可能です。
 書き方は、head(データ,(表示行数)) です。

tail

 tailはheadとは逆に最後の数行を確認することができます。たまに、データセットの前半は整備されているが後半はぐちゃぐちゃになっているおかしなデータを確認するのに有効です。
 こちらもheadと同様にデフォルトでは6行表示されますが、何行表示するかは指定できます。

データ型も含めて確認する

 データセットの中のデータを見るだけではなくて、レコードがどれだけあってどんなデータ型なのかなども理解する必要があります。
 そこで使えるのがstrとglimpseです。

str

 strは、structure(構造)の頭3文字をとったもので、その名の通りデータ構造を確認できます。
 書き方も、str(データ) といたってシンプルです。

 strの結果の1行目を見ると、irisはデータフレームで150レコードで5つの変数を持つデータだと分かります。
 また、結果の2行目以降は各変数の情報が示されており、Speciesはfactor型、それ以外の変数は数値型であることが分かります。

glimpse

 glimpseはdplyrパッケージの関数です。返ってくる結果はstrとほぼ同じです。

今回はデータの概要の確認方法をいくつか紹介しました。
データを扱う際には、しっかりとデータの中身を理解しておきましょう!

コメント

タイトルとURLをコピーしました