Rの内部にあるデータは私たちがオブジェクトとして保存しているデータの他にも
・R自体にに内蔵されているデータ
・インストールされているパッケージの中にあるデータ
の2種類が存在しています。
まずRに内蔵されているデータですが、これはdata()で確認することができます。
ちょっと見にくいのですが実際にやるとこうなります。試しにその一覧からUKgasというデータセットを見ていくと
こんな感じになります。
このデータセットがなんなのかを調べたいときは ?データ名 で検索できます。
> ?UKgas
どうやらイギリスの四半期ごとのガス使用量らしいです。
データの種類をclass()で確認すると
> class(UKgas)
[1] "ts"
当たり前ですがtime series、つまり時系列データですね。ちなみにデータ数の確認はlength()で行えます。
> length(UKgas)
[1] 108
Rに内蔵されている統計データは全部で100以上あるのですが、データの説明がほとんど英語です。日本語での説明はここのサイトに載っています。
統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む
そしてRに内蔵されているデータの他にもRに、もとからインストールされているパッケージの中にもデータセットがあります。
たとえば、Ecdat というパッケージの中のCRSPmon というデータセットを利用したいときは
> library(Ecdat)
として後で
> data()
と入力すれば、先ほどの一覧に、Ecdat に含まれるデータ一覧が追加されて表示されます
> data(CRSPmon)
> CRSPmon
ge ibm mobil crsp
Jan 1969 -0.011984 -0.059524 -0.014043 -0.006714
Feb 1969 -0.060377 -0.007004 -0.078431 -0.053641
:
余談ですが、これらはアメリカの代表的な企業の1969 年~1998 年の月次の株価変化率で、ge は日本ではあまり馴染みがないですが、家電やエンジンなど幅広い事業を手がけている多国籍企業のゼネラル・エレクトリック 社
ibm は、IBMパンコンなどインターネット混迷期に「コンピューターの巨人」と呼ばれた(今は見る影もありませんが…)IBM 社、mobil は、テキサスに本社をおく国際的石油資本のMobil 社です。
Crsp はCRSP USトータルマーケット・インデックスという、米国経済の動向を表す代表的な株価指数(インデックス)です。
データセットから一部のデータだけを取り出したいときは
>IBM <- CRSPmon[,2]
> IBM
統計解析の練習がしたいけどデータがないというときはRのなかにあるデータを使ってみるのがオススメです。
自分でデータを集めて分析しやすい形にするというのは結構骨の折れる作業なので、実用的な結果はいらないから基本的な解析の練習だけしたいというときはR内部のデータを使いましょう。
追記:データ解析について本格的にしたい方はこちらの本がオススメです。