同じデータを手にしても,それを表にまとめるときには,ある人は列に並べる値を,別の人は行に並べたりする。ある人が一つの表にまとめるようなデータを,別の人は複数の表に分けてまとめることもある。 というわけで,データ処理のときに案外大変なのが,手にしたデータのフォーマットを解析しやすいフォーマットに変換する前処理だったりする。
R上で動くインタラクティブ教材swirlの紹介。 以下のように簡単に動きます。
> install.packages("swirl") > library(swirl) > swirl()
RやpythonをMacで実行するとlocaleまわりのエラーが出ることがある。
Rの場合
$ Rscript test.r 起動準備中です - 警告メッセージ: 1: Setting LC_COLLATE failed, using "C" 2: Setting LC_TIME failed, using "C" 3: Setting LC_MESSAGES failed, using "C" 4: Setting LC_MONETARY failed, using "C
Coursera.org にあったコース"Data Scientist’s Toolbox“では何のお勉強をするのかなとのぞいてみた。 1ヶ月間のコースで R や Rstudio, Git のインストール方法や使い方の基本の説明があった。
論文等を書く時,作成した文書と,それに入れるグラフファイルと,そのグラフを作るデータの対応がわからなくならないように整理整頓するのが面倒なんだけど,markdown の文書ファイルに R のコマンドを埋めこんで,グラフの作成をドキュメント整形と同時にすることができるらしい。