8章 readrによるデータインポート
8.0 ライブラリーの読み込み
8.1 はじめに
練習問題はありません
8.2 作業をはじめるにあたって
練習問題1 フィルードが「|
」で区切られたファイルを読み込むには、どの関数を使うのか。
|
」で区切られたファイルを読み込むには、どの関数を使うのか。read_delim()
を使用します。delimitationの頭文字の引数であるdelim
に区切り文字を指定します。詳しくはこちらに記載されています。
練習問題2 read_csv()
とread_tsv()
の共通引数は何か。
read_csv()
とread_tsv()
の共通引数は何か。formals()
で引数の一覧を取得し、共通部分をintersect()
で抽出します。
練習問題3 read_fwf()
で最も重要な引数は何か。
read_fwf()
で最も重要な引数は何か。read_fwf()
の重要な引数はcol_positions
です。「固定幅フォーマット」のデータ列の開始位置と終了位置を関数に指定することです。
練習問題4 "x,y\n1,'a,b'"
という文字列を読み込むにはどうすればよいか。
"x,y\n1,'a,b'"
という文字列を読み込むにはどうすればよいか。read_csv()
でそのまま読み込むと、文字列のカンマで区切られてしまい、正しく読み込めません。したがって、quote
で'
を指定し、文字列を認識させます。
練習問題5 下記の文字列のどこがまいずのかを示しなさい。
この場合、カラム名と値の列数が一致しておらず、カラム数に合わせて、列がなくなってしまいます。
データ内の列数とカラムの列数と一致していません。1行目には2つの値しかないので、column c
はmissingに設定され、2行目には追加の値があり、その値はドロップされます。
"
で1
を閉じている部分かな…よくわからない。
これを読み込むには、read_delim()
でdelim = ";"
を指定します。
8.3 ベクトルをパースする
練習問題1 locale()
で最も重要な引数は何か。
locale()
で最も重要な引数は何か。locale()
には、以下を設定するための引数があります。
日付時刻形式:
date_names
、date_format
、およびtime_format
タイムゾーン:
tz
マーク:
decimal_mark
、grouping_mark
エンコーディング:
encoding
練習問題2 decimal_mark
を,
に設定するとgrouping_mark
に何が起こるのか。
decimal_mark
を,
に設定するとgrouping_mark
に何が起こるのか。decimal_mark
が,
に設定されている場合、グループ化マークは.
が設定されます。同じにはできません。
decimal_mark = ","
は下記の設定となります。
grouping_mark = ","
は下記の設定となります。
練習問題3 date_format
とtime_format
のlocale()
の役割について教えなさい。
date_format
とtime_format
のlocale()
の役割について教えなさい。デフォルトの日付と時刻のフォーマットを提供します。
練習問題4 米国外に住んでいる場合は、最もよく読むファイルの種類の設定をカプセル化した新しいロケールオブジェクトを作成しなさい。
ここでは日本を例に考える。"%Y年%m月%d日"
が一般的なフォーマットなので、これを読む込むためのjp_locale
を設定します。
練習問題5 read_csv()
とread_csv2()
の違いについて教えなさい。
read_csv()
とread_csv2()
の違いについて教えなさい。read_csv()
はカンマを区切り文字としており、read_csv2()
は、セミコロン(;
)を使用します。
練習問題6 ヨーロッパまたはアジアで使用されている最も一般的なエンコーディングは何ですか。
標準はUTF-8、日本語独特なものとして、JIS X 0208、シフトJIS、ISO-2022-JPなどがある。エンコーディングの詳細は、いまいちわかってません。
練習問題7 次の文字列を解析する正しいフォーマット文字列を作りなさい。
8.4 ファイルをパースする
練習問題はありません
8.5 ファイルへの書き出し
練習問題はありません
8.6 他の種類のデータ
練習問題はありません
最終更新