5章 探索的データ分析
5.0 ライブラリーの読み込み
library("tidyverse")
library("viridis")
library("nycflights13")
library("lvplot")
library("ggbeeswarm")
library("ggstance")
library("gridExtra")5.1 はじめに
5.2 質問
5.3 変動
練習問題1 : diamondsのx、y、zの分布を探索しなさい。また、関係性を考え直さい。
diamondsのx、y、zの分布を探索しなさい。また、関係性を考え直さい。




練習問題2 : 価格の分布を調べなさい。何らかの発見を見つけなさい。


練習問題3 : 0.99カラットのダイヤモンドはいくつですか?1カラットはいくつですか?違いは何だと思いますか?

練習問題4 : coord_cartesian()とxlim()またはylim()を使った場合の違いを調べなさい。
coord_cartesian()とxlim()またはylim()を使った場合の違いを調べなさい。
5.4 欠損値
練習問題1 : ヒストグラムの欠損値はどうなりますか?棒グラフの欠損値はどうなりますか?


練習問題2 : mean()とsum()のna.rm = TRUEの挙動を調べなさい。
mean()とsum()のna.rm = TRUEの挙動を調べなさい。5.5 共変動
練習問題1 : キャンセルフライトとフライトの出発時刻の可視化を改善しなさい。

練習問題2 : ダイヤモンドの価格を予測する上で、どの変数が最も重要ですか。その変数はカットとどのように関連していますか?これら2つの関係を組み合わせると、低品質のダイヤモンドがより高価になるのはなぜですか?



練習問題3 : {ggstance}パッケージを利用し、水平箱ひげ図を作成しなさい。coord_flip()の違いは何ですか?
{ggstance}パッケージを利用し、水平箱ひげ図を作成しなさい。coord_flip()の違いは何ですか?
練習問題4 : {lvplot}パッケージを利用し、geom_lv()でprice vs cutの分布を表示しなさい。
{lvplot}パッケージを利用し、geom_lv()でprice vs cutの分布を表示しなさい。
練習問題5 : geom_violin()、geom_histogram()、geom_freqpoly()を比較し、各方法の長所と短所を調べなさい。
geom_violin()、geom_histogram()、geom_freqpoly()を比較し、各方法の長所と短所を調べなさい。
練習問題6 : 小さいデータの場合geom_jitter()は、連続変数とカテゴリカル変数の関係を調べるために便利です。{ggbeeswarm}パッケージは似た多くの方法を提供しています。それらをリスト化し、何をするのか簡単に説明してください。
geom_jitter()は、連続変数とカテゴリカル変数の関係を調べるために便利です。{ggbeeswarm}パッケージは似た多くの方法を提供しています。それらをリスト化し、何をするのか簡単に説明してください。
練習問題7 : color内のcutの分布をより明確に示すために、データセットをどのようにスケール変更すればよいか。
color内のcutの分布をより明確に示すために、データセットをどのようにスケール変更すればよいか。
練習問題8 : geom_tile()と{dplyr}パッケージを一緒に使用し、目的地や年月によって平均飛行遅延がどのように変わるかを調べなさい。
geom_tile()と{dplyr}パッケージを一緒に使用し、目的地や年月によって平均飛行遅延がどのように変わるかを調べなさい。
練習問題9 : さきほどの例ではaes(x = color, y = cut)なく、aes(x = cut, y = color)のほうが、よいのでしょうか。
aes(x = color, y = cut)なく、aes(x = cut, y = color)のほうが、よいのでしょうか。練習問題10 : 条件付きの分布を箱ひげ図で要約する代わりに、度数分布多角形を使用できる。cut_width()とcut_number()を使うときに何を考慮する必要があるか。
cut_width()とcut_number()を使うときに何を考慮する必要があるか。
練習問題11 : priceで区分けしたcaratの分布を視覚化しなさい。
priceで区分けしたcaratの分布を視覚化しなさい。
練習問題12 : 大きいダイヤモンドと小さいダイヤモンドの価格分布を比較しなさい。


練習問題13 : カット、カラット、および価格の組み合わせ分布を視覚化するために、学んだ2つの手法を組み合わせなさい。

練習問題14 : 2次元プロットは、1次元プロットでは見えない異常値を明らかにします。たとえば、下記のプロットでは、xとyの異常な組み合わせがあることがわかります。
xとyの異常な組み合わせがあることがわかります。
5.6 パターンとモデル
5.7 ggplot2の呼び出し
ggplot2の呼び出し5.8 さらにまなぶために
最終更新