19章 モデル構築
19.0 ライブラリの読み込み
library("tidyverse")
library("modelr")
library("lubridate")
library("broom")
library("nycflights13")
library("splines")diamonds2 <- diamonds %>%
filter(carat <= 2.5) %>%
mutate(
lprice = log2(price),
lcarat = log2(carat)
)
mod_diamond2 <- lm(lprice ~ lcarat + color + cut + clarity, data = diamonds2)
diamonds2 <- add_residuals(diamonds2, mod_diamond2, "lresid2")19.1 はじめに
19.2 低品質のダイヤモンドはなぜ高価なのか。
練習問題1 lcaratとlpriceのプロットの縦の明るい縦の縞は何か。
lcaratとlpriceのプロットの縦の明るい縦の縞は何か。

練習問題2 log(price) = a_0 + a_1 * log(carat)は何を示すのか。
log(price) = a_0 + a_1 * log(carat)は何を示すのか。
練習問題3 大きい残差と小さい残差を持っているダイヤモンドを抽出しなさい。これらのダイヤモンドについて何か変わったことはあるか?特に悪いのか、それとも良いのか、価格の間違いなのか。
練習問題4 最終的なモデルmod_diamonds2は、ダイヤモンドの価格を予測するのに役立つか。
mod_diamonds2は、ダイヤモンドの価格を予測するのに役立つか。
19.3 何が1日の便数に影響するか。
練習問題1 1月20日、5月26日、9月1日のフライト数が予想より少なかった理由をGoogleのスキルを駆使してブレインストーミングしなさい。
練習問題2 正の残差が高い3日間は何を表していますか?これらの日はどのようにして別の年と一般化できるのか。
練習問題3 wdayを土曜日だけ学期ごとに区切る。Thurs、Fri、Sat-summer、Sat-spring、Sat-fallを作成しなさい。このモデルは、wdayとtermの組み合わせをしたモデルと比較してどうか。
wdayを土曜日だけ学期ごとに区切る。Thurs、Fri、Sat-summer、Sat-spring、Sat-fallを作成しなさい。このモデルは、wdayとtermの組み合わせをしたモデルと比較してどうか。
練習問題4 曜日、学期、祝日を組み合わせた新しい変数を作成しなさい。そのモデルの残差はどうか。

練習問題5 月によって変動する曜日効果にモデルを合わせた場合(つまりn ~ wday * month)、どうなるのか?なぜこれはあまり役に立たないのか?
n ~ wday * month)、どうなるのか?なぜこれはあまり役に立たないのか?練習問題6 モデルn ~ wday + ns(date, 5)はどのようだと期待するか。なぜこれはあまり役に立たないのか?
n ~ wday + ns(date, 5)はどのようだと期待するか。なぜこれはあまり役に立たないのか?
練習問題7 日曜日に出発する人々は、月曜日のどこかにいる必要があるビジネスマンである可能性が高いと仮定する。その仮説を、距離と時間に基づいてどのように分解するかを見ることによって調べなさい。それが本当なら、遠くの場所へもっと日曜日の夕方のフライトを見ることを期待できるか。


練習問題8 日曜日と土曜日がプロットの別々の端にあることは少し煩わしい。月曜日に始まるように因子のレベルを設定する関数を書きなさい。

19.4 モデルについてもっと知る
最終更新