Chapter 3 – ISL

读书笔记之
An Introduction to Statistical Learning with R
Chapter 3     线性回归

 

沿用Chapter 2 的advertising数据集,包括在TV、radio和newspaper上花费的广告费用,商品销售额。如何利用该数据集,制定明年的销售计划?我们应该从以下几个问题着手:
(1)广告费和销售额之间有关系吗?:如果没关系的话,我们干嘛还浪费时间去研究呢。(假设检验)
(2)广告费和销售额之间的关系有多强?:或者可以说,广告费对销售额的影响有多大。(RSE和R2
(3)每种媒体上的广告费对销售额各有什么影响?:是所有媒体的广告费都对销售额有贡献,还是只有其中一部分?我们需要分别分析单独的影响。(各变量系数的t值和p值)
(4)我们对每种媒体广告费对销售额的影响的估计精度如何?:For every dollar spent on advertising in a particular medium, by what amount will sales increase? How accurately can we predict this amount of increase?(置信区间)
(5)我们对未来的销售额预测结果的精度如何?:如何分配各种媒体的广告费,由此得到的销售额又会是多少。
(6)广告费与销售额之间的关系是线性的吗?如果不是,能否通过一定的转化将其变为线性关系?(残差图)
(7)是否存在交互效应(interaction effect)?:比如在电视广告和广播广告上分别投入5万元,和10万元全部投入到电视广告上,前者的搭配会比后者得到的销售额更多。(interaction term)


Continue reading Chapter 3 – ISL

Chapter 2 – ISL

读书笔记之
An Introduction to Statistical Learning with R
Chapter 2     Statistics Learning概述

 

dependent variable Y 和 predictors X 的very general关系表达式如上。其中,f 是某个固定的但未知的、关于 X 的函数;f  提供关于 Y 的systematic information;ε 是独立于 X 的、mean zero的随机误差。


 statistical learning 指的是一系列估计函数 的方法。


Why estimate f ?

  • Prediction(侧重对 的预测)

因为随机误差项 ε averages to zero,所以我们用上式来预测 Y。其中,f^ 是对 的估计,Y^ 是对 的估计;f^ 通常被看做黑盒(我们不需要知道 f^ 的具体表达式),在这个层面上 f^ 不能完美代表 f f^ is often treated as a black box, in the sense that one is not typically concerned with the exact form of f, provided that it yields accurate predictions for Y.)。

Y^ 的精度取决于两个因素:reducible error 和 irreducible error
1、reducible error:由预测函数 f^ 不能完美表达 f 而引入,可通过使用最合适的概率估计方法去减小。
2、irreducible error:由随机误差产生。为什么irreducible error的绝对值大于0?ε 可能包含对于预测有用的变量,但因为我们无法观测这些变量,所以 f 无法将这些变量一同表达;同时,ε 还可能包含不可观测的变化,比如根据病人血液的某种指标去估计其服用某种药物后产生副作用的风险,这里不可观测的变化有药物本身成分的微小不同和服药时间,我们无法保证生产过程中每粒药片都是完全相同的,也无法保证不同天或一天中不同时段病人的身体状况不发生微小变化。 Continue reading Chapter 2 – ISL