Chapter 3 – ISL

读书笔记之
An Introduction to Statistical Learning with R
Chapter 3     线性回归

 

沿用Chapter 2 的advertising数据集,包括在TV、radio和newspaper上花费的广告费用,商品销售额。如何利用该数据集,制定明年的销售计划?我们应该从以下几个问题着手:
(1)广告费和销售额之间有关系吗?:如果没关系的话,我们干嘛还浪费时间去研究呢。(假设检验)
(2)广告费和销售额之间的关系有多强?:或者可以说,广告费对销售额的影响有多大。(RSE和R2
(3)每种媒体上的广告费对销售额各有什么影响?:是所有媒体的广告费都对销售额有贡献,还是只有其中一部分?我们需要分别分析单独的影响。(各变量系数的t值和p值)
(4)我们对每种媒体广告费对销售额的影响的估计精度如何?:For every dollar spent on advertising in a particular medium, by what amount will sales increase? How accurately can we predict this amount of increase?(置信区间)
(5)我们对未来的销售额预测结果的精度如何?:如何分配各种媒体的广告费,由此得到的销售额又会是多少。
(6)广告费与销售额之间的关系是线性的吗?如果不是,能否通过一定的转化将其变为线性关系?(残差图)
(7)是否存在交互效应(interaction effect)?:比如在电视广告和广播广告上分别投入5万元,和10万元全部投入到电视广告上,前者的搭配会比后者得到的销售额更多。(interaction term)


Continue reading Chapter 3 – ISL

Chapter 2 – ISL

读书笔记之
An Introduction to Statistical Learning with R
Chapter 2     Statistics Learning概述

 

dependent variable Y 和 predictors X 的very general关系表达式如上。其中,f 是某个固定的但未知的、关于 X 的函数;f  提供关于 Y 的systematic information;ε 是独立于 X 的、mean zero的随机误差。


 statistical learning 指的是一系列估计函数 的方法。


Why estimate f ?

  • Prediction(侧重对 的预测)

因为随机误差项 ε averages to zero,所以我们用上式来预测 Y。其中,f^ 是对 的估计,Y^ 是对 的估计;f^ 通常被看做黑盒(我们不需要知道 f^ 的具体表达式),在这个层面上 f^ 不能完美代表 f f^ is often treated as a black box, in the sense that one is not typically concerned with the exact form of f, provided that it yields accurate predictions for Y.)。

Y^ 的精度取决于两个因素:reducible error 和 irreducible error
1、reducible error:由预测函数 f^ 不能完美表达 f 而引入,可通过使用最合适的概率估计方法去减小。
2、irreducible error:由随机误差产生。为什么irreducible error的绝对值大于0?ε 可能包含对于预测有用的变量,但因为我们无法观测这些变量,所以 f 无法将这些变量一同表达;同时,ε 还可能包含不可观测的变化,比如根据病人血液的某种指标去估计其服用某种药物后产生副作用的风险,这里不可观测的变化有药物本身成分的微小不同和服药时间,我们无法保证生产过程中每粒药片都是完全相同的,也无法保证不同天或一天中不同时段病人的身体状况不发生微小变化。 Continue reading Chapter 2 – ISL

数据结构 复习 – Part 1 线性表

数据结构:研究非数值计算的程序设计问题中计算机的操作对象以及他们之间的关系(更多的是逻辑关系)和操作。

数据结构分成4种基本结构:
1、集合:结构中的数据元素之间除了“同属于一个集合”的关系外,别无其他关系。
2、线性结构:数据元素之间存在一对一的关系。
3、树:一对多
4、图或网状结构:多对多

数据在计算机中有两种不同的存储结构:顺序存储结构和链式存储结构。
1、顺序存储结构:用元素在存储器中的相对位置来表示数据元素之间的逻辑关系。例如,假设用两个字长的位串表示一个实数,则可以用地址相邻的4个字长的位串表示一个复数,上图左边表示复数 3.0-2.3i 和 -0.7+4.8i。
2、链式存储结构:用指示元素存储地址的指针来表示数据元素之间的逻辑关系。例如,上图右边,其中实部和虚部之间的关系用值为“0415”的指针(0415是虚部的存储地址)来表示。

任何一个算法的设计取决于选定的数据(逻辑)结构,而算法的实现依赖于采用的存储结构。


Continue reading 数据结构 复习 – Part 1 线性表

Ikiru – Roger Ebert’s Movie Review

The stranger takes him out on the town, to gambling parlors, dance halls and the red light district[红灯区], and finally to a bar where the piano player calls for requests and the old man, still wearing his overcoat and hat, asks for “Life Is Short–Fall in Love, Dear Maiden.”
“Oh, yeah, one of those old ’20s songs,” the piano man says, but he plays it, and then the old man starts to sing. His voice is soft and he scarcely moves his lips, but the bar falls silent, the party girls and the drunken salary men drawn for a moment into a reverie[幻想;沉思] about the shortness of their own lives.
This moment comes near the center point of “Ikiru,” Akira Kurosawa’s 1952 film about a bureaucrat who works for 30 years at Tokyo City Hall and never accomplishes anything. Mr. Watanabe has become the chief of his section, and sits with a pile of papers on either side of his desk, in front of shelves filled with countless more documents. Down a long table on either side of him, his assistants shuffle these papers back and forth. Nothing is ever decided. His job is to deal with citizen complaints, but his real job is to take a small rubber stamp and press it against each one of the documents, to show that he has handled it.
The opening shot of the film is an X-ray of Watanabe’s chest. “He has gastric cancer, but doesn’t yet know it,” says a narrator. “He just drifts through life. In fact, he’s barely alive.Continue reading Ikiru – Roger Ebert’s Movie Review

Vim常用指令

  1. 复制多行(数据较少):
    把光标移到第9行

    再把光标移到第15行(相当于选择第9行到第15行的数据)
  2. 复制多行(数据较多):
    横向切分一个窗口 or 纵向切分一个窗口,两个窗口打开的是同一个文件:

    在其中一个窗口里打开另一个文件:

    切换到含有源文件的窗口,在普通模式下,把光标移到你需要复制内容的起始行,然后输入你想复制的行的数量(从光标所在行往下计算),在行数后面接着输入yy,这样就将内容复制到临时寄存器里了;切换到目标文件窗口,把光标移到你接收复制内容的起始行,按一下p,就完成复制了。