2016年8月笔记

百度通过地图服务成为本地生活入口这一做法会成功吗?高德如何与之竞争?

原链

你如何界定你的产品目标体验范围的上下游界限?一个完整的用户任务链可能会很长,你到底选择多少作为你自己产品的职责范围?那些你cover不到的上下游用户任务你通过什么手段保证其体验良好?

在成本允许的情况下,加强对于整个用户任务链上下游体验把控所带来的收益是毋庸置疑的。这不光体现在用户体验的提升,更会提升你产品的商业价值。

对于任何一款产品,把握好扩展的节奏至关重要:太快用户受不了,太慢市场机会抓不住。推出新产品的话推广是问题;在老产品基础上迭代的话产品功能把控又是问题。

从你最擅长最合适的一段开始,但不要永远停留在这里:适时向上下游拓展,同时把握好产品节奏,时刻关注那些趋势性的产品技术变化。


 

Waze给未来移动地图带来何种启示?

原链

Waze每天的数据提供方包括其10%的用户,及一小部分志愿编辑。这种维基百科式的架构让Waze能够绘制出新国家区域的全新道路地图信息,甚至包括路障和施工区域等。

“我们并不希望成为广告交易的一部分。本质上讲,我们是媒介。”

公司可以借由两种途径通过地图进行广告投放。一个是将用户直接引向广告商的商店;另一个则是针对企业,比如银行或者轮胎公司,让司机们意识到他们的商店的的位置和存在。

几乎所有Waze的广告都是基于位置服务,交叉引用Waze用户和广告上在某个特定时刻的位置信息。这里的“关键”就是与另一方共同交叉引用所有的GPS数据:消费者的目的地或意图

“你在开车上班途中和去梅西商场途中的使用体验是完全不同的。”巴尔丁表示,“当你开车去梅西的时候,你或许会对JC Penny和梅西广告比较感兴趣,甚至还包括你从未注意到的梅西的应用程序。然而,当你开车去工作的时候,你或许对这些商场的信息毫无兴趣,但知道工作地点附近的银行ATM取款机的位置对你来说就较有吸引力,好节省ATM手续费。”

Waze采取广告收费模式是按显示付费,并非按点击付费模式,对于这种模式,那些在现实世界拥有较多门店的企业通常会享受到较好的广告效果。

通过众包GPS数据和“算法整合”。这听起来很理论化,但其实包含建立一个被动用户和编辑的分层结构,像维基百科那样自我管理的社区,由大区级经理监管地区级经理,再由地区性经理监管编辑,

Waze如何鼓励一小部分活跃用户来编辑和维护其地图?Waze进行了部分游戏化,用户根据他们更新的频率收集点数。巴尔丁表示,点数制度帮助Waze决定对用户的信赖程度以及是否能够将用户提升为地区或大区管理人员。


新数据环境下的城市设计 ——与Alan Penn教授对谈录

原链

当我们加入了步行主体的模拟后,设计师不再设计广场,转而设计环形贯通的开放空间。而后,设计师开始谈论人们可能的步行行为模式。最终的设计形态摆脱了规则的空间设计,趋向于有机的、不规则的形态,这与自然发展起来的城市空间非常相似。在这个实验里,通过模拟的介入,人的动线启发了设计师,而设计又同时影响了人的动线。这样一个介于设计与模拟之间的积极反馈机制得以建立,并通过步行人流模拟结果的反复校核使得最终的形态具有了某种有机性。这个例子揭示了城市建模对于城市设计的独特意义。通过这样的模式,我们也许能够摆脱近现代中国的网格城市或者是美国的超大格网街区,而使得城市形态设计对于文脉具有更高的敏感性。


Doing Data Science at Twitter

原链

Type A Data Scientist: The A is for Analysis. This type is primarily concerned with making sense of data or working with it in a fairly static way. The Type A Data Scientist is very similar to a statistician (and may be one) but knows all the practical details of working with data that aren’t taught in the statistics curriculum: data cleaning, methods for dealing with very large data sets, visualization, deep knowledge of a particular domain, writing well about data, and so on.
Type B Data Scientist: The B is for Building. Type B Data Scientists share some statistical background with Type A, but they are also very strong coders and may be trained software engineers. The Type B Data Scientist is mainly interested in using data “in production.” They build models which interact with users, often serving recommendations (products, people you may know, ads, movies, search results).

One important lesson I learned at Twitter is that a Data Scientist’s capability to extract value from data is largely coupled with the maturity of the data platform of its company. Understand what kind of DS work you want to get involved, and do your research to evaluate if the company’s infrastructure can support your goal is not only smart, but paramount to ensure the right mutual fit.

Here is the typical process of running a A/B test: Gather Samples -> Assign Buckets -> Apply Treatments -> Measure Outcomes -> Make Comparisons. To demonstrate my point, let’s revisit 5 steps above again and some of the practical problems you might run into:
Gather Samples — How many samples do we need? How many users should go into each bucket? Can we ensure that the experiment will have sufficient power?
Assign Buckets — Who are eligible to be in the experiments? and where in the code should we start assigning buckets and showing treatments? Would the placement introduce data dilution (i.e. some users are assigned to treatment but never see it)?
Apply Treatment — Are there any other teams in the organization running experiments that are competing for the same real estate in the app? How do we deal with experiment collision and ensure our data is not contaminated?
Measure Outcome — What is the hypothesis of the experiment? What are the success and failure metrics of this experiment? Can we track them? and How? What additional logging do we need to add?
Make Comparisons — Suppose we see that the # of users who logged-in increase dramatically, is it due to noise? How do we know if the results are statistically significant? Even if it is, is it practically significant?


 

高德地图车机版


From Pull and Push to Here and Now: the grand bargain of Facebook and the Feed is unraveling. What comes next?

原链

互联网发展从pull(用户自己找信息,这里的稀缺资源是destination content,例如Google)到push(聚合推送信息,feed或自己发状态推送给别人,例如Facebook)。

人们使用facebook作出的最大妥协是他发的所有内容都必须坚持保持一个一致的形象(可以是真实也可以是虚假),这就对他的自我表达有所限制,但是人的性格、所扮演的角色和所过的生活是细节丰富的多面体,自我表达因时因地复杂多变,人们在对社交网络中放开自我表达的限制的需求就变成了现在的稀缺资源。这个稀缺资源在智能手机的前置摄像头和ephemeral content问世后,才得以利用,前者导致了自拍的风靡,后者成就了阅后即焚。

发展到现在,这个稀缺资源演变成此时此刻(here and now)的体验,例如VR、直播(Twitch),这个直播又和传统的直播形式不太相同,传统的是观众偏向被动地接收信息,而现在的直播是实时的现场报道+passive media consumption+观众参与和互动,

再到各种极致的自我表达(自拍与阅后即焚,Snapchat),逐渐过渡到此时此刻的体验(直播,VR等)。

 

2016年7月的笔记

A Framework For Brainstorming Products

原链

 


关于研究思路的闲聊

最近终于找到秦老板和康老板在研究思路上的共识。

首先,我们要有一个把握方向的宏观大框架,这个框架其实为我们提供了“终极”研究问题和研究方向(当然,这个目标是否具有研究意义、应用前景怎么样和前人的研究进展都是需要阅读大量相关文献才能摸索清楚的);然后,朝着这个“终极目标”,制定一步步的、递进的计划;最后,才是深入到每一小步里使用的研究方法等细节。

如果一开始就纠结某个小细节,一旦走不通,就会犹如深陷泥潭,死扣问题不放,始终做不出来结果;宏观框架在此所起的作用就是,它作为一个终点在指引我们的研究思路,到达这个终点的路有很多条,如果一条走不通就换另一条走。康老师也说:“有时候你不知道选用什么方法或不知道如何解释结果是因为你对自己的研究问题不清楚……”。

然后我又联想到作为处女座的追求完美和极致细节这个性格特点是把双刃剑。。。又联想到其实把握宏观方向的人才是最屌的,小到一个公司的CEO,大到一个国家的领导人,他们看得比大多数人更远,他们就相当于现在最热门的去预测各个方面未来趋势的机器学习算法,需要快速评估这个目标的前景和对其有准确的预期,能不能为公司带来巨大的收益,能不能解决国家当前的首要问题。 Continue reading 2016年7月的笔记

Chapter 3 – ISL

读书笔记之
An Introduction to Statistical Learning with R
Chapter 3     线性回归

 

沿用Chapter 2 的advertising数据集,包括在TV、radio和newspaper上花费的广告费用,商品销售额。如何利用该数据集,制定明年的销售计划?我们应该从以下几个问题着手:
(1)广告费和销售额之间有关系吗?:如果没关系的话,我们干嘛还浪费时间去研究呢。(假设检验)
(2)广告费和销售额之间的关系有多强?:或者可以说,广告费对销售额的影响有多大。(RSE和R2
(3)每种媒体上的广告费对销售额各有什么影响?:是所有媒体的广告费都对销售额有贡献,还是只有其中一部分?我们需要分别分析单独的影响。(各变量系数的t值和p值)
(4)我们对每种媒体广告费对销售额的影响的估计精度如何?:For every dollar spent on advertising in a particular medium, by what amount will sales increase? How accurately can we predict this amount of increase?(置信区间)
(5)我们对未来的销售额预测结果的精度如何?:如何分配各种媒体的广告费,由此得到的销售额又会是多少。
(6)广告费与销售额之间的关系是线性的吗?如果不是,能否通过一定的转化将其变为线性关系?(残差图)
(7)是否存在交互效应(interaction effect)?:比如在电视广告和广播广告上分别投入5万元,和10万元全部投入到电视广告上,前者的搭配会比后者得到的销售额更多。(interaction term)


Continue reading Chapter 3 – ISL

Chapter 2 – ISL

读书笔记之
An Introduction to Statistical Learning with R
Chapter 2     Statistics Learning概述

 

dependent variable Y 和 predictors X 的very general关系表达式如上。其中,f 是某个固定的但未知的、关于 X 的函数;f  提供关于 Y 的systematic information;ε 是独立于 X 的、mean zero的随机误差。


 statistical learning 指的是一系列估计函数 的方法。


Why estimate f ?

  • Prediction(侧重对 的预测)

因为随机误差项 ε averages to zero,所以我们用上式来预测 Y。其中,f^ 是对 的估计,Y^ 是对 的估计;f^ 通常被看做黑盒(我们不需要知道 f^ 的具体表达式),在这个层面上 f^ 不能完美代表 f f^ is often treated as a black box, in the sense that one is not typically concerned with the exact form of f, provided that it yields accurate predictions for Y.)。

Y^ 的精度取决于两个因素:reducible error 和 irreducible error
1、reducible error:由预测函数 f^ 不能完美表达 f 而引入,可通过使用最合适的概率估计方法去减小。
2、irreducible error:由随机误差产生。为什么irreducible error的绝对值大于0?ε 可能包含对于预测有用的变量,但因为我们无法观测这些变量,所以 f 无法将这些变量一同表达;同时,ε 还可能包含不可观测的变化,比如根据病人血液的某种指标去估计其服用某种药物后产生副作用的风险,这里不可观测的变化有药物本身成分的微小不同和服药时间,我们无法保证生产过程中每粒药片都是完全相同的,也无法保证不同天或一天中不同时段病人的身体状况不发生微小变化。 Continue reading Chapter 2 – ISL

数据结构 复习 – Part 1 线性表

数据结构:研究非数值计算的程序设计问题中计算机的操作对象以及他们之间的关系(更多的是逻辑关系)和操作。

数据结构分成4种基本结构:
1、集合:结构中的数据元素之间除了“同属于一个集合”的关系外,别无其他关系。
2、线性结构:数据元素之间存在一对一的关系。
3、树:一对多
4、图或网状结构:多对多

数据在计算机中有两种不同的存储结构:顺序存储结构和链式存储结构。
1、顺序存储结构:用元素在存储器中的相对位置来表示数据元素之间的逻辑关系。例如,假设用两个字长的位串表示一个实数,则可以用地址相邻的4个字长的位串表示一个复数,上图左边表示复数 3.0-2.3i 和 -0.7+4.8i。
2、链式存储结构:用指示元素存储地址的指针来表示数据元素之间的逻辑关系。例如,上图右边,其中实部和虚部之间的关系用值为“0415”的指针(0415是虚部的存储地址)来表示。

任何一个算法的设计取决于选定的数据(逻辑)结构,而算法的实现依赖于采用的存储结构。


Continue reading 数据结构 复习 – Part 1 线性表

Vim常用指令

  1. 复制多行(数据较少):
    把光标移到第9行

    再把光标移到第15行(相当于选择第9行到第15行的数据)
  2. 复制多行(数据较多):
    横向切分一个窗口 or 纵向切分一个窗口,两个窗口打开的是同一个文件:

    在其中一个窗口里打开另一个文件:

    切换到含有源文件的窗口,在普通模式下,把光标移到你需要复制内容的起始行,然后输入你想复制的行的数量(从光标所在行往下计算),在行数后面接着输入yy,这样就将内容复制到临时寄存器里了;切换到目标文件窗口,把光标移到你接收复制内容的起始行,按一下p,就完成复制了。