2016年7月的笔记

A Framework For Brainstorming Products

原链

 


关于研究思路的闲聊

最近终于找到秦老板和康老板在研究思路上的共识。

首先,我们要有一个把握方向的宏观大框架,这个框架其实为我们提供了“终极”研究问题和研究方向(当然,这个目标是否具有研究意义、应用前景怎么样和前人的研究进展都是需要阅读大量相关文献才能摸索清楚的);然后,朝着这个“终极目标”,制定一步步的、递进的计划;最后,才是深入到每一小步里使用的研究方法等细节。

如果一开始就纠结某个小细节,一旦走不通,就会犹如深陷泥潭,死扣问题不放,始终做不出来结果;宏观框架在此所起的作用就是,它作为一个终点在指引我们的研究思路,到达这个终点的路有很多条,如果一条走不通就换另一条走。康老师也说:“有时候你不知道选用什么方法或不知道如何解释结果是因为你对自己的研究问题不清楚……”。

然后我又联想到作为处女座的追求完美和极致细节这个性格特点是把双刃剑。。。又联想到其实把握宏观方向的人才是最屌的,小到一个公司的CEO,大到一个国家的领导人,他们看得比大多数人更远,他们就相当于现在最热门的去预测各个方面未来趋势的机器学习算法,需要快速评估这个目标的前景和对其有准确的预期,能不能为公司带来巨大的收益,能不能解决国家当前的首要问题。


张志华教授:机器学习——统计与计算之恋

原链

“我把这个过程解释为机器学习等于矩阵+统计+优化+算法。首先,当数据被定义为一个抽象的表示时,往往形成一个矩阵或者一个图,而图其实也是可以理解为矩阵。统计是建模的主要工具和途径,而模型求解大多被定义为一个优化问题,特别是,频率统计方法其实就是一个优化问题。当然,贝叶斯模型的计算牵涉随机抽样方法。而之前说到面对大数据问题的具体实现时,需要一些高效的方法,计算机科学中的算法和数据结构里有不少好的技巧可以帮助我们解决这个问题。”

“借鉴Marr的关于计算机视觉的三级论定义,我把机器学习也分为三个层次:初级、中级和高级。初级阶段是数据获取以及特征的提取。中级阶段是数据处理与分析,它又包含三个方面,首先是应用问题导向,简单地说,它主要应用已有的模型和方法解决一些实际问题,我们可以理解为数据挖掘;第二,根据应用问题的需要,提出和发展模型、方法和算法以及研究支撑它们的数学原理或理论基础等,我理解这是机器学习学科的核心内容。第三,通过推理达到某种智能。最后,高级阶段是智能与认知,即实现智能的目标。从这里,我们看到,数据挖掘和机器学习本质上是一样的,其区别是数据挖掘更接地于数据库端,而机器学习则更接近于智能端。”

“我理解当今IT的发展已从传统的微软模式转变到谷歌模式。传统的微软模式可以理解为制造业,而谷歌模式则是服务业。”

“我们可以说机器学习是由学术界、工业界、创业界(或竞赛界)等合力而造就的。学术界是引擎,工业界是驱动,创业界是活力和未来。学术界和工业界应该有各自的职责和分工。学术界职责在于建立和发展机器学习学科,培养机器学习领域的专门人才;而大项目、大工程更应该由市场来驱动,由工业界来实施和完成。”


One year as a Data Scientist at Stack Overflow

原链

“Journal articles are one way of creating public work, but far from the only one: they’re slow to review, and they need to be “perfect” before they’re submitted. I think there’s a dangerous attitude that they’re the only way to make work public, and that therefore a lot of good work in academia languishes for years or disappears entirely because it’s not quite a paper (certainly none of my blog posts would qualify for submission as a journal article). So I’d say that if you have something interesting but it’s not quite a paper, write it as a blog post, or a Stack Overflow answer, or an open source project on GitHub. Just get something out there!

Using R packages and education to scale Data Science at Airbnb

原链

In small data science teams, individual contributors often write single functions, scripts, or templates to optimize their workflows. As the team grows, different people develop their own tools to solve similar problems. This leads to three main challenges: (i) duplication of work within the team, both in writing the tools and reviewing code(重复造轮子,重复浏览代码), (ii) lack of transparency about how tools are written and lack of documentation, often resulting in bugs or incorrect usage(别人开发的工具因为缺乏当中所使用的算法、注释和文档,当另个人重新接手对该工具进行更改或改善的时候就会遇到困难), (iii) difficulty sharing new developments with other users, slowing down productivity(因为不同成员习惯的开发工具不同,当每次使用不同的工具开发出一个功能时,其他人对此的学习成本较高,因此而降低效率).

简评:
上面两篇文章讲的都是现在的互联网公司(或广义上也可称工业界)使用R进行数据分析,另一个共同点在于为了避免重复造轮子和降低学习成本提高工作效率,他们根据自己的业务需要开发出属于公司团队的R package,并将其开源,不仅由公司开发团队进行维护,还接受外界用户的bug report和意见。
秦老师非常想把自然基金里每个成员做的工作集成到一起开发出一个平台,这样很多基础工作比如对数据的基本处理等就无需让新成员重复造轮子,这个想法是很好的,但在实施过程中还是会遇到很多问题:
1、截止到现在,集成到平台上的功能都是由AE+C#开发出来的,对于使用其他工具(如R、Python)的成员,其研究成果并不容易集成到现有的平台中。
2、因为不同成员的研究侧重点不同,对数据的处理有不同的需求,比如有些人可能想输出成shapefile格式,有些人想要csv或txt格式,又或者有些人需要的字段不同,如果每个成员就是在只考虑自己的需求的情况下开发出的工具将其集成进平台的话,实际上这些工具的复用性也无法提高,所以我觉得应该开发出更为通用的工具(把所有可能经常需要的功能都考虑到)。
3、假设所有成员都使用同一个开发工具,仍存在一个问题,不同人的开发能力和习惯是非常悬殊的,如何保证开发出的工具是可以得到正确结果的、高效的、省时的,还需要一个类似于peer review的体制去监管。


ETL

分别是“Extract”、(、清洗 Cleaning、)“ Transform” 、“Load”三个单词的首字母缩写,也就是“抽取”、“转换”、“装载”。

抽取”:将数据从各种原始的业务系统中读取出来,这是所有工作的前提。
转换”:按照预先设计好的规则将抽取得数据进行转换,使本来异构的数据格式能统一起来。
装载”:将转换完的数据按计划增量或全部导入到数据仓库中。


The Geek Behind Google’s Map Quest

原链

maps were “created by someone else for whatever purpose they created it for, and it was the same map that everyone else saw. But now your map is literally your map.”

But Google has been making that leap, layering in up-to-the-minute travel information and user-generated data to bring Maps closer to what Parsons calls a “selfie for the planet.”

To compete with a range of tech titans—besides Apple, companies like Nokia, TomTom, and Microsoft have invested heavily in mapping technologies—Google is focusing on personalization. Parsons’s hope is that using an increasingly personalized Google Maps—and syncing one’s location with surrounding devices, from your cell phone to your garage, heater, and car—will pass what Google calls “the toothbrush test.”

“Is the technology so valuable, so familiar, that you use it every day, that you don’t really think about it?” Parsons asks. “To get that level of trust, we need people to understand and be completely confident with it. You only use your toothbrush every day because you’re completely confident that it’s not poisoning you, it’s not going to make your teeth fall out.”

“that Google Earth would be the browser for the planet,”

The new Google Earth will “reinvent it for the web and mobile,” making it “much more of a storytelling platform,” Moore says. “It will have feeds of information coming in that make it a dashboard for the planet. If you hear about something going on, you’ll open Google Earth and that’s where you’ll find out what’s happening.”

“I don’t know if Pokemon Go becomes part of Google Maps,” Hanke said when I asked whether he thinks his two creations might blend. “But I think people’s experience of being in places, and being transformed digitally—either enriched with information and enriched with interactivity, or transformed into entertainment—I definitely think that people will become accustomed to that and it will be something people expect.”

将Google Maps向用户个性定制的私人地图发展,不可避免需要思考通过什么机制来绕行或解决个人隐私这个敏感地带。

“Probably, computer scientists aren’t the best ones to figure out how to do that—we really need cartographers,” he admits. Still, “cartography has largely ignored on-screen mapping. Cartographers have almost ended up being historians, kind of looking at what cartography was rather than looking forward, saying, well, what’s the potential of augmented reality? What does that mean for cartography?”

“Cartography is about what you take off, not about what you add,”

None of these maps is more perfect than the others, Parsons says; each map is influenced by its creators, with their own worldview.


手机端app也能做workflow?!碉堡了…

原链

app:Launch Center Pro


p-hacking

原链

英国统计学家罗纳德·费希尔(Ronald Fisher)首次采用P值方法时,并没有打算把它作为决定性的检验方法。他本来只是用P值作为一种判断数据在传统意义上是否显著的非正式方法,也就是说,用来判断数据证据是否值得进行深入研究。P值方法的思路是先进行一项实验,然后观察实验结果是否符合随机结果的特征。研究人员首先提出一个他们想要推翻的“零假设”,比如,两组数据没有相关性或两组数据没有显著差别。接下来,他们会故意唱反调,假设零假设是成立的,然后计算实际观察结果与零假设相吻合的概率,这个概率就是P值。费希尔说,P值越小,研究人员成功证明这个零假设不成立的可能性就越大。

P值能做的,就是在特定的零假设条件下对数据特征进行总结分析。研究人员不能利用P值通过反向推导对事实作出判断。要对事实作出判断,还需要更多信息,也就是现实世界中该效应客观存在的概率。忽视了这一点,就好像一个人清晨醒来觉得有点头痛,然后就断定自己得了某种罕见的脑瘤。这当然不是不可能,只是这事儿摊到你头上的概率太小,所以你得先拿出更多证据推翻例如过敏反应这样更为常见的原因。结论越是令人难以置信(比如心灵感应、外星人、顺势疗法),这种惊人的发现是假阳性的可能性就越大,不管你的P值有多小。

如今的研究都希望能从杂乱的数据中发现并不十分明显的现象。在这种背景下,尤其容易出现P值操纵。研究者为了使总体的P值小于某个显著性水平,有意地“操纵数据”,增加数据量或剔除某部分数据。这种行为的结果是,把本应带着质疑眼光审视的探索性研究的结果变得看似确定无疑实际上却难以重复。


A/B Test

在做产品方面,
A/B test中的A通常指的一个版本较老的产品,B指的是版本较新的、在A产品的基础上进行修改的一个产品;
test的方式通常是将用户分流成两部分,让一部分用户使用B产品,具体测试方法也很灵活,如:具体要分多少比例的用户去使用B产品、随机选择用户去使用B产品还是根据某种标准如让使用产品时间长短的不同用户都占有一定比例加入测试、B产品是否提供返回旧版A产品的功能、测试多长时间、在产品页面如何埋点统计相关指标等等;
test的目的就是从使用B版本的用户那里收集意见和各种指标(有哪些?),反馈我们所做的修改是否合理、是否优化了用户体验、是否提高了转化率。

采用A/B test的问题:
1、需要的资源和时间较多,需根据修改的功能需求的重要性来考虑是否使用。
2、它是为了验证已有产品想法、指导产品改进的手段。只有带着明确目标所进行的 A/B Test 才是有效的,它是一个滞后行为,不能成为“捷径”。一定程度上,A/B Test 和数据分析一样属于手段,手段当然不能反过来替代目标。


Click-Through Rate

简称CTR. 网络广告被点击的次数与访问次数的比例, 即Clicks/ Impressions. 如果这个页面被访问了100次, 而页面上的广告被点击了20次, 那么CTR为20%. CTR是评估广告效果的指标之一.

Leave a Reply

Your email address will not be published. Required fields are marked *