您的位置 : 首页 >> 电子书推荐分享

人人都在说谎:赤裸裸的数据真相

下载方式

本书作者:赛思·斯蒂芬斯·达维多维茨 (作者), 胡晓姣 (译者), 张晨 (译者), 左润男 (译者)

本书读后感及个人笔记分享· · · · · ·

这是一部有意思有新意的作品,讲了些反直觉的东西。作者10多年前很欣赏李维特《魔鬼经济学》,他把此书定位成《魔鬼经济学》的进阶版,缺点是有些碎片化,主题很杂,好处则是简单易读。

作者利用一些谷歌的搜索的结果、维基百科、Facebook资料等大数据来探秘大众内心的一些真实想法,因为人人都会说谎,明面的调查访谈很可能得不到真相。这是一种新的有效的社会科学研究方法,大牛斯蒂芬平克也作序推荐。


小编建议:点赞、分享、投币,素质三连哦

由2016总统竞选 特朗普意外击败希拉里说起,作者认为深层的原因美国的种族主义者比明面的要多得多,最支持特朗普的那些州,这些州搜索“黑鬼-nigger” 的有很多。 sex 从来都是隐秘的,前面对色情网站搜索结果的分析令人吃惊啊,恋母、恋父、恋兄妹的那么多啊!不过这也是对于登录pornhub 这类喜欢色情的人群中的分布吧。真正这类人在人群中的占比应该难以统计,不像男同性恋那样作者可以推算估计约5%(而以前调查的是2-3%) 。男人第一对cock的大小在意(其实女人并不在意,因为男女对其搜索比率为170:1),第二对性交时间在意;女人则为阴道的气味操心,女人更愿意取悦男伴而搜索怎样blowjob的建议(2:1的比例),而且女人对色情片中的暴力更感兴趣!(难以想象啊) 美国也重男轻女,对儿子在智力才能方面的问题搜索得多,对女儿的外貌则关心; 男才女貌,硬是世界文化标准。 人人都会说谎,永远不要听人说了什么,而要看他做了什么:小扎2006年推出fb 朋友圈动态时,甚至有一大帮反对者,叫嚣他们不愿意成为窥视狂;结果大数据揭示了其实大多数人都想要刷朋友圈这个功能!朋友圈大家晒出来的永远是幸福生活呜里哇,实际关灯吃面的时候就是默默承受的啦,朋友圈不是个诚实的地方。

网飞也一样,那些在收藏列表中想要看的高逼格的影视 被看的不多,倒是那些屎尿屁的喜剧八卦看的人络绎不绝。网飞后来干脆改成算法推荐列表了,用户们也看视频看得更多了。

喜欢哪个球队和政治派别一样,10几岁的态度会成为你一辈子的态度。 相关和因果太难分清了,现在媒体都是拿些相关的东西来混淆视听,真正的因果关系很难判断。谷歌开创了幕后用随机对照组实验(a/b测试)来寻找真正的因果关系,现在硅谷的公司都学会了。

对牛高中分数线边缘的学生统计有意思:那些几分只差而落榜(考上)的学生做统计,最终结果:牛蛙始终是牛蛙,好学校没啥用;sat分数、学业能力还是一样! 这可是反直觉和反社会传统的啊,特别是现在的中国,对4大名校、衡中等的渴望简直是狂热; 而且延伸到大学,哈佛和宾夕法尼亚大学毕业生10年后的收入 也没太多的区别,精英始终会上升到精英的位置中去的;

人人都在说谎:赤裸裸的数据真相作者也讨论大数据不能干什么的问题, 维度的诅咒是大数据的一个问题(应该就是以前说的孟加拉的黄油产量能很好的预测美国经济一样吧?) 神预测的391号硬币的比喻不过是有1000个硬币,变量多了,总能找到最拟合的那个。 后面 和劳伦斯-萨默斯的谈话让人开怀一笑,这个有智慧的大人物约见了作者,绕了一大圈话题,还是想知道作者这种方法是否对股市预测来赚钱有用否,哈哈。结果却是令人失望的,我想真的发现了有效的预测股市的方法,估计发现者也会敝帚自珍的,如同那些神秘的量化对冲基金一样。

同样的试图在dna中发现让人高智商的基因也是然并卵,都是维度的诅咒,基因的排列组合有几百万,太复杂了,总会找到一些虚假的因子。

大数据也会带来隐私等一系列问题,如试图发现信用不良者、恐怖分子,都可能带来误判和伦理问题。

流行读物一般难以读完,《思考快与慢》只有7%的人读完,而大热门作品《21世纪资本论》不到3%,叶公好龙者多。

总之这是一部有趣的读物, 当然,有可能如《魔鬼经济学》一样,也会有错误和缺失。我唯一不喜欢的是作者对msl的白左态度,我觉得他没有认清这种宗教病毒meme式的本质。

以《哈利·波特与死亡圣器》(Harry Potter and the Deathly Hallows)为例。在里根领导的科学家团队看来,图3–3是随主要情节变化而变化的故事情绪。

《哈利•波特与死亡圣器》中的故事情绪

请注意,情绪分析检测的许多情绪起伏是与主要事件相对应的。

大多数故事的结构都很简单。以莎士比亚的悲剧《约翰王》(King John)为例,在这出戏剧中,没什么好事发生。英国国王约翰被迫宣布退位。他因不服从教皇而被逐出教会。紧接着就爆发了战争。他的侄子死了,很可能死于自杀。其他人也死了。最终,约翰国王被一个早已心存不满的僧侣毒害而死。

图3– 4是随剧情发展而作的情绪分析图。

换句话说,仅仅依靠文字,电脑就可以检测事情逐渐恶化到最严重程度的过程。

 

图3–4 《约翰王》的剧情发展情绪分析图

或者以电影《127小时》(127 Hours)为例。以下是这部电影的基本情节:

一位登山爱好者到美国犹他州峡谷地国家公园徒步旅行。一开始还有其他旅行者做伴,但后来他就与他们分开了。突然间他失足滑倒,撞到了一块巨石,巨石压住了他的右手和手腕。他尝试了各种方法来挣脱巨石,但都失败了。他越来越沮丧。最终,他砍断手臂,成功逃了出来。后来,他结了婚,组建了家庭,但仍旧喜欢登山,尽管他现在每次离家去登山时都要留下一张便条。

图3–5是随电影情节推进而作的情绪分析图,制作者依然是里根团队的科学家。

 

图3–5 《127小时》情节推进情绪分析图

那么,我们从数千个此类故事的情绪变化中了解到了什么呢?

电脑科学家发现,相当多的故事都符合以下6种相对简单的结构中的一种。借用里根团队的一幅图来看,这些结构如下:

由穷变富(情绪上升)

由富变穷(情绪下降)

陷入绝境,然后成长(情绪先下降,后上升)

伊卡洛斯式(情绪先上升,后下降)

辛德瑞拉式(情绪先上升,后下降,再上升)

俄狄浦斯式(情绪先下降,后上升,再下降)

可能还有一些细微之处与这个简单的总结不符。例如,尽管在情绪低落过程中情绪会暂时上升,《127小时》依旧属于陷入绝境,然后成长的故事。大多数故事的整体结构符合六大类别之一,但《哈利·波特与死亡圣器》是个例外。

我们还能回答很多其他问题。例如,故事结构如何随时间的推移发展变化?故事会随时间的推移变得越来越复杂吗?在他们所讲的各种类型的故事中,文化会有所不同吗?人们最喜欢什么类型的故事?不同的故事结构会同时吸引男性和女性吗?会同时吸引不同国家的人吗?

最终,文本数据可能会提供我们一些前所未有的看法,帮助我们了解观众的真正需求,而这些需求与作者或高管认为的观众需求有所不同。已经有线索指向了这一方向。

我们来看看沃顿商学院的乔纳·伯杰(Jonah Berger)教授和凯瑟琳·L.米尔科曼(Katherine L. Milkman)教授的研究,他们的研究主题是人们会分享什么类型的新闻报道。[25]他们测试过到底是正面报道还是负面报道更有可能登上《纽约时报》邮件分享频度最高的名单。他们下载了近三个月以来《纽约时报》上刊登的所有文章。运用情绪分析方法,两位教授将这些文章的情绪进行了编码。正面报道的例子包括“满眼新奇的新来者爱上了这座城市”和“慈善托尼奖”。诸如“韩星自杀:网络谣言之过”和“德国:幼年北极熊饲养员之死”这类报道毫无疑问就是负面的。

两位教授也有报道排版位置的信息。是在主页吗?在右上角?左上角?他们也有故事刊登时间的信息。上周二晚上?周一早上?

他们可以比较两篇报道(一篇是正面的,另一篇是负面的)在相似的时间段刊登在《纽约时报》相似的位置,看哪篇更有可能被分享。

那么,哪篇会被分享呢?正面的还是负面的?

答案是正面的报道。正如作者总结的那样:“故事越积极向上,文本内容就越有可能得到传播。”

我们注意到,这似乎与新闻界习以为常的至理名言(人们会被暴力和灾难性的报道吸引)截然相反。新闻媒体可能确实向我们展示了很多负面的新闻报道。编辑室里有句俗话是这么说的:“只要新闻见红,报道就能走红。”然而,沃顿商学院这两位教授的研究表明,人们真正想要的可能是更多的正面报道。于是可能会产生一句新俗话——“只要新闻正能量,报道分享就看好”,尽管这句真的不那么上口。

关于伤心和快乐的文本就先说这么多。来看另一个问题,如何分辨哪些词汇是自由党偏向,哪些是保守党偏向呢?这一偏向又向我们展现了现代新媒体的哪些方面呢?这个问题有点儿复杂,也把我们的思绪拽回到根茨科和夏皮罗的研究上。还记得吗,他们就是前文提到的那两位发现同性婚姻在不同报纸上描述不同的经济学家,他们很想知道能否使用语言揭露政治偏好。

这两位雄心勃勃的年轻学者做的第一件事就是审查《美国国会议事录》(Congressional Record)。因为《美国国会议事录》早已实现了数字化,所以他们可以下载2015年每一位民主党国会议员和每一位共和党国会议员使用的每一个单词。这样他们就能查看某些短语更有可能由民主党人使用还是由共和党人使用。

· · · · · ·正版书购买 · · · · · ·

书籍购买

注:本站不存储任何书籍,PDF电子版收集于网络,仅供学习交流使用,请于24小时后自觉删除。

本文版权归原作者所有,请支持正版。此处仅提供个人读书笔记 https://yigefanyi.com/renrendouzaishuohuangchiluoluodeshujuzhenxiang/
返回顶部