流感和电影票房有什么共同之处?(搜索数据)

中国人迷信,古代故事里常有算卦的场景,无非是想通过算卦预测未来,会算卦的人在当时应该是属于高级知识分子,至少要把一本《周易》背得滚瓜烂熟,甚至还要懂一些天文地理知识,才好“夜观天象”。外国人也迷信,美国看手相知祸福的巫师就不少。更有甚者,古老的玛雅人曾预言2012年是世界末日,还准确地说出了日期,即2012年12月21日的黑夜降临以后,12月22日的黎明永远不会到来。稍微懂点现代科学的人都知道,未来不可准确预测,越远的未来越不可知。

但这也不是绝对的,信息科技的长足发展,让某一方面的准确预测成了可能,比如票房收入和流行感冒。

2010年年底很热闹,三部贺岁片同时上映,《赵氏孤儿》有意思,《让子弹飞》有深度,《非诚勿扰2》很感人,展开了一场贺岁片大战,可谓是烟火纷飞。这三部影片同时上映,为的是在年底这个黄金时间赢得更多的市场观众。最后票房出来了,《让子弹飞》以7亿多元的票房遥遥领先,接下来是《非诚勿扰2》的5亿多元票房,《赵氏孤儿》以2亿多元的票房垫底。这些数字是否准确?网上曾经有录像流传,并有达人介绍,票房是可以“偷”的,买张三的电影票看李四的电影,于是乎,李四的电影好看,但票房却算在张三的头上。看似简单的办法,却影响了你的票房,最可气的是,你还真就没办法证明自己的票房被偷了,被偷了多少。这是一个典型的信息不对称例子,因为全国有那么多家电影院,要想对所有电影院进行实时全天候的监测,以保证没有“偷”票房的现象出现,是要花费可能比票房收入都高的成本,这是不现实的。

2008年,甲型流感病毒肆虐,越来越多的人感染甲型流感,由于有“非典”的先例,搞得人人自危,每天洗100遍手还觉得满是病毒。有一天,我浑身不舒服,去看医生,医生给我做了一些测试,取了样本,告诉我回家静养。我问她自己是不是得了甲流,她说,样本要送到实验室检测,等样本的测试结果出来才知道。1个星期后,美国疾病控制与预防中心宣布甲流在美国大流行。3个星期后,医生给我打电话,告诉我样本测试结果显示,我确实得了甲流。那时候,我只有苦笑而已,3个星期过去了,我的甲流早就好利索了。美国疾病控制与预防中心是通过合成各地医院和实验室的数据来检测流感是不是开始流行,如果各地医院和实验室在上周报告的流感病例显著增加,大概流感就已经流行开来了。可问题的关键在于,这些医院和实验室的样本测试花费时间,向美国疾病控制与预防中心报告花时间,美国疾病控制与预防中心合成数据也要一些时间,等它宣布流感流行了,一般已经是流感流行2~3个星期以后了,是名副其实的“马后炮”。

对于电影票房的收入有没有更好的方法监测?对于流行感冒有没有更好的方法预测?答案是肯定的,只不过可能没有直接的方法,但是,间接、有效的办法还是有的。这个间接、有效的办法就是利用互联网搜索数据。

互联网自从20世纪90年代初发展到今天已经约20年了。这20年间,互联网的普及速度比历史上任何一种新技术都快,这是信息社会的特征之一。根据国务院新闻办公室主任王晨2010年5月1日关于中国互联网发展和管理作的专题讲座内容:截至2010年5月,中国网民达到4.04亿人,互联网普及率达到28.90%,超过世界平均水平,使用手机上网的网民达到2.33亿人。他指出,中国网民上网方式已从最初以拨号上网为主,发展到以宽带和手机上网为主,互联网发展与普及水平居发展中国家前列。

4.04亿人是什么概念?除去小的不会上网、老的不爱上网,这4.04亿人恐怕占了社会主导人群的一半还多。稍微懂一点市场调查知识的都知道,样本越大调查结果越准确。如果这4.04亿人同时做一件事情,其实都不用4.04亿人同时,只要其中的一小部分同时做一件事情,我们就可以从他们的集体行为中推出要发生什么事情了。一个最简单的办法就是看一看网民们关心什么,他们关心什么,就会去搜索什么,所谓的“内事不决问百度,外事不决问谷歌”。

搜索的关键词在个人层面几乎没有任何意义,但是一旦拿到整体层面,就太有意义了,更重要的是搜索的关键词是一个实时的、甚至超前的风向标。搜索引擎公司都能够提供关键词整体层次上的数据,百度叫百度指数,谷歌叫谷歌趋势。越来越多的政府部门、公司和个人开始运用这些数据预测未来。

下面举几个关于票房和流感的例子。

关于《让子弹飞》、《非诚勿扰2》和《赵氏孤儿》三部电影的百度指数比较。上面的曲线是用户关注度,也就是有多少个人在某一个时间里搜索了这三个关键词;下面的曲线是媒体关注度,也就是在某一个时间里有多少家媒体报道了这三部电影。我要重点说的是用户关注度。《让子弹飞》的关注度高于《非诚勿扰2》,《非诚勿扰2》的关注度高于《赵氏孤儿》。在最高峰的时候,有近50万人搜索《让子弹飞》,有30多万人搜索《非诚勿扰2》和15万左右的人搜索《赵氏孤儿》。显而易见,广大人民群众关心某部电影了,在看电影前,他们其中的一部分人就会来网上搜索看看,这个集体行为可以客观代表广大人民群众的喜好,最重要的是没人能够“偷”搜索关键词,比较准确客观。所以,如果把票房收入从高到低排序,应该是《让子弹飞》、《非诚勿扰2》、《赵氏孤儿》。更有意思的是,如果对这三条曲线进行积分,求出曲线下的面积,我们甚至可以得到这三部电影的相对票房收入,检测一下是不是如媒体报道的那样7∶5∶2.5。

谷歌和美国疾病预防与控制中心公布的流感趋势的对比,其中实线是美国疾病预防和控制中心根据医院和实验室的测试数据预测的流感情况,而虚线是谷歌根据用户搜索关键词预测的流感情况,可见它们之间是高度正相关,更重要的是前者比后者的数据快了两个星期左右。

如果用百度指数对“甲型流感”进行检索,同样可以看到这个高峰。由于个人用户得了感冒,或开始预防感冒,所以突然对这个关键词有了兴趣,表现在他们使用互联网搜索引擎上就是此关键词搜索频率陡增。他们的搜索行为和流感的流行程度同时行进,甚至会超前一点儿,成为一项预测流感爆发的准确指标。

到底这些以搜索数据为基础的指标准确不准确呢?管理学家们曾经做过一个研究来验证。麻省理工学院斯隆管理学院著名教授Erik Brynjolfsson和他的学生Lynn Wu用谷歌趋势数据来预测美国房地产市场的走势,如果更多的个体用户使用谷歌搜索引擎来寻找房地产方面的信息,说明房地产市场在渐热过程中,否则房地产市场还是很低迷。他们同时把用谷歌趋势的数据来预测美国房地产市场的走势和其他用普通数据来预测美国房地产市场的走势相比较,发现用谷歌趋势来预测美国房地产市场的走势的错误率只有10.20%,而用普通数据来预测美国房地产市场的错误率高达44.10%。

信息科技的高速发展,不但让广大用户可以方便地寻找信息,也提供了广大用户的搜索数据,使准确预测群体行为成了可能。当《周易》已成往事,当“夜观天象”成了过去,搜索数据的应用是当代算卦大师们必学之技了。

【温馨提示】如果资料内容有帮助到您,别忘动动小手指分享给好友哦!

相关文章

  • 为什么尿布和啤酒放在一起买?(数据挖掘)

    沃尔玛数据仓库集中了其各门店的详细原始交易数据,在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘,发现了一个很有意思的现象:婴儿尿布和啤酒有很高的相关度,即跟尿布一起购买最多的商品竟然是啤酒!

    不做打工人 2021-12-05 阅读 163

  • 流感和电影票房有什么共同之处?(搜索数据)

    谷歌和美国疾病预防与控制中心公布的流感趋势的对比,其中实线是美国疾病预防和控制中心根据医院和实验室的测试数据预测的流感情况,而虚线是谷歌根据用户搜索关键词预测的流感情况,可见它们之间是高度正相关,更重要的是前者比后者的数据快了两个星期左右。

    不做打工人 2021-11-29 阅读 129