|
为何大数据不是必然的好数据 |
|
|
|
2014-07-07 科技日报 |
|
|
|
|
|
|
|
Facebook,谷歌或是IBM等一些技术公司,正忙于兜售“大数据”那足以改变世界的能力。大数据源于移动设备,网页搜索,公民科学研究,以及网络传感器。在此前都没有如此巨大且涵盖面如此之广的数据供应,这其中甚至能包括网购动态或癌症研究。然而,谈到数据时一些科学家仍不免小心翼翼,因为更大并不意味着更好。 当信息从不同的资源上被截取时,通常会造成信息环境的缺失,从而导致不可靠的分析结果。举例来说,从谷歌2008年启用谷歌流感趋势(Google Flu Trends,GFT)服务以来,其在精确预测流感等级上时常会遇到困难。一个调研小组于本周五,在《自然》杂志的《政治论坛》版面发布了日志,详细说明了大数据工具的不足,以及它所拥有的巨大潜力。 谷歌所设计的流感数据整合器,根据谷歌搜索,与流感相关活动相匹配的内容,提供全球范围内流感情况的实时监控。尽管有一些成就,但在过去两年中,GFT在美国有过高预测流感峰值的情况。据来自于休斯顿大学,东北大学,哈佛大学的研究者所言,GFT在12-13季度对流感流行趋势的预测,做的同11-12季度一样糟,误差都超过了百分之五十。此外,从2012年八月至2013年九月,在总共108周的时间里,GFT有100周的时间都过高估计了流感的流行。 《自然》杂志在2013年二月的新闻中报道,GFT预测类流感病例的求诊次数,比美国疾病控制预防中心(Centers for Disease Control and Prevention (CDC))基于若干实验室的检测报告所作出的预测数量要高出两倍。 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|