法治周末记者 蔡长春
一个名为“大数据”的事物,近年来开始成为热词,几乎仅次于“互联网思维”。有观点甚至认为,掌握了大数据就等于掌握了一切。
知名IT评论人、前雅虎中国总经理谢文就曾预测:大数据不仅是网络业的未来,而且是整个社会和经济发展的未来。
“未卜先知” 受到追捧
大数据究竟是何方神圣?
百度词条中是这样表述的:大数据,或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
亿欧网联合创始人、技术总监王彬在接受法治周末记者采访时解释:“数据样本空间足够大,数据获取的方式足够全面,并且能够在对这些数据挖掘过程中,形成大量反映事物本质和原貌的规律,这样的数据叫大数据;这个存储、挖掘、结果呈现的过程,就是大数据技术。”
王彬将大数据给人们带来的利好归结为了两个方面,一种是针对当前的“优化改进”:大数据可以对现有生活方式(或者生产制造方式)进行优化,比如针对某个生产工艺过程的几十万次生产数据进行挖掘,可以获知这些生产过程的共性规律,然后设定目标确定最佳的生产工艺参数。
而大数据的另一种利好,是针对将来的“未卜先知”,而这个本事也已在近年来大显身手:谷歌利用对大数据的分析,早于印度官方之前准确地分析了印度疟疾的趋势;亚马逊用大数据相关推荐,替换掉了写作团队推荐;阿里巴巴在2008年提前8个月通过卖家经营状况与进出口交易量等数据预测到了金融危机……
伴随大数据而来的数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用,逐渐成为行业人士争相追捧的利润焦点。
大数据的预测功能,令很多人开始将其视为“女巫的水晶球”,认为只要循着大数据的预测指引走下去,就一定不会出现任何偏差。
数据造假 将引灾难
不过,在众多业内人士看来,若对大数据的过度信仰,就超越了理性,并很可能因此给决策等行为带来误导,因为大数据有时候也会“说谎”,它也是有“欺骗性”的——大数据理论建立在“海量数据都是事实”的基础上,而如果数据提供者造假呢?一旦数据本身有问题,就很可能出现“灾难性大数据”,而导致错误的预测和决策。
近日,就有观点表示,当下我国最火爆的领域,如手机、电商、娱乐等都在热捧大数据,但是要谨防大数据变成“大造假”,要防止企业通过制造一个令人吃惊的数据来影响消费者,达到数据干扰和数据操控的目的。
对此,王彬认为,所谓大数据造假的目的是为了使数据挖掘过程得出自己期望的规律,所以根源不是针对数据的造假,而是对规律的干涉。真正的“大”数据是很难造假的,因为量很多,能造假的都是“小”数据。
阿里巴巴集团副总裁、数据委员会会长车品觉在接受法治周末记者采访时表示,大数据的欺骗性在于只展示其中的一个角度而隐去了另一个角度,是一种信息的不对称。
“所谓大数据的欺骗性,也就是当我们把大数据的数据源拿来研究的时候,会发现有时候收集出来的大数据其实也是片面的,因此不一定能够反映真实。”车品觉解释。
“很多时候人们会说,当大数据足够大的时候,一切欺骗性的东西都将被无限量地缩小,不过这也只是一个理想状态,现实中往往很难达到,即在某个领域内是大数据,其实整体来讲还是小数据。”车品觉表示。
Acxiom(安客诚)全球副总裁、数据科学家程杰在接受法治周末记者采访时也表示,上述可能的确存在,未来通过企业在大数据技术能力等方面的提升以及外部监管的加强等途径,可以逐步使之得到完善。
“当一个概念被迅速推广的时候,负面的信息和案例也在所难免,但不能因为这些就否定这种方向的正确性,我们需要大量有价值数据支持的科学决策和认知。”互联网业内专家、网上交易保障中心副主任乔聪军表示。
乔聪军建议,在数据收集方面,就有赖于法律建起基础的隐私保护等配套制度,而政府也应该按照法律公开各种信息,自上而下地引导以确保大数据的真实性,才能展现大数据的技术独立决策魔力。
隐私泄露 公民“赤裸”
中国互联网协会政策与资源委员会专家于国富告诉法治周末记者,大数据还可能带来一个巨大的冲击——即意想不到的隐私泄露问题。
于国富分析认为,所谓“意想不到”的原因在于,大数据时代可能只通过某人的一张照片,综合其他信息后,就可以判断出其居住地等众多的其他相关信息,可以说大数据时代我们更加容易泄露自己的隐私。
“很多人会感觉今天只泄露了一点自己的信息,并不算多,可一旦汇总起来的话,很可能就会使之成为一个‘赤裸’的公民。”于国富说。
这种担忧并非杞人忧天:2011年,中国的CSDN网站中的超过600万的用户信息泄;,填鸭社区四千万用户资料包括明文密码泄露;2013年,如家七天酒店两千万条客户开放信息泄露;今年一月,支付宝出现的“内鬼”使20G的用户信息遭泄露。虽然之后支付宝公关部负责人称,支付宝全部采用先进加密技术处理,技术人员接触不到支付宝交易密码、银行账户、身份证号等核心信息,但类似事件的屡屡曝出,无疑给行业和广大用户敲响了警钟。
乔聪军也坦言,大数据意味着更多的数据收集、集中和分析、使用,自然会带来更多的安全隐患,尤其是一些敏感的数据,对信息安全保障的要求也会更高。事实上,在大数据时代,数据对营销的价值正在发生变化,然而相关法律监管却常常缺席,即使是在全球范围内,数据保密安全政策和标准还有许多需要开发与完善的地方。
车品觉指出,在大数据应用早期,并没有完善的安全措施,“都是在裸奔”。而从今年起,行业用了很多时间去健全这类安全架构。对于大数据安全难题,目前可能的解决办法是技术性的,比如在加密的环境下,通过分布式系统验证数据,或有可能解决安全问题。
一个真理是:世界上没有完全可靠的安全防护措施,各种技术层面上的和管理层面上的安全漏洞,加上无孔不入的黑客入侵,使得信息安全如同高悬在用户头上的达摩克利斯之剑,随时都有落下来的可能,谁也不知道下一次更严重的泄露事故何时会发生……
程杰也认为,任何一种技术的发展,都可能会被一些不法分子或存心不良的人所利用,以实现其不可告人的利益,所以很多人也会从大数据上看到这样的机会。
“比如有人会偷盗个人信息,并根据对个人手机等信息的了解,进一步实施诈骗等行为。”程杰表示,“尤其是大数据普及以后,企业在明处,犯罪分子在暗处,这种欺诈行为自然会更加严重,对此各个国家也都在积极采取措施进行整治。”
如何避免数据泄露对国家利益、公众利益、个人隐私造成伤害?如何避免因为信息不对等而伤害到困难群体的利益?……大数据时代的来临也给予了政府监管部门前所未有的压力和责任。
乔聪军对法治周末记者表示,我们已经一步步地深入到了一个信息和网络的时代,在享受大数据带来的便捷和高效的同时,也必须承受更多的风险,虽然我们可以通过治理和法律把这些风险降到最低,但要达到完全没有的程度是不可能的。
“我国的刑法和消费者保护法,虽然都规定了数据保护的义务和责任,但我们还是缺乏一部完整的个人数据保护法,个人数据的范围和属性等也都很不确定。”乔聪军认为,“保护的范围不明确,合法利用的边界就不清晰,大数据也很难真正得到发展。”