■ 张纪雄
大数据技术和互联网技术,可以推动信用体系实现跨越式发展。
认识“三个世界”:现实世界、信息世界与数据世界
我们常会在一些警匪片里看到这样一幕:警察根据目击者描述,画出犯罪嫌疑人的画像。这个电影场景存在着三种元素:犯罪嫌疑人、目击者脑海中的犯罪嫌疑人、警察描摹出的犯罪嫌疑人。这三元素,从信息技术的角度看,就是“三个世界”的概念,分别是现实世界、信息世界和数据世界。
现实世界,就是我们身处的客观存在的世界。这个世界运动着各种物质,山川河流、蓝天白云、飞鸟游鱼、四季轮回、生老病死、社会更迭,只要这个世界存在着的、发生过的事物,都包含在现实世界中。
信息世界,则是现实世界在人脑中的反映。人是有思维的,现实世界的东西,会在他的脑海中形成“概念”或者绘成“图像”。人又是有差异的,同一事物在不同人的脑海中的反映也是不一样的。所以,现实世界只有一个,是客观的,而信息世界则会因人而异,各式各样。
数据世界,是对客观世界的记录,也是对信息世界的物化。比如, “化石”就是一种数据,它记录着远古时代的那个现实世界,人们通过它分析出那个时代发生的事情,在脑海中会形成有关那个时代的信息。前文提及的警察画嫌疑人 “画像”,便是数据世界,它显示了目击者脑海里嫌疑人的样子。在不同的目击者描述、不同的警察绘画,画像的最终呈现很可能相差很大,这就是“三个世界”的区别。
“三个世界”的概念,是信息技术理论中非常重要的概念。现实世界是客观的,存在就存在了,发生就发生了,是不以人的意志为转移的;信息世界是主观的,是客观世界的主观反映,而且会因人而异;数据世界则是记录着现实世界和信息世界的东西。数据世界能否完整记录现实世界,最终是由人的认识水平,也就是信息世界来决定。
数据与信息
有了“三个世界”的概念,理解数据和信息就不困难了。
数据,就是记录下来的东西。这个世界里,记录下的东西何其多:春夏秋冬,由“温度”记录;踏雪寻梅,由“足迹”记录;优美歌声,由“唱片”记录;高尚品格,由“口碑”记录。还有,清晨地面上的水印,记录着昨夜的风雨;深秋天空中的雁行,记录着四季的轮回;手机屏幕上的指纹,记录着曾经的触摸;老人脸庞上的皱纹,记录着岁月的沧桑。这些,统统都是数据。
信息,是对人有意义的数据。人们关心它的,才是信息,这就是“意义”。比如,警察画的那张嫌疑人“画像”,对办案人员来讲是非常有意义的,对他们来说就是信息;对普通市民来说,却可能看一眼就忽略了,难以形成信息;但假若被嫌疑人的朋友看到,这张“画像”又会变得有意义起来,也就变成了他的信息。同样的数据,对一个人有意义,对另一个人也许不那么有意义。数据的意义是指向人的,指向了人的数据才会变为信息。
这世界并不缺乏数据,缺乏的是数据的标准,缺乏为数据赋予意义。“数字化”给数据提供了一个非常好的标准,因为它可以用电脑处理、用网络传输。但是,在我们的生活中,绝大部分的数据没有被数字化,或者虽然数字化了,但存储分散,没有聚合的意义。如果我们赋予不了数据的意义,就不能形成对人有用的信息,数据的作用就不大了。“赋予意义”就是数据的归纳、总结和利用。
信用,就是信息综合利用
数据,就是记录过去、还原历史。信息,则是在数据的基础上,用专业人员的知识和技术,赋予更多的意义,并用它指导现实、预测未来。无论是深埋地下的化石,还是立于古代的碑林,如果没有人去研究挖掘,那永远只是一堆石头而已。所以,现在所指的信息化,实际上包含两个过程:一是数字化,即现代技术的数据化,将业务的发生全程记录;另一个则是信息化,就是数据资源的加工和利用。
如今,政府采购业务在不同程度上实现了数字化,暂且不说采购内网里的数据,仅互联网上公开的数据也有极大的挖掘价值。比如就“中标信息”这一项,其中就隐含着巨大的信息宝藏:我们可以比较同一个供应商、同一类型产品在不同地方的报价,进而去分析这个供应商的诚信;中标供应商与非中标供应商间的比较,可以发现陪标串谋的线索;中标供应商与评标专家的关联分析,可以发现专家“被搞定”的可能性;这些数据汇总在一起还能提供诸如标准造价等更多业务决策的参考数据。要想得出上述结论,光靠个体的、局部的数据显然是不够的,须将全局的、综合的数据聚合在一起。特别是数据量进入临界点后,数据的价值就会突显,数据的意义也会指数倍地增大。
政府信息公开,实际上为政府部门自身提供了更加方便的数据获取渠道。笔者亲历的一些信息化项目,反映出的政府部门间的数据共享可谓“森严壁垒”,一个政府部门向另一个政府部门申请数据接口,过程中的层层审批可用“千回百转”来形容,最后往往还需更高层领导协调。近年来,随着《政府信息公开条例》的实行,政府信息共享得以改善,网上公开的政府信息越来越丰富。政府部门也可以直接从网上获取数据,当然,这种获取不能用搜索引擎漫无目的式大海捞针和复制粘贴式体力劳动,而是用计算机“网络爬虫”为我们服务,我们只需“以逸待劳”,静观结果就行。我了解到,有一个叫“财情”分析的微信公众号,就能够实时抓取互联网上政府采购的中标数据和合同数据,一些分析结论也挺有意思,分析角度也很独特。
虽然,有了互联网共享数据的途径,但我们还需要再投入整理、加工和规范化的处理。比如信用信息之类的数据挖掘,数据的宽度和深度达不到一定的数量级,最后形成信息的质量也会打折扣。获取数据最好的方法,就是随时生产随时留存,如同录像机跟踪拍摄一样,走到哪里记录到哪里。这样,不仅数据真实产生,且逻辑完整,若有人为修改也一定会漏洞百出。这个方法就是全程电子化(电子化实质就是数字化)。
采购全程电子化,既是信用体系的数据基础,也是规范采购行为的利器,同时还是提高效率的必由之路,可谓一举多得的降低信息成本的方式。问题在于,不是要不要电子化,而是怎么实现电子化,电子化需要高资本投入,可能会得不偿失,那么电子化的路径是什么?有没有捷径?敬待后续分解!