中国IDC圈4月29日报道,互联网的发展使得大数据引起人们广泛关注。现如今大数据技术早已渗透到金融、通讯等行业以及生物学、物理学等领域。大数据在容量、多样性和高增速方面的爆炸式增长全面考验着现代企业的数据处理和分析能力,与此同时也为各个行业带来了准确洞察市场行为的机会。迄今为止大数据技术与产品有哪些创新,工业大数据应用面临哪些挑战,金融行业大数据应用现状如何等。围绕这一系列问题,4月27日至28日,由工业和信息化部指导、中国信息通信研究院主办的"2016大数据产业峰会"在北京国际会议中心盛大召开。28日上午,在数据中心联盟、中国智慧城市产业技术创新战略联盟协办的地方大数据产业发展论坛中北京大学软件所副所长黄罡先生做了精彩的演讲。
北京大学软件所副所长黄罡
以下为黄罡演讲实录:
黄罡:非常高兴来这个论坛和大家分享我们北京大学在政府数据开放方面的一些工作。其实就大数据来说,我个人认为互联网,BAT搞大数据,实际上是垃圾数据里面去挖金子。但是,其实在中国,因为我们过去十年以部委为中心进行了政府信息化建设的提升,我们的政府信息过程政府数据实际上本身就是金子。所以,只不过这些金子藏在一个个以部门为中心的信息孤岛里面。所以,我个人认为政府做大数据考虑的不是像BAT这种互联网大数据,更多考虑怎么能够尽快的把这些已经是金矿的数据拿出来,怎么让这些金矿变成更大的辅助我们国家去做治理。
信息孤岛这个词大家听过了,去年国务院发布的《大数据行动发展纲要》,当然是举国欢庆,包括厂商,包括地方政府。但是,我们自己看这个纲要里面实际上藏着一些数字。我们通过对神州数码、中软、东软等这些有资质的企业进行调研,基本上一个典型的政府信息系统,如果是一个孤岛式的,它的开放成本一般是1000人/天。这意味着我们的政府信息系统现在至少十万个以上,这样开放下来,至少达到1亿人/天。政府给了时间点,在2020年对外开放。我们以2018年为时间点,短短两年半的时间,如果要利用1亿人/天实现政府数据开放,需要的中高端软件工程师20万。我们中国现在正儿八经的软件工程师也就是几十万。所以,抛开互联网、产业、物联网,光政府数据开放现在就需要20万个软件工程师给我们干活。这20万个软件工程师光工资就得一千亿。所以,在这个里面看上去,这个数字首先大家觉得比较耸人听闻,但是实际上在政府行动纲要里面,部委内部是算过账的,高的一笔帐达到3000亿。所以,这个数字实际上是比较准确的。
但是,我们在欢庆的同时,我们具体看一下,这到底是一千个亿的市场机遇还是一个代价高达一千亿的政府的痛点?当我们真正要去把一个政府的信息化系统打开的时候会碰见什么问题?首先,很容易算出来显性成本,如果直接把后台数据库打开风险太大,而且对于政府来说,那就意味着所有的数据不加保留的暴露在所有其他人的面前,我为什么要这样?第二,即便我们做好了这两个,这时候原系统的开发商可能不在了,即这样可能给你开发的这个系统团队也都早就没在了,这意味着要花大量的时间把原来的系统重新补一遍才能准确无误没有风险的把数据开放出来。第三,系统开发商的锁定问题。所以,这些可以证明我们算出来的数据。
更关键的是我们现在的数据,所谓政府很多的数据开放平台,更多是说先把数据搞出来再说,怎么用,没想出来,或者说画几个漂亮的数字。所以,如果想不清楚数据开放出来怎么用,其实它的阻力就很明显,怎么去协调这些数据利益的相关者,怎么协调原来信息系统的相关者。因为我根本讲不明白,把数据开放出来到底干什么?所以,整个的沟通成本,基本上形成了一个系统。真正到了这边的真正开工,基本上要花半年到一年的时间进行沟通、交流、论证。所以,这么一算下来,其实真的用传统方式去实现大数据行动纲要的三个时间节点我个人是持比较悲观的态度。
能不能有一种方式去解决我们在政府打破信息孤岛实现数据开放领域的时间、空间成本。软件确实在大数据时代依然是非常重要的,为什么?所谓信息孤岛就是软件带,只不过因为我们做的系统软件太好了,90%以上的代码功能已经被我们系统软件给实现了,这个时候其实从我们做软件的角度来看,其实我要去理解这个信息孤岛非常简单,因为90%的东西我都是知道的,只是不知道由应用开发商写的不到10%的代码,而且那10%的代码往往是遵循我们定义的开发框架,比如MES,或者BS,或者CS。所以,基本上我们经过大量的实验发现其实我可以开发一套非常智能的软件的自动分析的工具和技术,给我任何一个系统,只要你在我的平台上操作一下,我基本上能够猜的八九不离十。因此,我们就可以自动的把这些系统生成一大堆的接口,把这些内部数据给开放。
整个思路很简单,把以前网络化的体系变成开放的自适应的体系。这个确实是非常有挑战,我们最后做的效果是什么?现在我们也有一个产业化的公司,在我们的左边是一大堆的信息孤岛式的地方政府的各种系统,它完全对我们来说是黑的,什么都不提供,我唯一知道的就是我有一个合法的用户账号,我这个用户账号可以看看他的报表什么东西。这时候我们的平台能够通过这个账号,把你所有的数据,这个账号能看到的所有数据,能写的所有数据,能够把它都分析出来。但是,对于原系统而言,我们这个燕云大数据平台就是一个合法的、正常的,你可以认为我们是一个小机型。我们可以快速的实现数据开放领域的三个核心能力。第一个就是数据的开放,第二个是快速的优化,第三个就是数据的流转。有了这些以后,我们认为在今天的政府信息化,或者政府大数据主要可以应用于惠民工程,应约于新型智慧城市。
讲了这么多,基本上通过给大家介绍一些具体的案例。目前我们这套技术已经推出了将近有半年了。目前已经在22个省市的189个各种各样的政府和央企系统里面,我们把它的数据都给接口化,然后拿出来了,基本上覆盖典型的一些政府部门,包括北京、还有成都这些。
简单举几个例子,首先我们给农业部门一个垂直系统,目前全国有500多个农产品的批发价格,这些价格是实时更新的,而且是农产品市场自己定的。用我们的燕云,你告诉我们是哪500个,然后我们把网站全部API化,我们首先解决500个人的应用系统我们能够快速的给你开放出来,当然前提是你有合法的账号。第二,另外一个是关于郑州市的,郑州市就是我前面讲的,他们要做一个部级系统,这个时候原来的系统厂商拒绝开放性,实际上后来我们调研发现,原来它的团队早就散了。所以,我怎么接你的系统,大家说不接了,所以直接去燕云。用了我们以后,对我们来说,根本不用你的后台数据库,根本不用你后来的源码,只要有一个合法算法,有一个合理界面,就可以直接把用户需要的数据全给拿出来。我们可以非常轻松的解决掉开发商锁定的问题,所以这个在政府大数据时代是非常关键的,因为数据其实是我们政府的,不是你系统开发商的,凭什么因为技术锁定的原因把我们锁定了。我想这个应该能够对我们地方大数据具体的实施带来极大的效益。
第三,这就是数据流转。我们给深圳平山做的,它其实就是要做一件事,因为我们在昨天刚刚发布的“互联网+政务”的行动纲要,这是一站式的,要花大量时间跟各个部门去谈,现在不需要了,我们快速把它的数据出来以后,可以写到其他地方去,因为一站式一定是把这个填了以后,同时数据可以输入到多个其他系统,或者中间数据来回流转。所以,这个里面除了实现数据的独特性,爬虫是做不到这一点的。同时,我们还按照深圳平山的要求,因为它已经流转起来,数据从我这儿出来以后,流转到那里,安全性是增强的。
这个是给神州数码做的惠民工程,以前的做法是一个一个单位,一个一个部门去交流,然后跟那些开发商去谈,基本上一个智慧城市落地一年以上。但是,利用我们现在基本上一个礼拜落地,非常快。当然这里面我们又做了另外一个事情,也是刚才大家很关心的一个,就是数据出去以后怎么办?那么,我们现在因为它同样是这个问题。当政府数据出来以后,除了政府的网站以外我们又有了神州数码一个新的智慧城市的一个出口。那么,这时候到底是谁在用我们的数据,或者查询接口,到底他是怎么用的,这些东西我们都提供了一套相应的管理的监控平台。首先,你们可以看到,到底我每一个接口,这个接口就代表数据,到底每天有多少人访问,或者每个小时有多少人访问,这个数据的流量是什么,流到哪些IP地址,或者流到哪些省市,甚至它在哪个应用里面。我不能做到数据确权,但是从燕云流的数据至少知道它的第一站是谁。我们是一个更加闭环的保护方式。
所以,经过我们大半年实际在这个产业里面的应用,我们统计发现这将近200个工程,实施效率基本提高100倍,高能达到几千倍,它的成倍基本上节省90%以上。所以,我们认为它的核心就是因为我们把传统的以这种开放数据为粗放式的方式变成了一种精细的方式。那么,我们认为如果全部政府数据行动纲要,如果此前用传统的方式我们需要一千个亿,用我们燕云只需要一百个亿,这是我们认为对国家的一个重大贡献。这是浏览器系统,其实我们APP也可以打破,很多CS系统也可以打破。因为对我们而言,不管浏览器也好、手机也好,里面其实都是经典的软件。所以说,我们是从软件的角度看大数据最重要的信息孤岛。
我们做的从整个大数据来说是很小的一个点,我就是把信息孤岛给搭配,一打破以后能干什么呢?我们刚才看到能干很多事情。而我们北大干什么?第一,我们会持续完善我们数据开放的能力。其次,我们已经做了一套超轻量级的数据处理平台,这个数据处理平台,基本上从理念和整个使用场景上,跟阿里云前一阵发布的数加是基本一样的。但是我们大的特点是,阿里云是基于它的一套大数据处理,至少要十个节点才能跑起来,但是我想问,现在不管是政府也好,所有厂商也好,现在你们手里的数据除了从网上的扒的有多少超过1T的。我们一个节点就可以了。我们燕云处理的数据就是API流进来的,但是原始数据还是政府的,大家说怎么可以这样?我可以告诉大家,阿里云对于淘宝大数据的处理就是这样,每个商家自己的电商数据全是淘宝可以免费用,但是你要处理不能拿出去给别人。
最后我们的一个理念就是我们认为我们不仅解决了百亿级的政府数据开放问题,更主要的是把政府数据源源不断安全可控的拿出来放到社会上,我相信整个社会都会存在在这个完全中国特色万亿级的大数据时代。谢谢大家!