随着共享经济的迅猛发展,“区块链+大数据”似乎已经成为一个非常明显的发展趋势。一方面,区块链可以解决大数据存在的诸多问题,从而使其为共享经济提供更加优质的服务;另一方面,为了大限度地体现自身价值,越来越成熟的大数据迫切需要一个应用实体。然而,作为两种相互独立的互联网技术,大数据和区块链要想真正实现深度融合,仍旧任重而道远。

一、数据孤岛问题突出

俗话说: “巧妇难为无米之炊。”数据是大数据的基础,而且只有被共享才可以拥有“生命”。 另外,如果不能获得底层数据,那么我们就无法进行数据分析。

An26BjZ

对此,中国科学院院士、北京大数据研究院院长鄂维南说道: “第一个问题就是没数据,理论上我们中国有很多数据,但实际做数据分析会发现非常困难。” 由此来看,数据孤岛确实是一个十分严重的问题。

通常情况下,不同企业会用不同格式将数据存储在不同地方。在各方之间信息不对称、数据共享渠道十分缺乏、制度法律不完善等因素的影响下,很多企业和政府都不愿意公开自己手中的数据,再加上已经公开的数据还会因为某些原因而无法关联融合,形成数据孤岛就成为了一个必然结果。

此外,形成数据孤岛的原因还有另外一个——利益。从目前的情况来看,很多企业都会以保护商业机密为由而不把数据共享出来,不仅如此,一些政府部门也会因为各种各样的原因(例如,数据已经被用于商业交易、工作人员懒政等)而让数据“沉睡”。

实际上,无论是企业还是政府,不进行数据共享的根本原因是利益,正如鄂维南所说: “数据孤岛的痛不是技术问题,而是利益问题,背后隐藏的利益导致了数据孤岛的产生。”

二、增强数据可信度

数据发展存在3个阶段:

在第一阶段,数据并没有经过充分检验,而且是无序的;

在第二阶段,大数据正式兴起,可以在人工智能算法的助力下进行质量排序;

在第三阶段,采用区块链机制以后,数据获得了在互联网全局基础上的可信质量。

正是因为有了区块链,数据才会进入第三阶段。可以说,在人类目前获得的所有数据中,区块链上的大数据是可信度高的一种,而且还具有很高的精确度和良好的数据质量。

1、用区块链验证数据出处和精确性

2016年,IDC Government Insights 发布了一篇报告,该报告深刻阐述了区块链对政府数据权限管理和精确性的巨大价值,同时还指出,对于政府的数据采集系统来说,使用区块链共识机制获取和验证信息的方式是非常合适的。此外,在未来的几年内,政府会以此篇报告为依据,对区块链进行技术测试,从而挖掘出区块链的真正价值。

此前,政府数据权限并不是特别完善,信息精确性也没有保障,而在区块链的帮助下,政府长期控制数据、信息精确性无法验证的难题都可以被有效解决,正如 IDC Government Insights 报告所指出的那样: “区块链可能成为验证数据出处和精确性的核心工具,可以追踪数据升级,为不同数据领域建立真正的权威数据。”

对此,IDC Government Insights 研究主管肖恩·麦卡锡说道:“当前,政府已经对IT安全、信息安全、可靠性提起了高度重视,而 区块链被认为是IT经理人的强大工具,不仅可以使欺诈得以大幅度减少,还可以大限度地保证数据安全。 更重要的是,区块链也可以拉近政府和公民之间的距离,进而形成一种全新的关系。”

IDC Government Insights 报告显示,在改善数据真实性和精确性方面,区块链可以发挥出非常大的作用。这主要是因为区块链可以对代表有价物品的不同实体进行转移和监控,而且还可以保证审计跟踪的稳定性。

在跟踪实体活动的时候,区块链采取的是共享记录的方式,这样就可以保证实体活动不会受到未授权更改及黑客攻击的影响。如果在P2P网络的助力下建立了共享的权威版本,那么众多节点就会一起工作以确保数据的完整性。

区块链的共识协议会对活动的有效性,以及是否可以添加到区块链中进行检查,通过检查以后,区块链会把这个权威记录和其他信息放在一起进行核对。

毋庸置疑,区块链可以在土地登记、版权、智能合约、病历等多个方面发挥作用,但 IDC Government Insights 报告似乎将焦点放在以下3个方面。

1)数据精确性:对于任何类型的数据而言,精确性都是一个关键特性,这不仅可以表示任意对象的数据值记录都是正确的,还可以表示形式、描述对象、内容都是一致的。

2)数据权威性:区块链为数据赋予的权威性不仅详细说明了数据出处,还对数据所有权及数据最终权威版本的位置进行了明确规定。

3)数据访问控制:区块链不仅可以跟踪公共信息,还可以跟踪私人信息,具体包括可以更新数据的人、数据对应的交易、数据本身的详细信息等。

从目前的情况来看,政府刚刚开始对区块链解决方案的实际能力进行测试,测试重点放在了数据保护、权限管理两个方面。另外,根据IDC的预测,区块链解决方案原型搭建的关键推动者应该是系统集成商。

针对区块链解决方案,肖恩·麦卡锡总结道: “我们建议企业和政府机构把区块链解决方案的机遇及价值研究纳入第三平台战略,可以借助内部战略文件的力量,确定区块链的实际意义及应该遵循什么样的实施路径。”

可以看到,在政府数据方面,区块链可以发挥比较大的作用,一方面,有利于解决数据权限问题;另一方面,有利于保证数据的精确性。

2、区块链与大数据共建未来信用 

区块链改变了人与人之间的信任方式,这一点是毋庸置疑的。在当今世界上,信用可谓是一个既稀缺又昂贵的资源,而人类也曾为此付出过非常大的代价。另外,为了大限度地规避道德风险,摆脱信任困境,一笔交易必须被拆分成多个环节,形成多个交易主体。

区块链不仅是一项技术,也是一种数据库,更重要的是,它还可以建立信任,从而实现价值的转移和传递 。而大数据也可以通过分析和处理相关数据,建立起数据的一种智能。 那么,二者既然有如此多的相似之处,是不是可以很好地融合在一起,从而推动整个互联网经济的发展呢?答案是肯定的。

在商品经济的发展过程中,信用是一项必不可少的资源,而在交易支付领域,以点对点网络和开源系统为基础的区块链则掌握着 去中心化、加密安全、不可篡改、去信任机制 等诸多优势。这样看来,在区块链的助力下,基于信任需要的交易环节可以有所减少,从而大幅度降低了交易成本。

一些专家学者认为,信用需求的不断扩大是区块链出现的一个重要历史原因。在商品经济时代,商业模式是物物交换,但这种商业模式需要非常高的运输成本。鉴于此,降低交易成本成为市场经济的首要考虑因素。于是,商业模式开始转变为利用信用建立交易。

互联网金融在市场上出现后,获得了非常良好的发展。拿微信来说,其主要特征是通过大数据来建立信用。可以说,对于互联网金融而言,大数据金融是一个非常重要的基础,既降低了信用建立的成本,又加快了信用建立的速度,还提高了信用建立的质量。

不过,信用建立也不能一直依靠某个(些)“中心”,因为如果中心化程度过高,很可能引发信息不对称的问题,从而对参与方及其他人的利益造成损害。而区块链则利用自身所具有的去中心化特征,有效地解决了这一问题。

在区块链大数据时代,全网公证是建立信用的一种绝佳手段。对于传统信用体系而言,这是极具颠覆性意义的。另外,区块链上的大数据可以将信用赋予每一个人,而区块链也会成为全球金融的基础架构。

三、解决大数据风控弊端

区块链也可以有效解决大数据风控的很多弊端,例如,数据质量低下、数据孤岛、数据泄露等,本节将对此进行详细说明。

1、改善数据质量

众所周知,区块链中的每一个节点都可以记录和存储交易信息,不仅如此,为了验证交易数据的真实“身份”,这些节点也可以对交易数据进行检查。在这种情况下,数据的真实性和有效性就有了很大的保障。另外,由于区块链具有去中心化的特征,因此,无论是谁都不可以对区块链上的数据进行篡改,这样数据篡改的可能性就被降到了最低。

可见,在区块链的助力下,数据的公开性、安全性都有了大幅度提升,而这也带来了数据质量的提高,以及数据检验能力的增强。

OKLink分析师曾说过: “区块链技术拥有高可靠性、简化流程、交易可追踪及改善数据质量等特质,使得其具备重构金融业基础架构的潜力。”

2、解决数据孤岛问题

大数据存在非常严重的数据孤岛问题,而区块链则有望解决这一问题。之所以会这样说,主要是因为区块链不仅是一个分布式账本,而且还具有去中心化、开放性等特征。

在区块链的助力下,信息传递到金融市场参与者的过程会变得越来越公开透明。不仅如此,作为金融市场中的秩序维护者,监管机构还可以通过区块链中的数据链条来预测和分析可能出现的风险问题,并制定出相应的规避措施,以此来保证金融市场的正常运行。

可以看到, 区块链的去中心化的特征,不仅能够解决大数据中的数据孤岛问题,还可以实现不同主体间的信息共享,从而进一步完善现有的风控模式。

另外,在区块链的巨大影响下,区块链创业公司像雨后春笋般不断涌现。不过,对于区块链创业公司来说,提供完善的区块链解决方案是可以的,但这些解决方案能否顺利落地还是一个未知数。

可以说,区块链目前的发展状况与20世纪90年代互联网的发展情形非常相似,其对行业、政府、企业的改变是一定会发生的。到2020年,不仅区块链创业公司的数量可能会大幅度增加,区块链联盟的数量也可能会有所增加。

在维护一个可靠数据库时,区块链采取了去中心化和去信任的方式,这也注定了区块链与大数据融合在一起是必然的。甚至可以说,区块链的诞生是对大数据的重构。

3、解决数据泄露问题

从本质上来讲,区块链其实是一个去中心化的数据库,因此,如果区块链中的某个节点对数据“动了手脚”的话,那么其他节点会在第一时间发现,这样数据泄露的可能性会大幅度降低。

只有通过私钥的形式,区块链中各个节点的身份信息才可以被成功获取,而且私钥还是数据拥有者才可以知道的。 即使数据已经泄露出去,但如果私钥没有被泄露的话,那些已经被泄露的数据也没有办法与节点身份进行匹配,因此,它们并没有任何使用价值。

另外,区块链只能被那些计算力超过50%的黑客攻破,不仅如此,随着区块链节点的不断增多,所需的节点力也会越来越大。当节点增多到一定数量时,发动一次攻击的成本就会变得非常高,对于黑客而言,这其实是得不偿失的。由此来看,通过区块链对数据存储技术进行加密,可以大限度地确保数据安全,从而把数据泄露的风险降到最低。

可以说,“区块链+大数据”是解决大数据风控弊端的最佳模式,同时,该模式还可以大幅度提升金融业务风控能力,从而推动金融行业的不断发展。

四、用区块链解决大数据交易问题

区块链可以从根本上解决大数据的交易问题。一方面,区块链可以实现对数据的追根溯源;另一方面,区块链可以实现对静态数据的隔离验证。

1、追溯数据的源头

在数据交易的过程中,数据提供方会有这样的顾虑: 数据被发送出去以后,很可能会通过其他渠道流入二级市场,并且被转卖的次数越多,数据价值越小。 另外,在现有技术的基础上,数据的可复制性和二次传播还没有办法完全避免,再加上数据价值会随着传播次数的增多而不断减小,所以数据提供方根本不愿意,也害怕将数据提供出来进行交易。

简言之,数据提供方不想进行数据交易的原因主要包括以下两点:

1)二次传播导致数据价值的不断减小。

2)为了获取原始数据全集,数据接收方会进行多次购买。

众所周知,马太效应会在数据本身的量级上展示出来,如果不能有效解决数据溯源问题的话,数据接收方必然会分次获取数据全集,从而对数据提供方的数据交易价值产生严重影响。从目前的情况来看,在商业协议的保护下,数据虽然可以不被二次转卖,但由于举证困难,如果数据接收方违约,数据提供方根本无法追责。

俗话说:“罗马不是一天建成的。”在现有技术不能避免数据被二次复制和转卖的情况下,让数据具备可溯源性特征也是一种非常不错的过渡手段。当出现数据接收方蓄意违约的现象时,数据提供方如果具备举证手段,可以在很大程度上消除其进行数据交易的顾虑。

一个非常有效的实现方法是通过区块链的不对称加密技术,对需要交易的数据进行签名,具体包括以下几个环节:

1)数据交易双方针对签名算法进行协商,例如,使用AES128。

2)数据接收方生成自己的公钥和私钥。

3)数据接收方将自己的公钥和私钥同时提供给数据提供方。

4)数据提供方使用私钥对数据关键字段进行签名。数据关键字段包括枚举类型、ID类型等。值得一提的是,数值类型应该保留明文,然后将已经签过名的数据出售给数据接收方,原始数据则由数据提供方保留。

5)数据接收方购买到加密数据以后,把自己系统内的关键数据用私钥签名进行转换,以便供数据衔接使用。

6)如果市场上出现相关出售数据,那么数据接收方可以通过公钥对数据进行验证,根据公钥和私钥的验证结果,了解数据究竟出自哪一个数据提供者。

这种方法虽然可以对具体的数据提供方进行验证,但也存在一个问题:如果数据接收方充满恶意,妄图同时掌握私钥和公钥的话,那么数据提供方很有可能遭到陷害。这也表示,要想真正实现数据的追根溯源,除了需要区块链的助力,还需要监管机构的公证。

2、静态数据的隔离验证

比特币的隔离验证BIP是隔离验证一词的来源,很多专家学者都认为,隔离验证可以引入到静态数据交易中。

从目前的情况来看,对静态数据进行交易是特别困难的。因为静态数据涉及了太多的用户隐私,所以使数据提供方和数据接收方承担大量的监管风险。另外,从法律层面来看,很多静态数据都处于灰色地带,而且其中大部分都产生于政府职能部门。

在这种情况下, 如果我们可以使用隔离验证技术,将那些合法且可以出售的数据进行隔离验证处理,那么就可以在保护用户隐私的同时,为数据接收方的合法使用提供保障。

这方面我们可以使用静态数据哈希,将不能被泄露的用户隐私数据进行哈希,使数据接收方只有在拥有某些数据的情况下,才可以借助哈希比对获取一条数据记录的其他字段,从而实现与隔离验证相类似的功能。

可以看到,在解决大数据交易问题方面,区块链确实有着得天独厚的优势,而且也可以发挥真正的作用。一方面,区块链可以追溯数据的源头,从而保证数据提供方和数据接收方的利益;另一方面,区块链可以实现静态数据的隔离验证,从而降低数据交易中的风险。

区块链+大数据何时应声落地、遍地开花?我们拭目以待。

相关阅读:

企业如何释放大数据的潜力

中科院在张家口建设空间大数据院士工作站    

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-08-24 09:38:00
大数据资讯 关注县域数据能力建设,抢占产数业务发展先机
2023年《数字中国建设整体布局规划》正式发布,数据能力已成为我国区域发展的底座和创新引擎。 <详情>
2023-03-30 11:15:07
云资讯 分布式时代已至,数据如何更有价值?
无论是连通各大集群内大型超大型数据中心,还是连接边缘侧小型、边缘数据中心,分布式云计算都已成为这张算力网络最重要的支撑。在此背景下,云计算步入分布式时代。 <详情>
2023-03-01 19:27:00
市场情报 FlagOpen大模型技术开源体系,开启大模型时代“新Linux”生态
大数据+大算力+强算法=大模型”是当前人工智能发展的主要技术路径。语言大模型ChatGPT成为现象级应用,人工智能进入普及应用的新时期。 <详情>
2023-01-09 09:36:46
大数据资讯 我国互联网广告数据匿名实施服务正式上线
《指南》形成的“技术保障、评估规制、过程控制”的互信制衡机制,适用于各类互联网广告业务,包括广告投放、程序化交易、广告监测等应用场景下的数据匿名化处理。 <详情>
2022-12-30 11:39:36
云资讯 构造云原生数据战略三大核心因素 亚马逊云科技2022 re:Invent全球大会发布多项新功能
亚马逊云科技指出了构建云原生数据战略的三大关键构成:建立面向未来的云原生数据基础设施;实现高效、跨组织的数据一体化融合;借助教育和工具,使数据普惠化。 <详情>