移动互联网、云计算大数据等技术的快速发展,孕育并产生了各种新的服务模式和应用,例如打车、外卖等基于位置的服务,互联网金融、小额贷款等基于征信的服务等。这些服务和应用一方面采集用户的相关信息,另一方面为用户提供精准化、个性化的服务,给人们的生活带来了极大便利。根据IDC发布的数据,截止到2018年底,中国大数据解决方案市场软硬服总额达到388.8亿元人民币,并有望在2023年超过800亿元人民币,全球市场则将超过3000亿美元。

数据时代,“隐私刚需”已存入现实社会

然而,这些服务所采集的信息中往往含有大量包括病史、收入、身份、兴趣及位置等在内的敏感信息,对这些信息的共享、收集、发布、分析与利用等操作会直接或间接地泄露用户隐私,给用户带来极大的威胁和困扰。因此,用户隐私保护已成为人们广泛关注的焦点。

去年5月《通用数据保护条例》(即GDPR)在欧盟范围内正式执行。该条例规定,企业处理个人数据的业务流程必须在设计和默认情况下构建数据保护,这意味着个人数据必须使用假名(Pseudonymization)或完全匿名(data anonymisation)进行存储,并且默认使用尽可能高的隐私设置,以避免公开数据未经明确同意被使用。

为了应对日益严峻的隐私保护监管措施,科技公司不得不对自己的服务和隐私政策作出修改。以谷歌为例,其不断修订的隐私政策中除了在用语及措辞上具有很大的风格转变,建立了用户可以部分或者全部删除自己的信息的体系,还向用户提供视频、示例、注解、链接跳转等方式供用户更进一步了解其隐私政策的整体条款、所收集的用户信息、收集数据的目的、用户的隐私控制项等,以保证实现用户的知情权。

该条例无疑为蓬勃发展的大数据行业套上了沉重的枷锁。对于数据提供方来说,数据的获取、保存成本都会极大的提高,而保障数据的更正权和被遗忘权则需要更多的人工和时间成本。对于数据的利用方来说,使用范围、使用方式都被限制在了很小的范围内,更不论GDPR对其提出的匿名化、加密化的成本提升。

隐私计算的内部矛盾

除了外部因素之外,隐私数据的处理过程当中还面临着三个内部矛盾:效率、安全、数据孤岛。

安全方面,目前的大数据行业主要依托于可信第三方的计算服务。这些第三方包括主要应用于科研领域的超算中心和主要应用于商业领域的数据中心。大数据行业的高性能、高投入需求让规模化、集中化的运算成为了市场主流,2011年起,我国规划建设了255个数据中心,总设计服务器规模728万台,承担了我国大部分民用数据的计算服务。

但这些集中化、规模化的数据中心未免让人心生疑虑:如何保障企业的“数字黄金”是安全的?就在今年2月,由于阿里云代码托管平台的项目权限设置存在歧义,导致开发者操作失误,造成至少40家以上企业的200多个项目代码泄露,其中涉及到万科集团、咪咕音乐、51信用卡旗下51足迹、百度无人车合作伙伴ecarx等知名企业。

可信第三方不一定一直可信,而数据中心可能出现的问题也并不是空穴来风:我国网络信息安全监管要求,经营增值电信业务的外商投资电信企业外资占股不得超过50%。这意味着外资企业若要在华提供公有云服务,须与国内的云服务企业合作,才能确保服务落地。网络信息安全中云计算是其中重要的内容,即外企进入到中国市场,须受到电信监管、牌照、数据安全等方面的政策限制。对外如此,对内也如此,第三方带来的风险是不能被忽视的。

效率方面,在隐私信息的生命周期中,受益于二战及其后军事目的的密码学发展,隐私的加密化、匿名化和脱敏技术都已经非常成熟,可以大规模应用在隐私获取、储存、流转等环节中。但大数据时代的到来,让隐私数据的处理成为了一个难题:大规模的加密数据处理一定会导致计算性能下降,而非加密数据处理又一定会导致隐私信息的泄露。

最后一点,随着大数据技术的日益发展,企业间的数据孤岛问题也愈发严重。随着大数据产业的发展,政府、企业和其他主体掌握着大量的数据资源,然而由于缺乏数据共享交换协同机制,“数据孤岛”现象逐渐显现。

以保险行业为例,为了进一步吸引客户,保险公司已经从过去的比质量、拼价格过度到“比个性”。各家保险公司都在“服务个性化”上下功夫,相继推出了一些吸引客户的创新服务方式。基于人工智能的定制化保险成为了市场关注的焦点:根据投保人的生活习惯、驾驶习惯、医疗记录等数据为每个投保人生成针对性的保险服务。在这个过程当中,保险服务提供商希望获得用户的消费数据、驾驶习惯、医疗数据等。但鉴于数据可复制的特性,愿意将自己企业获得的数据进行分享的企业却没有几家,无法获得这些个性化数据的个性化保险也就无从谈起。

针对这些问题,学术界和企业界都开展了大量的研究工作,并在社交网络、位置服务、云计算、大数据、智能医疗、智能电网、智能交通等方面提出了诸多具体的隐私保护方案。区块链行业也出现了一些比较有代表性的项目,其中包括万象区块链、公信宝、ARPA等。

Layer2隐私计算的破局法则

其中,ARPA采用了Layer 2解决方案。ARPA联合创始人兼CEO徐茂桐表示,ARPA是全球唯一的MPC可用的layer2计算网络。Layer 2即数据链路层,是OSI参考模型第二层,位于物理层与网络层之间,负责网络寻址、错误侦测和改错,以太网、无线局域网(Wi-Fi)和通用分组无线服务(GPRS)等都属于Layer 2。

如麻省理工学院媒体实验室数字货币计划(MITDCI)的负责人Neha Narula所讲,区块链行业中Layer2的关键特征是“计算被移除至链下,以实现隐私或节省计算资源的目的”。大数据行业中的计算一直有巨规模、多样化、高增速的特征,将所有数据上链进行计算,一方面让储存、通信成本急剧上升,另一方面也使隐私销毁无法实现。

因此,Layer 2隐私计算的特征是,链上仅仅作为账本,对数据资产实现确权和记录,实际上的计算全部发生在链下。链下计算的过程中,为避免数据泄露,计算过程往往会发生在TEE(可信硬件)中,或采用MPC的方式进行计算。ARPA采用的是MPC(安全多方计算,Secure Multi-Party Computation)技术。MPC是一种在无可信第三方的情况下,安全地计算一个约定函数的方式,也是电子选举、门限签名以及电子拍卖等诸多应用得以实施的密码学基础。MPC由我国目前唯一图灵奖获得者姚期智院士提出,其提出场景为百万富翁问题:在没有可信第三方的前提下,两个百万富翁如何不泄露自己的真实财产状况来比较谁更有钱。MPC可以在保证各方数据安全的同时,联合使用各方数据来达到特定的效果,从而充分发挥数据的价值。

多个持有各自私有数据的参与方,共同执行一个计算逻辑计算逻辑(如,求大值计算),并获得计算结果。但过程中,参与的每一方均不会泄漏各自数据的计算,被称之为MPC,MPC可以在Layer 2上实现,而不用依赖于可信第三方进行计算。

这种模式的优势在于,可以在协议层上解决上述的三个问题:安全、效率、数据孤岛。

首先,安全方面,由于采用了区块链技术,去中心化的架构可以避免将数据集中在第三方的服务器上。同样,得益于MPC的引入,计算过程和结果都处于加密当中,并不会导致数据的泄露。

其次,在效率方面,ARPA联合创始人兼CEO徐茂桐告诉链得得App,MPC在执行计算的过程中,的确无法避免密态数据计算必然产生的低效率问题。与明文数据计算相比,MPC的计算速度约为前者的百分之一到数百分之一,并且计算方越多,效率就会越低。但从实际使用的角度来说,这个速度已经足够应对大多数的计算场景了:得出计算结果的时间从毫秒级上升到了秒级,对于大部分用户来说是可以接受的。另一方面,虽然计算方越多,效率就会越低,但大多数的商用场景并不需要太多节点进行运算,所产生的效率问题也处于可以接受的范围之内。

最后,在打破数据孤岛方面,区块链+MPC更有先天的优势。金融机构在查询征信数据的时候,经过多家银行和金融机构的协同计算,最终只会得出“是”或“否”的结果,过程当中无法获得其他节点的数据,其他节点也无法获得个人姓名等信息。

应用方式:促大数据业态全新转变

ARPA联合创始人兼CEO徐茂桐认为,区块链+隐私计算的发展,必然会重构当前大数据行业的业态。

在传统的业态中,企业想要利用数据,首先需要自己收集或购买其他来源的数据,然后利用规模化、集中化的数据中心提供的计算资源进行计算,最终得到结果。在这个过程当中,从第三方数据源购买或出售数据、通过第三方数据中心进行计算,都存在数据泄露的风险。以银行贷款为例,银行想要获得申请人的征信数据,首先需要查询央行提供的征信数据库,还需要在银行内部查询申请人的资金流水和标签,至于申请人是否还在蚂蚁金服等互联网金融服务提供商有不良信用记录就无从查起了。查询的过程发生在数据中心里,存在较高的风险。

而被重构之后的业态中,企业可以直接通过MPC在保护企业数据的同时与其他节点进行联合计算,从而将第三方数据源和数据中心从体系内排除出去,减少工作流程,从而达到降低成本、提高效率的目的。在该体系下,银行可以直接利用MPC查询其他银行、金融服务机构,甚至个人提供的征信数据,最终得到一份征信报告,显示申请人在多少机构存在不良记录,其他机构也无法获取申请人的信息。

2018年信通院发布的《数据流通关键技术白皮书》中认为,多方安全计算对解决网络环境下的信息安全具有重要价值。ARPA联合创始人兼CEO徐茂桐告诉链得得App,ARPA依托其强大的技术团队,正在与中国信通院合作编写多方安全计算行业标准,将MPC性能、效率等关键指标进行规范,以促进隐私计算和区块链行业的快速发展。

徐茂桐告诉链得得App,ARPA的目标是构建分布式的商业社会,各行各业,甚至个人都能在保证隐私的前提下将自己的数据分享出来,最终创造更大的价值。

延伸阅读:

AWS宣布在香港推出新的区域

真实场景化评测,秒速十万次响应,全面解读华为云服务器S6  

IDC时评:5G的发展为什么离不开边缘计算?

凡本网注明来源非中国IDC圈的作品,均转载自其它媒体,目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-03-30 11:15:07
云资讯 分布式时代已至,数据如何更有价值?
无论是连通各大集群内大型超大型数据中心,还是连接边缘侧小型、边缘数据中心,分布式云计算都已成为这张算力网络最重要的支撑。在此背景下,云计算步入分布式时代。 <详情>
2023-03-01 19:27:00
市场情报 FlagOpen大模型技术开源体系,开启大模型时代“新Linux”生态
大数据+大算力+强算法=大模型”是当前人工智能发展的主要技术路径。语言大模型ChatGPT成为现象级应用,人工智能进入普及应用的新时期。 <详情>
2023-01-09 09:36:46
大数据资讯 我国互联网广告数据匿名实施服务正式上线
《指南》形成的“技术保障、评估规制、过程控制”的互信制衡机制,适用于各类互联网广告业务,包括广告投放、程序化交易、广告监测等应用场景下的数据匿名化处理。 <详情>
2022-12-30 10:10:19
大数据资讯 中国移动磐维数据库正式发布
未来,随着数据库功能和稳定性等进一步增强,磐维数据库将在中国移动内外部的广泛应用中积累更多复杂业务场景实践经验,进一步提升数据库产品的核心技术能力,助力数智化转 <详情>
2022-12-30 10:09:23
区块链 中国信通院发布《区块链白皮书(2022年)》
2022年12月29日,由中国信息通信研究院(以下简称“中国信通院”)、中国通信标准化协会和中国互联网协会指导,可信区块链推进计划、中国互联网协会区块链技术应用工作委员 <详情>