大数据具有数据体量巨大、数据类型繁多、价值密度低、处理速度快的特点。在带来各种光鲜机遇的同时,大数据也带来了新的挑战,尤其是关系国计民生的统计大数据,如应用不慎,达摩克利斯之剑可能随时落下。

面临的挑战

在大数据被讨论得最热火朝天时,“棱镜门”为全世界敲响了警钟。但多数人忽视了一个关键问题,正是有了大数据,才让“棱镜”项目得以顺利实施,大数据技术在带来机遇的同时,带来很多问题。

巨大体量使得信息管理成本陡增。海量数据的管理是每一个大数据管理者的极大挑战。在互联网上,大数据是非常容易被发现的目标,已成为网络黑客攻击的首选对象。大量数据的集中存储增加了泄露风险,黑客的一次攻击成功就能获得比以往更多的数据,黑客的攻击收益远远大于进攻成本。在大数据时代,数据加工和存储链条上的时空先后顺序已被模糊,可扩展的数据联系使得安全防护更加困难。

在国家统计局联网直报平台上,有企业一套表、采购经理调查、工业生产者价格调查等网上直报项目,数以万计的被调查单位的数据汇聚在一起,是实实在在的统计大数据,这里面蕴藏着更复杂、更敏感、价值巨大的信息。从微观角度来看,被调查单位的指标直接反映了自身生产经营状况;从宏观角度来看,如果通过专业人员分析,透过这些数据更可以对经济运行状况和未来走势一探端倪。目前,网上直报项目的登陆账号多为被调查单位的法人代码,默认密码一般为法人代码,初次登陆后一般修改为“12356”、“11111111”等过于简单的密码,这些数据在某种程度上会引来潜在攻击者。

类型繁多加大了信息有效性验证难度。大数据时代,由于不再拘泥于特定的数据收集模式,数据来自于多维空间,各种非结构化的数据与结构化的数据混杂在一起。太多无用的信息造成信息不足或信息不匹配,如何从海量的数据中去伪存真,提取需要的数据,是每一个大数据应用者面临的挑战。

日常统计调查工作收集了大量统计数据,通常可以依托算法处理得出走势和预测。但是,如果被调查单位上报的数据存在人为失误,或者在收集数据的过程中出现了偶然的非人为失误,导致数据本身出现了问题,通过数据分析得出的结果也将不尽准确。

低密度价值分布使得安全防御边界有所扩展。第一,大量的数据汇集,包括大量的企业运营数据、个人隐私和各种行为的细节记录,数据的集中存储增加了泄露风险。第二,一些敏感数据的所有权和使用权并没有被明确界定,很多基于大数据的分析都未考虑到其中涉及的个体隐私问题。第三,大数据对数据完整性、可用性和秘密性带来挑战,在防止数据丢失、被盗取、被滥用和被破坏上存在一定的技术难度,传统的安全工具不再像以前那么有用。

统计调查工作涉及了大量企业、家庭和个人的隐私数据,如企业投资方向、人员信息、家庭收入、日常支出、消费记录等。《统计法》第九条明确规定:“统计机构和统计人员对在统计工作中知悉的国家秘密、商业秘密和个人信息,应当予以保密。”而在大数据时代,任何人都可以是信息的提供者和维护者,这种由先天的结构性导入设计所带来的变化,要采取必要的技术手段实现隐私保密。

快速处理要求使得独立决策的比例显著降低。大数据时代,对事物因果关系的关注,转变为对事物相关关系的关注。大数据系统是一种辅助决策系统,事实上,大数据分析日益成为一项重要的业务决策流程。

宏观经济失衡的发生,会给国民经济发展造成巨大损失,并引起经济大起大落、强烈波动。国家统计局发布的经济预警指数包括工业生产指数、固定资产投资、城镇居民人均可支配收入、居民消费价格指数等十余个指标。在经济运行过程中,如何快速准确地对经济的发展变化情况进行预测,在失衡发生前发出警报,事先采取措施加以调节,避免不良后果,是检验统计大数据运用效果最直接的体现。

应对的策略

通过安全评估体系确保统计大数据安全。一是打造一支可靠的专业团队。大数据建设的每个环节都需要依靠专业人员完成,因此,必须培养和造就一支懂技术、懂管理、懂指挥的统计大数据建设专业团队,为统计大数据管理人才提供保障。二是使用基于威胁特征建立实时匹配检测,基于统一的时间源消除高级可持续攻击(APT)的可能性,精确控制大数据设计规模,削弱黑客可以利用的空间。三是建立安全评估体系,对于不同安全域要进行准确评估,加强保护关键信息索引,做好重要数据多重灾难备份工作,应对大数据的灾难性损毁。

通过有效性验证确保统计大数据可靠。固定的传播渠道所发布的数据往往有其针对性和倾向性,甚至带有误导性,这时就需要数据使用者具备一定的甄别能力,才能真正充分利用大数据实现自身价值。一是通过研究相关的算法,确保数据有效性,尽可能使数据类型具体化,增加对数据更细粒度的了解,缩小数据的聚焦范围,定义数据的相关参数,对数据进行精细筛选。二是进一步健全特征库,加强数据的交叉验证,通过逻辑冲突去伪存真。

通过确立权限边界确保统计大数据隐私。一是在流程设计上,一定要将数据分散存储,任何一个存储单元被黑客攻破,都不可能拿到数据的全集。同时,使用过滤器监控,一旦发现数据离开了用户的网络,就自动阻止数据的再次传输。二是确立权限管理边界,构建一体化的数据安全管理体系。使用加密手段把数据使用与数据保管分离,把密钥与要保护的数据隔离开,通过USBKEY等硬件辅助对敏感数据的调用启动身份验证机制,定义产生、存储、备份、恢复等密钥管理生命周期,实现对数据的动态加密管理。

通过科学建模实现统计大数据快速预警。大数据分析技术经过这几年的发展,已经形成了一些比较成熟稳定的模型算法,常见的模型算法有关联规则分析(Apriori)、决策树、神经网络、K-MEANS聚类等。这些算法模型有的适合预测趋势和行为,有的适合关联分析,有的适合聚类分析。每种模型算法都有其优劣性,我们可以针对不同的需求,选择合适的算法模型进行统计大数据分析挖掘,从而利用实时数据进行快速、精准的经济预警。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-08-24 09:38:00
大数据资讯 关注县域数据能力建设,抢占产数业务发展先机
2023年《数字中国建设整体布局规划》正式发布,数据能力已成为我国区域发展的底座和创新引擎。 <详情>
2023-03-30 11:15:07
云资讯 分布式时代已至,数据如何更有价值?
无论是连通各大集群内大型超大型数据中心,还是连接边缘侧小型、边缘数据中心,分布式云计算都已成为这张算力网络最重要的支撑。在此背景下,云计算步入分布式时代。 <详情>
2023-03-01 19:27:00
市场情报 FlagOpen大模型技术开源体系,开启大模型时代“新Linux”生态
大数据+大算力+强算法=大模型”是当前人工智能发展的主要技术路径。语言大模型ChatGPT成为现象级应用,人工智能进入普及应用的新时期。 <详情>
2023-01-09 09:36:46
大数据资讯 我国互联网广告数据匿名实施服务正式上线
《指南》形成的“技术保障、评估规制、过程控制”的互信制衡机制,适用于各类互联网广告业务,包括广告投放、程序化交易、广告监测等应用场景下的数据匿名化处理。 <详情>
2022-12-30 10:10:19
大数据资讯 中国移动磐维数据库正式发布
未来,随着数据库功能和稳定性等进一步增强,磐维数据库将在中国移动内外部的广泛应用中积累更多复杂业务场景实践经验,进一步提升数据库产品的核心技术能力,助力数智化转 <详情>