从机构对大数据的投资情况看,已经兵分几路开展布局。在当前最重要的大数据资源中,主要包括四个方面:首先是政府部门积累的大数据,第二个掌握大量数据的是金融部门,第三个重要的大数据资源来源于电信运营商,最后一个大数据资源是商业数据。

经过多年的积累,大数据已经成为网络公司最重要的资产,通过对大数据资源的开发,“互联网++”才能水到渠成 。而从机构对大数据的投资布局看,它们已经兵分多路,对占据大数据资源的诸多上市公司进行了前瞻性的布局

进入2015年以来,新兴产业概念股一飞冲天,尤其是在今年全国两会上热议的“互联网+”概念推动下,代表新兴产业的创业板指年内高涨幅超过75%。在业内人士看来, 经过多年的积累,大数据已经成为网络公司最重要的资产,通过对大数据资源的开发,“互联网+”才能水到渠成。而从机构对大数据的投资布局看,已经兵分多路,对占据大数据资源的诸多上市公司进行了前瞻性的布局。

  大数据挖掘将造就千亿级以上市场

全国两会上热议的“互联网+”战略,从去年余额宝的推出就开始受到了关注。通过对用户行为进行数据分析,进行投资错配博取高收益,让余额宝一鸣惊人,并掀起席卷市场的货币基金浪潮,由此引爆的固定收益类产品示范效应,点燃了基金公司开发大数据权益类产品的热情。大数据概念的开发,也受到市场更多的关注。

在大数据开发热潮引领下,互联网与传统产业的深度融合带来巨大的市场,不少上市公司脱离原有板块,进行跨界、转型以及融合,形成新的业态、估值体系。在业内人士看来,网络开放、平等、透明度高等特性,让信息及数据在工业社会中被压抑的巨大潜力爆发出来,转化成巨大生产力,成为社会财富增长的新源泉,改变生活和生产,从而带来大数据的黄金时代。

事实上,从大数据目前开发情况看,已经开始向各个行业扩散与渗透,通过大数据,创造了新的需求及预测未来,进行资源合理分配,最终使社会效率获得提升。余额宝研究用户及存款提款行为,通过大数据管理1亿用户的流动性;苏宁云商提出并实践O2O模式,通过大数据驱动的C2B反向定制、精准会员营销等创新运营手段,引发供应链变革;商业保险、移动医疗企业的崛起,正在通过市场的力量加速医疗大数据形成闭环,移动医疗行业蓬勃发展。

  互联网主题基金

从政策层面看,不少地方政府借助网络巨头积累的大数据,提升城市管理水平。近日腾讯就与上海市政府签署了相关协议,通过腾讯的微信等平台,进行更为有效的管理。多地政府也在通过信息服务平台建设,对经济调节、市场监管、社会管理、公共服务进行改进。

沪上某基金公司研究员表示,目前所有的网络公司本质上已经是大数据公司,大数据已经成为网络公司最核心的资产,未来大数据的价值挖掘及变现将会得到充分利用,这将造就千亿级以上的市场,相应的也会诞生大量的投资机会。

  机构重兵布局大数据

从机构对大数据的投资情况看,已经兵分几路开展布局。在当前最重要的大数据资源中,主要包括四个方面:首先是政府部门积累的大数据,不仅包括国家经济社会等众多领域的核心真实信息,也包括每一个人的个人身份信息,还有涉及交通、公安、行业监管等各部门的数据,这些数据如果得到开发,都将是掘之不尽的金矿。

从机构布局看,拥有纳税信息的航天信息,在2014年底吸引186家机构抱团入驻;为国家有关部门提供计算机信息服务的太极股份,吸引了88家机构密集布局,为人力资源和社会保障提供自助服务一体机服务的易联众,吸引了15家机构持有等。

第二个掌握大量数据的是金融部门。金融部门掌握了国计民生的所有金融交易数据,如果上述数据得到有效的开发,空间难以想象。在沪上某基金公司投资总监看来,银行占有巨大的资源,如果这些资源得到充分开发,银行的估值体系将得到很大提升,“但从目前来看,银行传统业务盈利非常容易,还没有动力去进行充分开发,如果把银行掌握的数据交给其他上市公司,资本市场绝对会给非常高的估值。”

第三个重要的大数据资源来源于电信运营商。中信建设分析师武超则认为,电信运营商通过多年的经营,积累了庞大的数据资源。随着语音业务的逐渐降价,数据流量经营将成为运营商的主要方向,运营商拥有任何移动互联网公司都无法比拟的海量数据,由语音经营走向流量经营进而进入大数据运营已成为大势所趋,空间巨大。

从机构布局看,从事移动转售业务并发力移动互联的天音控股,被37家机构同时持有;在电信网络管理领域有优势的亿阳信通,也被31家机构同时持有,其中不少基金为去年四季度新近入驻。

最后一个大数据资源是商业数据,不管是阿里巴巴平台上的交易数据,还是上海钢联、生意宝等公司上的交易数据,都存在其他领域变现的可能,资本市场也正是出于多途径变现的前景,给予了很高的估值。数据显示,目前有多达69家机构持有上海钢联,持有怡亚通的机构也高达61家,而与阿里巴巴等平台合作的公司都被赋予了较高的估值。

在业内人士看来,在互联网推动社会发展一日千里的情况下,通过大数据创造需求及预测未来,进行资源合理分配,最终使社会效率获得提升,本质上也是反映了资本市场炒作逻辑,在构建“财、物、信息”富有价值的“关系与关联”中,去进行二级市场的投资。例如上海钢联,通过公司积累的大数据资源,切入供应链金融后受到追捧,做煤炭贸易的瑞茂通引入大数据开发后,同样可以开发上下游资源,向供应链领域进行拓展。

事实上,基金公司也在开发大数据资源,进行有针对性的产品开发。目前南方基金与新浪财经、百度与广发基金、博时基金和蚂蚁金服等都已经开发或者正在开发相应的基金产品,而天弘基金则表示,将在大数据投研领域引领行业潮流,早在去年就成立了数据研究部,打造数据研究平台,开启了资管投资2.0时代。今年2月,天弘基金还发行了一只天弘云端生活基金,将大数据技术引入投研,提升投研的效率。

经过多年的积累,大数据已经成为网络公司最重要的资产,通过对大数据资源的开发,“互联网++”才能水到渠成 。而从机构对大数据的投资布局看,它们已经兵分多路,对占据大数据资源的诸多上市公司进行了前瞻性的布局

进入2015年以来,新兴产业概念股一飞冲天,尤其是在今年全国两会上热议的“互联网+”概念推动下,代表新兴产业的创业板指年内高涨幅超过75%。在业内人士看来, 经过多年的积累,大数据已经成为网络公司最重要的资产,通过对大数据资源的开发,“互联网+”才能水到渠成。而从机构对大数据的投资布局看,已经兵分多路,对占据大数据资源的诸多上市公司进行了前瞻性的布局。

  大数据挖掘将造就千亿级以上市场

全国两会上热议的“互联网+”战略,从去年余额宝的推出就开始受到了关注。通过对用户行为进行数据分析,进行投资错配博取高收益,让余额宝一鸣惊人,并掀起席卷市场的货币基金浪潮,由此引爆的固定收益类产品示范效应,点燃了基金公司开发大数据权益类产品的热情。大数据概念的开发,也受到市场更多的关注。

在大数据开发热潮引领下,互联网与传统产业的深度融合带来巨大的市场,不少上市公司脱离原有板块,进行跨界、转型以及融合,形成新的业态、估值体系。在业内人士看来,网络开放、平等、透明度高等特性,让信息及数据在工业社会中被压抑的巨大潜力爆发出来,转化成巨大生产力,成为社会财富增长的新源泉,改变生活和生产,从而带来大数据的黄金时代。

事实上,从大数据目前开发情况看,已经开始向各个行业扩散与渗透,通过大数据,创造了新的需求及预测未来,进行资源合理分配,最终使社会效率获得提升。余额宝研究用户及存款提款行为,通过大数据管理1亿用户的流动性;苏宁云商提出并实践O2O模式,通过大数据驱动的C2B反向定制、精准会员营销等创新运营手段,引发供应链变革;商业保险、移动医疗企业的崛起,正在通过市场的力量加速医疗大数据形成闭环,移动医疗行业蓬勃发展。

从政策层面看,不少地方政府借助网络巨头积累的大数据,提升城市管理水平。近日腾讯就与上海市政府签署了相关协议,通过腾讯的微信等平台,进行更为有效的管理。多地政府也在通过信息服务平台建设,对经济调节、市场监管、社会管理、公共服务进行改进。

沪上某基金公司研究员表示,目前所有的网络公司本质上已经是大数据公司,大数据已经成为网络公司最核心的资产,未来大数据的价值挖掘及变现将会得到充分利用,这将造就千亿级以上的市场,相应的也会诞生大量的投资机会。

  机构重兵布局大数据

从机构对大数据的投资情况看,已经兵分几路开展布局。在当前最重要的大数据资源中,主要包括四个方面:首先是政府部门积累的大数据,不仅包括国家经济社会等众多领域的核心真实信息,也包括每一个人的个人身份信息,还有涉及交通、公安、行业监管等各部门的数据,这些数据如果得到开发,都将是掘之不尽的金矿。

从机构布局看,拥有纳税信息的航天信息,在2014年底吸引186家机构抱团入驻;为国家有关部门提供计算机信息服务的太极股份,吸引了88家机构密集布局,为人力资源和社会保障提供自助服务一体机服务的易联众,吸引了15家机构持有等。

第二个掌握大量数据的是金融部门。金融部门掌握了国计民生的所有金融交易数据,如果上述数据得到有效的开发,空间难以想象。在沪上某基金公司投资总监看来,银行占有巨大的资源,如果这些资源得到充分开发,银行的估值体系将得到很大提升,“但从目前来看,银行传统业务盈利非常容易,还没有动力去进行充分开发,如果把银行掌握的数据交给其他上市公司,资本市场绝对会给非常高的估值。”

第三个重要的大数据资源来源于电信运营商。中信建设分析师武超则认为,电信运营商通过多年的经营,积累了庞大的数据资源。随着语音业务的逐渐降价,数据流量经营将成为运营商的主要方向,运营商拥有任何移动互联网公司都无法比拟的海量数据,由语音经营走向流量经营进而进入大数据运营已成为大势所趋,空间巨大。

从机构布局看,从事移动转售业务并发力移动互联的天音控股,被37家机构同时持有;在电信网络管理领域有优势的亿阳信通,也被31家机构同时持有,其中不少基金为去年四季度新近入驻。

最后一个大数据资源是商业数据,不管是阿里巴巴平台上的交易数据,还是上海钢联、生意宝等公司上的交易数据,都存在其他领域变现的可能,资本市场也正是出于多途径变现的前景,给予了很高的估值。数据显示,目前有多达69家机构持有上海钢联,持有怡亚通的机构也高达61家,而与阿里巴巴等平台合作的公司都被赋予了较高的估值。

在业内人士看来,在互联网推动社会发展一日千里的情况下,通过大数据创造需求及预测未来,进行资源合理分配,最终使社会效率获得提升,本质上也是反映了资本市场炒作逻辑,在构建“财、物、信息”富有价值的“关系与关联”中,去进行二级市场的投资。例如上海钢联,通过公司积累的大数据资源,切入供应链金融后受到追捧,做煤炭贸易的瑞茂通引入大数据开发后,同样可以开发上下游资源,向供应链领域进行拓展。

事实上,基金公司也在开发大数据资源,进行有针对性的产品开发。目前南方基金与新浪财经、百度与广发基金、博时基金和蚂蚁金服等都已经开发或者正在开发相应的基金产品,而天弘基金则表示,将在大数据投研领域引领行业潮流,早在去年就成立了数据研究部,打造数据研究平台,开启了资管投资2.0时代。今年2月,天弘基金还发行了一只天弘云端生活基金,将大数据技术引入投研,提升投研的效率。

  关于大数据 你不知道的6个迷思

过去两年,在 Netflix 以行为分析为基础打造的美剧 House of Cards 《纸牌屋》爆红的同时,大数据也成了现代企业经营的显学。无论是消费、金融、电信、交通,甚至是政治、慈善,所有的研讨会上,一定可以看到大数据的身影。似乎人类组织有史以来的行销、管理等问题,有了 Data,全部都可以解决。

事情当然没有那么简单。就像任何新科技一样,大数据并不是万灵丹。要善用它,必须要从对的观念出发。今天就跟大家聊聊关于 Big Data,我最常听到的 6 个迷思。

  1. 大数据是新时代的新玩意

事实上,数据分析一点也不新。早从数百年前的启蒙时代,学者们便已开始遵循科学方法,一步步拆解事物形成背后的原因。科学家先观察,取得并分析数据,归纳出假说,然后再经过不断实证,逐渐形成定律。因此我们说的大数据,充其量只是科学方法的应用。跟过去的科学家相比,现代大数据更多仰赖机器去做观察与取得数据的工作,以求更全面、更即时的资料收集。但后续的推论、归纳工作,还是需要人为的判断。

  2. 100TB 以上才叫大数据

数据的大小,事实上没有明确的界线。更重要的,数据的大小,不一定有意义。数据大,也不代表一定能做出準确的预测 ─ 假设你拥有地球 70 亿人口的姓名、性别、生日、身高、体重、肤色、视力,以及他们的上网行为等种种数据,如果题目是要预测他们明年的收入分布,这个庞大的资料库,恐怕还是无法帮上你什么。所以数据在精不在多,重点是要达成的任务,不是储存的数量。

  3. 数据非常客观

采集数据的软硬件,是人为设计的,因此不可能做到绝对的客观。手机停留在某个画面,就代表你在欣赏这个内容吗?很难说,或许你只是在跟旁边的朋友聊天。对某个发文点赞,就代表你真心喜欢这则资讯吗?也很难说,说不定只是喜欢发文的人,或是手滑不小心按到。真实世界,永远有测不准的环节,因此设计数据采集软件的人,很难绝对客观的去记录使用者行为,所以产生出来的数据,也很难是完全客观的。对于大数据,你该有的认知是它有相当、相对的客观性,但不可能绝对准确。

  4. 数据可以告诉你不知道的内幕

就像字面显现的,数据只能告诉你不知道的数据。但它究竟代表什么样的内幕,必须要靠归纳者自行去解读。举例来说,分析你的 App 使用者资料后,发现 21-30 岁女性族群占比大,这可能代表着你的 App 对这种人最有吸引力,但也可能代表当初推广团队在发广告时,比较针对这样的族群。究竟事实是什么?往往需要更进一步的综合比较、实验分析,才能逼近。

  5. 大数据是资讯部门的问题

大数据的收集与储存,的确可以归类为资讯部门的业务。但定义该收集什么,如何收集,收集后该如何应用,绝对是业务主导部门该负责的。要求 IT 部门把大数据做好,就好像要求财务部门提昇公司获利一样,是本末倒置的。

  6. 大数据会改变一切,不懂数据的人将会被淘汰

数据的重点不是数据,而是解读与预测,也就是用数据验证人类的行为模式,用以提升产品与服务的设计,与潜在、现有客户沟通的方法与内容。因此,懂数据不是重点,懂人才是。在全面连网的世界,数据将会越来越泛滥,懂数据收集管理的人也将会越来越普遍。但无论科技如何发展,懂人的人,恐怕永远是少数。人感性、容易受到环境影响,因此难以预期。

所以,大数据是社会科学重要的进展,但企业要精准抓住未来,经理人要拥有更好的决断力,还是要基于对不同人、不同性的理解,而不仅是科技工具的使用而已。大数据不是万灵丹,它只是涡轮加速器,至于方向盘,仍旧掌握在你的手上。(快鲤鱼)

  大数据的国家战略

我们正在经历一场由大数据引发的社会革命。人类生活中的一切活动,每次购买,每次对话,每次社交,每次移动,甚至我们的身份和身体的变化都成为信息收集、存储、分析和使用的对象。多样化的数据、巨大的数据量以及它们潜在的商业价值已经开始对社会经济和公民隐私产生深远的影响。

当大数据快速向社会的各个方面渗透时,政府与公民、政府与企业、政府与政府之间的关系正在发生变化。如同任何一种新科学(如核物理)出现一样,政策会对这门科学的应用产生深远的影响。科学既能造福人类也可能危害人类,大数据也不例外。有远见的国家战略和政策一定是在保护公民隐私权的前提下,加速数据信息的自由流动,鼓励创新,催生新产业,创造新就业,进而促进国家的经济繁荣。

从借鉴比较国外政府的经验入手,研究制定适合国情的大数据发展战略和发展路径,是继续深化政务电子化,加快实现中央提出的健全国家治理体系与治理能力现代化的明智之举。

  美国的大数据战略布局

以美国为代表的发达国家在推进大数据应用上已形成从发展战略、法律框架到行动计划的完整布局。2009年1月21日,现任美国总统奥巴马宣誓就职后的第一个工作日就签发了“开放政府”备忘录,指导新一届行政当局从开放政府数据源、建设开放型政府入手,以数字革命带动政府变革。“开放政府”的目的简洁明了:改进公众服务,提升公众信任,更有效管理公共资源和增进政府责任。

互联网时代的开放型政府,首先必须开放政府数据。5月20日,美国政府开放数据的门户(Data.gov)上线,第一批47个政府数据源向社会开放。2009年12月8日,奥巴马签发“开放政府数据”行政令,要求在45天内所有政府部门无一例外必须向社会开放3个有价值的数据源。经过12个月的运行,Data.gov升级到2.0。政府开放的数据源达到2.5万个。2011年9月20日,白宫正式启动“开放政府国家行动计划1.0”,首批26个开放政府项目向社会公开。2012年3月29日,在公开政府数据源的22个月后,启动联邦政府大数据行动计划,宣布了由政府资助的分布在13个部委的84个大数据项目,其中多数项目基于不同部门的开放数据源,联合民间企业协同展开,如癌症和心血管疾病研究,等等。2013年5月9日,总统签署开放数据政策(Open Data Policy).2013年12月5日,“开放政府国家行动计划”进入 2.0,又添加23个政府开放项目。

在逐步扩大开放政府数据源,启动开放政府项目和部署政府主导的大数据项目后,2014年1月17日,奥巴马指定白宫法律总顾问波德斯塔领导行政当局与总统科技顾问委员会合作,综合评估“大数据”和公民隐私产生交集后已经带来和将会带来的新问题。作为综合研究的一部分,奥巴马要求超前思考“大数据”对人类社会的影响,重点研究现有技术和未来技术会对现行法律带来哪些挑战,哪些法律和政策需要修订或制定以适应变化,评估探讨“大数据”会从哪些方面影响我们的生活方式和工作方式,影响和改变政府与公民之间的关系。美国总统希望得到建议,如何通过政府和民企之间的合作推动创新,在大限度降低公民隐私风险的前提下,保证信息的自由流动,创造更多的商业机会和就业机会。

2014年3月,美国政府向全社会发出公开征询,希望民众从不同层面提出看法,为政府的大数据战略献计献策。征询从五个维度展开:

第一,收集、存储、分析和使用大数据对公共政策的影响是什么?例如,当政府利用大数据后,美国目前旨在保护消费者隐私权的法律框架和隐私保护策略,能否化解大数据分析带来的新问题?

第二,如果政府采取更多的举措,给大数据的科学研究更多的资助,能为政府带来哪些可量化的收益?哪些类型的大数据分析技术会对公共政策带来新挑战?有哪些政府部门和特定行业在使用大数据技术时,应该被政府和公众更多地关注?

第三,哪些关键技术和技术趋势将影响大数据的采集、存储、分析和使用?哪些新技术或新做法,在保护隐私的同时能实现大数据的有效利用?

第四,监管政府和私营部门处理大数据的政策框架及法规应该有何区别?例如,执法部门、政府服务、商业、学术研究,等等。

第五,跨行政区、跨国家使用大数据会带来哪些法律问题?如当前的国际法律、法规或规范的适当性?

2014年5月,由美国总统科技顾问委员会执笔的报告提交奥巴马。报告提出五大建议:

第一,政府制定政策时应更多关注大数据的实际使用,较少关注数据收集和分析。

第二,在政府各个层面的政策规范制定中,不应关联特定技术而应指明希望得到的结果。

第三,为推进大数据技术的应用,白宫科技政策办公室和政府网络信息技术研发部门须大力合作,强化国家在用于保护隐私技术方面的研究,加强与隐私相关的社会科学的研究。

第四,白宫科技政策办公室还应与高等教育和职业教育合作,鼓励和增加培养隐私保护专业人员。

第五,美国应当在立法上保持在国际上的领先地位,加快修订国内法律法规,鼓励采用新方法新技术应对新的隐私需求。

美国总统科技顾问委员会建议:新的政策应该侧重于研究对个人信息的具体用途是否会对个人隐私产生不利影响;政策制定的重点应放在利用数据的结果上,也即用个人数据分析在“做什么”,而不是“如何做”,以避免政策成为技术进步的障碍;政策框架应能加快开发商业化大数据技术,这些技术不仅包括新的研究领域和潜在的技术选项,而且应包含能消除对隐私权不利影响的新技术新方法。通过政策的引导,能更有效地利用大数据技术,让美国在立法和商业上在全球继续保持领先地位。只有解除对个人隐私受到侵犯的担忧,才能大限度地利用大数据的好处。最后,该委员会呼吁,更多的科学和专业人士共同努力,以充分尊重隐私的方式,开发和使用大数据技术。

有分析人士认为,美国政府的经验可以给其他国家以启示。

首先,国家的大数据发展战略不仅仅是一个技术发展纲要。尽管它针对一门新兴科学和相关技术,但应该重点研究此项技术会给未来社会和公民生活带来何种冲击,以完善法律框架、政策框架为要,配之以恰当的财政计划、项目计划及合作计划。

第二,政府是集数据收集、数据使用和公民隐私保护为一体的最终仲裁者,所以必须充分考虑科学与公民、科学与政府、科学与工业以及科学与科技之间的互动关系,制定的法律政策既要能鼓励利用这项技术更多造福人类,同时又能抑制利用其危害人类。

第三,政府资助的重点应放在科学研究(如数据科学),应当用诸如合同或购买的方式激发鼓励民间企业开发应用技术。

第四,科学和技术是现代文明的基础,历史上每次重大科学技术的出现,都引发了巨大的社会变革,因此,政府在关注特定科学和技术的同时,要资助和鼓励相关社会科学的探索争鸣。

目前无论从哪个角度看,大数据仍处在初始阶段。尽管企业和媒体对大数据时代的到来表现出空前热情,但政策制定者、社会法律学者和科技人士应当对此保持清醒并对已经面临的和将会出现的问题有所准备。

出台推动大数据产业链的导向性政策

今天数据积累的速度远远超过据能被处理和被利用的速度。2013年全球产生的数据中约22%有可能被用作分析,但结果只有5%实际被分析利用。预计到2017年,全球又会积累超过4倍于今天的数据量。这必然导致存储设备、数据中心和电力消耗的快速膨胀。绝大部分数据在分立分治的系统中快速堆积,这些数据互不相识互不来往,除了消耗资源,尚未产生任何价值。纵向累积的、缺乏多维度关联的数据的确越来越大。但这并不是“大数据”,只不过是“数据大”而已。

在我们刚刚步入大数据社会时,不妨做一些前瞻性思考。比如,应当从物理层面审视和规划数据如何收集、存储、处理、传输和共享;从数字产品生产层面考虑研发什么样的分析工具、使用什么样的软件平台和基于什么样的环境(如开放代码);从使用层面考虑引进培养什么样的人才和训练什么技能,以及在更广义的范畴考虑如何形成大数据思维和文化,大数据将会对未来企业与人、政府与人的关系有何影响,等等。

大数据社会要求人们学会用一种全新的方式打量这个世界,工具、技术、技能和人才缺一不可。要及早部署和投资在以下方面:

数据分析工具和软件平台:人工智能(AI)技术,自然语言处理、模式识别、机器学习、预测分析、数据熔炼、信号处理和元数据管理,等等;大数据要求同时在数十数百甚至数千台服务器中进行大规模并行运算,目前使用的大多数关系数据库管理系统、桌面数据库和可视化软件包已很难满足需求,因此仍须关注MPP数据库、分布式文件及分布式数据库的发展。

数据分析人才和算法模型:培养训练会使用大数据分析语言工具的人才只是整个需求的表层。再深入一层,要让大数据发挥作用,跨行业顾问、分析师和有行业经验的编程人员缺一不可。融合技术和艺术,能将“抽象”概念形象化的语言、工具及人才尚不多见。没有数学模型很难想象数据如何“大”起来,数据只有通过算法模型才能被电脑解读,但数学模型在政治、社会和金融等领域只能逼近现实而无法再现现实。所以如何建立能精准模拟世间万物的数学模型,是集理论研究与应用开发为一体的重要地带。

  把数据质量的管控权交给使用端

当人类让数字讲话、把决策权更多移交给“大数据”时,第一个重要问题就是数据的质量。“垃圾进、垃圾出”这句话早在50年前就被用来描述自动化处理数据时的质量问题,此话今天依然有效。研究表明,知识工作者平均花近一半的时间在寻找数据、验明数据、修正数据、剔除不靠谱的数据。数据质量问题可能发生在收集、存储、处理、传输和分享整个过程中的任何一个环节,但第一个关口仍是数据录入端(记录或采集口)。大多数情况下,数据输入端很少知道数据使用端为什么需要这种数据,用这些数据做什么。当使用端发现问题时,除非是系统性问题,大多被随手解决,少有追根溯源式纠正问题。

那么数据的质量如何保证,谁应对质量负责呢?解决数据质量的问题,更多是在管理而不在技术。行之有效的方法是把数据质量的管控权更多地转给使用端(业务条块),建立数据“原料方”和“生产方”之间直接的客服关系,形成制度和方法从数据源头和元数据层面控制质量。

进入大数据时代,一个“大”字很容易掩盖一切。现实情况是,我们可用的数据越来越多样化,但其中大部分的数据是使用者在只知其来源不知其如何产生、质量被如何管控的情况下被使用的。因此,要想让人们信赖基于大数据的决策,对所有数据源提前测试和试验便必不可少。不管数据是大是小,真实可靠最重要。只有逼真的模型、精准的分析,才能体现大数据的价值。过去没有数据是瞎子摸象,现在数据太多是大海捞针。大数据很容易使人们的关注点从因果关系移动到相关关系。大数据分析的结果常常能帮助人们回答“是什么”而不是“为什么”。肤浅地使用大数据,有可能引导人们止步于探究事件背后的深层原因,满足于了解现象之间的联系并利用这种联系得出似对非对的解读。

在可预见的未来,我们面临诸多挑战:技术挑战会出现在从信息搜索、数据捕捉、存储、传输、共享、分析直到可视化全过程。另外必须面对大数据对社会人文领域的挑战。法律层面,更开放的网络会带来更多的数据窃用、滥用和非法监控。一旦强大的新型数学数据工具出现,如何控制它不至于作恶?大数据技术日新月异,由大数据、深度学习引发的新一轮人工智能技术会对人类未来造成什么样的冲击,是摆在科学和社会学者面前的另一个重大课题。实事求是地讲,不论拥抱还是排斥这种新形式的数据科学,“精灵”都再也装不回瓶子里了。(财经国家周刊)

  移动大数据的三大核心﹕实时 适时 全时

我们应该清醒认识到,商业的基础正因移动互联网的普及而改变。

美国一家初创公司Appsee提供的移动产品分析中有些功能很有意思。 例如使用“use recording”(注意不是收集)录下用户使用app时的行为包括点击、滑动、 放大、摇一摇等各种动作, 通过动作了解用户兴趣、意向和需要。

移动带来的变革远远超过数据分析,但最为敏感的可能就是数据分析了。如今,你是否已经用全新的角度去思考无线业务做得好不好?移动大潮之下,每个公司都要从上到下重新思考。

不过,当数据从传统桌面计算机转到移动终端时,我们往往会遇到两大误区:

第一个误区:把手机当作一个新增的媒体渠道

把手机当作类似另一个屏幕,这是完全不够的。手机上作为一个功能设备产生的行为数据,不仅仅有时间维度,还有空间维度和社交维度,这么多维度迭加在一起,分析的层面和方式也远远多于传统网页。

第二个误区:用同样的方式来考评桌面计算机和移动终端;

在桌面计算机上,我们更关注流量转换的指标;而移动终端更在乎的是参与度,例如用户在一个app的停留时间、是否愿意接收提示、版本更新等。手指讯息如点击、滑动、 放大、摇一摇等在无线时代均会成为关键。

  3T是移动数据的核心

跟大数据的4V(巨量、多样、速度、价值)比较,移动大数据的核心更着重于:实时 (real time)、适时 (right time)、全时 (all the time)。任何一个完整的高效服务都离不开这3个T.

拿零售业作例子,Real time是指实时数据的获取和推送能力;未来我们将通过手机,或者是智能穿戴设备赢得越来越多「接触」用户的机会。这些机会将为我们提供大量的时空讯息,将每一刻感知到的用户数据延续,就是 all the time .

但有了这种感知的能力之后,你怎么知道甚么时候是推荐服务的最佳时机 (right time) 呢?这时就必须要有all the time的数据收集,才会知道用户的需求规律,才会知道营销的关键点并做到有效触达。

只有在俱备三个T的能力下,你才能明确在甚么地方,甚么时间点,给甚么样的用户,甚么样的特别优惠。因为你已经熟知用户的过往购买习惯、消费习惯,甚至行路习惯,所以才会知道,明天下午一点半,推荐一杯半价咖啡给他将是非常有效的促销方式。

  全新的数据关系

大的数据来自最小的设备。手机会变的越来越智能,他可以“感受”,可以处理文字图像,可以通过网络连接你身边的一切。这是最完美的集中,这不是一种创新,而是一群创新。

未来没有谁会比手机更了解你,它甚至会了解你的情绪,超出了自然语言。手机将会成为你的数据收集者,也会成为你的数据守门员。手机可以判断可以将哪些数据分享给哪些商家。而商家自己都不用建立数据库,它的数据存在每个人的云空间,只要被授权就可以拿出来使用。

这将会是用户、数据和商家之间一种全新的关系。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党