企业实施大数据主要有四个方面的内容:
第一,企业要建立数据文化,企业作决策应该用数据来说话。
第二,企业要建立数据的战略。
第三,企业在数据战略之下组织数据管理团队的能力。
第四,企业实施大数据的技术能力。
企业实施大数据的具体的建设路径有两个方面,一方面是自下而上,另一方面是自上而下。
自上而下
自上而下的路径,首先是有序地在管理层建立数据的决策文化,在企业文化层面建设起数据的使用意识,然后建立对应的组织架构、对应的部门和团队,确定需要招聘什么样的人进来、需要多少人、具体职责怎么划分,最后建立起对应的技术平台。
自下而上
自下而上第一是让员工学习和掌握相关技术技能,可以通过内部培训,也可以通过外部招聘。第二,要有规划地设计,以后系统怎么走、怎么做, 要有一个长期的规划。第三,要有明确的绩效考核的指标,数据的管理、质量的管控、效益怎么保证。第四,在思维上要保持一个开放的态度,互联网时代大数据还在发展的初期,一般认为大数据在企业的应用还处于幼儿园阶段,这个时候还有很多东西要学习,必须保持一个开放的心态,不断地学习,才能真正把事情做好。
(一)建立企业的数据文化
文化是企业看待事物的价值观和执行行动的衡量标准。建立数据文化就是要在整个企业层面建立一种以客观的数据为决策依据和衡量标准的价值观和制度体系,为企业能够真正利用大数据产生价值提供基础。没有这个基础,企业即使拥有再好的技术和资源,也无法利用好它们来为企业服务。
什么叫企业数据文化?它包括六个方面的内容。
第一,数据文化主要体现在数据驱动决策,决策主要通过数据来说话。
第二,企业运行效率的分析。一方面,通过对数据进行深度分析,可以像望远镜一样了解企业各方面的运营情况,另一方面,数据可以像显微镜一样去观察企业运营的细节,找到以优化的地方。
第三,通过数据来分析营销规划的得失。通常企业做促销活动,销售量提升了就觉得是成功了,但是促销是有成本的,销量提升了,是不是真的就带来效益了呢?
第四,在以人为本的时代,企业对员工的人身安全和健康的责任越发重大了。如果能通过客观可衡量的数据,关注员工的工作环境和舒适性,对保障良好健康的工作环境、提升员工的满意度将起到非常重要的作用。
第五,员工绩效,必须要有一个数量化的指标。
第六,价值链中的数据管理。在纵向供应链中通过数据的分享和交换,可以更好地让供应链上下游的企业了解整个供应链上的需求、库存和供给,从而可以优化链条上的库存,主动发起供给的准备,更快地应对市场的变化。在横向生态链中,通过分享和交换数据,可以在全方位生活场景中对用户进行分析,从而打造出满足用户更广泛需求的一站式服务,不仅可以挖掘出更多的商业机会,而且增强了用户的粘性。
(二)建立企业的数据战略
建立企业的数据战略,需要建设三个方面的内容,如下图
数据模型
第一个方面是建立完整的数据模型。数据模型的目的是正确地定义数据,对数据进行分类和确定数据交互之间的标准。将对企业业务管理的理解,转化为数据的要求,从而理解到底什么样的数据需要管理。不同的系统产生不同的数据,各系统之间的数据和数据之间互相交互的内容是什么。企业内部有不同的系统,ERP 系统、供应链系统、CRP 系统等,用户信息放在哪,供应商信息、物联网信息、财务信息分别放在哪,他们之间怎么协调,怎么沟通?这些都是需要考虑的问题。
数据服务
第二个方面是建立数据服务体系,包括选用什么样的技术平台、采用什么样的数据技术,不同的系统如何使用这些不同技术,包括传统的数据库、数据仓库、商业智能、新型的 Hadoop 等。基于业务架构的设计,来设计数据应用的架构,然后通过数据交互接口来交换数据,从而避免出现数据孤岛,同时建立统一的数据规划,确保数据源的统一和一致性,为后期的数据分析提供支持。
数据管理
第三个方面是建立数据的治理体系。数据治理包括数据的管理制度和整体生命周期的管理。数据正在成为一种资产,与此相对应的,资产需要体系化的管理。数据的资产权利管理,包括确定数据的所有权、确定每个数据的所有者、谁是这个数据的管理者、谁来负责这个数据的准确性、谁来保障数据的质量,等等。数据的高质量是进行数据分析的基础,数据如果是错误的,怎么分析都不会有正确的结果。同时,数据的合规和安全的管理也是核心环节,比如谁可以操作数据、谁负责数据的安全、备份和服务等,一个严格的数据的合规和安全管控制度是必不可少的。
数据的生命周期管理,包括如何和何时建立数据、什么时候可以修改、谁批准修改、数据如何消除等。国内的企业这方面做得比较欠缺,不只是数据,还包括设备、电脑等,电脑报废了不能用了,就直接丢弃。在这方面,国外企业做得不错,国外信息安全的企业, 通常会花钱请第三方公司来进行专业的数据销毁的处理,甚至每台电脑花费几百块钱来进行环保型销毁。比如在一些数据消除案例中,数据要用各种方 法来确保被彻底擦除,比如有些企业要求对数据进行格式化七遍,以避免可 能的数据恢复。
(三)建立企业的数据组织能力
建立数据的组织能力,包括设立合适的组织角色的定位、招聘到合适的人员、设立合适的组织结构以及设计合适的责权利,等等。
第一,数据的组织能力,建议有条件的公司可以建立首席数据官(ChiefData Officer)岗位,这个岗位主要是设计整个数据的战略,领导数据战略的落地,以及通过数据和业务管理层进行沟通、对话,传递数据的价值。
第二,数据科学家的作用非常重要,数据科学家研究的是如何用好、最科学的算法得出好的结果。同样一堆数据在那儿,十个不同的人在看,十个人看的结果都不同。那么为什么科学家算得准呢?因为他的知识够深入,他了解哪个因素最重要,那么多因素里面他应该选哪部分来分析。数据科学家目前是整个市场上最欠缺的人才,因为同时兼具数据算法专业知识和业务知识的人才是极其难得的。数据科学家可以分为三种类型,第一种是技术型数据科学家,他们是计算算法方面的行家,对各种统计分析技术非常在行;第二种是应用数据科学家,他们对数据架构非常熟悉,熟悉数据在各个系统中的分布,能够很好地把各种数据进行集成管理;第三种是业务数据科学家,这些人对行业知识和企业业务非常熟悉,同时兼具一部分对数据处理技术的了解,能很好地把业务的需要和特征转换成数据的处理要求,同时可以很好地将数据处理结果转换成业务的视角和言语,来传递给业务管理者。
第三,对于一定规模的企业,我们通常建议,企业要建立一个集中式的数据管理运营中心。云计算服务就是集中化管理方式,成本最低、灵活性高、扩展性强。
第四,整个数据组织的架构标准不是以技术、产品来交付,而是以商业价值交付为衡量标准。考量数据分析的产出能力,不是数据分析的速度有多快,也不是数据量有多大,而是数据分析的结果对业务到底有没有帮助、是不是有指导意义。这也是所有数据分析的核心价值,也是对大数据中“大”的含义的最核心的衡量标准——“大”到产生业务价值。这个衡量标准对技术组织来说,执行起来有些困难,所以必须建立一个明确的绩效评估标准和价值评估标准,让技术人员能够更多地从业务角度来考虑所做的工作的价值,而不陷入技术优先论的境地。
第五,提升一线人员的业务决策权和数据决策权,建立一个扁平化管理的组织。通过系统化的培训来不断培养员工的数据分析能力。由专业数据分析人员和算法人员设计的数据分析解决方案或者产品,必须以简单易用的方式提供给一线员工,同时更为重要的是,加强相关的解决方案或者数据产品的系统化培训,让更多的员工意识到这些解决方案或者产品的价值,并乐于在日常工作中使用。我们建议数据建模 / 数据产品研发的费用和针对一线员工的使用培训的投入应该是对半分的。为了更好地推进培训,企业还可以考虑成立兴趣驱动的数据协会,让更多的员工加入到该协会中,定期举行培训课程、研讨沙龙以及聘请外部专家做相关分享以开拓视野。
建立了企业的数据组织能力后,企业使用数据的过程如下阐述。
首先搜集数据,从不同地方把数据找到,找到以后选择算法。其次进行业务关联的分析,确定哪些指标、哪些维度是有意义的,这就是数据科学干的事。业务科学家和数据科学家可以分离,也可以整合,大部分企业是一套人马来做,展示成一个业务的可以接受、可以理解的方法,如果单纯是数据展示,可能管理层、业务部门看不懂,这就需要转换成业务管理者可以理解的语言和信息。最后,提交给管理层或者是对应的部门作商业决策。这就 完成了一个完整的价值交付。
在上述的数据处理过程中,数据团队中有不同的岗位来执行对应的工作。在数据的采集和清理环节,主要是数据管理员,包括企业内部的数据抓取, 外部的微博、淘宝、第三方电信等的数据采集,数据很多,需要做清理,把一些没有用的数据处理掉,留下来有效的数据,这主要是数据管理员要做的事情。接下来是数据科学家,选择正确的算法,同时可以根据业务的维度制作各种不同的模型,来得出一个分析的结果。再接下来,还有一个团队是业务分析师,根据这些分析结果,将其转换成业务人员可以理解的语言和展示方法,交给 CDO 和核心管理层、决策层做沟通,帮助他们作决策。作为整个技术平台的提供者,还有一个技术团队做具体的平台搭建,可以自行开发基于 Hadoop 开源的大数据平台,或者购买第三方的系统做管理维护,也可以 直接使用大数据的 SaaS 服务平台来快速建立大数据技术能力。
(四)选择技术平台
企业以往使用传统数据进行复杂分析时,多使用数据仓库和商务智能系统,也就是所谓的 OLAP 系统,对传统数据比如财务数据、用户数据进行抓取、挖掘和分析,然后通过页面展示出来,这是非实时的分析系统。在互联网+时代,要将第三方的社交数据和电商数据,比如微博、电商数据等放进来分析是很难的,因为传统的架构是基于结构化的数据基础上的,而现在更大量的数据是非结构化的数据,传统方式很难支持。这样我们分析数据就碰到一些困难,大数据应运而生,Hadoop 是其中最重要的一个平台。
Hadoop 是一个生态系统,它里面包括了一些计算的系统、数据存储的系统、数据分析的系统,它是阿帕奇组织在 2004 年正式开展的一个项目。Hadoop 是一个非常重要的革命性的应用,因为它是免费发布,让很多人都有机会使用,现在很多企业都是以 Hadoop 开源平台为基础,再由内部技术人员做一些优化来使用。
传统数据和大数据的关系是一个发展和结合的关系。传统数据还是可以分析出对业务有价值的信息,也还是用以前仓库的方式分析,新型数据用大数据的方式分析,两个系统最后进行整合,形成一个后端的解决方案;现在也出现了一种完全集成式的方案,这是最近一两年出现的新的大数据平台,可以同时兼容新的大数据和传统的数据,这种集成式的应用将会越来越多。市场上很多公司的商业套件和 Hadoop 开源的方案有什么区别呢?它们的主要区别是商业套件在性能上做了优化、提 升,在安全上做了增强,它加入了针对对应行业的业务理解,帮助企业预置了建模的方法和工具,但问题是价格比较贵。所以,各种方案的选择是基于企业的实际情况,包括预算和团队能力等因素综合考虑的。
(五)数据的开放和共享
对于数据的来源,企业内部通常不具有大数据分析所需要的所有数据。 2014 年,我国的大数据市场规模 84 个亿,预计 2015 年达到 166 个亿,增长40%。相信随着大数据交易平台的建设,增长还会更多。根据中国信息通讯研究院的研究报告,企业对大数据的认同度,认为“比较重要”的达到 97%,这说明企业对大数据的重要性是有认识的,问题是怎么来落地。企业对待大数据往往关注的是安全性和稳定性。这说明虽然企业已经意识到大数据的重要性,但还是比较保守,对安全的顾虑影响了对数据商业价值的挖掘。随着安全技术的发展以及对商业价值的认识的提高,企业应用大数据、获取和交换数据将会越来越多。安全和商业价值永远是一对需要衡量的关系,它就像速度和成本、速度和质量一样是相辅相成、互相平衡的关系,要同时追求两方面是有困难的,不同时期要有不同的策略。
企业对政府公开数据的需求非常强烈。市场上有很多针对政府数据的创业公司,例如一家企业叫法海风控,他是从法律层面分析企业的信用状态,通过分析企业相关的法律文书,比如这家企业过去数年有没有相关的法律官司、胜诉还是败诉,也包括相关联企业涉及到的法律行为,从这些角度提供风控的判断,这是一个很好的应用案例,这取决于政府的数据公开程度。政府拥有海量的数据,如交通数据、社保数据等,一旦这些数据能够公开,将会带来大量的创业机会,也会给企业带来更多考虑问题的维度,所以企业都希望政府能够尽快地公开数据。
(六)找好切入点,小步快走
关于实施路径,企业或多或少已经有一些数据、有一些系统,这个时候是推倒重来,还是有一些别的方法?数据能够在哪些领域实现业绩的大幅提高?数据能在哪些领域实现企业运营效率的提升?这些问题很重要,一开始就必须提出来。每个重要业务部门和职能部门都需要考虑这个问题,并展开相关的研讨。企业高管实施大数据战略的时候,需要高度重视这一步,但在国内很多企业往往忽略这一方面,投入大数据往往不是以提升业绩为导向,而是以学术为导向,使得很多企业实施大数据战略后,看不到数据对企业绩效的提升,从而使得大数据战略流产。
(七)放眼未来,永远在路上
大数据是不是万能的?是不是永远有效的?大数据的使用有限制吗?正确地认识这些问题,有助于企业更好地利用大数据,更客观地看待大数据。
第一,大数据不是万能的,大数据的使用是有限制的。大数据的使用,首先是在讨论相关性的时候,而在判断、解决一个具体问题的时候,大数据不是好的方法。
第二,大数据即使大,也不能囊括所有的数据,大数据终究有成本的问题,准确性还不会达到百分之百。虽然它足够可以做预测,但是不是绝对正确的东西。
第三,我们不能过于相信数据,因为有时候数据会解读得不对,所以还要尝试做一个验证,如果这明显和常识相反,你要验证一下你的分析方法否正确。
还有一个问题是数据的安全,数据这么重要,能不能保护好数据,数据使用过程中有一些问题和潜在的风险。
最后的寄语:大数据是文化和技术的结合,最终的目的是产生业务价值。
第一,大数据技术是 IT 驱动业务变革的一个机会,不管从IT 部门本身的定位、IT 对企业产生的作用来说,还是企业能够增强核心竞争力的角度来说,大数据都是一个非常重要的推动力。
第二,应用大数据技术的前提是要有一个数据驱动决策的企业文化,如果用大数据形成了一个报表,企业管理者作决策时根本不看,这就没有意义了。只有当企业建立了数据驱动决策的文化,并真实地执行后,数据的价值才能够充分实现。所以大数据使用的重要前提是企业有数据驱动决策的文化。
第三,数据本身只是一些信息,大数据的价值不在于数据本身,而在于如何通过数据做分析整理,最后产生分析和预测,传递业务价值,这才是使用大数据的目的和核心。