中国IDC圈1月25日报道:为了利用大数据做出更为智能的商业决策,很多公司都采用了Hadoop等开源的技术。但是,仅仅凭借是无法建好数据湖的。事实上,如果不遵守一些规则,在Hadoop上花费的时间的投资就会变成巨大的浪费。本文将对这些规则进行解释:
由始至终地管理
试想若企业中有这么一个平台,可以持续获取、储存并读取交易数据及其他复合型数据(这些复合型数据可能是web日志、传感器数据或其他机对机传输数据),并在大规模模拟研究之前持续剖析、修订数据,那么这个平台的出现就可以加快企业获取业务洞察的速度。
这一企业活动的枢纽能够储存并读取任何类型的数据,并将数据用于快速探索——这个枢纽就叫数据湖。它最早是依托Hadoop建立起来的,因为Hadoop具有高效提升数据量、支持更快速的数据传输并吸收各种类型数据的能力。
Teradata旗下一家名为Think Big的公司曾为多个组织机构定义、实施并管理数据湖,他们打造了业内最成功的案例。遵循本文中列出的行为规范,企业便能高效实施数据湖方案,彻底省去返工和检索的时间。
1、着眼高远,行动机敏
为了保证大数据战略的成功,制订正确的战略和数据架构十分重要。一个数据战略的完成并不需要耗时数月甚至数年。事实上,只需短短六周,Think Big就能帮助企业找到重点考虑的使用场景、确定初始数据架构、查清企业的准备情况并决定好采取何种构建方案。
但如果无法及时获得所有数据所有者的同意,共同实施某一数据战略,Think Big就会转向提供价格固定的试用服务。这种服务能够迅速地构建出两至三条调度良好的数据流,快速体现出业务价值,并且无需牺牲现有的数据架构和路线图。
这使得卓有成效的数据管理流程得以建立,并保证了流入数据湖的信息优质可溯。这些流程可以作为一个基础,方便其他数据管理员进一步扩大解决方案的应用规模。
2、整合数据管理
西方有句著名的俗语:“garbage in, garbage out”,说的就是无效输入会导致无效输出。在数据湖里,这句话也是同样成立的,有些企业的数据湖就不幸地变成了垃圾场。认为不经考虑、未加管理、毫无条理的数据网能够对分析有所帮助,这种观点是非常错误并且成本巨大的。要获得具体的商业价值,就必须深思熟虑,思考数据被消费、移动、标记、转换、管理、访问并安全储存的方式。
在把信息导入系统之前,必须建立起数据质量的管理流程及元数据管理系统。质量的提升开始于从源头上追溯数据及元数据。例如可以越过范式导入操作性数据和业务安全数据,保证恰当的管理。
为了实现恰当的管理,还应该持续地捕获元数据,这是因为企业在数据湖中要用到数据剖析、屏蔽、建模、归档的技术。不管是谁、在任何时间、通过何种方式使用了系统中的信息,每一个访问点都要被记录下来并持续追踪。
3、努力创造可度量的商业价值
在过去的数十年间,IT部门的预算大多都花在了监控并维护技术系统上,用于促进创新的投资微乎其微。尽管未来的几年里,人们预测IT部门预算会稍有增加,在新技术实验上的经费依然不足。
出于这种考虑,IT部门定下目标来展示出可以测量的商业价值就非常重要。推进基于Hadoop的数据湖项目时,应该遵循以下几个最佳建议:
•把握商业赞助。寻找一到多个知名的行业领袖进行赞助•致力于清晰的目标。跟客户一起设定对数据湖的期望、要求及其成效的度量标准。除了确定项目业绩的衡量之外,还应明确每个小组的职责范围。•定期报告。应按照预先确定的时间间隔,或每隔60天到90天向赞助商及管理人员汇报成果。
当公司致力于满足赞助商的要求、达成预先设定的目标,IT部门也能及时提供成果及汇报时,数据湖项目的实施对于公司整体和IT部门的重要性就会凸显出来。出于其重要性,项目的进展也会更加顺利。
保持发展动力
造成数据湖战略失败的原因有很多很多。如果数据管理、元数据获取、管理、安全等方面存在问题,或是未能正确围绕一个业务中心正确开展,数据湖就会变成一个毫无用处的数据沼泽,白白浪费几百万的投资。
在决定投资一个耗资百万的项目时,企业不应该怀有侥幸心理,而是应该按照“着眼高远,行动机敏”的准则,坚持一体化数据管理操作,定期按照商业价值进行汇报。这么一来数据才能源源不断地流入组织架构中,帮助企业不断壮大,让企业在未来很长的一段时间中不断获益。