数字经济时代,越来越多的企业认识到数据对企业业务发展的重要作用,只有更快速、全面、有效地理解数据,才能有效的展开竞争,面向企业数据进行敏捷分析成为核心需求,而介于业务和IT人之间的数据科学家也是炙手可热,成了DT时代的宠儿。
来自第三方的调查报告显示,分析技术正在成长为价值2000亿美元的产业,而且还在永无休止地增长,这项结果无疑为广大分析公司注入了一针强心剂。然而,在调查样本中,74%的企业决策者表示分析技术过于复杂,42%的受访者认为企业员工难以使用或理解分析技术,更有高达79%的受访者表示他们需要获得更多企业数据,才能高效完成任务。
由此可见,现有的分析产品在使用过程中仍然存在诸多问题,该如何改进呢?
在今年10月中旬于拉斯维加斯举办的“Teradata全球用户大会”上,Teradata发布了全新平台“Teradata Vantage”,提供描述性、预测性与指示性分析、自主性决策、机器学习、可视化工具等广泛功能,可部署在公有云、本地环境、优化型或通用基础设施,或以“即服务”的方式提供。
Vantage是优势之意,这也体现了Teradata继续为客户改善和调优产品的信心,数据智能已经到了“超越分析,直达成果”的时代。
Teradata天睿公司大中华区总裁辛儿伦(Aaron HSIN)
“全世界的市场上还没有第二家数据分析公司可以做到端到端的数据分析能力。” Teradata天睿公司大中华区总裁辛儿伦在接受51CTO记者采访时表示:“Teradata品牌的核心目标是无处不在的数据智能,在任何的基础架构中随时提供所有你想要的数据,所有你能获得到的数据,提供重要客户的业务分析成果。” 他表示,只要客户相信数据能够改变世界,Teradata就能与客户共同面对机遇与挑战,帮助其实现想要达成的目标。
辛儿伦强调,在Teradata大中华区的一千多名员工中,有70%以上的员工来自咨询服务团队,积累和汇集了大量数据分析领域的方法论、行业模型、数据模型以及技术专家,这是助力客户项目成功,达到有效业务成果的基石。
大数据分析有两个阶段:第一个阶段是完成数据的存储,解决如何把海量的、非结构化的数据存储下来的问题;第二个阶段是敏捷地分析,也就是在任何时间、用任何工具、用各种分析方法得出想要的分析结果。从成本的角度来看,第一阶段已经完成,数据存储的问题已经解决,而敏捷则上升为企业客户的核心需求。
大数据平台的三大难题
Teradata经过大量的市场和客户调研发现,自2010年至今,现有的大数据平台普遍面临三大问题:
第一大问题:分析语言和分析工具过于分散、凌乱。当前的分析语言和分析工具十分广泛,客户为了适应这样的变化,往往要为了不同的工具去临时搭建数据平台,例如将数据从数据平台中抽取提取出来,变成SAS的格式或R的格式,才能做分析。
第二大问题:随着数据平台的增多,平台之间频繁的数据交换带来的数据质量问题。由于分析语言和分析工具的分散,数据平台从早期的数据仓库、数据集市,到数据探索平台、Spark平台、机器学习平台,每一个分析需求诞生一个平台,形成了一个个孤岛,各平台之间频繁的数据交换严重影响数据质量,直接影响分析结果的准确性。
第三大问题:对于CTO或IT架构师而言,谁也不能确定未来的技术演进方向。架构师在搭建IT架构时会考虑如何保持弹性、如何进行演进而不被颠覆。例如,从X86一体机架构,到分布式的云架构,从公有云到混合云架构,数次的架构更迭衍生出诸多问题。在什么样的环境下进行稳定和可持续发展的IT部署架构,能够实现敏捷分析,且能应用各种分析工具进行弹性部署和统一管理,消除数据孤岛,是所有CTO和架构师共同关注的问题。
Teradata Vantage的破解之道
Teradata Vantage不光是一款产品,也是一个体系。为了敏捷地给客户提供分析工具和方法,让客户数据产生的价值更胜一筹,Vantage一词应运而生。实际上,Teradata Vantage是统一的整合的分析环境,不用担心会形成数据孤岛。同时,它支持几乎所有主流的分析工具和语言,并且打通了所有数据类型的接口,灵活支持多种数据类型、格式以及异构数据存储。此外,Vantage支持任意购买方式和在任意环境部署,同时支持自由部署和软件许可迁移。
Teradata天睿公司大中华区解决方案总监姜欣(Geoffrey Jiang)
Teradata天睿公司大中华区解决方案总监姜欣表示:Teradata Vantage降低了客户使用数据分析平台的难度,让使用者能够把更多的时间用于分析问题本身,而不是花时间准备数据或学习分析工具的使用方法,从而大幅提高使用效率,更加敏捷。即使是业务人员也可以在Vantage平台上简便地实现一些小功能,并从中得到自己想要的数据。
从架构来看,Teradata Vantage主要分为四层:数据存储、分析引擎、分析语言和分析工具。底层是Vantage的数据存储格式,目前支持Teradata、AWS S3的数据存储格式,将来会支持更多。分析引擎层,通过高速连接器把不同的引擎连接起来,目前发布的是SQL+引擎,机器学习引擎和图分析引擎。语言方面,用户将能够在SQL、Python、R、SAS等最常见分析语言和分析工具以及广泛的商业智能与可视化工具之间随意切换,并使用SAS、Jupyter、RStudio等高级功能。该平台还提供JSON、BSON、AVRO、CSV、XML等多结构数据存储与分析能力。
姜欣强调,SQL+不是简单的标准SQL,而是基于SQL扩展了很多关于分析方面的功能和函数,特别是4D分析,它是面向物联网数据,通过时序、时间、位置、空间等方面的数据进行混合分析。4D分析是边缘计算里的重要内容,可以在时间和空间两个变量上进行任意变换。
QueryGrid
他还着重介绍了Teradata Vantage平台的核心组件——QueryGrid。QueryGrid 要完成两个任务,一是实现不同版本的数据平台(如Hadoop平台、机器学习平台等)跟不同数据存储之间的连接;二是通过QueryGrid将不同的分析引擎(如SQL+、TensorFlow、Spark等引擎)集成,无缝连接和打通。Vantage通过QueryGrid大限度地减少数据移动和重复,随时随地处理数据,并运用Push-Down处理技术,实现可扩展的数据传递。
Teradata Vantage未来演进方向
“数据分析有很多是跨行业共性的,很多方法论、架构和模型都是可以复用的。” 辛儿伦如是说。据悉,沃尔沃汽车将Teradata Vantage用于无人驾驶汽车和行车系统的研发,通过Vantage上集成的机器学习和图分析引擎,实现车辆运行过程中对街景、路况、路上的行人等的机器学习,以及湿滑路面防滑系统的预知和启动,从而提高车辆的安全性,提升服务水平。除此之外,西门子医疗将Vantage平台运用于医疗设备的预测性维修。马士基通过对其全球货运物流的冷冻货柜进行燃油经济优化和冷藏库温度调控,可以大幅降低能耗,节约大量经济成本。
相关阅读: