数据湖的发展契机,来源于近年来的AI热潮和云计算、5G的发展,在日益发展的海量数据时代,数据已成为企业发展的核心资产,通过构建适用于大数据的底层架构,围绕Hadoop提供语义一致性、数据治理和安全性。
Hadoop作为数据湖最常用的解决方案之一,其的部署和需求仍然很大并且正在增长。在最近的一项涉及235名受访者的调查中,34%的受访者目前正在使用Hadoop进行数据和分析工作,另有55%的受访者计划在未来24个月内采取同样方案,总计需求量达到89%(Gartner,2016)。
在Hadoop大数据平台方案中,当存储空间或计算资源不足时,只能同时对两者进行扩容,将导致额外成本的增加。假设用户对存储资源的需求远大于对计算资源的需求,那么同时扩容计算和存储后,新扩容的计算资源就被浪费了,反之,存储资源被浪费。独立扩展计算或存储的架构设计,被认为是更加灵活的扩容方式。
因此,业内新扩容方式“存算分离”架构的优势逐渐明显,“存算分离”成了大数据架构发展的必然趋势,成了解决行业用户在使用Hadoop时,面临计算资源浪费、存储性能低、管理成本过高等痛点的利器。最初在Hadoop1.0时代,计算和存储是高度融合的,仅能处理单一的MapReduce分析业务;如今已经到了Hadoop3.0时代,计算存储走向分离,通过Hadoop架构策略,优化了冷热数据的存储。打造了更适合企业级市场,资源云化和灵活扩展,能够让用户享受更专业的存储,更佳的可靠性和利用率。
ISCloud分布式存储系统面向海量数据场景,针对大数据Apache Hadoop等应用场景,提供原生接口,将原生Hadoop集群从当前计算、存储一体化状态,拆分成计算和存储两个独立集群,实现“存算分离”形式,充分吸纳计算、存储两个产业的最终成果,加速释放数据价值。
• 提供标准接口,实现智能化负载均衡
非结构化的原始数据可以通过Sqoop、DistCp等工具直接存储在ISCloud分布式存储上,业务数据库结构化数据和应用数据可以通过Spark、Kafka等HBase分布式数据仓及Hadoop大数据Hive仓库内。HBase表数据和Hive内部表数据仍然通过HDFS来存储。ISCloud分布式存储在存储海量非结构化数据,甚至是海量小文件的同时,减轻HBase及Hive的压力,为后续扩容单一属性集群提供基础。
⦁ 协议互通特性,提高数据分析效率
ISCloud分布式存储采用多种协议互通技术,部署语义抽象层,面对多样化结构数据提供适合文件、对象、块及大数据的原生语义,为Apache Hadoop计算层提供了标准的Hadoop文件系统API,支持文件、大数据接口访问,免数据迁移,缩短分析路径。实现多集群数据融合互通,提升数据共享和分析效率。
• 降本增效,大幅降低TCO
随着大数据应用的全面普及,存算分离已成为企业大数据平台建设的首选。采用全对称分布式NameNode,集群性能和支持文件数随节点数目增加,单一命名空间支持文件数达百亿级。计算存储分离,按需扩展,实现精准投资。