Hadoop大数据“存算分离”，柏科数据 ISCloud分布式存储"提质增效"_大数据资讯

数据湖的发展契机，来源于近年来的AI热潮和云计算、5G的发展，在日益发展的海量数据时代，数据已成为企业发展的核心资产，通过构建适用于大数据的底层架构，围绕Hadoop提供语义一致性、数据治理和安全性。

Hadoop作为数据湖最常用的解决方案之一，其的部署和需求仍然很大并且正在增长。在最近的一项涉及235名受访者的调查中，34％的受访者目前正在使用Hadoop进行数据和分析工作，另有55％的受访者计划在未来24个月内采取同样方案，总计需求量达到89％（Gartner，2016）。

在Hadoop大数据平台方案中，当存储空间或计算资源不足时，只能同时对两者进行扩容，将导致额外成本的增加。假设用户对存储资源的需求远大于对计算资源的需求，那么同时扩容计算和存储后，新扩容的计算资源就被浪费了，反之，存储资源被浪费。独立扩展计算或存储的架构设计，被认为是更加灵活的扩容方式。

因此，业内新扩容方式“存算分离”架构的优势逐渐明显，“存算分离”成了大数据架构发展的必然趋势，成了解决行业用户在使用Hadoop时，面临计算资源浪费、存储性能低、管理成本过高等痛点的利器。最初在Hadoop1.0时代，计算和存储是高度融合的，仅能处理单一的MapReduce分析业务；如今已经到了Hadoop3.0时代，计算存储走向分离，通过Hadoop架构策略，优化了冷热数据的存储。打造了更适合企业级市场，资源云化和灵活扩展，能够让用户享受更专业的存储，更佳的可靠性和利用率。

ISCloud分布式存储系统面向海量数据场景，针对大数据Apache Hadoop等应用场景，提供原生接口，将原生Hadoop集群从当前计算、存储一体化状态，拆分成计算和存储两个独立集群，实现“存算分离”形式，充分吸纳计算、存储两个产业的最终成果，加速释放数据价值。

• 提供标准接口，实现智能化负载均衡

非结构化的原始数据可以通过Sqoop、DistCp等工具直接存储在ISCloud分布式存储上，业务数据库结构化数据和应用数据可以通过Spark、Kafka等HBase分布式数据仓及Hadoop大数据Hive仓库内。HBase表数据和Hive内部表数据仍然通过HDFS来存储。ISCloud分布式存储在存储海量非结构化数据，甚至是海量小文件的同时，减轻HBase及Hive的压力，为后续扩容单一属性集群提供基础。

⦁ 协议互通特性，提高数据分析效率

ISCloud分布式存储采用多种协议互通技术，部署语义抽象层，面对多样化结构数据提供适合文件、对象、块及大数据的原生语义，为Apache Hadoop计算层提供了标准的Hadoop文件系统API，支持文件、大数据接口访问，免数据迁移，缩短分析路径。实现多集群数据融合互通，提升数据共享和分析效率。

• 降本增效，大幅降低TCO

随着大数据应用的全面普及，存算分离已成为企业大数据平台建设的首选。采用全对称分布式NameNode，集群性能和支持文件数随节点数目增加，单一命名空间支持文件数达百亿级。计算存储分离，按需扩展，实现精准投资。