Apache Hadoop 是一个免费软件,但实际上,除非是拥有庞大工程师团队的大公司,否则好不要去创建仅供内部使用的Hadoop版本,因为如果要购买技术支持,那 Hadoop 就不是免费的了。 Jim Scott 是 MapR 企业战略&架构部门的负责人。2009年,他接触了自己的第一个 Hadoop 版本 Cloudera .他发现,Apache Hadoop 平台存在一些固有的设计缺陷。近日,他从以下几个方面 分析了这些缺陷,并介绍了 MapR 的解决方案 .

Append-only文件访问方式

HDFS 的 Append-only 文件访问方式是一个巨大的障碍 ,导致下游项目不得不解决这个问题。例如, HBase 就实现了“墓碑化(Tombstoning)”和“合并(Compactions)”功能。但是,如果这些动作发生在负载高峰期,会严重影响生产系统的性能。MapR 通过创建 MapR-DB 解决了该问题。MapR-DB 模仿了谷歌的BigTable ,支持 HBase API,是一个零管理实时数据库。

系统集成

HDFS 不兼容 POSIX 和 NFS .要查看 HDFS 中的文件,只能通过 HDFS 命令行接口来查询。 MapR-FS 是一个操作系统级的文件系统,兼容 POSIX.查看该分布式文件系统中的文件,只需要使用 LS 命令。编辑其中的文件,也不需要专门的工具。Linux 中任何可以读写 NFS 系统的应用程序都可以读写 MapR-FS.

备份&恢复

Apache Hadoop 在灾难恢复和备份方面存在严重不足 .Hadoop 的数据复制可以有效应对磁盘故障,但对数据损坏和人为错误无能为力。谨慎起见,在向生产环境部署新软件之前,需要生成一个数据快照。但是,Apache Hadoop 的快照只是一个元数据副本。而 MapR 快照 则近乎是数据的瞬时拷贝,即使文件正在被写入也可以生成。并且,用户还可以生成 MapR-DB 表的快照。

维护&升级

任何优秀的企业应用程序都离不开维护、管理和升级,Hadoop 也不例外。但 Hadoop 的升级维护可能会非常麻烦。MapR 每次发布都会针对许多开源软件项目的多个版本进行测试。它是唯一一个支持在同一个集群上运行软件的不同版本的 Hadoop 版本。

开源软件选择

在使用 Hadoop 的时候,相关开源软件的选择是个难题。MapR 支持开放式 API,提供了一个无偏见的 Hadoop 开源软件集合, 使用户能够选择自己需要的开源项目。

此外,Jim 还提到,NameNode 是个单点故障点。感兴趣的读者可以进一步 阅读 .

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2021-12-07 11:35:00
大数据技术 ClickHouse vs StarRocks选型对比
一般来说,ClickHouse适合于维度变化较少的拼宽表的场景,StarRocks不仅在单表的测试中有着更出色的表现,在多表关联的场景具有更大的优势。 <详情>
2021-08-25 11:24:23
大数据资讯 Hadoop大数据“存算分离”,柏科数据 ISCloud分布式存储"提质增效"
业内新扩容方式“存算分离”架构的优势逐渐明显,“存算分离”成了大数据架构发展的必然趋势,成了解决行业用户在使用Hadoop时,面临计算资源浪费、存储性能低、管理成本过 <详情>
2021-05-07 11:11:30
云资讯 随着云计算等颠覆性技术的出现Hadoop将会过时
Hadoop是一个开源软件框架,它在近十年前开始流行。 <详情>
2020-11-26 09:44:25
大数据技术 学大数据需要具备什么基础和知识点?
学大数据基础包含涵盖大数据体系中的技术点,包括但不限于Linux、Zookeeper、Hadoop、Yam、Redis、HDFS、MapReduce、Hive、lmpala、Hue、Oozie、Storm、Kafka、Spark、Soar <详情>
2020-08-18 15:10:27
大数据技术 大数据不再主流受欢迎,然而Hadoop仍然至关重要
如今,开源分析已牢固地成为企业软件堆栈的一部分,“大数据”一词似乎已经过时,并且Hadoop已成为死法已成为人们公认的民间传说。不过,这太夸张了;尽管Hadoop不再炙手可 <详情>