大数据开发-HDFS入门_大数据资讯

今天带来的是全新的章节，大数据开发-HDFS，作为Hadoop生态系统的一个重要组成部分，其存在不可或缺，基础的才是最重要的，而HDFS就是这样一个存在。下面就开始HDFS的学习。

一、 HDFS介绍

HDFS（Hadoop Distributed File System）是hadoop生态系统的一个重要组成部分，是Hadoop中的的存储组件，在整个Hadoop中的地位非同一般，也是最基础的一部分，因为它涉及到数据存储，MapReduce等计算模型都要依赖于存储在HDFS中的数据。HDFS是一个分布式文件系统，以流式数据访问模式存储超大文件，将数据分块存储到一个商业硬件集群内的不同机器上。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。

分布式文件系统解决的问题就是大数据存储。它们是横跨在多台计算机上的存储系统。分布式文件系统在大数据时代有着广泛的应用前景，它们为存储和处理超大规模数据提供所需的扩展能力。

二、HDFS设计理念

硬件出现故障是常态，而HDFS由成百上千的服务器组成，每一个组成部分都有可能出现故障。因此故障的检测和自动快速恢复是HDFS的核心架构目标。与一般的应用不同，HDFS上的应用主要是以流式读取数据HDFS被设计成适合批量处理，而不是用户交互式的。相较于数据访问的反应时间，实际上更注重数据访问的高吞吐量。典型的 HDFS文件大小是GB到TB的级别。所以，HDFS被调整成支持大文件。它应该提供很高的聚合数据带宽，一个集群中支持数百个节点，一个集群中还应该支持千万级别的文件。

大部分 HDFS 应用对文件要求的是 write-one-read-many访问模型。一个文件一旦创建、写入、关闭之后就不需要修改了。这一假设简化了数据一致性问题，使高吞吐量的数据访问成为可能。

移动计算的代价比之移动数据的代价低。一个应用请求的计算，离它操作的数据越近就越高效，这在数据达到海量级别的时候更是如此。将计算移动到数据附近，比之将数据移动到应用所在显然更好。

在异构的硬件和软件平台上的可移植性，这将推动需要大数据集的应用更广泛地采用 HDFS 作为平台。