Hadoop灵魂框架 HDFS分布式文件系统的设计与简介

2020-12-03 21:00:01

相关推荐

随着大数据时代的来临，数据集的量也呈现出爆发式的增长。普通的单台物理计算机根本无法存储如此海量的数据，因此就需要将数据分割然后存储在多台服务器上，这种系统就称之为分布式文件系统，而Hadoop中自带的文件系统就叫HDFS。

硬件廉价

HDFS集群使用的硬件都是非常廉价的，但是正是由于廉价的硬件。其节点可能会经常发生故障，但是节点的数量非常多，因此在某个节点发生故障的时候，用户不太容易察觉。总的来说相较于昂贵并且故障率低的硬件而言，这种廉价的集群方式性价比会高很多。

海量数据

HDFS中存储的文件通常都是MB级别的，通常一个文件在几百MB左右。但是由于文件数量过多，通常都会达到TB甚至PB级别，单个硬件是无法达到这种级别的。

小文件不宜太多

虽然HDFS的主要用途之一是为了存储海量的数据，但是由于其分布式的特点，每个文件、目录和数据块都有元数据，这些元数据存储着他们在HDFS中的相关信息。

每个元数据大约占用150字节，因此可以通过这个指标来衡量所有文件的元数据所占用的内存。小文件太多将会极大的降低存储能力。但是小于一个数据块大小的文件不会占用一整个数据块的空间，关于数据块的概念之后会做详解。

只能单用户写入

HDFS中存储的数据多数情况下都是日志等文件，通常是被拿来做分析和统计的，因此被设计为“一次写入，多次读取”的模式。在分布式系统中，要实现多人同时写的代价过于沉重，因此只能由一个用户来执行写操作。

不支持修改

由于HDFS是分布式文件系统，因此其写入和修改付出的代价是相等的。并且HDFS本身也是为了存储海量的输出稳定的数据，这类数据通常不会修改，所以HDFS也就没有支持这一操作。

响应延迟高

HDFS的数据会从各个节点读取，因此具有极高的吞吐量。但是为了做到这点，每次读数据都需要初始化，因此很多时间被耽误在启动上了，所以延迟高。

流式数据访问

由于HDFS中的数据几乎都是会被多次读取的，因此将数据设计为流的方式读取是最为高效的。虽然这样会降低读取第一条数据的速度，但是使用者需要的是读取整个数据集。

想学习更多大数据知识，请记得关注小鸟。

阅读剩余内容

Hadoop灵魂框架 HDFS分布式文件系统的设计与简介

分布式文件系统 SeaweedFS 1.99 发布

未来就绪 XSKY发布全新下一代分布式文件系统XGFS

焱融云与Mellanox达成战略合作联手打造极致性能的文件存储解决方案

一篇文章告诉你什么是大数据！

一篇文章告诉你云计算和云存储的关系