趣文网 > 作文大全

Hadoop灵魂框架 HDFS分布式文件系统的设计与简介

2020-12-03 21:00:01
相关推荐

随着大数据时代的来临,数据集的量也呈现出爆发式的增长。普通的单台物理计算机根本无法存储如此海量的数据,因此就需要将数据分割然后存储在多台服务器上,这种系统就称之为分布式文件系统,而Hadoop中自带的文件系统就叫HDFS。

硬件廉价

HDFS集群使用的硬件都是非常廉价的,但是正是由于廉价的硬件。其节点可能会经常发生故障,但是节点的数量非常多,因此在某个节点发生故障的时候,用户不太容易察觉。总的来说相较于昂贵并且故障率低的硬件而言,这种廉价的集群方式性价比会高很多。

海量数据

HDFS中存储的文件通常都是MB级别的,通常一个文件在几百MB左右。但是由于文件数量过多,通常都会达到TB甚至PB级别,单个硬件是无法达到这种级别的。

小文件不宜太多

虽然HDFS的主要用途之一是为了存储海量的数据,但是由于其分布式的特点,每个文件、目录和数据块都有元数据,这些元数据存储着他们在HDFS中的相关信息。

每个元数据大约占用150字节,因此可以通过这个指标来衡量所有文件的元数据所占用的内存。小文件太多将会极大的降低存储能力。但是小于一个数据块大小的文件不会占用一整个数据块的空间,关于数据块的概念之后会做详解。

只能单用户写入

HDFS中存储的数据多数情况下都是日志等文件,通常是被拿来做分析和统计的,因此被设计为“一次写入,多次读取”的模式。在分布式系统中,要实现多人同时写的代价过于沉重,因此只能由一个用户来执行写操作。

不支持修改

由于HDFS是分布式文件系统,因此其写入和修改付出的代价是相等的。并且HDFS本身也是为了存储海量的输出稳定的数据,这类数据通常不会修改,所以HDFS也就没有支持这一操作。

响应延迟高

HDFS的数据会从各个节点读取,因此具有极高的吞吐量。但是为了做到这点,每次读数据都需要初始化,因此很多时间被耽误在启动上了,所以延迟高。

流式数据访问

由于HDFS中的数据几乎都是会被多次读取的,因此将数据设计为流的方式读取是最为高效的。虽然这样会降低读取第一条数据的速度,但是使用者需要的是读取整个数据集。

想学习更多大数据知识,请记得关注小鸟。

阅读剩余内容
网友评论
相关内容
延伸阅读
小编推荐

大家都在看

畅想未来作文 我成功了作文 描写风景的作文 我的祖国作文 母爱的作文 毕业作文 我的作文 围绕中心意思写作文六年级 十年后的我作文500字 关于合作的作文 推荐一个好地方作文 团结作文 游泳作文 合作作文 动物的作文 那一刻我的世界春暖花开作文600字 我的好朋友作文500字 一件有意义的事作文 有关亲情的作文 高中语文作文 家乡的作文 诚信让生活更美好作文 感恩作文400字 童年趣事的作文 有关春节的英语作文 自我介绍作文300字 与你同行作文 高考作文多少分 对手作文 我的发现作文