题目
HDFS的设计更适合处理哪种类型的数据?A. 大量小文件B. 小型数据库CC. 大型批量数据文件(D. 实时数据流
HDFS的设计更适合处理哪种类型的数据?
A. 大量小文件
B. 小型数据库C
C. 大型批量数据文件(
D. 实时数据流
题目解答
答案
C. 大型批量数据文件(
解析
HDFS(Hadoop Distributed File System) 是为处理大规模数据而设计的分布式文件系统,其核心特点包括:
- 一次写入,多次读取:适合批处理场景,不支持频繁修改。
- 大文件存储优化:将文件分割为固定大小的块(默认64MB/128MB),分布式存储。
- 高容错性:通过数据冗余保证可靠性,但不适合存储大量小文件(会占用过多元数据空间)。
本题需结合HDFS的设计目标,判断其适用场景。
选项分析
-
A. 大量小文件
HDFS的元数据(文件名、块位置等)存储在NameNode内存中,大量小文件会消耗过多内存,导致性能下降。因此HDFS不适合处理大量小文件。 -
B. 小型数据库
小型数据库需要随机读取和频繁更新,而HDFS支持顺序读取且不擅长处理小文件和动态更新,因此不匹配。 -
C. 大型批量数据文件
HDFS通过分块存储和分布式计算,能高效处理GB/TB/PB级大文件,是其核心设计目标(如日志分析、数据仓库等)。 -
D. 实时数据流
实时数据要求低延迟读写,而HDFS的读写流程较慢,适合批量处理而非实时响应,因此不适用。