题目
关于Spark RDD的描述,错误的是? ( )A. RDD是分布式弹性数据集B. RDD的分区支持并行计算C. RDD通过血缘(Lineage)实现容错D. 允许直接修改数据内容
关于Spark RDD的描述,错误的是? ( )
A. RDD是分布式弹性数据集
B. RDD的分区支持并行计算
C. RDD通过血缘(Lineage)实现容错
D. 允许直接修改数据内容
题目解答
答案
D. 允许直接修改数据内容
解析
本题主要考察Spark RDD的核心概念与特性,需对各选项逐一分析判断:
选项A:RDD是分布式弹性数据集
RDD(Resilient Distributed Dataset)的全称即为“弹性分布式数据集”,“分布式”指数据存储在集群多台机器上,“弹性”指动态适应集群资源变化(如节点故障时自动恢复)。该描述正确。
选项B:RDD的分区支持并行计算
RDD的核心设计目标是支持大规模数据的并行处理,其数据被划分为多个分区(Partition),每个分区可由集群中的一个任务(Task)并行计算。分区是RDD实现并行的基础,该描述正确。
选项C:RDD通过血缘(Lineage)实现容错
RDD的容错机制依赖“血缘关系”(Lineage):当某个分区的数据丢失时,RDD会通过记录的血缘关系(即从原始数据源到当前RDD的一系列转换操作)重新计算丢失的分区,无需依赖全局 checkpoint。该描述正确。
选项D:允许直接修改数据内容
RDD的核心特性是不可变性(Immutability):一旦创建,RDD的内容不能被直接修改。所有转换操作(如map、filter)都会生成新的RDD,而不是修改原始RDD。直接修改RDD数据的操作是不被允许的,该描述错误。