题目

关于Spark RDD的描述，错误的是? ( )A. RDD是分布式弹性数据集B. RDD的分区支持并行计算C. RDD通过血缘(Lineage)实现容错D. 允许直接修改数据内容

关于Spark RDD的描述，错误的是? ( )

A. RDD是分布式弹性数据集

B. RDD的分区支持并行计算

C. RDD通过血缘(Lineage)实现容错

D. 允许直接修改数据内容

题目解答

D. 允许直接修改数据内容

本题主要考察Spark RDD的核心概念与特性，需对各选项逐一分析判断：

选项A：RDD是分布式弹性数据集

RDD（Resilient Distributed Dataset）的全称即为“弹性分布式数据集”，“分布式”指数据存储在集群多台机器上，“弹性”指动态适应集群资源变化（如节点故障时自动恢复）。该描述正确。

选项B：RDD的分区支持并行计算

RDD的核心设计目标是支持大规模数据的并行处理，其数据被划分为多个分区（Partition），每个分区可由集群中的一个任务（Task）并行计算。分区是RDD实现并行的基础，该描述正确。

选项C：RDD通过血缘(Lineage)实现容错

RDD的容错机制依赖“血缘关系”（Lineage）：当某个分区的数据丢失时，RDD会通过记录的血缘关系（即从原始数据源到当前RDD的一系列转换操作）重新计算丢失的分区，无需依赖全局 checkpoint。该描述正确。

选项D：允许直接修改数据内容

RDD的核心特性是不可变性（Immutability）：一旦创建，RDD的内容不能被直接修改。所有转换操作（如map、filter）都会生成新的RDD，而不是修改原始RDD。直接修改RDD数据的操作是不被允许的，该描述错误。