题目
在模型工厂的模型管理模块,基于火车乘车数据表,可使用以下哪个算子,计算每个人最近一次乘坐火车的记录?A. 数据过滤B. 数据聚合C. 全部合并D. 数据去重
在模型工厂的模型管理模块,基于火车乘车数据表,可使用以下哪个算子,计算每个人最近一次乘坐火车的记录? A. 数据过滤 B. 数据聚合 C. 全部合并 D. 数据去重
题目解答
答案
B
解析
考查要点:本题主要考查对数据处理算子的理解,特别是如何通过算子功能实现特定数据筛选需求。
解题核心思路:
题目要求找到每个人最近一次乘坐火车的记录,需明确以下两点:
- 按个人分组:需要将数据按乘客进行分组。
- 筛选时间最大值:在每个分组内找到时间最新的记录。
关键点:
- 数据聚合算子支持分组和聚合操作(如
GROUP BY
+MAX
),能直接满足上述需求。 - 其他选项(如数据过滤、数据去重)无法同时实现分组和时间筛选功能。
选项分析
A. 数据过滤
功能:筛选符合条件的数据(如时间范围)。
局限性:无法按个人分组,也无法直接比较时间大小以筛选“最近一次”。
B. 数据聚合
功能:对数据分组后,对每组应用聚合函数(如求和、最大值)。
适用性:
- 按乘客ID分组。
- 在每组内取时间字段的最大值(假设时间字段可比较)。
结论:直接满足题意。
C. 全部合并
功能:合并多个数据集。
无关性:题目数据已存在同一表中,无需合并。
D. 数据去重
功能:去除重复记录。
无关性:题目需筛选特定记录,而非去除重复项。