题目
常见的脏数据的类型有哪些?A. 缺失值B. 重复值C. 逻辑错误的值D. 格式错误的值
常见的脏数据的类型有哪些?
A. 缺失值
B. 重复值
C. 逻辑错误的值
D. 格式错误的值
题目解答
答案
ABCD
A. 缺失值
B. 重复值
C. 逻辑错误的值
D. 格式错误的值
A. 缺失值
B. 重复值
C. 逻辑错误的值
D. 格式错误的值
解析
考查要点:本题主要考查对数据清洗中常见脏数据类型的识别能力,要求理解各类数据异常的表现形式。
解题核心思路:
脏数据是指数据中存在影响分析价值的异常情况。需结合缺失值、重复值、逻辑矛盾值、格式不规范值等典型特征,对应选项逐一判断。
破题关键点:
- 缺失值:数据未填写或字段为空。
- 重复值:同一数据重复出现,可能由重复录入或合并数据引起。
- 逻辑错误值:数据不符合业务逻辑(如年龄为负数、性别字段填数字)。
- 格式错误值:数据格式不统一(如日期格式混乱、电话号码缺少区号)。
选项分析:
-
A. 缺失值
数据表中某字段未填写或值为空,是最常见的脏数据类型。
示例:用户调查表中“年龄”字段为空。 -
B. 重复值
同一数据重复多次出现,可能因重复录入或数据合并导致。
示例:订单表中同一订单号出现多次。 -
C. 逻辑错误的值
数据值违反业务逻辑或常识,如“性别”字段填“男1”或“年龄”填“-5”。
示例:考试成绩出现“105分”(满分100分)。 -
D. 格式错误的值
数据格式不统一,影响后续处理。
示例:日期格式混用“2023-10-01”和“10/1/2023”,或手机号码部分缺失区号。
结论:所有选项均为常见脏数据类型,故答案为ABCD。