题目
[]是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异A. 聚类B. 关联C. 分类D. 孤立点检测
[]是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异
- A. 聚类
- B. 关联
- C. 分类
- D. 孤立点检测
题目解答
答案
A
解析
考查要点:本题主要考查对数据挖掘中基本概念的理解,特别是聚类(Clustering)与其他相关概念的区别。
解题核心思路:
题目要求识别一种将数据按相似性分组的方法,需明确各选项的核心定义:
- 聚类:无监督学习,根据数据相似性自动分组,同一类内部相似、不同类之间相异。
- 分类:有监督学习,基于已知标签对数据进行预测。
- 关联:发现数据项之间的关联规则(如购物篮分析)。
- 孤立点检测:识别数据中的异常值。
破题关键点:
抓住题干中“按相似性归纳成类别”这一核心描述,排除依赖标签(分类)、关联规则(关联)或异常检测(孤立点检测)的选项,锁定聚类。
选项分析:
-
A. 聚类:
- 定义:将数据划分为多个簇(类别),使簇内数据相似性高,簇间相似性低。
- 匹配度:完全符合题干描述。
-
B. 关联:
- 定义:发现数据项之间的频繁共现模式(如“购买A的人常购买B”)。
- 矛盾点:与分组无关,聚焦于关系发现。
-
C. 分类:
- 定义:根据已知类别标签对数据进行预测(需训练数据)。
- 矛盾点:题干未提及“标签”或“监督学习”,且分类强调预测而非自动分组。
-
D. 孤立点检测:
- 定义:识别数据中显著偏离正常模式的异常值。
- 矛盾点:与分组无关,聚焦于异常识别。
结论:唯一符合题干描述的是聚类(A)。