题目
1.K-均值法是一种非谱系聚类法,它是把样品聚集成k个类的集合。类的个数k只能是预先给定,在聚类过程中不能确定。( )√ ×
1.K-均值法是一种非谱系聚类法,它是把样品聚集成k个类的集合。类的个数k只能是预先给定,在聚类过程中不能确定。( )
√ ×
题目解答
答案
正确选项是 √。
K-均值聚类是一种广泛使用的聚类算法,它通过最小化每个类中的样本到类中心的距离平方和来划分数据。在使用K-均值算法之前,必须先指定要形成的类的数量,即k的值。这个值必须在聚类开始之前预先确定,因为算法依赖于这个数值来初始化类中心并迭代优化。
在聚类过程中,算法不会自动调整或确定k的值。确定合适的k值通常需要依靠领域知识、数据探索或使用如肘部法则等方法进行辅助决策。因此,说“类的个数k只能是预先给定,在聚类过程中不能确定”是正确的,因为K-均值算法本身不提供机制来决定最优的k值。
解析
考查要点:本题主要考查对K-均值聚类算法核心特点的理解,特别是关于类个数k的确定方式。
解题关键:
- K-均值算法的基本原理:该算法通过迭代优化,将数据划分为k个类,使每个类内的样本到类中心的距离平方和最小。
- k的确定方式:算法本身必须预先指定k值,无法在聚类过程中自动确定k。确定k值通常需要借助领域知识、数据探索或统计方法(如肘部法则)。
- 与谱系聚类的区别:题目中提到“非谱系聚类”,K-均值属于划分聚类,与层次聚类(谱系聚类)不同,不通过树状结构确定类数。
K-均值算法的k值特性:
- 算法初始化阶段:需要用户预先输入k值,并随机选择k个初始类中心。
- 迭代优化过程:算法通过不断调整类中心位置和样本归属,优化目标函数(距离平方和),但k值始终保持不变。
- k值的局限性:若k选择不当(过大或过小),可能导致聚类效果差。因此,确定合理的k值需要额外方法(如交叉验证、轮廓系数等),但这些方法属于算法外的辅助手段。
结论:题目中“类的个数k只能是预先给定,在聚类过程中不能确定”表述正确,符合K-均值算法的本质。