题目

1.K-均值法是一种非谱系聚类法,它是把样品聚集成k个类的集合。类的个数k只能是预先给定,在聚类过程中不能确定。( )√ ×

1.K-均值法是一种非谱系聚类法,它是把样品聚集成k个类的集合。类的个数k只能是预先给定,在聚类过程中不能确定。( )

√ ×

题目解答

正确选项是 √。

K-均值聚类是一种广泛使用的聚类算法，它通过最小化每个类中的样本到类中心的距离平方和来划分数据。在使用K-均值算法之前，必须先指定要形成的类的数量，即k的值。这个值必须在聚类开始之前预先确定，因为算法依赖于这个数值来初始化类中心并迭代优化。

在聚类过程中，算法不会自动调整或确定k的值。确定合适的k值通常需要依靠领域知识、数据探索或使用如肘部法则等方法进行辅助决策。因此，说“类的个数k只能是预先给定，在聚类过程中不能确定”是正确的，因为K-均值算法本身不提供机制来决定最优的k值。

考查要点：本题主要考查对K-均值聚类算法核心特点的理解，特别是关于类个数k的确定方式。

解题关键：

K-均值算法的k值特性：

算法初始化阶段：需要用户预先输入k值，并随机选择k个初始类中心。
迭代优化过程：算法通过不断调整类中心位置和样本归属，优化目标函数（距离平方和），但k值始终保持不变。
k值的局限性：若k选择不当（过大或过小），可能导致聚类效果差。因此，确定合理的k值需要额外方法（如交叉验证、轮廓系数等），但这些方法属于算法外的辅助手段。

结论：题目中“类的个数k只能是预先给定，在聚类过程中不能确定”表述正确，符合K-均值算法的本质。