19. (4.0分) 下面关于BIRCH算法说法正确的()A. 聚类速度快,只需要一遍扫描训练集就可以 建立CF Tree,CF Tree的增删改操作速度 较快B. CF Tree对每个节点的CF个数没有限制C. 节省内存,所有的样本都在磁盘上,CF Tree 仅仅存了D. 可以识别噪音点,还可以对数据集进行初步 分类的预处理
A. 聚类速度快,只需要一遍扫描训练集就可以 建立CF Tree,CF Tree的增删改操作速度 较快
B. CF Tree对每个节点的CF个数没有限制
C. 节省内存,所有的样本都在磁盘上,CF Tree 仅仅存了
D. 可以识别噪音点,还可以对数据集进行初步 分类的预处理
题目解答
答案
A. 聚类速度快,只需要一遍扫描训练集就可以 建立CF Tree,CF Tree的增删改操作速度 较快
C. 节省内存,所有的样本都在磁盘上,CF Tree 仅仅存了
D. 可以识别噪音点,还可以对数据集进行初步 分类的预处理
解析
本题考查对BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)算法的理解。解题思路是对每个选项逐一分析,根据BIRCH算法的特点来判断其正确性。
选项A
BIRCH算法的一个重要优点就是聚类速度快。它只需要对训练集进行一遍扫描就能够建立CF(Clustering Feature)树。CF树是一种高度平衡的树结构,其增删改操作的时间复杂度较低,速度较快。这是因为CF树的结构设计使得在插入、删除和修改节点时,不需要对整个树进行大规模的调整,所以该选项正确。
选项B
在BIRCH算法中,CF树对每个节点的CF个数是有限制的。通常会设置一个参数max_entries,用于限制每个节点中CF的最大数量。当一个节点中的CF数量超过这个限制时,就需要进行分裂操作,以保证树的平衡和性能。所以该选项错误。
选项C
BIRCH算法具有节省内存的特点。它将大部分样本数据存储在磁盘上,而CF树仅仅存储了每个聚类特征(CF)的摘要信息,如聚类的样本数量、样本的质心和样本的平方和等。这样可以大大减少内存的使用,使得算法能够处理大规模的数据集。所以该选项正确。
选项D
BIRCH算法可以识别噪音点。在构建CF树的过程中,那些远离其他聚类的样本会被视为噪音点。此外,BIRCH算法还可以对数据集进行初步的分类预处理。它通过构建CF树,将数据集划分为不同的聚类,为后续的聚类算法提供了一个初步的聚类结果,减少了后续算法的计算量。所以该选项正确。