题目
在聚类分析中常常应用明氏距离测量,但是明氏距离具有局限性,主要体现在()。A. 距离的大小与各变量值的长短有关B. 距离的大小与各变量值的多少有关C. 距离的大小与各变量值的度量单位有关D. 距离的大小与各变量值的类型有关
在聚类分析中常常应用明氏距离测量,但是明氏距离具有局限性,主要体现在()。
A. 距离的大小与各变量值的长短有关
B. 距离的大小与各变量值的多少有关
C. 距离的大小与各变量值的度量单位有关
D. 距离的大小与各变量值的类型有关
题目解答
答案
C. 距离的大小与各变量值的度量单位有关
解析
本题考查聚类分析中明氏距离的局限性相关知识点。解题思路是先明确明氏距离的定义,再分析其定义中哪些因素会对距离大小产生影响,从而判断各个选项的正确性。
明氏距离(Minkowski distance)是欧氏距离、曼哈顿距离等距离度量的推广,对于两个 $n$ 维向量 $\mathbf{x}=(x_1,x_2,\cdots,x_n)$ 和 $\mathbf{y}=(y_1,y_2,\cdots,y_n)$,明氏距离的计算公式为:
$d_p(\mathbf{x},\mathbf{y})=\left(\sum_{i = 1}^{n}|x_i - y_i|^p\right)^{\frac{1}{p}}$
其中 $p$ 是一个正整数。
- 选项A:变量值的长短并不是影响明氏距离大小的关键因素。明氏距离主要关注的是变量值之间的差值以及差值的幂次运算,而不是变量值本身的长短。例如,对于两个向量 $\mathbf{x}=(1,2)$ 和 $\mathbf{y}=(3,4)$,以及 $\mathbf{x}'=(10,20)$ 和 $\mathbf{y}'=(30,40)$,在相同的 $p$ 值下,它们的明氏距离计算方式是基于差值,而不是变量值的长短,所以该选项错误。
- 选项B:变量值的多少即向量的维度 $n$,在明氏距离的计算中,维度 $n$ 只是决定了求和的项数,它本身并不会直接影响距离的大小。例如,对于两个二维向量和两个三维向量,只要它们对应变量值的差值情况合适,距离大小并没有必然的联系,所以该选项错误。
- 选项C:明氏距离的计算是基于变量值的差值进行的。如果变量的度量单位不同,那么变量值的差值也会受到影响,进而导致明氏距离的大小发生变化。例如,一个变量的单位是米,另一个变量的单位是厘米,在计算距离时,如果不进行单位统一,得到的距离值就会因为单位的不同而失去可比性,所以该选项正确。
- 选项D:明氏距离主要适用于数值型变量,它的计算是基于数值的差值运算,与变量值的类型(如分类变量等)并没有直接关系。在使用明氏距离时,通常需要将变量转换为数值型,所以该选项错误。