题目

在聚类分析中常常应用明氏距离测量，但是明氏距离具有局限性，主要体现在()。A. 距离的大小与各变量值的长短有关B. 距离的大小与各变量值的多少有关C. 距离的大小与各变量值的度量单位有关D. 距离的大小与各变量值的类型有关

在聚类分析中常常应用明氏距离测量，但是明氏距离具有局限性，主要体现在()。

A. 距离的大小与各变量值的长短有关

B. 距离的大小与各变量值的多少有关

C. 距离的大小与各变量值的度量单位有关

D. 距离的大小与各变量值的类型有关

题目解答

答案

C. 距离的大小与各变量值的度量单位有关

解析

本题考查聚类分析中明氏距离的局限性相关知识点。解题思路是先明确明氏距离的定义，再分析其定义中哪些因素会对距离大小产生影响，从而判断各个选项的正确性。

明氏距离（Minkowski distance）是欧氏距离、曼哈顿距离等距离度量的推广，对于两个 $n$ 维向量 $\mathbf{x}=(x_1,x_2,\cdots,x_n)$ 和 $\mathbf{y}=(y_1,y_2,\cdots,y_n)$，明氏距离的计算公式为：
$d_p(\mathbf{x},\mathbf{y})=\left(\sum_{i = 1}^{n}|x_i - y_i|^p\right)^{\frac{1}{p}}$
其中 $p$ 是一个正整数。

选项A：变量值的长短并不是影响明氏距离大小的关键因素。明氏距离主要关注的是变量值之间的差值以及差值的幂次运算，而不是变量值本身的长短。例如，对于两个向量 $\mathbf{x}=(1,2)$ 和 $\mathbf{y}=(3,4)$，以及 $\mathbf{x}'=(10,20)$ 和 $\mathbf{y}'=(30,40)$，在相同的 $p$ 值下，它们的明氏距离计算方式是基于差值，而不是变量值的长短，所以该选项错误。
选项B：变量值的多少即向量的维度 $n$，在明氏距离的计算中，维度 $n$ 只是决定了求和的项数，它本身并不会直接影响距离的大小。例如，对于两个二维向量和两个三维向量，只要它们对应变量值的差值情况合适，距离大小并没有必然的联系，所以该选项错误。
选项C：明氏距离的计算是基于变量值的差值进行的。如果变量的度量单位不同，那么变量值的差值也会受到影响，进而导致明氏距离的大小发生变化。例如，一个变量的单位是米，另一个变量的单位是厘米，在计算距离时，如果不进行单位统一，得到的距离值就会因为单位的不同而失去可比性，所以该选项正确。
选项D：明氏距离主要适用于数值型变量，它的计算是基于数值的差值运算，与变量值的类型（如分类变量等）并没有直接关系。在使用明氏距离时，通常需要将变量转换为数值型，所以该选项错误。