题目
4.1 简述欧氏距离与马氏距离的区别和联系。
4.1 简述欧氏距离与马氏距离的区别和联系。
题目解答
答案
答: 设 p 维空间 Rp中的两点 X=( X1, X2⋯ XP)'和 Y=(Y 1,Y 2⋯Y P)'。则欧氏距离为p2。欧氏距离的局限有①在多元数据分析中,其度量不合理。②会受到实际问∑( Xi−Y i)i=1题中量纲的影响。设 X,Y 是来自均值向量为 μ,协方差为 的总体 G 中的 p 维样本。则马氏距离为D(X,Y)=(X −Y )'− 1(X −Y )。 当−1=I即 单 位 阵 时 , D(X,Y)=(X −Y )' (X −Y )=p2即欧氏距离。∑( Xi−Y i)i=1因此,在一定程度上,欧氏距离是马氏距离的特殊情况,马氏距离是欧氏距离的推广。
解析
考查要点:本题要求比较欧氏距离与马氏距离的区别与联系,重点在于理解两者在定义、应用场景及数学关系上的差异。
解题核心思路:
- 欧氏距离:基于几何空间的直接距离计算,不考虑变量间相关性及量纲影响。
- 马氏距离:通过协方差矩阵标准化,消除量纲影响并考虑变量相关性,适用于统计分析。
- 联系:当协方差矩阵为单位矩阵时,马氏距离退化为欧氏距离,说明欧氏距离是马氏距离的特例。
破题关键点:
- 明确两种距离的公式形式。
- 抓住马氏距离对协方差矩阵的依赖,理解其推广欧氏距离的本质。
欧氏距离
定义:在$p$维空间中,两点$X=(X_1, X_2, \cdots, X_p)'$和$Y=(Y_1, Y_2, \cdots, Y_p)'$的欧氏距离为:
$d_{\text{欧氏}}(X,Y) = \sqrt{\sum_{i=1}^p (X_i - Y_i)^2}$
局限性:
- 量纲敏感:不同变量的单位差异会影响距离计算。
- 忽略相关性:未考虑变量间的统计关联。
马氏距离
定义:若$X$和$Y$来自均值向量为$\mu$、协方差矩阵为$\Sigma$的总体,则马氏距离为:
$D_{\text{马氏}}(X,Y) = (X - Y)'\Sigma^{-1}(X - Y)$
优势:
- 消除量纲:通过协方差矩阵标准化,使各变量处于同一量纲。
- 考虑相关性:协方差矩阵反映变量间关系,调整距离计算。
联系
当$\Sigma^{-1} = I$(即$\Sigma$为单位矩阵)时,马氏距离退化为欧氏距离:
$D_{\text{马氏}}(X,Y) = (X - Y)'(X - Y) = \sum_{i=1}^p (X_i - Y_i)^2$
此时,欧氏距离是马氏距离的特殊情况,而马氏距离是欧氏距离的推广。