题目
44主成分分析和线性判别分析都是优化寻找特征向量w来实现降维()A. 错误B. 正确
44主成分分析和线性判别分析都是优化寻找特征向量w来实现降维()
A. 错误
B. 正确
题目解答
答案
B. 正确
解析
本题考查主成分分析(PCA)和线性判别分析(LDA)的基本原理和降维方法。解题思路是分别明确主成分分析和线性判别分析在降维过程中是否是通过优化寻找特征向量 $w$ 来实现的。
主成分分析(PCA)
主成分分析的目标是找到数据的主成分方向,使得数据在这些方向上的投影方差最大。具体步骤如下:
- 计算数据的协方差矩阵 $\Sigma$。设数据矩阵为 $X$,其中每一行代表一个样本,每一列代表一个特征,样本数量为 $n$,特征数量为 $d$。协方差矩阵 $\Sigma$ 的计算公式为:
$\Sigma=\frac{1}{n - 1}(X-\bar{X})(X - \bar{X})^T$,其中 $\bar{X}$ 是数据矩阵 $X$ 的均值向量。 - 求解协方差矩阵 $\Sigma$ 的特征值 $\lambda_i$ 和对应的特征向量 $w_i$,即求解方程 $\Sigma w_i=\lambda_i w_i$。
- 按照特征值从大到小的顺序对特征向量进行排序,选择前 $k$ 个特征向量($k\lt d$),将原始数据投影到这 $k$ 个特征向量所张成的子空间上,从而实现降维。
线性判别分析(LDA)
线性判别分析的目标是找到一个投影方向,使得不同类别的数据在该方向上的投影尽可能分开,同一类别的数据在该方向上的投影尽可能聚集。具体步骤如下:
- 计算类内散度矩阵 $S_w$ 和类间散度矩阵 $S_b$。
- 类内散度矩阵 $S_w=\sum_{i = 1}^{c}S_i$,其中 $c$ 是类别数量,$S_i$ 是第 $i$ 类数据的协方差矩阵。
- 类间散度矩阵 $S_b=\sum_{i = 1}^{c}n_i(\bar{\mu}_i-\bar{\mu})(\bar{\mu}_i - \bar{\mu})^T$,其中 $n_i$ 是第 $i$ 类的样本数量,$\bar{\mu}_i$ 是第 $i$ 类数据的均值向量,$\bar{\mu}$ 是所有数据的均值向量。
- 求解广义特征值问题 $S_b w=\lambda S_w w$,得到特征值 $\lambda_i$ 和对应的特征向量 $w_i$。
- 按照特征值从大到小的顺序对特征向量进行排序,选择前 $k$ 个特征向量($k\lt d$),将原始数据投影到这 $k$ 个特征向量所张成的子空间上,实现降维。
从上述分析可以看出,主成分分析和线性判别分析都是通过优化寻找特征向量 $w$ 来实现降维的。