题目
Z-Score标准化的核心目标是( )。A. 去除异常值B. 将数据缩放到[0,1]区间C. 处理缺失值D. 使数据均值为0、标准差为1
Z-Score标准化的核心目标是( )。
A. 去除异常值
B. 将数据缩放到$[0,1]$区间
C. 处理缺失值
D. 使数据均值为0、标准差为1
题目解答
答案
D. 使数据均值为0、标准差为1
解析
本题考查Z - Score标准化的核心目标相关知识点。解题思路是需要明确Z - Score标准化的定义和作用,然后依次分析每个选项是否符合其核心目标。
对各选项的分析
- A选项:Z - Score标准化主要是对数据进行标准化处理,将数据转换到以均值为0、标准差为1的分布上,它并不能直接去除异常值。异常值的去除通常需要使用专门的方法,如基于统计规则(如Z值大于3或小于 - 3等)或者基于机器学习算法(如孤立森林等)来识别和处理。所以A选项不符合Z - Score标准化的核心目标。
- B选项:将数据缩放到$[0,1]$区间通常使用的是Min - Max标准化方法,其公式为$X_{scaled}=\frac{X - X_{min}}{X_{max}-X_{min}}$,其中$X$是原始数据,$X_{min}$是数据中的最小值,$X_{max}$是数据中的最大值。而Z - Score标准化的公式为$Z=\frac{X-\mu}{\sigma}$,其中$X$是原始数据,$\mu$是数据的均值,$\sigma$是数据的标准差。Z - Score标准化后的数据并不一定在$[0,1]$区间内。所以B选项不符合Z - Score标准化的核心目标。
- C选项:处理缺失值一般采用删除含有缺失值的样本、用均值、中位数等统计量填充缺失值或者使用更复杂的插值方法等。Z - Score标准化是基于数据的均值和标准差进行的转换,它本身并不能处理缺失值。所以C选项不符合Z - Score标准化的核心目标。
- D选项:根据Z - Score标准化的公式$Z=\frac{X - \mu}{\sigma}$,对所有数据进行这样的转换后,新的数据$Z$的均值为:
设原始数据为$X_1,X_2,\cdots,X_n$,其均值$\mu=\frac{1}{n}\sum_{i = 1}^{n}X_i$,标准差$\sigma=\sqrt{\frac{1}{n}\sum_{i = 1}^{n}(X_i-\mu)^2}$。
转换后的数据$Z_i=\frac{X_i-\mu}{\sigma}$,则$Z$的均值为:
$\begin{align*}\overline{Z}&=\frac{1}{n}\sum_{i = 1}^{n}Z_i\\&=\frac{1}{n}\sum_{i = 1}^{n}\frac{X_i-\mu}{\sigma}\\&=\frac{1}{\sigma}\left(\frac{1}{n}\sum_{i = 1}^{n}X_i-\frac{1}{n}\sum_{i = 1}^{n}\mu\right)\\&=\frac{1}{\sigma}(\mu - \mu)\\&=0\end{align*}$
$Z$的标准差为:
$\begin{align*}S_Z&=\sqrt{\frac{1}{n}\sum_{i = 1}^{n}(Z_i-\overline{Z})^2}\\&=\sqrt{\frac{1}{n}\sum_{i = 1}^{n}\left(\frac{X_i-\mu}{\sigma}-0\right)^2}\\&=\sqrt{\frac{1}{\sigma^2}\cdot\frac{1}{n}\sum_{i = 1}^{n}(X_i - \mu)^2}\\&=\sqrt{\frac{1}{\sigma^2}\cdot\sigma^2}\\&=1\end{align*}$
所以Z - Score标准化的核心目标是使数据均值为0、标准差为1,D选项正确。