题目
当数据中存在异常值时,不适合用于度量变量分布特征的指标是( )。A. 众数B. 中位数C. 均值D. 四分位数
当数据中存在异常值时,不适合用于度量变量分布特征的指标是( )。
A. 众数
B. 中位数
C. 均值
D. 四分位数
题目解答
答案
C. 均值
解析
考查要点:本题主要考查学生对不同统计量在异常值存在时的稳健性(Robustness)的理解,即判断哪些统计量容易受极端值影响,哪些不受影响。
解题核心思路:
- 异常值是指数据中偏离大部分观测值的极端值。
- 稳健性强的统计量在异常值存在时仍能准确反映数据分布特征,而稳健性弱的统计量会被显著干扰。
- 需明确众数、中位数、均值、四分位数的定义及对异常值的敏感程度。
破题关键点:
- 均值是唯一依赖所有数据点具体值的统计量,因此最易受异常值影响。
- 其余统计量(众数、中位数、四分位数)均通过数据的位置或频次定义,对异常值不敏感。
选项分析:
-
众数(A):
众数是数据中出现次数最多的值,仅依赖于数据的频次分布,与异常值无关。即使存在异常值,众数仍反映数据的主要集中趋势。
结论:适用。 -
中位数(B):
中位数是数据排序后位于中间位置的值,仅依赖数据的位置,而非具体数值大小。异常值即使极端偏离,也不会显著改变中间位置。
结论:适用。 -
均值(C):
均值是所有数据的总和除以数量,计算时会将所有数据点(包括异常值)纳入。异常值会导致均值被拉高或拉低,无法真实反映数据集中趋势。
结论:不适用。 -
四分位数(D):
四分位数通过划分数据的位置(25%和75%处)确定,异常值仅可能改变极少数点的位置,对整体分位数影响有限。
结论:适用。