题目
如果一个回归模型中不包含截距项,对一个具有m个特征的质的因素要引入虚拟变量数目为()。A. mB. m-1C. m-2D. m+1
如果一个回归模型中不包含截距项,对一个具有m个特征的质的因素要引入虚拟变量数目为()。
A. m
B. m-1
C. m-2
D. m+1
题目解答
答案
A. m
解析
考查要点:本题主要考查回归模型中虚拟变量的引入数量,特别是当模型不包含截距项时的处理方式。
核心思路:
- 质的因素(分类变量)通常需要通过虚拟变量引入回归模型。
- 一般情况下,若模型包含截距项,m个类别需引入m-1个虚拟变量(避免共线性)。
- 关键点:若模型不包含截距项,则每个虚拟变量直接代表对应类别的效应,需引入m个虚拟变量,无需基准类别。
破题关键:
明确模型是否包含截距项对虚拟变量数量的影响,区分两种情况的处理方式。
虚拟变量的基本规则
-
包含截距项:
- m个类别 → 引入m-1个虚拟变量,避免“虚拟变量陷阱”(共线性)。
- 例如:季节(春、夏、秋、冬)需3个虚拟变量,冬季作为基准。
-
不包含截距项:
- 模型无统一截距,每个虚拟变量独立表示对应类别的效应。
- 必须引入m个虚拟变量,否则无法覆盖所有类别。
- 例如:性别(男、女)需2个虚拟变量,分别表示男、女的平均效应。
本题结论
题目明确模型不包含截距项,因此需引入m个虚拟变量,对应选项A。