第五章 自变量选择与逐步回归5.9 初始数据:年份农业x1工业x2建筑业x3人口x4最终消费x5受灾面积x6财政收入y19781018.4 1607.0 138.2 962592239.1 507601132.3 19791258.9 1769.7 143.8 975422619.4 393701146.4 19801359.4 1996.5 195.5 987052976.1 445301159.9 19811545.6 2048.4 207.1 1000723309.1 397901175.8 19821761.6 2162.3 220.7 1016543637.9 331301212.3 19831960.8 2375.6 270.6 1030084020.5 347101367.0 19842295.5 2789.0 316.7 1043574694.5 318901642.9 19852541.6 3448.7 417.9 1058515773.0 443702004.8 19862763.9 3967.0 525.7 1075076542.0 471402122.0 19873204.3 4585.8 665.8 1093007451.2 420902199.4 19883831.0 5777.2 810.0 1110269360.1 508702357.2 19894228.0 6484.0 794.0 11270410556.5 469902664.9 19905017.0 6858.0 859.4 11433311365.2 384702937.1 19915288.6 8087.1 1015.1 11582313145.9 554703149.5 19925800.0 10284.5 1415.0 11717115952.1 513303483.4 19936882.1 14143.8 2284.7 11851720182.1 488304349.0 19949457.2 19359.6 3012.6 11985026796.0 550405218.1 199511993.0 24718.3 3819.6 12112133635.0 458216242.2 199613844.2 29082.6 4530.5 12238940003.9 469897408.0 199714211.2 32412.1 4810.6 12362643579.4 534298651.1 199814599.6 33429.8 5262.0 12481046405.9 501459876.0
第五章 自变量选择与逐步回归
5.9 初始数据:
年份
农业x1
工业x2
建筑业x3
人口x4
最终消费x5
受灾面积x6
财政收入y
1978
1018.4
1607.0
138.2
96259
2239.1
50760
1132.3
1979
1258.9
1769.7
143.8
97542
2619.4
39370
1146.4
1980
1359.4
1996.5
195.5
98705
2976.1
44530
1159.9
1981
1545.6
2048.4
207.1
100072
3309.1
39790
1175.8
1982
1761.6
2162.3
220.7
101654
3637.9
33130
1212.3
1983
1960.8
2375.6
270.6
103008
4020.5
34710
1367.0
1984
2295.5
2789.0
316.7
104357
4694.5
31890
1642.9
1985
2541.6
3448.7
417.9
105851
5773.0
44370
2004.8
1986
2763.9
3967.0
525.7
107507
6542.0
47140
2122.0
1987
3204.3
4585.8
665.8
109300
7451.2
42090
2199.4
1988
3831.0
5777.2
810.0
111026
9360.1
50870
2357.2
1989
4228.0
6484.0
794.0
112704
10556.5
46990
2664.9
1990
5017.0
6858.0
859.4
114333
11365.2
38470
2937.1
1991
5288.6
8087.1
1015.1
115823
13145.9
55470
3149.5
1992
5800.0
10284.5
1415.0
117171
15952.1
51330
3483.4
1993
6882.1
14143.8
2284.7
118517
20182.1
48830
4349.0
1994
9457.2
19359.6
3012.6
119850
26796.0
55040
5218.1
1995
11993.0
24718.3
3819.6
121121
33635.0
45821
6242.2
1996
13844.2
29082.6
4530.5
122389
40003.9
46989
7408.0
1997
14211.2
32412.1
4810.6
123626
43579.4
53429
8651.1
1998
14599.6
33429.8
5262.0
124810
46405.9
50145
9876.0
题目解答
答案
(4)两种方法得到的模型是不同的,回退法剔除了x5,保留了x6, x3, x2, x4作为最终模型。而逐步回归法只引入了x3。说明了方法对自变量重要性的认可不同的,这与自变量的相关性有关联。相比之下,后退法首先做全模型的回归,每一个变量都有机会展示自己的作用,所得结果更有说服力
解析
考查要点:本题主要考查变量选择方法(回退法与逐步回归法)的差异及其对模型结果的影响,重点在于理解两种方法在自变量筛选逻辑上的不同,以及自变量相关性对结果的作用。
核心思路:
- 回退法从全模型出发,逐步剔除不显著变量,允许变量间“协同作用”被保留;
- 逐步回归法从空模型开始,逐步引入显著变量,可能忽略因共线性而间接重要的变量;
- 自变量相关性是导致两种方法结果差异的关键因素。
方法对比与结果分析
回退法特点
- 初始包含所有变量,通过检验逐步剔除对模型贡献不显著的变量。
- x5(最终消费)可能因与其他变量(如x2工业、x4人口)高度相关,在全模型中被剔除,但其作用可能被其他变量间接体现。
逐步回归法特点
- 从无变量开始,每次引入当前最优变量(x3建筑业),后续变量若无法显著提升模型则不引入。
- x3单独解释力强,但可能忽略与其他变量(如x2工业)的协同作用。
关键结论
- 自变量相关性导致两种方法对变量重要性的判断不同:
- 回退法保留x6(受灾面积)、x3、x2、x4,说明这些变量在全模型中存在互补作用;
- 逐步回归法仅保留x3,可能因其他变量在单独引入时解释力不足。