第二章思考题与练习题思考题2.1相关分析与回归分析的关系是什么?2.2什么是总体回归函数和样本回归函数?它们之间的区别是什么?2.3什么是随机扰动项和剩余项(残差)?它们之间的区别是什么?2.4为什么在对参数作最小二乘估计之前,要对模型提出古典假定?2.5总体方差和参数估计方差的区别是什么?2.6为什么可决系数可以度量模型的拟合优度?在简单线性回归中它与对参数的t检验的关系是什么?2.7有人说:“得到参数区间估计的上下限后,说明参数的真实值落入这个区间的概率为”,如何评论这种说法?2.8对参数假设检验的基本思想是什么?2.9为什么对被解释变量个别值的预测区间会比对被解释变量平均值的预测区间更宽?2.10如果有人利用中国1978年—2000年的样本估计的计量经济模型直接预测:“中国综合经济水平将在2050年达到美国2002年的水平”,你如何评论这种预测?2.11对本章开始提出的”中国旅游业总收入将超过3000亿美元?”,你认为可以建立什么样的简单线性回归模型去分析?练习题2.1为了研究深圳市地方预算内财政收入与国内生产总值的关系,得到以下数据:资料来源:《深圳统计年鉴2002》,中国统计出版社(1)建立深圳地方预算内财政收入对GDP的回归模型;请考虑下列模型:(1)利用表中数据估计此模型的参数。(2)你认为数据中有多重共线性吗?(3)进行以下回归:根据这些回归你能对数据中多重共线性的性质说些什么?(4)假设数据有多重共线性,但在5%水平上个别地显著,并且总的F检验也是显著的。对这样的情形,我们是否应考虑共线性的问题?________________4.4自己找一个经济问题来建立多元线性回归模型,怎样选择变量和构造解释变量数据矩阵X才可能避免多重共线性的出现?4.5克莱因与戈德伯格曾用1921-1950年(1942-1944年战争期间略去)美国国内消费Y和工资收入X1、非工资—非农业收入X2、农业收入X3的时间序列资料,利用OLSE估计得出了下列回归方程:(括号中的数据为相应参数估计量的标准误)。试对上述模型进行评析,指出其中存在的问题。________________4.6理论上认为影响能源消费需求总量的因素主要有经济发展水平、收入水平、产业发展、人民生活水平提高、能源转换技术等因素。为此,收集了中国能源消费总量Y (万吨标准煤)、国内生产总值(亿元)X1(代表经济发展水平)、国民总收入(亿元)X2(代表收入水平)、工业增加值(亿元)X3、建筑业增加值(亿元)X4、交通运输邮电业增加值(亿元)X5(代表产业发展水平及产业结构)、人均生活电力消费(千瓦小时)X6(代表人民生活水平提高)、能源加工转换效率(%)X7(代表能源转换技术)等在1985-2002年期间的统计数据,具体如下:资料来源:《中国统计年鉴》2004、2000年版,中国统计出版社。要求:(1)建立对数线性多元回归模型(2)如果决定用表中全部变量作为解释变量,你预料会遇到多重共线性的问题吗?为什么?(3)如果有多重共线性,你准备怎样解决这个问题?明确你的假设并说明全部计算。4.7在本章开始的“引子”提出的“农业和建筑业的发展会减少财政收入吗?”的例子中,如果所采用的数据如下表所示1978-2003年财政收入及其影响因素数据 ________________
第二章思考题与练习题
思考题
2.1相关分析与回归分析的关系是什么?
2.2什么是总体回归函数和样本回归函数?它们之间的区别是什么?
2.3什么是随机扰动项和剩余项(残差)?它们之间的区别是什么?
2.4为什么在对参数作最小二乘估计之前,要对模型提出古典假定?
2.5总体方差和参数估计方差的区别是什么?
2.6为什么可决系数可以度量模型的拟合优度?在简单线性回归中它与对参数的t检验的关系是什么?
2.7有人说:“得到参数区间估计的上下限后,说明参数的真实值落入这个区间的概率为”,如何评论这种说法?
2.8对参数假设检验的基本思想是什么?
2.9为什么对被解释变量个别值的预测区间会比对被解释变量平均值的预测区间更宽?
2.10如果有人利用中国1978年—2000年的样本估计的计量经济模型直接预测:“中国综合经济水平将在2050年达到美国2002年的水平”,你如何评论这种预测?
2.11对本章开始提出的”中国旅游业总收入将超过3000亿美元?”,你认为可以建立什么样的简单线性回归模型去分析?
练习题
2.1为了研究深圳市地方预算内财政收入与国内生产总值的关系,得到以下数据:
资料来源:《深圳统计年鉴2002》,中国统计出版社
(1)建立深圳地方预算内财政收入对GDP的回归模型;
请考虑下列模型:
(1)利用表中数据估计此模型的参数。
(2)你认为数据中有多重共线性吗?
(3)进行以下回归:
根据这些回归你能对数据中多重共线性的性质说些什么?
(4)假设数据有多重共线性,但在5%水平上个别地显著,并且总的F检验也是显著的。对这样的情形,我们是否应考虑共线性的问题?
________________
4.4自己找一个经济问题来建立多元线性回归模型,怎样选择变量和构造解释变量数据矩阵X才可能避免多重共线性的出现?
4.5克莱因与戈德伯格曾用1921-1950年(1942-1944年战争期间略去)美国国内消费Y和工资收入X1、非工资—非农业收入X2、农业收入X3的时间序列资料,利用OLSE估计得出了下列回归方程:
(括号中的数据为相应参数估计量的标准误)。
试对上述模型进行评析,指出其中存在的问题。
________________
4.6理论上认为影响能源消费需求总量的因素主要有经济发展水平、收入水平、产业发展、人民生活水平提高、能源转换技术等因素。为此,收集了中国能源消费总量Y (万吨标准煤)、国内生产总值(亿元)X1(代表经济发展水平)、国民总收入(亿元)X2(代表收入水平)、工业增加值(亿元)X3、建筑业增加值(亿元)X4、交通运输邮电业增加值(亿元)X5(代表产业发展水平及产业结构)、人均生活电力消费(千瓦小时)X6(代表人民生活水平提高)、能源加工转换效率(%)X7(代表能源转换技术)等在1985-2002年期间的统计数据,具体如下:
资料来源:《中国统计年鉴》2004、2000年版,中国统计出版社。
要求:
(1)建立对数线性多元回归模型
(2)如果决定用表中全部变量作为解释变量,你预料会遇到多重共线性的问题吗?为什么?
(3)如果有多重共线性,你准备怎样解决这个问题?明确你的假设并说明全部计算。
4.7在本章开始的“引子”提出的“农业和建筑业的发展会减少财政收入吗?”的例子中,如果所采用的数据如下表所示
1978-2003年财政收入及其影响因素数据
________________
题目解答
答案
<<4.3 答案 <<4.5 答案 <<4.7 答案
解析
多重共线性问题的识别与解决是本题的核心考查点。
- 多重共线性指解释变量之间存在高度线性相关关系,会导致参数估计不稳定、显著性检验不可靠。
- 识别方法:通过观察变量间的相关系数、方差膨胀因子(VIF)、回归系数符号异常或不显著等现象判断。
- 解决思路:增加样本量、剔除冗余变量、变量变换(如差分、合并变量)或使用正则化方法。
第(1)题
建立对数线性多元回归模型
模型形式
对数线性模型形式为:
$\ln Y = \beta_0 + \beta_1 \ln X_1 + \beta_2 \ln X_2 + \cdots + \beta_7 \ln X_7 + \epsilon$
变量选择
选择经济发展水平(X1)、收入水平(X2)、产业结构(X3-X5)、人民生活水平(X6)、能源转换技术(X7)作为解释变量,符合理论预期。
第(2)题
多重共线性预测
变量间关系分析
- X1(GDP)与X2(国民总收入)高度相关(收入是GDP的主要组成部分)。
- X3(工业)、X4(建筑)、X5(交通)可能存在行业关联性。
- X6(电力消费)与X1、X2可能存在消费能力驱动关系。
结论:多重共线性问题较大概率存在。
第(3)题
解决多重共线性的步骤
假设与数据准备
假设数据已标准化,且通过VIF检测确认共线性。
解决方法
- 逐步回归法:
- 逐步引入变量,剔除VIF>10的变量(如X2、X4)。
- 岭回归:
- 使用岭回归系数图选择合适惩罚参数$\lambda$,稳定估计。
- 变量合并:
- 将X3、X4、X5合并为产业结构指数,降低维度。