题目
该题使用SPSS软件分析,结果如下:(1) 得到线性回归方程为 ⑴--0.591 • 22.386X, 327.672X。(2) 其中回归系数 弭=22.386表示的是,在温度不变的条件下,降雨量每增加 1个单位,某农场早稻收获量平均增加 22.386个单位;=327.672表示的是,在降雨量不变的条件下,温度每升高 1个单位,某农场早稻收获量平均增加 327.672个单位;-0.591并无特定实际含义。(3) F检验,提出假设, h。「1 =辽=0, H1 : '-i不全为0, i =1,2,检验统计量 F =228.44, p值<0.05的显著性水平,因此拒绝原假设,认为降雨量和温度二者对农场早 稻收获量的影响总体上是显著的。第七章思考与练习参考答案1 •答:函数关系是两变量之间的确定性关系,即当一个变量取一定数值时,另一个变量有确定值与之相对应; 而相关关系表示的是两变量之间的一种不确定性关系, 具体表示为当一个变量取一定数值时, 与之相对应的另一变量的数值虽然不确定, 但它仍按某种规律在定的范围内变化。2•答:相关和回归都是研究现象及变量之间相互关系的方法。相关分析研究变量之间相关的方向和相关的程度,但不能确定变量间相互关系的具体形式, 也无法从一个变量的变化来推测另一个变量的变化情况;回归分析则可以找到研究变量之间相互关系的具体形式, 并可变量之间的数量联系进行测定, 确定一个回归方程,并根据这个回归方程从已知量推测未知量。样本相关系数。有相关系数是多元线性回归分3•答:单相关系数是度量两个变量之间线性相关程度的指标,其计算公式为:总体相析中度量因变量与其它多个自变量之间的线性相关程度的指标,它是方程的判定系数 R2的正的平方根。偏相关系数是多元线性回归分析中度量在其它变量不变的情况下两个变量之间 真实相关程度的指标,它反映了在消除其他变量影响的条件下两个变量之间的线性相关程度。4.答:回归模型假定总体上因变量 Y与自变量X之间存在着近似的线性函数关系,可表示为Y^ 1 1X t ut,这就是总体回归函数,其中 ut是随机误差项,可以反映未考虑的其他各种因素对 Y的影响。根据样本数据拟合的方程, 就是样本回归函数, 以一元线性回归模型的样本回归函数为例可表示为: Y?=耳+弭xt。总体回归函数事实上是未知的,需要利用样本的信息对其进行估计, 样本回归函数是对总体回归函数的近似反映。 两者的区别主要包括: 第一,总体回归直线是未知的,它只有一条; 而样本回归直线则是根据样本数据拟合的,每抽取一组样本, 便可以拟合一条样本回归直线。第二, 总体回归函数中的-0和-1是未知的参数,表现为常数;而样本回归直线中的 '?Q和?i是随机变量,其具体数值随所抽取的样本观测值不同而变动。5•最小二乘法是在根据样本数据估计样本回归方程时,采用残差平方和作为衡量总偏 差的尺度,找到使得残差平方和最小的回归系数 児和网的取值的估计方法。根据微积分中求极小值的原理,可知欲使残差平方和 Q达到最小,Q对氐和席的偏导数必须等于零。6.答:总离差平方和是因变量的实际观测值和样本均值的离差平方和;回归平方和是因变量的理论回归值与样本均值的离差平方和; 残差平方和是实际观测值与理论回归值的离差平方和。三者之间的关系是:总离差平方和 =回归平方和+残差平方和。7.答:判定系数 R2是回归平方和占总离差平方和的比例,它是对估计的回归模型拟合程度的度量。它可以解释为:在因变量的离差中,可以由自变量所解释的部分。 R2越接近于1,表明回归平方和占总离差平方和的比例越大,回归直线与各观测点越接近,回归直线的拟合程度就越好;反之, R2越接近于0,回归直线的拟合程度就越差。&答:一元回归模型中,估计标准误差是对各观测数据在回归直线周围分散程度的一 种度量值,它是对随机误差项Ut的标准差二的估计。它反映了用样本回归方程估计因变量 丫时平均误差的大小。9•答:在多元线性回归方程中, F检验是对回归方程整体显著性的检验,其原假设为所有回归系数全部为零, 即只要其中有一个自变量的回归系数不显著为零, 其F检验就能通过,即该方程整体上是显著的。但是这并不意味着每个自变量与因变量的关系都显著。而 t检验是对每个回归系数的显著性单独进行检验, 它主要用于检验每个自变量对因变量的影响是否显著非零。10.答:在一元线性回归模型中, 不同的模型都仅包含一个自变量, 如果使用的样本容量也一样,判定系数便可以直接作为评价拟合程度的尺度。 然而在多元线性回归模型中,不同模型所包含的自变量个数未必相同, 如果在模型中额外增加一个自变量, 即使这个自变量2没有经济意义,在统计上也不显著, R仍可能会变大,至少不会下降,因此为了避免增加2自变量而高估 R,需要对多元线性回归方程的判定系数进行修正,其计算公式为: n TRa = 1 _ (1 _ R ) ■-n — p T11•答:(1)人均GDP与人均消费水平的散点图如下:地区人均国内 生产总值X (元)人均消 费水平(元)X2Y2XY北京460732650445160053670276164541960辽宁1122644901260230762016010050404740上海34547115461193495209133310116398879662江西4851239623532201574081611622996河南5444220829637136487526412020352贵州26621608708624425856644280496陕西454920352069340141412259257215合计85739316091904918867224483461651007421人均消费水平之间的线性相关系数35475CS5 D:>.91750744=3恥。(3)已知 n = 7, ' X = 85739, ' 丫 = 31609, ' X2 = 1904918867 , ' XY =样本相关系数。有相关系数是多元线性回归分样本相关系数。有相关系数是多元线性回归分样本相关系数。有相关系数是多元线性回归分—--— 。估计的一元线性回归方程为: 丫?二734.693 0.309X。其中,0.309表示人均国内生 产总值每增加1元,人均消费水平平均增加 0.309元;734.693表示与人均国内生产总值无 关的人均消费水平平均为 734.693元。Ssr 5" (Y? _ y )2 5" (y_ Y?)2(4)根据判定系数公式 R2 =旦“ 2 =1 ! 2计算可得,SST Z (Yt —Y) 送(¥ — Y)'二-…二;。S135i7M其意义为,在人均消费水平的离差中, 有99.6%可以由人均消费水平与人均 GDP之间的线性回归方程来解释,该方程的拟合程度较好。(5)样本相关系数。有相关系数是多元线性回归分第1步:提出假设Ho: ! =0,即两个变量之间的线性关系不显著。Hi: -0,即两个变量之间的线性关系显著。第2步:计算检验统计量根据公式F SSR/1 MSR计算可得,匚二二…… 二SSE/( n —2) MSE ^5795^-2)第3步:做出决策在a= 0.05的显著性水平下,查 F分布表(分子自由度为1、分母自由度为5),得到临 界值F a= 6.61。由于F>Fa,因此拒绝H0,即两个变量之间的线性关系是显著的。(6) 根据回归方程计算可得,辛二7刃.f 冰 f 旳 站 即预测该地 区人均消费水平平均为 2279.693元。12.答:卩啤酒 品牌广告费X(万兀)销售量 Y (万箱)X2Y2XYA120.036.314400.001317.694356.00B68.720.74719.69428.491422.09C100.115.910020.01252.811591.59D76.613.25867.56174.241011.12E8.78.175.6965.6170.47F1.07.11.0050.417.10G21.55.6462.2531.36120.40H1.44.41.9619.366.16I5.34.428.0919.3623.32J120.036.32.8918.497.31合计40512035579.142377.828615.562已知 n = 10, ' x = 405, ' Y = 120, ' X = 35579.14 , ' XY = 8615.56,因此根据公式7-9计算可得,一 * 一, • 二一 「’— 。估计的一元线性回归方程为: Y?二4.062 0.196X。13•答:(1)表7-11不同广告费用的方差分析表方差来源dfSSMSFSigni fica nee F回归11602708.601602708.60399.102.17E-09
该题使用SPSS软件分析,结果如下:
(1) 得到线性回归方程为 ⑴--0.591 • 22.386X, 327.672X。
(2) 其中回归系数 弭=22.386表示的是,在温度不变的条件下,降雨量每增加 1个
单位,某农场早稻收获量平均增加 22.386个单位;=327.672表示的是,在降雨量不变
的条件下,温度每升高 1个单位,某农场早稻收获量平均增加 327.672个单位;-0.591并无
特定实际含义。
(3) F检验,提出假设, h。「1 =辽=0, H1 : '-i不全为0, i =1,2,检验统计量 F =228.44, p值<0.05的显著性水平,因此拒绝原假设,认为降雨量和温度二者对农场早 稻收获量的影响总体上是显著的。
第七章思考与练习参考答案
1 •答:函数关系是两变量之间的确定性关系,即当一个变量取一定数值时,另一个变
量有确定值与之相对应; 而相关关系表示的是两变量之间的一种不确定性关系, 具体表示为
当一个变量取一定数值时, 与之相对应的另一变量的数值虽然不确定, 但它仍按某种规律在
定的范围内变化。
2•答:相关和回归都是研究现象及变量之间相互关系的方法。相关分析研究变量之间
相关的方向和相关的程度,但不能确定变量间相互关系的具体形式, 也无法从一个变量的变
化来推测另一个变量的变化情况;回归分析则可以找到研究变量之间相互关系的具体形式, 并可变量之间的数量联系进行测定, 确定一个回归方程,并根据这个回归方程从已知量推测
未知量。

析中度量因变量与其它多个自变量之间的线性相关程度的指标,它是方程的判定系数 R2的
正的平方根。偏相关系数是多元线性回归分析中度量在其它变量不变的情况下两个变量之间 真实相关程度的指标,它反映了在消除其他变量影响的条件下两个变量之间的线性相关程
度。
4.答:回归模型假定总体上因变量 Y与自变量X之间存在着近似的线性函数关系,可
表示为Y^ 1 1X t ut,这就是总体回归函数,其中 ut是随机误差项,可以反映未
考虑的其他各种因素对 Y的影响。根据样本数据拟合的方程, 就是样本回归函数, 以一元线
性回归模型的样本回归函数为例可表示为: Y?=耳+弭xt。总体回归函数事实上是未
知的,需要利用样本的信息对其进行估计, 样本回归函数是对总体回归函数的近似反映。 两
者的区别主要包括: 第一,总体回归直线是未知的,它只有一条; 而样本回归直线则是根据
样本数据拟合的,每抽取一组样本, 便可以拟合一条样本回归直线。第二, 总体回归函数中
的-0和-1是未知的参数,表现为常数;而样本回归直线中的 '?Q和?i是随机变量,其具体
数值随所抽取的样本观测值不同而变动。
5•最小二乘法是在根据样本数据估计样本回归方程时,采用残差平方和作为衡量总偏 差的尺度,找到使得残差平方和最小的回归系数 児和网的取值的估计方法。根据微积分中
求极小值的原理,可知欲使残差平方和 Q达到最小,Q对氐和席的偏导数必须等于零。
6.答:总离差平方和是因变量的实际观测值和样本均值的离差平方和;回归平方和是
因变量的理论回归值与样本均值的离差平方和; 残差平方和是实际观测值与理论回归值的离
差平方和。三者之间的关系是:总离差平方和 =回归平方和+残差平方和。
7.答:判定系数 R2是回归平方和占总离差平方和的比例,它是对估计的回归模型拟
合程度的度量。它可以解释为:在因变量的离差中,可以由自变量所解释的部分。 R2越接
近于1,表明回归平方和占总离差平方和的比例越大,回归直线与各观测点越接近,回归直
线的拟合程度就越好;反之, R2越接近于0,回归直线的拟合程度就越差。
&答:一元回归模型中,估计标准误差是对各观测数据在回归直线周围分散程度的一 种度量值,它是对随机误差项Ut的标准差二的估计。它反映了用样本回归方程估计因变量 丫
时平均误差的大小。
9•答:在多元线性回归方程中, F检验是对回归方程整体显著性的检验,其原假设为
所有回归系数全部为零, 即只要其中有一个自变量的回归系数不显著为零, 其F检验就能通
过,即该方程整体上是显著的。但是这并不意味着每个自变量与因变量的关系都显著。而 t
检验是对每个回归系数的显著性单独进行检验, 它主要用于检验每个自变量对因变量的影响
是否显著非零。
10.答:在一元线性回归模型中, 不同的模型都仅包含一个自变量, 如果使用的样本容
量也一样,判定系数便可以直接作为评价拟合程度的尺度。 然而在多元线性回归模型中,不
同模型所包含的自变量个数未必相同, 如果在模型中额外增加一个自变量, 即使这个自变量
2
没有经济意义,在统计上也不显著, R仍可能会变大,至少不会下降,因此为了避免增加
2
自变量而高估 R,需要对多元线性回归方程的判定系数进行修正,其计算公式为:
n T
Ra = 1 _ (1 _ R ) ■-
n — p T
11•答:(1)人均GDP与人均消费水平的散点图如下:
地区 | 人均国内 生产总值 X (元) | 人均消 费水平 (元) | X2 | Y2 | XY |
北京 | 460 | 7326 | 504451600 | 53670276 | 164541960 |
辽宁 | 11226 | 4490 | 126023076 | 20160100 | 50404740 |
上海 | 34547 | 11546 | 1193495209 | 133310116 | 398879662 |
江西 | 4851 | 2396 | 23532201 | 5740816 | 11622996 |
河南 | 5444 | 2208 | 29637136 | 4875264 | 12020352 |
贵州 | 2662 | 1608 | 7086244 | 2585664 | 4280496 |
陕西 | 4549 | 2035 | 20693401 | 4141225 | 9257215 |
合计 | 85739 | 31609 | 1904918867 | 224483461 | 651007421 |
人均消费水平之间的线性相关系数
35475CS5 D:>.91750744
=3恥。
(3)
已知 n = 7, ' X = 85739, ' 丫 = 31609, ' X2 = 1904918867 , ' XY =



—--— 。
估计的一元线性回归方程为: 丫?二734.693 0.309X。其中,0.309表示人均国内生 产总值每增加1元,人均消费水平平均增加 0.309元;734.693表示与人均国内生产总值无 关的人均消费水平平均为 734.693元。
Ssr 5" (Y? _ y )2 5" (y_ Y?)2
(4)根据判定系数公式 R2 =旦“ 2 =1 ! 2计算可得,
SST Z (Yt —Y) 送(¥ — Y)
'二-…二;。
S135i7M
其意义为,在人均消费水平的离差中, 有99.6%可以由人均消费水平与人均 GDP之
间的线性回归方程来解释,该方程的拟合程度较好。
(5)
第1步:提出假设

Ho: ! =0,即两个变量之间的线性关系不显著。
Hi: -0,即两个变量之间的线性关系显著。
第2步:计算检验统计量
根据公式F SSR/1 MSR计算可得,匚二二…… 二
SSE/( n —2) MSE ^5795^-2)
第3步:做出决策
在a= 0.05的显著性水平下,查 F分布表(分子自由度为1、分母自由度为5),得到临 界值F a= 6.61。由于F>Fa,因此拒绝H0,即两个变量之间的线性关系是显著的。
(6) 根据回归方程计算可得,辛二7刃.f 冰 f 旳 站 即预测该地 区人均消费水平平均为 2279.693元。
12.答:卩
啤酒 品牌 | 广告费X (万兀) | 销售量 Y (万箱) | X2 | Y2 | XY |
A | 120.0 | 36.3 | 14400.00 | 1317.69 | 4356.00 |
B | 68.7 | 20.7 | 4719.69 | 428.49 | 1422.09 |
C | 100.1 | 15.9 | 10020.01 | 252.81 | 1591.59 |
D | 76.6 | 13.2 | 5867.56 | 174.24 | 1011.12 |
E | 8.7 | 8.1 | 75.69 | 65.61 | 70.47 |
F | 1.0 | 7.1 | 1.00 | 50.41 | 7.10 |
G | 21.5 | 5.6 | 462.25 | 31.36 | 120.40 |
H | 1.4 | 4.4 | 1.96 | 19.36 | 6.16 |
I | 5.3 | 4.4 | 28.09 | 19.36 | 23.32 |
J | 120.0 | 36.3 | 2.89 | 18.49 | 7.31 |
合计 | 405 | 120 | 35579.14 | 2377.82 | 8615.56 |
2
已知 n = 10, ' x = 405, ' Y = 120, ' X = 35579.14 , ' XY = 8615.56,因此
根据公式7-9计算可得,一 * 一, • 二一 「’— 。
估计的一元线性回归方程为: Y?二4.062 0.196X。
13•答:(1)
表7-11不同广告费用的方差分析表
方差来源 | df | SS | MS | F | Signi fica nee F |
回归 | 1 | 1602708.60 | 1602708.60 | 399.10 | 2.17E-09 |
题目解答
答案
答:(1 )以航班正点率为自变量,顾客投诉次数为因变量得到的回归方程为:
Y =430.19 -4.70X,其中-4.7表示航班正点率每提高 1%,投诉次数平均下降 4.70
次;430.19没有明确的实际意义, 也可以解释为当航班正点率为 0时,顾客平均投诉次数为 430.19 次。
(2) t检验,提出假设: H : 1 =0 ; H1 : - 0 , t统计量为-4.96,显著性水平:-
为0.05,自由度为8,查t分布表,找到相应的临界值 垃2(10—2)=2.306,由于t〉吻,
则能够拒绝H,表明自变量X对因变量Y的影响是显著的。
(3) X=80带入样本回归方程,得到顾客平均投诉次数为 54次。
15•答:(1)回归方程为Y? =348.94 14.41X,其中,14.41表示当广告费每增加 1
万元时,销售量平均会增加 14.41辆;与广告费无关的销售量平均为 348.94。
SSR SSE
(2) SSR= 755456 SSE= 37504判定系数 R2 =—— =1 ——— = 0.95,其统计含义:在
SST SST
销售量的离差中,有95%可以由广告费和销售量之间的线性回归方程来解释; 或者说在销售