题目
中国共产党第二十次全国代表大会报告指出:坚持精准治污、科学治污、依法治污,持续深入打好蓝天、碧水、净土保卫战,加强污染物协同控制,基本消除重污染天气、每年的《中国生态环境状态公报》都会公布全国339个地级及以上城市空气质量检测报告,以下是2017-2021五年339个城市空气质量平均优良天数占比统计表. 年份 2017年 2018年 2019年 2020年 2021年 年份代码xi 1 2 3 4 5 百分比yi 78 79.3 82 87 87.5 并计算得:sum_(i=1)^5(y_i^2)=34321.74,sum_(i=1)^5({x_i)}(y_i)=1268.1.(1)求2017年—2021年年份代码与339个城市空气质量平均优良天数的百分比的样本相关系数(精确到0.01);(2)请用相关系数说明该组数据中y与x之间的关系可用线性回归模型进行拟合,并求出y关于x的回归直线方程(精确到0.01)和预测2022年(x=6)的空气质量优良天数的百分比;(3)试判断用所求回归方程是否可预测2026年(x=10)的空气质量优良天数的百分比,并说明理由.(回归直线的斜率和截距的最小二乘法估计公式分别为:hat(b)=((sum_{i=1)^n(({{x_i)-overline(x)})}(({y_i)-overline(y)})})/((sum_{i=1)^n{{{({x_i)-overline(x))}^2}}}},hat(a)=overline(y)-hat(b)overline(x))附:相关系数r=((sum_{i=1)^n(({{x_i)-overline(x)})}(({y_i)-overline(y)})})/((sqrt(sum_{i=1)^n{{{({{x_i)-overline{x)})}^2}}sum_(i=1)^n({{({{y_i)-overline(y)})}^2}}}}},82.762≈6849.22,sqrt(756.4)≈27.5.
中国共产党第二十次全国代表大会报告指出:坚持精准治污、科学治污、依法治污,持续深入打好蓝天、碧水、净土保卫战,加强污染物协同控制,基本消除重污染天气、每年的《中国生态环境状态公报》都会公布全国339个地级及以上城市空气质量检测报告,以下是2017-2021五年339个城市空气质量平均优良天数占比统计表.
并计算得:$\sum_{i=1}^5{y_i^2}=34321.74$,$\sum_{i=1}^5{{x_i}}{y_i}=1268.1$.
(1)求2017年—2021年年份代码与339个城市空气质量平均优良天数的百分比的样本相关系数(精确到0.01);
(2)请用相关系数说明该组数据中y与x之间的关系可用线性回归模型进行拟合,并求出y关于x的回归直线方程(精确到0.01)和预测2022年(x=6)的空气质量优良天数的百分比;
(3)试判断用所求回归方程是否可预测2026年(x=10)的空气质量优良天数的百分比,并说明理由.
(回归直线的斜率和截距的最小二乘法估计公式分别为:$\hat{b}=\frac{{\sum_{i=1}^n{({{x_i}-\overline{x}})}({{y_i}-\overline{y}})}}{{\sum_{i=1}^n{{{({x_i}-\overline{x})}^2}}}}$,$\hat{a}=\overline{y}-\hat{b}\overline{x}$)
附:相关系数$r=\frac{{\sum_{i=1}^n{({{x_i}-\overline{x}})}({{y_i}-\overline{y}})}}{{\sqrt{\sum_{i=1}^n{{{({{x_i}-\overline{x}})}^2}}\sum_{i=1}^n{{{({{y_i}-\overline{y}})}^2}}}}}$,82.762≈6849.22,$\sqrt{756.4}≈27.5$.
| 年份 | 2017年 | 2018年 | 2019年 | 2020年 | 2021年 |
| 年份代码xi | 1 | 2 | 3 | 4 | 5 |
| 百分比yi | 78 | 79.3 | 82 | 87 | 87.5 |
(1)求2017年—2021年年份代码与339个城市空气质量平均优良天数的百分比的样本相关系数(精确到0.01);
(2)请用相关系数说明该组数据中y与x之间的关系可用线性回归模型进行拟合,并求出y关于x的回归直线方程(精确到0.01)和预测2022年(x=6)的空气质量优良天数的百分比;
(3)试判断用所求回归方程是否可预测2026年(x=10)的空气质量优良天数的百分比,并说明理由.
(回归直线的斜率和截距的最小二乘法估计公式分别为:$\hat{b}=\frac{{\sum_{i=1}^n{({{x_i}-\overline{x}})}({{y_i}-\overline{y}})}}{{\sum_{i=1}^n{{{({x_i}-\overline{x})}^2}}}}$,$\hat{a}=\overline{y}-\hat{b}\overline{x}$)
附:相关系数$r=\frac{{\sum_{i=1}^n{({{x_i}-\overline{x}})}({{y_i}-\overline{y}})}}{{\sqrt{\sum_{i=1}^n{{{({{x_i}-\overline{x}})}^2}}\sum_{i=1}^n{{{({{y_i}-\overline{y}})}^2}}}}}$,82.762≈6849.22,$\sqrt{756.4}≈27.5$.
题目解答
答案
解:(1)根据表中数据可得:
$\bar{x}=\frac{{1+2+3+4+5}}{5}=3$,$\bar{y}=\frac{{78+79.3+82+87+87.5}}{5}=82.76$,
∴$\sum_{i=1}^5{({{x_i}-\bar{x}})}({{y_i}-\bar{y}})=\sum_{i=1}^5{({{x_i}{y_i}-\bar{x}{y_i}-{x_i}\bar{y}+\bar{x}\bar{y}})}$
=$\sum_{i=1}^5{{x_i}}{y_i}-\bar{x}\sum_{i=1}^5{{y_i}}-\bar{y}\sum_{i=1}^5{{x_i}}+5\bar{x}\bar{y}$
=$\sum_{i=1}^5{{x_i}}{y_i}-5\bar{x}⋅\bar{y}$=1268.1-5×3×82.76=26.7,
又$\sum_{i=1}^5{x_i^2}=1+4+9+16+25=55$,
∴$\sum_{i=1}^5{{{({{x_i}-\bar{x}})}^2}}=\sum_{i=1}^5{x_i^2}-5{\bar{x}^2}=10$.
又$\sum_{i=1}^5{{{({{y_i}-\bar{y}})}^2}}=\sum_{i=1}^5{y_i^2}-5{\bar{y}^2}≈34321.74-5×6849.22=75.64$,
∴$r=\frac{{\sum_{i=1}^5{({{x_i}-\bar{x}})}({{y_i}-\bar{y}})}}{{\sqrt{\sum_{i=1}^5{{{({{x_i}-\bar{x}})}^2}}\sum_{i=1}^5{{{({{y_i}-\bar{y}})}^2}}}}}$$≈\frac{{26.7}}{{\sqrt{756.4}}}≈\frac{{26.7}}{{27.5}}≈0.97$;
(2)由(1)知,y与x的相关系数r≈0.97接近1,
∴y与x之间具有极强的线性相关关系,可用线性回归模型进行拟合.
∵$\hat{b}=\frac{{\sum_{i=1}^5{({{x_i}-\bar{x}})}({{y_i}-\bar{y}})}}{{\sum_{i=1}^5{{{({x_i}-\bar{x})}^2}}}}=\frac{{26.7}}{{10}}=2.67$,$\hat{a}=82.76-2.67×3=74.75$,
故回归直线方程为$\hat{y}=2.67x+74.75$,
当x=6时,$\hat{y}=2.67×6+74.75=90.77$,
故2022年的空气质量优良天数的百分比为90.77%;
(3)由(2)知,当x=10时,$\hat{y}=2.67×10+74.75=101.45>100$,显然不合常理.
其原因如下:
根据该组数据的相关系r≈0.97,是可以推断2017年—2021年间y与x两个变量正线性相关,
且相关程度很强,由此来估计2022年的空气质量优良天数的百分比有一定的依据.
但由于经验回归方程的时效性,随着国家对生态环境的治理,
空气质量优良天数的百分比增加幅度会变缓,且都会小于1,
故用该回归直线方程去预测今后几年的空气优良天数会误差较大,甚至出现不合情理的数据.
$\bar{x}=\frac{{1+2+3+4+5}}{5}=3$,$\bar{y}=\frac{{78+79.3+82+87+87.5}}{5}=82.76$,
∴$\sum_{i=1}^5{({{x_i}-\bar{x}})}({{y_i}-\bar{y}})=\sum_{i=1}^5{({{x_i}{y_i}-\bar{x}{y_i}-{x_i}\bar{y}+\bar{x}\bar{y}})}$
=$\sum_{i=1}^5{{x_i}}{y_i}-\bar{x}\sum_{i=1}^5{{y_i}}-\bar{y}\sum_{i=1}^5{{x_i}}+5\bar{x}\bar{y}$
=$\sum_{i=1}^5{{x_i}}{y_i}-5\bar{x}⋅\bar{y}$=1268.1-5×3×82.76=26.7,
又$\sum_{i=1}^5{x_i^2}=1+4+9+16+25=55$,
∴$\sum_{i=1}^5{{{({{x_i}-\bar{x}})}^2}}=\sum_{i=1}^5{x_i^2}-5{\bar{x}^2}=10$.
又$\sum_{i=1}^5{{{({{y_i}-\bar{y}})}^2}}=\sum_{i=1}^5{y_i^2}-5{\bar{y}^2}≈34321.74-5×6849.22=75.64$,
∴$r=\frac{{\sum_{i=1}^5{({{x_i}-\bar{x}})}({{y_i}-\bar{y}})}}{{\sqrt{\sum_{i=1}^5{{{({{x_i}-\bar{x}})}^2}}\sum_{i=1}^5{{{({{y_i}-\bar{y}})}^2}}}}}$$≈\frac{{26.7}}{{\sqrt{756.4}}}≈\frac{{26.7}}{{27.5}}≈0.97$;
(2)由(1)知,y与x的相关系数r≈0.97接近1,
∴y与x之间具有极强的线性相关关系,可用线性回归模型进行拟合.
∵$\hat{b}=\frac{{\sum_{i=1}^5{({{x_i}-\bar{x}})}({{y_i}-\bar{y}})}}{{\sum_{i=1}^5{{{({x_i}-\bar{x})}^2}}}}=\frac{{26.7}}{{10}}=2.67$,$\hat{a}=82.76-2.67×3=74.75$,
故回归直线方程为$\hat{y}=2.67x+74.75$,
当x=6时,$\hat{y}=2.67×6+74.75=90.77$,
故2022年的空气质量优良天数的百分比为90.77%;
(3)由(2)知,当x=10时,$\hat{y}=2.67×10+74.75=101.45>100$,显然不合常理.
其原因如下:
根据该组数据的相关系r≈0.97,是可以推断2017年—2021年间y与x两个变量正线性相关,
且相关程度很强,由此来估计2022年的空气质量优良天数的百分比有一定的依据.
但由于经验回归方程的时效性,随着国家对生态环境的治理,
空气质量优良天数的百分比增加幅度会变缓,且都会小于1,
故用该回归直线方程去预测今后几年的空气优良天数会误差较大,甚至出现不合情理的数据.