题目
某校20名学生的数学成绩xi(i=1,2,•••,20)和知识竞赛成绩yi(i=1,2,•••,20)如下表: 学生编号i 1 2 3 4 5 6 7 8 9 10 数学成绩xi 100 99 96 93 90 88 85 83 80 77 知识竞赛成绩yi 290 160 220 200 65 70 90 100 60 270 学生编号i 11 12 13 14 15 16 17 18 19 20 数学成绩xi 75 74 72 70 68 66 60 50 39 35 知识竞赛成绩yi 45 35 40 50 25 30 20 15 10 5 计算可得数学成绩的平均值是overline(x)=75,知识竞赛成绩的平均值是overline(y)=90,并且sum_(i=1)^20({({x)_(i)-overline(x))}^2}=6464,sum_(i=1)^20({({y)_(i)-overline(y))}^2}=149450,sum_(i=1)^20(({x)_(i)-overline(x))}((y)_(i)-overline(y))=21650.(1)求这组学生的数学成绩和知识竞赛成绩的样本相关系数(精确到0.01);(2)设N∈N*,变量x和变量y的一组样本数据为((xi,yi)|i=1,2,•••,N),其中xi(i=1,2,•••,N)两两不相同,yi(i=1,2,•••,N)两两不相同.记xi在(xn|n=1,2,•••,N)中的排名是第Ri位,yi在(yn|n=1,2,•••,N)中的排名是第Si位,i=1,2,•••,N.定义变量x和变量y的“斯皮尔曼相关系数”(记为ρ)为变量x的排名和变量y的排名的样本相关系数.(i)记di=Ri-Si,i=1,2,•••,N.证明:ρ=1-(6)/(N((N)^2-1))sum_(i=1)^N({d)_(i)^2};(ii)用(i)的公式求得这组学生的数学成绩和知识竞赛成绩的“斯皮尔曼相关系数”约为0.91,简述“斯皮尔曼相关系数”在分析线性相关性时的优势.注:参考公式与参考数据.r=(sum_(i=1)^n)/(((x)_{i-overline{x))}((y)_(i)-overline(y))}(sqrt(sum_{i=1)^n{{({x)_(i)-overline(x))}^2}sum_(i=1)^n({({y)_(i)-overline(y))}^2}}};sum_(k=1)^n({k)^2}=(n(n+1)(2n+1))/(6);sqrt(6464×149450)≈31000.
某校20名学生的数学成绩xi(i=1,2,•••,20)和知识竞赛成绩yi(i=1,2,•••,20)如下表:
计算可得数学成绩的平均值是$\overline{x}=75$,知识竞赛成绩的平均值是$\overline{y}=90$,并且$\sum_{i=1}^{20}{{({x}_{i}-\overline{x})}^{2}}=6464$,$\sum_{i=1}^{20}{{({y}_{i}-\overline{y})}^{2}}=149450$,$\sum_{i=1}^{20}{({x}_{i}-\overline{x})}({y}_{i}-\overline{y})=21650$.
(1)求这组学生的数学成绩和知识竞赛成绩的样本相关系数(精确到0.01);
(2)设N∈N*,变量x和变量y的一组样本数据为{(xi,yi)|i=1,2,•••,N},其中xi(i=1,2,•••,N)两两不相同,yi(i=1,2,•••,N)两两不相同.记xi在{xn|n=1,2,•••,N}中的排名是第Ri位,yi在{yn|n=1,2,•••,N}中的排名是第Si位,i=1,2,•••,N.定义变量x和变量y的“斯皮尔曼相关系数”(记为ρ)为变量x的排名和变量y的排名的样本相关系数.
(i)记di=Ri-Si,i=1,2,•••,N.证明:$ρ=1-\frac{6}{N({N}^{2}-1)}\sum_{i=1}^{N}{{d}_{i}^{2}}$;
(ii)用(i)的公式求得这组学生的数学成绩和知识竞赛成绩的“斯皮尔曼相关系数”约为0.91,简述“斯皮尔曼相关系数”在分析线性相关性时的优势.
注:参考公式与参考数据.
$r=\frac{\sum_{i=1}^{n}{({x}_{i}-\overline{x})}({y}_{i}-\overline{y})}{\sqrt{\sum_{i=1}^{n}{{({x}_{i}-\overline{x})}^{2}}\sum_{i=1}^{n}{{({y}_{i}-\overline{y})}^{2}}}}$;$\sum_{k=1}^{n}{{k}^{2}}=\frac{n(n+1)(2n+1)}{6}$;$\sqrt{6464×149450}≈31000$.
| 学生编号i | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
| 数学成绩xi | 100 | 99 | 96 | 93 | 90 | 88 | 85 | 83 | 80 | 77 |
| 知识竞赛成绩yi | 290 | 160 | 220 | 200 | 65 | 70 | 90 | 100 | 60 | 270 |
| 学生编号i | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 数学成绩xi | 75 | 74 | 72 | 70 | 68 | 66 | 60 | 50 | 39 | 35 |
| 知识竞赛成绩yi | 45 | 35 | 40 | 50 | 25 | 30 | 20 | 15 | 10 | 5 |
(1)求这组学生的数学成绩和知识竞赛成绩的样本相关系数(精确到0.01);
(2)设N∈N*,变量x和变量y的一组样本数据为{(xi,yi)|i=1,2,•••,N},其中xi(i=1,2,•••,N)两两不相同,yi(i=1,2,•••,N)两两不相同.记xi在{xn|n=1,2,•••,N}中的排名是第Ri位,yi在{yn|n=1,2,•••,N}中的排名是第Si位,i=1,2,•••,N.定义变量x和变量y的“斯皮尔曼相关系数”(记为ρ)为变量x的排名和变量y的排名的样本相关系数.
(i)记di=Ri-Si,i=1,2,•••,N.证明:$ρ=1-\frac{6}{N({N}^{2}-1)}\sum_{i=1}^{N}{{d}_{i}^{2}}$;
(ii)用(i)的公式求得这组学生的数学成绩和知识竞赛成绩的“斯皮尔曼相关系数”约为0.91,简述“斯皮尔曼相关系数”在分析线性相关性时的优势.
注:参考公式与参考数据.
$r=\frac{\sum_{i=1}^{n}{({x}_{i}-\overline{x})}({y}_{i}-\overline{y})}{\sqrt{\sum_{i=1}^{n}{{({x}_{i}-\overline{x})}^{2}}\sum_{i=1}^{n}{{({y}_{i}-\overline{y})}^{2}}}}$;$\sum_{k=1}^{n}{{k}^{2}}=\frac{n(n+1)(2n+1)}{6}$;$\sqrt{6464×149450}≈31000$.
题目解答
答案
解:(1)由题意,这组学生数学成绩和知识竞赛成绩的样本相关系数为:
$r=\frac{\sum_{i}^{20}{({x}_{i}-\overline{x})({y}_{i}-\overline{y})}}{\sqrt{\sum_{i}^{20}{{({x}_{i}-\overline{x})}^{2}\sum_{i}^{20}{{({y}_{i}-\overline{y})}^{2}}}}}=\frac{21650}{\sqrt{6464×14950}}≈\frac{21650}{31000}≈0.70$;
(2)(i)证明:因为{Ri}和{Si}都是1,2,⋯,N的一个排列,
所以$\sum_{i=1}^{N}{{R}_{i}}=\sum_{i=1}^{N}{{S}_{i}}=\frac{N(N+1)}{2}$,$\sum_{i=1}^{N}{{R}_{i}^{2}}=\sum_{i=1}^{N}{{S}_{i}^{2}}=\frac{N(N+1)(2N+1)}{6}$,
从而{Ri}和{Si}的平均数都是$\bar{R}=\bar{S}=\frac{N+1}{2}$.
因此,$\sum_{i=1}^{N}{{({R}_{i}-\bar{R})}^{2}}=\sum_{i=1}^{N}{{R}_{i}^{2}}-2\bar{R}\sum_{i=1}^{N}{{R}_{i}}+\sum_{i=1}^{N}{\bar{R}^{2}}=\sum_{i=1}^{N}{{R}_{i}^{2}}-N\bar{R}^{2}$=$\frac{N(N+1)(2N+1)}{6}-\frac{N(N+1)^{2}}{4}$=$\frac{N(N+1)(N-1)}{12}$,
同理可得$\sum_{i=1}^{N}{{({S}_{i}-\bar{S})}^{2}}=\frac{N(N+1)(N-1)}{12}$,
由于$\sum_{i=1}^{N}{{d}_{i}^{2}}$=$\sum_{i=1}^{N}{{({R}_{i}-{S}_{i})}^{2}}=\sum_{i=1}^{N}{{[({R}_{i}-\bar{R})-({S}_{i}-\bar{S})]}^{2}}$=$\sum_{i=1}^{N}{{({R}_{i}-\bar{R})}^{2}}+\sum_{i=1}^{N}{{({S}_{i}-\bar{S})}^{2}}-2$
$\sum_{i=1}^{N}{({R}_{i}-\bar{R})}({S}_{i}-\bar{S})$=$2•\frac{N(N+1)(N-1)}{12}-2\sum_{i=1}^{N}{({R}_{i}-\bar{R})}({S}_{i}-\bar{S})$,
所以$ρ=\frac{\sum_{i=1}^{N}{({R}_{i}-\bar{R})}({S}_{i}-\bar{S})}{\sqrt{\sum_{i=1}^{N}{{({R}_{i}-\bar{R})}^{2}}}\sqrt{\sum_{i=1}^{N}{{({S}_{i}-\bar{S})}^{2}}}}=\frac{\frac{N(N+1)(N-1)}{12}-\frac{1}{2}\sum_{i=1}^{N}{{d}_{i}^{2}}}{\frac{N(N+1)(N-1)}{12}}=1-\frac{6}{N({N}^{2}-1)}\sum_{i=1}^{N}{{d}_{i}^{2}}$.
(ii)这组学生的数学成绩和知识竞赛成绩的斯皮尔曼相关系数是0.91,
答案①:斯皮尔曼相关系数对于异常值不太敏感,如果数据中有明显的异常值,那么用斯皮尔曼相关系数比用样本相关系数更能刻画某种线性关系;
答案②:斯皮尔曼相关系数刻画的是样本数据排名的样本相关系数,与具体的数值无关,只与排名有关.如果一组数据有异常值,但排名依然符合一定的线性关系,则可以采用斯皮尔曼相关系数刻画线性关系.
$r=\frac{\sum_{i}^{20}{({x}_{i}-\overline{x})({y}_{i}-\overline{y})}}{\sqrt{\sum_{i}^{20}{{({x}_{i}-\overline{x})}^{2}\sum_{i}^{20}{{({y}_{i}-\overline{y})}^{2}}}}}=\frac{21650}{\sqrt{6464×14950}}≈\frac{21650}{31000}≈0.70$;
(2)(i)证明:因为{Ri}和{Si}都是1,2,⋯,N的一个排列,
所以$\sum_{i=1}^{N}{{R}_{i}}=\sum_{i=1}^{N}{{S}_{i}}=\frac{N(N+1)}{2}$,$\sum_{i=1}^{N}{{R}_{i}^{2}}=\sum_{i=1}^{N}{{S}_{i}^{2}}=\frac{N(N+1)(2N+1)}{6}$,
从而{Ri}和{Si}的平均数都是$\bar{R}=\bar{S}=\frac{N+1}{2}$.
因此,$\sum_{i=1}^{N}{{({R}_{i}-\bar{R})}^{2}}=\sum_{i=1}^{N}{{R}_{i}^{2}}-2\bar{R}\sum_{i=1}^{N}{{R}_{i}}+\sum_{i=1}^{N}{\bar{R}^{2}}=\sum_{i=1}^{N}{{R}_{i}^{2}}-N\bar{R}^{2}$=$\frac{N(N+1)(2N+1)}{6}-\frac{N(N+1)^{2}}{4}$=$\frac{N(N+1)(N-1)}{12}$,
同理可得$\sum_{i=1}^{N}{{({S}_{i}-\bar{S})}^{2}}=\frac{N(N+1)(N-1)}{12}$,
由于$\sum_{i=1}^{N}{{d}_{i}^{2}}$=$\sum_{i=1}^{N}{{({R}_{i}-{S}_{i})}^{2}}=\sum_{i=1}^{N}{{[({R}_{i}-\bar{R})-({S}_{i}-\bar{S})]}^{2}}$=$\sum_{i=1}^{N}{{({R}_{i}-\bar{R})}^{2}}+\sum_{i=1}^{N}{{({S}_{i}-\bar{S})}^{2}}-2$
$\sum_{i=1}^{N}{({R}_{i}-\bar{R})}({S}_{i}-\bar{S})$=$2•\frac{N(N+1)(N-1)}{12}-2\sum_{i=1}^{N}{({R}_{i}-\bar{R})}({S}_{i}-\bar{S})$,
所以$ρ=\frac{\sum_{i=1}^{N}{({R}_{i}-\bar{R})}({S}_{i}-\bar{S})}{\sqrt{\sum_{i=1}^{N}{{({R}_{i}-\bar{R})}^{2}}}\sqrt{\sum_{i=1}^{N}{{({S}_{i}-\bar{S})}^{2}}}}=\frac{\frac{N(N+1)(N-1)}{12}-\frac{1}{2}\sum_{i=1}^{N}{{d}_{i}^{2}}}{\frac{N(N+1)(N-1)}{12}}=1-\frac{6}{N({N}^{2}-1)}\sum_{i=1}^{N}{{d}_{i}^{2}}$.
(ii)这组学生的数学成绩和知识竞赛成绩的斯皮尔曼相关系数是0.91,
答案①:斯皮尔曼相关系数对于异常值不太敏感,如果数据中有明显的异常值,那么用斯皮尔曼相关系数比用样本相关系数更能刻画某种线性关系;
答案②:斯皮尔曼相关系数刻画的是样本数据排名的样本相关系数,与具体的数值无关,只与排名有关.如果一组数据有异常值,但排名依然符合一定的线性关系,则可以采用斯皮尔曼相关系数刻画线性关系.