2020年初,新冠肺炎疫情袭击全国,某省由于人员流动性较大,成为湖北省外疫情最严重的省份之一,截至2月29日,该省己累计确诊1349例患者(无境外输入病例).为了解新冠肺炎的相关特征,研究人员从该省随机抽取100名确诊患者,统计他们的年龄数据,得下面的频数分布表: 年龄 [10,20] (20,30] (30,40] (40,50] (50,60] (60,70] (70,80] (80,90] (90,100] 人数 2 6 12 18 22 22 12 4 2 由频数分布表可以大致认为,该省新冠肺炎患者的年龄Z服从正态分布N(μ,15.22),其中μ近似为这100名患者年龄的样本平均数(同一组中的数据用该组区间的中点值作代表).请估计该省新冠肺炎患者年龄在70岁以上(⩾70)的患者比例.截至2月29日,该省新冠肺炎的密切接触者(均已接受检测)中确诊患者约占10%,以这些密切接触者确诊的频率代替1名密切接触者确诊发生的概率,每名密切接触者是否确诊相互独立.现有密切接触者20人,为检测出所有患者,设计了如下方案:将这20名密切接触者随机地按n(1<n<20且n是20的约数)个人一组平均分组,并将同组的n个人每人抽取的一半血液混合在一起化验,若发现新冠病毒,则对该组的n个人抽取的另一半血液逐一化验,记n个人中患者的人数为Xn,以化验次数的期望值为决策依据,试确定使得20人的化验总次数最少的n的值.参考数据:若Z~N(μ,σ2),则P(μ−σ<Z<μ+σ)=0.6826,P(μ−2σ<Z<μ+2σ)=0.9544,P(μ−3σ<Y<μ+3σ)=0.9973,0.94≈0.66,0.95≈0.59,0.910≈0.35.
四个样本率比较时,理论频数都大于1,有一个理论频数小于5大于1时A. 必须作校正卡方检验B. 直接作卡方检验C. 不能作卡方检验D. 必须先作合理的并组E. 不能确定是否需要校正
四个样本率比较时,理论频数都大于1,有一个理论频数小于5大于1时A. 必须先作合理的并组B. 直接作卡方检验C. 不能确定是否需要校正D. 不能作卡方检验E. 必须作校正卡方检验
6.对下列数据构造茎叶图-|||-452 425 447 377 341 369 412 399-|||-400 382 366 425 399 398 423 384-|||-418 392 372 418 374 385 439 408-|||-409 428 430 413 405 381 403 469-|||-381 443 441 433 399 379 386 387
频率 个-|||-组距-|||-0.00020|-|||-0.00015-|||-0.00009-|||-0.00003-|||-0 20004000 6000 8000 10000 失/元2016年10月21日,台风“海马”导致江苏、福建、广东3省11市51个县(市、区)189.9万人受灾,某调查小组调查了受灾某小区的100户居民由于台风造成的经济损失,将收集的数据分成[0,2000],(2000,4000],(4000,6000],(6000,8000],(8000,10000]五组,并作出频率分布直方图.(Ⅰ)台风后居委会号召小区居民为台风重灾区捐款,小张调查的100户居民捐款情况如表所示,在表格空白处填写正确数字,并说明能否在犯错误的概率不超过0.05的前提下认为捐款数额超过或不超过500元和自身经济损失是否超过4000元有关? (Ⅱ)将上述调查所得到的频率视为概率,现在从该地区大量受灾居民中,采用随机抽样的方法每次抽取1户居民,抽取3次,记被抽取的3户居民中自身经济损失超过4000元的人数为ξ,若每次抽取的结果是相互独立的,求ξ的分布列,期望E(ξ)和方差D(ξ). 经济损失不超过4000元 经济损失超过4000元 总计 捐款超过500元 60 捐款不超过500元 10 总计 附:K^2= dfrac (n(ad-bc)^2)((a+b)(c+d)(a+c)(b+d)),其中n=a+b+c+d P(K^2geqslant k_(0)) 0.050 0.010 0.001 k_(0) 3.841 6.635 10.828
某一仅取 0 和 1 的未知参数 theta,现对其进行预测。在 [0,1] 区间内任意产生一个随机数,若该随机数小于 0.6,则预测 theta 为 0,否则,预测 theta 为 1,求:(1) 若未知参数 theta 真值为 0,则预测正确的概率;(2) 若未知参数 theta 真值为 1,则预测错误的概率。
某地通过4月旬平均温度累积值(x,单位为旬・度)与一代三化螟蛾盛发期(y,以5月10日为0点,单位为天数)研究温度与病虫害发生的关系得到二级数据如下:SP=-159.044,SSx=144.636,SSy=294.556,x=37.078,y=7.778。请根据提示完成下列问题:(1)写出该资料的直线回归方程,并解释其意义。(2)该地4月旬平均温度累积值与一代三化螟蛾盛发期的相关系数和决定系数为多少?(3)对相关系数和决定系数的生物学意义作简单说明。解:(1)由题意可知=dfrac (SP)(S{S)_(2)}= ()-|||-=overline (y)-boverline (x)= ()-|||-得回归方程为 hat (y)= ()-|||-此方程的意义为:当4月旬积温(x)每提高1旬·度时,-|||-()-|||-(2)相关系数 = __ )-|||-决定系数 ^2= )-|||-(3)上述结果表明,当地4月旬积温与一代三化螟蛾盛发期的天数呈 () ;一-|||-代三化螟蛾的盛发期的天数有59.37%可由 () 来说明,还-|||-有() 原因不详。
在相同或近似相同的时间点上收集的数据称为( )A. 观测数据B. 实验数据C. 时间序列数据D. 截面数据
名词解释(共5小题,共15.0分)31、差别阈限[1]
1.写出下列随机试验的样本空间:-|||-(1)投掷两颗均匀的骰子,记录点数之和;-|||-(2)射击一个目标,直至击中目标为止,记录射击次数;-|||-(3)设一个袋子中有4个白球和6个黑球,逐个取出,直至白球全部取出为止,记录取球-|||-次数;-|||-(4)往数轴上任意投掷两个质点,观察它们之间的距离.
热门问题
假定用于分析的数据包含属性age.数据元组[1]中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:A. 18.3B. 22。6C. 26。8D. 27。9
下列说法正确的是()A. 方差数值上等于各个数据与样本方差之差的平方和之平均数B. 协方差和方差的计算方式完全一致C. 协方差衡量了多个变量的分布D. 方差描述了样本数据的波动程度
{1.5分)确定研究总体和样本时,不需要考虑A. 立题依据B. 样本量C. 抽样方法D. 目标总体E. 纳入及排除标准
请你从下表中找出1~100中所有质数.并数一数一共多少个. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100
以下几种数据挖掘功能中,〔〕被广泛的用于购物篮分析.A. 关联分析B. 分类和预测C. 聚类分析D. 演变分析
{15分)常规情况下,下列不属于人口学变量的是A. 民族B. 收入C. 年龄D. 睡眠时间E. 性别
48皮尔逊相关系数的取值范围为0到正无穷。()A. 错误B. 正确
像从性不好的资料是()A. 由于死亡或者其他原因不能继续试验B. 能按照试验规定要求完成实验C. 重复参加试验D. 由于纳入标准不合格导致选择的研究对象不符合试验要求E. 能完成试验但是不能按照规定要求完成试验
下列哪项属于常见的池化方式。()A. 协方差池化B. 方差池化C. 反向传播D. 最大池化
重测信度用重测相关系数来表示,相关系数越趋近于下列哪一数值时,则重测信度越高A. 1B. 0.7C. 2D. 3
设随机变量XY都服从N(0,1),则有()A. X+Y服从正态分布B. X+Y服从x^2分布 C. X^2和Y^2都服从x^2分布 D. (X^2)div (Y^2)服从F分布
5.聚类分析可以看作是一种非监督的分类。()
皮尔逊相关系数的取值范围为0到正无穷。()A. 正确B. 错误
对研究对象制定明确的纳入标准和排除标准,是为了保证样本的A. 可靠性B. 可行性C. 代表性D. 合理性E. 科学性
下列关于回归分析的描述不正确的是()A. 回归分析模型可分为线性回归模型和非线性回归模型B. 回归分析研究不同变量之间存在的关系()C. 刻画不同变量之间关系的模型统称为线性回归模型D. 回归分析研究单个变量的变化情况
下列说法正确的是()A. 方差数值上等于各个数据与样本方差之差的平方和之平均数B. 协方差衡量了多个变量的分布C. 协方差和方差的计算方式完全一致D. 方差描述了样本数据的波动程度
44.2021年,我国人均预期寿命提高到了()。A. 78岁B. 79岁C. 78.2岁D. 79.2岁
下列哪项属于常见的池化方式。()A. 反向传播B. 最大池化C. 方差池化D. 协方差池化
可以从最小化每个类簇的方差这一视角来解释K均值聚类的结果,下面对这一视角描述正确的A. 每个样本数据分别归属于与其距离最远的聚类质心所在聚类集合B. 每个簇类的质心累加起来最小C. 最终聚类结果中每个聚类集合中所包含数据呈现出来差异性最大D. 每个簇类的方差累加起来最小
1. 名词解释 假设检验 (请在答题纸上手写并拍照上传)