在总体分布未知或所知甚少的情况下,利用样本数据对总体分布形态等进行推导,是一种参数检验方法;
第七章练习题选择题7.1.在线性回归模型._(i)=(P)_(1)+(P)_(2)(X)_(i)+(C)_(i)中,._(i)=(P)_(1)+(P)_(2)(X)_(i)+(C)_(i)反映的是( )A. X变动一个单位时Y的实际变动量 B. 由于Y的变化引起的X的线性变化部分 C. X变动一个单位时Y的平均变动量 D. Y变动一个单位时X的平均变动量 E. ) F. 7.2在回归模型._(i)=(P)_(1)+(P)_(2)(X)_(i)+(C)_(i)中,._(i)=(P)_(1)+(P)_(2)(X)_(i)+(C)_(i)反映的是( ) G. 由于x的变化引起的Y的线性变化部分由于Y的变化引起的X的线性变化部分除了X和Y的线性关系之外的其他因素对Y的影响由于X和Y的线性关系对Y的影响)7.3在用普通最小二乘法估计模型中参数时,要求模型满足一些基本假定,根本原因是( )为了使回归方程更为简化,便于计算模型参数的估计值为了便于确定所估计参数的均值为了使估计的参数具有良好的统计性质,得出最佳线性无偏估计。为了使因变量更容易控制,保证因变量和自变量有稳定的相关性)7.4在多元线性回归中,计算了可决系数后还要计算修正的可决系数,这是为了( )可决系数的计算不很准确,需要加以修正。便于比较自变量个数不同的模型的拟合程度。为了使其与F检验结论一致。为了不损失模型的自由度。)7.5利用回归模型作区间预测时, 因变量的预测区间的宽度( )。随自变量X 的值增大而增大随自变量X 的值增大而缩小在._(i)=(P)_(1)+(P)_(2)(X)_(i)+(C)_(i)处最小在._(i)=(P)_(1)+(P)_(2)(X)_(i)+(C)_(i) 处最大)判断题7.1样本容量为n=35,作两个回归模型:模型1:._(i)=(P)_(1)+(P)_(2)(X)_(i)+(C)_(i),可决系数为._(i)=(P)_(1)+(P)_(2)(X)_(i)+(C)_(i)0.8850;模型2:._(i)=(P)_(1)+(P)_(2)(X)_(i)+(C)_(i),可决系数为._(i)=(P)_(1)+(P)_(2)(X)_(i)+(C)_(i)0.9012。因为模型2的可决系数大于模型1 ,所以模型2比模型1的拟合优度更好。判断:( )参考答:判断:(错)原因:由于在样本容量一定的条件下,总离差平方和与自变量的个数无关,而残差平方和会随着模型中自变量个数的增加而减少,至少不会增加。也就是说,随着模型中自变量的增加,多重可决系数._(i)=(P)_(1)+(P)_(2)(X)_(i)+(C)_(i)会随着自变量个数增加而增大。因此,多元线性回归模型中,在比较因变量相同而自变量个数不同的模型的拟合程度时,不能简单地对比多重可决系数。在样本容量一定的情况下,增加自变量必定使得待估参数的个数增加,从而损失自由度;而且在实际应用中,有时所增加的自变量并非必要。为此,需要用自由度去修正多重可决系数._(i)=(P)_(1)+(P)_(2)(X)_(i)+(C)_(i)中的残差平方和与回归平方和,引入修正的可决系数。7.2在回归模型参数估计方法的基本假定中,涉及对随机误差项._(i)=(P)_(1)+(P)_(2)(X)_(i)+(C)_(i)分布性质的假定,但是随机误差项._(i)=(P)_(1)+(P)_(2)(X)_(i)+(C)_(i)是未知的,在具体作回归分时不必考虑其分布。判断:( )参考答:判断:( 错 )原因: ①只有具备一定的假定条件,对模型所作出的估计才可能具有良好的统计性质,所估计的参数才能"尽可能地接近"(即"尽可能准确地估计")参数的真实值。在普通最小二乘估计的统计性质的证明中,基本假定中关于随机误差项._(i)=(P)_(1)+(P)_(2)(X)_(i)+(C)_(i)的分布性质是必备的条件。也就是说如果基本假定不成立,参数估计的无偏性、有效性或者一致性也就不一定成立。通过对高斯定理的数学证明能深刻体会到。②因为模型中有随机扰动项,所估计的参数也是随机变量,显然参数估计量的分布与随机扰动项的分布有关,只有对随机扰动项的分布作出某些假定,才能比较方便地确定参数估计量的分布性质,才可能在此基础上去对参数进行假设检验和区间估计等统计推断,也才可能对因变量作区间预测。7.3回归模型参数估计方法的基本假定主要应用于数学证明,在具体作回归分时不必考虑基本假定。判断:( )参考答:判断:( 错 )原因: ①只有具备一定的假定条件,对模型所作出的估计才可能具有良好的统计性质。所估计的参数才能"尽可能地接近"(即"尽可能准确地估计")参数的真实值。在普通最小二乘估计的统计性质的证明中,基本假定是必备的条件。也就是说如果基本假定不成立,参数估计的无偏性、有效性或者一致性也就不一定成立。通过对高斯定理的数学证明能深刻体会到。②因为模型中有随机扰动项,所估计的参数也是随机变量,显然参数估计量的分布与随机扰动项的分布有关,只有对随机扰动项的分布作出某些假定,才能比较方便地确定参数估计量的分布性质,才可能在此基础上去对参数进行假设检验和区间估计等统计推断,也才可能对因变量作区间预测。Y作区间预测,可以得到可靠的预测结果。判断:( )参考答:判断(错)原因:利用回归模型对自变量的预测区间不是常数。预测区间的上下限与以下因素有关:因为预测区间是 ._(i)=(P)_(1)+(P)_(2)(X)_(i)+(C)_(i)①样本容量n越小,预测区间将越大,②样本容量越小,._(i)=(P)_(1)+(P)_(2)(X)_(i)+(C)_(i)也越小,预测区间则越大;③随._(i)=(P)_(1)+(P)_(2)(X)_(i)+(C)_(i)的变化而变化,当._(i)=(P)_(1)+(P)_(2)(X)_(i)+(C)_(i)时,预测区间最小,随着._(i)=(P)_(1)+(P)_(2)(X)_(i)+(C)_(i)对._(i)=(P)_(1)+(P)_(2)(X)_(i)+(C)_(i)的愈加偏离,预测区间将愈宽。本例中,2000年—2010年样本容量为n=11;._(i)=(P)_(1)+(P)_(2)(X)_(i)+(C)_(i)=6,预测期2020年的序号21,._(i)=(P)_(1)+(P)_(2)(X)_(i)+(C)_(i)=21-6=15。本例中样本容量较小,预测区间较大;此外,本例的预测期偏离样本期的._(i)=(P)_(1)+(P)_(2)(X)_(i)+(C)_(i)过远,._(i)=(P)_(1)+(P)_(2)(X)_(i)+(C)_(i)较大,此时预测区间将会很宽,预测的可靠性会非常低。检验与t 检验是两种完全不同的检验,在一元回归分._(i)=(P)_(1)+(P)_(2)(X)_(i)+(C)_(i)中,对模型的F检验已得到F=155.11,P值为3.66E-13,为了检验自变量._(i)=(P)_(1)+(P)_(2)(X)_(i)+(C)_(i)的显著性,还必须作t检验。判断( )参考答案:判断(错)检验。事实上,在一元回归情形下容易证明F=t2,F检验与t检验是等价的。所以已经有F检验显著的结论,就不是必须再作t 检验。7.6 一项对多个国家心脏病死亡率与市场葡萄酒销售量回归分的研究表明,市场葡萄酒销售量上升有助于降低心脏病死亡率,这就是说每个人只要多喝葡萄酒就都会降低心脏病死亡的风险。判断( )参考答案:判断(错)原因:回归分的本质是关于一个变量(因变量)对另一个或另外多个变量(自变量)依存关系的研究,是用适当的回归模型去近似地表达或估计变量之间的平均变化关系,也就是要根据自变量的固定值去估计和预测因变量的平均值。虽然从平均意义上说,市场葡萄酒销售量上升有利于有助于降低心脏病死亡率,但是并不是对每个个人都是这样。
21判断任何一个随机变量的分布函数都是单调不减函数A. sqrt B. times
18.判断题(1分)利用F检验进行回归方程的检验时,原假设为两变量间存在显著的线性关系。()
关于总体均值的检验 H_0: mu = mu_0, H_1: mu A. t geq t_alpha(n-1)B. t leq -t_alpha(n-1)C. |t| geq t_alpha(n-1)D. |t| leq t_alpha(n-1)
21. (10分)某个计算机系统有120个终端,每个终端有10%的时间要与主机交换数据,如果同一时刻有超过20台的终端要与主机交换数据,系统将发生数据传送堵塞.假设各终端工作是相互独立的,用中心极限定理求系统发生堵塞现象的概率.参考数据如下:(sqrt(10.8)approx 3.29,Phi(2.43)=0.9925)(完)
3、设某机器生产的零件长度(单位:cm)Xsim N(mu,sigma^2),今抽取容量为16的样本,测得样本均值overline(x)=10,样本方差s^2=0.16.(1)求mu的置信度为0.95的置信区间;(2)检验假设H_(0):sigma^2leq0.1(显著性水平为0.05).(附注)t_(0.05)(16)=1.746,t_(0.05)(15)=1.753,t_(0.025)(15)=2.132,X_(0.05)^2(16)=26.296,X_(0.05)^2(15)=24.996,X_(0.025)^2(15)=27.488.
阅读下面的材料,完成下面小题。 材料一: 根据美国国家科学基金会(NSF)统计的数据,中国的科学出版物总数首次超过美国,跃居世界第一。但值得注意的是,2003年中国科技论文发文量还在印度之下,不足美国的三分之一。 衡量一国科研实力的强弱不能仅看“数量”。国际权威机构“自然指数”(NatureIndex)称:“中国虽然生产最多的科技论文,但在其他措施上滞后。” 数据显示,2007年至2017年间,中国撤稿总量为2319篇,位居第一。撤稿本是正常现象。作者无法按照审稿意见修改、期刊出版时滞长、论文不在作者预期的时间内发表等都是撤稿的正当理由。但在中国,国际期刊撤稿总能在学界掀起打假的风暴,因为学术不端是中国学者“被撤稿”的主要原因。 (摘编自网易数读《发文大国,也是撤稿大国》2018年6月22曰) 材料二: -2017 年多国科技论文发文数量及被引频率图-|||-4000000 Luoadan 20-|||-3500000 16.15 14-|||-3000000-|||-2500000 20582-|||-2000000-|||-1500000 9.4 8-|||-1061626 1005277 1422-|||-1000000 518495 6-|||-500000 2-|||-o __ 0-|||-中国 美国 英国 德国 日本 印度-|||-一说文数量一 改引频率 -2017 年多国科技论文发文数量及被引频率图-|||-4000000 Luoadan 20-|||-3500000 16.15 14-|||-3000000-|||-2500000 20582-|||-2000000-|||-1500000 9.4 8-|||-1061626 1005277 1422-|||-1000000 518495 6-|||-500000 2-|||-o __ 0-|||-中国 美国 英国 德国 日本 印度-|||-一说文数量一 改引频率 (注)文献他引率是衡量文献重要程度、影响力大小的指标,在一定程度上可以反映一国学术质量。 (摘编自网易数读《发文大国,也是撤稿大国》2018年6月22曰) 材料三: 为什么学术不端在中国屡禁不绝?清华大学物理系朱邦芬院士认为,在中国科技界,戴着人才“帽子”的和没戴上“帽子”的待遇悬殊;对科研人员重复奖励或重奖等都诱使科研人员快出成果;再加上学术不端行为的风险与“收获”极不相称,所以才有不少人对此趋之若鹜。其实,每个国家都存在学术不端行为,然而对中国来说,严重的问题在于对严重学术不端的重大典型案例调查不彻底、处理极轻。 中科院上海生命科学研究院的裴钢院士指出:“在惩治学术造假上,打一只(影响大的)老虎比打100只苍蝇的效果更明显。欧美以及日韩等国在面对此类突发性重大科技事件方面的做法和经验值得借鉴。2012年,时任匈牙利总统的施米特.帕尔因20年前的博士论文抄袭被查实而被迫辞职。2014年,小保方晴子因在论文中存在篡改、捏造等造假问题,被日本理化所开除并被要求退还科研经费、人工费以及验证试验费。” (摘编自科技曰报《惩治学术造假,打一“虎”胜过拍百只“苍蝇”》) 材料四: 爱沙尼亚:爱沙尼亚全国高校系统自2013年起,在全国高校和学术界全面引进了软件“剽窃侦测系统”,其主要目的是防止而不是侦测剽窃行为。 美国:设立“研究诚信办公室”负责处理学术不端行为。该办公室的经验表明,调查、处理学术腐败,不能只靠科学界和科学家的自律,必须要有完善的法律手段做后盾。 新西兰:以梅西大学为例,本科生的毕业论文和毕业设计会连同指导教师的姓名公布在网上,一旦发现论文有剽窃嫌疑,根据程度不同,指导教师将承担连带责任。 英国:鉴于2017-2018学年牛津大学学生学术剽窃事件数量创下纪录,校方开设专门课程,指导学生正确引用参考文献,避免“非故意”剽窃。 (摘编自环球网《严打学术造假,其他国家有这些妙招!》2019年2月14曰)【小题1】下列对材料一、二的理解与分析正确的一项是 A.相比2003年,2007年到2017年,我国科技论文发文总量有了较大突破,位列六国中的第二位,说明我国的学术质量有了较大幅度的提升。 B.虽然2018年我国科学出版物总数首次超过美国,跃居世界第一,但是在科技论文被引频率上,美国几乎是我国的2倍。 C.11年间,我国的科技论文总量几乎是印度的4倍,且被引频率高于印度,说明我们国家的科研实力完全超越了印度。 D.11年间,无论从科技论文的发表总量、被引频率,还是从撤稿总量和千篇撤稿发文比来看,英国都要优于德国。 【小题2】下列对材料相关内容的概括和分析,正确的一项是 A.中国学术不端事件屡禁不止的原因是多方面的,其中待遇差距悬殊是重要原因之一,因此想要杜绝这种情国况,可以缩小待遇差距。 B.对待学术不端行为,中国存在调查不彻底,处理极轻的现象,使得造假者“收获”与“风险”不相称,因此使大家都对造假行为趋之若鹜。 C.多国在学术造假问题上都采取了一定的措施,从材料看,爱沙尼亚和英国的措施强调预防,新西兰则强调超惩戒,美国预防与惩戒并举。 D.作者认为,打“苍蝇”的效果并不理想,惩治学术造假问题可以借鉴国外经验,要打“大虎”,并且要狠打,加大对学术不端行为的惩处力度。 【小题3】除了个人与科学界加强自律以外,怎样有效遏制学术不端的行为?请结合材料谈谈你的看法。
某乡有人口2万人约5000户,欲以户为单位抽取其中500户进行某病的调查。如采用系统抽样则间隔的户数是A. 20B. 10C. 5D. 2E. 不能计算
9.已知某机器生产的零件长度X(单位:cm)服从正态分布N(μ,σ^2),现从中随意抽取-|||-容量为16的一个样本,测得样本均值 overline (x)=10, 样本方差 ^2=0.16.-|||-(1)求总体均值μ的置信度为0.95的置信区间;-|||-(2)在显著性水平为0.05下检验假设 _(0):mu =9.7 _(1):mu neq 9.7.
热门问题
假定用于分析的数据包含属性age.数据元组[1]中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:A. 18.3B. 22。6C. 26。8D. 27。9
44.2021年,我国人均预期寿命提高到了()。A. 78岁B. 79岁C. 78.2岁D. 79.2岁
对研究对象制定明确的纳入标准和排除标准,是为了保证样本的A. 可靠性B. 可行性C. 代表性D. 合理性E. 科学性
下列关于回归分析的描述不正确的是()A. 回归分析模型可分为线性回归模型和非线性回归模型B. 回归分析研究不同变量之间存在的关系()C. 刻画不同变量之间关系的模型统称为线性回归模型D. 回归分析研究单个变量的变化情况
重测信度用重测相关系数来表示,相关系数越趋近于下列哪一数值时,则重测信度越高A. 1B. 0.7C. 2D. 3
下列说法正确的是()A. 方差数值上等于各个数据与样本方差之差的平方和之平均数B. 协方差和方差的计算方式完全一致C. 协方差衡量了多个变量的分布D. 方差描述了样本数据的波动程度
设随机变量XY都服从N(0,1),则有()A. X+Y服从正态分布B. X+Y服从x^2分布 C. X^2和Y^2都服从x^2分布 D. (X^2)div (Y^2)服从F分布
{15分)常规情况下,下列不属于人口学变量的是A. 民族B. 收入C. 年龄D. 睡眠时间E. 性别
请你从下表中找出1~100中所有质数.并数一数一共多少个. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100
5.聚类分析可以看作是一种非监督的分类。()
像从性不好的资料是()A. 由于死亡或者其他原因不能继续试验B. 能按照试验规定要求完成实验C. 重复参加试验D. 由于纳入标准不合格导致选择的研究对象不符合试验要求E. 能完成试验但是不能按照规定要求完成试验
下列哪项属于常见的池化方式。()A. 协方差池化B. 方差池化C. 反向传播D. 最大池化
{1.5分)确定研究总体和样本时,不需要考虑A. 立题依据B. 样本量C. 抽样方法D. 目标总体E. 纳入及排除标准
下列哪项属于常见的池化方式。()A. 反向传播B. 最大池化C. 方差池化D. 协方差池化
皮尔逊相关系数的取值范围为0到正无穷。()A. 正确B. 错误
以下几种数据挖掘功能中,〔〕被广泛的用于购物篮分析.A. 关联分析B. 分类和预测C. 聚类分析D. 演变分析
可以从最小化每个类簇的方差这一视角来解释K均值聚类的结果,下面对这一视角描述正确的A. 每个样本数据分别归属于与其距离最远的聚类质心所在聚类集合B. 每个簇类的质心累加起来最小C. 最终聚类结果中每个聚类集合中所包含数据呈现出来差异性最大D. 每个簇类的方差累加起来最小
48皮尔逊相关系数的取值范围为0到正无穷。()A. 错误B. 正确
下列说法正确的是()A. 方差数值上等于各个数据与样本方差之差的平方和之平均数B. 协方差衡量了多个变量的分布C. 协方差和方差的计算方式完全一致D. 方差描述了样本数据的波动程度
1. 名词解释 假设检验 (请在答题纸上手写并拍照上传)