第4章 抽样与抽样分布练习:4.1 一个具有个观察值的随机样本抽自于均值等于20、标准差等于16的总体。⑴ 给出的抽样分布(重复抽样)的均值和标准差⑵ 描述的抽样分布的形状。你的回答依赖于样本容量吗?⑶ 计算标准正态统计量对应于的值。⑷ 计算标准正态统计量对应于的值。(2)以组距为10进行等距分组,整理成频数分布表,并绘制直方图;(3)绘制茎叶图,并与直方图作比较。2.5 下面是北方某城市1~2月份各天气温的记录数据:-32-4-7-11-1789-6-7-14-18-15-9-6-15-4-9-3-6-8-12-16-19-15-22-25-24-19-21-8-6-15-11-12-19-25-24-18-17-24-14-22-13-9-6-15-4-9-3-32-4-4-16-175-6-5(1) 指出上面的数据属于什么类型;(2) 对上面的数据进行适当的分组;(3) 绘制直方图,说明该城市气温分布的特点。2.6 下面是某考试管理中心对2002年参加成人自学考试的12000名学生的年龄分组数据:年龄18~1921~2122~2425~2930~3435~3940~4445~59%1.934.734.117.26.42.71.81.2(1) 对这个年龄分布作直方图;(2) 从直方图分析成人自学考试人员年龄分布的特点。2.7 下面是A、B两个班学生的数学考试成绩数据:A班:4457596061616263636566666769707071727373737474747575757575767677777778787980808285858686909292929396B班:3539404444485152525455565657575758596061616263646668687070717173747479818283838485909191949596100100100(1) 将两个班的考试成绩用一个公共的茎制成茎叶图;(2) 比较两个班考试成绩分布的特点。2.8 1997年我国几个主要城市各月份的平均相对湿度数据如下表,试绘制箱线图,并分析各城市平均相对湿度的分布特征。月份北京长春南京郑州武汉广州成都昆明兰州西安149707657777279655167241687157758083654167347507768818081584974450397267758479614670555566863718375584158657547357748782724342769708274818684845862874798271738478745755968667167718175775565104759755372807876456511665982777872787153731256578265827582715272资料来源:《中国统计年鉴1998》,中国统计出版社1998,第10页。4.2 参考练习4.1求概率。⑴<16; ⑵>23; ⑶>25; ⑷.落在16和22之间; ⑸<14。4.3 一个具有个观察值的随机样本选自于、的总体。试求下列概率的近似值:4.4 一个具有个观察值的随机样本选自于和的总体。⑴ 你预计的最大值和最小值是什么?⑵ 你认为至多偏离多么远?⑶ 为了回答b你必须要知道吗?请解释。4.5 考虑一个包含的值等于0,1,2,…,97,98,99的总体。假设的取值的可能性是相同的。则运用计算机对下面的每一个值产生500个随机样本,并对于每一个样本计算。对于每一个样本容量,构造的500个值的相对频率直方图。当值增加时在直方图上会发生什么变化?存在什么相似性?这里和。4.6 美国汽车联合会(AAA)是一个拥有90个俱乐部的非营利联盟,它对其成员提供旅行、金融、保险以及与汽车相关的各项服务。1999年5月,AAA通过对会员调查得知一个4口之家出游中平均每日餐饮和住宿费用大约是213美元(《旅行新闻》Travel News,1999年5月11日)。假设这个花费的标准差是15美元,并且AAA所报道的平均每日消费是总体均值。又假设选取49个4口之家,并对其在1999年6月期间的旅行费用进行记录。⑴ 描述(样本家庭平均每日餐饮和住宿的消费)的抽样分布。特别说明服从怎样的分布以及的均值和方差是什么?证明你的回答;⑵ 对于样本家庭来说平均每日消费大于213美元的概率是什么?大于217美元的概率呢?在209美元和217美元之间的概率呢?4.7 技术人员对奶粉装袋过程进行了质量检验。每袋的平均重量标准为克、标准差为克。监控这一过程的技术人者每天随机地抽取36袋,并对每袋重量进行测量。现考虑这36袋奶粉所组成样本的平均重量。(1)描述的抽样分布,并给出和的值,以及概率分布的形状;(3) 假设某一天技术人员观察到,这是否意味着装袋过程出现问题了呢,为什么?4.8 在本章的统计实践中,某投资者考虑将1000美元投资于种不同的股票。每一种股票月收益率的均值为,标准差。对于这五种股票的投资组合,投资者每月的收益率是。投资者的每月收益率的方差是,它是投资者所面临风险的一个度量。⑴ 假如投资者将1000美元仅投资于这5种股票的其中3种,则这个投资者所面对的风险将会增加还是减少?请解释;⑵ 假设将1000美元投资在另外10种收益率与上述的完全一样的股票,试度量其风险,并与只投资5种股票的情形进行比较。4.9 某制造商为击剑运动员生产安全夹克,这些夹克是以剑锋刺入其中时所需的最小力量(以牛顿为单位)来定级的。如果生产工艺操作正确,则他生产的夹克级别应平均840牛顿,标准差15牛顿。国际击剑管理组织(FIE)希望这些夹克的最低级别不小于800牛顿。为了检查其生产过程是否正常,某检验人员从生产过程中抽取了50个夹克作为一个随机样本进行定级,并计算,即该样本中夹克级别的均值。她假设这个过程的标准差是固定的,但是担心级别均值可能已经发生变化。⑴ 如果该生产过程仍旧正常,则的样本分布为何?2.9 某百货公司6月份各天的销售额数据如下(单位:万元):(1)计算该百货公司日销售额的均值、中位数和四分位数;(2)计算日销售额的标准差。2.10 甲乙两个企业生产三种产品的单位成本和总成本资料如下:比较哪个企业的总平均成本高?并分析其原因。2.11 在某地区抽取的120家企业按利润额进行分组,结果如下:计算120家企业利润额的均值和标准差。2.12 为研究少年儿童的成长发育状况,某研究所的一位调查人员在某城市抽取100名7~17岁的少年儿童作为样本,另一位调查人员则抽取了1000名7~17岁的少年儿童作为样本。请回答下面的问题,并解释其原因。(1)哪一位调查研究人员在其所抽取的样本中得到的少年儿童的平均身高较大?或者这两组样本的平均身高相同?(2)哪一位调查研究人员在其所抽取的样本中得到的少年儿童身高的标准差较大?或者这两组样本的标准差相同?(3)哪一位调查研究人员有可能得到这1100名少年儿童的最高者或最低者?或者对两位调查研究人员来说,这种机会是相同的?2.13 一项关于大学生体重状况的研究发现,男生的平均体重为60公斤,标准差为5公斤;女生的平均体重为50公斤,标准差为5公斤。请回答下面的问题:(1)是男生的体重差异大还是女生的体重差异大?为什么?(2.以磅为单位(1公斤=2.2磅),求体重的平均数和标准差。⑵ 假设这个检验人员所抽取样本的级别均值为830牛顿,则如果生产过程正常的话,样本均值≤830牛顿的概率是多少?⑶ 在检验人员假定生产过程的标准差固定不变时,你对b部分有关当前生产过程的现状有何看法(即夹克级别均值是否仍为840牛顿)?⑷ 现在假设该生产过程的均值没有变化,但是过程的标准差从15牛顿增加到了45牛顿。在这种情况下的抽样分布是什么?当具有这种分布时,则≤830牛顿的概率是多少?4.10 在任何生产过程中,产品质量的波动都是不可避免的。产品质量的变化可被分成两类:由于特殊原因所引起的变化(例如,某一特定的机器),以及由于共同的原因所引起的变化(例如,产品的设计很差)。一个去除了质量变化的所有特殊原因的生产过程被称为是稳定的或者是在统计控制中的。剩余的变化只是简单的随机变化。假如随机变化太大,则管理部门不能接受,但只要消除变化的共同原因,便可减少变化(Deming,1982,1986;De Vor, Chang,和Sutherland,1992)。通常的做法是将产品质量的特征绘制到控制图上,然后观察这些数值随时间如何变动。例如,为了控制肥皂中碱的数量,可以每小时从生产线中随机地抽选块试验肥皂作为样本,并测量其碱的数量,不同时间的样本含碱量的均值描绘在下图中。假设这个过程是在统计控制中的,则的分布将具有过程的均值,标准差具有过程的标准差除以样本容量的平方根,。下面的控制图中水平线表示过程均值,两条线称为控制极限度,位于的上下3的位置。假如落在界限的外面,则有充分的理由说明目前存在变化的特殊原因,这个过程一定是失控的。当生产过程是在统计控制中时,肥皂试验样本中碱的百分比将服从和的近似的正态分布。⑴ 假设则上下控制极限应距离多么远?⑵ 假如这个过程是在控制中,则落在控制极限之外的概率是多少?⑶ 假设抽取样本之前,过程均值移动到,则由样本得出这个过程失控的(正确的)结论的概率是多少?4.11 参考练习4.10.肥皂公司决定设置比练习4.10中所述的这一限度更为严格的控制极限。特别地,当加工过程在控制中时,公司愿意接受落在控制极限外面的概率是0.10。⑴ 若公司仍想将控制极限度设在与均值的上下距离相等之处,并且仍计划在每小时的样本中使用个观察值,则控制极限应该设定在哪里?⑵ 假设a部分中的控制极限已付诸实施,但是公司不知道,现在是3%(而不是2%)。若,则落在控制极限外面的概率是多少?若呢?4.12 参考练习4.11。为了改进控制图的敏感性,有时将警戒线与控制极限一起画在图上。警戒限一般被设定为。假如有两个连续的数据点落在警戒限之外,则这个过程一定是失控的(蒙哥马利,1991年)。⑴ 假设肥皂加工过程是在控制中(即,它遵循和的正态分布),则的下一个值落在警戒限之外的概率是什么?⑵ 假设肥皂加工过程是在控制中,则你预料到画在控制图上的的这40个值中有多少个点落在上控制极限以上?⑶ 假设肥皂加工过程是在控制中,则的两个未来数值落在下警戒线以下的概率是多少?
设approx N(a,(sigma )^2),则approx N(a,(sigma )^2)服从的分布为( )A.approx N(a,(sigma )^2)B.approx N(a,(sigma )^2)C.approx N(a,(sigma )^2)D.approx N(a,(sigma )^2)
从一个正态总体中随机抽取容量为8的样本,各样本值分别为:10,8,12,15,6,13,5,11。求总体均值在95%的置信区间。(z0.025=1.96;t0.025(7)=2.3646)
1.已知随机变量 sim N(mu ,(sigma )^2) ,则随σ的增大, |X-mu |lt 30 () .-|||-(A)单调增加 (B)单调减少 (C)保持不变 (D)非单调变化
6 已知普通水稻单株产量服从正态分布,平均数 (mu )_(0)=250g ,标准差 (sigma )_(0)=2.78g 。现随机测得 10-|||-株杂交水稻单株产量分别为 272,200,268,247,267,246,363,216,206,256(g)。问该杂交-|||-水稻的单株产量与普通水稻是否有差异?
10、设X与Y相关系数为0.8,记 =-2X+0.5, 则Y与Z相关系数为
82系统抽样中在总体大小不能被样本量整除且不使用圆形抽样法时,会得到不同样本量大小的样本。A. 正确B. 错误
下列不属于兴利调节的基本原理的是()A. 概率论B. 水量平衡C. 数理统计D. 代表期法
12.设总体 approx N(mu ,1), 若X1,X2,···,Xn为来自总体X的样本,X为样本均值,则下-|||-列结论中不正确的是 () .-|||-A. sum _(i=1)^n(({X)_(i)-mu )}^2 服从x^2分布 B. (({X)_(n)-(X)_(1))}^2 服从x^2分布-|||-C. sum _(i=1)^n(({X)_(i)-overline (X))}^2 服从x^2分布 D. ((overline {X)-mu )}^2 服从x^2分布
违背基本假设的情况4.1 试举例说明产生异方差的原因。答:由于实际问题是错综负责的,因而在建立实际问题的回归分析模型时,经常会出现某一因素或一些因素随着解释变量[1]观测值的变化对被解释变量产生不同的影响,导致随机误差[2]项产生不同方差。引起异方差的原因很多,但样本数据为截面数据(微观数据)时容易出现异方差。例如:研究居民家庭的储蓄行为Yi=b0+b1Xi+其中:Yi表示第i个家庭的储蓄额,Xi表示第i个家庭的可支配收入。由于高收入家庭储蓄额的差异较大,低收入家庭的储蓄额则更有规律性,差异较小,所以的方差呈现单调递增型变化。4.2 异方差带来的后果有哪些?答:回归模型一旦出现异方差性,如果仍采用OLS估计模型参数,会产生下列不良后果:1)、参数估计量非有效2)、变量的显著性检验失去意义3)、回归方程的应用效果极不理想总的来说,当模型出现异方差性时,参数OLS估计值的变异程度增大,从而造成对Y的预测误差变大,降低预测精度,预测功能失效。4.3 简述用加权最小二乘法消除一元线性回归中异方差性的思想与方法。答:普通最小二乘估计就是寻找参数的估计值使离差平方和达极小。其中每个平方项的权数相同,是普通最小二乘回归参数估计方法。在误差项等方差不相关的条件下,普通最小二乘估计是回归参数的最小方差线性无偏估计。然而在异方差的条件下,平方和中的每一项的地位是不相同的,误差项的方差大的项,在残差平方和中的取值就偏大,作用就大,因而普通最小二乘估计的回归线就被拉向方差大的项,方差大的项的拟合程度就好,而方差小的项的拟合程度就差。由OLS求出的仍然是的无偏估计,但不再是最小方差线性无偏估计。所以就是:对较大的残差平方赋予较小的权数,对较小的残差平方赋予较大的权数。这样对残差所提供信息的重要程度作一番校正,以提高参数估计的精度。4.5(4.5)式一元加权最小二乘回归系数估计公式。 474.6验证(4.8)式多元加权最小二乘回归系数估计公式。 474.7 有同学认为当数据存在异方差时,加权最小二乘回归方程与普通最小二乘回归方程之间必然有很大的差异,异方差越严重,两者之间的差异就越大。你是否同意这位同学的观点?说明原因。 484.8 对例4.3的数据,用公式计算出加权变换残差,绘制加权变换残差图,根据绘制出的图形说明加权最小二乘估计的效果。 484.9 表4.12是用电高峰期每小时用电量y与每月总用电量x的数据。 491)用普通最小二乘法建立y与x的回归方程,并画出残差散点图; 502)诊断该问题是否存在异方差 513)如果存在异方差,用幂指数型的权函数建立加权最小二乘回 归方程 524)用方差稳定变换=消除异方差 534.10 试举一可能产生随机误差项序列相关的经济例子。 554.11 序列相关性带来的严重后果是什么? 554.12 结DW检验的优缺点。 564.13 表4.13为某软件公司月销售额数据,其中,x为总公司的月销售额(万元);y为某分公司的月销售额(万元)。 561)用普通最小二乘法建立y关于x的回归方程 572)用残差图及DW检验诊断序列的相关性 573)用迭代法处理序列相关,并建立回归方程 584)用一阶差分法处理数据,建立回归方程 605)比较普通最小二乘法所得回归方程和迭代法,一阶差分法所建立回归方程的优良性 614.14某乐队经理研究其乐队CD盘的销售额(y),两个有关的影响变量是每周演出场次 631)用普通最小二乘法建立y与和的回归方程,用残差图及DW检验诊断序列的自相性 642)用迭代法处理序列相关,建立回归方程 663)用一阶差分法处理序列相关,建立回归方程 664)用最大似然法处理序列相关,建立回归方程 675)用科克伦-奥克特迭代法处理序列相关,建立回归方程 686)用普莱斯-温斯登迭代法处理序列相关,建立回归方程 684.4简述用加权最小二乘法消除多元线性回归中异方差性的思想与方法。答:加权最小二乘估计的方法是在平方和加入一个适当的权数,以调整各项在平方和中的作用。一元线性回归的加权最小二乘的离差平方和为:其中,为给定的第i个观测值的权数。加权最小二乘估计就是寻找参数的估计值,使得上述离差平方和达到极小。如果所有的权数都相等,则都等于某个常数,此时问题就成为了普通最小二乘法。可以证明最小二乘估计为:加权最小二乘估计的计算可以用SPSS软件完成。有关权数的确定:(1)为了使离差平方和中各项的地位相同,观测值的权数应该是观测值误差项方差的倒数,即:(2)在实际问题的研究中,误差项的方差通常是未知的,但是误差项方差随自变量水平以系统的形式变化时,我们可以利用这种关系。如,已知误差项方差与成比例,那么=k,其中k为比例系数。权数为:=1/(k),因为比例系数k在参数估计中可以消去,所以我们可以直接使用权数:=1/(3)在社会,经济研究中,经常会遇到这种特殊的权数,即误差项方差与x的幂函数成比例,其中,m为待定的未知数。此时的权函数为:=1/4.5(4.5)式一元加权最小二乘回归系数估计公式。证明:4.6验证(4.8)式多元加权最小二乘回归系数估计公式。证明:对于多元线性回归模型 (1),即存在异方差。设,用左乘(1)式两边,得到一个新的的模型:,即。因为,故新的模型具有同方差性,故可以用广义最小二乘法估计该模型,得原式得证。4.7 有同学认为当数据存在异方差时,加权最小二乘回归方程与普通最小二乘回归方程之间必然有很大的差异,异方差越严重,两者之间的差异就越大。你是否同意这位同学的观点?说明原因。答:不同意。当回归模型存在异方差时,加权最小二乘估计(WLS)只是普通最小二乘估计(OLS)的改进,这种改进可能是细微的,不能理解为WLS一定会得到与OLS截然不同的方程来,或者大幅度的改进。实际上可以构造这样的数据,回归模型存在很强的异方差,但WLS 与OLS的结果一样。加权最小二乘法不会消除异方差,只是消除异方差的不良影响,从而对模型进行一点改进。4.8 对例4.3的数据,用公式计算出加权变换残差,绘制加权变换残差图,根据绘制出的图形说明加权最小二乘估计的效果。
热门问题
设随机变量XY都服从N(0,1),则有()A. X+Y服从正态分布B. X+Y服从x^2分布 C. X^2和Y^2都服从x^2分布 D. (X^2)div (Y^2)服从F分布
下列哪项属于常见的池化方式。()A. 反向传播B. 最大池化C. 方差池化D. 协方差池化
假定用于分析的数据包含属性age.数据元组[1]中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:A. 18.3B. 22。6C. 26。8D. 27。9
48皮尔逊相关系数的取值范围为0到正无穷。()A. 错误B. 正确
皮尔逊相关系数的取值范围为0到正无穷。()A. 正确B. 错误
像从性不好的资料是()A. 由于死亡或者其他原因不能继续试验B. 能按照试验规定要求完成实验C. 重复参加试验D. 由于纳入标准不合格导致选择的研究对象不符合试验要求E. 能完成试验但是不能按照规定要求完成试验
下列关于回归分析的描述不正确的是()A. 回归分析模型可分为线性回归模型和非线性回归模型B. 回归分析研究不同变量之间存在的关系()C. 刻画不同变量之间关系的模型统称为线性回归模型D. 回归分析研究单个变量的变化情况
44.2021年,我国人均预期寿命提高到了()。A. 78岁B. 79岁C. 78.2岁D. 79.2岁
5.聚类分析可以看作是一种非监督的分类。()
下列哪项属于常见的池化方式。()A. 协方差池化B. 方差池化C. 反向传播D. 最大池化
对研究对象制定明确的纳入标准和排除标准,是为了保证样本的A. 可靠性B. 可行性C. 代表性D. 合理性E. 科学性
下列说法正确的是()A. 方差数值上等于各个数据与样本方差之差的平方和之平均数B. 协方差衡量了多个变量的分布C. 协方差和方差的计算方式完全一致D. 方差描述了样本数据的波动程度
可以从最小化每个类簇的方差这一视角来解释K均值聚类的结果,下面对这一视角描述正确的A. 每个样本数据分别归属于与其距离最远的聚类质心所在聚类集合B. 每个簇类的质心累加起来最小C. 最终聚类结果中每个聚类集合中所包含数据呈现出来差异性最大D. 每个簇类的方差累加起来最小
{1.5分)确定研究总体和样本时,不需要考虑A. 立题依据B. 样本量C. 抽样方法D. 目标总体E. 纳入及排除标准
下列说法正确的是()A. 方差数值上等于各个数据与样本方差之差的平方和之平均数B. 协方差和方差的计算方式完全一致C. 协方差衡量了多个变量的分布D. 方差描述了样本数据的波动程度
{15分)常规情况下,下列不属于人口学变量的是A. 民族B. 收入C. 年龄D. 睡眠时间E. 性别
请你从下表中找出1~100中所有质数.并数一数一共多少个. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100
以下几种数据挖掘功能中,〔〕被广泛的用于购物篮分析.A. 关联分析B. 分类和预测C. 聚类分析D. 演变分析
1. 名词解释 假设检验 (请在答题纸上手写并拍照上传)
重测信度用重测相关系数来表示,相关系数越趋近于下列哪一数值时,则重测信度越高A. 1B. 0.7C. 2D. 3