logo
  • write-homewrite-home-active首页
  • icon-chaticon-chat-activeAI 智能助手
  • icon-pluginicon-plugin-active浏览器插件
  • icon-subjecticon-subject-active学科题目
  • icon-uploadicon-upload-active上传题库
  • icon-appicon-app-active手机APP
首页
/
统计
题目

25、35、70。(f) 画出数据的盒图。略。(g) 分位数—分位数图与分位数图的不同之处是什么?分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变量的粗略百分比。这样,他可以展示所有数的分位数信息,而为独立变量测得的值(纵轴)相对于它们的分位数(横轴)被描绘出来。但分位数—分位数图用纵轴表示一种单变量分布的分位数,用横轴表示另一单变量分布的分位数。两个坐标轴显示它们的测量值相应分布的值域,且点按照两种分布分位数值展示。一条线(y=x)可画到图中,以增加图像的信息。落在该线以上的点表示在y 轴上显示的值的分布比x 轴的相应的等同分位数对应的值的分布高。反之,对落在该线以下的点则低。2.3设给定的数据集已经分组到区间。这些区间和对应频率如下所示:A. ge frequency B. 1-5 200 C. 6-15 450 D. 16-20 300 E. 21-50 1500 F. 51-80 700 G. 80-110 44计算该数据的近似中位数。2.4假设医院对18个随机挑选的成年人检查年龄和身体肥胖,得到如下结果:ge 23 23 27 27 39 41 47 49 50at 9.5 26.5 7.8 17.8 31.4 25.9 27.4 27.2 31.2ge 52 54 54 56 57 58 58 60 61at 34.6 42.5 28.8 33.4 30.2 34.1 32.9 41.2 35.7计算age和%fat的均值,中位数和标准差。绘制age和%fat的盒图。绘制基于这两个变量的散点图和q-q图。age的平均值-|||-l (23+23+27+27+39+41+47+45+50+52+54+504+56+57+58+58+50-|||-+61/8-|||-=46.44-|||-%fat的平均值-|||-+33.4+30.2+34.1+32.9+41.2+35.7)/18-|||-=28.78-|||-age的中位数是50和52的平均值是51-|||-%fat的中位数是28.8和30.2的平均值是29.5age的平均值-|||-l (23+23+27+27+39+41+47+45+50+52+54+504+56+57+58+58+50-|||-+61/8-|||-=46.44-|||-%fat的平均值-|||-+33.4+30.2+34.1+32.9+41.2+35.7)/18-|||-=28.78-|||-age的中位数是50和52的平均值是51-|||-%fat的中位数是28.8和30.2的平均值是29.5age的平均值-|||-l (23+23+27+27+39+41+47+45+50+52+54+504+56+57+58+58+50-|||-+61/8-|||-=46.44-|||-%fat的平均值-|||-+33.4+30.2+34.1+32.9+41.2+35.7)/18-|||-=28.78-|||-age的中位数是50和52的平均值是51-|||-%fat的中位数是28.8和30.2的平均值是29.5age的平均值-|||-l (23+23+27+27+39+41+47+45+50+52+54+504+56+57+58+58+50-|||-+61/8-|||-=46.44-|||-%fat的平均值-|||-+33.4+30.2+34.1+32.9+41.2+35.7)/18-|||-=28.78-|||-age的中位数是50和52的平均值是51-|||-%fat的中位数是28.8和30.2的平均值是29.5三ge包括如下值(以递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.使用蒌3的箱,用箱均值光滑以上数据。说明你的步骤,讨论这种技术对缎带定数据的效果。如何确定该数据中的离群点?还有什么其他方法来光滑数据?使用分箱均值光滑对以上数据进行光滑,箱的深度为3。解释你的步骤。评述对于给定的数据,该技术的效果。用箱深度为3 的分箱均值光滑对以上数据进行光滑需要以下步骤:? 步骤1:对数据排序。(因为数据已被排序,所以此时不需要该步骤。)? 步骤2:将数据划分到大小为3 的等频箱中。箱1:13,15,16 箱2:16,19,20 箱3:20,21,22箱4:22,25,25 箱5:25,25,30 箱6:33,33,35箱7:35,35,35 箱8:36,40,45 箱9:46,52,70? 步骤3:计算每个等频箱的算数均值。? 步骤4:用各箱计算出的算数均值替换每箱中的每个值。箱1:44/3,44/3,44/3 箱2:55/3,55/3,55/3 箱3:21,21,21箱4:24,24,24 箱5:80/3,80/3,80/3 箱6:101/3,101/3,101/3箱7:35,35,35 箱8:121/3,121/3,121/3 箱9:56,56,56如何确定数据中的离群点?聚类的方法可用来将相似的点分成组或“簇”,并检测离群点。落到簇的集外的值可以被视为离群点。作为选择,一种人机结合的检测可被采用,而计算机用一种事先决定的数据分布来区分可能的离群点。这些可能的离群点能被用人工轻松的检验,而不必检查整个数据集。对于数据光滑,还有哪些其他方法?其它可用来数据光滑的方法包括别的分箱光滑方法,如中位数光滑和箱边界光滑。作为选择,等宽箱可被用来执行任何分箱方式,其中每个箱中的数据范围均是常量。除了分箱方法外,可以使用回归技术拟合成函数来光滑数据,如通过线性或多线性回归。分类技术也能被用来对概念分层,这是通过将低级概念上卷到高级概念来光滑数据。3.5如下规范化方法的值域是什么?最小-最大规范化Z分数规范化。Z分数规范化,使用均值绝对念头而不是标准差。小数定标规范化。min-max 规范化。[new_min, new_max]。z-score 规范化。[(old_min-mean)/σ,(old_max-mean)/σ],总的来说,对于所有可能的数据集的值域是(-∞,+∞)。小数定标规范化。值域是(-1.0,1.0)。3.6使用如下方法规范化如下数据组:200,300,400,600,1000min=0,max=1,最小-最大规范化。Z分数规范化。Z分数规范化,使用均值绝对偏差而不是标准差。小数定标规范化。min-max 规范化。[new_min, new_max]。z-score 规范化。[(old_min-mean)/σ,(old_max-mean)/σ],总的来说,对于所有可能的数据集的值域是(-∞,+∞)。小数定标规范化。值域是(-1.0,1.0)。4.1试述对于多个异构信息源的集成,为什么许多公司更愿意使用更 新驱动的方法(构造和使用数据仓库),而不是查询驱动的方法(使用包装程序和集成程序)。描述一些查询驱动方法比更 新驱动方法更可取的情况。答: 因为对于多个异种, 查询驱动方法需要复杂的信息过滤和集成处理, 并且与局部数据源上的处理竞争资源,是一种低效的方法,并且对于频繁的查询,特别是需 要聚集操作的查询,开销很大。而更新驱动方法为集成的异种数据库系统带来了高性能,因 为数据被处理和重新组织到一个语义一致的数据存储中, 进行查询的同时并不影响局部数据 源上进行的处理。此外,数据仓库存储并集成历史信息,支持复杂的多维查询。4.2简略比较以下概念,可以用例子解释你的观点。雪花模式、事实星座、星网查询模型。数据清理、数据变换、刷新。发现驱动的立方体、多特征冷言冷语腐朽 、虚拟仓库雪花形模式、事实星座形、星形网查询模型。 答:雪花形和事实星形模式都是变形的星形模式,都是由事实表和维表组成,雪花形模式的维表都是规范化的;而事实星座形的某几个事实表可能会共享一些维表;星形网查询模型是一个查询模型而不是模式模型,它是由中心点发出的涉嫌组成,其中每一条射线代表一个维的概念分层。数据清理、数据变换、刷新 答:数据清理是指检测数据中的错误,可能时订正它们;数据变换是将数据由遗产或宿主格式转换成数据仓库格式;刷新是指传播由数据源到数据仓库的更新。te,spectator,location,game,2个度量——count和charge,其中charge是观众在给定的日期观看节目的费用。观众可以是学生、成年人或老年人,每类观众有不同的收费标准。画出该数据仓库的星形模式图[date,spectator,location,game]开始,为列出2010年学生观众在GM_place的总付费,应当执行哪些OLAP操作?对于数据仓库,位图是有用的。以该数据立方体为例,简略讨论使用位图索引结构的优点和问题。priori算法使用子集支持度性质的先验知识。证明频繁项集的所有非空子集一定也是频繁的。证明项集s的任意非空子集s’的支持度至少与s的支持度一样大。给定频繁项集l和l的子集s,证明规则“s=>l(s’)”的置信度不可能大于“s=>l(s)”的置信度。其中,s’是s的子集priori算法的一种变形将事务数据库D中的事务划分成n个不重叠的分区。证明在D中频繁的项集至少在D的一个分区中是频繁的。

25、35、70。

(f) 画出数据的盒图。

略。

(g) 分位数—分位数图与分位数图的不同之处是什么?

分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变

量的粗略百分比。这样,他可以展示所有数的分位数信息,而为独立变量测得的

值(纵轴)相对于它们的分位数(横轴)被描绘出来。

但分位数—分位数图用纵轴表示一种单变量分布的分位数,用横轴表示另一

单变量分布的分位数。两个坐标轴显示它们的测量值相应分布的值域,且点按照

两种分布分位数值展示。一条线(y=x)可画到图中,以增加图像的信息。落在

该线以上的点表示在y 轴上显示的值的分布比x 轴的相应的等同分位数对应的值

的分布高。反之,对落在该线以下的点则低。

2.3设给定的数据集已经分组到区间。这些区间和对应频率如下所示:

A. ge frequency
B. 1-5 200
C. 6-15 450
D. 16-20 300
E. 21-50 1500
F. 51-80 700
G. 80-110 44
计算该数据的近似中位数。
2.4假设医院对18个随机挑选的成年人检查年龄和身体肥胖,得到如下结果:
ge 23 23 27 27 39 41 47 49 50
at 9.5 26.5 7.8 17.8 31.4 25.9 27.4 27.2 31.2
ge 52 54 54 56 57 58 58 60 61
at 34.6 42.5 28.8 33.4 30.2 34.1 32.9 41.2 35.7
计算age和%fat的均值,中位数和标准差。
绘制age和%fat的盒图。
绘制基于这两个变量的散点图和q-q图。

三
ge包括如下值(以递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.
使用蒌3的箱,用箱均值光滑以上数据。说明你的步骤,讨论这种技术对缎带定数据的效果。
如何确定该数据中的离群点?
还有什么其他方法来光滑数据?
使用分箱均值光滑对以上数据进行光滑,箱的深度为3。解释你的步骤。
评述对于给定的数据,该技术的效果。
用箱深度为3 的分箱均值光滑对以上数据进行光滑需要以下步骤:
? 步骤1:对数据排序。(因为数据已被排序,所以此时不需要该步骤。)
? 步骤2:将数据划分到大小为3 的等频箱中。
箱1:13,15,16 箱2:16,19,20 箱3:20,21,22
箱4:22,25,25 箱5:25,25,30 箱6:33,33,35
箱7:35,35,35 箱8:36,40,45 箱9:46,52,70
? 步骤3:计算每个等频箱的算数均值。
? 步骤4:用各箱计算出的算数均值替换每箱中的每个值。
箱1:44/3,44/3,44/3 箱2:55/3,55/3,55/3 箱3:21,21,21
箱4:24,24,24 箱5:80/3,80/3,80/3 箱6:101/3,101/3,101/3
箱7:35,35,35 箱8:121/3,121/3,121/3 箱9:56,56,56
如何确定数据中的离群点?
聚类的方法可用来将相似的点分成组或“簇”,并检测离群点。落到簇的集
外的值可以被视为离群点。作为选择,一种人机结合的检测可被采用,而计算机
用一种事先决定的数据分布来区分可能的离群点。这些可能的离群点能被用人工
轻松的检验,而不必检查整个数据集。
对于数据光滑,还有哪些其他方法?
其它可用来数据光滑的方法包括别的分箱光滑方法,如中位数光滑和箱边界
光滑。作为选择,等宽箱可被用来执行任何分箱方式,其中每个箱中的数据范围
均是常量。除了分箱方法外,可以使用回归技术拟合成函数来光滑数据,如通过
线性或多线性回归。分类技术也能被用来对概念分层,这是通过将低级概念上卷
到高级概念来光滑数据。
3.5如下规范化方法的值域是什么?
最小-最大规范化
Z分数规范化。
Z分数规范化,使用均值绝对念头而不是标准差。
小数定标规范化。
min-max 规范化。
[new_min, new_max]。
z-score 规范化。
[(old_min-mean)/σ,(old_max-mean)/σ],总的来说,对于所有可能
的数据集的值域是(-∞,+∞)。
小数定标规范化。
值域是(-1.0,1.0)。
3.6使用如下方法规范化如下数据组:200,300,400,600,1000
min=0,max=1,最小-最大规范化。
Z分数规范化。
Z分数规范化,使用均值绝对偏差而不是标准差。
小数定标规范化。
min-max 规范化。
[new_min, new_max]。
z-score 规范化。
[(old_min-mean)/σ,(old_max-mean)/σ],总的来说,对于所有可能
的数据集的值域是(-∞,+∞)。
小数定标规范化。
值域是(-1.0,1.0)。
4.1试述对于多个异构信息源的集成,为什么许多公司更愿意使用更 新驱动的方法(构造和使用数据仓库),而不是查询驱动的方法(使用包装程序和集成程序)。描述一些查询驱动方法比更 新驱动方法更可取的情况。
答: 因为对于多个异种, 查询驱动方法需要复杂的信息过滤和集成处理, 并且与局部数据源上的处理竞争资源,是一种低效的方法,并且对于频繁的查询,特别是需 要聚集操作的查询,开销很大。而更新驱动方法为集成的异种数据库系统带来了高性能,因 为数据被处理和重新组织到一个语义一致的数据存储中, 进行查询的同时并不影响局部数据 源上进行的处理。此外,数据仓库存储并集成历史信息,支持复杂的多维查询。
4.2简略比较以下概念,可以用例子解释你的观点。
雪花模式、事实星座、星网查询模型。
数据清理、数据变换、刷新。
发现驱动的立方体、多特征冷言冷语腐朽 、虚拟仓库
雪花形模式、事实星座形、星形网查询模型。 答:雪花形和事实星形模式都是变形的星形模式,都是由事实表和维表组成,雪花形模式的维表都是规范化的;而事实星座形的某几个事实表可能会共享一些维表;星形网查询模型是一个查询模型而不是模式模型,它是由中心点发出的涉嫌组成,其中每一条射线代表一个维的概念分层。
数据清理、数据变换、刷新 答:数据清理是指检测数据中的错误,可能时订正它们;数据变换是将数据由遗产或宿主格式转换成数据仓库格式;刷新是指传播由数据源到数据仓库的更新。
te,spectator,location,game,2个度量——count和charge,其中charge是观众在给定的日期观看节目的费用。观众可以是学生、成年人或老年人,每类观众有不同的收费标准。
画出该数据仓库的星形模式图
[date,spectator,location,game]开始,为列出2010年学生观众在GM_place的总付费,应当执行哪些OLAP操作?
对于数据仓库,位图是有用的。以该数据立方体为例,简略讨论使用位图索引结构的优点和问题。
priori算法使用子集支持度性质的先验知识。
证明频繁项集的所有非空子集一定也是频繁的。
证明项集s的任意非空子集s’的支持度至少与s的支持度一样大。
给定频繁项集l和l的子集s,证明规则“s=>l(s’)”的置信度不可能大于“s=>l(s)”的置信度。其中,s’是s的子集
priori算法的一种变形将事务数据库D中的事务划分成n个不重叠的分区。证明在D中频繁的项集至少在D的一个分区中是频繁的。

题目解答

答案

Age frequency 1-5 200 6-15 450 16-20 300 21-50 1500 51-80 700 80-110 44 计算该数据的近似中位数。 2.4 假设医院对 18 个随机挑选的成年人检查年龄和身体肥胖,得到如下结果: Age 23 23 27 27 39 41 47 49 50 Fat 9.5 26.5 7.8 17.8 31.4 25.9 27.4 27.2 31.2 Age 52 54 54 56 57 58 58 60 61 Fat 34.6 42.5 28.8 33.4 30.2 34.1 32.9 41.2 35.7 计算 age 和 %fat 的均值,中位数和标准差。 绘制 age 和 %fat 的盒图。 绘制基于这两个变量的散点图和 q-q 图。 三 3.3 在习题 2.2 中, age 包括如下值(以递增序): 13 , 15 , 16 , 16 , 19 , 20 , 20 , 21 , 22 , 22 , 25 , 25 , 25 , 25 , 30 , 33 , 33 , 35 , 35 , 35 , 35 , 36 , 40 , 45 , 46 , 52 , 70. 使用蒌 3 的箱,用箱均值光滑以上数据。说明你的步骤,讨论这种技术对缎带定数据的效果。 如何确定该数据中的离群点? 还有什么其他方法来光滑数据? 3.5 如下规范化方法的值域是什么? 最小 - 最大规范化 Z 分数规范化。 Z 分数规范化,使用均值绝对念头而不是标准差。 小数定标规范化。 3.6 使用如下方法规范化如下数据组: 200 , 300 , 400 , 600 , 1000 min=0,max=1 ,最小 - 最大规范化。 Z 分数规范化。 Z 分数规范化,使用均值绝对偏差而不是标准差。 小数定标规范化。 4.1 试述对于多个异构信息源的集成,为什么许多公司更愿意使用更 新驱动的方法(构造和使用数据仓库),而不是查询驱动的方法(使用包装程序和集成程序)。描述一些查询驱动方法比更 新驱动方法更可取的情况。 答: 因为对于多个异种, 查询驱动方法需要复杂的信息过滤和集成处理, 并且与局部数据源上的处理竞争资源,是一种低效的方法,并且对于频繁的查询,特别是需 要聚集操作的查询,开销很大。而更新驱动方法为集成的异种数据库系统带来了高性能,因 为数据被处理和重新组织到一个语义一致的数据存储中, 进行查询的同时并不影响局部数据 源上进行的处理。此外,数据仓库存储并集成历史信息,支持复杂的多维查询。 4.2 简略比较以下概念,可以用例子解释你的观点。 雪花模式、事实星座、星网查询模型。 数据清理、数据变换、刷新。 发现驱动的立方体、多特征冷言冷语腐朽 、虚拟仓库 4.5 假定数据仓库包含 4 个维—— date,spectator,location,game , 2 个度量—— count 和 charge ,其中 charge 是观众在给定的日期观看节目的费用。观众可以是学生、成年人或老年人,每类观众有不同的收费标准。 画出该数据仓库的星形模式图 由基本方体【 date,spectator,location,game 】开始,为列出 2010 年学生观众在 GM_place 的总付费,应当执行哪些 OLAP 操作? 对于数据仓库,位图是有用的。以该数据立方体为例,简略讨论使用位图索引结构的优点和问题。 6.3 Apriori 算法使用子集支持度性质的先验知识。 证明频繁项集的所有非空子集一定也是频繁的。 证明项集 s 的任意非空子集 s ’ 的支持度至少与 s 的支持度一样大。 给定频繁项集 l 和 l 的子集 s ,证明规则“ s=>l(s ’ ) ”的置信度不可能大于“ s=>l(s) ”的置信度。其中, s ’ 是 s 的子集 Apriori 算法的一种变形将事务数据库 D 中的事务划分成 n 个不重叠的分区。证明在 D 中频繁的项集至少在 D 的一个分区中是频繁的。

相关问题

  • 下列关于回归分析的描述不正确的是()A. 回归分析模型可分为线性回归模型和非线性回归模型B. 回归分析研究不同变量之间存在的关系()C. 刻画不同变量之间关系的模型统称为线性回归模型D. 回归分析研究单个变量的变化情况

  • 可以从最小化每个类簇的方差这一视角来解释K均值聚类的结果,下面对这一视角描述正确的A. 每个样本数据分别归属于与其距离最远的聚类质心所在聚类集合B. 每个簇类的质心累加起来最小C. 最终聚类结果中每个聚类集合中所包含数据呈现出来差异性最大D. 每个簇类的方差累加起来最小

  • 1. 名词解释 假设检验 (请在答题纸上手写并拍照上传)

  • {15分)常规情况下,下列不属于人口学变量的是A. 民族B. 收入C. 年龄D. 睡眠时间E. 性别

  • 48皮尔逊相关系数的取值范围为0到正无穷。()A. 错误B. 正确

  • 请你从下表中找出1~100中所有质数.并数一数一共多少个. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100

  • 5.聚类分析可以看作是一种非监督的分类。()

  • 皮尔逊相关系数的取值范围为0到正无穷。()A. 正确B. 错误

  • 以下几种数据挖掘功能中,〔〕被广泛的用于购物篮分析.A. 关联分析B. 分类和预测C. 聚类分析D. 演变分析

  • 下列说法正确的是()A. 方差数值上等于各个数据与样本方差之差的平方和之平均数B. 协方差和方差的计算方式完全一致C. 协方差衡量了多个变量的分布D. 方差描述了样本数据的波动程度

  • 设随机变量XY都服从N(0,1),则有()A. X+Y服从正态分布B. X+Y服从x^2分布 C. X^2和Y^2都服从x^2分布 D. (X^2)div (Y^2)服从F分布

  • 44.2021年,我国人均预期寿命提高到了()。A. 78岁B. 79岁C. 78.2岁D. 79.2岁

  • 下列哪项属于常见的池化方式。()A. 反向传播B. 最大池化C. 方差池化D. 协方差池化

  • 像从性不好的资料是()A. 由于死亡或者其他原因不能继续试验B. 能按照试验规定要求完成实验C. 重复参加试验D. 由于纳入标准不合格导致选择的研究对象不符合试验要求E. 能完成试验但是不能按照规定要求完成试验

  • 假定用于分析的数据包含属性age.数据元组[1]中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:A. 18.3B. 22。6C. 26。8D. 27。9

  • 重测信度用重测相关系数来表示,相关系数越趋近于下列哪一数值时,则重测信度越高A. 1B. 0.7C. 2D. 3

  • {1.5分)确定研究总体和样本时,不需要考虑A. 立题依据B. 样本量C. 抽样方法D. 目标总体E. 纳入及排除标准

  • 下列哪项属于常见的池化方式。()A. 协方差池化B. 方差池化C. 反向传播D. 最大池化

  • 对研究对象制定明确的纳入标准和排除标准,是为了保证样本的A. 可靠性B. 可行性C. 代表性D. 合理性E. 科学性

  • 下列说法正确的是()A. 方差数值上等于各个数据与样本方差之差的平方和之平均数B. 协方差衡量了多个变量的分布C. 协方差和方差的计算方式完全一致D. 方差描述了样本数据的波动程度

上一页下一页
logo
广州极目未来文化科技有限公司
注册地址:广州市黄埔区揽月路8号135、136、137、138房
关于
  • 隐私政策
  • 服务协议
  • 权限详情
学科
  • 医学
  • 政治学
  • 管理
  • 计算机
  • 教育
  • 数学
联系我们
  • 客服电话: 010-82893100
  • 公司邮箱: daxuesoutijiang@163.com
  • qt

©2023 广州极目未来文化科技有限公司 粤ICP备2023029972号    粤公网安备44011202002296号