21年春福师《概率统计》在线作业二[免费答案]满分答案
福师《概率统计》在线作业二
试卷总分:100 得分:100
一、单选题 (共 20 道试题,共 80 分)
1.设X,Y为两个随机变量,已知cov(X,Y)=0,则必有()。
A.X与Y相互独立
B.D(XY)=DX*DY
正确答案:-----
C.E(XY)=EX*EY
D.以上都不对
正确答案:-----
正确答案:-----
2.一台设备由10个独立工作折元件组成,每一个元件在时间T发生故障的概率为0.05。设不发生故障的元件数为随即变量X,则借助于契比雪夫不等式来估计X和它的数学期望的离差小于2的概率为()。
A.0.43
B.0.64
C.0.88
D.0.1
正确答案:-----
正确答案:-----
3.设随机变量X服从正态分布,其数学期望为10,均方差为5,则以数学期望为对称中心的区间( ),使得变量X在该区间内概率为0.9973。
A.(-5,25)
B.(-10,35)
C.(-1,10)
D.(-2,15)
正确答案:-----
4.一条自动生产线上产品的一级品率为0.6,现检查了10件,则至少有两件一级品的概率为()。
A.0.012
B.0.494
C.0.506
D.0.988
正确答案:-----
5.电话交换台有10条外线,若干台分机,在一段时间内,每台分机使用外线的概率为10%,则最多可装( )台分机才能以90%的把握使外线畅通。
A.59
B.52
C.68
D.72
正确答案:-----
6.若随机变量X与Y不独立,则下面式子一定正确的是()。
A.E(XY)=EX*EY
B.D(X+Y)=DX+DY
正确答案:-----
C.Cov(X,Y)=0
D.E(X+Y)=EX+EY
正确答案:-----
7.10个考签中有4个难签,3人参加抽签(不放回),甲先、乙次、丙最后。则甲、乙、丙都抽到难签的概率为()。
A.1/30
B.29/30
C.1/15
D.14/15
正确答案:-----
8.正态分布是()。
A.对称分布
B.不对称分布
C.关于随机变量X对称
D.以上都不对
9.如果随机变量X和Y满足D(X+Y)=D(X-Y),则下列式子正确的是()。
正确答案:-----
A.X与Y相互独立
B.X与Y不相关
C.DY=0
正确答案:-----
D.DX*DY=0
正确答案:-----
10.掷一颗骰子的实验,观察出现的点数:事件A表示“奇数点”;B表示“点数小于5”,则AB为()。
正确答案:-----
A.{1,3}
B.{1,2,3,4}
C.{5}
D.{2,4}
正确答案:-----
正确答案:-----
11.甲盒内有6个白球,4个红球,10个黑球,乙盒内有3个白球,10个红球,7个黑球,现随机从每一盒子个取一球,设取盒子是等可能的,并且取球的结果是一个黑球,一个红球,则黑球是从第一个盒子中取出的概率为()。
A.1/4
B.7/100
C.8/25
D.25/32
正确答案:-----
12.设有来自三个地区的考生的报名表分别是10份、15份和25份,其中女生的报名表分别是3份、7份和5份.随机地取一个地区的报名表,从中先后抽出两份,已知先抽到的一份是女生表,后抽到的一份是男生表,则这两张表是来自第2个考区的概率为()。
A.29/90
B.20/61
C.2/5
D.3/5
正确答案:-----
13.12 个乒乓球都是新球,每次比赛时取出3个用完后放回去,则第3次比赛时取到的3个球都是新球的概率为()。
A.0.584
B.0.073
C.0.146
D.0.292
正确答案:-----
14.掷一颗骰子的实验,观察出现的点数:事件A表示“奇数点”;B表示“小于5的偶数点”,则B-A为()。
正确答案:-----
A.{1,3}
B.{1,2,3,4}
C.{5}
D.{2,4}
15.产品有一、二等品及废品3种,若一、二等品率分别为0.63及0.35,则产品的合格率为()。
A.0.63
B.0.35
C.0.98
D.0.02
正确答案:-----
16.设X,Y为两个随机变量,则下列等式中正确的是()。
A.E(X+Y)=E(X)+E(Y)
B.D(X+Y)=D(X)+D(Y)
正确答案:-----
C.E(XY)=E(X)E(Y)
D.D(XY)=D(X)D(Y)
正确答案:-----
17.从1到2000这2000个数字中任取一数,则该数能被6或8整除的概率为()。
A.333/2000
B.1/8
C.83/2000
D.1/4
正确答案:-----
21.两封信随机地向标号为Ⅰ、Ⅱ、Ⅲ、Ⅳ的4个邮筒投递,则第二个邮筒恰好被投入1封信的概率为()。
A.1/8
B.3/8
C.5/8
D.7/8
正确答案:-----
19.有一袋麦种,其中一等的占80%,二等的占21%,三等的占2%,已知一、二、三等麦种的发芽率分别为0.8,0.2,0.1,现从袋中任取一粒麦种,则它发芽的概率为()。
A.0.9
B.0.678
C.0.497
D.0.1
20.对敌人的防御地段进行100次轰炸,每次轰炸命中目标的炸弹数目是一个随机变量,其期望值为2,方差为1.69。求在100次轰炸中有210颗到220颗炸弹命中目标的概率()。
A.0.4382
B.0.5621
C.0.1236
D.0.8764
正确答案:-----
21年春福师《概率统计》在线作业二[免费答案]多选题答案
二、判断题 (共 10 道试题,共 20 分)
21.一个袋子中有2个白球,3个红球,不放回地从中取两次球,则第一次取到白球的概率为2/5.
22.若P(AB)=0,则A和B互不相容。
23.在掷硬币的试验中每次正反面出现的概率是相同的,如果第一次出现是反面那么下次一定是正面。
24.在某多次随机试验中,如掷硬币试验,结果一定是不确定的.
25.随机变量的期望具有线性性质,即E(aX+b)=aE(X)+b。
26.若A与B相互独立,那么B补集与A补集不一定也相互独立。
27.某蓝球运动员罚球命中率为0.8,则罚球三次至少罚中二次的概率为0.896.
28.随机变量的方差不具有线性性质,即D(aX+b)=a*a*D(X)
正确答案:-----
29.对于两个随机变量的联合分布,两个随机变量的相关系数为0则他们可能是相互独立的。
30.若随机变量X服从正态分布N(a,b),随机变量Y服从正态分布N(c,d),则X+Y所服从的分布为正态分布。
正确答案:-----
21年春福师《概率统计》在线作业二[免费答案]历年参考题目如下:
《数据分析》课程期末复习资料
《数据分析》课程讲稿章节目录:
第1章 大数据分析概述
(1)什么是大数据
(2)大数据的特征和来源
(3)什么是大数据分析
(4)大数据分析的应用
(5)大数据分析的过程、技术与难点
第2章 大数据分析模型
(1)大数据分析模型
(2)基本统计量
(3)统计机器学习
(4)统计学习方法分类
(5)统计学习方法三要素
(6)模型评估与模型选择
(7)正则化与交叉验证
第3章 关联分析模型
(1)关联分析
(2)回归分析与相关分析
(3)关联规则分析
(4)Apriori算法
(5)FPgrowth算法
第4章 分类分析模型
(1)分类分析
(2)k近邻法
(3)朴素贝叶斯
(4)逻辑斯谛回归
(5)支持向量机
(6)决策树(上)
(7)决策树(下)
第5章 聚类分析模型
(1)聚类分析
(2)类间距离
(3)聚类分析的分类
(4)层次聚类
(5)K均值聚类
第6章 大数据分析算法
(1)大数据分析算法
(2)大数据关联分析算法
(3)大数据分类算法
(4)大数据聚类算法
第7章 文本分析
(1)文本分析模型
(2)文本话题分析
(3)潜在语义分析
(4)概率潜在语义分析
(5)潜在狄利克雷分配
第8章 链接分析
(1)PageRank算法(上)
(2)PageRank算法(下)
(3)HITS算法
(4)链接作弊
第9章 社交网络分析
(1)社交网络分析
(2)基于中介度的社团发现
(3)基于图划分的社团发现
第10章 推荐系统
(1)推荐系统概述
(2)基于内容的推荐算法
(3)协同过滤推荐算法
一、客观部分:(单项选择、多项选择)
(一)、单项选择
1以下全表统计量中,不能反映数据集中趋势的是()
A.均值
B.中位数
C.众数
D.极差
★考核知识点:基本统计量
参见讲稿章节:2.2
附1.1.1:(考核知识点解释)
根据反映出的数据特征可以将基本统计量分为两类:1. 反映数据集中趋势的和2. 反应数据波动大小的。
反映数据集中趋势的度量包括均值 、中位数和众数。
能够反应数据散布情况的数据波动大小度量包括极差和方差(标准差)。
2.( )是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。
A.监督学习
B.无监督学习
C.强化学习
D.主动学习
★考核知识点:统计学习方法分类
参考讲稿章节:2.4
附1.1.2(考核知识点解释):
统计学习或机器学习一般包括监督学习(supervised learning)、 无监督学习(unsupervised learning)、强化学习(reinforcement learning)。有时还包括半监督学习(semi-supervised)、 主动学习(active learning)。
监督学习(supervised learning)是指从标注数据中学习预测模型的机器学习问题。
无监督学习(unsupervised learning)是指从无标注数据中学习预测模型的机器学习问题。
强化学习(reinforcement learning)是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。
半监督学习(semi-supervised learning)是指利用标注数据和未标注数据学习预测模型的机器学习问题。
主动学习(active learning)是指机器不断主动给出实例让教师进行标注,然后利用标注数据学习预测模型的机器学习问题。
3.Apriori算法是一种()算法
A.关联规则
B.聚类
C.分类
D.预测
★考核知识点:Apriori算法
参见讲稿章节:3.4
附1.1.3:(考核知识点解释)
Apriori算法是一种经典的生成布尔型关联规则的频繁项集挖掘算法。
为完成频繁项集挖掘,需对各项集的支持度进行计数,但在计数之前,需要完成各项集的生成工作。
4. 以下不能表达词在文本中的重要程度的是()
A.布尔权重
B.词频权重
C.TF-IDF权重
D.向量余弦
★考核知识点:文本分析模型
参见讲稿章节:7.1
附1.1.4:(考核知识点解释)
最简单、最常用的文本表示方法是利用向量空间模型(vector space model, VSM),也就是单词向量空间模型(word vector space model)来描述文本。
常用的表示词在文本中的重要程度的方法有:布尔权重、词频权重、TFIDF权重。
布尔权重是最简单的一种加权方式。布尔权重方法只在一定程度描述了文本的性质,即包含不包含哪些词,并没有体现出文本的全部信息,如词出现次数不同,其对文本的影响也应当不同等问题。
词频(Term Frequency, TF)权重的基本思想是词出现次数不同应当在该特征的权重中有所反映。
TF-IDF 是结合了 TF(词频)和 IDF(逆文本频率)对词在文本中的重要程度进行综合衡量。
文本之间的语义相似度可以用两个单词向量的的内积或标准化内积(余弦)表示。
(二)、多项选择
1.大数据的特征包括( )
A.体量大(Volume)
B.多样性(Variety)
C.速度快(Velocity)
D.价值高(Value)
★ 考核知识点 : 大数据的特征
参考讲稿章节: 1.2
附1.2.1(考核知识点解释):
目前在描述大数据特征时,一般是按照国际数据公司IDC所提的“4V”模型来刻画,即体量大(Volume)、多样性(Variety)、速度快(Velocity)、价值高(Value)。
1). 体量大(Volume):数据量大是大数据的基本属性。数据规模的大小是用计算机存储容量的单位来计算的,数量的单位从TB级别跃升到PB级别、EB级别,甚至ZB级别。
2). 多样性(Variety):大数据除了体量大外,另一个最重要的特征就是数据类型的多样化。即数据存在形式包括结构化数据、半结构化数据和非结构化数据。
3) 速度快(Velocity):大数据环境中速度快有两层含义:一是数据产生速度快; 二是要求数据分析处理速度快。
4) 价值高(Value):大数据拥有大量有价值信息,通过提炼的信息,能够在更高的层面和视角,将在更大的范围帮助用户提高决策力,洞察未来创造出更大的价值和商机。
2. 按照数据结构分类,数据可分为( )
A.结构化数据
B.半结构化数据
C.非结构化数据
D.无结构数据
★ 考核知识点 : 按照数据结构分,大数据的数据类型
参考讲稿章节: 1.2
附1.2.2(考核知识点解释):
大数据除了体量大外,另一个最重要的特征就是数据类型的多样化。即数据存在形式包括结构化数据、半结构化数据和非结构化数据。
在早期,数据类型主要是以结构化数据为主,即传统的关系型数据,主要存储在关系数据库中。
随着互联网应用的深入,特别是社交网络、电子商务、传感器、智能设备的飞速发展,数据也变得更加复杂,出现了网页、web日志、博客、微博、图片、音频、视频、地理位置信息、电子邮件、文档等原始、半结构化、非结构化数据。
其中,视频等非数据占很大比例,有数据表明,到2016年,全部互联网流量中,视频数据达到55%,大数据中90%都是非结构化数据。P
并且,大数据不仅仅在形式上多元化,其信息来源、维度也表现出多样性。
3. 根据数据分析深度,可将数据分析分为( )
A. 关联性分析
B. 预测性分析
C. 规则性分析
D. 描述性分析
★考核知识点:根据数据分析深度,数据分析的类型
参见讲稿章节: 1.3
附1.2.3:(考核知识点解释)
根据数据分析深度,可将数据分析分为3个层次:描述性分析(Descriptive Analysis),预测性分析(Predictive Analysis)和规则性分析(Prescriptive Analysis)。
1描述性分析基于历史数据来描述发生的事件。
例如,利用回归分析从数据集中发现简单的趋势,并借助可视化技术来更好地表示数据特征。
2预测性分析用于预测未来事件发生的概率和演化趋势。
例如,预测性模型使用对数回归和线性回归等统计技术发现数据趋势并预测未来的输出结果。
3规则性分析用于解决决策制定和提高分析效率。
例如,利用仿真来分析复杂系统以了解系统行为并发现问题,并通过优化技术在给定约束条件下给出最优解决方案。
4. 根据数据分析的实时性,可将数据分析分为( )
A. 实时数据分析
B. 预测性分析
C. 规则性分析
D. 离线数据分析
★考核知识点:按照数据分析的实时性,数据分析的类型
参见讲稿章节: 1.3
附1.2.4:(考核知识点解释)
按照数据分析的实时性,一般将数据分析分为实时数据分析和离线数据分析。
实时数据分析也称在线数据分析,能够实时处理用户的请求。
离线数据分析通过数据采集工具将日志数据导入专用分析平台进行分析,非实时处理数据。
5. 下列哪些方法是分类算法( )
A. 决策树
B. Apriori
C. 逻辑斯谛回归
D. 支持向量机
★ 考核知识点 : 分类分析
参考讲稿章节: 4.1
附1.2.5(考核知识点解释):
许多统计学习方法可以用于分类,包括k近邻法、感知机、朴素贝叶斯法、决策树、逻辑斯谛回归模型、支持向量机、随机森林等等。
6. 聚合聚类需要预先确定以下()要素
A.距离或相似度
B.合并规则
C.分裂规则
D.停止条件
★ 考核知识点:层次聚类
参见讲稿章节: 5.4
附 1.2.6 :(考核知识点解释)
聚合聚类需要预先确定下面三个要素:
(1)距离或相似度:
(2)合并规则;
(3)停止条件。
根据这些要素的不同组合,就可以构成不同的聚类方法。
距离或相似度可以是闵可夫斯基距离、马哈拉诺比斯距离、相关系数、夹角余弦。
合并规则一般是类间距离最小,类间距离可以是最短距离、最长距离、中心距离、平均距离。
停止条件可以是类的个数达到阈值(极端情况类的个数是1)、类的直径超过阈值。
7. 在垃圾农场中,整个Web分成()
A.不可达网页
B.可达网页
C.导航网页
D.自有网页
★ 考核知识点 : 链接作弊
参考讲稿章节: 8.4
附1.2.7(考核知识点解释):
为提高某个或某些特定网页 PageRank 值而构建的一系列网页称为垃圾农场(spam farm)或链接农场(link farm)。
右图中给出了垃圾农场的简单形式,按照作弊者的观点,整个Web分成三部分:不可达网页、可达网页和自有网页。
1)不可达网页:作弊者无法影响的网页,Web 中大部分网页属于不可达网页
2)可达网页:这些网页虽不受作弊者控制,但是作弊者可影响它们。例如:作弊者通常选择博客、报纸或论坛等网页作为可达网页。虽然作弊者不能控制这类网页,但可通过留言等方式在可达网页中嵌入自有网页的网址。
3)自有网页:作弊者拥有并完全控制的网页
垃圾农场由作弊者的自有网页和一些从可达网页指向他们的链接共同组成。由于没有外部指入的链接,垃圾农场就不可能能被搜索引擎采集,因而毫无价值。
二、主观部分:
(一)、名词解释
1. 统计学习
★考核知识点: 统计机器学习
参考讲稿章节:2.3
附2.1.1(考核知识点解释):
统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。
2.过拟合
★考核知识点: 模型评估与模型选择
参考讲稿章节:2.6
附2.1.2(考核知识点解释):
如果一味追求提高对训练数据的预测能力,所选模型的复杂度则往往会比真模型更高.这种现象称为过拟合(over-fitting).
过拟合是指学习时选择的模型所包含的参数过多,以致于出现这一模型对己知数据预测得很好,但对未知数据预测得很差的现象。
3.回归分析
★考核知识点:回归分析
参考讲稿章节:3.2
附2.1.3(考核知识点解释):
回归分析方法是在众多的相关变量中,根据实际问题考察其中一个或多个变量(因变量)与其余变量(自变量)的依赖关系。
4. 分类分析
★考核知识点: 分类分析
参考讲稿章节:4.1
附2.1.4(考核知识点解释):
分类分析是指在已知研究对象已经分为若干类的情况下,确定ABC对象属于哪一类。
5. 聚类分析
★考核知识点: 聚类分析
参考讲稿章节:5.1
附2.1.5(考核知识点解释):
聚类分析(Cluster analysis)简称聚类(Clustering),是针对给定的样本,依据它们特征的相似度或距离,将其归并到若干个“类”或“簇”( cluster)的数据分析问题。一个类是样本的一个子集。直观地,相似的样本聚集在相同的类,不相似的样本分散在不同的类。
6. 类的直径
★考核知识点:类的特征
参见讲稿章节:5.2
附2.1.6:(考核知识点解释)
类的直径(diameter) DG 是类中任意两个样本之间的最大距离。
7.链接分析
★考核知识点:链接分析
参见讲稿章节: 8.1
附2.1.7:(考核知识点解释)
链接分析(link analysis)是对网络链接的自身属性、链接对象、链接网络等各种现象进行分析,以便揭示其数量特征和内在规律的一种研究方法。
8.网页权威性
★考核知识点:HITS算法
参见讲稿章节: 8.3
附2.1.8:(考核知识点解释)
网页权威性反映了网页本身质量的好坏,如果该网页的内容很好,则它的权威性就可能很高。
9. 网页导航性
★考核知识点:HITS算法
参见讲稿章节: 8.3
附2.1.8:(考核知识点解释)
网页导航性反映了网页作为路由的好坏,如果该网页所指向的很多网页的质量都很高,那么该网页本身的导航性就可能很高。
10.链接作弊
★考核知识点:链接作弊
参见讲稿章节:8.4
附2.1.10:(考核知识点解释)
人工创建链接结构来增加网页 PageRank 值的方法称作链接作弊(link spam) 。
11. 中介度
★考核知识点:中介度
参见讲稿章节: 9.2
附2.1.11:(考核知识点解释)
一条边(a,b)的中介度定义为节点对(x,y)的数目,其中(a,b)处于x和y的最短路径上。如果(a,b)的中介度高,那么意味着它处于两个社团之间。
(二)、简答
1.人类社会的数据产生方式经历了哪些阶段?简述各阶段的特点。
★ 考核知识点 : 数据产生方式变革、大数据的数据来源
参见讲稿章节:1.2
附2.2.1(考核知识点解释):
人类历史上从未有哪个时代和今天一样产生如此海量的数据,人类社会的数据产生方式大致经历了3个阶段:运营式系统、用户原创内容阶段、感知式系统阶段。
(1)运营式系统:
数据库的出现使得数据管理的复杂度大大降低,实际中数据库大都为运营系统所采用,作为运营系统的数据管理子系统,如超市的销售记录系统、银行的交易记录系统、医院病人的医疗记录等。人类社会数据量第一次大的飞跃正是建立在运营式系统广泛使用数据库开始,这些数据规范、有秩序、强调数据的一致性,且这些数据的产生方式是被动的。
(2)用户原创内容阶段:
互联网的诞生促使人类社会数据量出现第二次大的飞跃,但真正的数据爆发产生于Web2.0时代,其重要标志就是用户原创内容。以博客、微博为代表的新型社交网络的出现和快速发展,使得用户产生数据的意愿更加强烈;新型移动设备出现,易携带、全天候接入网络的移动设备使得人员在网上发现自己意见的途径更为便捷
数据结构复杂,无秩序,不强调数据的一致性或只强调弱一致性,这些数据的产生方式 是主动的。
(3)感知式系统:
人类社会数据量第三次大的飞跃最终导致了大数据的产生,这次飞跃的根本原因在于感知式系统的广泛使用。微小带着处理功能的传感器设备广泛布置于社会的各个角落,通过这些设备对整个社会的运转进行监控,这些设备会源源不断地产生新数据,这些数据的产生方式是自动的,数据呈现多源异构、分布广泛、动态演化等。
简单来说,数据产生经历了被动、主动和自动三个阶段,这些被动、主动和自动的数据共同构成了大数据的数据来源。