当前位置: 首页 > 手游 > 保卫萝卜4

第六关 总体与样本

来源:网络 时间:2022-09-21 17:51:00
导读一、总体与样本 1、总体与样本基本定义 总体:研究对象的整个群体;样本:是从总体中抽取的一部分元素的集合,是总体的一部分。必须取自总体内部;有多种抽样方法;具有代表性、客观性;样本数量:抽取的有多少个…

一、总体与样本

1、总体与样本基本定义

  • 总体:研究对象的整个群体;
  • 样本:是从总体中抽取的一部分元素的集合,是总体的一部分。必须取自总体内部;有多种抽样方法;具有代表性、客观性;
  • 样本数量:抽取的有多少个样本;
  • 样本大小:每个样本中有多少个数据;

2、使用随机数random模块从总体中随机抽取样本

python实现:

3、、pandas二维数据框的抽样方法

二、中心极限定理

中心极限定理,即为使用样本对总体进行估计;例如名义调查

1、中心极限定理特点

  • 样本均值约等于总体均值;
  • 不论总体呈什么分布,当样本数量足够大时样本均值都会围绕在总体均值的周围,且近似正态分布。

2、中心极限定理的应用

  • 用样本来估计总体(民意调查);
  • 根据总体信息判断某样本是否属于总体(3个标准差,概率97%)。

三、如何用样本估计总体

某个数据集的标准差:

样本标准差(用样本估计总体标准差):样本标准差用于估计总体的标准差

一组数字除以n-1的结果会大于这一组数字除以n的结果,当n相当小时,这种差别最为显著,也就是说,通过公式算得的结果与样本数据的标准差近似,但会略微偏大。可以理解为样本标准差的分母由n变为n-1,其所得结果为总体标准差的点估计量。

如何应用:

如上可知,我们不知道总体的数量和均值,有了中心极限定理我们就可以通过一个抽样得到的样本,来推断总体的特征。

  • 直接抽取样本,其容量为n,最好大于30
  • 求出均值和标准差s
  • 根据标准差,求出标准误差SE

四、如何避免偏见

1)样本偏差:抽样空间中的条目不齐全,因此未包含目标总体中的所有对象,俗称以偏概全。

避免措施:增大样本数量,样本越大越可靠,基于小样本的结论一般存在以偏概全的问题。

2)幸存者偏差:指的是我们通常只关注那些显而易见的样本,确常常忽视那些没有计划出现的样本;根据成功的样本采集数据,但由于其幸存者的概率是极小的,不具有代表性。

避免措施:学会多个角度全面观察问题,学会屏蔽噪音。

3)概率偏见:行为学家把人们自以为是的概率称为心里概率,心里概率与客关概率的不吻合,就叫做概率偏见;

避免措施:学好统计与概率,用数学方法去验证,对于不能验证客观概率的时候,多方面咨询专业人士的看法,降低概率偏见的可能性。

4)信息茧房:指人们的信息领域会习惯性地被自己的兴趣所引导,从而将自己的生活桎梏于像蚕茧一般的“茧房”中的现象。

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:704559159@qq.com

标签: 样本 总体
Top
加盟网