一、总体与样本
1、总体与样本基本定义
2、使用随机数random模块从总体中随机抽取样本
python实现:
3、、pandas二维数据框的抽样方法
二、中心极限定理
中心极限定理,即为使用样本对总体进行估计;例如名义调查
1、中心极限定理特点
2、中心极限定理的应用
三、如何用样本估计总体
某个数据集的标准差:
样本标准差(用样本估计总体标准差):样本标准差用于估计总体的标准差
一组数字除以n-1的结果会大于这一组数字除以n的结果,当n相当小时,这种差别最为显著,也就是说,通过公式算得的结果与样本数据的标准差近似,但会略微偏大。可以理解为样本标准差的分母由n变为n-1,其所得结果为总体标准差的点估计量。
如何应用:
如上可知,我们不知道总体的数量和均值,有了中心极限定理我们就可以通过一个抽样得到的样本,来推断总体的特征。
四、如何避免偏见
1)样本偏差:抽样空间中的条目不齐全,因此未包含目标总体中的所有对象,俗称以偏概全。
避免措施:增大样本数量,样本越大越可靠,基于小样本的结论一般存在以偏概全的问题。
2)幸存者偏差:指的是我们通常只关注那些显而易见的样本,确常常忽视那些没有计划出现的样本;根据成功的样本采集数据,但由于其幸存者的概率是极小的,不具有代表性。
避免措施:学会多个角度全面观察问题,学会屏蔽噪音。
3)概率偏见:行为学家把人们自以为是的概率称为心里概率,心里概率与客关概率的不吻合,就叫做概率偏见;
避免措施:学好统计与概率,用数学方法去验证,对于不能验证客观概率的时候,多方面咨询专业人士的看法,降低概率偏见的可能性。
4)信息茧房:指人们的信息领域会习惯性地被自己的兴趣所引导,从而将自己的生活桎梏于像蚕茧一般的“茧房”中的现象。
声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:704559159@qq.com