(可直接看第三EXCEL部分,保姆级教程)
一、前言
这学期正在学统计学,到目前为止碰到了两次绘制正态概率图的题目,但是教材使用的是minitab,查到的一个有EXCEL教程的博客也无法查看了,所以自己把步骤详细整理一下,希望可以帮到有需要的同学。
二、简介
(一)概率图介绍
概率图是用图形的方法来直观地检验样本数据是否遵循所假设的分布模型。所以正态概率图就是通过绘图来检验数据是否符合正态分布的图示。在样本量较小的情况下,概率图会比直方图更加可靠。
纸面绘制概率图时会用到专门的纸,成为概率纸(probability paper),广泛用于正态分布、对数正态分布、韦伯分布以及各类卡方分布和伽马分布。
(二) 概率纸构建概率图的步骤:
(1)将样本中的观察值从小到大进行排列,设为
(2)将和其累积频率绘制在合适的概率图上
(如图2)
如果样本符合假设分布,那么点迹会大致分布在一条直线附近;反之,则假设未能很好地描述数据。
(三)普通图纸绘制步骤:
(1)将样本中的观察值从小到大进行排列,设为
(2)依次计算每一的
(3)通过计算对应的正态标准化分数(standardized normal scores)
即,标准正态分布下,概率为的对应自变量值。
(4)以为x轴,为y轴绘制图形。可以看到,点迹的分布与概率纸绘制的图2完全一致,仅纵坐标不同。
三、EXCEL绘制具体步骤
(一)散点图绘制
(1)将所需数据列出
(2)计算Z值:
以A2为例,B2的公式写为
=NORM.S.INV((RANK(A2,$A$2:$A$16,1)-0.5)/COUNT(A:A))
NORM.S.INV()表示标准正态分布的反函数,即可以通过输入概率,输出正态标准化分数
RANK()计算的是某一数字(如A2)在所给数列中(如A2:A16)的排位,1是升序,0是降序。该项相当于计算了第二部分讲述的。
$是单元格地址绝对引用符号,在下拉时可以保持后方的标号不变
COUNT(A:A)计算了A列中数字项的个数。注意:如果使用这种写法,不要在A列下方继续添加不相关的数字,否则会影响计算。
公式的其他写法:
①NORM.S.INV()可用NORM.INV()替代,只需在后者的参数中将mean设为0,standard_dev设为1即可。
②RANK()可提前手动排序,相应的详细方法写在(5)。
③COUNT(A:A)可精确到对应区域,COUNT(A2:A16),我个人推荐后面这种。
(3)计算剩余数据对应的Z值
按住B2单元格右下角,下拉至适当位置。或者双击该小方块。
(4)绘制散点图
选中两列数据,选择散点图。
选中图中点迹,鼠标右键可添加趋势线。
(5)到第四步就结束啦,(5)是与教材相配合,对第二步中公式拆解后的解法。
①对进行排序,并标上序号,即列。
②计算对应的
图中的15也可用count()计算,或者输入$A$16。大家这么聪明,一定都懂得。
③反函数计算
④选中和绘制散点图。
(二)数据分析进行绘制
(1)将数据进行排序,升序降序无所谓,并标上序号
(2)选择数据-数据分析-回归
(3)y轴区域输入数据列,x轴数据输入序号列。选择想要输出的位置,勾选最后的正态概率图。
(4)由于x轴和y轴与之前的讲解相反,所以点迹的趋势与教材画法、第一种解法成对称关系
注:如果在数据下没有找到数据分析一项,(右上角)文件-(最后一项)选项-(倒数第二项)加载项-(最下方)转到-勾选分析数据库
(三)其他方法
(蹲评论区大佬)
以上介绍内容及部分图片来自“applied statistics probability 4 engineers-montgomery & runger”
EXCEL操作参考了How to Create a Normal Probability Plot in Excel (Step-by-Step) (statology.org),图片为个人截图
所用EXCEL版本为2016