首发于 投必得,教你写论文
写文章
点击打开橙子的主页
试验研究中的利器--强大的直方图和箱线图

试验研究中的利器--强大的直方图和箱线图

54 人 赞同了该文章

之前我们介绍了跟误差线有关的几个概念以及相关的柱状图,散点图,和小提琴图( 试验数据统计中常用的 量,图,和线--再也不担心文章的统计用图了!)。这些图和线都属于“比较统计学”的范畴。今天给大家总结介绍另一大类:“描述统计学”,主要用到的是直方图和箱线图。

总论:

直方图和箱线图是了解连续变量分布的最常用的图形工具。在这两种图中可以找到数据中的下列信息:中位数,分位数,上限,下限,总体数据的变异性和异常值等。另外,这两种图在数据比较方面(比较统计学)也可以发挥很大的作用。下图(Wang et al. 2018)就是一个DH群体中五种不同单倍型在结实小穗数方面的表现差异,虽然少了平均值和SD或SEM,但箱线图配合表示显著性差异的字母在此例中还是非常直观的。

直方图:

直方图想必大家非常熟悉了,尤其是在表示群体对某一表型的分布中应用的非常广泛。值得注意的是,在我们小麦研究中,大部分性状都是多基因控制,所以如果能对直方图做一个normal fitting,然后配上正态性检测,就显得我们的图更加高大上了。即使是单基因控制的抗病性状,我们也可以根据明显不符合正态分布来支持目标性状是由单(或少数)基因控制。



箱线图:

箱线图顾名思义最重要的两个成分就是箱和线。那么箱和线分别代表什么呢?我们首先来看中间这个箱子以及中间那条粗线:

中间粗线代表中位数(如果是标准正态分布,中位数和平均值是一样的,位置在小箱子的中间位置)。箱子大小代表的是四分位数间距(IQR),也称为中间50%间距,是统计离散度的度量,等于第75和第25百分位数之间的差异,或者说是在上下四分位数之间,即:IQR = Q3-Q1。(这一句话中出现的分位数,四分位数,和百分位数在英语中对应了三个单词quantile,quartile,和percentile,三者的联系和区别搞的小编头都大了,想了解更多的请看文末补充内容)。

接下来谈一下小箱子伸出去的两根线,在“标准正态分布”的箱线图中,这两根线是等长的,代表的是1.5倍的IQR区间,所以箱线图的下限就是Q1-1.5IQR,上限是Q3+1.5IQR。

最后是如果有超出上下限的值(大概是2.7个标准差之外),就被叫做异常值了。

下图非常好的展现了一个箱线图中小箱子,上下限,以及异常值跟正态分布图中方差分布之间相互对应的关系。


箱线图的不同表达方式:

上面介绍了最标准的箱线图,但在实际应用过程中,由于数据的分布会稍微偏离或者不符合正态分布,这也就造成了箱线图的不同表达方式:主要是两根线的千变万化以及中位线在小箱子中位置的变化。

Outlier Box Plot (异常值类型,也是Excel 中的默认类型)
这种类型多用于符合正态分布的数据中,借用这种图可以很快的鉴定出异常值。

在这种类型中,一般上下限值等于我们上边说的Q1-1.5IQR和Q3+1.5IQR,但是当数据中没有达到上下限的数值,那就用最大值和最小值来替换,这也是造成两个线经常不等长的原因之一。比如在下图中,由于数据中最小值要大于下限值,所以下限值那条线就用此数据中的最小值来代替,而不是Q1-1.5IQR。而对于上限来说,由于数据中包含等于上限值的数,所以就用Q3+1.5IQR来表示。而对于大于上限值的一个数据,属于2.7个方差之外的数值,被视为异常值。

分位数类型

这种类型多用于不符合正态分布的数据,借用这种图可以快速的鉴定数据中各种分位数,最大值,最小值等等,从而快速知道某个数值在整个数据中所占的位置(百分位位置)。

在这种类型中,“上下限值”就是数据中的最大值和最小值,然后中间几条小线代表自定义的分位数。如下图中左边的箱线图就是分位数类型,大家也可以比较这个图和直方图以及异常值箱线图的区别。另外,下面两个箱线图箱子里的菱形代表平均值以及上下95%的置信区间。此类型箱线图完美的结合了描述统计学和比较统计学两大功能,属于小编的最爱!




补充内容:

以下两段话和一个英文的链接比较详细的讲述了quantile,quartile,和percentile之间的关系和区别。有兴趣的小伙伴可以看一下。按照小编的理解,以下这个在Stack Exchange上点赞量非高的解释其实是不对的:

https://stats.stackexchange.com/questions/156778/percentile-vs-quantile-vs-quartile

正确的用法:

The 2 quantiles = the 50th percentile

the 4 quantiles = the upper quartile = the 75th percentile

N Quantiles 的本意就是把正态分布分成N等份,所以我们可以说the 1000 quantiles,但percentile 只能是从 the 0th 到 the 100th。不过不管怎么说,我发现现在的统计学软件中的quantile都是以percentile形式来计算和展示的(比如正文最后一个图,以及下图中在R中计算quantile)。

分位数(英语:Quantile),亦称分位点,是指用分割点(cut point)将一个随机变量的概率分布范围分为几个具有相同概率的连续区间。分割点的数量比划分出的区间少1,例如3个分割点能分出4个区间。常用的有中位数(即二分位数)、四分位数(quartile)、十分位数(decile )、百分位数等。q-quantile是指将有限值集分为q个接近相同尺寸的子集。”

“百分位数统计学术语,如果将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数。可表示为:一组n个观测值按数值大小排列。如,处于p%位置的值称第p百分位数。”

Understanding the Uses of Quantiles www.thoughtco.com/what-is-a-quantile-3126239


欢迎大神在这个话题上继续补充。


相关推送

1、 试验数据统计中常用的 量,图,和线--再也不担心文章的统计用图了!

2、 试验研究中的利器--强大的直方图和箱线图


好了本期的文章就到这里了,欢迎大家评论区讨论~

每周一篇研究生科研经验分享,每周五篇文章教你写SCI论文,欢迎关注专栏:

投必得科研软件安装使用手册; 投必得:SCI期刊介绍与选择; 投必得,教你写论文; 投必得统计分析大讲堂

这里是论文编辑润色专家,输出科研干货的 投必得,我们下篇文章再见ヾ( ̄▽ ̄)Bye~Bye~

编辑于 2019-10-09
数据统计
SCI论文写作和发表
统计学
已赞同 54​
2 条评论
分享
喜欢 ​ 收藏 ​ 申请转载
已赞同 54
分享

文章被以下专栏收录

  • 投必得,教你写论文

    投必得,教你写论文

    最优质论文润色编辑,微信topeditor2020
    投必得统计分析大讲堂

    投必得统计分析大讲堂

推荐阅读

  • Excel教程:箱线图!!全方位数据对比!

    Excel教程:箱线图!!全方位数据对比!

    如何正确理解箱线图(box plot)的含义

    箱子的中间一条线,是数据的中位数,代表了样本数据的 平均水平。箱子的上下限,分别是数据的上四分位数和下四分位数。这意味着箱子包含了50%的数据。因此,箱子的宽度在一定程度上反映了数…

    Volcano plot | 别再问我这为什么是火山图

    火山图是散点图的一种,它将统计测试中的统计显著性量度(如p value)和变化幅度相结合,从而能够帮助快速直观地识别那些变化幅度较大且具有统计学意义的数据点(基因等)。常应用于转录组…

    多元统计分析-从散点图和残差图看XY关系

    对于简单的线性回归,散点图是确定数据是否适合基本模型的最佳工具之一。 大多数研究人员发现,看Y与X的关系图最简单。或者,也可以针对X绘制残差e = Y -Yˆ。下面的表显示了所示假设的数据…

2 条评论

切换为时间排序
  • 李淑洁06
    李淑洁06 01-04
    箱线图的菱形为什么代表95%置信区间呢?
  • 留学课代表
    留学课代表 2020-10-16

    能问一下文中的图标是拿什么做的吗?