Whiz Tools

箱形图计算器

箱形图计算器

介绍

箱形图,也称为箱须图,是一种标准化的方式,用于显示基于五数概述的数据分布:最小值、第一个四分位数(Q1)、中位数、第三个四分位数(Q3)和最大值。此计算器允许您从给定的数值数据集中生成箱形图,为数据可视化和分析提供强大的工具。

如何使用此计算器

  1. 在输入框中输入以逗号或空格分隔的数字列表。
  2. 计算器将自动计算箱形图统计数据并显示结果。
  3. 箱形图的可视化表示将显示在结果下方。
  4. 您可以使用“复制结果”按钮复制计算结果。

公式

箱形图计算中使用的关键公式有:

  1. 中位数(Q2):对于 n 个元素的有序数据集,

    x_{\frac{n+1}{2}} & \text{如果 n 为奇数} \\ \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) & \text{如果 n 为偶数} \end{cases} $$
  2. 第一个四分位数(Q1)和第三个四分位数(Q3): Q1=下半部分数据的中位数Q1 = \text{下半部分数据的中位数} Q3=上半部分数据的中位数Q3 = \text{上半部分数据的中位数}

  3. 四分位距(IQR): IQR=Q3Q1IQR = Q3 - Q1

  4. 须: 下须=max(min(x),Q11.5IQR)\text{下须} = \max({\min(x), Q1 - 1.5 * IQR}) 上须=min(max(x),Q3+1.5IQR)\text{上须} = \min({\max(x), Q3 + 1.5 * IQR})

  5. 异常值:低于下须或高于上须的任何数据点。

计算

计算器执行以下步骤以生成箱形图:

  1. 将输入数据按升序排序。
  2. 计算中位数(Q2):
    • 如果数据点的数量为奇数,中位数是中间值。
    • 如果数据点的数量为偶数,中位数是两个中间值的平均值。
  3. 计算第一个四分位数(Q1):
    • 这是下半部分数据的中位数。
    • 如果数据点的数量为奇数,中位数不包括在任何一半中。
  4. 计算第三个四分位数(Q3):
    • 这是上半部分数据的中位数。
    • 如果数据点的数量为奇数,中位数不包括在任何一半中。
  5. 计算四分位距(IQR)= Q3 - Q1。
  6. 确定须:
    • 下须:大于或等于 Q1 - 1.5 * IQR 的最小数据点
    • 上须:小于或等于 Q3 + 1.5 * IQR 的最大数据点
  7. 确定异常值:低于下须或高于上须的任何数据点。

需要注意的是,在处理具有偶数个元素的数据集时,计算四分位数的方法可能有所不同。上述方法称为“排除法”,但还可以使用“包含法”或“中位数的中位数”方法。选择的方法可能会稍微影响 Q1 和 Q3 的位置,特别是对于小数据集。

解释

Q3 中位数 Q1 最小值 最大值 箱形图组件
  • 图中的箱体表示四分位距(IQR),箱体底部为 Q1,顶部为 Q3。
  • 箱体内的线表示中位数(Q2)。
  • 须从箱体延伸到最小值和最大值,排除异常值。
  • 异常值作为超出须的单独点绘制。

箱形图提供了关于数据的几个见解:

  • 中心趋势:中位数显示数据集的中心值。
  • 变异性:IQR 和从最小值到最大值的整体范围显示数据的离散程度。
  • 偏斜性:如果中位数不在箱体内居中,则表明数据存在偏斜。
  • 异常值:超出须的点突出显示潜在的异常值或极端值。

用例

箱形图在多个领域中非常有用,包括:

  1. 统计学:可视化数据的分布和偏斜性。例如,比较不同学校或班级的考试成绩。

  2. 数据分析:识别异常值并比较分布。在商业中,可以用于分析不同地区或时间段的销售数据。

  3. 科学研究:展示结果并比较组别。例如,比较医学研究中不同治疗方法的有效性。

  4. 质量控制:监控过程变量并识别异常。在制造业中,可以用于跟踪产品尺寸并确保它们在可接受范围内。

  5. 财务:分析股票价格波动和其他财务指标。例如,比较不同共同基金的表现。

  6. 环境科学:分析和比较环境数据,如不同地点或时间段的污染水平或温度变化。

  7. 体育分析:比较各队或赛季的球员表现统计数据。

替代方案

虽然箱形图是强大的数据可视化工具,但根据分析的具体需求,还有几种替代方案:

  1. 直方图:用于显示数据集的频率分布。它们提供有关分布形状的更多细节,但在比较多个数据集时可能效果较差。

  2. 小提琴图:结合了箱形图和核密度图的特征,显示不同值的数据的概率密度。

  3. 散点图:理想用于显示两个变量之间的关系,而箱形图无法做到。

  4. 条形图:适合比较不同类别的单个值。

  5. 折线图:有效显示随时间变化的趋势,而箱形图无法很好地捕捉。

  6. 热图:用于可视化具有多个变量的复杂数据集。

选择这些替代方案取决于数据的性质和希望传达的特定见解。

历史

箱形图由约翰·图基(John Tukey)于1970年发明,并首次出现在他1977年的书《探索性数据分析》中。图基的原始设计称为“示意图”,仅显示中位数、四分位数和极值。

箱形图历史上的关键发展包括:

  1. 1978年:麦吉尔(McGill)、图基和拉尔森(Larsen)引入了带缺口的箱形图,增加了中位数的置信区间。

  2. 1980年代:箱形图中“异常值”的概念变得更加标准化,通常定义为超出四分位数1.5倍IQR的点。

  3. 1990年代至2000年代:随着计算机图形的出现,开发了变宽箱形图和小提琴图等变体。

  4. 现今:交互式和动态箱形图在数据可视化软件中变得常见,允许用户探索潜在的数据点。

箱形图因其简单性和有效性在总结复杂数据集方面经受住了时间的考验。它们继续在许多领域的数据分析中占据重要地位。

代码示例

以下是如何在各种编程语言中创建箱形图的示例:

=QUARTILE(A1:A100,1)  ' Q1
=MEDIAN(A1:A100)      ' 中位数
=QUARTILE(A1:A100,3)  ' Q3
=MIN(A1:A100)         ' 最小值
=MAX(A1:A100)         ' 最大值
## 假设 'data' 是您的数字向量
boxplot(data)
% 假设 'data' 是您的数字向量
boxplot(data)
// 使用 D3.js
var svg = d3.select("body").append("svg")
    .attr("width", 400)
    .attr("height", 300);

var data = [/* 您的数据数组 */];

var boxplot = svg.append("g")
    .datum(data)
    .call(d3.boxplot());
import matplotlib.pyplot as plt
import numpy as np

data = [/* 您的数据数组 */]
plt.boxplot(data)
plt.show()
import org.jfree.chart.ChartFactory;
import org.jfree.chart.ChartPanel;
import org.jfree.chart.JFreeChart;
import org.jfree.data.statistics.DefaultBoxAndWhiskerCategoryDataset;

DefaultBoxAndWhiskerCategoryDataset dataset = new DefaultBoxAndWhiskerCategoryDataset();
dataset.add(Arrays.asList(/* 您的数据 */), "系列 1", "类别 1");

JFreeChart chart = ChartFactory.createBoxAndWhiskerChart(
    "箱形图", "类别", "值", dataset, true);

参考文献

  1. Tukey, J. W. (1977). 探索性数据分析. Addison-Wesley.
  2. McGill, R., Tukey, J. W., & Larsen, W. A. (1978). 箱形图的变体. The American Statistician, 32(1), 12-16.
  3. Williamson, D. F., Parker, R. A., & Kendrick, J. S. (1989). 箱形图:一种简单的可视化数据解释方法. Annals of internal medicine, 110(11), 916-921.
  4. Wickham, H., & Stryjewski, L. (2011). 箱形图的40年. 技术报告, had.co.nz.
  5. Frigge, M., Hoaglin, D. C., & Iglewicz, B. (1989). 箱形图的一些实现. The American Statistician, 43(1), 50-54.
Feedback