Boxplot-Rechner für die visuelle Datenanalyse und Statistik

Box Plot Rechner

Einführung

Ein Box-Plot, auch bekannt als Box-and-Whisker-Plot, ist eine standardisierte Methode zur Darstellung der Verteilung von Daten basierend auf einer fünf Zahlen Zusammenfassung: Minimum, erstes Quartil (Q1), Median, drittes Quartil (Q3) und Maximum. Dieser Rechner ermöglicht es Ihnen, einen Box-Plot aus einer gegebenen Menge numerischer Daten zu generieren, und bietet ein leistungsstarkes Werkzeug zur Datenvisualisierung und -analyse.

Verwendung dieses Rechners

Geben Sie Ihre Daten als durch Kommas oder Leerzeichen getrennte Liste von Zahlen in das Eingabefeld ein.
Der Rechner berechnet automatisch die Box-Plot-Statistiken und zeigt die Ergebnisse an.
Eine visuelle Darstellung des Box-Plots wird unter den Ergebnissen angezeigt.
Sie können die berechneten Ergebnisse mit der Schaltfläche "Ergebnis kopieren" kopieren.

Formel

Die wichtigsten Formeln, die in Box-Plot-Berechnungen verwendet werden, sind:

Median (Q2): Für einen geordneten Datensatz mit n Elementen,
$x_{\frac{n+1}{2}} & \text{wenn n ungerade} \\ \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) & \text{wenn n gerade} \end{cases} $$$
Erstes Quartil (Q1) und drittes Quartil (Q3): $Q1 = \text{Median der unteren Hälfte der Daten}$ $Q3 = \text{Median der oberen Hälfte der Daten}$
Interquartilsbereich (IQR): $IQR = Q3 - Q1$
Whiskers: $\text{Unterer Whisker} = \max({\min(x), Q1 - 1.5 * IQR})$ $\text{Oberer Whisker} = \min({\max(x), Q3 + 1.5 * IQR})$
Ausreißer: Alle Datenpunkte, die unter dem unteren Whisker oder über dem oberen Whisker liegen.

Berechnung

Der Rechner führt die folgenden Schritte aus, um den Box-Plot zu generieren:

Sortieren Sie die Eingabedaten in aufsteigender Reihenfolge.
Berechnen Sie den Median (Q2):
- Wenn die Anzahl der Datenpunkte ungerade ist, ist der Median der Mittelwert.
- Wenn die Anzahl der Datenpunkte gerade ist, ist der Median der Durchschnitt der beiden Mittelwerte.
Berechnen Sie das erste Quartil (Q1):
- Dies ist der Median der unteren Hälfte der Daten.
- Wenn die Anzahl der Datenpunkte ungerade ist, wird der Median in keiner der Hälften berücksichtigt.
Berechnen Sie das dritte Quartil (Q3):
- Dies ist der Median der oberen Hälfte der Daten.
- Wenn die Anzahl der Datenpunkte ungerade ist, wird der Median in keiner der Hälften berücksichtigt.
Berechnen Sie den Interquartilsbereich (IQR) = Q3 - Q1.
Bestimmen Sie die Whiskers:
- Unterer Whisker: Der kleinste Datenpunkt, der größer oder gleich Q1 - 1.5 * IQR ist.
- Oberer Whisker: Der größte Datenpunkt, der kleiner oder gleich Q3 + 1.5 * IQR ist.
Identifizieren Sie Ausreißer: Alle Datenpunkte, die unter dem unteren Whisker oder über dem oberen Whisker liegen.

Es ist wichtig zu beachten, dass es verschiedene Methoden zur Berechnung der Quartile gibt, insbesondere wenn es um Datensätze mit einer geraden Anzahl von Elementen geht. Die oben beschriebene Methode ist als "exklusive" Methode bekannt, aber andere Methoden wie die "inklusive" Methode oder die "Median der Mediane" Methode können ebenfalls verwendet werden. Die Wahl der Methode kann die Position von Q1 und Q3 leicht beeinflussen, insbesondere bei kleinen Datensätzen.

Interpretation

Die Box im Diagramm repräsentiert den Interquartilsbereich (IQR), wobei der Boden der Box bei Q1 und die Oberseite bei Q3 liegt.
Die Linie innerhalb der Box stellt den Median (Q2) dar.
Die Whiskers erstrecken sich von der Box zu den Minimum- und Maximumwerten, ohne Ausreißer.
Ausreißer werden als einzelne Punkte außerhalb der Whiskers dargestellt.

Der Box-Plot bietet mehrere Einblicke in die Daten:

Zentrale Tendenz: Der Median zeigt den zentralen Wert des Datensatzes.
Variabilität: Der IQR und die gesamte Streuung vom Minimum zum Maximum zeigen die Dispersion der Daten.
Schiefe: Wenn der Median nicht zentriert innerhalb der Box ist, deutet dies auf eine Schiefe in den Daten hin.
Ausreißer: Punkte über die Whiskers hinaus heben potenzielle Ausreißer oder extreme Werte hervor.

Anwendungsfälle

Box-Plots sind in verschiedenen Bereichen nützlich, einschließlich:

Statistik: Um die Verteilung und Schiefe von Daten zu visualisieren. Zum Beispiel, um Testergebnisse über verschiedene Schulen oder Klassen zu vergleichen.
Datenanalyse: Um Ausreißer zu identifizieren und Verteilungen zu vergleichen. In der Wirtschaft könnte es verwendet werden, um Verkaufsdaten über verschiedene Regionen oder Zeiträume zu analysieren.
Wissenschaftliche Forschung: Um Ergebnisse darzustellen und Gruppen zu vergleichen. Zum Beispiel, um die Wirksamkeit verschiedener Behandlungen in medizinischen Studien zu vergleichen.
Qualitätskontrolle: Um Prozessvariablen zu überwachen und Anomalien zu identifizieren. In der Fertigung könnte es verwendet werden, um Produktabmessungen zu verfolgen und sicherzustellen, dass sie innerhalb akzeptabler Bereiche liegen.
Finanzen: Um Bewegungen von Aktienpreisen und anderen finanziellen Kennzahlen zu analysieren. Zum Beispiel, um die Leistung verschiedener Investmentfonds über die Zeit zu vergleichen.
Umweltwissenschaften: Um Umwelt Daten zu analysieren und zu vergleichen, wie z.B. Verschmutzungsniveaus oder Temperaturvariationen über verschiedene Standorte oder Zeiträume.
Sportanalyse: Um die Leistungsstatistiken von Spielern über Teams oder Saisons zu vergleichen.

Alternativen

Während Box-Plots leistungsstarke Werkzeuge zur Datenvisualisierung sind, gibt es mehrere Alternativen, je nach den spezifischen Bedürfnissen der Analyse:

Histogramme: Nützlich, um die Häufigkeitsverteilung eines Datensatzes zu zeigen. Sie bieten mehr Details über die Form der Verteilung, sind jedoch möglicherweise weniger effektiv für den Vergleich mehrerer Datensätze.
Violin-Plots: Kombinieren die Merkmale von Box-Plots mit Kernel-Dichte-Plots und zeigen die Wahrscheinlichkeitsdichte der Daten bei verschiedenen Werten.
Streudiagramme: Ideal, um die Beziehung zwischen zwei Variablen zu zeigen, was Box-Plots nicht können.
Säulendiagramme: Geeignet, um einzelne Werte über verschiedene Kategorien zu vergleichen.
Liniendiagramme: Effektiv, um Trends über die Zeit zu zeigen, die Box-Plots nicht gut erfassen.
Heatmaps: Nützlich, um komplexe Datensätze mit mehreren Variablen zu visualisieren.

Die Wahl zwischen diesen Alternativen hängt von der Natur der Daten und den spezifischen Erkenntnissen ab, die man vermitteln möchte.

Geschichte

Der Box-Plot wurde 1970 von John Tukey erfunden und erschien erstmals in seinem Buch "Exploratory Data Analysis" im Jahr 1977. Tukeys ursprüngliches Design, das als "schematisches Diagramm" bezeichnet wurde, zeigte nur den Median, die Quartile und die Extremwerte.

Wichtige Entwicklungen in der Geschichte der Box-Plots umfassen:

1978: McGill, Tukey und Larsen führten den notched Box-Plot ein, der Konfidenzintervalle für den Median hinzufügt.
1980er: Das Konzept der "Ausreißer" in Box-Plots wurde standardisierter, typischerweise definiert als Punkte, die mehr als 1,5 mal den IQR von den Quartilen entfernt sind.
1990er-2000er: Mit dem Aufkommen von Computergrafiken wurden Variationen wie variable Breite Box-Plots und Violin-Plots entwickelt.
Gegenwart: Interaktive und dynamische Box-Plots sind in Datenvisualisierungssoftware üblich geworden, die es Benutzern ermöglichen, die zugrunde liegenden Datenpunkte zu erkunden.

Box-Plots haben die Zeit überstanden, dank ihrer Einfachheit und Effektivität bei der Zusammenfassung komplexer Datensätze. Sie bleiben ein fester Bestandteil der Datenanalyse in vielen Bereichen.

Code-Schnipsel

Hier sind Beispiele, wie man einen Box-Plot in verschiedenen Programmiersprachen erstellen kann:

1=QUARTILE(A1:A100,1)  ' Q1
2=MEDIAN(A1:A100)      ' Median
3=QUARTILE(A1:A100,3)  ' Q3
4=MIN(A1:A100)         ' Minimum
5=MAX(A1:A100)         ' Maximum
6

1## Angenommen, 'data' ist Ihr Vektor von Zahlen
2boxplot(data)
3

1% Angenommen, 'data' ist Ihr Vektor von Zahlen
2boxplot(data)
3

1// Mit D3.js
2var svg = d3.select("body").append("svg")
3    .attr("width", 400)
4    .attr("height", 300);
5
6var data = [/* Ihr Datenarray */];
7
8var boxplot = svg.append("g")
9    .datum(data)
10    .call(d3.boxplot());
11

1import matplotlib.pyplot as plt
2import numpy as np
3
4data = [/* Ihr Datenarray */]
5plt.boxplot(data)
6plt.show()
7

1import org.jfree.chart.ChartFactory;
2import org.jfree.chart.ChartPanel;
3import org.jfree.chart.JFreeChart;
4import org.jfree.data.statistics.DefaultBoxAndWhiskerCategoryDataset;
5
6DefaultBoxAndWhiskerCategoryDataset dataset = new DefaultBoxAndWhiskerCategoryDataset();
7dataset.add(Arrays.asList(/* Ihre Daten */), "Serie 1", "Kategorie 1");
8
9JFreeChart chart = ChartFactory.createBoxAndWhiskerChart(
10    "Box-Plot", "Kategorie", "Wert", dataset, true);
11

Referenzen

Tukey, J. W. (1977). Exploratory Data Analysis. Addison-Wesley.
McGill, R., Tukey, J. W., & Larsen, W. A. (1978). Variationen von Box-Plots. The American Statistician, 32(1), 12-16.
Williamson, D. F., Parker, R. A., & Kendrick, J. S. (1989). Der Box-Plot: eine einfache visuelle Methode zur Interpretation von Daten. Annals of internal medicine, 110(11), 916-921.
Wickham, H., & Stryjewski, L. (2011). 40 Jahre Boxplots. Technischer Bericht, had.co.nz.
Frigge, M., Hoaglin, D. C., & Iglewicz, B. (1989). Einige Implementierungen des Boxplots. The American Statistician, 43(1), 50-54.

Whiz Tools

Boxplot-Rechner für die visuelle Datenanalyse und Statistik

Boxplot-Rechner

Dokumentation

Box Plot Rechner

Einführung

Verwendung dieses Rechners

Formel

Berechnung

Interpretation

Anwendungsfälle

Alternativen

Geschichte

Code-Schnipsel

Referenzen

Verwandte Tools

Z-Test Rechner für Ein-Stichproben-Analysen und Statistiken

T-Test Rechner für statistische Hypothesentests

Textfreigabetool: Erstellen und Teilen von Text mit benutzerdefinierten URLs

Z-Score Rechner für statistische Analysen und Standardisierung

Rohwertrechner zur Bestimmung ursprünglicher Datenpunkte

Statistische Signifikanzrechner für A/B-Tests leicht gemacht