Boxplot-Rechner für die visuelle Datenanalyse und Statistik
Erstellen Sie eine visuelle Analyse Ihres Datensatzes mit einem Box- und Whisker-Diagramm. Dieses Tool berechnet und zeigt wichtige statistische Maße wie Quartile, Median und Ausreißer an.
Boxplot-Rechner
Boxplot-Rechner
Dokumentation
Box Plot Rechner
Einführung
Ein Box-Plot, auch bekannt als Box-and-Whisker-Plot, ist eine standardisierte Methode zur Darstellung der Verteilung von Daten basierend auf einer fünf Zahlen Zusammenfassung: Minimum, erstes Quartil (Q1), Median, drittes Quartil (Q3) und Maximum. Dieser Rechner ermöglicht es Ihnen, einen Box-Plot aus einer gegebenen Menge numerischer Daten zu generieren, und bietet ein leistungsstarkes Werkzeug zur Datenvisualisierung und -analyse.
Verwendung dieses Rechners
- Geben Sie Ihre Daten als durch Kommas oder Leerzeichen getrennte Liste von Zahlen in das Eingabefeld ein.
- Der Rechner berechnet automatisch die Box-Plot-Statistiken und zeigt die Ergebnisse an.
- Eine visuelle Darstellung des Box-Plots wird unter den Ergebnissen angezeigt.
- Sie können die berechneten Ergebnisse mit der Schaltfläche "Ergebnis kopieren" kopieren.
Formel
Die wichtigsten Formeln, die in Box-Plot-Berechnungen verwendet werden, sind:
-
Median (Q2): Für einen geordneten Datensatz mit n Elementen,
x_{\frac{n+1}{2}} & \text{wenn n ungerade} \\ \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) & \text{wenn n gerade} \end{cases} $$ -
Erstes Quartil (Q1) und drittes Quartil (Q3):
-
Interquartilsbereich (IQR):
-
Whiskers:
-
Ausreißer: Alle Datenpunkte, die unter dem unteren Whisker oder über dem oberen Whisker liegen.
Berechnung
Der Rechner führt die folgenden Schritte aus, um den Box-Plot zu generieren:
- Sortieren Sie die Eingabedaten in aufsteigender Reihenfolge.
- Berechnen Sie den Median (Q2):
- Wenn die Anzahl der Datenpunkte ungerade ist, ist der Median der Mittelwert.
- Wenn die Anzahl der Datenpunkte gerade ist, ist der Median der Durchschnitt der beiden Mittelwerte.
- Berechnen Sie das erste Quartil (Q1):
- Dies ist der Median der unteren Hälfte der Daten.
- Wenn die Anzahl der Datenpunkte ungerade ist, wird der Median in keiner der Hälften berücksichtigt.
- Berechnen Sie das dritte Quartil (Q3):
- Dies ist der Median der oberen Hälfte der Daten.
- Wenn die Anzahl der Datenpunkte ungerade ist, wird der Median in keiner der Hälften berücksichtigt.
- Berechnen Sie den Interquartilsbereich (IQR) = Q3 - Q1.
- Bestimmen Sie die Whiskers:
- Unterer Whisker: Der kleinste Datenpunkt, der größer oder gleich Q1 - 1.5 * IQR ist.
- Oberer Whisker: Der größte Datenpunkt, der kleiner oder gleich Q3 + 1.5 * IQR ist.
- Identifizieren Sie Ausreißer: Alle Datenpunkte, die unter dem unteren Whisker oder über dem oberen Whisker liegen.
Es ist wichtig zu beachten, dass es verschiedene Methoden zur Berechnung der Quartile gibt, insbesondere wenn es um Datensätze mit einer geraden Anzahl von Elementen geht. Die oben beschriebene Methode ist als "exklusive" Methode bekannt, aber andere Methoden wie die "inklusive" Methode oder die "Median der Mediane" Methode können ebenfalls verwendet werden. Die Wahl der Methode kann die Position von Q1 und Q3 leicht beeinflussen, insbesondere bei kleinen Datensätzen.
Interpretation
- Die Box im Diagramm repräsentiert den Interquartilsbereich (IQR), wobei der Boden der Box bei Q1 und die Oberseite bei Q3 liegt.
- Die Linie innerhalb der Box stellt den Median (Q2) dar.
- Die Whiskers erstrecken sich von der Box zu den Minimum- und Maximumwerten, ohne Ausreißer.
- Ausreißer werden als einzelne Punkte außerhalb der Whiskers dargestellt.
Der Box-Plot bietet mehrere Einblicke in die Daten:
- Zentrale Tendenz: Der Median zeigt den zentralen Wert des Datensatzes.
- Variabilität: Der IQR und die gesamte Streuung vom Minimum zum Maximum zeigen die Dispersion der Daten.
- Schiefe: Wenn der Median nicht zentriert innerhalb der Box ist, deutet dies auf eine Schiefe in den Daten hin.
- Ausreißer: Punkte über die Whiskers hinaus heben potenzielle Ausreißer oder extreme Werte hervor.
Anwendungsfälle
Box-Plots sind in verschiedenen Bereichen nützlich, einschließlich:
-
Statistik: Um die Verteilung und Schiefe von Daten zu visualisieren. Zum Beispiel, um Testergebnisse über verschiedene Schulen oder Klassen zu vergleichen.
-
Datenanalyse: Um Ausreißer zu identifizieren und Verteilungen zu vergleichen. In der Wirtschaft könnte es verwendet werden, um Verkaufsdaten über verschiedene Regionen oder Zeiträume zu analysieren.
-
Wissenschaftliche Forschung: Um Ergebnisse darzustellen und Gruppen zu vergleichen. Zum Beispiel, um die Wirksamkeit verschiedener Behandlungen in medizinischen Studien zu vergleichen.
-
Qualitätskontrolle: Um Prozessvariablen zu überwachen und Anomalien zu identifizieren. In der Fertigung könnte es verwendet werden, um Produktabmessungen zu verfolgen und sicherzustellen, dass sie innerhalb akzeptabler Bereiche liegen.
-
Finanzen: Um Bewegungen von Aktienpreisen und anderen finanziellen Kennzahlen zu analysieren. Zum Beispiel, um die Leistung verschiedener Investmentfonds über die Zeit zu vergleichen.
-
Umweltwissenschaften: Um Umwelt Daten zu analysieren und zu vergleichen, wie z.B. Verschmutzungsniveaus oder Temperaturvariationen über verschiedene Standorte oder Zeiträume.
-
Sportanalyse: Um die Leistungsstatistiken von Spielern über Teams oder Saisons zu vergleichen.
Alternativen
Während Box-Plots leistungsstarke Werkzeuge zur Datenvisualisierung sind, gibt es mehrere Alternativen, je nach den spezifischen Bedürfnissen der Analyse:
-
Histogramme: Nützlich, um die Häufigkeitsverteilung eines Datensatzes zu zeigen. Sie bieten mehr Details über die Form der Verteilung, sind jedoch möglicherweise weniger effektiv für den Vergleich mehrerer Datensätze.
-
Violin-Plots: Kombinieren die Merkmale von Box-Plots mit Kernel-Dichte-Plots und zeigen die Wahrscheinlichkeitsdichte der Daten bei verschiedenen Werten.
-
Streudiagramme: Ideal, um die Beziehung zwischen zwei Variablen zu zeigen, was Box-Plots nicht können.
-
Säulendiagramme: Geeignet, um einzelne Werte über verschiedene Kategorien zu vergleichen.
-
Liniendiagramme: Effektiv, um Trends über die Zeit zu zeigen, die Box-Plots nicht gut erfassen.
-
Heatmaps: Nützlich, um komplexe Datensätze mit mehreren Variablen zu visualisieren.
Die Wahl zwischen diesen Alternativen hängt von der Natur der Daten und den spezifischen Erkenntnissen ab, die man vermitteln möchte.
Geschichte
Der Box-Plot wurde 1970 von John Tukey erfunden und erschien erstmals in seinem Buch "Exploratory Data Analysis" im Jahr 1977. Tukeys ursprüngliches Design, das als "schematisches Diagramm" bezeichnet wurde, zeigte nur den Median, die Quartile und die Extremwerte.
Wichtige Entwicklungen in der Geschichte der Box-Plots umfassen:
-
1978: McGill, Tukey und Larsen führten den notched Box-Plot ein, der Konfidenzintervalle für den Median hinzufügt.
-
1980er: Das Konzept der "Ausreißer" in Box-Plots wurde standardisierter, typischerweise definiert als Punkte, die mehr als 1,5 mal den IQR von den Quartilen entfernt sind.
-
1990er-2000er: Mit dem Aufkommen von Computergrafiken wurden Variationen wie variable Breite Box-Plots und Violin-Plots entwickelt.
-
Gegenwart: Interaktive und dynamische Box-Plots sind in Datenvisualisierungssoftware üblich geworden, die es Benutzern ermöglichen, die zugrunde liegenden Datenpunkte zu erkunden.
Box-Plots haben die Zeit überstanden, dank ihrer Einfachheit und Effektivität bei der Zusammenfassung komplexer Datensätze. Sie bleiben ein fester Bestandteil der Datenanalyse in vielen Bereichen.
Code-Schnipsel
Hier sind Beispiele, wie man einen Box-Plot in verschiedenen Programmiersprachen erstellen kann:
1=QUARTILE(A1:A100,1) ' Q1
2=MEDIAN(A1:A100) ' Median
3=QUARTILE(A1:A100,3) ' Q3
4=MIN(A1:A100) ' Minimum
5=MAX(A1:A100) ' Maximum
6
1## Angenommen, 'data' ist Ihr Vektor von Zahlen
2boxplot(data)
3
1% Angenommen, 'data' ist Ihr Vektor von Zahlen
2boxplot(data)
3
1// Mit D3.js
2var svg = d3.select("body").append("svg")
3 .attr("width", 400)
4 .attr("height", 300);
5
6var data = [/* Ihr Datenarray */];
7
8var boxplot = svg.append("g")
9 .datum(data)
10 .call(d3.boxplot());
11
1import matplotlib.pyplot as plt
2import numpy as np
3
4data = [/* Ihr Datenarray */]
5plt.boxplot(data)
6plt.show()
7
1import org.jfree.chart.ChartFactory;
2import org.jfree.chart.ChartPanel;
3import org.jfree.chart.JFreeChart;
4import org.jfree.data.statistics.DefaultBoxAndWhiskerCategoryDataset;
5
6DefaultBoxAndWhiskerCategoryDataset dataset = new DefaultBoxAndWhiskerCategoryDataset();
7dataset.add(Arrays.asList(/* Ihre Daten */), "Serie 1", "Kategorie 1");
8
9JFreeChart chart = ChartFactory.createBoxAndWhiskerChart(
10 "Box-Plot", "Kategorie", "Wert", dataset, true);
11
Referenzen
- Tukey, J. W. (1977). Exploratory Data Analysis. Addison-Wesley.
- McGill, R., Tukey, J. W., & Larsen, W. A. (1978). Variationen von Box-Plots. The American Statistician, 32(1), 12-16.
- Williamson, D. F., Parker, R. A., & Kendrick, J. S. (1989). Der Box-Plot: eine einfache visuelle Methode zur Interpretation von Daten. Annals of internal medicine, 110(11), 916-921.
- Wickham, H., & Stryjewski, L. (2011). 40 Jahre Boxplots. Technischer Bericht, had.co.nz.
- Frigge, M., Hoaglin, D. C., & Iglewicz, B. (1989). Einige Implementierungen des Boxplots. The American Statistician, 43(1), 50-54.
Feedback
Klicken Sie auf das Feedback-Toast, um Feedback zu diesem Tool zu geben
Verwandte Werkzeuge
Entdecken Sie weitere Werkzeuge, die für Ihren Arbeitsablauf nützlich sein könnten