Erstellen Sie eine visuelle Analyse Ihres Datensatzes mit einem Box- und Whisker-Diagramm. Dieses Tool berechnet und zeigt wichtige statistische Maße wie Quartile, Median und Ausreißer an.
Ein Box-Plot, auch bekannt als Box-and-Whisker-Plot, ist eine standardisierte Methode zur Darstellung der Verteilung von Daten basierend auf einer fünf Zahlen Zusammenfassung: Minimum, erstes Quartil (Q1), Median, drittes Quartil (Q3) und Maximum. Dieser Rechner ermöglicht es Ihnen, einen Box-Plot aus einer gegebenen Menge numerischer Daten zu generieren, und bietet ein leistungsstarkes Werkzeug zur Datenvisualisierung und -analyse.
Die wichtigsten Formeln, die in Box-Plot-Berechnungen verwendet werden, sind:
Median (Q2): Für einen geordneten Datensatz mit n Elementen,
x_{\frac{n+1}{2}} & \text{wenn n ungerade} \\ \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) & \text{wenn n gerade} \end{cases} $$Erstes Quartil (Q1) und drittes Quartil (Q3):
Interquartilsbereich (IQR):
Whiskers:
Ausreißer: Alle Datenpunkte, die unter dem unteren Whisker oder über dem oberen Whisker liegen.
Der Rechner führt die folgenden Schritte aus, um den Box-Plot zu generieren:
Es ist wichtig zu beachten, dass es verschiedene Methoden zur Berechnung der Quartile gibt, insbesondere wenn es um Datensätze mit einer geraden Anzahl von Elementen geht. Die oben beschriebene Methode ist als "exklusive" Methode bekannt, aber andere Methoden wie die "inklusive" Methode oder die "Median der Mediane" Methode können ebenfalls verwendet werden. Die Wahl der Methode kann die Position von Q1 und Q3 leicht beeinflussen, insbesondere bei kleinen Datensätzen.
Der Box-Plot bietet mehrere Einblicke in die Daten:
Box-Plots sind in verschiedenen Bereichen nützlich, einschließlich:
Statistik: Um die Verteilung und Schiefe von Daten zu visualisieren. Zum Beispiel, um Testergebnisse über verschiedene Schulen oder Klassen zu vergleichen.
Datenanalyse: Um Ausreißer zu identifizieren und Verteilungen zu vergleichen. In der Wirtschaft könnte es verwendet werden, um Verkaufsdaten über verschiedene Regionen oder Zeiträume zu analysieren.
Wissenschaftliche Forschung: Um Ergebnisse darzustellen und Gruppen zu vergleichen. Zum Beispiel, um die Wirksamkeit verschiedener Behandlungen in medizinischen Studien zu vergleichen.
Qualitätskontrolle: Um Prozessvariablen zu überwachen und Anomalien zu identifizieren. In der Fertigung könnte es verwendet werden, um Produktabmessungen zu verfolgen und sicherzustellen, dass sie innerhalb akzeptabler Bereiche liegen.
Finanzen: Um Bewegungen von Aktienpreisen und anderen finanziellen Kennzahlen zu analysieren. Zum Beispiel, um die Leistung verschiedener Investmentfonds über die Zeit zu vergleichen.
Umweltwissenschaften: Um Umwelt Daten zu analysieren und zu vergleichen, wie z.B. Verschmutzungsniveaus oder Temperaturvariationen über verschiedene Standorte oder Zeiträume.
Sportanalyse: Um die Leistungsstatistiken von Spielern über Teams oder Saisons zu vergleichen.
Während Box-Plots leistungsstarke Werkzeuge zur Datenvisualisierung sind, gibt es mehrere Alternativen, je nach den spezifischen Bedürfnissen der Analyse:
Histogramme: Nützlich, um die Häufigkeitsverteilung eines Datensatzes zu zeigen. Sie bieten mehr Details über die Form der Verteilung, sind jedoch möglicherweise weniger effektiv für den Vergleich mehrerer Datensätze.
Violin-Plots: Kombinieren die Merkmale von Box-Plots mit Kernel-Dichte-Plots und zeigen die Wahrscheinlichkeitsdichte der Daten bei verschiedenen Werten.
Streudiagramme: Ideal, um die Beziehung zwischen zwei Variablen zu zeigen, was Box-Plots nicht können.
Säulendiagramme: Geeignet, um einzelne Werte über verschiedene Kategorien zu vergleichen.
Liniendiagramme: Effektiv, um Trends über die Zeit zu zeigen, die Box-Plots nicht gut erfassen.
Heatmaps: Nützlich, um komplexe Datensätze mit mehreren Variablen zu visualisieren.
Die Wahl zwischen diesen Alternativen hängt von der Natur der Daten und den spezifischen Erkenntnissen ab, die man vermitteln möchte.
Der Box-Plot wurde 1970 von John Tukey erfunden und erschien erstmals in seinem Buch "Exploratory Data Analysis" im Jahr 1977. Tukeys ursprüngliches Design, das als "schematisches Diagramm" bezeichnet wurde, zeigte nur den Median, die Quartile und die Extremwerte.
Wichtige Entwicklungen in der Geschichte der Box-Plots umfassen:
1978: McGill, Tukey und Larsen führten den notched Box-Plot ein, der Konfidenzintervalle für den Median hinzufügt.
1980er: Das Konzept der "Ausreißer" in Box-Plots wurde standardisierter, typischerweise definiert als Punkte, die mehr als 1,5 mal den IQR von den Quartilen entfernt sind.
1990er-2000er: Mit dem Aufkommen von Computergrafiken wurden Variationen wie variable Breite Box-Plots und Violin-Plots entwickelt.
Gegenwart: Interaktive und dynamische Box-Plots sind in Datenvisualisierungssoftware üblich geworden, die es Benutzern ermöglichen, die zugrunde liegenden Datenpunkte zu erkunden.
Box-Plots haben die Zeit überstanden, dank ihrer Einfachheit und Effektivität bei der Zusammenfassung komplexer Datensätze. Sie bleiben ein fester Bestandteil der Datenanalyse in vielen Bereichen.
Hier sind Beispiele, wie man einen Box-Plot in verschiedenen Programmiersprachen erstellen kann:
1=QUARTILE(A1:A100,1) ' Q1
2=MEDIAN(A1:A100) ' Median
3=QUARTILE(A1:A100,3) ' Q3
4=MIN(A1:A100) ' Minimum
5=MAX(A1:A100) ' Maximum
6
1## Angenommen, 'data' ist Ihr Vektor von Zahlen
2boxplot(data)
3
1% Angenommen, 'data' ist Ihr Vektor von Zahlen
2boxplot(data)
3
1// Mit D3.js
2var svg = d3.select("body").append("svg")
3 .attr("width", 400)
4 .attr("height", 300);
5
6var data = [/* Ihr Datenarray */];
7
8var boxplot = svg.append("g")
9 .datum(data)
10 .call(d3.boxplot());
11
1import matplotlib.pyplot as plt
2import numpy as np
3
4data = [/* Ihr Datenarray */]
5plt.boxplot(data)
6plt.show()
7
1import org.jfree.chart.ChartFactory;
2import org.jfree.chart.ChartPanel;
3import org.jfree.chart.JFreeChart;
4import org.jfree.data.statistics.DefaultBoxAndWhiskerCategoryDataset;
5
6DefaultBoxAndWhiskerCategoryDataset dataset = new DefaultBoxAndWhiskerCategoryDataset();
7dataset.add(Arrays.asList(/* Ihre Daten */), "Serie 1", "Kategorie 1");
8
9JFreeChart chart = ChartFactory.createBoxAndWhiskerChart(
10 "Box-Plot", "Kategorie", "Wert", dataset, true);
11
Entdecken Sie weitere Tools, die für Ihren Workflow nützlich sein könnten