Boxplot Calculator voor Statistische Analyse en Visualisatie

Box Plot Calculator

Inleiding

Een boxplot, ook wel een box-and-whisker plot genoemd, is een gestandaardiseerde manier om de verdeling van gegevens weer te geven op basis van een vijf-getallen samenvatting: minimum, eerste kwartiel (Q1), mediaan, derde kwartiel (Q3) en maximum. Deze calculator stelt je in staat om een boxplot te genereren op basis van een gegeven set numerieke gegevens, wat een krachtig hulpmiddel biedt voor gegevensvisualisatie en analyse.

Hoe deze calculator te gebruiken

Voer je gegevens in als een lijst van nummers, gescheiden door komma's of spaties in het invoerveld.
De calculator berekent automatisch de boxplotstatistieken en toont de resultaten.
Een visuele weergave van de boxplot wordt onder de resultaten weergegeven.
Je kunt de berekende resultaten kopiëren met de knop "Kopieer resultaat".

Formule

De belangrijkste formules die worden gebruikt in boxplotberekeningen zijn:

Mediaan (Q2): Voor een geordende dataset van n elementen,
$x_{\frac{n+1}{2}} & \text{als n oneven is} \\ \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) & \text{als n even is} \end{cases} $$$
Eerste kwartiel (Q1) en derde kwartiel (Q3): $Q1 = \text{Mediaan van de onderste helft van de gegevens}$ $Q3 = \text{Mediaan van de bovenste helft van de gegevens}$
Interkwartiel bereik (IQR): $IQR = Q3 - Q1$
Snorharen: $\text{Onderste snorhaar} = \max({\min(x), Q1 - 1.5 * IQR})$ $\text{Bovenste snorhaar} = \min({\max(x), Q3 + 1.5 * IQR})$
Uitschieters: Alle datapunten onder het onderste snorhaar of boven het bovenste snorhaar.

Berekening

De calculator voert de volgende stappen uit om de boxplot te genereren:

Sorteer de invoergegevens in oplopende volgorde.
Bereken de mediaan (Q2):
- Als het aantal datapunten oneven is, is de mediaan de middelste waarde.
- Als het aantal datapunten even is, is de mediaan het gemiddelde van de twee middelste waarden.
Bereken het eerste kwartiel (Q1):
- Dit is de mediaan van de onderste helft van de gegevens.
- Als het aantal datapunten oneven is, wordt de mediaan niet in beide helften opgenomen.
Bereken het derde kwartiel (Q3):
- Dit is de mediaan van de bovenste helft van de gegevens.
- Als het aantal datapunten oneven is, wordt de mediaan niet in beide helften opgenomen.
Bereken het interkwartiel bereik (IQR) = Q3 - Q1.
Bepaal de snorharen:
- Onderste snorhaar: Het kleinste datapunt dat groter is dan of gelijk is aan Q1 - 1.5 * IQR
- Bovenste snorhaar: Het grootste datapunt dat kleiner is dan of gelijk is aan Q3 + 1.5 * IQR
Identificeer uitschieters: Alle datapunten onder het onderste snorhaar of boven het bovenste snorhaar.

Het is belangrijk op te merken dat er verschillende methoden zijn voor het berekenen van kwartielen, vooral bij datasets met een even aantal elementen. De hierboven beschreven methode staat bekend als de "exclusieve" methode, maar andere methoden zoals de "inclusieve" methode of de "mediaan van mediaan" methode kunnen ook worden gebruikt. De keuze van de methode kan de positie van Q1 en Q3 iets beïnvloeden, vooral voor kleine datasets.

Interpretatie

De box in de plot vertegenwoordigt het interkwartiel bereik (IQR), met de onderkant van de box op Q1 en de bovenkant op Q3.
De lijn binnen de box vertegenwoordigt de mediaan (Q2).
De snorharen strekken zich uit van de box naar de minimum- en maximumwaarden, exclusief uitschieters.
Uitschieters worden weergegeven als individuele punten buiten de snorharen.

De boxplot biedt verschillende inzichten over de gegevens:

Centrale tendentie: De mediaan toont de centrale waarde van de dataset.
Variabiliteit: De IQR en de algehele spreiding van minimum tot maximum tonen de spreiding van de gegevens.
Scheefheid: Als de mediaan niet gecentreerd is binnen de box, geeft dit scheefheid in de gegevens aan.
Uitschieters: Punten buiten de snorharen benadrukken potentiële uitschieters of extreme waarden.

Toepassingen

Boxplots zijn nuttig in verschillende gebieden, waaronder:

Statistiek: Om de verdeling en scheefheid van gegevens te visualiseren. Bijvoorbeeld, het vergelijken van toetsresultaten tussen verschillende scholen of klassen.
Gegevensanalyse: Om uitschieters te identificeren en verdelingen te vergelijken. In het bedrijfsleven kan het worden gebruikt om verkoopgegevens in verschillende regio's of tijdsperioden te analyseren.
Wetenschappelijk onderzoek: Om resultaten te presenteren en groepen te vergelijken. Bijvoorbeeld, het vergelijken van de effectiviteit van verschillende behandelingen in medische studies.
Kwaliteitscontrole: Om procesvariabelen te monitoren en anomalieën te identificeren. In de productie kan het worden gebruikt om productafmetingen te volgen en ervoor te zorgen dat ze binnen aanvaardbare grenzen vallen.
Financiën: Om de bewegingen van aandelenprijzen en andere financiële statistieken te analyseren. Bijvoorbeeld, het vergelijken van de prestaties van verschillende beleggingsfondsen in de loop van de tijd.
Milieuwetenschap: Om milieugegevens te analyseren en te vergelijken, zoals vervuilingsniveaus of temperatuurvariaties in verschillende locaties of tijdsperioden.
Sportanalyse: Om de prestaties van spelersstatistieken tussen teams of seizoenen te vergelijken.

Alternatieven

Hoewel boxplots krachtige hulpmiddelen zijn voor gegevensvisualisatie, zijn er verschillende alternatieven, afhankelijk van de specifieke behoeften van de analyse:

Histogrammen: Nuttig voor het tonen van de frequentieverdeling van een dataset. Ze bieden meer detail over de vorm van de verdeling, maar zijn mogelijk minder effectief voor het vergelijken van meerdere datasets.
Violinplots: Combineren de kenmerken van boxplots met kernel density plots, die de waarschijnlijkheidsdichtheid van de gegevens op verschillende waarden tonen.
Spreidingsdiagrammen: Ideaal voor het tonen van de relatie tussen twee variabelen, wat boxplots niet kunnen doen.
Staafdiagrammen: Geschikt voor het vergelijken van enkele waarden tussen verschillende categorieën.
Lijngrafieken: Effectief voor het tonen van trends in de tijd, wat boxplots niet goed vastleggen.
Heatmaps: Nuttig voor het visualiseren van complexe datasets met meerdere variabelen.

De keuze tussen deze alternatieven hangt af van de aard van de gegevens en de specifieke inzichten die men wil overbrengen.

Geschiedenis

De boxplot werd uitgevonden door John Tukey in 1970 en verscheen voor het eerst in zijn boek "Exploratory Data Analysis" in 1977. Tukey's oorspronkelijke ontwerp, de "schematische plot", toonde alleen de mediaan, kwartielen en extreme waarden.

Belangrijke ontwikkelingen in de geschiedenis van boxplots zijn onder andere:

1978: McGill, Tukey en Larsen introduceerden de genoteerde boxplot, die betrouwbaarheidsintervallen voor de mediaan toevoegt.
1980s: Het concept van "uitschieters" in boxplots werd meer gestandaardiseerd, meestal gedefinieerd als punten verder dan 1,5 keer de IQR van de kwartielen.
1990s-2000s: Met de opkomst van computergraphics werden variaties zoals boxplots met variabele breedte en violinplots ontwikkeld.
Heden: Interactieve en dynamische boxplots zijn gebruikelijk geworden in gegevensvisualisatiesoftware, waardoor gebruikers de onderliggende datapunten kunnen verkennen.

Boxplots hebben de tand des tijds doorstaan vanwege hun eenvoud en effectiviteit in het samenvatten van complexe datasets. Ze blijven een standaard in gegevensanalyse in veel gebieden.

Codevoorbeelden

Hier zijn voorbeelden van hoe je een boxplot kunt maken in verschillende programmeertalen:

1=QUARTILE(A1:A100,1)  ' Q1
2=MEDIAN(A1:A100)      ' Mediaan
3=QUARTILE(A1:A100,3)  ' Q3
4=MIN(A1:A100)         ' Minimum
5=MAX(A1:A100)         ' Maximum
6

1## Aangenomen dat 'data' je vector van nummers is
2boxplot(data)
3

1% Aangenomen dat 'data' je vector van nummers is
2boxplot(data)
3

1// Met D3.js
2var svg = d3.select("body").append("svg")
3    .attr("width", 400)
4    .attr("height", 300);
5
6var data = [/* je gegevensarray */];
7
8var boxplot = svg.append("g")
9    .datum(data)
10    .call(d3.boxplot());
11

1import matplotlib.pyplot as plt
2import numpy as np
3
4data = [/* je gegevensarray */]
5plt.boxplot(data)
6plt.show()
7

1import org.jfree.chart.ChartFactory;
2import org.jfree.chart.ChartPanel;
3import org.jfree.chart.JFreeChart;
4import org.jfree.data.statistics.DefaultBoxAndWhiskerCategoryDataset;
5
6DefaultBoxAndWhiskerCategoryDataset dataset = new DefaultBoxAndWhiskerCategoryDataset();
7dataset.add(Arrays.asList(/* je gegevens */), "Serie 1", "Categorie 1");
8
9JFreeChart chart = ChartFactory.createBoxAndWhiskerChart(
10    "Boxplot", "Categorie", "Waarde", dataset, true);
11

Referenties

Tukey, J. W. (1977). Exploratory Data Analysis. Addison-Wesley.
McGill, R., Tukey, J. W., & Larsen, W. A. (1978). Variaties van Boxplots. The American Statistician, 32(1), 12-16.
Williamson, D. F., Parker, R. A., & Kendrick, J. S. (1989). De boxplot: een eenvoudige visuele methode om gegevens te interpreteren. Annals of internal medicine, 110(11), 916-921.
Wickham, H., & Stryjewski, L. (2011). 40 jaar boxplots. Technisch rapport, had.co.nz.
Frigge, M., Hoaglin, D. C., & Iglewicz, B. (1989). Sommige implementaties van de boxplot. The American Statistician, 43(1), 50-54.

Whiz Tools

Boxplot Calculator voor Statistische Analyse en Visualisatie

Boxplotcalculator

Documentatie