Genereer een visuele analyse van uw dataset met behulp van een box-and-whisker plot. Deze tool berekent en toont belangrijke statistische maatstaven, waaronder kwartielen, mediaan en uitschieters.
Een boxplot, ook wel een box-and-whisker plot genoemd, is een gestandaardiseerde manier om de verdeling van gegevens weer te geven op basis van een vijf-getallen samenvatting: minimum, eerste kwartiel (Q1), mediaan, derde kwartiel (Q3) en maximum. Deze calculator stelt je in staat om een boxplot te genereren op basis van een gegeven set numerieke gegevens, wat een krachtig hulpmiddel biedt voor gegevensvisualisatie en analyse.
De belangrijkste formules die worden gebruikt in boxplotberekeningen zijn:
Mediaan (Q2): Voor een geordende dataset van n elementen,
x_{\frac{n+1}{2}} & \text{als n oneven is} \\ \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) & \text{als n even is} \end{cases} $$Eerste kwartiel (Q1) en derde kwartiel (Q3):
Interkwartiel bereik (IQR):
Snorharen:
Uitschieters: Alle datapunten onder het onderste snorhaar of boven het bovenste snorhaar.
De calculator voert de volgende stappen uit om de boxplot te genereren:
Het is belangrijk op te merken dat er verschillende methoden zijn voor het berekenen van kwartielen, vooral bij datasets met een even aantal elementen. De hierboven beschreven methode staat bekend als de "exclusieve" methode, maar andere methoden zoals de "inclusieve" methode of de "mediaan van mediaan" methode kunnen ook worden gebruikt. De keuze van de methode kan de positie van Q1 en Q3 iets beĆÆnvloeden, vooral voor kleine datasets.
De boxplot biedt verschillende inzichten over de gegevens:
Boxplots zijn nuttig in verschillende gebieden, waaronder:
Statistiek: Om de verdeling en scheefheid van gegevens te visualiseren. Bijvoorbeeld, het vergelijken van toetsresultaten tussen verschillende scholen of klassen.
Gegevensanalyse: Om uitschieters te identificeren en verdelingen te vergelijken. In het bedrijfsleven kan het worden gebruikt om verkoopgegevens in verschillende regio's of tijdsperioden te analyseren.
Wetenschappelijk onderzoek: Om resultaten te presenteren en groepen te vergelijken. Bijvoorbeeld, het vergelijken van de effectiviteit van verschillende behandelingen in medische studies.
Kwaliteitscontrole: Om procesvariabelen te monitoren en anomalieƫn te identificeren. In de productie kan het worden gebruikt om productafmetingen te volgen en ervoor te zorgen dat ze binnen aanvaardbare grenzen vallen.
Financiƫn: Om de bewegingen van aandelenprijzen en andere financiƫle statistieken te analyseren. Bijvoorbeeld, het vergelijken van de prestaties van verschillende beleggingsfondsen in de loop van de tijd.
Milieuwetenschap: Om milieugegevens te analyseren en te vergelijken, zoals vervuilingsniveaus of temperatuurvariaties in verschillende locaties of tijdsperioden.
Sportanalyse: Om de prestaties van spelersstatistieken tussen teams of seizoenen te vergelijken.
Hoewel boxplots krachtige hulpmiddelen zijn voor gegevensvisualisatie, zijn er verschillende alternatieven, afhankelijk van de specifieke behoeften van de analyse:
Histogrammen: Nuttig voor het tonen van de frequentieverdeling van een dataset. Ze bieden meer detail over de vorm van de verdeling, maar zijn mogelijk minder effectief voor het vergelijken van meerdere datasets.
Violinplots: Combineren de kenmerken van boxplots met kernel density plots, die de waarschijnlijkheidsdichtheid van de gegevens op verschillende waarden tonen.
Spreidingsdiagrammen: Ideaal voor het tonen van de relatie tussen twee variabelen, wat boxplots niet kunnen doen.
Staafdiagrammen: Geschikt voor het vergelijken van enkele waarden tussen verschillende categorieƫn.
Lijngrafieken: Effectief voor het tonen van trends in de tijd, wat boxplots niet goed vastleggen.
Heatmaps: Nuttig voor het visualiseren van complexe datasets met meerdere variabelen.
De keuze tussen deze alternatieven hangt af van de aard van de gegevens en de specifieke inzichten die men wil overbrengen.
De boxplot werd uitgevonden door John Tukey in 1970 en verscheen voor het eerst in zijn boek "Exploratory Data Analysis" in 1977. Tukey's oorspronkelijke ontwerp, de "schematische plot", toonde alleen de mediaan, kwartielen en extreme waarden.
Belangrijke ontwikkelingen in de geschiedenis van boxplots zijn onder andere:
1978: McGill, Tukey en Larsen introduceerden de genoteerde boxplot, die betrouwbaarheidsintervallen voor de mediaan toevoegt.
1980s: Het concept van "uitschieters" in boxplots werd meer gestandaardiseerd, meestal gedefinieerd als punten verder dan 1,5 keer de IQR van de kwartielen.
1990s-2000s: Met de opkomst van computergraphics werden variaties zoals boxplots met variabele breedte en violinplots ontwikkeld.
Heden: Interactieve en dynamische boxplots zijn gebruikelijk geworden in gegevensvisualisatiesoftware, waardoor gebruikers de onderliggende datapunten kunnen verkennen.
Boxplots hebben de tand des tijds doorstaan vanwege hun eenvoud en effectiviteit in het samenvatten van complexe datasets. Ze blijven een standaard in gegevensanalyse in veel gebieden.
Hier zijn voorbeelden van hoe je een boxplot kunt maken in verschillende programmeertalen:
1=QUARTILE(A1:A100,1) ' Q1
2=MEDIAN(A1:A100) ' Mediaan
3=QUARTILE(A1:A100,3) ' Q3
4=MIN(A1:A100) ' Minimum
5=MAX(A1:A100) ' Maximum
6
1## Aangenomen dat 'data' je vector van nummers is
2boxplot(data)
3
1% Aangenomen dat 'data' je vector van nummers is
2boxplot(data)
3
1// Met D3.js
2var svg = d3.select("body").append("svg")
3 .attr("width", 400)
4 .attr("height", 300);
5
6var data = [/* je gegevensarray */];
7
8var boxplot = svg.append("g")
9 .datum(data)
10 .call(d3.boxplot());
11
1import matplotlib.pyplot as plt
2import numpy as np
3
4data = [/* je gegevensarray */]
5plt.boxplot(data)
6plt.show()
7
1import org.jfree.chart.ChartFactory;
2import org.jfree.chart.ChartPanel;
3import org.jfree.chart.JFreeChart;
4import org.jfree.data.statistics.DefaultBoxAndWhiskerCategoryDataset;
5
6DefaultBoxAndWhiskerCategoryDataset dataset = new DefaultBoxAndWhiskerCategoryDataset();
7dataset.add(Arrays.asList(/* je gegevens */), "Serie 1", "Categorie 1");
8
9JFreeChart chart = ChartFactory.createBoxAndWhiskerChart(
10 "Boxplot", "Categorie", "Waarde", dataset, true);
11
Ontdek meer tools die handig kunnen zijn voor uw workflow