Generera en visuell analys av din datamängd med hjälp av ett låddiagram. Det här verktyget beräknar och visar viktiga statistiska mått inklusive kvartiler, median och avvikare.
En boxplot, även känd som en box-and-whisker-diagram, är ett standardiserat sätt att visa fördelningen av data baserat på en fem-nummers sammanfattning: minimum, första kvartil (Q1), median, tredje kvartil (Q3) och maximum. Denna kalkylator gör det möjligt för dig att generera en boxplot från en given uppsättning numeriska data, vilket ger ett kraftfullt verktyg för datavisualisering och analys.
De viktigaste formlerna som används i boxplotberäkningar är:
Median (Q2): För en ordnad dataset med n element,
x_{\frac{n+1}{2}} & \text{om n är udda} \\ \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) & \text{om n är jämn} \end{cases} $$Första kvartil (Q1) och tredje kvartil (Q3):
Interkvartilavstånd (IQR):
Whiskers:
Avvikare: Eventuella datapunkter under Lower Whisker eller över Upper Whisker.
Kalkylatorn utför följande steg för att generera boxploten:
Det är viktigt att notera att det finns olika metoder för att beräkna kvartiler, särskilt när man hanterar dataset som har ett jämnt antal element. Metoden som beskrivs ovan kallas "exklusiv" metod, men andra metoder som "inklusive" metod eller "median of medians" metod kan också användas. Valet av metod kan något påverka placeringen av Q1 och Q3, särskilt för små dataset.
Boxploten ger flera insikter om datan:
Boxplots är användbara inom olika områden, inklusive:
Statistik: För att visualisera fördelningen och snedheten av data. Till exempel, jämföra provresultat över olika skolor eller klasser.
Dataanalys: För att identifiera avvikare och jämföra fördelningar. Inom affärsvärlden kan det användas för att analysera försäljningsdata över olika regioner eller tidsperioder.
Vetenskaplig forskning: För att presentera resultat och jämföra grupper. Till exempel, jämföra effektiviteten av olika behandlingar i medicinska studier.
Kvalitetskontroll: För att övervaka processvariabler och identifiera avvikelser. Inom tillverkning kan det användas för att spåra produktmått och säkerställa att de ligger inom acceptabla gränser.
Finans: För att analysera aktiekursrörelser och andra finansiella mått. Till exempel, jämföra prestationen av olika fonder över tid.
Miljövetenskap: För att analysera och jämföra miljödata, såsom föroreningsnivåer eller temperaturvariationer över olika platser eller tidsperioder.
Sportanalys: För att jämföra spelarprestandastatistik över lag eller säsonger.
Även om boxplots är kraftfulla verktyg för datavisualisering, finns det flera alternativ beroende på de specifika behoven i analysen:
Histogram: Användbara för att visa frekvensfördelningen av en dataset. De ger mer detaljer om formen på fördelningen men kan vara mindre effektiva för att jämföra flera dataset.
Violinplots: Kombinerar funktionerna hos boxplots med kärntäthetsdiagram, vilket visar sannolikhetstätheten av data vid olika värden.
Punktdiagram: Idealiska för att visa relationen mellan två variabler, vilket boxplots inte kan göra.
Stapeldiagram: Lämpliga för att jämföra enskilda värden över olika kategorier.
Linjediagram: Effektiva för att visa trender över tid, vilket boxplots inte fångar väl.
Värmekartor: Användbara för att visualisera komplexa dataset med flera variabler.
Valet mellan dessa alternativ beror på datans natur och de specifika insikter man vill förmedla.
Boxploten uppfanns av John Tukey 1970 och dök först upp i hans bok "Exploratory Data Analysis" 1977. Tukeys ursprungliga design, kallad "schematisk plot", visade endast medianen, kvartilerna och extrema värden.
Viktiga utvecklingar i boxplotens historia inkluderar:
1978: McGill, Tukey och Larsen introducerade den notchade boxploten, som lägger till konfidensintervall för medianen.
1980-talet: Begreppet "avvikare" i boxplots blev mer standardiserat, vanligtvis definierat som punkter bortom 1.5 gånger IQR från kvartilerna.
1990-talet-2000-talet: Med framväxten av datagrafik utvecklades variationer som variabel bredd boxplots och violinplots.
Nutid: Interaktiva och dynamiska boxplots har blivit vanliga i datavisualiseringsprogram, vilket gör att användare kan utforska de underliggande datapunkterna.
Boxplots har stått emot tidens test på grund av deras enkelhet och effektivitet i att sammanfatta komplexa dataset. De fortsätter att vara en grundpelare inom dataanalys över många områden.
Här är exempel på hur man skapar en boxplot i olika programmeringsspråk:
1=QUARTILE(A1:A100,1) ' Q1
2=MEDIAN(A1:A100) ' Median
3=QUARTILE(A1:A100,3) ' Q3
4=MIN(A1:A100) ' Minimum
5=MAX(A1:A100) ' Maximum
6
1## Förutsatt att 'data' är din vektor av nummer
2boxplot(data)
3
1% Förutsatt att 'data' är din vektor av nummer
2boxplot(data)
3
1// Använder D3.js
2var svg = d3.select("body").append("svg")
3 .attr("width", 400)
4 .attr("height", 300);
5
6var data = [/* din datamängd */];
7
8var boxplot = svg.append("g")
9 .datum(data)
10 .call(d3.boxplot());
11
1import matplotlib.pyplot as plt
2import numpy as np
3
4data = [/* din datamängd */]
5plt.boxplot(data)
6plt.show()
7
1import org.jfree.chart.ChartFactory;
2import org.jfree.chart.ChartPanel;
3import org.jfree.chart.JFreeChart;
4import org.jfree.data.statistics.DefaultBoxAndWhiskerCategoryDataset;
5
6DefaultBoxAndWhiskerCategoryDataset dataset = new DefaultBoxAndWhiskerCategoryDataset();
7dataset.add(Arrays.asList(/* din datamängd */), "Serie 1", "Kategori 1");
8
9JFreeChart chart = ChartFactory.createBoxAndWhiskerChart(
10 "Box Plot", "Kategori", "Värde", dataset, true);
11
Upptäck fler verktyg som kan vara användbara för din arbetsflöde