Låddiagram Kalkylator för Statistisk Analys och Visualisering
Generera en visuell analys av din datamängd med hjälp av ett låddiagram. Det här verktyget beräknar och visar viktiga statistiska mått inklusive kvartiler, median och avvikare.
Box Plot Beräknare
Box Plot Beräknare
Dokumentation
Box Plot Kalkylator
Introduktion
En boxplot, även känd som en box-and-whisker-diagram, är ett standardiserat sätt att visa fördelningen av data baserat på en fem-nummers sammanfattning: minimum, första kvartil (Q1), median, tredje kvartil (Q3) och maximum. Denna kalkylator gör det möjligt för dig att generera en boxplot från en given uppsättning numeriska data, vilket ger ett kraftfullt verktyg för datavisualisering och analys.
Hur man använder denna kalkylator
- Ange dina data som en kommaseparerad eller mellanslagseparerad lista med nummer i inmatningsfältet.
- Kalkylatorn beräknar automatiskt boxplot-statistiken och visar resultaten.
- En visuell representation av boxploten kommer att visas nedanför resultaten.
- Du kan kopiera de beräknade resultaten med hjälp av knappen "Kopiera resultat".
Formler
De viktigaste formlerna som används i boxplotberäkningar är:
-
Median (Q2): För en ordnad dataset med n element,
x_{\frac{n+1}{2}} & \text{om n är udda} \\ \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) & \text{om n är jämn} \end{cases} $$ -
Första kvartil (Q1) och tredje kvartil (Q3):
-
Interkvartilavstånd (IQR):
-
Whiskers:
-
Avvikare: Eventuella datapunkter under Lower Whisker eller över Upper Whisker.
Beräkning
Kalkylatorn utför följande steg för att generera boxploten:
- Sortera indata i stigande ordning.
- Beräkna medianen (Q2):
- Om antalet datapunkter är udda, är medianen det mittersta värdet.
- Om antalet datapunkter är jämnt, är medianen medelvärdet av de två mittersta värdena.
- Beräkna första kvartil (Q1):
- Detta är medianen av den nedre halvan av data.
- Om antalet datapunkter är udda, inkluderas inte medianen i någon halva.
- Beräkna tredje kvartil (Q3):
- Detta är medianen av den övre halvan av data.
- Om antalet datapunkter är udda, inkluderas inte medianen i någon halva.
- Beräkna interkvartilavståndet (IQR) = Q3 - Q1.
- Bestäm whiskers:
- Lower whisker: Den minsta datapunkten som är större än eller lika med Q1 - 1.5 * IQR
- Upper whisker: Den största datapunkten som är mindre än eller lika med Q3 + 1.5 * IQR
- Identifiera avvikare: Eventuella datapunkter under lower whisker eller över upper whisker.
Det är viktigt att notera att det finns olika metoder för att beräkna kvartiler, särskilt när man hanterar dataset som har ett jämnt antal element. Metoden som beskrivs ovan kallas "exklusiv" metod, men andra metoder som "inklusive" metod eller "median of medians" metod kan också användas. Valet av metod kan något påverka placeringen av Q1 och Q3, särskilt för små dataset.
Tolkning
- Lådan i diagrammet representerar interkvartilavståndet (IQR), med botten av lådan vid Q1 och toppen vid Q3.
- Linjen inuti lådan representerar medianen (Q2).
- Whiskers sträcker sig från lådan till minimum- och maximumvärdena, exklusive avvikare.
- Avvikare plottas som individuella punkter bortom whiskers.
Boxploten ger flera insikter om datan:
- Central tendens: Medianen visar det centrala värdet av datasetet.
- Variabilitet: IQR och den totala spridningen från minimum till maximum visar spridningen av data.
- Snedhet: Om medianen inte är centrerad inom lådan indikerar det snedhet i datan.
- Avvikare: Punkter bortom whiskers framhäver potentiella avvikare eller extrema värden.
Användningsområden
Boxplots är användbara inom olika områden, inklusive:
-
Statistik: För att visualisera fördelningen och snedheten av data. Till exempel, jämföra provresultat över olika skolor eller klasser.
-
Dataanalys: För att identifiera avvikare och jämföra fördelningar. Inom affärsvärlden kan det användas för att analysera försäljningsdata över olika regioner eller tidsperioder.
-
Vetenskaplig forskning: För att presentera resultat och jämföra grupper. Till exempel, jämföra effektiviteten av olika behandlingar i medicinska studier.
-
Kvalitetskontroll: För att övervaka processvariabler och identifiera avvikelser. Inom tillverkning kan det användas för att spåra produktmått och säkerställa att de ligger inom acceptabla gränser.
-
Finans: För att analysera aktiekursrörelser och andra finansiella mått. Till exempel, jämföra prestationen av olika fonder över tid.
-
Miljövetenskap: För att analysera och jämföra miljödata, såsom föroreningsnivåer eller temperaturvariationer över olika platser eller tidsperioder.
-
Sportanalys: För att jämföra spelarprestandastatistik över lag eller säsonger.
Alternativ
Även om boxplots är kraftfulla verktyg för datavisualisering, finns det flera alternativ beroende på de specifika behoven i analysen:
-
Histogram: Användbara för att visa frekvensfördelningen av en dataset. De ger mer detaljer om formen på fördelningen men kan vara mindre effektiva för att jämföra flera dataset.
-
Violinplots: Kombinerar funktionerna hos boxplots med kärntäthetsdiagram, vilket visar sannolikhetstätheten av data vid olika värden.
-
Punktdiagram: Idealiska för att visa relationen mellan två variabler, vilket boxplots inte kan göra.
-
Stapeldiagram: Lämpliga för att jämföra enskilda värden över olika kategorier.
-
Linjediagram: Effektiva för att visa trender över tid, vilket boxplots inte fångar väl.
-
Värmekartor: Användbara för att visualisera komplexa dataset med flera variabler.
Valet mellan dessa alternativ beror på datans natur och de specifika insikter man vill förmedla.
Historia
Boxploten uppfanns av John Tukey 1970 och dök först upp i hans bok "Exploratory Data Analysis" 1977. Tukeys ursprungliga design, kallad "schematisk plot", visade endast medianen, kvartilerna och extrema värden.
Viktiga utvecklingar i boxplotens historia inkluderar:
-
1978: McGill, Tukey och Larsen introducerade den notchade boxploten, som lägger till konfidensintervall för medianen.
-
1980-talet: Begreppet "avvikare" i boxplots blev mer standardiserat, vanligtvis definierat som punkter bortom 1.5 gånger IQR från kvartilerna.
-
1990-talet-2000-talet: Med framväxten av datagrafik utvecklades variationer som variabel bredd boxplots och violinplots.
-
Nutid: Interaktiva och dynamiska boxplots har blivit vanliga i datavisualiseringsprogram, vilket gör att användare kan utforska de underliggande datapunkterna.
Boxplots har stått emot tidens test på grund av deras enkelhet och effektivitet i att sammanfatta komplexa dataset. De fortsätter att vara en grundpelare inom dataanalys över många områden.
Kodsnuttar
Här är exempel på hur man skapar en boxplot i olika programmeringsspråk:
1=QUARTILE(A1:A100,1) ' Q1
2=MEDIAN(A1:A100) ' Median
3=QUARTILE(A1:A100,3) ' Q3
4=MIN(A1:A100) ' Minimum
5=MAX(A1:A100) ' Maximum
6
1## Förutsatt att 'data' är din vektor av nummer
2boxplot(data)
3
1% Förutsatt att 'data' är din vektor av nummer
2boxplot(data)
3
1// Använder D3.js
2var svg = d3.select("body").append("svg")
3 .attr("width", 400)
4 .attr("height", 300);
5
6var data = [/* din datamängd */];
7
8var boxplot = svg.append("g")
9 .datum(data)
10 .call(d3.boxplot());
11
1import matplotlib.pyplot as plt
2import numpy as np
3
4data = [/* din datamängd */]
5plt.boxplot(data)
6plt.show()
7
1import org.jfree.chart.ChartFactory;
2import org.jfree.chart.ChartPanel;
3import org.jfree.chart.JFreeChart;
4import org.jfree.data.statistics.DefaultBoxAndWhiskerCategoryDataset;
5
6DefaultBoxAndWhiskerCategoryDataset dataset = new DefaultBoxAndWhiskerCategoryDataset();
7dataset.add(Arrays.asList(/* din datamängd */), "Serie 1", "Kategori 1");
8
9JFreeChart chart = ChartFactory.createBoxAndWhiskerChart(
10 "Box Plot", "Kategori", "Värde", dataset, true);
11
Referenser
- Tukey, J. W. (1977). Exploratory Data Analysis. Addison-Wesley.
- McGill, R., Tukey, J. W., & Larsen, W. A. (1978). Variations of Box Plots. The American Statistician, 32(1), 12-16.
- Williamson, D. F., Parker, R. A., & Kendrick, J. S. (1989). The box plot: a simple visual method to interpret data. Annals of internal medicine, 110(11), 916-921.
- Wickham, H., & Stryjewski, L. (2011). 40 years of boxplots. Teknisk rapport, had.co.nz.
- Frigge, M., Hoaglin, D. C., & Iglewicz, B. (1989). Some Implementations of the Boxplot. The American Statistician, 43(1), 50-54.
Återkoppling
Klicka på återkopplingsmeddelandet för att börja ge återkoppling om detta verktyg
Relaterade verktyg
Upptäck fler verktyg som kan vara användbara för ditt arbetsflöde