Whiz Tools

Kalkulator škatlastih diagramov

Kalkulator za Box Plot

Uvod

Box plot, znan tudi kot box-and-whisker plot, je standardiziran način prikazovanja porazdelitve podatkov na podlagi pet številčnega povzetka: minimum, prvi kvartil (Q1), mediana, tretji kvartil (Q3) in maksimum. Ta kalkulator vam omogoča, da ustvarite box plot iz danega nabora numeričnih podatkov, kar predstavlja močno orodje za vizualizacijo in analizo podatkov.

Kako uporabljati ta kalkulator

  1. Vnesite svoje podatke kot seznam števil, ločenih s vejicami ali presledki, v vhodno polje.
  2. Kalkulator bo samodejno izračunal statistiko box plota in prikazal rezultate.
  3. Vizualna predstavitev box plota bo prikazana spodaj z rezultati.
  4. Izračunane rezultate lahko kopirate s pomočjo gumba "Kopiraj rezultat".

Formula

Ključne formule, uporabljene pri izračunih box plota, so:

  1. Mediana (Q2): Za urejen nabor podatkov z n elementi,

    x_{\frac{n+1}{2}} & \text{če je n liho} \\ \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) & \text{če je n sodo} \end{cases} $$
  2. Prvi kvartil (Q1) in tretji kvartil (Q3): Q1=Mediana spodnje polovice podatkovQ1 = \text{Mediana spodnje polovice podatkov} Q3=Mediana zgornje polovice podatkovQ3 = \text{Mediana zgornje polovice podatkov}

  3. Interkvartilni razpon (IQR): IQR=Q3Q1IQR = Q3 - Q1

  4. Antene: Spodnja antena=max(min(x),Q11.5IQR)\text{Spodnja antena} = \max({\min(x), Q1 - 1.5 * IQR}) Zgornja antena=min(max(x),Q3+1.5IQR)\text{Zgornja antena} = \min({\max(x), Q3 + 1.5 * IQR})

  5. Odkloni: Kateri koli podatkovni točki, ki so pod spodnjo anteno ali nad zgornjo anteno.

Izračun

Kalkulator izvede naslednje korake za generiranje box plota:

  1. Uredi vhodne podatke v naraščajočem vrstnem redu.
  2. Izračuna mediano (Q2):
    • Če je število podatkovnih točk liho, je mediana srednja vrednost.
    • Če je število podatkovnih točk sodo, je mediana povprečje dveh srednjih vrednosti.
  3. Izračuna prvi kvartil (Q1):
    • To je mediana spodnje polovice podatkov.
    • Če je število podatkovnih točk liho, mediana ni vključena v nobeno polovico.
  4. Izračuna tretji kvartil (Q3):
    • To je mediana zgornje polovice podatkov.
    • Če je število podatkovnih točk liho, mediana ni vključena v nobeno polovico.
  5. Izračuna interkvartilni razpon (IQR) = Q3 - Q1.
  6. Določi antene:
    • Spodnja antena: Najmanjša podatkovna točka, ki je večja ali enaka Q1 - 1.5 * IQR
    • Zgornja antena: Največja podatkovna točka, ki je manjša ali enaka Q3 + 1.5 * IQR
  7. Identificira odklone: Kateri koli podatkovni točki, ki so pod spodnjo anteno ali nad zgornjo anteno.

Pomembno je omeniti, da obstajajo različne metode za izračun kvartilov, zlasti pri obravnavi podatkovnih nizov, ki imajo sodo število elementov. Metoda, opisana zgoraj, je znana kot "ekskluzivna" metoda, vendar se lahko uporabljajo tudi druge metode, kot so "inkluzivna" metoda ali "mediana medijanov" metoda. Izbira metode lahko rahlo vpliva na položaj Q1 in Q3, zlasti za majhne podatkovne nize.

Interpretacija

Q3 Mediana Q1 Min Max Komponente Box Plota
  • Škatla v grafu predstavlja interkvartilni razpon (IQR), pri čemer je dno škatle pri Q1 in vrh pri Q3.
  • Črta znotraj škatle predstavlja mediano (Q2).
  • Antene se raztezajo od škatle do najmanjših in največjih vrednosti, razen odklonov.
  • Odkloni so prikazani kot posamezne točke zunaj anten.

Box plot nudi več vpogledov v podatke:

  • Srednja tendenca: Mediana prikazuje osrednjo vrednost podatkovnega nabora.
  • Variabilnost: IQR in celotno širjenje od minimuma do maksimuma prikazujejo disperzijo podatkov.
  • Skewness: Če mediana ni centrirana znotraj škatle, to kaže na skewness v podatkih.
  • Odkloni: Točke zunaj anten izpostavljajo potencialne odklone ali ekstremne vrednosti.

Uporabe

Box ploti so uporabni na različnih področjih, vključno z:

  1. Statistika: Za vizualizacijo porazdelitve in skewness podatkov. Na primer, primerjava rezultatov testov med različnimi šolami ali razredi.

  2. Analiza podatkov: Za identifikacijo odklonov in primerjavo porazdelitev. V poslu se lahko uporablja za analizo prodajnih podatkov po različnih regijah ali časovnih obdobjih.

  3. Znanstveno raziskovanje: Za predstavitev rezultatov in primerjavo skupin. Na primer, primerjava učinkovitosti različnih zdravljenj v medicinskih študijah.

  4. Nadzor kakovosti: Za spremljanje spremenljivk procesov in identifikacijo anomalij. V proizvodnji se lahko uporablja za spremljanje dimenzij izdelkov in zagotavljanje, da padejo v sprejemljive razpone.

  5. Finance: Za analizo gibanja cen delnic in drugih finančnih metrik. Na primer, primerjava uspešnosti različnih vzajemnih skladov skozi čas.

  6. Okoljska znanost: Za analizo in primerjavo okoljskih podatkov, kot so ravni onesnaženja ali temperaturne variacije po različnih lokacijah ali časovnih obdobjih.

  7. Analitika športov: Za primerjavo statistike uspešnosti igralcev med ekipami ali sezonami.

Alternative

Čeprav so box ploti močna orodja za vizualizacijo podatkov, obstaja več alternativ, odvisno od specifičnih potreb analize:

  1. Histogrami: Uporabni za prikaz frekvenčne porazdelitve podatkovnega nabora. Nudijo več podrobnosti o obliki porazdelitve, vendar so morda manj učinkoviti pri primerjavi več podatkovnih nizov.

  2. Violin ploti: Združujejo lastnosti box plotov s krmilnimi gostotnimi ploti, ki prikazujejo verjetnostno gostoto podatkov pri različnih vrednostih.

  3. Razpršeni ploti: Idealni za prikazovanje odnosa med dvema spremenljivkama, česar box ploti ne morejo storiti.

  4. Stolpčni grafi: Primerni za primerjavo posameznih vrednosti med različnimi kategorijami.

  5. Črti grafi: Učinkoviti za prikaz trendov skozi čas, kar box ploti ne zajamejo dobro.

  6. Toplotne karte: Uporabne za vizualizacijo kompleksnih podatkovnih nizov z več spremenljivkami.

Izbira med temi alternativami je odvisna od narave podatkov in specifičnih vpogledov, ki jih želimo posredovati.

Zgodovina

Box plot je izumil John Tukey leta 1970 in se je prvič pojavil v njegovi knjigi "Exploratory Data Analysis" leta 1977. Tukeyjev prvotni dizajn, imenovan "shema plota", je prikazoval le mediano, kvartile in ekstremne vrednosti.

Ključni dogodki v zgodovini box plotov vključujejo:

  1. 1978: McGill, Tukey in Larsen so uvedli notirane box plote, ki dodajajo intervale zaupanja za mediano.

  2. 1980-ih: Koncept "odklonov" v box plotih je postal bolj standardiziran, običajno opredeljen kot točke, ki presegajo 1.5-kratni IQR od kvartilov.

  3. 1990-ih-2000-ih: Z nastankom računalniške grafike so se razvile različice, kot so box ploti spremenljive širine in violin ploti.

  4. Danes: Interaktivni in dinamični box ploti so postali pogosti v programski opremi za vizualizacijo podatkov, kar uporabnikom omogoča raziskovanje osnovnih podatkovnih točk.

Box ploti so preživeli preizkus časa zaradi svoje preprostosti in učinkovitosti pri povzemanju kompleksnih podatkovnih nizov. Še naprej so osnovno orodje v analizi podatkov na mnogih področjih.

Kode

Tukaj so primeri, kako ustvariti box plot v različnih programskih jezikih:

=QUARTILE(A1:A100,1)  ' Q1
=MEDIAN(A1:A100)      ' Mediana
=QUARTILE(A1:A100,3)  ' Q3
=MIN(A1:A100)         ' Minimum
=MAX(A1:A100)         ' Maksimum
## Predpostavljamo, da je 'data' vaš vektor števil
boxplot(data)
% Predpostavljamo, da je 'data' vaš vektor števil
boxplot(data)
// Uporaba D3.js
var svg = d3.select("body").append("svg")
    .attr("width", 400)
    .attr("height", 300);

var data = [/* vaš podatkovni niz */];

var boxplot = svg.append("g")
    .datum(data)
    .call(d3.boxplot());
import matplotlib.pyplot as plt
import numpy as np

data = [/* vaš podatkovni niz */]
plt.boxplot(data)
plt.show()
import org.jfree.chart.ChartFactory;
import org.jfree.chart.ChartPanel;
import org.jfree.chart.JFreeChart;
import org.jfree.data.statistics.DefaultBoxAndWhiskerCategoryDataset;

DefaultBoxAndWhiskerCategoryDataset dataset = new DefaultBoxAndWhiskerCategoryDataset();
dataset.add(Arrays.asList(/* vaši podatki */), "Serija 1", "Kategorija 1");

JFreeChart chart = ChartFactory.createBoxAndWhiskerChart(
    "Box Plot", "Kategorija", "Vrednost", dataset, true);

Reference

  1. Tukey, J. W. (1977). Exploratory Data Analysis. Addison-Wesley.
  2. McGill, R., Tukey, J. W., & Larsen, W. A. (1978). Variations of Box Plots. The American Statistician, 32(1), 12-16.
  3. Williamson, D. F., Parker, R. A., & Kendrick, J. S. (1989). The box plot: a simple visual method to interpret data. Annals of internal medicine, 110(11), 916-921.
  4. Wickham, H., & Stryjewski, L. (2011). 40 years of boxplots. Tehnična poročila, had.co.nz.
  5. Frigge, M., Hoaglin, D. C., & Iglewicz, B. (1989). Some Implementations of the Boxplot. The American Statistician, 43(1), 50-54.
Feedback