Whiz Tools

Kalkulator kutijastog dijagrama

Kalkulator Box Plota

Uvod

Box plot, poznat i kao box-and-whisker plot, je standardizovani način prikazivanja raspodele podataka na osnovu pet brojeva: minimum, prvi kvartil (Q1), medijan, treći kvartil (Q3) i maksimum. Ovaj kalkulator vam omogućava da generišete box plot iz datog skupa numeričkih podataka, pružajući moćan alat za vizualizaciju i analizu podataka.

Kako koristiti ovaj kalkulator

  1. Unesite svoje podatke kao listu brojeva odvojenih zarezima ili razmacima u ulazno polje.
  2. Kalkulator će automatski izračunati statistiku box plota i prikazati rezultate.
  3. Vizuelni prikaz box plota će biti prikazan ispod rezultata.
  4. Možete kopirati izračunate rezultate koristeći dugme "Kopiraj rezultat".

Formula

Ključne formule korišćene u izračunavanju box plota su:

  1. Medijan (Q2): Za sortirani skup podataka od n elemenata,

    x_{\frac{n+1}{2}} & \text{ako je n neparan} \\ \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) & \text{ako je n paran} \end{cases} $$
  2. Prvi kvartil (Q1) i treći kvartil (Q3): Q1=Medijan donje polovine podatakaQ1 = \text{Medijan donje polovine podataka} Q3=Medijan gornje polovine podatakaQ3 = \text{Medijan gornje polovine podataka}

  3. Interkvartilni opseg (IQR): IQR=Q3Q1IQR = Q3 - Q1

  4. Brkovi: Donji brk=max(min(x),Q11.5IQR)\text{Donji brk} = \max({\min(x), Q1 - 1.5 * IQR}) Gornji brk=min(max(x),Q3+1.5IQR)\text{Gornji brk} = \min({\max(x), Q3 + 1.5 * IQR})

  5. Ekstremne vrednosti: Bilo koje tačke podataka ispod donjeg brka ili iznad gornjeg brka.

Izračunavanje

Kalkulator izvršava sledeće korake za generisanje box plota:

  1. Sortira ulazne podatke u rastućem redosledu.
  2. Izračunava medijan (Q2):
    • Ako je broj podataka neparan, medijan je srednja vrednost.
    • Ako je broj podataka paran, medijan je prosek dve srednje vrednosti.
  3. Izračunava prvi kvartil (Q1):
    • Ovo je medijan donje polovine podataka.
    • Ako je broj podataka neparan, medijan se ne uključuje u nijednu polovinu.
  4. Izračunava treći kvartil (Q3):
    • Ovo je medijan gornje polovine podataka.
    • Ako je broj podataka neparan, medijan se ne uključuje u nijednu polovinu.
  5. Izračunava interkvartilni opseg (IQR) = Q3 - Q1.
  6. Određuje brkove:
    • Donji brk: Najmanja tačka podataka veća ili jednaka Q1 - 1.5 * IQR
    • Gornji brk: Najveća tačka podataka manja ili jednaka Q3 + 1.5 * IQR
  7. Identifikuje ekstremne vrednosti: Bilo koje tačke podataka ispod donjeg brka ili iznad gornjeg brka.

Važno je napomenuti da postoje različite metode za izračunavanje kvartila, posebno kada se radi o skupovima podataka koji imaju paran broj elemenata. Metoda opisana iznad poznata je kao "ekskluzivna" metoda, ali se mogu koristiti i druge metode poput "inkluzivne" metode ili "medijane medijana". Izbor metode može blago uticati na poziciju Q1 i Q3, posebno za male skupove podataka.

Interpretacija

Q3 Medijan Q1 Min Max Komponente Box Plota
  • Kutija u grafiku predstavlja interkvartilni opseg (IQR), sa dnom kutije na Q1 i vrhom na Q3.
  • Linija unutar kutije predstavlja medijan (Q2).
  • Brkovi se protežu od kutije do minimalnih i maksimalnih vrednosti, isključujući ekstremne vrednosti.
  • Ekstremne vrednosti su prikazane kao pojedinačne tačke izvan brkova.

Box plot pruža nekoliko uvida o podacima:

  • Središnja tendencija: Medijan pokazuje centralnu vrednost skupa podataka.
  • Varijabilnost: IQR i ukupno širenje od minimuma do maksimuma pokazuju disperziju podataka.
  • Asimetričnost: Ako medijan nije centriran unutar kutije, to ukazuje na asimetričnost u podacima.
  • Ekstremne vrednosti: Tačke izvan brkova ističu potencijalne ekstremne vrednosti ili ekstremne tačke.

Upotreba

Box plotovi su korisni u različitim oblastima, uključujući:

  1. Statistika: Za vizualizaciju raspodele i asimetričnosti podataka. Na primer, upoređivanje rezultata testova između različitih škola ili razreda.

  2. Analiza podataka: Za identifikaciju ekstremnih vrednosti i upoređivanje raspodela. U poslovanju, to bi moglo biti korišćeno za analizu podataka o prodaji u različitim regionima ili vremenskim periodima.

  3. Naučna istraživanja: Za predstavljanje rezultata i upoređivanje grupa. Na primer, upoređivanje efikasnosti različitih tretmana u medicinskim studijama.

  4. Kontrola kvaliteta: Za praćenje procesnih varijabli i identifikaciju anomalija. U proizvodnji, to bi moglo biti korišćeno za praćenje dimenzija proizvoda i osiguranje da se nalaze unutar prihvatljivih granica.

  5. Finansije: Za analizu kretanja cena akcija i drugih finansijskih metrika. Na primer, upoređivanje performansi različitih uzajamnih fondova tokom vremena.

  6. Ekološke nauke: Za analizu i upoređivanje ekoloških podataka, kao što su nivoi zagađenja ili varijacije temperature u različitim lokacijama ili vremenskim periodima.

  7. Analitika sporta: Za upoređivanje statistike performansi igrača između timova ili sezona.

Alternativa

Iako su box plotovi moćni alati za vizualizaciju podataka, postoje nekoliko alternativa u zavisnosti od specifičnih potreba analize:

  1. Histogrami: Korisni za prikazivanje raspodele frekvencija skupa podataka. Pružaju više detalja o obliku raspodele, ali mogu biti manje efikasni za upoređivanje više skupova podataka.

  2. Violin plotovi: Kombinuju karakteristike box plotova sa kernel gustinskim plotovima, prikazujući verovatnoću gustine podataka na različitim vrednostima.

  3. Tačkasti grafici: Idealni za prikazivanje odnosa između dve varijable, što box plotovi ne mogu učiniti.

  4. Stubasti grafikoni: Pogodni za upoređivanje pojedinačnih vrednosti između različitih kategorija.

  5. Linijski grafikoni: Efikasni za prikazivanje trendova tokom vremena, što box plotovi ne hvataju dobro.

  6. Heatmap-ovi: Korisni za vizualizaciju složenih skupova podataka sa više varijabli.

Izbor između ovih alternativa zavisi od prirode podataka i specifičnih uvida koje želite da prenesete.

Istorija

Box plot je izumio John Tukey 1970. godine i prvi put se pojavio u njegovoj knjizi "Exploratory Data Analysis" 1977. godine. Tukeyjev originalni dizajn, nazvan "schematic plot", prikazivao je samo medijan, kvartile i ekstremne vrednosti.

Ključni razvoj u istoriji box plotova uključuje:

  1. 1978: McGill, Tukey i Larsen su uveli notirani box plot, koji dodaje intervale poverenja za medijan.

  2. 1980-e: Koncept "ekstremnih vrednosti" u box plotovima postao je standardizovan, obično definisan kao tačke izvan 1.5 puta IQR od kvartila.

  3. 1990-e-2000-e: Sa pojavom računarskih grafika, razvijene su varijacije poput box plotova promenljive širine i violin plotova.

  4. Danas: Interaktivni i dinamični box plotovi postali su uobičajeni u softveru za vizualizaciju podataka, omogućavajući korisnicima da istražuju osnovne tačke podataka.

Box plotovi su izdržali test vremena zbog svoje jednostavnosti i efikasnosti u sumiranju složenih skupova podataka. Oni i dalje ostaju osnovni alat u analizi podataka u mnogim oblastima.

Primeri koda

Evo primera kako kreirati box plot u različitim programskim jezicima:

=QUARTILE(A1:A100,1)  ' Q1
=MEDIAN(A1:A100)      ' Medijan
=QUARTILE(A1:A100,3)  ' Q3
=MIN(A1:A100)         ' Minimum
=MAX(A1:A100)         ' Maksimum
## Pretpostavljajući da je 'data' vaš vektor brojeva
boxplot(data)
% Pretpostavljajući da je 'data' vaš vektor brojeva
boxplot(data)
// Koristeći D3.js
var svg = d3.select("body").append("svg")
    .attr("width", 400)
    .attr("height", 300);

var data = [/* vaš niz podataka */];

var boxplot = svg.append("g")
    .datum(data)
    .call(d3.boxplot());
import matplotlib.pyplot as plt
import numpy as np

data = [/* vaš niz podataka */]
plt.boxplot(data)
plt.show()
import org.jfree.chart.ChartFactory;
import org.jfree.chart.ChartPanel;
import org.jfree.chart.JFreeChart;
import org.jfree.data.statistics.DefaultBoxAndWhiskerCategoryDataset;

DefaultBoxAndWhiskerCategoryDataset dataset = new DefaultBoxAndWhiskerCategoryDataset();
dataset.add(Arrays.asList(/* vaši podaci */), "Serija 1", "Kategorija 1");

JFreeChart chart = ChartFactory.createBoxAndWhiskerChart(
    "Box Plot", "Kategorija", "Vrednost", dataset, true);

Reference

  1. Tukey, J. W. (1977). Exploratory Data Analysis. Addison-Wesley.
  2. McGill, R., Tukey, J. W., & Larsen, W. A. (1978). Variations of Box Plots. The American Statistician, 32(1), 12-16.
  3. Williamson, D. F., Parker, R. A., & Kendrick, J. S. (1989). The box plot: a simple visual method to interpret data. Annals of internal medicine, 110(11), 916-921.
  4. Wickham, H., & Stryjewski, L. (2011). 40 years of boxplots. Tehnički izveštaj, had.co.nz.
  5. Frigge, M., Hoaglin, D. C., & Iglewicz, B. (1989). Some Implementations of the Boxplot. The American Statistician, 43(1), 50-54.
Feedback