Kalkulator kutijastog dijagrama
Kalkulator Box Plota
Uvod
Box plot, poznat i kao box-and-whisker plot, je standardizovani način prikazivanja raspodele podataka na osnovu pet brojeva: minimum, prvi kvartil (Q1), medijan, treći kvartil (Q3) i maksimum. Ovaj kalkulator vam omogućava da generišete box plot iz datog skupa numeričkih podataka, pružajući moćan alat za vizualizaciju i analizu podataka.
Kako koristiti ovaj kalkulator
- Unesite svoje podatke kao listu brojeva odvojenih zarezima ili razmacima u ulazno polje.
- Kalkulator će automatski izračunati statistiku box plota i prikazati rezultate.
- Vizuelni prikaz box plota će biti prikazan ispod rezultata.
- Možete kopirati izračunate rezultate koristeći dugme "Kopiraj rezultat".
Formula
Ključne formule korišćene u izračunavanju box plota su:
-
Medijan (Q2): Za sortirani skup podataka od n elemenata,
x_{\frac{n+1}{2}} & \text{ako je n neparan} \\ \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) & \text{ako je n paran} \end{cases} $$ -
Prvi kvartil (Q1) i treći kvartil (Q3):
-
Interkvartilni opseg (IQR):
-
Brkovi:
-
Ekstremne vrednosti: Bilo koje tačke podataka ispod donjeg brka ili iznad gornjeg brka.
Izračunavanje
Kalkulator izvršava sledeće korake za generisanje box plota:
- Sortira ulazne podatke u rastućem redosledu.
- Izračunava medijan (Q2):
- Ako je broj podataka neparan, medijan je srednja vrednost.
- Ako je broj podataka paran, medijan je prosek dve srednje vrednosti.
- Izračunava prvi kvartil (Q1):
- Ovo je medijan donje polovine podataka.
- Ako je broj podataka neparan, medijan se ne uključuje u nijednu polovinu.
- Izračunava treći kvartil (Q3):
- Ovo je medijan gornje polovine podataka.
- Ako je broj podataka neparan, medijan se ne uključuje u nijednu polovinu.
- Izračunava interkvartilni opseg (IQR) = Q3 - Q1.
- Određuje brkove:
- Donji brk: Najmanja tačka podataka veća ili jednaka Q1 - 1.5 * IQR
- Gornji brk: Najveća tačka podataka manja ili jednaka Q3 + 1.5 * IQR
- Identifikuje ekstremne vrednosti: Bilo koje tačke podataka ispod donjeg brka ili iznad gornjeg brka.
Važno je napomenuti da postoje različite metode za izračunavanje kvartila, posebno kada se radi o skupovima podataka koji imaju paran broj elemenata. Metoda opisana iznad poznata je kao "ekskluzivna" metoda, ali se mogu koristiti i druge metode poput "inkluzivne" metode ili "medijane medijana". Izbor metode može blago uticati na poziciju Q1 i Q3, posebno za male skupove podataka.
Interpretacija
- Kutija u grafiku predstavlja interkvartilni opseg (IQR), sa dnom kutije na Q1 i vrhom na Q3.
- Linija unutar kutije predstavlja medijan (Q2).
- Brkovi se protežu od kutije do minimalnih i maksimalnih vrednosti, isključujući ekstremne vrednosti.
- Ekstremne vrednosti su prikazane kao pojedinačne tačke izvan brkova.
Box plot pruža nekoliko uvida o podacima:
- Središnja tendencija: Medijan pokazuje centralnu vrednost skupa podataka.
- Varijabilnost: IQR i ukupno širenje od minimuma do maksimuma pokazuju disperziju podataka.
- Asimetričnost: Ako medijan nije centriran unutar kutije, to ukazuje na asimetričnost u podacima.
- Ekstremne vrednosti: Tačke izvan brkova ističu potencijalne ekstremne vrednosti ili ekstremne tačke.
Upotreba
Box plotovi su korisni u različitim oblastima, uključujući:
-
Statistika: Za vizualizaciju raspodele i asimetričnosti podataka. Na primer, upoređivanje rezultata testova između različitih škola ili razreda.
-
Analiza podataka: Za identifikaciju ekstremnih vrednosti i upoređivanje raspodela. U poslovanju, to bi moglo biti korišćeno za analizu podataka o prodaji u različitim regionima ili vremenskim periodima.
-
Naučna istraživanja: Za predstavljanje rezultata i upoređivanje grupa. Na primer, upoređivanje efikasnosti različitih tretmana u medicinskim studijama.
-
Kontrola kvaliteta: Za praćenje procesnih varijabli i identifikaciju anomalija. U proizvodnji, to bi moglo biti korišćeno za praćenje dimenzija proizvoda i osiguranje da se nalaze unutar prihvatljivih granica.
-
Finansije: Za analizu kretanja cena akcija i drugih finansijskih metrika. Na primer, upoređivanje performansi različitih uzajamnih fondova tokom vremena.
-
Ekološke nauke: Za analizu i upoređivanje ekoloških podataka, kao što su nivoi zagađenja ili varijacije temperature u različitim lokacijama ili vremenskim periodima.
-
Analitika sporta: Za upoređivanje statistike performansi igrača između timova ili sezona.
Alternativa
Iako su box plotovi moćni alati za vizualizaciju podataka, postoje nekoliko alternativa u zavisnosti od specifičnih potreba analize:
-
Histogrami: Korisni za prikazivanje raspodele frekvencija skupa podataka. Pružaju više detalja o obliku raspodele, ali mogu biti manje efikasni za upoređivanje više skupova podataka.
-
Violin plotovi: Kombinuju karakteristike box plotova sa kernel gustinskim plotovima, prikazujući verovatnoću gustine podataka na različitim vrednostima.
-
Tačkasti grafici: Idealni za prikazivanje odnosa između dve varijable, što box plotovi ne mogu učiniti.
-
Stubasti grafikoni: Pogodni za upoređivanje pojedinačnih vrednosti između različitih kategorija.
-
Linijski grafikoni: Efikasni za prikazivanje trendova tokom vremena, što box plotovi ne hvataju dobro.
-
Heatmap-ovi: Korisni za vizualizaciju složenih skupova podataka sa više varijabli.
Izbor između ovih alternativa zavisi od prirode podataka i specifičnih uvida koje želite da prenesete.
Istorija
Box plot je izumio John Tukey 1970. godine i prvi put se pojavio u njegovoj knjizi "Exploratory Data Analysis" 1977. godine. Tukeyjev originalni dizajn, nazvan "schematic plot", prikazivao je samo medijan, kvartile i ekstremne vrednosti.
Ključni razvoj u istoriji box plotova uključuje:
-
1978: McGill, Tukey i Larsen su uveli notirani box plot, koji dodaje intervale poverenja za medijan.
-
1980-e: Koncept "ekstremnih vrednosti" u box plotovima postao je standardizovan, obično definisan kao tačke izvan 1.5 puta IQR od kvartila.
-
1990-e-2000-e: Sa pojavom računarskih grafika, razvijene su varijacije poput box plotova promenljive širine i violin plotova.
-
Danas: Interaktivni i dinamični box plotovi postali su uobičajeni u softveru za vizualizaciju podataka, omogućavajući korisnicima da istražuju osnovne tačke podataka.
Box plotovi su izdržali test vremena zbog svoje jednostavnosti i efikasnosti u sumiranju složenih skupova podataka. Oni i dalje ostaju osnovni alat u analizi podataka u mnogim oblastima.
Primeri koda
Evo primera kako kreirati box plot u različitim programskim jezicima:
=QUARTILE(A1:A100,1) ' Q1
=MEDIAN(A1:A100) ' Medijan
=QUARTILE(A1:A100,3) ' Q3
=MIN(A1:A100) ' Minimum
=MAX(A1:A100) ' Maksimum
Reference
- Tukey, J. W. (1977). Exploratory Data Analysis. Addison-Wesley.
- McGill, R., Tukey, J. W., & Larsen, W. A. (1978). Variations of Box Plots. The American Statistician, 32(1), 12-16.
- Williamson, D. F., Parker, R. A., & Kendrick, J. S. (1989). The box plot: a simple visual method to interpret data. Annals of internal medicine, 110(11), 916-921.
- Wickham, H., & Stryjewski, L. (2011). 40 years of boxplots. Tehnički izveštaj, had.co.nz.
- Frigge, M., Hoaglin, D. C., & Iglewicz, B. (1989). Some Implementations of the Boxplot. The American Statistician, 43(1), 50-54.