Kalkulačka box plotu
Kalkulátor krabicového diagramu
Úvod
Krabicový diagram, známy aj ako krabicovo-čiarový diagram, je štandardizovaný spôsob zobrazenia rozdelenia údajov na základe piatich číselných súhrnov: minimum, prvý kvartil (Q1), medián, tretí kvartil (Q3) a maximum. Tento kalkulátor vám umožňuje generovať krabicový diagram z daného súboru číselných údajov, čo poskytuje mocný nástroj na vizualizáciu a analýzu údajov.
Ako používať tento kalkulátor
- Zadajte svoje údaje ako zoznam čísel oddelených čiarkou alebo medzerou do vstupného poľa.
- Kalkulátor automaticky vypočíta štatistiky krabicového diagramu a zobrazí výsledky.
- Vizualizácia krabicového diagramu bude zobrazená nižšie od výsledkov.
- Môžete skopírovať vypočítané výsledky pomocou tlačidla „Kopírovať výsledok“.
Formulár
Kľúčové vzorce použité pri výpočtoch krabicového diagramu sú:
-
Medián (Q2): Pre usporiadaný dataset s n prvkami,
x_{\frac{n+1}{2}} & \text{ak je n nepárne} \\ \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) & \text{ak je n párne} \end{cases} $$ -
Prvý kvartil (Q1) a tretí kvartil (Q3):
-
Interkvartilový rozsah (IQR):
-
Fúzy:
-
Odľahlé hodnoty: Akékoľvek údaje nižšie ako dolný fúz alebo vyššie ako horný fúz.
Výpočty
Kalkulátor vykonáva nasledujúce kroky na generovanie krabicového diagramu:
- Usporiadajte vstupné údaje vzostupne.
- Vypočítajte medián (Q2):
- Ak je počet údajov nepárny, medián je stredná hodnota.
- Ak je počet údajov párny, medián je priemerom dvoch stredných hodnôt.
- Vypočítajte prvý kvartil (Q1):
- Toto je medián dolnej polovice údajov.
- Ak je počet údajov nepárny, medián nie je zahrnutý v žiadnej polovici.
- Vypočítajte tretí kvartil (Q3):
- Toto je medián hornej polovice údajov.
- Ak je počet údajov nepárny, medián nie je zahrnutý v žiadnej polovici.
- Vypočítajte interkvartilový rozsah (IQR) = Q3 - Q1.
- Určte fúzy:
- Dolný fúz: Najmenšia hodnota údajov väčšia alebo rovná Q1 - 1.5 * IQR
- Horný fúz: Najväčšia hodnota údajov menšia alebo rovná Q3 + 1.5 * IQR
- Identifikujte odľahlé hodnoty: Akékoľvek údaje nižšie ako dolný fúz alebo vyššie ako horný fúz.
Je dôležité poznamenať, že existujú rôzne metódy na výpočet kvartilov, najmä pri práci s datasetmi, ktoré majú párny počet prvkov. Metóda opísaná vyššie je známa ako „exkluzívna“ metóda, ale môžu sa použiť aj iné metódy, ako je „inkluzívna“ metóda alebo „medián mediánov“. Voľba metódy môže mierne ovplyvniť polohu Q1 a Q3, najmä pre malé dataset.
Interpretácia
- Krabica v diagrame predstavuje interkvartilový rozsah (IQR), pričom spodná časť krabice je na Q1 a horná na Q3.
- Čiara vo vnútri krabice predstavuje medián (Q2).
- Fúzy sa rozprestierajú od krabice k minimálnym a maximálnym hodnotám, s výnimkou odľahlých hodnôt.
- Odľahlé hodnoty sú zobrazené ako jednotlivé body za fúzami.
Krabicový diagram poskytuje niekoľko pohľadov na údaje:
- Centrálna tendencia: Medián ukazuje centrálnu hodnotu datasetu.
- Variabilita: IQR a celkový rozptyl od minima po maximum ukazujú rozptýlenie údajov.
- Skewness: Ak nie je medián umiestnený v strede krabice, naznačuje to skewness v údajoch.
- Odľahlé hodnoty: Body za fúzami zvýrazňujú potenciálne odľahlé hodnoty alebo extrémne hodnoty.
Použitie
Krabicové diagramy sú užitočné v rôznych oblastiach, vrátane:
-
Štatistika: Na vizualizáciu rozdelenia a skewness údajov. Napríklad porovnávanie výsledkov testov medzi rôznymi školami alebo triedami.
-
Analýza údajov: Na identifikáciu odľahlých hodnôt a porovnávanie rozdelení. V podnikaní by sa mohlo použiť na analýzu predajných údajov v rôznych regiónoch alebo časových obdobiach.
-
Vedecký výskum: Na prezentáciu výsledkov a porovnávanie skupín. Napríklad porovnávanie účinnosti rôznych liečebných postupov v lekárskych štúdiách.
-
Kvalitná kontrola: Na monitorovanie procesných premenných a identifikáciu anomálií. V výrobe by sa to mohlo použiť na sledovanie rozmerov produktov a zabezpečenie, že spadajú do prijateľných rozmedzí.
-
Financie: Na analýzu pohybov cien akcií a iných finančných metrík. Napríklad porovnávanie výkonnosti rôznych podielových fondov v priebehu času.
-
Environmentálna veda: Na analýzu a porovnávanie environmentálnych údajov, ako sú úrovne znečistenia alebo teplotné variácie v rôznych lokalitách alebo časových obdobiach.
-
Športová analytika: Na porovnávanie štatistík výkonu hráčov medzi tímami alebo sezónami.
Alternatívy
Aj keď sú krabicové diagramy mocnými nástrojmi na vizualizáciu údajov, existuje niekoľko alternatív v závislosti od konkrétnych potrieb analýzy:
-
Histogramy: Užitečné na zobrazenie frekvenčného rozdelenia datasetu. Poskytujú viac detailov o tvare rozdelenia, ale môžu byť menej účinné pri porovnávaní viacerých datasetov.
-
Violínové diagramy: Kombinujú vlastnosti krabicových diagramov s grafmi hustoty jadra, ukazujúc pravdepodobnostnú hustotu údajov pri rôznych hodnotách.
-
Bodové grafy: Ideálne na zobrazenie vzťahu medzi dvoma premennými, čo krabicové diagramy nedokážu.
-
Stĺpcové grafy: Vhodné na porovnávanie jednotlivých hodnôt medzi rôznymi kategóriami.
-
Čiarové grafy: Efektívne na zobrazenie trendov v priebehu času, čo krabicové diagramy nezachytávajú dobre.
-
Teplotné mapy: Užitečné na vizualizáciu komplexných datasetov s viacerými premennými.
Voľba medzi týmito alternatívami závisí od povahy údajov a konkrétnych pohľadov, ktoré chce človek vyjadriť.
História
Krabicový diagram vynaliezol John Tukey v roku 1970 a prvýkrát sa objavil v jeho knihe „Exploratory Data Analysis“ v roku 1977. Pôvodný dizajn Tukeyho, nazývaný „schematický diagram“, zobrazoval iba medián, kvartily a extrémne hodnoty.
Hlavné vývojové udalosti v histórii krabicových diagramov zahŕňajú:
-
1978: McGill, Tukey a Larsen predstavili notovaný krabicový diagram, ktorý pridáva intervaly spoľahlivosti pre medián.
-
- roky: Koncept „odľahlých hodnôt“ v krabicových diagramoch sa stal štandardizovanejším, typicky definovaným ako body nad 1,5-krát IQR od kvartilov.
-
- roky-2000. roky: S príchodom počítačovej grafiky sa vyvinuli variácie ako krabicové diagramy s variabilnou šírkou a violínové diagramy.
-
Súčasnosť: Interaktívne a dynamické krabicové diagramy sa stali bežnými v softvéri na vizualizáciu údajov, čo umožňuje používateľom preskúmať podkladové údaje.
Krabicové diagramy obstáli v skúške času vďaka svojej jednoduchosti a efektívnosti pri zhrnutí komplexných datasetov. Naďalej sú základným nástrojom v analýze údajov v mnohých oblastiach.
Kódové úryvky
Tu sú príklady, ako vytvoriť krabicový diagram v rôznych programovacích jazykoch:
=QUARTILE(A1:A100,1) ' Q1
=MEDIAN(A1:A100) ' Medián
=QUARTILE(A1:A100,3) ' Q3
=MIN(A1:A100) ' Minimum
=MAX(A1:A100) ' Maximum
Odkazy
- Tukey, J. W. (1977). Exploratory Data Analysis. Addison-Wesley.
- McGill, R., Tukey, J. W., & Larsen, W. A. (1978). Variations of Box Plots. The American Statistician, 32(1), 12-16.
- Williamson, D. F., Parker, R. A., & Kendrick, J. S. (1989). The box plot: a simple visual method to interpret data. Annals of internal medicine, 110(11), 916-921.
- Wickham, H., & Stryjewski, L. (2011). 40 years of boxplots. Technická správa, had.co.nz.
- Frigge, M., Hoaglin, D. C., & Iglewicz, B. (1989). Some Implementations of the Boxplot. The American Statistician, 43(1), 50-54.