🛠️

Whiz Tools

Build • Create • Innovate

Kalkulátor krabicových grafů pro analýzu dat a vizualizaci

Vytvořte vizuální analýzu svého datového souboru pomocí krabicového a vousatého grafu. Tento nástroj vypočítává a zobrazuje klíčové statistické ukazatele včetně kvartilů, mediánu a odlehlých hodnot.

Kalkulátor krabicových diagramů

Kalkulátor krabicových diagramů

📚

Dokumentace

Kalkulátor Box Plotu

Úvod

Box plot, také známý jako box-and-whisker plot, je standardizovaný způsob zobrazení rozložení dat na základě pětice čísel: minimum, první kvartil (Q1), medián, třetí kvartil (Q3) a maximum. Tento kalkulátor vám umožňuje generovat box plot z dané sady číselných dat, což poskytuje mocný nástroj pro vizualizaci a analýzu dat.

Jak používat tento kalkulátor

  1. Zadejte svá data jako seznam čísel oddělených čárkami nebo mezerami do vstupního pole.
  2. Kalkulátor automaticky vypočítá statistiky box plotu a zobrazí výsledky.
  3. Vizualizace box plotu bude zobrazena níže výsledků.
  4. Můžete zkopírovat vypočítané výsledky pomocí tlačítka "Kopírovat výsledek".

Vzorec

Hlavní vzorce použité v kalkulacích box plotu jsou:

  1. Medián (Q2): Pro seřazenou datovou sadu o n prvcích,

    x_{\frac{n+1}{2}} & \text{pokud je n liché} \\ \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) & \text{pokud je n sudé} \end{cases} $$
  2. První kvartil (Q1) a třetí kvartil (Q3): Q1=Mediaˊn dolnıˊ poloviny datQ1 = \text{Medián dolní poloviny dat} Q3=Mediaˊn hornıˊ poloviny datQ3 = \text{Medián horní poloviny dat}

  3. Mezikvartilový rozsah (IQR): IQR=Q3Q1IQR = Q3 - Q1

  4. Antény: Dolnıˊ anteˊna=max(min(x),Q11.5IQR)\text{Dolní anténa} = \max({\min(x), Q1 - 1.5 * IQR}) Hornıˊ anteˊna=min(max(x),Q3+1.5IQR)\text{Horní anténa} = \min({\max(x), Q3 + 1.5 * IQR})

  5. Odlehlé hodnoty: Jakékoli datové body pod dolní anténou nebo nad horní anténou.

Výpočet

Kalkulátor provádí následující kroky k vygenerování box plotu:

  1. Seřadí vstupní data vzestupně.
  2. Vypočítá medián (Q2):
    • Pokud je počet datových bodů lichý, medián je střední hodnota.
    • Pokud je počet datových bodů sudý, medián je průměr dvou středních hodnot.
  3. Vypočítá první kvartil (Q1):
    • To je medián dolní poloviny dat.
    • Pokud je počet datových bodů lichý, medián není zahrnut v žádné polovině.
  4. Vypočítá třetí kvartil (Q3):
    • To je medián horní poloviny dat.
    • Pokud je počet datových bodů lichý, medián není zahrnut v žádné polovině.
  5. Vypočítá mezikvartilový rozsah (IQR) = Q3 - Q1.
  6. Určí antény:
    • Dolní anténa: Nejmenší datový bod větší nebo rovný Q1 - 1.5 * IQR
    • Horní anténa: Největší datový bod menší nebo rovný Q3 + 1.5 * IQR
  7. Identifikuje odlehlé hodnoty: Jakékoli datové body pod dolní anténou nebo nad horní anténou.

Je důležité poznamenat, že existují různé metody pro výpočet kvartilů, zejména při práci s datovými sadami, které mají sudý počet prvků. Metoda popsaná výše je známá jako "exkluzivní" metoda, ale mohou být použity také jiné metody, jako je "inkluzivní" metoda nebo "medián mediánů". Volba metody může mírně ovlivnit polohu Q1 a Q3, zejména pro malé datové sady.

Interpretace

Q3 Medián Q1 Min Max Komponenty Box Plotu
  • Box v grafu představuje mezikvartilový rozsah (IQR), přičemž spodní část boxu je na Q1 a horní část na Q3.
  • Čára uvnitř boxu představuje medián (Q2).
  • Antény se rozprostírají od boxu k minimálním a maximálním hodnotám, s výjimkou odlehlých hodnot.
  • Odlehlé hodnoty jsou zobrazeny jako jednotlivé body za anténami.

Box plot poskytuje několik poznatků o datech:

  • Centrální tendence: Medián ukazuje centrální hodnotu datové sady.
  • Variabilita: IQR a celkové rozptýlení od minima k maximu ukazují rozptyl dat.
  • Skewness: Pokud není medián centrován uvnitř boxu, naznačuje to sklon v datech.
  • Odlehlé hodnoty: Body za anténami zdůrazňují potenciální odlehlé hodnoty nebo extrémní hodnoty.

Případy použití

Box ploty jsou užitečné v různých oblastech, včetně:

  1. Statistika: Pro vizualizaci rozložení a sklonu dat. Například porovnání výsledků testů mezi různými školami nebo třídami.

  2. Analýza dat: Pro identifikaci odlehlých hodnot a porovnání rozložení. V podnikání by to mohlo být použito k analýze prodejních dat napříč různými regiony nebo časovými obdobími.

  3. Vědecký výzkum: Pro prezentaci výsledků a porovnání skupin. Například porovnání účinnosti různých léčebných postupů v lékařských studiích.

  4. Kontrola kvality: Pro sledování procesních proměnných a identifikaci anomálií. V průmyslu by to mohlo být použito k sledování rozměrů výrobků a zajištění, že spadají do přijatelných rozmezí.

  5. Finance: Pro analýzu pohybů cen akcií a dalších finančních metrik. Například porovnání výkonu různých podílových fondů v průběhu času.

  6. Environmentální věda: Pro analýzu a porovnání environmentálních dat, jako jsou úrovně znečištění nebo teplotní variace napříč různými lokalitami nebo časovými obdobími.

  7. Sportovní analytika: Pro porovnání statistik výkonu hráčů napříč týmy nebo sezónami.

Alternativy

Ačkoli jsou box ploty mocné nástroje pro vizualizaci dat, existuje několik alternativ v závislosti na konkrétních potřebách analýzy:

  1. Histogramy: Užitečné pro zobrazení frekvenčního rozložení datové sady. Poskytují více detailů o tvaru rozložení, ale mohou být méně efektivní pro porovnání více datových sad.

  2. Violin Plots: Kombinují vlastnosti box plotů s jádrovými hustotními grafy, ukazující pravděpodobnostní hustotu dat na různých hodnotách.

  3. Bodové grafy: Ideální pro zobrazení vztahu mezi dvěma proměnnými, což box ploty nemohou udělat.

  4. Sloupcové grafy: Vhodné pro porovnání jednotlivých hodnot napříč různými kategoriemi.

  5. Čárové grafy: Efektivní pro zobrazení trendů v čase, což box ploty dobře nezachycují.

  6. Heatmapy: Užitečné pro vizualizaci složitých datových sad s více proměnnými.

Volba mezi těmito alternativami závisí na povaze dat a konkrétních poznatcích, které chce člověk sdělit.

Historie

Box plot byl vynalezen Johnem Tukeyem v roce 1970 a poprvé se objevil v jeho knize "Exploratory Data Analysis" v roce 1977. Původní design Tukeyho, nazývaný "schematický graf", zobrazoval pouze medián, kvartily a extrémní hodnoty.

Klíčové události v historii box plotů zahrnují:

  1. 1978: McGill, Tukey a Larsen představili notovaný box plot, který přidává intervaly spolehlivosti pro medián.

    1. léta: Koncept "odlehlých hodnot" v box plotu se stal více standardizovaným, obvykle definovaným jako body mimo 1,5 násobek IQR od kvartilů.
    1. léta - 2000. léta: S příchodem počítačové grafiky byly vyvinuty varianty jako box ploty s proměnnou šířkou a violin ploty.
  2. Současnost: Interaktivní a dynamické box ploty se staly běžnými v softwaru pro vizualizaci dat, což umožňuje uživatelům prozkoumávat podkladové datové body.

Box ploty obstály v testu času díky své jednoduchosti a efektivitě při shrnutí složitých datových sad. I nadále jsou základním nástrojem v analýze dat napříč mnoha oblastmi.

Kódové ukázky

Zde jsou příklady, jak vytvořit box plot v různých programovacích jazycích:

1=QUARTILE(A1:A100,1)  ' Q1
2=MEDIAN(A1:A100)      ' Medián
3=QUARTILE(A1:A100,3)  ' Q3
4=MIN(A1:A100)         ' Minimum
5=MAX(A1:A100)         ' Maximum
6

Odkazy

  1. Tukey, J. W. (1977). Exploratory Data Analysis. Addison-Wesley.
  2. McGill, R., Tukey, J. W., & Larsen, W. A. (1978). Variations of Box Plots. The American Statistician, 32(1), 12-16.
  3. Williamson, D. F., Parker, R. A., & Kendrick, J. S. (1989). The box plot: a simple visual method to interpret data. Annals of internal medicine, 110(11), 916-921.
  4. Wickham, H., & Stryjewski, L. (2011). 40 years of boxplots. Technická zpráva, had.co.nz.
  5. Frigge, M., Hoaglin, D. C., & Iglewicz, B. (1989). Some Implementations of the Boxplot. The American Statistician, 43(1), 50-54.