Vytvořte vizuální analýzu svého datového souboru pomocí krabicového a vousatého grafu. Tento nástroj vypočítává a zobrazuje klíčové statistické ukazatele včetně kvartilů, mediánu a odlehlých hodnot.
Box plot, také známý jako box-and-whisker plot, je standardizovaný způsob zobrazení rozložení dat na základě pětice čísel: minimum, první kvartil (Q1), medián, třetí kvartil (Q3) a maximum. Tento kalkulátor vám umožňuje generovat box plot z dané sady číselných dat, což poskytuje mocný nástroj pro vizualizaci a analýzu dat.
Hlavní vzorce použité v kalkulacích box plotu jsou:
Medián (Q2): Pro seřazenou datovou sadu o n prvcích,
x_{\frac{n+1}{2}} & \text{pokud je n liché} \\ \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) & \text{pokud je n sudé} \end{cases} $$První kvartil (Q1) a třetí kvartil (Q3):
Mezikvartilový rozsah (IQR):
Antény:
Odlehlé hodnoty: Jakékoli datové body pod dolní anténou nebo nad horní anténou.
Kalkulátor provádí následující kroky k vygenerování box plotu:
Je důležité poznamenat, že existují různé metody pro výpočet kvartilů, zejména při práci s datovými sadami, které mají sudý počet prvků. Metoda popsaná výše je známá jako "exkluzivní" metoda, ale mohou být použity také jiné metody, jako je "inkluzivní" metoda nebo "medián mediánů". Volba metody může mírně ovlivnit polohu Q1 a Q3, zejména pro malé datové sady.
Box plot poskytuje několik poznatků o datech:
Box ploty jsou užitečné v různých oblastech, včetně:
Statistika: Pro vizualizaci rozložení a sklonu dat. Například porovnání výsledků testů mezi různými školami nebo třídami.
Analýza dat: Pro identifikaci odlehlých hodnot a porovnání rozložení. V podnikání by to mohlo být použito k analýze prodejních dat napříč různými regiony nebo časovými obdobími.
Vědecký výzkum: Pro prezentaci výsledků a porovnání skupin. Například porovnání účinnosti různých léčebných postupů v lékařských studiích.
Kontrola kvality: Pro sledování procesních proměnných a identifikaci anomálií. V průmyslu by to mohlo být použito k sledování rozměrů výrobků a zajištění, že spadají do přijatelných rozmezí.
Finance: Pro analýzu pohybů cen akcií a dalších finančních metrik. Například porovnání výkonu různých podílových fondů v průběhu času.
Environmentální věda: Pro analýzu a porovnání environmentálních dat, jako jsou úrovně znečištění nebo teplotní variace napříč různými lokalitami nebo časovými obdobími.
Sportovní analytika: Pro porovnání statistik výkonu hráčů napříč týmy nebo sezónami.
Ačkoli jsou box ploty mocné nástroje pro vizualizaci dat, existuje několik alternativ v závislosti na konkrétních potřebách analýzy:
Histogramy: Užitečné pro zobrazení frekvenčního rozložení datové sady. Poskytují více detailů o tvaru rozložení, ale mohou být méně efektivní pro porovnání více datových sad.
Violin Plots: Kombinují vlastnosti box plotů s jádrovými hustotními grafy, ukazující pravděpodobnostní hustotu dat na různých hodnotách.
Bodové grafy: Ideální pro zobrazení vztahu mezi dvěma proměnnými, což box ploty nemohou udělat.
Sloupcové grafy: Vhodné pro porovnání jednotlivých hodnot napříč různými kategoriemi.
Čárové grafy: Efektivní pro zobrazení trendů v čase, což box ploty dobře nezachycují.
Heatmapy: Užitečné pro vizualizaci složitých datových sad s více proměnnými.
Volba mezi těmito alternativami závisí na povaze dat a konkrétních poznatcích, které chce člověk sdělit.
Box plot byl vynalezen Johnem Tukeyem v roce 1970 a poprvé se objevil v jeho knize "Exploratory Data Analysis" v roce 1977. Původní design Tukeyho, nazývaný "schematický graf", zobrazoval pouze medián, kvartily a extrémní hodnoty.
Klíčové události v historii box plotů zahrnují:
1978: McGill, Tukey a Larsen představili notovaný box plot, který přidává intervaly spolehlivosti pro medián.
Současnost: Interaktivní a dynamické box ploty se staly běžnými v softwaru pro vizualizaci dat, což umožňuje uživatelům prozkoumávat podkladové datové body.
Box ploty obstály v testu času díky své jednoduchosti a efektivitě při shrnutí složitých datových sad. I nadále jsou základním nástrojem v analýze dat napříč mnoha oblastmi.
Zde jsou příklady, jak vytvořit box plot v různých programovacích jazycích:
1=QUARTILE(A1:A100,1) ' Q1
2=MEDIAN(A1:A100) ' Medián
3=QUARTILE(A1:A100,3) ' Q3
4=MIN(A1:A100) ' Minimum
5=MAX(A1:A100) ' Maximum
6
1## Předpokládáme, že 'data' je váš vektor čísel
2boxplot(data)
3
1% Předpokládáme, že 'data' je váš vektor čísel
2boxplot(data)
3
1// Použití D3.js
2var svg = d3.select("body").append("svg")
3 .attr("width", 400)
4 .attr("height", 300);
5
6var data = [/* vaše datová pole */];
7
8var boxplot = svg.append("g")
9 .datum(data)
10 .call(d3.boxplot());
11
1import matplotlib.pyplot as plt
2import numpy as np
3
4data = [/* vaše datová pole */]
5plt.boxplot(data)
6plt.show()
7
1import org.jfree.chart.ChartFactory;
2import org.jfree.chart.ChartPanel;
3import org.jfree.chart.JFreeChart;
4import org.jfree.data.statistics.DefaultBoxAndWhiskerCategoryDataset;
5
6DefaultBoxAndWhiskerCategoryDataset dataset = new DefaultBoxAndWhiskerCategoryDataset();
7dataset.add(Arrays.asList(/* vaše data */), "Série 1", "Kategorie 1");
8
9JFreeChart chart = ChartFactory.createBoxAndWhiskerChart(
10 "Box Plot", "Kategorie", "Hodnota", dataset, true);
11
Objevte další nástroje, které by mohly být užitečné pro vaši pracovní postup.