Box Plot Számoló: Vizuális Elemzés és Statisztikai Mutatók
Generálj vizuális elemzést az adatállományodról egy box-and-whisker diagram segítségével. Ez az eszköz kiszámítja és megjeleníti a kulcsfontosságú statisztikai mutatókat, beleértve a kvartiliseket, a mediánt és a kiugró értékeket.
Box Plot Számító
Box Plot Számító
Dokumentáció
Box Plot Számológép
Bevezetés
A box plot, más néven box-and-whisker plot, egy standardizált módja az adatok eloszlásának megjelenítésére egy öt számjegyű összegzés alapján: minimum, első kvartilis (Q1), medián, harmadik kvartilis (Q3) és maximum. Ez a számológép lehetővé teszi, hogy egy adott numerikus adathalmazból box plot-ot generáljunk, amely egy hatékony eszköz az adatok vizualizálásához és elemzéséhez.
Használati útmutató
- Írd be az adataidat egy vesszővel vagy szóközzel elválasztott számok listájaként a bemeneti mezőbe.
- A számológép automatikusan kiszámítja a box plot statisztikákat és megjeleníti az eredményeket.
- Az alábbiakban a box plot vizuális ábrázolása lesz látható.
- Az "Eredmény másolása" gomb segítségével másolhatod a kiszámított eredményeket.
Képlet
A box plot számításokhoz használt kulcsformulák a következők:
-
Medián (Q2): Egy rendezett n elemű adathalmazon,
x_{\frac{n+1}{2}} & \text{ha n páratlan} \\ \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) & \text{ha n páros} \end{cases} $$ -
Első kvartilis (Q1) és harmadik kvartilis (Q3):
-
Interkvartilis tartomány (IQR):
-
Pálcák:
-
Kiugró értékek: Bármely adatpont, amely az alsó pálca alatt vagy a felső pálca felett található.
Számítás
A számológép a következő lépéseket hajtja végre a box plot generálásához:
- Rendezze az input adatokat növekvő sorrendbe.
- Számítsa ki a mediánt (Q2):
- Ha a számadatok száma páratlan, a medián a középső érték.
- Ha a számadatok száma páros, a medián a két középső érték átlaga.
- Számítsa ki az első kvartilist (Q1):
- Ez az alsó fél mediánja.
- Ha a számadatok száma páratlan, a medián nem szerepel egyik félben sem.
- Számítsa ki a harmadik kvartilist (Q3):
- Ez a felső fél mediánja.
- Ha a számadatok száma páratlan, a medián nem szerepel egyik félben sem.
- Számítsa ki az interkvartilis tartományt (IQR) = Q3 - Q1.
- Határozza meg a pálcákat:
- Alsó pálca: A legkisebb adatpont, amely nagyobb vagy egyenlő Q1 - 1.5 * IQR-nél
- Felső pálca: A legnagyobb adatpont, amely kisebb vagy egyenlő Q3 + 1.5 * IQR-nél
- Azonosítsa a kiugró értékeket: Bármely adatpont, amely az alsó pálca alatt vagy a felső pálca felett található.
Fontos megjegyezni, hogy különböző módszerek léteznek a kvartilisek kiszámítására, különösen páros számú elemeket tartalmazó adathalmazon. A fent leírt módszer az "exkluzív" módszer néven ismert, de más módszerek, mint az "inkluzív" módszer vagy a "mediánok mediánja" módszer is alkalmazhatók. A módszer megválasztása enyhén befolyásolhatja Q1 és Q3 helyét, különösen kis adathalmazon.
Értelmezés
- A plotban a doboz az interkvartilis tartományt (IQR) képviseli, az alsó doboz Q1-nél, a felső pedig Q3-nál található.
- A dobozon belüli vonal a mediánt (Q2) jelöli.
- A pálcák a dobozból a minimum és maximum értékekhez nyúlnak, a kiugró értékeket kizárva.
- A kiugró értékek egyedi pontokként jelennek meg a pálcákon túl.
A box plot számos betekintést nyújt az adatokkal kapcsolatban:
- Középpont: A medián a dataset középső értékét mutatja.
- Variabilitás: Az IQR és a minimum és maximum közötti teljes terjedés mutatja az adatok szóródását.
- Ferdeség: Ha a medián nem középen helyezkedik el a dobozban, az az adatok ferdeségét jelzi.
- Kiugró értékek: A pálcákon túli pontok kiemelik a potenciális kiugró értékeket vagy szélsőséges értékeket.
Felhasználási esetek
A box plotok hasznosak különböző területeken, beleértve:
-
Statisztika: Az adatok eloszlásának és ferdeségének vizualizálására. Például tesztpontszámok összehasonlítása különböző iskolák vagy osztályok között.
-
Adatelemzés: Kiugró értékek azonosítása és eloszlások összehasonlítása. Az üzleti életben például az értékesítési adatok elemzésére különböző régiók vagy időszakok között.
-
Tudományos kutatás: Eredmények bemutatása és csoportok összehasonlítása. Például különböző kezelések hatékonyságának összehasonlítása orvosi tanulmányokban.
-
Minőségellenőrzés: Folyamatváltozók nyomon követése és rendellenességek azonosítása. Gyártásban például a termékek méretének nyomon követésére és biztosítására használható, hogy azok elfogadható tartományon belül legyenek.
-
Pénzügy: Részvényárfolyamok és egyéb pénzügyi mutatók elemzése. Például különböző befektetési alapok teljesítményének összehasonlítása az idő múlásával.
-
Környezettudomány: Környezeti adatok elemzése és összehasonlítása, például szennyezési szintek vagy hőmérséklet-változások különböző helyszínek vagy időszakok között.
-
Sportelemzés: Játékos teljesítmény statisztikák összehasonlítása csapatok vagy szezonok között.
Alternatívák
Bár a box plotok hatékony eszközök az adatok vizualizálására, számos alternatíva létezik a konkrét elemzési igények függvényében:
-
Histogramok: Hasznosak az adathalmazon belüli frekvenciaeloszlás megjelenítésére. Részletesebb információt nyújtanak az eloszlás alakjáról, de kevésbé hatékonyak több adathalaz összehasonlítására.
-
Violin Plots: A box plotok és a kernel sűrűség plotok kombinálása, amelyek a különböző értékeknél az adatok valószínűségi sűrűségét mutatják.
-
Szórásdiagramok: Ideálisak két változó közötti kapcsolat bemutatására, amit a box plotok nem tudnak megtenni.
-
Oszlopdiagramok: Alkalmasak egyes értékek összehasonlítására különböző kategóriák között.
-
Vonaldiagramok: Hatékonyak az időbeli trendek bemutatására, amit a box plotok nem tudnak jól rögzíteni.
-
Hőtérképek: Hasznosak a komplex adathalmazon belüli több változó vizualizálására.
A választás a fenti alternatívák között az adatok természetétől és az átadni kívánt konkrét betekintésektől függ.
Történelem
A box plotot John Tukey találta fel 1970-ben, és először a "Felfedező Adatelemzés" című könyvében jelent meg 1977-ben. Tukey eredeti terve, amelyet "schematic plot"-nak neveztek, csak a mediánt, kvartiliseket és szélső értékeket mutatta be.
A box plot történetének kulcsfejleményei a következők:
-
1978: McGill, Tukey és Larsen bevezették a notcholt box plotot, amely a medián bizalmi intervallumait is hozzáadja.
-
1980-as évek: A box plotokban a "kiugró értékek" fogalma standardizálódott, általában az 1.5-szörös IQR-nél a kvartilisekből kifelé eső pontokként definiálva.
-
1990-es évek - 2000-es évek: A számítógépes grafika megjelenésével olyan változatok, mint a változó szélességű box plotok és a violin plotok alakultak ki.
-
Jelen: Az interaktív és dinamikus box plotok elterjedtek az adatok vizualizáló szoftverekben, lehetővé téve a felhasználók számára az alapul szolgáló adatok felfedezését.
A box plotok időtállónak bizonyultak egyszerűségük és hatékonyságuk miatt a komplex adathalmazon. Továbbra is alapvető szerepet játszanak az adatelemzésben számos területen.
Kódpéldák
Itt vannak példák arra, hogyan lehet box plotot létrehozni különböző programozási nyelvekben:
1=QUARTILE(A1:A100,1) ' Q1
2=MEDIAN(A1:A100) ' Medián
3=QUARTILE(A1:A100,3) ' Q3
4=MIN(A1:A100) ' Minimum
5=MAX(A1:A100) ' Maximum
6
1## Feltételezve, hogy 'data' a számaid vektora
2boxplot(data)
3
1% Feltételezve, hogy 'data' a számaid vektora
2boxplot(data)
3
1// D3.js használatával
2var svg = d3.select("body").append("svg")
3 .attr("width", 400)
4 .attr("height", 300);
5
6var data = [/* a te adataid tömbje */];
7
8var boxplot = svg.append("g")
9 .datum(data)
10 .call(d3.boxplot());
11
1import matplotlib.pyplot as plt
2import numpy as np
3
4data = [/* a te adataid tömbje */]
5plt.boxplot(data)
6plt.show()
7
1import org.jfree.chart.ChartFactory;
2import org.jfree.chart.ChartPanel;
3import org.jfree.chart.JFreeChart;
4import org.jfree.data.statistics.DefaultBoxAndWhiskerCategoryDataset;
5
6DefaultBoxAndWhiskerCategoryDataset dataset = new DefaultBoxAndWhiskerCategoryDataset();
7dataset.add(Arrays.asList(/* a te adataid */), "Sorozat 1", "Kategória 1");
8
9JFreeChart chart = ChartFactory.createBoxAndWhiskerChart(
10 "Box Plot", "Kategória", "Érték", dataset, true);
11
Referenciák
- Tukey, J. W. (1977). Felfedező Adatelemzés. Addison-Wesley.
- McGill, R., Tukey, J. W., & Larsen, W. A. (1978). A Box Plot Variációi. The American Statistician, 32(1), 12-16.
- Williamson, D. F., Parker, R. A., & Kendrick, J. S. (1989). A box plot: egy egyszerű vizuális módszer az adatok értelmezésére. Annals of internal medicine, 110(11), 916-921.
- Wickham, H., & Stryjewski, L. (2011). 40 év box plotok. Műszaki jelentés, had.co.nz.
- Frigge, M., Hoaglin, D. C., & Iglewicz, B. (1989). A Boxplot néhány megvalósítása. The American Statistician, 43(1), 50-54.
Visszajelzés
Kattints a visszajelzés értesítésre, hogy elkezdhesd a visszajelzést erről az eszközről
Kapcsolódó Eszközök
Fedezd fel a további eszközöket, amelyek hasznosak lehetnek a munkafolyamatodhoz