Dėžutės diagramos skaičiuoklė - statistinės analizės įrankis
Sukurkite vizualinę savo duomenų rinkinio analizę naudodami dėžutės ir ūsų diagramą. Šis įrankis apskaičiuoja ir rodo pagrindinius statistinius rodiklius, įskaitant kvartilus, medianą ir išimtis.
Dėžutės diagramos skaičiuoklė
Dėžutės diagramos skaičiuoklė
Dokumentacija
Dėžutės Diagramos Skaičiuoklė
Įvadas
Dėžutės diagrama, dar žinoma kaip dėžutė ir ūsai, yra standartizuotas būdas rodyti duomenų pasiskirstymą remiantis penkių skaičių santrauka: minimumas, pirmasis kvartilis (Q1), medianas, trečiasis kvartilis (Q3) ir maksimumas. Ši skaičiuoklė leidžia jums generuoti dėžutės diagramą iš pateikto skaičių duomenų rinkinio, suteikdama galingą įrankį duomenų vizualizacijai ir analizei.
Kaip Naudotis Šia Skaičiuokle
- Įveskite savo duomenis kaip kableliu arba tarpu atskirtą skaičių sąrašą į įvedimo laukelį.
- Skaičiuoklė automatiškai apskaičiuos dėžutės diagramų statistiką ir parodys rezultatus.
- Vizualinė dėžutės diagramos atvaizdavimo versija bus rodoma žemiau rezultatų.
- Galite kopijuoti apskaičiuotus rezultatus naudodami mygtuką „Kopijuoti rezultatą“.
Formulė
Pagrindinės formulės, naudojamos dėžutės diagramų skaičiavimuose, yra:
-
Median (Q2): Užsakyto n elementų duomenų rinkinio,
x_{\frac{n+1}{2}} & \text{jei n yra nelyginis} \\ \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) & \text{jei n yra lyginis} \end{cases} $$ -
Pirmasis kvartilis (Q1) ir trečiasis kvartilis (Q3):
-
Interkvartilinis nuotolis (IQR):
-
Ūsai:
-
Išimtys: Bet kurie duomenų taškai, esantys žemiau apatinio ūsas arba viršutinio ūsas.
Apskaičiavimas
Skaičiuoklė atlieka šiuos veiksmus, kad sugeneruotų dėžutės diagramą:
- Rūšiuoti įvestus duomenis didėjimo tvarka.
- Apskaičiuoti medianą (Q2):
- Jei duomenų taškų skaičius yra nelyginis, medianas yra vidurinis vertė.
- Jei duomenų taškų skaičius yra lyginis, medianas yra dviejų vidurinių verčių vidurkis.
- Apskaičiuoti pirmąjį kvartilį (Q1):
- Tai yra žemiau esančių duomenų median.
- Jei duomenų taškų skaičius yra nelyginis, medianas nėra įtrauktas į jokį pusę.
- Apskaičiuoti trečiąjį kvartilį (Q3):
- Tai yra viršutinės pusės duomenų median.
- Jei duomenų taškų skaičius yra nelyginis, medianas nėra įtrauktas į jokį pusę.
- Apskaičiuoti interkvartilinis nuotolis (IQR) = Q3 - Q1.
- Nustatyti ūsus:
- Apatinis ūsas: mažiausias duomenų taškas, didesnis arba lygus Q1 - 1.5 * IQR
- Viršutinis ūsas: didžiausias duomenų taškas, mažesnis arba lygus Q3 + 1.5 * IQR
- Nustatyti išimtis: Bet kurie duomenų taškai, esantys žemiau apatinio ūsas arba viršutinio ūsas.
Svarbu pažymėti, kad yra skirtingų metodų, kaip apskaičiuoti kvartilius, ypač dirbant su duomenų rinkiniais, kuriuose yra lyginis elementų skaičius. Aukščiau aprašytas metodas yra žinomas kaip „išskirtinis“ metodas, tačiau gali būti naudojami ir kiti metodai, tokie kaip „įtraukiantis“ metodas arba „medianų medianų“ metodas. Pasirinktas metodas gali šiek tiek paveikti Q1 ir Q3 poziciją, ypač mažiems duomenų rinkiniams.
Interpretacija
- Dėžutė diagramoje atspindi interkvartilį (IQR), kur dėžutės dugnas yra Q1, o viršus yra Q3.
- Linija dėžutėje rodo medianą (Q2).
- Ūsai išsiplečia nuo dėžutės iki minimalių ir maksimalių verčių, neįtraukiant išimčių.
- Išimtys yra pavaizduotos kaip atskiri taškai už ūsų.
Dėžutės diagrama suteikia keletą įžvalgų apie duomenis:
- Centrinė tendencija: medianas rodo centrinę duomenų vertę.
- Kintamumas: IQR ir bendras paplitimas nuo minimumo iki maksimumo rodo duomenų išsklaidą.
- Kreivumas: Jei medianas nėra centrinis dėžutėje, tai rodo duomenų kreivumą.
- Išimtys: Taškai už ūsų išryškina potencialias išimtis arba ekstremalias vertes.
Naudojimo Atvejai
Dėžutės diagramos yra naudingos įvairiose srityse, įskaitant:
-
Statistika: Vizualizuoti duomenų pasiskirstymą ir kreivumą. Pavyzdžiui, palyginant testų rezultatus tarp skirtingų mokyklų ar klasių.
-
Duomenų analizė: Nustatyti išimtis ir palyginti pasiskirstymus. Versle tai gali būti naudojama analizuoti pardavimų duomenis skirtingose regionuose ar laikotarpiuose.
-
Moksliniai tyrimai: Pateikti rezultatus ir palyginti grupes. Pavyzdžiui, palyginant skirtingų gydymo efektyvumą medicinos tyrimuose.
-
Kokybės kontrolė: Stebėti proceso kintamuosius ir nustatyti anomalijas. Gamyboje tai gali būti naudojama stebėti produktų matmenis ir užtikrinti, kad jie atitiktų priimtinas ribas.
-
Finansai: Analizuoti akcijų kainų judėjimus ir kitus finansinius rodiklius. Pavyzdžiui, palyginant skirtingų investicinių fondų našumą per laiką.
-
Aplinkos mokslas: Analizuoti ir palyginti aplinkos duomenis, tokius kaip taršos lygiai ar temperatūros svyravimai skirtingose vietose ar laikotarpiuose.
-
Sporto analizė: Palyginti žaidėjų našumo statistiką tarp komandų ar sezonų.
Alternatyvos
Nors dėžutės diagramos yra galingi duomenų vizualizacijos įrankiai, yra keletas alternatyvų, priklausomai nuo konkrečių analizės poreikių:
-
Histogramos: Naudingos rodant duomenų dažnio pasiskirstymą. Jos suteikia daugiau detalių apie pasiskirstymo formą, tačiau gali būti mažiau efektyvios palyginant kelis duomenų rinkinius.
-
Violonų diagramos: Sujungia dėžutės diagramų ir branduolio tankio diagramų ypatybes, rodančias duomenų tikimybės tankį skirtingose vertėse.
-
Taškų diagramos: Idealiai tinka rodyti dviejų kintamųjų santykį, kurio dėžutės diagramos negali padaryti.
-
Juostinės diagramos: Tinkamos palyginti viengubas vertes tarp skirtingų kategorijų.
-
Linijinės diagramos: Efektyvios rodyti tendencijas per laiką, ko dėžutės diagramos negali gerai užfiksuoti.
-
Šilumos žemėlapiai: Naudingi vizualizuojant sudėtingus duomenų rinkinius su keliais kintamaisiais.
Pasirinkimas tarp šių alternatyvų priklauso nuo duomenų pobūdžio ir konkrečių įžvalgų, kurias norima perteikti.
Istorija
Dėžutės diagrama buvo išrasta John Tukey 1970 metais ir pirmą kartą pasirodė jo knygoje „Exploratory Data Analysis“ 1977 metais. Tukey originalus dizainas, vadinamas „scheminiu grafiku“, rodė tik medianą, kvartilius ir ekstremalias vertes.
Pagrindiniai dėžutės diagramų istorijos įvykiai apima:
-
1978: McGill, Tukey ir Larsen pristatė notch dėžutės diagramą, kuri prideda pasitikėjimo intervalus medianai.
-
1980-aisiais: Dėžutės diagramose „išimčių“ sąvoka tapo labiau standartizuota, paprastai apibrėžiama kaip taškai, esantys už 1.5 karto IQR nuo kvartilių.
-
1990-aisiais-2000-aisiais: Su kompiuterinės grafikos atsiradimu buvo sukurti variantai, tokie kaip kintamo pločio dėžutės diagramos ir violonų diagramos.
-
Šiandien: Interaktyvios ir dinaminės dėžutės diagramos tapo įprastos duomenų vizualizacijos programinėje įrangoje, leidžiančios vartotojams tyrinėti pagrindinius duomenų taškus.
Dėžutės diagramos išlaikė laiką dėl savo paprastumo ir efektyvumo apibendrinant sudėtingus duomenų rinkinius. Jos ir toliau yra pagrindinės duomenų analizėje daugelyje sričių.
Kodo Pavyzdžiai
Štai pavyzdžiai, kaip sukurti dėžutės diagramą įvairiose programavimo kalbose:
1=QUARTILE(A1:A100,1) ' Q1
2=MEDIAN(A1:A100) ' Median
3=QUARTILE(A1:A100,3) ' Q3
4=MIN(A1:A100) ' Minimum
5=MAX(A1:A100) ' Maximum
6
1## Darant prielaidą, kad 'data' yra jūsų skaičių vektorius
2boxplot(data)
3
1% Darant prielaidą, kad 'data' yra jūsų skaičių vektorius
2boxplot(data)
3
1// Naudojant D3.js
2var svg = d3.select("body").append("svg")
3 .attr("width", 400)
4 .attr("height", 300);
5
6var data = [/* jūsų duomenų masyvas */];
7
8var boxplot = svg.append("g")
9 .datum(data)
10 .call(d3.boxplot());
11
1import matplotlib.pyplot as plt
2import numpy as np
3
4data = [/* jūsų duomenų masyvas */]
5plt.boxplot(data)
6plt.show()
7
1import org.jfree.chart.ChartFactory;
2import org.jfree.chart.ChartPanel;
3import org.jfree.chart.JFreeChart;
4import org.jfree.data.statistics.DefaultBoxAndWhiskerCategoryDataset;
5
6DefaultBoxAndWhiskerCategoryDataset dataset = new DefaultBoxAndWhiskerCategoryDataset();
7dataset.add(Arrays.asList(/* jūsų duomenys */), "Serija 1", "Kategorija 1");
8
9JFreeChart chart = ChartFactory.createBoxAndWhiskerChart(
10 "Dėžutės Diagrama", "Kategorija", "Vertė", dataset, true);
11
Nuorodos
- Tukey, J. W. (1977). Exploratory Data Analysis. Addison-Wesley.
- McGill, R., Tukey, J. W., & Larsen, W. A. (1978). Variations of Box Plots. The American Statistician, 32(1), 12-16.
- Williamson, D. F., Parker, R. A., & Kendrick, J. S. (1989). The box plot: a simple visual method to interpret data. Annals of internal medicine, 110(11), 916-921.
- Wickham, H., & Stryjewski, L. (2011). 40 years of boxplots. Techninė ataskaita, had.co.nz.
- Frigge, M., Hoaglin, D. C., & Iglewicz, B. (1989). Some Implementations of the Boxplot. The American Statistician, 43(1), 50-54.
Atsiliepimai
Spauskite atsiliepimų pranešimą, kad pradėtumėte palikti atsiliepimą apie šį įrankį
Susiję įrankiai
Atraskite daugiau įrankių, kurie gali būti naudingi jūsų darbo procesui