Sukurkite vizualinę savo duomenų rinkinio analizę naudodami dėžutės ir ūsų diagramą. Šis įrankis apskaičiuoja ir rodo pagrindinius statistinius rodiklius, įskaitant kvartilus, medianą ir išimtis.
Dėžutės diagrama, dar žinoma kaip dėžutė ir ūsai, yra standartizuotas būdas rodyti duomenų pasiskirstymą remiantis penkių skaičių santrauka: minimumas, pirmasis kvartilis (Q1), medianas, trečiasis kvartilis (Q3) ir maksimumas. Ši skaičiuoklė leidžia jums generuoti dėžutės diagramą iš pateikto skaičių duomenų rinkinio, suteikdama galingą įrankį duomenų vizualizacijai ir analizei.
Pagrindinės formulės, naudojamos dėžutės diagramų skaičiavimuose, yra:
Median (Q2): Užsakyto n elementų duomenų rinkinio,
x_{\frac{n+1}{2}} & \text{jei n yra nelyginis} \\ \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) & \text{jei n yra lyginis} \end{cases} $$Pirmasis kvartilis (Q1) ir trečiasis kvartilis (Q3):
Interkvartilinis nuotolis (IQR):
Ūsai:
Išimtys: Bet kurie duomenų taškai, esantys žemiau apatinio ūsas arba viršutinio ūsas.
Skaičiuoklė atlieka šiuos veiksmus, kad sugeneruotų dėžutės diagramą:
Svarbu pažymėti, kad yra skirtingų metodų, kaip apskaičiuoti kvartilius, ypač dirbant su duomenų rinkiniais, kuriuose yra lyginis elementų skaičius. Aukščiau aprašytas metodas yra žinomas kaip „išskirtinis“ metodas, tačiau gali būti naudojami ir kiti metodai, tokie kaip „įtraukiantis“ metodas arba „medianų medianų“ metodas. Pasirinktas metodas gali šiek tiek paveikti Q1 ir Q3 poziciją, ypač mažiems duomenų rinkiniams.
Dėžutės diagrama suteikia keletą įžvalgų apie duomenis:
Dėžutės diagramos yra naudingos įvairiose srityse, įskaitant:
Statistika: Vizualizuoti duomenų pasiskirstymą ir kreivumą. Pavyzdžiui, palyginant testų rezultatus tarp skirtingų mokyklų ar klasių.
Duomenų analizė: Nustatyti išimtis ir palyginti pasiskirstymus. Versle tai gali būti naudojama analizuoti pardavimų duomenis skirtingose regionuose ar laikotarpiuose.
Moksliniai tyrimai: Pateikti rezultatus ir palyginti grupes. Pavyzdžiui, palyginant skirtingų gydymo efektyvumą medicinos tyrimuose.
Kokybės kontrolė: Stebėti proceso kintamuosius ir nustatyti anomalijas. Gamyboje tai gali būti naudojama stebėti produktų matmenis ir užtikrinti, kad jie atitiktų priimtinas ribas.
Finansai: Analizuoti akcijų kainų judėjimus ir kitus finansinius rodiklius. Pavyzdžiui, palyginant skirtingų investicinių fondų našumą per laiką.
Aplinkos mokslas: Analizuoti ir palyginti aplinkos duomenis, tokius kaip taršos lygiai ar temperatūros svyravimai skirtingose vietose ar laikotarpiuose.
Sporto analizė: Palyginti žaidėjų našumo statistiką tarp komandų ar sezonų.
Nors dėžutės diagramos yra galingi duomenų vizualizacijos įrankiai, yra keletas alternatyvų, priklausomai nuo konkrečių analizės poreikių:
Histogramos: Naudingos rodant duomenų dažnio pasiskirstymą. Jos suteikia daugiau detalių apie pasiskirstymo formą, tačiau gali būti mažiau efektyvios palyginant kelis duomenų rinkinius.
Violonų diagramos: Sujungia dėžutės diagramų ir branduolio tankio diagramų ypatybes, rodančias duomenų tikimybės tankį skirtingose vertėse.
Taškų diagramos: Idealiai tinka rodyti dviejų kintamųjų santykį, kurio dėžutės diagramos negali padaryti.
Juostinės diagramos: Tinkamos palyginti viengubas vertes tarp skirtingų kategorijų.
Linijinės diagramos: Efektyvios rodyti tendencijas per laiką, ko dėžutės diagramos negali gerai užfiksuoti.
Šilumos žemėlapiai: Naudingi vizualizuojant sudėtingus duomenų rinkinius su keliais kintamaisiais.
Pasirinkimas tarp šių alternatyvų priklauso nuo duomenų pobūdžio ir konkrečių įžvalgų, kurias norima perteikti.
Dėžutės diagrama buvo išrasta John Tukey 1970 metais ir pirmą kartą pasirodė jo knygoje „Exploratory Data Analysis“ 1977 metais. Tukey originalus dizainas, vadinamas „scheminiu grafiku“, rodė tik medianą, kvartilius ir ekstremalias vertes.
Pagrindiniai dėžutės diagramų istorijos įvykiai apima:
1978: McGill, Tukey ir Larsen pristatė notch dėžutės diagramą, kuri prideda pasitikėjimo intervalus medianai.
1980-aisiais: Dėžutės diagramose „išimčių“ sąvoka tapo labiau standartizuota, paprastai apibrėžiama kaip taškai, esantys už 1.5 karto IQR nuo kvartilių.
1990-aisiais-2000-aisiais: Su kompiuterinės grafikos atsiradimu buvo sukurti variantai, tokie kaip kintamo pločio dėžutės diagramos ir violonų diagramos.
Šiandien: Interaktyvios ir dinaminės dėžutės diagramos tapo įprastos duomenų vizualizacijos programinėje įrangoje, leidžiančios vartotojams tyrinėti pagrindinius duomenų taškus.
Dėžutės diagramos išlaikė laiką dėl savo paprastumo ir efektyvumo apibendrinant sudėtingus duomenų rinkinius. Jos ir toliau yra pagrindinės duomenų analizėje daugelyje sričių.
Štai pavyzdžiai, kaip sukurti dėžutės diagramą įvairiose programavimo kalbose:
1=QUARTILE(A1:A100,1) ' Q1
2=MEDIAN(A1:A100) ' Median
3=QUARTILE(A1:A100,3) ' Q3
4=MIN(A1:A100) ' Minimum
5=MAX(A1:A100) ' Maximum
6
1## Darant prielaidą, kad 'data' yra jūsų skaičių vektorius
2boxplot(data)
3
1% Darant prielaidą, kad 'data' yra jūsų skaičių vektorius
2boxplot(data)
3
1// Naudojant D3.js
2var svg = d3.select("body").append("svg")
3 .attr("width", 400)
4 .attr("height", 300);
5
6var data = [/* jūsų duomenų masyvas */];
7
8var boxplot = svg.append("g")
9 .datum(data)
10 .call(d3.boxplot());
11
1import matplotlib.pyplot as plt
2import numpy as np
3
4data = [/* jūsų duomenų masyvas */]
5plt.boxplot(data)
6plt.show()
7
1import org.jfree.chart.ChartFactory;
2import org.jfree.chart.ChartPanel;
3import org.jfree.chart.JFreeChart;
4import org.jfree.data.statistics.DefaultBoxAndWhiskerCategoryDataset;
5
6DefaultBoxAndWhiskerCategoryDataset dataset = new DefaultBoxAndWhiskerCategoryDataset();
7dataset.add(Arrays.asList(/* jūsų duomenys */), "Serija 1", "Kategorija 1");
8
9JFreeChart chart = ChartFactory.createBoxAndWhiskerChart(
10 "Dėžutės Diagrama", "Kategorija", "Vertė", dataset, true);
11
Raskite daugiau įrankių, kurie gali būti naudingi jūsų darbo eiga.