Genereeri visuaalne analüüs oma andmestiku kohta kastiploti abil. See tööriist arvutab ja kuvab peamised statistilised näitajad, sealhulgas kvartiilid, mediaan ja kõrvalekalded.
Kastiplott, tuntud ka kui kast ja vurrud plaan, on standardiseeritud viis andmete jaotuse kuvamiseks, mis põhineb viie numbri kokkuvõttel: minimaalne, esimene kvartil (Q1), mediaan, kolmas kvartil (Q3) ja maksimaalne. See kalkulaator võimaldab teil genereerida kastiploti antud numbriliste andmete kogumi põhjal, pakkudes võimsat tööriista andmete visualiseerimiseks ja analüüsimiseks.
Kastiploti arvutustes kasutatavad peamised valemid on:
Mediaan (Q2): Järjestatud andmestiku puhul, kus on n elementi,
x_{\frac{n+1}{2}} & \text{kui n on paaritu} \\ \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) & \text{kui n on paaris} \end{cases} $$Esimene kvartil (Q1) ja kolmas kvartil (Q3):
Kvartiilide vahemik (IQR):
Vurrud:
Äärmuslikud väärtused: Kõik andmepunktid, mis on madalamad alumisest vurrust või kõrgemad ülemisest vurrust.
Kalkulaator viib läbi järgmised sammud kastiploti genereerimiseks:
Oluline on märkida, et kvartilide arvutamiseks on erinevaid meetodeid, eriti paaritu arvu elementidega andmestike puhul. Ülaltoodud meetodit tuntakse kui "eksklusiivne" meetod, kuid kasutatakse ka muid meetodeid, nagu "inkusiivne" meetod või "mediaanide mediaanide" meetod. Meetodi valik võib veidi mõjutada Q1 ja Q3 positsiooni, eriti väikeste andmestike puhul.
Kastiplott annab mitmeid teadmisi andmete kohta:
Kastiplotte kasutatakse erinevates valdkondades, sealhulgas:
Statistika: Andmete jaotuse ja kallutatuse visualiseerimiseks. Näiteks testitulemuste võrdlemiseks erinevate koolide või klasside vahel.
Andmete analüüs: Äärmuslike väärtuste tuvastamiseks ja jaotuste võrdlemiseks. Äri kontekstis võiks seda kasutada müügiandmete analüüsimiseks erinevates piirkondades või ajaperioodides.
Teadusuuringud: Tulemuste esitamiseks ja rühmade võrdlemiseks. Näiteks erinevate ravimeetodite tõhususe võrdlemiseks meditsiinilistes uuringutes.
Kvaliteedikontroll: Protsessimuutujate jälgimiseks ja anomaaliate tuvastamiseks. Tootmises võiks seda kasutada toote mõõtmete jälgimiseks ja tagamaks, et need jäävad vastuvõetavatesse piiridesse.
Rahandus: Aktsiahindade liikumise ja muude finantsnäitajate analüüsimiseks. Näiteks erinevate investeerimisfondide tootluse võrdlemiseks ajas.
Keskkonnateadus: Keskkonnaandmete analüüsimiseks ja võrdlemiseks, näiteks saaste tasemete või temperatuurimuutuste analüüsimiseks erinevates kohtades või ajaperioodides.
Spordianalüüs: Mängijate sooritusstatistika võrdlemiseks erinevate meeskondade või hooaegade vahel.
Kuigi kastiplotid on andmete visualiseerimise jaoks võimsad tööriistad, on sõltuvalt analüüsi spetsiifilistest vajadustest mitmeid alternatiive:
Histogrammid: Kasutatakse andmestiku sagedusjaotuse näitamiseks. Need annavad rohkem üksikasju jaotuse kuju kohta, kuid võivad olla vähem tõhusad mitme andmestiku võrdlemiseks.
Violiniplotid: Kombineerivad kastiplottide omadused tuumtiheduse plaanidega, näidates andmete tõenäosuse tihedust erinevatel väärtustel.
Hajusplaanid: Ideaalne kahe muutuja vahelise seose näitamiseks, mida kastiplotid ei suuda teha.
Veergdiagrammid: Sobivad üksikute väärtuste võrdlemiseks erinevate kategooriate vahel.
Joondiagrammid: Tõhusad trendide näitamiseks ajas, mida kastiplotid ei suuda hästi tabada.
Soojuskaardid: Kasutatakse keeruliste andmestike visualiseerimiseks, kus on mitu muutujaid.
Valik nende alternatiivide vahel sõltub andmete iseloomust ja spetsiifilistest teadmistest, mida soovitakse edastada.
Kastiploti leiutas John Tukey 1970. aastal ja see ilmus esmakordselt tema raamatus "Exploratory Data Analysis" 1977. aastal. Tukey originaaldisain, tuntud kui "skeemiline plaan", näitas ainult mediaani, kvartile ja äärmuslikke väärtusi.
Kastiplottide ajaloo peamised arengud hõlmavad:
1978: McGill, Tukey ja Larsen tutvustasid notitud kastiplotti, mis lisab mediaani usaldusintervallid.
1980ndad: Kastiplottides muutus äärmuslike väärtuste kontseptsioon standardiseeritumaks, tavaliselt määratletud kui punktid, mis ületavad 1.5 korda IQR kvartilidest.
1990ndad-2000ndad: Arvutigraafika tulekuga arendati välja variatsioonid, nagu muutuva laiusega kastiplotid ja violiniplotid.
Tänapäev: Interaktiivsed ja dünaamilised kastiplotid on muutunud tavapäraseks andmete visualiseerimise tarkvaras, võimaldades kasutajatel uurida aluseks olevaid andmepunkte.
Kastiplotid on aja jooksul tõestanud oma efektiivsust ja lihtsust keeruliste andmestike kokkuvõtmisel. Need jäävad paljude valdkondade andmeanalüüsi põhielemendiks.
Siin on näited, kuidas luua kastiplott erinevates programmeerimiskeeltes:
1=QUARTILE(A1:A100,1) ' Q1
2=MEDIAN(A1:A100) ' Mediaan
3=QUARTILE(A1:A100,3) ' Q3
4=MIN(A1:A100) ' Minimaalne
5=MAX(A1:A100) ' Maksimaalne
6
1## Eeldades, et 'data' on teie numbrite vektor
2boxplot(data)
3
1% Eeldades, et 'data' on teie numbrite vektor
2boxplot(data)
3
1// Kasutades D3.js
2var svg = d3.select("body").append("svg")
3 .attr("width", 400)
4 .attr("height", 300);
5
6var data = [/* teie andme massiiv */];
7
8var boxplot = svg.append("g")
9 .datum(data)
10 .call(d3.boxplot());
11
1import matplotlib.pyplot as plt
2import numpy as np
3
4data = [/* teie andme massiiv */]
5plt.boxplot(data)
6plt.show()
7
1import org.jfree.chart.ChartFactory;
2import org.jfree.chart.ChartPanel;
3import org.jfree.chart.JFreeChart;
4import org.jfree.data.statistics.DefaultBoxAndWhiskerCategoryDataset;
5
6DefaultBoxAndWhiskerCategoryDataset dataset = new DefaultBoxAndWhiskerCategoryDataset();
7dataset.add(Arrays.asList(/* teie andmed */), "Seeria 1", "Kategooria 1");
8
9JFreeChart chart = ChartFactory.createBoxAndWhiskerChart(
10 "Kastiplott", "Kategooria", "Väärtus", dataset, true);
11
Avasta rohkem tööriistu, mis võivad olla kasulikud teie töövoos