Kastiploti kalkulaator: Andmete analüüs ja visualiseerimine
Genereeri visuaalne analüüs oma andmestiku kohta kastiploti abil. See tööriist arvutab ja kuvab peamised statistilised näitajad, sealhulgas kvartiilid, mediaan ja kõrvalekalded.
Kastiploti kalkulaator
Kastiploti kalkulaator
Dokumentatsioon
Box Plot Kalkulaator
Sissejuhatus
Kastiplott, tuntud ka kui kast ja vurrud plaan, on standardiseeritud viis andmete jaotuse kuvamiseks, mis põhineb viie numbri kokkuvõttel: minimaalne, esimene kvartil (Q1), mediaan, kolmas kvartil (Q3) ja maksimaalne. See kalkulaator võimaldab teil genereerida kastiploti antud numbriliste andmete kogumi põhjal, pakkudes võimsat tööriista andmete visualiseerimiseks ja analüüsimiseks.
Kuidas seda kalkulaatorit kasutada
- Sisestage oma andmed komaga või tühikuga eraldatud numbrite loendina sisendvälja.
- Kalkulaator arvutab automaatselt kastiploti statistika ja kuvab tulemused.
- Kastiploti visuaalne esitus kuvatakse allpool tulemusi.
- Saate arvutatud tulemusi kopeerida, kasutades nuppu "Kopeeri tulemus".
Valem
Kastiploti arvutustes kasutatavad peamised valemid on:
-
Mediaan (Q2): Järjestatud andmestiku puhul, kus on n elementi,
x_{\frac{n+1}{2}} & \text{kui n on paaritu} \\ \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) & \text{kui n on paaris} \end{cases} $$ -
Esimene kvartil (Q1) ja kolmas kvartil (Q3):
-
Kvartiilide vahemik (IQR):
-
Vurrud:
-
Äärmuslikud väärtused: Kõik andmepunktid, mis on madalamad alumisest vurrust või kõrgemad ülemisest vurrust.
Arvutus
Kalkulaator viib läbi järgmised sammud kastiploti genereerimiseks:
- Sorteerige sisendandmed kasvavas järjekorras.
- Arvutage mediaan (Q2):
- Kui andmepunktide arv on paaritu, on mediaan keskmine väärtus.
- Kui andmepunktide arv on paaris, on mediaan kahe keskmise väärtuse keskmine.
- Arvutage esimene kvartil (Q1):
- See on alumise andmeosa mediaan.
- Kui andmepunktide arv on paaritu, ei arvestata mediaani kummaski pooles.
- Arvutage kolmas kvartil (Q3):
- See on ülemise andmeosa mediaan.
- Kui andmepunktide arv on paaritu, ei arvestata mediaani kummaski pooles.
- Arvutage kvartiilide vahemik (IQR) = Q3 - Q1.
- Määrake vurrud:
- Alumine vurr: väikseim andmepunkt, mis on suurem või võrdne Q1 - 1.5 * IQR
- Ülemine vurr: suurim andmepunkt, mis on väiksem või võrdne Q3 + 1.5 * IQR
- Tuvastage äärmuslikud väärtused: Kõik andmepunktid, mis on madalamad alumisest vurrust või kõrgemad ülemisest vurrust.
Oluline on märkida, et kvartilide arvutamiseks on erinevaid meetodeid, eriti paaritu arvu elementidega andmestike puhul. Ülaltoodud meetodit tuntakse kui "eksklusiivne" meetod, kuid kasutatakse ka muid meetodeid, nagu "inkusiivne" meetod või "mediaanide mediaanide" meetod. Meetodi valik võib veidi mõjutada Q1 ja Q3 positsiooni, eriti väikeste andmestike puhul.
Tõlgendamine
- Kast plaanis esindab kvartiilide vahemikku (IQR), kus kasti põhja asub Q1 ja ülaosa Q3.
- Kasti sees olev joon esindab mediaani (Q2).
- Vurrud ulatuvad kastist minimaalse ja maksimaalse väärtuseni, välja arvatud äärmuslikud väärtused.
- Äärmuslikud väärtused on kujutatud eraldi punktidena vurrudest kaugemal.
Kastiplott annab mitmeid teadmisi andmete kohta:
- Keskne tendents: Mediaan näitab andmestiku keskset väärtust.
- Muutlikkus: IQR ja kogu levik minimaalsest maksimaalseni näitavad andmete hajumist.
- Kaldus: Kui mediaan ei asu kasti keskel, näitab see andmete kallutatust.
- Äärmuslikud väärtused: Punktid, mis asuvad vurrudest kaugemal, toovad esile potentsiaalsed äärmuslikud väärtused või äärmuslikud numbrid.
Kasutusalad
Kastiplotte kasutatakse erinevates valdkondades, sealhulgas:
-
Statistika: Andmete jaotuse ja kallutatuse visualiseerimiseks. Näiteks testitulemuste võrdlemiseks erinevate koolide või klasside vahel.
-
Andmete analüüs: Äärmuslike väärtuste tuvastamiseks ja jaotuste võrdlemiseks. Äri kontekstis võiks seda kasutada müügiandmete analüüsimiseks erinevates piirkondades või ajaperioodides.
-
Teadusuuringud: Tulemuste esitamiseks ja rühmade võrdlemiseks. Näiteks erinevate ravimeetodite tõhususe võrdlemiseks meditsiinilistes uuringutes.
-
Kvaliteedikontroll: Protsessimuutujate jälgimiseks ja anomaaliate tuvastamiseks. Tootmises võiks seda kasutada toote mõõtmete jälgimiseks ja tagamaks, et need jäävad vastuvõetavatesse piiridesse.
-
Rahandus: Aktsiahindade liikumise ja muude finantsnäitajate analüüsimiseks. Näiteks erinevate investeerimisfondide tootluse võrdlemiseks ajas.
-
Keskkonnateadus: Keskkonnaandmete analüüsimiseks ja võrdlemiseks, näiteks saaste tasemete või temperatuurimuutuste analüüsimiseks erinevates kohtades või ajaperioodides.
-
Spordianalüüs: Mängijate sooritusstatistika võrdlemiseks erinevate meeskondade või hooaegade vahel.
Alternatiivid
Kuigi kastiplotid on andmete visualiseerimise jaoks võimsad tööriistad, on sõltuvalt analüüsi spetsiifilistest vajadustest mitmeid alternatiive:
-
Histogrammid: Kasutatakse andmestiku sagedusjaotuse näitamiseks. Need annavad rohkem üksikasju jaotuse kuju kohta, kuid võivad olla vähem tõhusad mitme andmestiku võrdlemiseks.
-
Violiniplotid: Kombineerivad kastiplottide omadused tuumtiheduse plaanidega, näidates andmete tõenäosuse tihedust erinevatel väärtustel.
-
Hajusplaanid: Ideaalne kahe muutuja vahelise seose näitamiseks, mida kastiplotid ei suuda teha.
-
Veergdiagrammid: Sobivad üksikute väärtuste võrdlemiseks erinevate kategooriate vahel.
-
Joondiagrammid: Tõhusad trendide näitamiseks ajas, mida kastiplotid ei suuda hästi tabada.
-
Soojuskaardid: Kasutatakse keeruliste andmestike visualiseerimiseks, kus on mitu muutujaid.
Valik nende alternatiivide vahel sõltub andmete iseloomust ja spetsiifilistest teadmistest, mida soovitakse edastada.
Ajalugu
Kastiploti leiutas John Tukey 1970. aastal ja see ilmus esmakordselt tema raamatus "Exploratory Data Analysis" 1977. aastal. Tukey originaaldisain, tuntud kui "skeemiline plaan", näitas ainult mediaani, kvartile ja äärmuslikke väärtusi.
Kastiplottide ajaloo peamised arengud hõlmavad:
-
1978: McGill, Tukey ja Larsen tutvustasid notitud kastiplotti, mis lisab mediaani usaldusintervallid.
-
1980ndad: Kastiplottides muutus äärmuslike väärtuste kontseptsioon standardiseeritumaks, tavaliselt määratletud kui punktid, mis ületavad 1.5 korda IQR kvartilidest.
-
1990ndad-2000ndad: Arvutigraafika tulekuga arendati välja variatsioonid, nagu muutuva laiusega kastiplotid ja violiniplotid.
-
Tänapäev: Interaktiivsed ja dünaamilised kastiplotid on muutunud tavapäraseks andmete visualiseerimise tarkvaras, võimaldades kasutajatel uurida aluseks olevaid andmepunkte.
Kastiplotid on aja jooksul tõestanud oma efektiivsust ja lihtsust keeruliste andmestike kokkuvõtmisel. Need jäävad paljude valdkondade andmeanalüüsi põhielemendiks.
Koodinäidised
Siin on näited, kuidas luua kastiplott erinevates programmeerimiskeeltes:
1=QUARTILE(A1:A100,1) ' Q1
2=MEDIAN(A1:A100) ' Mediaan
3=QUARTILE(A1:A100,3) ' Q3
4=MIN(A1:A100) ' Minimaalne
5=MAX(A1:A100) ' Maksimaalne
6
1## Eeldades, et 'data' on teie numbrite vektor
2boxplot(data)
3
1% Eeldades, et 'data' on teie numbrite vektor
2boxplot(data)
3
1// Kasutades D3.js
2var svg = d3.select("body").append("svg")
3 .attr("width", 400)
4 .attr("height", 300);
5
6var data = [/* teie andme massiiv */];
7
8var boxplot = svg.append("g")
9 .datum(data)
10 .call(d3.boxplot());
11
1import matplotlib.pyplot as plt
2import numpy as np
3
4data = [/* teie andme massiiv */]
5plt.boxplot(data)
6plt.show()
7
1import org.jfree.chart.ChartFactory;
2import org.jfree.chart.ChartPanel;
3import org.jfree.chart.JFreeChart;
4import org.jfree.data.statistics.DefaultBoxAndWhiskerCategoryDataset;
5
6DefaultBoxAndWhiskerCategoryDataset dataset = new DefaultBoxAndWhiskerCategoryDataset();
7dataset.add(Arrays.asList(/* teie andmed */), "Seeria 1", "Kategooria 1");
8
9JFreeChart chart = ChartFactory.createBoxAndWhiskerChart(
10 "Kastiplott", "Kategooria", "Väärtus", dataset, true);
11
Viidatud allikad
- Tukey, J. W. (1977). Exploratory Data Analysis. Addison-Wesley.
- McGill, R., Tukey, J. W., & Larsen, W. A. (1978). Variations of Box Plots. The American Statistician, 32(1), 12-16.
- Williamson, D. F., Parker, R. A., & Kendrick, J. S. (1989). The box plot: a simple visual method to interpret data. Annals of internal medicine, 110(11), 916-921.
- Wickham, H., & Stryjewski, L. (2011). 40 years of boxplots. Tehniline aruanne, had.co.nz.
- Frigge, M., Hoaglin, D. C., & Iglewicz, B. (1989). Some Implementations of the Boxplot. The American Statistician, 43(1), 50-54.
Tagasiside
Kliki tagasiside teavitusele, et alustada tagasiside andmist selle tööriista kohta
Seotud tööriistad
Avasta rohkem tööriistu, mis võivad olla kasulikud sinu töövoo jaoks