Laatikkodiagrammin Laskin: Tilastollinen Analyysi Työkalu
Luo visuaalinen analyysi tietojoukostasi laatikkodiagrammin avulla. Tämä työkalu laskee ja näyttää keskeiset tilastolliset mittarit, mukaan lukien kvartiilit, mediaani ja poikkeavat havainnot.
Laatikkokaavion laskin
Laatikkokaavion laskin
Dokumentaatio
Box Plot Laskin
Johdanto
Box plot, joka tunnetaan myös nimellä box-and-whisker plot, on standardoitu tapa esittää datan jakautumista viiden numeron yhteenvedon perusteella: minimo, ensimmäinen kvartiili (Q1), mediaani, kolmas kvartiili (Q3) ja maksimi. Tämä laskin mahdollistaa box plotin luomisen annetusta numeerisesta datasta, tarjoten tehokkaan työkalun datan visualisointiin ja analysointiin.
Kuinka käyttää tätä laskinta
- Syötä datasi pilkuilla tai välilyönneillä erotettuna numerolistana syöttökenttään.
- Laskin laskee automaattisesti box plotin tilastot ja näyttää tulokset.
- Visuaalinen esitys box plotista näytetään tulosten alla.
- Voit kopioida lasketut tulokset käyttämällä "Kopioi tulos" -painiketta.
Kaava
Box plotin laskennassa käytettävät keskeiset kaavat ovat:
-
Mediaani (Q2): Järjestetyssä datassa, jossa on n elementtiä,
x_{\frac{n+1}{2}} & \text{jos n on pariton} \\ \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) & \text{jos n on parillinen} \end{cases} $$ -
Ensimmäinen kvartiili (Q1) ja kolmas kvartiili (Q3):
-
Kvartiiliväli (IQR):
-
Viikset:
-
Poikkeamat: Kaikki datapisteet, jotka ovat alempien viiksien alapuolella tai ylempien viiksien yläpuolella.
Laskenta
Laskin suorittaa seuraavat vaiheet box plotin luomiseksi:
- Järjestä syötetty data nousevaan järjestykseen.
- Laske mediaani (Q2):
- Jos datan pisteiden määrä on pariton, mediaani on keskimmäinen arvo.
- Jos datan pisteiden määrä on parillinen, mediaani on kahden keskimmäisen arvon keskiarvo.
- Laske ensimmäinen kvartiili (Q1):
- Tämä on alakannan mediaani.
- Jos datan pisteiden määrä on pariton, mediaania ei oteta huomioon kummassakaan puoliskossa.
- Laske kolmas kvartiili (Q3):
- Tämä on yläkannan mediaani.
- Jos datan pisteiden määrä on pariton, mediaania ei oteta huomioon kummassakaan puoliskossa.
- Laske kvartiiliväli (IQR) = Q3 - Q1.
- Määritä viikset:
- Alaviikset: Pienin datapiste, joka on suurempi tai yhtä suuri kuin Q1 - 1.5 * IQR
- Ylaviikset: Suurin datapiste, joka on pienempi tai yhtä suuri kuin Q3 + 1.5 * IQR
- Tunnista poikkeamat: Kaikki datapisteet, jotka ovat alempien viiksien alapuolella tai ylempien viiksien yläpuolella.
On tärkeää huomata, että kvartiilien laskemiseen on erilaisia menetelmiä, erityisesti parillisten elementtien sisältävien datasetien kohdalla. Yllä kuvattu menetelmä tunnetaan "eksklusiivisena" menetelmänä, mutta muita menetelmiä, kuten "inklusivinen" menetelmä tai "mediaanien mediaani" -menetelmä, voidaan myös käyttää. Menetelmien valinta voi hieman vaikuttaa Q1:n ja Q3:n asemaan, erityisesti pienissä datasetissä.
Tulkitseminen
- Box plotissa oleva laatikko edustaa kvartiiliväliä (IQR), jossa laatikon pohja on Q1:ssä ja yläosa Q3:ssa.
- Laatikkossa oleva viiva edustaa mediaania (Q2).
- Viikset ulottuvat laatikosta minimi- ja maksimiarvoihin, poikkeamat pois lukien.
- Poikkeamat esitetään yksittäisinä pisteinä viiksien ulkopuolella.
Box plot tarjoaa useita oivalluksia datasta:
- Keskimäärä: Mediaani osoittaa datasetin keskimmäisen arvon.
- Hajonta: IQR ja kokonaislevitys minimi- ja maksimiarvojen välillä osoittavat datan hajontaa.
- Vinous: Jos mediaani ei ole keskellä laatikkoa, se osoittaa datan vinoutta.
- Poikkeamat: Pisteet viiksien ulkopuolella korostavat mahdollisia poikkeamia tai äärimmäisiä arvoja.
Käyttötapaukset
Box plotit ovat hyödyllisiä eri aloilla, mukaan lukien:
-
Tilastotiede: Datan jakautumisen ja vinouden visualisoimiseen. Esimerkiksi testitulosten vertailu eri koulujen tai luokkien välillä.
-
Datan analysointi: Poikkeamien tunnistamiseen ja jakautumien vertailuun. Liiketoiminnassa se voisi olla käytössä myyntidatan analysoimiseksi eri alueilla tai ajanjaksoilla.
-
Tieteellinen tutkimus: Tulosten esittämiseen ja ryhmien vertailuun. Esimerkiksi eri hoitojen tehokkuuden vertailu lääketieteellisissä tutkimuksissa.
-
Laadunvalvonta: Prosessimuuttujien seuraamiseen ja poikkeamien tunnistamiseen. Teollisuudessa sitä voitaisiin käyttää tuotteen mittojen seuraamiseen ja varmistamiseen, että ne ovat hyväksyttävissä rajoissa.
-
Rahoitus: Osakehintaliikkeitä ja muita taloudellisia mittareita analysoimiseen. Esimerkiksi eri sijoitusrahastojen suorituskyvyn vertailu ajan myötä.
-
Ympäristötiede: Ympäristödatan, kuten saastetason tai lämpötilavaihteluiden analysoimiseen ja vertailuun eri sijainneissa tai ajanjaksoissa.
-
Urheiluanalytiikka: Pelaajien suorituskykystatistiikkojen vertailuun eri joukkueiden tai kausien välillä.
Vaihtoehdot
Vaikka box plotit ovat tehokkaita työkaluja datan visualisointiin, on useita vaihtoehtoja riippuen analyysin erityistarpeista:
-
Histogrammit: Hyödyllisiä datasetin frekvenssijakauman näyttämiseen. Ne tarjoavat enemmän tietoa jakauman muodosta, mutta voivat olla vähemmän tehokkaita useiden datasetien vertailussa.
-
Viuluplotit: Yhdistävät box plotin ja kernel density plotin ominaisuudet, näyttäen datan todennäköisyysjakauman eri arvoilla.
-
Hajontakuvastot: Ihanteellisia kahden muuttujan välisen suhteen näyttämiseen, mitä box plotit eivät voi tehdä.
-
Pylväsdiagrammit: Sopivia yksittäisten arvojen vertailuun eri kategorioiden välillä.
-
Viivakaaviot: Tehokkaita aikatrendien näyttämiseen, mitä box plotit eivät hyvin tallenna.
-
Lämpökartat: Hyödyllisiä monimutkaisten datasetien visualisoimiseen useilla muuttujilla.
Valinta näiden vaihtoehtojen välillä riippuu datan luonteesta ja erityisistä oivalluksista, joita halutaan välittää.
Historia
Box plotin keksi John Tukey vuonna 1970, ja se ilmestyi ensimmäisen kerran hänen kirjassaan "Exploratory Data Analysis" vuonna 1977. Tukeyn alkuperäinen suunnittelu, jota kutsuttiin "schematic plotiksi", esitti vain mediaanin, kvartiilit ja äärimmäiset arvot.
Box plotin historian keskeiset kehitykset sisältävät:
-
1978: McGill, Tukey ja Larsen esittivät notched box plotin, joka lisää luottamusvälin mediaanille.
-
1980-luku: Box plotien "poikkeamien" käsite vakiintui enemmän, ja ne määriteltiin tyypillisesti pisteiksi, jotka ovat yli 1.5 kertaa IQR kvartiileista.
-
1990-luku-2000-luku: Tietokonegrafiikan myötä kehitettiin vaihteita, kuten muuttuvapaksuisia box plotteja ja viuluplotteja.
-
Nykyhetki: Vuorovaikutteiset ja dynaamiset box plotit ovat tulleet yleisiksi datan visualisointiohjelmistoissa, jolloin käyttäjät voivat tutkia taustalla olevia datapisteitä.
Box plotit ovat kestäneet ajan testin yksinkertaisuutensa ja tehokkuutensa vuoksi monimutkaisten datasetien tiivistämisessä. Ne ovat edelleen vakiintuneita datan analyysissä monilla aloilla.
Koodipätkät
Tässä on esimerkkejä siitä, kuinka luoda box plot eri ohjelmointikielillä:
1=QUARTILE(A1:A100,1) ' Q1
2=MEDIAN(A1:A100) ' Mediaani
3=QUARTILE(A1:A100,3) ' Q3
4=MIN(A1:A100) ' Minimi
5=MAX(A1:A100) ' Maksimi
6
1## Oletetaan, että 'data' on numerovektori
2boxplot(data)
3
1% Oletetaan, että 'data' on numerovektori
2boxplot(data)
3
1// Käyttäen D3.js
2var svg = d3.select("body").append("svg")
3 .attr("width", 400)
4 .attr("height", 300);
5
6var data = [/* datataulukko */];
7
8var boxplot = svg.append("g")
9 .datum(data)
10 .call(d3.boxplot());
11
1import matplotlib.pyplot as plt
2import numpy as np
3
4data = [/* datataulukko */]
5plt.boxplot(data)
6plt.show()
7
1import org.jfree.chart.ChartFactory;
2import org.jfree.chart.ChartPanel;
3import org.jfree.chart.JFreeChart;
4import org.jfree.data.statistics.DefaultBoxAndWhiskerCategoryDataset;
5
6DefaultBoxAndWhiskerCategoryDataset dataset = new DefaultBoxAndWhiskerCategoryDataset();
7dataset.add(Arrays.asList(/* datasi */), "Sarja 1", "Kategoria 1");
8
9JFreeChart chart = ChartFactory.createBoxAndWhiskerChart(
10 "Box Plot", "Kategoria", "Arvo", dataset, true);
11
Viittaukset
- Tukey, J. W. (1977). Exploratory Data Analysis. Addison-Wesley.
- McGill, R., Tukey, J. W., & Larsen, W. A. (1978). Variations of Box Plots. The American Statistician, 32(1), 12-16.
- Williamson, D. F., Parker, R. A., & Kendrick, J. S. (1989). The box plot: a simple visual method to interpret data. Annals of internal medicine, 110(11), 916-921.
- Wickham, H., & Stryjewski, L. (2011). 40 years of boxplots. Technical report, had.co.nz.
- Frigge, M., Hoaglin, D. C., & Iglewicz, B. (1989). Some Implementations of the Boxplot. The American Statistician, 43(1), 50-54.
Palaute
Napsauta palautetoimintoa aloittaaksesi palautteen antamisen tästä työkalusta
Liittyvät työkalut
Löydä lisää työkaluja, jotka voivat olla hyödyllisiä työnkulussasi