Luo visuaalinen analyysi tietojoukostasi laatikkodiagrammin avulla. Tämä työkalu laskee ja näyttää keskeiset tilastolliset mittarit, mukaan lukien kvartiilit, mediaani ja poikkeavat havainnot.
Box plot, joka tunnetaan myös nimellä box-and-whisker plot, on standardoitu tapa esittää datan jakautumista viiden numeron yhteenvedon perusteella: minimo, ensimmäinen kvartiili (Q1), mediaani, kolmas kvartiili (Q3) ja maksimi. Tämä laskin mahdollistaa box plotin luomisen annetusta numeerisesta datasta, tarjoten tehokkaan työkalun datan visualisointiin ja analysointiin.
Box plotin laskennassa käytettävät keskeiset kaavat ovat:
Mediaani (Q2): Järjestetyssä datassa, jossa on n elementtiä,
x_{\frac{n+1}{2}} & \text{jos n on pariton} \\ \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) & \text{jos n on parillinen} \end{cases} $$Ensimmäinen kvartiili (Q1) ja kolmas kvartiili (Q3):
Kvartiiliväli (IQR):
Viikset:
Poikkeamat: Kaikki datapisteet, jotka ovat alempien viiksien alapuolella tai ylempien viiksien yläpuolella.
Laskin suorittaa seuraavat vaiheet box plotin luomiseksi:
On tärkeää huomata, että kvartiilien laskemiseen on erilaisia menetelmiä, erityisesti parillisten elementtien sisältävien datasetien kohdalla. Yllä kuvattu menetelmä tunnetaan "eksklusiivisena" menetelmänä, mutta muita menetelmiä, kuten "inklusivinen" menetelmä tai "mediaanien mediaani" -menetelmä, voidaan myös käyttää. Menetelmien valinta voi hieman vaikuttaa Q1:n ja Q3:n asemaan, erityisesti pienissä datasetissä.
Box plot tarjoaa useita oivalluksia datasta:
Box plotit ovat hyödyllisiä eri aloilla, mukaan lukien:
Tilastotiede: Datan jakautumisen ja vinouden visualisoimiseen. Esimerkiksi testitulosten vertailu eri koulujen tai luokkien välillä.
Datan analysointi: Poikkeamien tunnistamiseen ja jakautumien vertailuun. Liiketoiminnassa se voisi olla käytössä myyntidatan analysoimiseksi eri alueilla tai ajanjaksoilla.
Tieteellinen tutkimus: Tulosten esittämiseen ja ryhmien vertailuun. Esimerkiksi eri hoitojen tehokkuuden vertailu lääketieteellisissä tutkimuksissa.
Laadunvalvonta: Prosessimuuttujien seuraamiseen ja poikkeamien tunnistamiseen. Teollisuudessa sitä voitaisiin käyttää tuotteen mittojen seuraamiseen ja varmistamiseen, että ne ovat hyväksyttävissä rajoissa.
Rahoitus: Osakehintaliikkeitä ja muita taloudellisia mittareita analysoimiseen. Esimerkiksi eri sijoitusrahastojen suorituskyvyn vertailu ajan myötä.
Ympäristötiede: Ympäristödatan, kuten saastetason tai lämpötilavaihteluiden analysoimiseen ja vertailuun eri sijainneissa tai ajanjaksoissa.
Urheiluanalytiikka: Pelaajien suorituskykystatistiikkojen vertailuun eri joukkueiden tai kausien välillä.
Vaikka box plotit ovat tehokkaita työkaluja datan visualisointiin, on useita vaihtoehtoja riippuen analyysin erityistarpeista:
Histogrammit: Hyödyllisiä datasetin frekvenssijakauman näyttämiseen. Ne tarjoavat enemmän tietoa jakauman muodosta, mutta voivat olla vähemmän tehokkaita useiden datasetien vertailussa.
Viuluplotit: Yhdistävät box plotin ja kernel density plotin ominaisuudet, näyttäen datan todennäköisyysjakauman eri arvoilla.
Hajontakuvastot: Ihanteellisia kahden muuttujan välisen suhteen näyttämiseen, mitä box plotit eivät voi tehdä.
Pylväsdiagrammit: Sopivia yksittäisten arvojen vertailuun eri kategorioiden välillä.
Viivakaaviot: Tehokkaita aikatrendien näyttämiseen, mitä box plotit eivät hyvin tallenna.
Lämpökartat: Hyödyllisiä monimutkaisten datasetien visualisoimiseen useilla muuttujilla.
Valinta näiden vaihtoehtojen välillä riippuu datan luonteesta ja erityisistä oivalluksista, joita halutaan välittää.
Box plotin keksi John Tukey vuonna 1970, ja se ilmestyi ensimmäisen kerran hänen kirjassaan "Exploratory Data Analysis" vuonna 1977. Tukeyn alkuperäinen suunnittelu, jota kutsuttiin "schematic plotiksi", esitti vain mediaanin, kvartiilit ja äärimmäiset arvot.
Box plotin historian keskeiset kehitykset sisältävät:
1978: McGill, Tukey ja Larsen esittivät notched box plotin, joka lisää luottamusvälin mediaanille.
1980-luku: Box plotien "poikkeamien" käsite vakiintui enemmän, ja ne määriteltiin tyypillisesti pisteiksi, jotka ovat yli 1.5 kertaa IQR kvartiileista.
1990-luku-2000-luku: Tietokonegrafiikan myötä kehitettiin vaihteita, kuten muuttuvapaksuisia box plotteja ja viuluplotteja.
Nykyhetki: Vuorovaikutteiset ja dynaamiset box plotit ovat tulleet yleisiksi datan visualisointiohjelmistoissa, jolloin käyttäjät voivat tutkia taustalla olevia datapisteitä.
Box plotit ovat kestäneet ajan testin yksinkertaisuutensa ja tehokkuutensa vuoksi monimutkaisten datasetien tiivistämisessä. Ne ovat edelleen vakiintuneita datan analyysissä monilla aloilla.
Tässä on esimerkkejä siitä, kuinka luoda box plot eri ohjelmointikielillä:
1=QUARTILE(A1:A100,1) ' Q1
2=MEDIAN(A1:A100) ' Mediaani
3=QUARTILE(A1:A100,3) ' Q3
4=MIN(A1:A100) ' Minimi
5=MAX(A1:A100) ' Maksimi
6
1## Oletetaan, että 'data' on numerovektori
2boxplot(data)
3
1% Oletetaan, että 'data' on numerovektori
2boxplot(data)
3
1// Käyttäen D3.js
2var svg = d3.select("body").append("svg")
3 .attr("width", 400)
4 .attr("height", 300);
5
6var data = [/* datataulukko */];
7
8var boxplot = svg.append("g")
9 .datum(data)
10 .call(d3.boxplot());
11
1import matplotlib.pyplot as plt
2import numpy as np
3
4data = [/* datataulukko */]
5plt.boxplot(data)
6plt.show()
7
1import org.jfree.chart.ChartFactory;
2import org.jfree.chart.ChartPanel;
3import org.jfree.chart.JFreeChart;
4import org.jfree.data.statistics.DefaultBoxAndWhiskerCategoryDataset;
5
6DefaultBoxAndWhiskerCategoryDataset dataset = new DefaultBoxAndWhiskerCategoryDataset();
7dataset.add(Arrays.asList(/* datasi */), "Sarja 1", "Kategoria 1");
8
9JFreeChart chart = ChartFactory.createBoxAndWhiskerChart(
10 "Box Plot", "Kategoria", "Arvo", dataset, true);
11
Löydä lisää työkaluja, jotka saattavat olla hyödyllisiä työnkulullesi