🛠️

Whiz Tools

Build • Create • Innovate

Laatikkodiagrammin Laskin: Tilastollinen Analyysi Työkalu

Luo visuaalinen analyysi tietojoukostasi laatikkodiagrammin avulla. Tämä työkalu laskee ja näyttää keskeiset tilastolliset mittarit, mukaan lukien kvartiilit, mediaani ja poikkeavat havainnot.

Laatikkokaavion laskin

Laatikkokaavion laskin

📚

Dokumentaatio

Box Plot Laskin

Johdanto

Box plot, joka tunnetaan myös nimellä box-and-whisker plot, on standardoitu tapa esittää datan jakautumista viiden numeron yhteenvedon perusteella: minimo, ensimmäinen kvartiili (Q1), mediaani, kolmas kvartiili (Q3) ja maksimi. Tämä laskin mahdollistaa box plotin luomisen annetusta numeerisesta datasta, tarjoten tehokkaan työkalun datan visualisointiin ja analysointiin.

Kuinka käyttää tätä laskinta

  1. Syötä datasi pilkuilla tai välilyönneillä erotettuna numerolistana syöttökenttään.
  2. Laskin laskee automaattisesti box plotin tilastot ja näyttää tulokset.
  3. Visuaalinen esitys box plotista näytetään tulosten alla.
  4. Voit kopioida lasketut tulokset käyttämällä "Kopioi tulos" -painiketta.

Kaava

Box plotin laskennassa käytettävät keskeiset kaavat ovat:

  1. Mediaani (Q2): Järjestetyssä datassa, jossa on n elementtiä,

    x_{\frac{n+1}{2}} & \text{jos n on pariton} \\ \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) & \text{jos n on parillinen} \end{cases} $$
  2. Ensimmäinen kvartiili (Q1) ja kolmas kvartiili (Q3): Q1=Alakannan mediaaniQ1 = \text{Alakannan mediaani} Q3=Yla¨kannan mediaaniQ3 = \text{Yläkannan mediaani}

  3. Kvartiiliväli (IQR): IQR=Q3Q1IQR = Q3 - Q1

  4. Viikset: Alaviikset=max(min(x),Q11.5IQR)\text{Alaviikset} = \max({\min(x), Q1 - 1.5 * IQR}) Ylaviikset=min(max(x),Q3+1.5IQR)\text{Ylaviikset} = \min({\max(x), Q3 + 1.5 * IQR})

  5. Poikkeamat: Kaikki datapisteet, jotka ovat alempien viiksien alapuolella tai ylempien viiksien yläpuolella.

Laskenta

Laskin suorittaa seuraavat vaiheet box plotin luomiseksi:

  1. Järjestä syötetty data nousevaan järjestykseen.
  2. Laske mediaani (Q2):
    • Jos datan pisteiden määrä on pariton, mediaani on keskimmäinen arvo.
    • Jos datan pisteiden määrä on parillinen, mediaani on kahden keskimmäisen arvon keskiarvo.
  3. Laske ensimmäinen kvartiili (Q1):
    • Tämä on alakannan mediaani.
    • Jos datan pisteiden määrä on pariton, mediaania ei oteta huomioon kummassakaan puoliskossa.
  4. Laske kolmas kvartiili (Q3):
    • Tämä on yläkannan mediaani.
    • Jos datan pisteiden määrä on pariton, mediaania ei oteta huomioon kummassakaan puoliskossa.
  5. Laske kvartiiliväli (IQR) = Q3 - Q1.
  6. Määritä viikset:
    • Alaviikset: Pienin datapiste, joka on suurempi tai yhtä suuri kuin Q1 - 1.5 * IQR
    • Ylaviikset: Suurin datapiste, joka on pienempi tai yhtä suuri kuin Q3 + 1.5 * IQR
  7. Tunnista poikkeamat: Kaikki datapisteet, jotka ovat alempien viiksien alapuolella tai ylempien viiksien yläpuolella.

On tärkeää huomata, että kvartiilien laskemiseen on erilaisia menetelmiä, erityisesti parillisten elementtien sisältävien datasetien kohdalla. Yllä kuvattu menetelmä tunnetaan "eksklusiivisena" menetelmänä, mutta muita menetelmiä, kuten "inklusivinen" menetelmä tai "mediaanien mediaani" -menetelmä, voidaan myös käyttää. Menetelmien valinta voi hieman vaikuttaa Q1:n ja Q3:n asemaan, erityisesti pienissä datasetissä.

Tulkitseminen

Q3 Mediaani Q1 Min Max Box Plotin komponentit
  • Box plotissa oleva laatikko edustaa kvartiiliväliä (IQR), jossa laatikon pohja on Q1:ssä ja yläosa Q3:ssa.
  • Laatikkossa oleva viiva edustaa mediaania (Q2).
  • Viikset ulottuvat laatikosta minimi- ja maksimiarvoihin, poikkeamat pois lukien.
  • Poikkeamat esitetään yksittäisinä pisteinä viiksien ulkopuolella.

Box plot tarjoaa useita oivalluksia datasta:

  • Keskimäärä: Mediaani osoittaa datasetin keskimmäisen arvon.
  • Hajonta: IQR ja kokonaislevitys minimi- ja maksimiarvojen välillä osoittavat datan hajontaa.
  • Vinous: Jos mediaani ei ole keskellä laatikkoa, se osoittaa datan vinoutta.
  • Poikkeamat: Pisteet viiksien ulkopuolella korostavat mahdollisia poikkeamia tai äärimmäisiä arvoja.

Käyttötapaukset

Box plotit ovat hyödyllisiä eri aloilla, mukaan lukien:

  1. Tilastotiede: Datan jakautumisen ja vinouden visualisoimiseen. Esimerkiksi testitulosten vertailu eri koulujen tai luokkien välillä.

  2. Datan analysointi: Poikkeamien tunnistamiseen ja jakautumien vertailuun. Liiketoiminnassa se voisi olla käytössä myyntidatan analysoimiseksi eri alueilla tai ajanjaksoilla.

  3. Tieteellinen tutkimus: Tulosten esittämiseen ja ryhmien vertailuun. Esimerkiksi eri hoitojen tehokkuuden vertailu lääketieteellisissä tutkimuksissa.

  4. Laadunvalvonta: Prosessimuuttujien seuraamiseen ja poikkeamien tunnistamiseen. Teollisuudessa sitä voitaisiin käyttää tuotteen mittojen seuraamiseen ja varmistamiseen, että ne ovat hyväksyttävissä rajoissa.

  5. Rahoitus: Osakehintaliikkeitä ja muita taloudellisia mittareita analysoimiseen. Esimerkiksi eri sijoitusrahastojen suorituskyvyn vertailu ajan myötä.

  6. Ympäristötiede: Ympäristödatan, kuten saastetason tai lämpötilavaihteluiden analysoimiseen ja vertailuun eri sijainneissa tai ajanjaksoissa.

  7. Urheiluanalytiikka: Pelaajien suorituskykystatistiikkojen vertailuun eri joukkueiden tai kausien välillä.

Vaihtoehdot

Vaikka box plotit ovat tehokkaita työkaluja datan visualisointiin, on useita vaihtoehtoja riippuen analyysin erityistarpeista:

  1. Histogrammit: Hyödyllisiä datasetin frekvenssijakauman näyttämiseen. Ne tarjoavat enemmän tietoa jakauman muodosta, mutta voivat olla vähemmän tehokkaita useiden datasetien vertailussa.

  2. Viuluplotit: Yhdistävät box plotin ja kernel density plotin ominaisuudet, näyttäen datan todennäköisyysjakauman eri arvoilla.

  3. Hajontakuvastot: Ihanteellisia kahden muuttujan välisen suhteen näyttämiseen, mitä box plotit eivät voi tehdä.

  4. Pylväsdiagrammit: Sopivia yksittäisten arvojen vertailuun eri kategorioiden välillä.

  5. Viivakaaviot: Tehokkaita aikatrendien näyttämiseen, mitä box plotit eivät hyvin tallenna.

  6. Lämpökartat: Hyödyllisiä monimutkaisten datasetien visualisoimiseen useilla muuttujilla.

Valinta näiden vaihtoehtojen välillä riippuu datan luonteesta ja erityisistä oivalluksista, joita halutaan välittää.

Historia

Box plotin keksi John Tukey vuonna 1970, ja se ilmestyi ensimmäisen kerran hänen kirjassaan "Exploratory Data Analysis" vuonna 1977. Tukeyn alkuperäinen suunnittelu, jota kutsuttiin "schematic plotiksi", esitti vain mediaanin, kvartiilit ja äärimmäiset arvot.

Box plotin historian keskeiset kehitykset sisältävät:

  1. 1978: McGill, Tukey ja Larsen esittivät notched box plotin, joka lisää luottamusvälin mediaanille.

  2. 1980-luku: Box plotien "poikkeamien" käsite vakiintui enemmän, ja ne määriteltiin tyypillisesti pisteiksi, jotka ovat yli 1.5 kertaa IQR kvartiileista.

  3. 1990-luku-2000-luku: Tietokonegrafiikan myötä kehitettiin vaihteita, kuten muuttuvapaksuisia box plotteja ja viuluplotteja.

  4. Nykyhetki: Vuorovaikutteiset ja dynaamiset box plotit ovat tulleet yleisiksi datan visualisointiohjelmistoissa, jolloin käyttäjät voivat tutkia taustalla olevia datapisteitä.

Box plotit ovat kestäneet ajan testin yksinkertaisuutensa ja tehokkuutensa vuoksi monimutkaisten datasetien tiivistämisessä. Ne ovat edelleen vakiintuneita datan analyysissä monilla aloilla.

Koodipätkät

Tässä on esimerkkejä siitä, kuinka luoda box plot eri ohjelmointikielillä:

1=QUARTILE(A1:A100,1)  ' Q1
2=MEDIAN(A1:A100)      ' Mediaani
3=QUARTILE(A1:A100,3)  ' Q3
4=MIN(A1:A100)         ' Minimi
5=MAX(A1:A100)         ' Maksimi
6

Viittaukset

  1. Tukey, J. W. (1977). Exploratory Data Analysis. Addison-Wesley.
  2. McGill, R., Tukey, J. W., & Larsen, W. A. (1978). Variations of Box Plots. The American Statistician, 32(1), 12-16.
  3. Williamson, D. F., Parker, R. A., & Kendrick, J. S. (1989). The box plot: a simple visual method to interpret data. Annals of internal medicine, 110(11), 916-921.
  4. Wickham, H., & Stryjewski, L. (2011). 40 years of boxplots. Technical report, had.co.nz.
  5. Frigge, M., Hoaglin, D. C., & Iglewicz, B. (1989). Some Implementations of the Boxplot. The American Statistician, 43(1), 50-54.