Kastīšu grafika kalkulators datu analīzei un vizualizācijai
Izveidojiet vizuālu analīzi par savu datu kopu, izmantojot kastīšu un ūsas grafiku. Šis rīks aprēķina un parāda galvenos statistikas rādītājus, tostarp kvartilus, mediānu un novirzes.
Kastīšu grafika kalkulators
Kastīšu grafika kalkulators
Dokumentācija
Kastes Grafika Kalkulators
Ievads
Kastes grafiks, pazīstams arī kā kaste un ūsas grafiks, ir standartizēts veids, kā attēlot datu sadalījumu, pamatojoties uz piecu skaitļu kopsummu: minimālo, pirmo kvartilu (Q1), mediānu, trešo kvartilu (Q3) un maksimālo. Šis kalkulators ļauj jums ģenerēt kastes grafiku no dotā skaitļu datu kopas, nodrošinot jaudīgu rīku datu vizualizācijai un analīzei.
Kā izmantot šo kalkulatoru
- Ievadiet savus datus kā komatu vai atstarpi atdalītu skaitļu sarakstu ievades laukā.
- Kalkulators automātiski aprēķinās kastes grafika statistiku un parādīs rezultātus.
- Vizualizācija kastes grafikā tiks parādīta zem rezultātiem.
- Jūs varat kopēt aprēķinātos rezultātus, izmantojot pogu "Kopēt rezultātu".
Formulas
Galvenās formulas, kas izmantotas kastes grafika aprēķinos, ir:
-
Mediāna (Q2): Sakārtotai datu kopai ar n elementiem,
x_{\frac{n+1}{2}} & \text{ja n ir nepāra} \\ \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) & \text{ja n ir pāra} \end{cases} $$ -
Pirmais kvartils (Q1) un trešais kvartils (Q3):
-
Kvartilu intervāls (IQR):
-
Uzacis:
-
Novirzes: Jebkuri datu punkti, kas ir zem apakšējā uzacis vai virs augšējā uzacis.
Aprēķins
Kalkulators veic šādas darbības, lai ģenerētu kastes grafiku:
- Sakārto ievades datus pieaugošā secībā.
- Aprēķina mediānu (Q2):
- Ja datu punktu skaits ir nepāra, mediāna ir vidējā vērtība.
- Ja datu punktu skaits ir pāra, mediāna ir divu vidējo vērtību vidējais.
- Aprēķina pirmo kvartilu (Q1):
- Tas ir mediāna apakšējai datu pusei.
- Ja datu punktu skaits ir nepāra, mediāna netiek iekļauta nevienā pusē.
- Aprēķina trešo kvartilu (Q3):
- Tas ir mediāna augšējai datu pusei.
- Ja datu punktu skaits ir nepāra, mediāna netiek iekļauta nevienā pusē.
- Aprēķina kvartilu intervālu (IQR) = Q3 - Q1.
- Nosaka uzacis:
- Apakšējā uzacs: Mazākais datu punkts, kas ir lielāks par vai vienāds ar Q1 - 1.5 * IQR
- Augšējā uzacs: Lielākais datu punkts, kas ir mazāks par vai vienāds ar Q3 + 1.5 * IQR
- Identificē novirzes: Jebkuri datu punkti, kas ir zem apakšējā uzacis vai virs augšējā uzacis.
Ir svarīgi atzīmēt, ka ir dažādas metodes kvartilu aprēķināšanai, īpaši, strādājot ar datu kopām, kurām ir pāra skaits elementu. Iepriekš aprakstītā metode ir pazīstama kā "ekskluzīvā" metode, taču var tikt izmantotas arī citas metodes, piemēram, "iekļaujošā" metode vai "mediānas mediānu" metode. Metodes izvēle var nedaudz ietekmēt Q1 un Q3 pozīciju, īpaši mazām datu kopām.
Interpretācija
- Kaste grafikā attēlo kvartilu intervālu (IQR), ar kastes apakšu pie Q1 un augšu pie Q3.
- Līnija iekšā kastē attēlo mediānu (Q2).
- Uzacis izplešas no kastes līdz minimālajām un maksimālajām vērtībām, izslēdzot novirzes.
- Novirzes tiek attēlotas kā atsevišķi punkti aiz uzacīm.
Kastes grafiks sniedz vairākas atziņas par datiem:
- Centrālā tendence: Mediāna parāda centrālo vērtību datu kopā.
- Mainīgums: IQR un kopējā izkliede no minimālās līdz maksimālajai vērtībai parāda datu izkliedi.
- Izliekums: Ja mediāna nav centrēta kastes vidū, tas norāda uz datu izliekumu.
- Novirzes: Punkti aiz uzacīm izceļ potenciālās novirzes vai ekstrēmas vērtības.
Lietošanas gadījumi
Kastes grafiki ir noderīgi dažādās jomās, tostarp:
-
Statistika: Datu sadalījuma un izliekuma vizualizēšanai. Piemēram, salīdzinot testu rezultātus dažādās skolās vai klasēs.
-
Datu analīze: Lai identificētu novirzes un salīdzinātu sadalījumus. Uzņēmējdarbībā tas var tikt izmantots, lai analizētu pārdošanas datus dažādās reģionos vai laika periodos.
-
Zinātniskie pētījumi: Lai prezentētu rezultātus un salīdzinātu grupas. Piemēram, salīdzinot dažādu ārstēšanas efektivitāti medicīnas pētījumos.
-
Kvalitātes kontrole: Lai uzraudzītu procesa mainīgos un identificētu anomālijas. Ražošanā to var izmantot, lai izsekotu produkta izmēriem un nodrošinātu, ka tie atbilst pieņemamām robežām.
-
Finanšu joma: Lai analizētu akciju cenu kustību un citus finanšu rādītājus. Piemēram, salīdzinot dažādu ieguldījumu fondu sniegumu laika gaitā.
-
Vides zinātne: Lai analizētu un salīdzinātu vides datus, piemēram, piesārņojuma līmeņus vai temperatūras svārstības dažādās vietās vai laika periodos.
-
Sporta analītika: Lai salīdzinātu spēlētāju snieguma statistiku starp komandām vai sezonām.
Alternatīvas
Lai gan kastes grafiki ir jaudīgi rīki datu vizualizācijai, ir vairākas alternatīvas atkarībā no konkrētajām analīzes vajadzībām:
-
Histogrammas: Noderīgas, lai parādītu datu kopas biežuma sadalījumu. Tās sniedz vairāk informācijas par sadalījuma formu, bet var būt mazāk efektīvas, salīdzinot vairākas datu kopas.
-
Vijolīšu grafiki: Apvieno kastes grafiku iezīmes ar kodolblīvuma grafikiem, parādot datu varbūtības blīvumu pie dažādām vērtībām.
-
Izkliedes grafiki: Ideāli piemēroti, lai parādītu divu mainīgo attiecības, ko kastes grafiki nevar darīt.
-
Stabiņu diagrammas: Piemērotas, lai salīdzinātu vienas vērtības dažādās kategorijās.
-
Līniju grafiki: Efektīvi, lai parādītu tendences laika gaitā, ko kastes grafiki neuztver labi.
-
Siltuma kartes: Noderīgas, lai vizualizētu sarežģītas datu kopas ar vairākiem mainīgajiem.
Izvēle starp šīm alternatīvām ir atkarīga no datu rakstura un konkrētajām atziņām, ko vēlaties nodot.
Vēsture
Kastes grafiku izgudroja Džons Tūkijs 1970. gadā, un tas pirmo reizi parādījās viņa grāmatā "Izpētes Datu Analīze" 1977. gadā. Tūkija oriģinālais dizains, ko sauc par "shēmas grafiku", attēloja tikai mediānu, kvartilus un ekstremālās vērtības.
Galvenie kastes grafiku vēstures attīstības notikumi ietver:
-
- gads: Makgils, Tūkijs un Larsens ieviesa izgriezto kastes grafiku, kas pievieno uzticības intervālus mediānai.
-
- gadi: Koncepcija par "novirzēm" kastes grafikos kļuva standartizēta, parasti definēta kā punkti, kas atrodas aiz 1.5 reizes IQR no kvartiliem.
-
- gadi-2000. gadi: Ar datorgrafikas parādīšanos tika izstrādātas variācijas, piemēram, mainīgā platuma kastes grafiki un vijolīšu grafiki.
-
Mūsdienas: Interaktīvi un dinamiskie kastes grafiki ir kļuvuši izplatīti datu vizualizācijas programmatūrā, ļaujot lietotājiem izpētīt pamatdatus.
Kastes grafiki ir izturējuši laika pārbaudi, pateicoties to vienkāršībai un efektivitātei sarežģītu datu kopu kopsavilkuma sniegšanā. Tie joprojām ir pamatelements datu analīzē daudzās jomās.
Koda fragmenti
Šeit ir piemēri, kā izveidot kastes grafiku dažādās programmēšanas valodās:
1=QUARTILE(A1:A100,1) ' Q1
2=MEDIAN(A1:A100) ' Mediāna
3=QUARTILE(A1:A100,3) ' Q3
4=MIN(A1:A100) ' Minimālais
5=MAX(A1:A100) ' Maksimālais
6
1## Pieņemot, ka 'data' ir jūsu skaitļu vektors
2boxplot(data)
3
1% Pieņemot, ka 'data' ir jūsu skaitļu vektors
2boxplot(data)
3
1// Izmantojot D3.js
2var svg = d3.select("body").append("svg")
3 .attr("width", 400)
4 .attr("height", 300);
5
6var data = [/* jūsu datu masīvs */];
7
8var boxplot = svg.append("g")
9 .datum(data)
10 .call(d3.boxplot());
11
1import matplotlib.pyplot as plt
2import numpy as np
3
4data = [/* jūsu datu masīvs */]
5plt.boxplot(data)
6plt.show()
7
1import org.jfree.chart.ChartFactory;
2import org.jfree.chart.ChartPanel;
3import org.jfree.chart.JFreeChart;
4import org.jfree.data.statistics.DefaultBoxAndWhiskerCategoryDataset;
5
6DefaultBoxAndWhiskerCategoryDataset dataset = new DefaultBoxAndWhiskerCategoryDataset();
7dataset.add(Arrays.asList(/* jūsu dati */), "Sērija 1", "Kategorija 1");
8
9JFreeChart chart = ChartFactory.createBoxAndWhiskerChart(
10 "Kastes Grafiks", "Kategorija", "Vērtība", dataset, true);
11
Atsauces
- Tūkijs, J. W. (1977). Izpētes Datu Analīze. Addison-Wesley.
- Makgils, R., Tūkijs, J. W., & Larsens, W. A. (1978). Kastes Grafiku Variācijas. The American Statistician, 32(1), 12-16.
- Viljamsons, D. F., Parkers, R. A., & Kendriks, J. S. (1989). Kastes grafiks: vienkārša vizuāla metode datu interpretēšanai. Annals of internal medicine, 110(11), 916-921.
- Vikhems, H., & Strījevski, L. (2011). 40 gadi kastes grafikos. Tehniskais ziņojums, had.co.nz.
- Frigge, M., Hoaglin, D. C., & Iglewicz, B. (1989). Dažas Kastes Grafiku Ieviešanas. The American Statistician, 43(1), 50-54.
Atsauksmes
Noklikšķiniet uz atsauksmju paziņojuma, lai sāktu sniegt atsauksmes par šo rīku
Saistītie rīki
Atklājiet vairāk rīku, kas varētu būt noderīgi jūsu darba plūsmā