Calculadora de Diagrames de Caixes i Bigotis per a Dades
Genera una anàlisi visual del teu conjunt de dades mitjançant un diagrama de caixes i bigotis. Aquesta eina calcula i mostra mesures estadístiques clau, incloent quartils, mediana i valors atípics.
Calculadora de Diagrama de Caixes
Calculadora de Diagrama de Caixes
Documentació
Calculadora de Box Plot
Introducció
Un box plot, també conegut com a diagrama de caixa i bigotis, és una manera estàndard de mostrar la distribució de dades basada en un resum de cinc números: mínim, primer quartil (Q1), mediana, tercer quartil (Q3) i màxim. Aquesta calculadora et permet generar un box plot a partir d'un conjunt de dades numèriques donades, proporcionant una eina poderosa per a la visualització i l'anàlisi de dades.
Com Utilitzar Aquesta Calculadora
- Introdueix les teves dades com una llista de números separats per comes o espais al camp d'entrada.
- La calculadora calcularà automàticament les estadístiques del box plot i mostrarà els resultats.
- Una representació visual del box plot es mostrarà a continuació dels resultats.
- Pots copiar els resultats calculats utilitzant el botó "Copiar Resultat".
Fórmula
Les fórmules clau utilitzades en els càlculs del box plot són:
-
Mediana (Q2): Per a un conjunt de dades ordenades de n elements,
x_{\frac{n+1}{2}} & \text{si n és senar} \\ \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) & \text{si n és parell} \end{cases} $$ -
Primer Quartil (Q1) i Tercer Quartil (Q3):
-
Rango Interquartílic (IQR):
-
Bigotis:
-
Valors atípics: Qualsevol punt de dades per sota del Bigoti Inferior o per sobre del Bigoti Superior.
Càlcul
La calculadora realitza els següents passos per generar el box plot:
- Ordena les dades d'entrada en ordre ascendent.
- Calcula la mediana (Q2):
- Si el nombre de punts de dades és senar, la mediana és el valor del mig.
- Si el nombre de punts de dades és parell, la mediana és la mitjana dels dos valors del mig.
- Calcula el primer quartil (Q1):
- Aquesta és la mediana de la meitat inferior de les dades.
- Si el nombre de punts de dades és senar, la mediana no s'inclou en cap de les dues meitats.
- Calcula el tercer quartil (Q3):
- Aquesta és la mediana de la meitat superior de les dades.
- Si el nombre de punts de dades és senar, la mediana no s'inclou en cap de les dues meitats.
- Calcula el rang interquartílic (IQR) = Q3 - Q1.
- Determina els bigotis:
- Bigoti inferior: El punt de dades més petit que és major o igual a Q1 - 1.5 * IQR
- Bigoti superior: El punt de dades més gran que és menor o igual a Q3 + 1.5 * IQR
- Identifica els valors atípics: Qualsevol punt de dades per sota del bigoti inferior o per sobre del bigoti superior.
És important notar que hi ha diferents mètodes per calcular els quartils, particularment quan es tracta de conjunts de dades que tenen un nombre parell d'elements. El mètode descrit anteriorment es coneix com a mètode "exclusiu", però també es poden utilitzar altres mètodes com el mètode "inclusiu" o el mètode "mediana de medians". L'elecció del mètode pot afectar lleugerament la posició de Q1 i Q3, especialment per a conjunts de dades petits.
Interpretació
- La caixa del gràfic representa el rang interquartílic (IQR), amb el fons de la caixa a Q1 i el superior a Q3.
- La línia dins de la caixa representa la mediana (Q2).
- Els bigotis s'estenen des de la caixa fins als valors mínim i màxim, excloent els valors atípics.
- Els valors atípics es representen com a punts individuals més enllà dels bigotis.
El box plot proporciona diverses perspectives sobre les dades:
- Tendència central: La mediana mostra el valor central del conjunt de dades.
- Variabilitat: L'IQR i la dispersió general des del mínim fins al màxim mostren la dispersió de les dades.
- Asimetria: Si la mediana no està centrada dins de la caixa, indica asimetria en les dades.
- Valors atípics: Els punts més enllà dels bigotis posen de manifest possibles valors atípics o extrems.
Casos d'Ús
Els box plots són útils en diversos camps, incloent:
-
Estadística: Per visualitzar la distribució i l'asimetria de les dades. Per exemple, comparar les notes d'un examen entre diferents escoles o classes.
-
Anàlisi de Dades: Per identificar valors atípics i comparar distribucions. En negocis, es podria utilitzar per analitzar les dades de vendes entre diferents regions o períodes de temps.
-
Investigació Científica: Per presentar resultats i comparar grups. Per exemple, comparar l'eficàcia de diferents tractaments en estudis mèdics.
-
Control de Qualitat: Per monitorar variables de procés i identificar anomalies. En fabricació, es podria utilitzar per fer un seguiment de les dimensions del producte i assegurar-se que es troben dins de les gammes acceptables.
-
Finances: Per analitzar els moviments dels preus de les accions i altres mètriques financeres. Per exemple, comparar el rendiment de diferents fons d'inversió al llarg del temps.
-
Ciència Ambiental: Per analitzar i comparar dades ambientals, com ara els nivells de contaminació o les variacions de temperatura entre diferents ubicacions o períodes de temps.
-
Anàlisi Esportiva: Per comparar les estadístiques de rendiment dels jugadors entre equips o temporades.
Alternatives
Si bé els box plots són eines poderoses per a la visualització de dades, hi ha diverses alternatives segons les necessitats específiques de l'anàlisi:
-
Histogrames: Útils per mostrar la distribució de freqüències d'un conjunt de dades. Proporcionen més detalls sobre la forma de la distribució però poden ser menys efectius per comparar múltiples conjunts de dades.
-
Gràfics de Violí: Combinen les característiques dels box plots amb gràfics de densitat de nuvol, mostrant la densitat de probabilitat de les dades en diferents valors.
-
Gràfics de Dispersió: Ideals per mostrar la relació entre dues variables, cosa que els box plots no poden fer.
-
Gràfics de Barres: Adequats per comparar valors individuals entre diferents categories.
-
Gràfics de Línies: Efectius per mostrar tendències al llarg del temps, cosa que els box plots no capturen bé.
-
Mapes de Calor: Útils per visualitzar conjunts de dades complexes amb múltiples variables.
L'elecció entre aquestes alternatives depèn de la naturalesa de les dades i de les perspectives específiques que es volen transmetre.
Història
El box plot va ser inventat per John Tukey el 1970 i va aparèixer per primera vegada al seu llibre "Exploratory Data Analysis" el 1977. El disseny original de Tukey, anomenat "diagrama esquemàtic", mostrava només la mediana, els quartils i els valors extrems.
Desenvolupaments clau en la història dels box plots inclouen:
-
1978: McGill, Tukey i Larsen van introduir el box plot amb muestrari, que afegeix intervals de confiança per a la mediana.
-
Anys 1980: El concepte de "valors atípics" en els box plots es va fer més estàndard, típicament definit com a punts més enllà de 1.5 vegades l'IQR dels quartils.
-
Anys 1990-2000: Amb l'arribada de gràfics informàtics, es van desenvolupar variacions com els box plots d'amplada variable i els gràfics de violí.
-
Actualitat: Els box plots interactius i dinàmics s'han convertit en comuns en programari de visualització de dades, permetent als usuaris explorar els punts de dades subjacents.
Els box plots han resistit la prova del temps gràcies a la seva simplicitat i efectivitat per resumir conjunts de dades complexes. Continuen sent un element bàsic en l'anàlisi de dades en molts camps.
Codi Exemple
Aquí hi ha exemples de com crear un box plot en diversos llenguatges de programació:
1=QUARTILE(A1:A100,1) ' Q1
2=MEDIAN(A1:A100) ' Mediana
3=QUARTILE(A1:A100,3) ' Q3
4=MIN(A1:A100) ' Mínim
5=MAX(A1:A100) ' Màxim
6
1## Suposant que 'data' és el teu vector de números
2boxplot(data)
3
1% Suposant que 'data' és el teu vector de números
2boxplot(data)
3
1// Utilitzant D3.js
2var svg = d3.select("body").append("svg")
3 .attr("width", 400)
4 .attr("height", 300);
5
6var data = [/* el teu array de dades */];
7
8var boxplot = svg.append("g")
9 .datum(data)
10 .call(d3.boxplot());
11
1import matplotlib.pyplot as plt
2import numpy as np
3
4data = [/* el teu array de dades */]
5plt.boxplot(data)
6plt.show()
7
1import org.jfree.chart.ChartFactory;
2import org.jfree.chart.ChartPanel;
3import org.jfree.chart.JFreeChart;
4import org.jfree.data.statistics.DefaultBoxAndWhiskerCategoryDataset;
5
6DefaultBoxAndWhiskerCategoryDataset dataset = new DefaultBoxAndWhiskerCategoryDataset();
7dataset.add(Arrays.asList(/* les teves dades */), "Sèrie 1", "Categoria 1");
8
9JFreeChart chart = ChartFactory.createBoxAndWhiskerChart(
10 "Box Plot", "Categoria", "Valor", dataset, true);
11
Referències
- Tukey, J. W. (1977). Exploratory Data Analysis. Addison-Wesley.
- McGill, R., Tukey, J. W., & Larsen, W. A. (1978). Variations of Box Plots. The American Statistician, 32(1), 12-16.
- Williamson, D. F., Parker, R. A., & Kendrick, J. S. (1989). The box plot: a simple visual method to interpret data. Annals of internal medicine, 110(11), 916-921.
- Wickham, H., & Stryjewski, L. (2011). 40 years of boxplots. Informe tècnic, had.co.nz.
- Frigge, M., Hoaglin, D. C., & Iglewicz, B. (1989). Some Implementations of the Boxplot. The American Statistician, 43(1), 50-54.
Comentaris
Fes clic a la notificació de comentaris per començar a donar comentaris sobre aquesta eina
Eines relacionades
Descobreix més eines que podrien ser útils per al teu flux de treball