Generați o analiză vizuală a setului dvs. de date folosind un grafic box-and-whisker. Acest instrument calculează și afișează măsuri statistice cheie, inclusiv quartile, mediană și valori aberante.
O diagramă box plot, cunoscută și sub denumirea de diagramă box-and-whisker, este o modalitate standardizată de a afișa distribuția datelor pe baza unui rezumat în cinci numere: minim, primul quartil (Q1), mediana, al treilea quartil (Q3) și maxim. Acest calculator vă permite să generați o diagramă box plot dintr-un set dat de date numerice, oferind un instrument puternic pentru vizualizarea și analiza datelor.
Formulele cheie utilizate în calculele pentru diagrama box plot sunt:
Mediana (Q2): Pentru un set de date ordonat cu n elemente,
x_{\frac{n+1}{2}} & \text{dacă n este impar} \\ \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) & \text{dacă n este par} \end{cases} $$Primul quartil (Q1) și al treilea quartil (Q3):
Intervalul interquartil (IQR):
Mustăți:
Puncte anormale: Orice puncte de date sub mustața inferioară sau deasupra mustății superioare.
Calculatorul efectuează următorii pași pentru a genera diagrama box plot:
Este important de menționat că există diferite metode pentru calcularea quartilelor, în special atunci când se lucrează cu seturi de date care au un număr par de elemente. Metoda descrisă mai sus este cunoscută sub numele de metoda "exclusivă", dar alte metode, cum ar fi metoda "inclusivă" sau metoda "mediana medianelor", pot fi, de asemenea, utilizate. Alegerea metodei poate afecta ușor poziția lui Q1 și Q3, în special pentru seturi de date mici.
Diagrama box plot oferă mai multe informații despre date:
Diagramele box plot sunt utile în diverse domenii, inclusiv:
Statistică: Pentru a vizualiza distribuția și asimetria datelor. De exemplu, compararea notelor la teste între diferite școli sau clase.
Analiza datelor: Pentru a identifica punctele anormale și a compara distribuțiile. În afaceri, ar putea fi utilizat pentru a analiza datele de vânzări între diferite regiuni sau perioade de timp.
Cercetare științifică: Pentru a prezenta rezultate și a compara grupuri. De exemplu, compararea eficacității diferitelor tratamente în studii medicale.
Controlul calității: Pentru a monitoriza variabilele procesului și a identifica anomaliile. În producție, ar putea fi utilizat pentru a urmări dimensiunile produselor și a asigura că acestea se încadrează în limitele acceptabile.
Finanțe: Pentru a analiza mișcările prețurilor acțiunilor și alte metrici financiare. De exemplu, compararea performanței diferitelor fonduri mutuale de-a lungul timpului.
Știința mediului: Pentru a analiza și compara datele de mediu, cum ar fi nivelurile de poluare sau variațiile de temperatură între diferite locații sau perioade de timp.
Analiza sportivă: Pentru a compara statisticile de performanță ale jucătorilor între echipe sau sezoane.
Deși diagramele box plot sunt instrumente puternice pentru vizualizarea datelor, există mai multe alternative în funcție de nevoile specifice ale analizei:
Histograme: Utile pentru a arăta distribuția frecvenței unui set de date. Ele oferă mai multe detalii despre forma distribuției, dar pot fi mai puțin eficiente pentru compararea mai multor seturi de date.
Grafice Violin: Combină caracteristicile diagramelor box plot cu graficele de densitate kernel, arătând densitatea probabilității datelor la diferite valori.
Grafice de dispersie: Ideale pentru a arăta relația dintre două variabile, ceea ce diagramele box plot nu pot face.
Grafice cu bare: Potrivite pentru a compara valori unice între diferite categorii.
Grafice liniare: Eficiente pentru a arăta tendințele în timp, ceea ce diagramele box plot nu captează bine.
Hărți de căldură: Utile pentru vizualizarea seturilor de date complexe cu mai multe variabile.
Alegerea între aceste alternative depinde de natura datelor și de informațiile specifice pe care se dorește să le transmită.
Diagrama box plot a fost inventată de John Tukey în 1970 și a apărut pentru prima dată în cartea sa "Exploratory Data Analysis" în 1977. Designul original al lui Tukey, numit "schematic plot", afișa doar mediana, quartilele și valorile extreme.
Dezvoltări cheie în istoria diagramelor box plot includ:
1978: McGill, Tukey și Larsen au introdus diagrama box plot cu crestătură, care adaugă intervale de încredere pentru mediana.
Anii 1980: Conceptul de "puncte anormale" în diagramele box plot a devenit mai standardizat, fiind de obicei definit ca puncte dincolo de 1.5 ori IQR de la quartile.
Anii 1990-2000: Odată cu apariția graficelor pe computer, au fost dezvoltate variații precum diagramele box plot cu lățimi variabile și graficele violin.
Prezent: Diagramele box plot interactive și dinamice au devenit comune în software-ul de vizualizare a datelor, permițând utilizatorilor să exploreze punctele de date subiacente.
Diagramele box plot au rezistat testului timpului datorită simplității și eficienței lor în rezumarea seturilor de date complexe. Ele continuă să fie un element de bază în analiza datelor în multe domenii.
Iată exemple de cum să creați o diagramă box plot în diferite limbaje de programare:
1=QUARTILE(A1:A100,1) ' Q1
2=MEDIAN(A1:A100) ' Mediana
3=QUARTILE(A1:A100,3) ' Q3
4=MIN(A1:A100) ' Minim
5=MAX(A1:A100) ' Maxim
6
1## Presupunând că 'data' este vectorul dvs. de numere
2boxplot(data)
3
1% Presupunând că 'data' este vectorul dvs. de numere
2boxplot(data)
3
1// Folosind D3.js
2var svg = d3.select("body").append("svg")
3 .attr("width", 400)
4 .attr("height", 300);
5
6var data = [/* array-ul dvs. de date */];
7
8var boxplot = svg.append("g")
9 .datum(data)
10 .call(d3.boxplot());
11
1import matplotlib.pyplot as plt
2import numpy as np
3
4data = [/* array-ul dvs. de date */]
5plt.boxplot(data)
6plt.show()
7
1import org.jfree.chart.ChartFactory;
2import org.jfree.chart.ChartPanel;
3import org.jfree.chart.JFreeChart;
4import org.jfree.data.statistics.DefaultBoxAndWhiskerCategoryDataset;
5
6DefaultBoxAndWhiskerCategoryDataset dataset = new DefaultBoxAndWhiskerCategoryDataset();
7dataset.add(Arrays.asList(/* datele dvs. */), "Seria 1", "Categoria 1");
8
9JFreeChart chart = ChartFactory.createBoxAndWhiskerChart(
10 "Diagrama Box Plot", "Categoria", "Valoare", dataset, true);
11
Descoperiți mai multe instrumente care ar putea fi utile pentru fluxul dvs. de lucru