Генерирайте визуален анализ на вашия набор от данни с помощта на диаграма на кутии и мустачки. Този инструмент изчислява и показва ключови статистически мерки, включително квартилите, медианата и аутлайерите.
Кутиевият график, известен също като график с кутии и мустачки, е стандартизиран начин за показване на разпределението на данни на базата на пет числа: минимум, първи квартил (Q1), медиана, трети квартил (Q3) и максимум. Този калкулатор ви позволява да генерирате кутиев график от зададен набор от числови данни, предоставяйки мощен инструмент за визуализация и анализ на данни.
Ключовите формули, използвани в изчисленията на кутиевия график, са:
Медиана (Q2): За подреден набор от n елементи,
x_{\frac{n+1}{2}} & \text{ако n е нечетно} \\ \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) & \text{ако n е четно} \end{cases} $$Първи квартил (Q1) и трети квартил (Q3):
Интерквартилен диапазон (IQR):
Мустаци:
Аутлайери: Всеки данен пункт под долния мустац или над горния мустац.
Калкулаторът извършва следните стъпки, за да генерира кутиев график:
Важно е да се отбележи, че има различни методи за изчисляване на квартилите, особено при работа с набори от данни с четен брой елементи. Методът, описан по-горе, е известен като "ексклузивен" метод, но могат да се използват и други методи, като "включителен" метод или "медиана на медианите". Изборът на метод може да повлияе на позицията на Q1 и Q3, особено за малки набори от данни.
Кутиевият график предоставя няколко прозрения относно данните:
Кутиевите графики са полезни в различни области, включително:
Статистика: За визуализиране на разпределението и наклона на данните. Например, сравняване на резултатите от тестове между различни училища или класове.
Анализ на данни: За идентифициране на аутлайери и сравняване на разпределения. В бизнеса може да се използва за анализ на данни за продажби в различни региони или времеви периоди.
Научни изследвания: За представяне на резултати и сравняване на групи. Например, сравняване на ефективността на различни лечения в медицински изследвания.
Контрол на качеството: За наблюдение на променливи в процеса и идентифициране на аномалии. В производството може да се използва за проследяване на размерите на продуктите и осигуряване, че те попадат в допустимите граници.
Финанси: За анализ на движенията на цените на акциите и други финансови метрики. Например, сравняване на представянето на различни взаимни фондове с времето.
Екологична наука: За анализ и сравняване на екологични данни, като нива на замърсяване или температурни вариации в различни локации или времеви периоди.
Спортна аналитика: За сравняване на статистики за представянето на играчите между отбори или сезони.
Докато кутиевите графики са мощни инструменти за визуализация на данни, има няколко алтернативи в зависимост от специфичните нужди на анализа:
Хистограми: Полезни за показване на честотното разпределение на набор от данни. Те предоставят повече детайли относно формата на разпределението, но може да са по-малко ефективни за сравняване на множество набори от данни.
Виолонови графики: Комбинират функциите на кутиевите графики с графики на плътността на ядрото, показвайки вероятностната плътност на данните при различни стойности.
Разсейвателни графики: Идеални за показване на връзката между две променливи, което кутиевите графики не могат да направят.
Стълбови диаграми: Подходящи за сравняване на единични стойности между различни категории.
Линейни графики: Ефективни за показване на тенденции с времето, което кутиевите графики не улавят добре.
Топлинни карти: Полезни за визуализиране на сложни набори от данни с множество променливи.
Изборът между тези алтернативи зависи от естеството на данните и специфичните прозрения, които желаете да предадете.
Кутиевият график е изобретен от Джон Туки през 1970 г. и за първи път се появява в книгата му "Изследователски анализ на данни" през 1977 г. Оригиналният дизайн на Туки, наречен "схематичен график", показваше само медианата, квартилите и екстремните стойности.
Ключови развития в историята на кутиевите графики включват:
1978: Макгил, Туки и Ларсен въвеждат графика с изрези, който добавя доверителни интервали за медианата.
1980-те: Концепцията за "аутлайери" в кутиевите графики става по-стандартизирана, обикновено определена като точки извън 1.5 пъти IQR от квартилите.
1990-те-2000-те: С появата на компютърната графика, се разработват вариации като графики с променлива ширина и виолонови графики.
Настояще: Интерактивните и динамични кутиеви графики са станали обичайни в софтуера за визуализация на данни, позволявайки на потребителите да изследват основните данни.
Кутиевите графики са устояли на времето благодарение на своята простота и ефективност при обобщаване на сложни набори от данни. Те продължават да бъдат основен инструмент в анализа на данни в много области.
Ето примери за това как да създадете кутиев график в различни програмни езици:
1=QUARTILE(A1:A100,1) ' Q1
2=MEDIAN(A1:A100) ' Медиана
3=QUARTILE(A1:A100,3) ' Q3
4=MIN(A1:A100) ' Минимум
5=MAX(A1:A100) ' Максимум
6
1## Приемайки, че 'data' е вашият вектор от числа
2boxplot(data)
3
1% Приемайки, че 'data' е вашият вектор от числа
2boxplot(data)
3
1// Използвайки D3.js
2var svg = d3.select("body").append("svg")
3 .attr("width", 400)
4 .attr("height", 300);
5
6var data = [/* вашият масив от данни */];
7
8var boxplot = svg.append("g")
9 .datum(data)
10 .call(d3.boxplot());
11
1import matplotlib.pyplot as plt
2import numpy as np
3
4data = [/* вашият масив от данни */]
5plt.boxplot(data)
6plt.show()
7
1import org.jfree.chart.ChartFactory;
2import org.jfree.chart.ChartPanel;
3import org.jfree.chart.JFreeChart;
4import org.jfree.data.statistics.DefaultBoxAndWhiskerCategoryDataset;
5
6DefaultBoxAndWhiskerCategoryDataset dataset = new DefaultBoxAndWhiskerCategoryDataset();
7dataset.add(Arrays.asList(/* вашите данни */), "Серия 1", "Категория 1");
8
9JFreeChart chart = ChartFactory.createBoxAndWhiskerChart(
10 "Кутиев график", "Категория", "Стойност", dataset, true);
11
Открийте още инструменти, които може да бъдат полезни за вашия работен процес