Калкулатор за диаграма на кутии и мустачки
Генерирайте визуален анализ на вашия набор от данни с помощта на диаграма на кутии и мустачки. Този инструмент изчислява и показва ключови статистически мерки, включително квартилите, медианата и аутлайерите.
Калкулатор за кутии
Калкулатор за кутии
Документация
Кутиев график калкулатор
Въведение
Кутиевият график, известен също като график с кутии и мустачки, е стандартизиран начин за показване на разпределението на данни на базата на пет числа: минимум, първи квартил (Q1), медиана, трети квартил (Q3) и максимум. Този калкулатор ви позволява да генерирате кутиев график от зададен набор от числови данни, предоставяйки мощен инструмент за визуализация и анализ на данни.
Как да използвате този калкулатор
- Въведете данните си като списък от числа, разделени с запетаи или интервали в полето за въвеждане.
- Калкулаторът автоматично ще изчисли статистиките за кутиевия график и ще покаже резултатите.
- Визуално представяне на кутиевия график ще бъде показано под резултатите.
- Можете да копирате изчислените резултати, като използвате бутона "Копирай резултата".
Формула
Ключовите формули, използвани в изчисленията на кутиевия график, са:
-
Медиана (Q2): За подреден набор от n елементи,
x_{\frac{n+1}{2}} & \text{ако n е нечетно} \\ \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) & \text{ако n е четно} \end{cases} $$ -
Първи квартил (Q1) и трети квартил (Q3):
-
Интерквартилен диапазон (IQR):
-
Мустаци:
-
Аутлайери: Всеки данен пункт под долния мустац или над горния мустац.
Изчисление
Калкулаторът извършва следните стъпки, за да генерира кутиев график:
- Подрежда входните данни в нарастващ ред.
- Изчислява медианата (Q2):
- Ако броят на данните е нечетен, медианата е средната стойност.
- Ако броят на данните е четен, медианата е средната на двете средни стойности.
- Изчислява първия квартил (Q1):
- Това е медианата на долната половина на данните.
- Ако броят на данните е нечетен, медианата не се включва в нито една половина.
- Изчислява третия квартил (Q3):
- Това е медианата на горната половина на данните.
- Ако броят на данните е нечетен, медианата не се включва в нито една половина.
- Изчислява интерквартилния диапазон (IQR) = Q3 - Q1.
- Определя мустаците:
- Долен мустац: Най-малката стойност, по-голяма или равна на Q1 - 1.5 * IQR
- Горен мустац: Най-голямата стойност, по-малка или равна на Q3 + 1.5 * IQR
- Идентифицира аутлайерите: Всеки данен пункт под долния мустац или над горния мустац.
Важно е да се отбележи, че има различни методи за изчисляване на квартилите, особено при работа с набори от данни с четен брой елементи. Методът, описан по-горе, е известен като "ексклузивен" метод, но могат да се използват и други методи, като "включителен" метод или "медиана на медианите". Изборът на метод може да повлияе на позицията на Q1 и Q3, особено за малки набори от данни.
Интерпретация
- Кутията в графика представлява интерквартилния диапазон (IQR), с дъното на кутията при Q1 и върха при Q3.
- Линията вътре в кутията представлява медианата (Q2).
- Мустаците се простират от кутията до минималните и максималните стойности, изключвайки аутлайерите.
- Аутлайерите се изобразяват като отделни точки извън мустаците.
Кутиевият график предоставя няколко прозрения относно данните:
- Централна тенденция: Медианата показва централната стойност на набора от данни.
- Променливост: IQR и общото разпространение от минимум до максимум показват разпръснатостта на данните.
- Наклон: Ако медианата не е центрирана в кутията, това показва наклон в данните.
- Аутлайери: Точки извън мустаците подчертават потенциални аутлайери или екстремни стойности.
Приложения
Кутиевите графики са полезни в различни области, включително:
-
Статистика: За визуализиране на разпределението и наклона на данните. Например, сравняване на резултатите от тестове между различни училища или класове.
-
Анализ на данни: За идентифициране на аутлайери и сравняване на разпределения. В бизнеса може да се използва за анализ на данни за продажби в различни региони или времеви периоди.
-
Научни изследвания: За представяне на резултати и сравняване на групи. Например, сравняване на ефективността на различни лечения в медицински изследвания.
-
Контрол на качеството: За наблюдение на променливи в процеса и идентифициране на аномалии. В производството може да се използва за проследяване на размерите на продуктите и осигуряване, че те попадат в допустимите граници.
-
Финанси: За анализ на движенията на цените на акциите и други финансови метрики. Например, сравняване на представянето на различни взаимни фондове с времето.
-
Екологична наука: За анализ и сравняване на екологични данни, като нива на замърсяване или температурни вариации в различни локации или времеви периоди.
-
Спортна аналитика: За сравняване на статистики за представянето на играчите между отбори или сезони.
Алтернативи
Докато кутиевите графики са мощни инструменти за визуализация на данни, има няколко алтернативи в зависимост от специфичните нужди на анализа:
-
Хистограми: Полезни за показване на честотното разпределение на набор от данни. Те предоставят повече детайли относно формата на разпределението, но може да са по-малко ефективни за сравняване на множество набори от данни.
-
Виолонови графики: Комбинират функциите на кутиевите графики с графики на плътността на ядрото, показвайки вероятностната плътност на данните при различни стойности.
-
Разсейвателни графики: Идеални за показване на връзката между две променливи, което кутиевите графики не могат да направят.
-
Стълбови диаграми: Подходящи за сравняване на единични стойности между различни категории.
-
Линейни графики: Ефективни за показване на тенденции с времето, което кутиевите графики не улавят добре.
-
Топлинни карти: Полезни за визуализиране на сложни набори от данни с множество променливи.
Изборът между тези алтернативи зависи от естеството на данните и специфичните прозрения, които желаете да предадете.
История
Кутиевият график е изобретен от Джон Туки през 1970 г. и за първи път се появява в книгата му "Изследователски анализ на данни" през 1977 г. Оригиналният дизайн на Туки, наречен "схематичен график", показваше само медианата, квартилите и екстремните стойности.
Ключови развития в историята на кутиевите графики включват:
-
1978: Макгил, Туки и Ларсен въвеждат графика с изрези, който добавя доверителни интервали за медианата.
-
1980-те: Концепцията за "аутлайери" в кутиевите графики става по-стандартизирана, обикновено определена като точки извън 1.5 пъти IQR от квартилите.
-
1990-те-2000-те: С появата на компютърната графика, се разработват вариации като графики с променлива ширина и виолонови графики.
-
Настояще: Интерактивните и динамични кутиеви графики са станали обичайни в софтуера за визуализация на данни, позволявайки на потребителите да изследват основните данни.
Кутиевите графики са устояли на времето благодарение на своята простота и ефективност при обобщаване на сложни набори от данни. Те продължават да бъдат основен инструмент в анализа на данни в много области.
Кодови фрагменти
Ето примери за това как да създадете кутиев график в различни програмни езици:
1=QUARTILE(A1:A100,1) ' Q1
2=MEDIAN(A1:A100) ' Медиана
3=QUARTILE(A1:A100,3) ' Q3
4=MIN(A1:A100) ' Минимум
5=MAX(A1:A100) ' Максимум
6
1## Приемайки, че 'data' е вашият вектор от числа
2boxplot(data)
3
1% Приемайки, че 'data' е вашият вектор от числа
2boxplot(data)
3
1// Използвайки D3.js
2var svg = d3.select("body").append("svg")
3 .attr("width", 400)
4 .attr("height", 300);
5
6var data = [/* вашият масив от данни */];
7
8var boxplot = svg.append("g")
9 .datum(data)
10 .call(d3.boxplot());
11
1import matplotlib.pyplot as plt
2import numpy as np
3
4data = [/* вашият масив от данни */]
5plt.boxplot(data)
6plt.show()
7
1import org.jfree.chart.ChartFactory;
2import org.jfree.chart.ChartPanel;
3import org.jfree.chart.JFreeChart;
4import org.jfree.data.statistics.DefaultBoxAndWhiskerCategoryDataset;
5
6DefaultBoxAndWhiskerCategoryDataset dataset = new DefaultBoxAndWhiskerCategoryDataset();
7dataset.add(Arrays.asList(/* вашите данни */), "Серия 1", "Категория 1");
8
9JFreeChart chart = ChartFactory.createBoxAndWhiskerChart(
10 "Кутиев график", "Категория", "Стойност", dataset, true);
11
Референции
- Туки, Дж. У. (1977). Изследователски анализ на данни. Addison-Wesley.
- Макгил, Р., Туки, Дж. У. и Ларсен, У. А. (1978). Вариации на кутиевите графики. Американският статистик, 32(1), 12-16.
- Уилямсън, Д. Ф., Паркър, Р. А. и Кендрик, Дж. С. (1989). Кутиевата графика: прост визуален метод за интерпретиране на данни. Анали на вътрешната медицина, 110(11), 916-921.
- Уикъм, Х. и Стрижевски, Л. (2011). 40 години кутиеви графики. Технически доклад, had.co.nz.
- Фригге, М., Хоаглин, Д. С. и Иглевич, Б. (1989). Някои реализации на кутиевата графика. Американският статистик, 43(1), 50-54.
Обратна връзка
Щракнете върху тост за обратна връзка, за да започнете да давате обратна връзка за този инструмент
Свързани инструменти
Открийте още инструменти, които могат да бъдат полезни за вашия работен процес