Whiz Tools

Калкулатор за кутии

Кутиев график калкулатор

Въведение

Кутиевият график, известен също като график с кутии и мустачки, е стандартизиран начин за показване на разпределението на данни на базата на пет числа: минимум, първи квартил (Q1), медиана, трети квартил (Q3) и максимум. Този калкулатор ви позволява да генерирате кутиев график от зададен набор от числови данни, предоставяйки мощен инструмент за визуализация и анализ на данни.

Как да използвате този калкулатор

  1. Въведете данните си като списък от числа, разделени с запетаи или интервали в полето за въвеждане.
  2. Калкулаторът автоматично ще изчисли статистиките за кутиевия график и ще покаже резултатите.
  3. Визуално представяне на кутиевия график ще бъде показано под резултатите.
  4. Можете да копирате изчислените резултати, като използвате бутона "Копирай резултата".

Формула

Ключовите формули, използвани в изчисленията на кутиевия график, са:

  1. Медиана (Q2): За подреден набор от n елементи,

    x_{\frac{n+1}{2}} & \text{ако n е нечетно} \\ \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) & \text{ако n е четно} \end{cases} $$
  2. Първи квартил (Q1) и трети квартил (Q3): Q1=Медиана на долната половина на даннитеQ1 = \text{Медиана на долната половина на данните} Q3=Медиана на горната половина на даннитеQ3 = \text{Медиана на горната половина на данните}

  3. Интерквартилен диапазон (IQR): IQR=Q3Q1IQR = Q3 - Q1

  4. Мустаци: Долен мустац=max(min(x),Q11.5IQR)\text{Долен мустац} = \max({\min(x), Q1 - 1.5 * IQR}) Горен мустац=min(max(x),Q3+1.5IQR)\text{Горен мустац} = \min({\max(x), Q3 + 1.5 * IQR})

  5. Аутлайери: Всеки данен пункт под долния мустац или над горния мустац.

Изчисление

Калкулаторът извършва следните стъпки, за да генерира кутиев график:

  1. Подрежда входните данни в нарастващ ред.
  2. Изчислява медианата (Q2):
    • Ако броят на данните е нечетен, медианата е средната стойност.
    • Ако броят на данните е четен, медианата е средната на двете средни стойности.
  3. Изчислява първия квартил (Q1):
    • Това е медианата на долната половина на данните.
    • Ако броят на данните е нечетен, медианата не се включва в нито една половина.
  4. Изчислява третия квартил (Q3):
    • Това е медианата на горната половина на данните.
    • Ако броят на данните е нечетен, медианата не се включва в нито една половина.
  5. Изчислява интерквартилния диапазон (IQR) = Q3 - Q1.
  6. Определя мустаците:
    • Долен мустац: Най-малката стойност, по-голяма или равна на Q1 - 1.5 * IQR
    • Горен мустац: Най-голямата стойност, по-малка или равна на Q3 + 1.5 * IQR
  7. Идентифицира аутлайерите: Всеки данен пункт под долния мустац или над горния мустац.

Важно е да се отбележи, че има различни методи за изчисляване на квартилите, особено при работа с набори от данни с четен брой елементи. Методът, описан по-горе, е известен като "ексклузивен" метод, но могат да се използват и други методи, като "включителен" метод или "медиана на медианите". Изборът на метод може да повлияе на позицията на Q1 и Q3, особено за малки набори от данни.

Интерпретация

Q3 Медиана Q1 Мин Макс Компоненти на кутиевия график
  • Кутията в графика представлява интерквартилния диапазон (IQR), с дъното на кутията при Q1 и върха при Q3.
  • Линията вътре в кутията представлява медианата (Q2).
  • Мустаците се простират от кутията до минималните и максималните стойности, изключвайки аутлайерите.
  • Аутлайерите се изобразяват като отделни точки извън мустаците.

Кутиевият график предоставя няколко прозрения относно данните:

  • Централна тенденция: Медианата показва централната стойност на набора от данни.
  • Променливост: IQR и общото разпространение от минимум до максимум показват разпръснатостта на данните.
  • Наклон: Ако медианата не е центрирана в кутията, това показва наклон в данните.
  • Аутлайери: Точки извън мустаците подчертават потенциални аутлайери или екстремни стойности.

Приложения

Кутиевите графики са полезни в различни области, включително:

  1. Статистика: За визуализиране на разпределението и наклона на данните. Например, сравняване на резултатите от тестове между различни училища или класове.

  2. Анализ на данни: За идентифициране на аутлайери и сравняване на разпределения. В бизнеса може да се използва за анализ на данни за продажби в различни региони или времеви периоди.

  3. Научни изследвания: За представяне на резултати и сравняване на групи. Например, сравняване на ефективността на различни лечения в медицински изследвания.

  4. Контрол на качеството: За наблюдение на променливи в процеса и идентифициране на аномалии. В производството може да се използва за проследяване на размерите на продуктите и осигуряване, че те попадат в допустимите граници.

  5. Финанси: За анализ на движенията на цените на акциите и други финансови метрики. Например, сравняване на представянето на различни взаимни фондове с времето.

  6. Екологична наука: За анализ и сравняване на екологични данни, като нива на замърсяване или температурни вариации в различни локации или времеви периоди.

  7. Спортна аналитика: За сравняване на статистики за представянето на играчите между отбори или сезони.

Алтернативи

Докато кутиевите графики са мощни инструменти за визуализация на данни, има няколко алтернативи в зависимост от специфичните нужди на анализа:

  1. Хистограми: Полезни за показване на честотното разпределение на набор от данни. Те предоставят повече детайли относно формата на разпределението, но може да са по-малко ефективни за сравняване на множество набори от данни.

  2. Виолонови графики: Комбинират функциите на кутиевите графики с графики на плътността на ядрото, показвайки вероятностната плътност на данните при различни стойности.

  3. Разсейвателни графики: Идеални за показване на връзката между две променливи, което кутиевите графики не могат да направят.

  4. Стълбови диаграми: Подходящи за сравняване на единични стойности между различни категории.

  5. Линейни графики: Ефективни за показване на тенденции с времето, което кутиевите графики не улавят добре.

  6. Топлинни карти: Полезни за визуализиране на сложни набори от данни с множество променливи.

Изборът между тези алтернативи зависи от естеството на данните и специфичните прозрения, които желаете да предадете.

История

Кутиевият график е изобретен от Джон Туки през 1970 г. и за първи път се появява в книгата му "Изследователски анализ на данни" през 1977 г. Оригиналният дизайн на Туки, наречен "схематичен график", показваше само медианата, квартилите и екстремните стойности.

Ключови развития в историята на кутиевите графики включват:

  1. 1978: Макгил, Туки и Ларсен въвеждат графика с изрези, който добавя доверителни интервали за медианата.

  2. 1980-те: Концепцията за "аутлайери" в кутиевите графики става по-стандартизирана, обикновено определена като точки извън 1.5 пъти IQR от квартилите.

  3. 1990-те-2000-те: С появата на компютърната графика, се разработват вариации като графики с променлива ширина и виолонови графики.

  4. Настояще: Интерактивните и динамични кутиеви графики са станали обичайни в софтуера за визуализация на данни, позволявайки на потребителите да изследват основните данни.

Кутиевите графики са устояли на времето благодарение на своята простота и ефективност при обобщаване на сложни набори от данни. Те продължават да бъдат основен инструмент в анализа на данни в много области.

Кодови фрагменти

Ето примери за това как да създадете кутиев график в различни програмни езици:

=QUARTILE(A1:A100,1)  ' Q1
=MEDIAN(A1:A100)      ' Медиана
=QUARTILE(A1:A100,3)  ' Q3
=MIN(A1:A100)         ' Минимум
=MAX(A1:A100)         ' Максимум
## Приемайки, че 'data' е вашият вектор от числа
boxplot(data)
% Приемайки, че 'data' е вашият вектор от числа
boxplot(data)
// Използвайки D3.js
var svg = d3.select("body").append("svg")
    .attr("width", 400)
    .attr("height", 300);

var data = [/* вашият масив от данни */];

var boxplot = svg.append("g")
    .datum(data)
    .call(d3.boxplot());
import matplotlib.pyplot as plt
import numpy as np

data = [/* вашият масив от данни */]
plt.boxplot(data)
plt.show()
import org.jfree.chart.ChartFactory;
import org.jfree.chart.ChartPanel;
import org.jfree.chart.JFreeChart;
import org.jfree.data.statistics.DefaultBoxAndWhiskerCategoryDataset;

DefaultBoxAndWhiskerCategoryDataset dataset = new DefaultBoxAndWhiskerCategoryDataset();
dataset.add(Arrays.asList(/* вашите данни */), "Серия 1", "Категория 1");

JFreeChart chart = ChartFactory.createBoxAndWhiskerChart(
    "Кутиев график", "Категория", "Стойност", dataset, true);

Референции

  1. Туки, Дж. У. (1977). Изследователски анализ на данни. Addison-Wesley.
  2. Макгил, Р., Туки, Дж. У. и Ларсен, У. А. (1978). Вариации на кутиевите графики. Американският статистик, 32(1), 12-16.
  3. Уилямсън, Д. Ф., Паркър, Р. А. и Кендрик, Дж. С. (1989). Кутиевата графика: прост визуален метод за интерпретиране на данни. Анали на вътрешната медицина, 110(11), 916-921.
  4. Уикъм, Х. и Стрижевски, Л. (2011). 40 години кутиеви графики. Технически доклад, had.co.nz.
  5. Фригге, М., Хоаглин, Д. С. и Иглевич, Б. (1989). Някои реализации на кутиевата графика. Американският статистик, 43(1), 50-54.
Feedback