🛠️

Whiz Tools

Build • Create • Innovate

Калькулятор боксовых диаграмм для анализа данных

Создайте визуальный анализ вашего набора данных с помощью боксовой диаграммы с усами. Этот инструмент вычисляет и отображает ключевые статистические показатели, включая квартиль, медиану и выбросы.

Калькулятор коробчатой диаграммы

Калькулятор коробчатой диаграммы

📚

Документация

Калькулятор ящиков

Введение

Ящик, также известный как ящик с усами, является стандартизированным способом отображения распределения данных на основе пятерки чисел: минимальное значение, первый квартиль (Q1), медиана, третий квартиль (Q3) и максимальное значение. Этот калькулятор позволяет вам генерировать ящик из заданного набора числовых данных, предоставляя мощный инструмент для визуализации и анализа данных.

Как использовать этот калькулятор

  1. Введите ваши данные в виде списка чисел, разделенных запятыми или пробелами, в поле ввода.
  2. Калькулятор автоматически вычислит статистику ящика и отобразит результаты.
  3. Визуальное представление ящика будет показано ниже результатов.
  4. Вы можете скопировать рассчитанные результаты, используя кнопку "Копировать результат".

Формула

Ключевые формулы, используемые в вычислениях ящика:

  1. Медиана (Q2): Для упорядоченного набора данных из n элементов,

    x_{\frac{n+1}{2}} & \text{если n нечетное} \\ \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) & \text{если n четное} \end{cases} $$
  2. Первый квартиль (Q1) и третий квартиль (Q3): Q1=Медиана нижней половины данныхQ1 = \text{Медиана нижней половины данных} Q3=Медиана верхней половины данныхQ3 = \text{Медиана верхней половины данных}

  3. Межквартильный размах (IQR): IQR=Q3Q1IQR = Q3 - Q1

  4. Усы: Нижний ус=max(min(x),Q11.5IQR)\text{Нижний ус} = \max({\min(x), Q1 - 1.5 * IQR}) Верхний ус=min(max(x),Q3+1.5IQR)\text{Верхний ус} = \min({\max(x), Q3 + 1.5 * IQR})

  5. Выбросы: Любые точки данных ниже нижнего уса или выше верхнего уса.

Вычисление

Калькулятор выполняет следующие шаги для генерации ящика:

  1. Упорядочивает входные данные в порядке возрастания.
  2. Вычисляет медиану (Q2):
    • Если количество точек данных нечетное, медиана - это среднее значение.
    • Если количество точек данных четное, медиана - это среднее двух средних значений.
  3. Вычисляет первый квартиль (Q1):
    • Это медиана нижней половины данных.
    • Если количество точек данных нечетное, медиана не включается ни в одну из половин.
  4. Вычисляет третий квартиль (Q3):
    • Это медиана верхней половины данных.
    • Если количество точек данных нечетное, медиана не включается ни в одну из половин.
  5. Вычисляет межквартильный размах (IQR) = Q3 - Q1.
  6. Определяет усы:
    • Нижний ус: наименьшая точка данных, большая или равная Q1 - 1.5 * IQR
    • Верхний ус: наибольшая точка данных, меньшая или равная Q3 + 1.5 * IQR
  7. Определяет выбросы: любые точки данных ниже нижнего уса или выше верхнего уса.

Важно отметить, что существуют разные методы для вычисления квартилей, особенно при работе с наборами данных, содержащими четное количество элементов. Описанный выше метод известен как "эксклюзивный" метод, но также могут использоваться другие методы, такие как "инклюзивный" метод или "медиана медиан". Выбор метода может незначительно повлиять на положение Q1 и Q3, особенно для небольших наборов данных.

Интерпретация

Q3 Медиана Q1 Мин Макс Компоненты ящика
  • Ящик на графике представляет межквартильный размах (IQR), с нижней частью ящика на уровне Q1 и верхней на уровне Q3.
  • Линия внутри ящика представляет медиану (Q2).
  • Усы простираются от ящика до минимальных и максимальных значений, исключая выбросы.
  • Выбросы отображаются как отдельные точки за пределами усов.

Ящик предоставляет несколько инсайтов о данных:

  • Центральная тенденция: Медиана показывает центральное значение набора данных.
  • Изменчивость: IQR и общее распределение от минимума до максимума показывают разброс данных.
  • Асимметрия: Если медиана не центрирована внутри ящика, это указывает на асимметрию в данных.
  • Выбросы: Точки за пределами усов подчеркивают потенциальные выбросы или экстремальные значения.

Сферы применения

Ящики полезны в различных областях, включая:

  1. Статистика: Для визуализации распределения и асимметрии данных. Например, сравнение оценок на тестах в разных школах или классах.

  2. Анализ данных: Для выявления выбросов и сравнения распределений. В бизнесе это может быть использовано для анализа данных о продажах в разных регионах или за разные периоды времени.

  3. Научные исследования: Для представления результатов и сравнения групп. Например, сравнение эффективности различных методов лечения в медицинских исследованиях.

  4. Контроль качества: Для мониторинга переменных процессов и выявления аномалий. В производстве это может быть использовано для отслеживания размеров продукции и обеспечения их соответствия допустимым диапазонам.

  5. Финансы: Для анализа колебаний цен на акции и других финансовых показателей. Например, сравнение производительности различных паевых инвестиционных фондов за определенный период времени.

  6. Экологическая наука: Для анализа и сравнения экологических данных, таких как уровни загрязнения или колебания температуры в различных местах или за разные временные периоды.

  7. Спортивная аналитика: Для сравнения статистики производительности игроков в разных командах или сезонах.

Альтернативы

Хотя ящики являются мощными инструментами для визуализации данных, существует несколько альтернатив в зависимости от конкретных потребностей анализа:

  1. Гистограммы: Полезны для отображения частотного распределения набора данных. Они предоставляют больше информации о форме распределения, но могут быть менее эффективными для сравнения нескольких наборов данных.

  2. Виолончельные графики: Объединяют функции ящиков с графиками плотности ядра, показывая вероятность плотности данных на разных значениях.

  3. Диаграммы рассеяния: Идеальны для отображения взаимосвязи между двумя переменными, что ящики не могут сделать.

  4. Столбчатые диаграммы: Подходят для сравнения отдельных значений по различным категориям.

  5. Линейные графики: Эффективны для отображения тенденций во времени, что ящики не захватывают хорошо.

  6. Тепловые карты: Полезны для визуализации сложных наборов данных с несколькими переменными.

Выбор между этими альтернативами зависит от природы данных и конкретных инсайтов, которые необходимо передать.

История

Ящик был изобретен Джоном Тьюки в 1970 году и впервые появился в его книге "Исследовательский анализ данных" в 1977 году. Оригинальный дизайн Тьюки, названный "схематическим графиком", отображал только медиану, квартиль и экстремальные значения.

Ключевые события в истории ящиков включают:

  1. 1978: Макилл, Тьюки и Ларсен представили ящик с выемкой, который добавляет доверительные интервалы для медианы.

  2. 1980-е: Концепция "выбросов" в ящиках стала более стандартизированной, обычно определяемой как точки за пределами 1.5 раз IQR от квартилей.

  3. 1990-е-2000-е: С появлением компьютерной графики были разработаны вариации, такие как ящики переменной ширины и виолончельные графики.

  4. Настоящее время: Интерактивные и динамические ящики стали обычным явлением в программном обеспечении для визуализации данных, позволяя пользователям исследовать исходные данные.

Ящики выдержали испытание временем благодаря своей простоте и эффективности в обобщении сложных наборов данных. Они продолжают быть основным инструментом в анализе данных во многих областях.

Примеры кода

Вот примеры того, как создать ящик в различных языках программирования:

1=QUARTILE(A1:A100,1)  ' Q1
2=MEDIAN(A1:A100)      ' Медиана
3=QUARTILE(A1:A100,3)  ' Q3
4=MIN(A1:A100)         ' Минимум
5=MAX(A1:A100)         ' Максимум
6

Ссылки

  1. Тьюки, Дж. У. (1977). Исследовательский анализ данных. Addison-Wesley.
  2. Макилл, Р., Тьюки, Дж. У., & Ларсен, У. А. (1978). Вариации ящиков. Американский статистик, 32(1), 12-16.
  3. Уильямсон, Д. Ф., Паркер, Р. А., & Кендрик, Дж. С. (1989). Ящик: простой визуальный метод интерпретации данных. Анналы внутренней медицины, 110(11), 916-921.
  4. Уикхэм, Х., & Стрижевски, Л. (2011). 40 лет ящиков. Технический отчет, had.co.nz.
  5. Фригге, М., Хоглин, Д. С., & Иглевич, Б. (1989). Некоторые реализации ящика. Американский статистик, 43(1), 50-54.