🛠️

Whiz Tools

Build • Create • Innovate

Kalkulator Wykresu Skrzynkowego do Analizy Danych

Generuj wizualną analizę swojego zestawu danych za pomocą wykresu skrzynkowego. To narzędzie oblicza i wyświetla kluczowe miary statystyczne, w tym kwartyle, medianę i wartości odstające.

Kalkulator wykresu pudełkowego

Kalkulator wykresu pudełkowego

📚

Dokumentacja

Kalkulator Wykresu Skrzynkowego

Wprowadzenie

Wykres skrzynkowy, znany również jako wykres skrzynkowo-wąsowy, to ustandaryzowany sposób przedstawiania rozkładu danych na podstawie pięciocyfrowego podsumowania: minimum, pierwszy kwartyl (Q1), mediana, trzeci kwartyl (Q3) i maksimum. Ten kalkulator umożliwia generowanie wykresu skrzynkowego na podstawie podanego zestawu danych liczbowych, co stanowi potężne narzędzie do wizualizacji i analizy danych.

Jak korzystać z tego kalkulatora

  1. Wprowadź swoje dane jako listę liczb oddzielonych przecinkami lub spacjami w polu wejściowym.
  2. Kalkulator automatycznie obliczy statystyki wykresu skrzynkowego i wyświetli wyniki.
  3. Wizualna reprezentacja wykresu skrzynkowego zostanie pokazana poniżej wyników.
  4. Możesz skopiować obliczone wyniki, korzystając z przycisku "Kopiuj wynik".

Wzór

Kluczowe wzory używane w obliczeniach wykresu skrzynkowego to:

  1. Mediana (Q2): Dla uporządkowanego zbioru danych o n elementach,

    x_{\frac{n+1}{2}} & \text{jeśli n jest nieparzyste} \\ \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) & \text{jeśli n jest parzyste} \end{cases} $$
  2. Pierwszy kwartyl (Q1) i trzeci kwartyl (Q3): Q1=Mediana dolnej połowy danychQ1 = \text{Mediana dolnej połowy danych} Q3=Mediana goˊrnej połowy danychQ3 = \text{Mediana górnej połowy danych}

  3. Zakres międzykwartylowy (IQR): IQR=Q3Q1IQR = Q3 - Q1

  4. Wąsy: Dolny wąs=max(min(x),Q11.5IQR)\text{Dolny wąs} = \max({\min(x), Q1 - 1.5 * IQR}) Goˊrny wąs=min(max(x),Q3+1.5IQR)\text{Górny wąs} = \min({\max(x), Q3 + 1.5 * IQR})

  5. Wartości odstające: Jakiekolwiek punkty danych poniżej dolnego wąsa lub powyżej górnego wąsa.

Obliczenia

Kalkulator wykonuje następujące kroki, aby wygenerować wykres skrzynkowy:

  1. Sortuje dane wejściowe w porządku rosnącym.
  2. Oblicza medianę (Q2):
    • Jeśli liczba punktów danych jest nieparzysta, mediana to wartość środkowa.
    • Jeśli liczba punktów danych jest parzysta, mediana to średnia dwóch wartości środkowych.
  3. Oblicza pierwszy kwartyl (Q1):
    • To mediana dolnej połowy danych.
    • Jeśli liczba punktów danych jest nieparzysta, mediana nie jest uwzględniana w żadnej z połówek.
  4. Oblicza trzeci kwartyl (Q3):
    • To mediana górnej połowy danych.
    • Jeśli liczba punktów danych jest nieparzysta, mediana nie jest uwzględniana w żadnej z połówek.
  5. Oblicza zakres międzykwartylowy (IQR) = Q3 - Q1.
  6. Określa wąsy:
    • Dolny wąs: Najmniejszy punkt danych większy lub równy Q1 - 1.5 * IQR
    • Górny wąs: Największy punkt danych mniejszy lub równy Q3 + 1.5 * IQR
  7. Identyfikuje wartości odstające: Jakiekolwiek punkty danych poniżej dolnego wąsa lub powyżej górnego wąsa.

Ważne jest, aby zauważyć, że istnieją różne metody obliczania kwartylów, szczególnie w przypadku zbiorów danych o parzystej liczbie elementów. Opisana powyżej metoda jest znana jako metoda "ekskluzywna", ale można również stosować inne metody, takie jak metoda "inkluzji" lub metoda "mediany median". Wybór metody może nieznacznie wpłynąć na położenie Q1 i Q3, szczególnie w przypadku małych zbiorów danych.

Interpretacja

Q3 Mediana Q1 Min Max Składniki Wykresu Skrzynkowego
  • Skrzynka na wykresie reprezentuje zakres międzykwartylowy (IQR), z dolną częścią skrzynki na poziomie Q1 i górną na poziomie Q3.
  • Linia wewnątrz skrzynki reprezentuje medianę (Q2).
  • Wąsy rozciągają się od skrzynki do wartości minimalnej i maksymalnej, z wyłączeniem wartości odstających.
  • Wartości odstające są przedstawiane jako pojedyncze punkty poza wąsami.

Wykres skrzynkowy dostarcza wielu informacji na temat danych:

  • Tendencja centralna: Mediana pokazuje centralną wartość zbioru danych.
  • Zmienność: IQR i ogólny rozkład od minimum do maksimum pokazują rozproszenie danych.
  • Skewness: Jeśli mediana nie jest wyśrodkowana w skrzynce, wskazuje to na asymetrię danych.
  • Wartości odstające: Punkty poza wąsami podkreślają potencjalne wartości odstające lub ekstremalne.

Przykłady użycia

Wykresy skrzynkowe są przydatne w różnych dziedzinach, w tym:

  1. Statystyka: Aby wizualizować rozkład i asymetrię danych. Na przykład, porównując wyniki testów w różnych szkołach lub klasach.

  2. Analiza danych: Aby zidentyfikować wartości odstające i porównać rozkłady. W biznesie może być używany do analizy danych sprzedażowych w różnych regionach lub okresach czasu.

  3. Badania naukowe: Aby przedstawić wyniki i porównać grupy. Na przykład, porównując skuteczność różnych terapii w badaniach medycznych.

  4. Kontrola jakości: Aby monitorować zmienne procesowe i identyfikować anomalie. W produkcji może być używany do śledzenia wymiarów produktów i zapewnienia, że mieszczą się w akceptowalnych zakresach.

  5. Finanse: Aby analizować ruchy cen akcji i inne wskaźniki finansowe. Na przykład, porównując wyniki różnych funduszy inwestycyjnych w czasie.

  6. Nauki o środowisku: Aby analizować i porównywać dane środowiskowe, takie jak poziomy zanieczyszczenia lub wahania temperatury w różnych lokalizacjach lub okresach czasu.

  7. Analiza sportowa: Aby porównywać statystyki wydajności graczy w różnych drużynach lub sezonach.

Alternatywy

Chociaż wykresy skrzynkowe są potężnymi narzędziami do wizualizacji danych, istnieje kilka alternatyw w zależności od specyficznych potrzeb analizy:

  1. Histogramy: Przydatne do pokazania rozkładu częstotliwości zbioru danych. Zapewniają więcej szczegółów na temat kształtu rozkładu, ale mogą być mniej skuteczne w porównywaniu wielu zbiorów danych.

  2. Wykresy skrzynkowo-fioletowe: Łączą cechy wykresów skrzynkowych z wykresami gęstości jądra, pokazując prawdopodobieństwo gęstości danych w różnych wartościach.

  3. Wykresy punktowe: Idealne do pokazywania zależności między dwiema zmiennymi, czego wykresy skrzynkowe nie mogą zrobić.

  4. Wykresy słupkowe: Odpowiednie do porównywania pojedynczych wartości w różnych kategoriach.

  5. Wykresy liniowe: Skuteczne w pokazywaniu trendów w czasie, czego wykresy skrzynkowe nie uchwycą dobrze.

  6. Mapy cieplne: Przydatne do wizualizacji złożonych zbiorów danych z wieloma zmiennymi.

Wybór między tymi alternatywami zależy od charakteru danych i specyficznych spostrzeżeń, które chce się przekazać.

Historia

Wykres skrzynkowy został wynaleziony przez Johna Tukeya w 1970 roku i po raz pierwszy pojawił się w jego książce "Exploratory Data Analysis" w 1977 roku. Oryginalny projekt Tukeya, zwany "schematycznym wykresem", przedstawiał tylko medianę, kwartyle i wartości ekstremalne.

Kluczowe wydarzenia w historii wykresów skrzynkowych obejmują:

  1. 1978: McGill, Tukey i Larsen wprowadzili wykres skrzynkowy z wycięciem, który dodaje przedziały ufności dla mediany.

  2. Lata 80.: Koncepcja "wartości odstających" w wykresach skrzynkowych stała się bardziej ustandaryzowana, zazwyczaj definiowana jako punkty poza 1.5 razy IQR od kwartylów.

  3. Lata 90.-2000: Wraz z pojawieniem się grafiki komputerowej, opracowano warianty takie jak wykresy skrzynkowe o zmiennej szerokości i wykresy skrzynkowo-fioletowe.

  4. Obecnie: Interaktywne i dynamiczne wykresy skrzynkowe stały się powszechne w oprogramowaniu do wizualizacji danych, umożliwiając użytkownikom eksplorację podstawowych punktów danych.

Wykresy skrzynkowe przetrwały próbę czasu dzięki swojej prostocie i skuteczności w podsumowywaniu złożonych zbiorów danych. Nadal są podstawą w analizie danych w wielu dziedzinach.

Fragmenty kodu

Oto przykłady, jak stworzyć wykres skrzynkowy w różnych językach programowania:

1=QUARTILE(A1:A100,1)  ' Q1
2=MEDIAN(A1:A100)      ' Mediana
3=QUARTILE(A1:A100,3)  ' Q3
4=MIN(A1:A100)         ' Minimum
5=MAX(A1:A100)         ' Maksimum
6

Źródła

  1. Tukey, J. W. (1977). Exploratory Data Analysis. Addison-Wesley.
  2. McGill, R., Tukey, J. W., & Larsen, W. A. (1978). Variations of Box Plots. The American Statistician, 32(1), 12-16.
  3. Williamson, D. F., Parker, R. A., & Kendrick, J. S. (1989). The box plot: a simple visual method to interpret data. Annals of internal medicine, 110(11), 916-921.
  4. Wickham, H., & Stryjewski, L. (2011). 40 years of boxplots. Technical report, had.co.nz.
  5. Frigge, M., Hoaglin, D. C., & Iglewicz, B. (1989). Some Implementations of the Boxplot. The American Statistician, 43(1), 50-54.