🛠️

Whiz Tools

Build • Create • Innovate

상자 수염 그래프 계산기 및 통계 분석 도구

상자 수염 그래프를 사용하여 데이터 세트의 시각적 분석을 생성합니다. 이 도구는 사분위수, 중앙값 및 이상치를 포함한 주요 통계 측정을 계산하고 표시합니다.

상자 수염 그래프 계산기

상자 수염 그래프 계산기

📚

문서

박스 플롯 계산기

소개

박스 플롯, 또는 박스 앤 위스커 플롯(Box-and-Whisker Plot)은 최소값, 첫 번째 사분위수(Q1), 중앙값, 세 번째 사분위수(Q3), 최대값을 기반으로 데이터의 분포를 표시하는 표준화된 방법입니다. 이 계산기를 사용하면 주어진 수치 데이터 세트에서 박스 플롯을 생성할 수 있으며, 데이터 시각화 및 분석을 위한 강력한 도구를 제공합니다.

이 계산기 사용 방법

  1. 입력 필드에 숫자의 쉼표 또는 공백으로 구분된 목록으로 데이터를 입력합니다.
  2. 계산기가 자동으로 박스 플롯 통계를 계산하고 결과를 표시합니다.
  3. 결과 아래에 박스 플롯의 시각적 표현이 표시됩니다.
  4. "결과 복사" 버튼을 사용하여 계산된 결과를 복사할 수 있습니다.

공식

박스 플롯 계산에 사용되는 주요 공식은 다음과 같습니다:

  1. 중앙값(Q2): n개의 요소로 정렬된 데이터 세트에 대해,

    x_{\frac{n+1}{2}} & \text{if n is odd} \\ \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) & \text{if n is even} \end{cases} $$
  2. 첫 번째 사분위수(Q1) 및 세 번째 사분위수(Q3): Q1=Lower half of data의 중앙값Q1 = \text{Lower half of data의 중앙값} Q3=Upper half of data의 중앙값Q3 = \text{Upper half of data의 중앙값}

  3. 사분위 범위(IQR): IQR=Q3Q1IQR = Q3 - Q1

  4. 위스커: Lower Whisker=max(min(x),Q11.5IQR)\text{Lower Whisker} = \max({\min(x), Q1 - 1.5 * IQR}) Upper Whisker=min(max(x),Q3+1.5IQR)\text{Upper Whisker} = \min({\max(x), Q3 + 1.5 * IQR})

  5. 이상치: Lower Whisker 이하 또는 Upper Whisker 이상의 데이터 포인트.

계산

계산기는 박스 플롯을 생성하기 위해 다음 단계를 수행합니다:

  1. 입력 데이터를 오름차순으로 정렬합니다.
  2. 중앙값(Q2)을 계산합니다:
    • 데이터 포인트 수가 홀수인 경우 중앙값은 중간 값입니다.
    • 데이터 포인트 수가 짝수인 경우 중앙값은 두 개의 중간 값의 평균입니다.
  3. 첫 번째 사분위수(Q1)를 계산합니다:
    • 이는 데이터의 하반부의 중앙값입니다.
    • 데이터 포인트 수가 홀수인 경우 중앙값은 하반부에 포함되지 않습니다.
  4. 세 번째 사분위수(Q3)를 계산합니다:
    • 이는 데이터의 상반부의 중앙값입니다.
    • 데이터 포인트 수가 홀수인 경우 중앙값은 상반부에 포함되지 않습니다.
  5. 사분위 범위(IQR)를 계산합니다: IQR = Q3 - Q1.
  6. 위스커를 결정합니다:
    • Lower whisker: Q1 - 1.5 * IQR보다 크거나 같은 가장 작은 데이터 포인트
    • Upper whisker: Q3 + 1.5 * IQR보다 작거나 같은 가장 큰 데이터 포인트
  7. 이상치를 식별합니다: Lower whisker 이하 또는 Upper whisker 이상의 데이터 포인트.

데이터 세트에 짝수 개의 요소가 있을 때 사분위수를 계산하는 방법에는 다양한 방법이 있습니다. 위에서 설명한 방법은 "배타적" 방법으로 알려져 있지만, "포괄적" 방법이나 "중앙값의 중앙값" 방법과 같은 다른 방법도 사용할 수 있습니다. 방법의 선택은 특히 작은 데이터 세트의 경우 Q1 및 Q3의 위치에 약간의 영향을 미칠 수 있습니다.

해석

Q3 중앙값 Q1 최소 최대 박스 플롯 구성 요소
  • 플롯의 박스는 사분위 범위(IQR)를 나타내며, 박스의 하단은 Q1, 상단은 Q3입니다.
  • 박스 내의 선은 중앙값(Q2)을 나타냅니다.
  • 위스커는 박스에서 최소값과 최대값까지 확장되며, 이상치는 제외됩니다.
  • 이상치는 위스커를 넘어 개별 점으로 표시됩니다.

박스 플롯은 데이터에 대한 여러 통찰력을 제공합니다:

  • 중앙 경향: 중앙값은 데이터 세트의 중앙 값을 보여줍니다.
  • 변동성: IQR과 최소값에서 최대값까지의 전체 범위는 데이터의 분산을 보여줍니다.
  • 왜도: 중앙값이 박스 내에서 중심에 위치하지 않으면 데이터의 왜도를 나타냅니다.
  • 이상치: 위스커를 넘어 있는 점들은 잠재적인 이상치 또는 극단값을 강조합니다.

사용 사례

박스 플롯은 다양한 분야에서 유용합니다:

  1. 통계: 데이터의 분포와 왜도를 시각화하는 데 사용됩니다. 예를 들어, 서로 다른 학교나 반의 시험 점수를 비교할 수 있습니다.

  2. 데이터 분석: 이상치를 식별하고 분포를 비교하는 데 사용됩니다. 비즈니스에서는 서로 다른 지역이나 기간의 판매 데이터를 분석하는 데 사용할 수 있습니다.

  3. 과학 연구: 결과를 제시하고 그룹을 비교하는 데 사용됩니다. 예를 들어, 의학 연구에서 서로 다른 치료의 효과를 비교할 수 있습니다.

  4. 품질 관리: 프로세스 변수를 모니터링하고 이상을 식별하는 데 사용됩니다. 제조업에서는 제품 치수를 추적하고 허용 범위 내에 있는지 확인하는 데 사용할 수 있습니다.

  5. 금융: 주가 변동 및 기타 재무 지표를 분석하는 데 사용됩니다. 예를 들어, 서로 다른 뮤추얼 펀드의 성과를 시간에 따라 비교할 수 있습니다.

  6. 환경 과학: 서로 다른 위치나 기간의 오염 수준이나 온도 변화를 분석하고 비교하는 데 사용됩니다.

  7. 스포츠 분석: 팀이나 시즌 간의 선수 성적 통계를 비교하는 데 사용됩니다.

대안

박스 플롯은 데이터 시각화에 강력한 도구이지만, 분석의 특정 요구 사항에 따라 여러 대안이 있습니다:

  1. 히스토그램: 데이터 세트의 빈도 분포를 보여주는 데 유용합니다. 분포의 형태에 대한 더 많은 세부 정보를 제공하지만 여러 데이터 세트를 비교하는 데는 덜 효과적일 수 있습니다.

  2. 바이올린 플롯: 박스 플롯의 특징과 커널 밀도 플롯을 결합하여 다양한 값에서 데이터의 확률 밀도를 보여줍니다.

  3. 산점도: 두 변수 간의 관계를 보여주는 데 이상적이며, 박스 플롯은 이를 수행할 수 없습니다.

  4. 막대 차트: 서로 다른 범주 간의 단일 값을 비교하는 데 적합합니다.

  5. 선 그래프: 시간이 지남에 따른 추세를 보여주는 데 효과적이며, 박스 플롯은 이를 잘 포착하지 못합니다.

  6. 히트맵: 여러 변수를 가진 복잡한 데이터 세트를 시각화하는 데 유용합니다.

이러한 대안 중 선택은 데이터의 성격과 전달하려는 특정 통찰력에 따라 달라집니다.

역사

박스 플롯은 1970년 John Tukey에 의해 발명되었으며, 1977년 그의 저서 "Exploratory Data Analysis"에 처음 등장했습니다. Tukey의 원래 디자인인 "도식 플롯"은 중앙값, 사분위수 및 극단값만 표시했습니다.

박스 플롯의 역사에서 주요 발전 사항은 다음과 같습니다:

  1. 1978: McGill, Tukey 및 Larsen이 중앙값에 대한 신뢰 구간을 추가하는 노치 박스 플롯을 도입했습니다.

  2. 1980년대: 박스 플롯에서 "이상치"의 개념이 더 표준화되었으며, 일반적으로 사분위수에서 1.5배 IQR을 초과하는 점으로 정의됩니다.

  3. 1990년대-2000년대: 컴퓨터 그래픽의 출현으로 가변 너비 박스 플롯 및 바이올린 플롯과 같은 변형이 개발되었습니다.

  4. 현재: 상호작용 및 동적 박스 플롯이 데이터 시각화 소프트웨어에서 일반화되어 사용자가 기본 데이터 포인트를 탐색할 수 있게 되었습니다.

박스 플롯은 복잡한 데이터 세트를 요약하는 데 있어 단순성과 효과성 덕분에 오랜 세월 동안 사랑받아왔습니다. 다양한 분야에서 데이터 분석의 필수 요소로 자리 잡고 있습니다.

코드 스니펫

다양한 프로그래밍 언어에서 박스 플롯을 생성하는 방법의 예는 다음과 같습니다:

1=QUARTILE(A1:A100,1)  ' Q1
2=MEDIAN(A1:A100)      ' 중앙값
3=QUARTILE(A1:A100,3)  ' Q3
4=MIN(A1:A100)         ' 최소
5=MAX(A1:A100)         ' 최대
6

참고 문헌

  1. Tukey, J. W. (1977). Exploratory Data Analysis. Addison-Wesley.
  2. McGill, R., Tukey, J. W., & Larsen, W. A. (1978). Variations of Box Plots. The American Statistician, 32(1), 12-16.
  3. Williamson, D. F., Parker, R. A., & Kendrick, J. S. (1989). The box plot: a simple visual method to interpret data. Annals of internal medicine, 110(11), 916-921.
  4. Wickham, H., & Stryjewski, L. (2011). 40 years of boxplots. Technical report, had.co.nz.
  5. Frigge, M., Hoaglin, D. C., & Iglewicz, B. (1989). Some Implementations of the Boxplot. The American Statistician, 43(1), 50-54.