상자 수염 그래프를 사용하여 데이터 세트의 시각적 분석을 생성합니다. 이 도구는 사분위수, 중앙값 및 이상치를 포함한 주요 통계 측정을 계산하고 표시합니다.
박스 플롯, 또는 박스 앤 위스커 플롯(Box-and-Whisker Plot)은 최소값, 첫 번째 사분위수(Q1), 중앙값, 세 번째 사분위수(Q3), 최대값을 기반으로 데이터의 분포를 표시하는 표준화된 방법입니다. 이 계산기를 사용하면 주어진 수치 데이터 세트에서 박스 플롯을 생성할 수 있으며, 데이터 시각화 및 분석을 위한 강력한 도구를 제공합니다.
박스 플롯 계산에 사용되는 주요 공식은 다음과 같습니다:
중앙값(Q2): n개의 요소로 정렬된 데이터 세트에 대해,
x_{\frac{n+1}{2}} & \text{if n is odd} \\ \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) & \text{if n is even} \end{cases} $$첫 번째 사분위수(Q1) 및 세 번째 사분위수(Q3):
사분위 범위(IQR):
위스커:
이상치: Lower Whisker 이하 또는 Upper Whisker 이상의 데이터 포인트.
계산기는 박스 플롯을 생성하기 위해 다음 단계를 수행합니다:
데이터 세트에 짝수 개의 요소가 있을 때 사분위수를 계산하는 방법에는 다양한 방법이 있습니다. 위에서 설명한 방법은 "배타적" 방법으로 알려져 있지만, "포괄적" 방법이나 "중앙값의 중앙값" 방법과 같은 다른 방법도 사용할 수 있습니다. 방법의 선택은 특히 작은 데이터 세트의 경우 Q1 및 Q3의 위치에 약간의 영향을 미칠 수 있습니다.
박스 플롯은 데이터에 대한 여러 통찰력을 제공합니다:
박스 플롯은 다양한 분야에서 유용합니다:
통계: 데이터의 분포와 왜도를 시각화하는 데 사용됩니다. 예를 들어, 서로 다른 학교나 반의 시험 점수를 비교할 수 있습니다.
데이터 분석: 이상치를 식별하고 분포를 비교하는 데 사용됩니다. 비즈니스에서는 서로 다른 지역이나 기간의 판매 데이터를 분석하는 데 사용할 수 있습니다.
과학 연구: 결과를 제시하고 그룹을 비교하는 데 사용됩니다. 예를 들어, 의학 연구에서 서로 다른 치료의 효과를 비교할 수 있습니다.
품질 관리: 프로세스 변수를 모니터링하고 이상을 식별하는 데 사용됩니다. 제조업에서는 제품 치수를 추적하고 허용 범위 내에 있는지 확인하는 데 사용할 수 있습니다.
금융: 주가 변동 및 기타 재무 지표를 분석하는 데 사용됩니다. 예를 들어, 서로 다른 뮤추얼 펀드의 성과를 시간에 따라 비교할 수 있습니다.
환경 과학: 서로 다른 위치나 기간의 오염 수준이나 온도 변화를 분석하고 비교하는 데 사용됩니다.
스포츠 분석: 팀이나 시즌 간의 선수 성적 통계를 비교하는 데 사용됩니다.
박스 플롯은 데이터 시각화에 강력한 도구이지만, 분석의 특정 요구 사항에 따라 여러 대안이 있습니다:
히스토그램: 데이터 세트의 빈도 분포를 보여주는 데 유용합니다. 분포의 형태에 대한 더 많은 세부 정보를 제공하지만 여러 데이터 세트를 비교하는 데는 덜 효과적일 수 있습니다.
바이올린 플롯: 박스 플롯의 특징과 커널 밀도 플롯을 결합하여 다양한 값에서 데이터의 확률 밀도를 보여줍니다.
산점도: 두 변수 간의 관계를 보여주는 데 이상적이며, 박스 플롯은 이를 수행할 수 없습니다.
막대 차트: 서로 다른 범주 간의 단일 값을 비교하는 데 적합합니다.
선 그래프: 시간이 지남에 따른 추세를 보여주는 데 효과적이며, 박스 플롯은 이를 잘 포착하지 못합니다.
히트맵: 여러 변수를 가진 복잡한 데이터 세트를 시각화하는 데 유용합니다.
이러한 대안 중 선택은 데이터의 성격과 전달하려는 특정 통찰력에 따라 달라집니다.
박스 플롯은 1970년 John Tukey에 의해 발명되었으며, 1977년 그의 저서 "Exploratory Data Analysis"에 처음 등장했습니다. Tukey의 원래 디자인인 "도식 플롯"은 중앙값, 사분위수 및 극단값만 표시했습니다.
박스 플롯의 역사에서 주요 발전 사항은 다음과 같습니다:
1978: McGill, Tukey 및 Larsen이 중앙값에 대한 신뢰 구간을 추가하는 노치 박스 플롯을 도입했습니다.
1980년대: 박스 플롯에서 "이상치"의 개념이 더 표준화되었으며, 일반적으로 사분위수에서 1.5배 IQR을 초과하는 점으로 정의됩니다.
1990년대-2000년대: 컴퓨터 그래픽의 출현으로 가변 너비 박스 플롯 및 바이올린 플롯과 같은 변형이 개발되었습니다.
현재: 상호작용 및 동적 박스 플롯이 데이터 시각화 소프트웨어에서 일반화되어 사용자가 기본 데이터 포인트를 탐색할 수 있게 되었습니다.
박스 플롯은 복잡한 데이터 세트를 요약하는 데 있어 단순성과 효과성 덕분에 오랜 세월 동안 사랑받아왔습니다. 다양한 분야에서 데이터 분석의 필수 요소로 자리 잡고 있습니다.
다양한 프로그래밍 언어에서 박스 플롯을 생성하는 방법의 예는 다음과 같습니다:
1=QUARTILE(A1:A100,1) ' Q1
2=MEDIAN(A1:A100) ' 중앙값
3=QUARTILE(A1:A100,3) ' Q3
4=MIN(A1:A100) ' 최소
5=MAX(A1:A100) ' 최대
6
1## 'data'가 숫자의 벡터라고 가정
2boxplot(data)
3
1% 'data'가 숫자의 벡터라고 가정
2boxplot(data)
3
1// D3.js 사용
2var svg = d3.select("body").append("svg")
3 .attr("width", 400)
4 .attr("height", 300);
5
6var data = [/* 데이터 배열 */];
7
8var boxplot = svg.append("g")
9 .datum(data)
10 .call(d3.boxplot());
11
1import matplotlib.pyplot as plt
2import numpy as np
3
4data = [/* 데이터 배열 */]
5plt.boxplot(data)
6plt.show()
7
1import org.jfree.chart.ChartFactory;
2import org.jfree.chart.ChartPanel;
3import org.jfree.chart.JFreeChart;
4import org.jfree.data.statistics.DefaultBoxAndWhiskerCategoryDataset;
5
6DefaultBoxAndWhiskerCategoryDataset dataset = new DefaultBoxAndWhiskerCategoryDataset();
7dataset.add(Arrays.asList(/* 데이터 */), "Series 1", "Category 1");
8
9JFreeChart chart = ChartFactory.createBoxAndWhiskerChart(
10 "박스 플롯", "카테고리", "값", dataset, true);
11
귀하의 워크플로에 유용할 수 있는 더 많은 도구를 발견하세요.