محاسبه نمودار جعبهای و شاخکها برای تحلیل دادهها
تحلیل بصری مجموعه دادههای خود را با استفاده از نمودار جعبهای و شاخکها تولید کنید. این ابزار اندازهگیریهای آماری کلیدی از جمله چارکها، میانه و دادههای پرت را محاسبه و نمایش میدهد.
محاسبهگر نمودار جعبهای
محاسبهگر نمودار جعبهای
مستندات
ماشین حساب جعبهای
مقدمه
جعبهنمودار، که به عنوان جعبه و شاخک نیز شناخته میشود، یک روش استاندارد برای نمایش توزیع دادهها بر اساس یک خلاصه پنجعددی است: حداقل، چارک اول (Q1)، میانه، چارک سوم (Q3) و حداکثر. این ماشین حساب به شما این امکان را میدهد که یک جعبهنمودار از یک مجموعه داده عددی مشخص تولید کنید و ابزاری قدرتمند برای تجزیه و تحلیل و تجسم دادهها فراهم میآورد.
نحوه استفاده از این ماشین حساب
- دادههای خود را به صورت یک لیست از اعداد جدا شده با کاما یا فاصله در فیلد ورودی وارد کنید.
- ماشین حساب به طور خودکار آمار جعبهنمودار را محاسبه کرده و نتایج را نمایش میدهد.
- یک نمایش بصری از جعبهنمودار در زیر نتایج نشان داده خواهد شد.
- میتوانید نتایج محاسبه شده را با استفاده از دکمه "کپی نتیجه" کپی کنید.
فرمول
فرمولهای کلیدی استفاده شده در محاسبات جعبهنمودار عبارتند از:
-
میانه (Q2): برای یک مجموعه داده مرتب شده با n عنصر،
x_{\frac{n+1}{2}} & \text{اگر n فرد باشد} \\ \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) & \text{اگر n زوج باشد} \end{cases} $$ -
چارک اول (Q1) و چارک سوم (Q3):
-
دامنه بین چارکی (IQR):
-
شاخکها:
-
نقاط دورافتاده: هر نقطه دادهای که زیر شاخک پایینی یا بالاتر از شاخک بالایی باشد.
محاسبه
ماشین حساب مراحل زیر را برای تولید جعبهنمودار انجام میدهد:
- دادههای ورودی را به ترتیب صعودی مرتب کنید.
- میانه (Q2) را محاسبه کنید:
- اگر تعداد نقاط داده فرد باشد، میانه مقدار وسط است.
- اگر تعداد نقاط داده زوج باشد، میانه میانگین دو مقدار وسط است.
- چارک اول (Q1) را محاسبه کنید:
- این میانه نیمه پایینی داده است.
- اگر تعداد نقاط داده فرد باشد، میانه در هیچیک از نیمهها گنجانده نمیشود.
- چارک سوم (Q3) را محاسبه کنید:
- این میانه نیمه بالایی داده است.
- اگر تعداد نقاط داده فرد باشد، میانه در هیچیک از نیمهها گنجانده نمیشود.
- دامنه بین چارکی (IQR) را محاسبه کنید: IQR = Q3 - Q1.
- شاخکها را تعیین کنید:
- شاخک پایینی: کوچکترین نقطه داده بزرگتر یا برابر با Q1 - 1.5 * IQR
- شاخک بالایی: بزرگترین نقطه داده کمتر یا برابر با Q3 + 1.5 * IQR
- نقاط دورافتاده را شناسایی کنید: هر نقطه دادهای که زیر شاخک پایینی یا بالاتر از شاخک بالایی باشد.
مهم است که توجه داشته باشید که روشهای مختلفی برای محاسبه چارکها وجود دارد، به ویژه هنگام کار با مجموعه دادههایی که تعداد عناصر زوج دارند. روش توصیف شده در بالا به عنوان "روش انحصاری" شناخته میشود، اما روشهای دیگری مانند "روش فراگیر" یا "میانه میانهها" نیز میتوانند استفاده شوند. انتخاب روش میتواند به طور جزئی بر موقعیت Q1 و Q3 تأثیر بگذارد، به ویژه برای مجموعه دادههای کوچک.
تفسیر
- جعبه در نمودار نشاندهنده دامنه بین چارکی (IQR) است، با پایین جعبه در Q1 و بالا در Q3.
- خط داخل جعبه نمایانگر میانه (Q2) است.
- شاخکها از جعبه به حداقل و حداکثر مقادیر، به جز نقاط دورافتاده، گسترش مییابند.
- نقاط دورافتاده به عنوان نقاط فردی فراتر از شاخکها ترسیم میشوند.
جعبهنمودار چندین بینش درباره دادهها فراهم میکند:
- تمایل مرکزی: میانه نشاندهنده مقدار مرکزی مجموعه داده است.
- تغییرپذیری: IQR و گسترش کلی از حداقل تا حداکثر نشاندهنده پراکندگی دادهها است.
- انحراف: اگر میانه درون جعبه متمرکز نباشد، نشاندهنده انحراف در دادهها است.
- نقاط دورافتاده: نقاط فراتر از شاخکها نقاط دورافتاده یا مقادیر افراطی را نشان میدهند.
موارد استفاده
جعبهنمودارها در زمینههای مختلف مفید هستند، از جمله:
-
آمار: برای تجسم توزیع و انحراف دادهها. به عنوان مثال، مقایسه نمرات آزمون در مدارس یا کلاسهای مختلف.
-
تحلیل داده: برای شناسایی نقاط دورافتاده و مقایسه توزیعها. در کسب و کار، میتواند برای تحلیل دادههای فروش در مناطق یا دورههای زمانی مختلف استفاده شود.
-
تحقیقات علمی: برای ارائه نتایج و مقایسه گروهها. به عنوان مثال، مقایسه اثربخشی درمانهای مختلف در مطالعات پزشکی.
-
کنترل کیفیت: برای نظارت بر متغیرهای فرآیند و شناسایی ناهنجاریها. در تولید، میتواند برای پیگیری ابعاد محصولات و اطمینان از اینکه در محدودههای قابل قبول قرار دارند، استفاده شود.
-
مالی: برای تحلیل حرکات قیمت سهام و دیگر معیارهای مالی. به عنوان مثال، مقایسه عملکرد صندوقهای سرمایهگذاری مختلف در طول زمان.
-
علم محیط زیست: برای تحلیل و مقایسه دادههای محیطی، مانند سطوح آلودگی یا تغییرات دما در مکانها یا دورههای زمانی مختلف.
-
تحلیل ورزشی: برای مقایسه آمار عملکرد بازیکنان در تیمها یا فصلهای مختلف.
جایگزینها
در حالی که جعبهنمودارها ابزارهای قدرتمندی برای تجسم دادهها هستند، بسته به نیازهای خاص تحلیل، چندین جایگزین وجود دارد:
-
هیستوگرامها: برای نشان دادن توزیع فراوانی یک مجموعه داده مفید هستند. آنها جزئیات بیشتری درباره شکل توزیع ارائه میدهند اما ممکن است برای مقایسه چندین مجموعه داده کمتر مؤثر باشند.
-
نمودارهای ویولن: ویژگیهای جعبهنمودارها را با نمودارهای چگالی هستهای ترکیب میکنند و چگالی احتمال دادهها را در مقادیر مختلف نشان میدهند.
-
نمودارهای پراکندگی: برای نشان دادن رابطه بین دو متغیر ایدهآل هستند، که جعبهنمودارها نمیتوانند این کار را انجام دهند.
-
نمودارهای میلهای: برای مقایسه مقادیر منفرد در دستههای مختلف مناسب هستند.
-
نمودارهای خطی: برای نشان دادن روندها در طول زمان مؤثر هستند، که جعبهنمودارها نمیتوانند به خوبی این کار را انجام دهند.
-
نقشههای حرارتی: برای تجسم مجموعه دادههای پیچیده با چندین متغیر مفید هستند.
انتخاب بین این جایگزینها به ماهیت دادهها و بینشهای خاصی که فرد میخواهد منتقل کند بستگی دارد.
تاریخچه
جعبهنمودار توسط جان توکی در سال 1970 اختراع شد و اولین بار در کتاب او "تحلیل دادههای اکتشافی" در سال 1977 ظاهر شد. طراحی اصلی توکی، که "نمودار شماتیک" نامیده میشود، تنها میانه، چارکها و مقادیر افراطی را نمایش میدهد.
توسعههای کلیدی در تاریخچه جعبهنمودارها شامل:
-
1978: مکگیل، توکی و لارسن نمودار جعبهای شکافدار را معرفی کردند که فاصله اطمینان برای میانه را اضافه میکند.
-
دهه 1980: مفهوم "نقاط دورافتاده" در جعبهنمودارها به طور استانداردتر تعریف شد، که معمولاً به عنوان نقاطی که فراتر از 1.5 برابر IQR از چارکها هستند، تعریف میشود.
-
دهه 1990-2000: با ظهور گرافیکهای کامپیوتری، تنوعهایی مانند جعبهنمودارهای با عرض متغیر و نمودارهای ویولن توسعه یافتند.
-
روزهای حاضر: جعبهنمودارهای تعاملی و پویا در نرمافزارهای تجسم داده رایج شدهاند و به کاربران اجازه میدهند تا به دادههای زیرین بپردازند.
جعبهنمودارها به دلیل سادگی و کارآیی خود در خلاصهسازی مجموعههای داده پیچیده، آزمون زمان را پشت سر گذاشتهاند. آنها همچنان یکی از ارکان تحلیل دادهها در بسیاری از زمینهها هستند.
قطعههای کد
در اینجا مثالهایی از نحوه ایجاد یک جعبهنمودار در زبانهای برنامهنویسی مختلف آورده شده است:
1=QUARTILE(A1:A100,1) ' Q1
2=MEDIAN(A1:A100) ' میانه
3=QUARTILE(A1:A100,3) ' Q3
4=MIN(A1:A100) ' حداقل
5=MAX(A1:A100) ' حداکثر
6
1## فرض کنید 'data' وکتور اعداد شماست
2boxplot(data)
3
1% فرض کنید 'data' وکتور اعداد شماست
2boxplot(data)
3
1// با استفاده از D3.js
2var svg = d3.select("body").append("svg")
3 .attr("width", 400)
4 .attr("height", 300);
5
6var data = [/* آرایه دادههای شما */];
7
8var boxplot = svg.append("g")
9 .datum(data)
10 .call(d3.boxplot());
11
1import matplotlib.pyplot as plt
2import numpy as np
3
4data = [/* آرایه دادههای شما */]
5plt.boxplot(data)
6plt.show()
7
1import org.jfree.chart.ChartFactory;
2import org.jfree.chart.ChartPanel;
3import org.jfree.chart.JFreeChart;
4import org.jfree.data.statistics.DefaultBoxAndWhiskerCategoryDataset;
5
6DefaultBoxAndWhiskerCategoryDataset dataset = new DefaultBoxAndWhiskerCategoryDataset();
7dataset.add(Arrays.asList(/* دادههای شما */), "سری 1", "دسته 1");
8
9JFreeChart chart = ChartFactory.createBoxAndWhiskerChart(
10 "جعبهنمودار", "دسته", "مقدار", dataset, true);
11
منابع
- Tukey, J. W. (1977). تحلیل دادههای اکتشافی. Addison-Wesley.
- McGill, R., Tukey, J. W., & Larsen, W. A. (1978). تنوعهای جعبهنمودار. آمار آمریکایی، 32(1)، 12-16.
- Williamson, D. F., Parker, R. A., & Kendrick, J. S. (1989). جعبهنمودار: یک روش بصری ساده برای تفسیر دادهها. سالنامه پزشکی داخلی، 110(11)، 916-921.
- Wickham, H., & Stryjewski, L. (2011). 40 سال جعبهنمودار. گزارش فنی، had.co.nz.
- Frigge, M., Hoaglin, D. C., & Iglewicz, B. (1989). برخی پیادهسازیهای جعبهنمودار. آمار آمریکایی، 43(1)، 50-54.
بازخورد
برای شروع دادن بازخورد درباره این ابزار، روی نوار بازخورد کلیک کنید
ابزارهای مرتبط
ابزارهای بیشتری را کشف کنید که ممکن است برای جریان کار شما مفید باشند