🛠️

Whiz Tools

Build • Create • Innovate

محاسبه نمودار جعبه‌ای و شاخک‌ها برای تحلیل داده‌ها

تحلیل بصری مجموعه داده‌های خود را با استفاده از نمودار جعبه‌ای و شاخک‌ها تولید کنید. این ابزار اندازه‌گیری‌های آماری کلیدی از جمله چارک‌ها، میانه و داده‌های پرت را محاسبه و نمایش می‌دهد.

محاسبه‌گر نمودار جعبه‌ای

محاسبه‌گر نمودار جعبه‌ای

📚

مستندات

ماشین حساب جعبه‌ای

مقدمه

جعبه‌نمودار، که به عنوان جعبه و شاخک نیز شناخته می‌شود، یک روش استاندارد برای نمایش توزیع داده‌ها بر اساس یک خلاصه پنج‌عددی است: حداقل، چارک اول (Q1)، میانه، چارک سوم (Q3) و حداکثر. این ماشین حساب به شما این امکان را می‌دهد که یک جعبه‌نمودار از یک مجموعه داده عددی مشخص تولید کنید و ابزاری قدرتمند برای تجزیه و تحلیل و تجسم داده‌ها فراهم می‌آورد.

نحوه استفاده از این ماشین حساب

  1. داده‌های خود را به صورت یک لیست از اعداد جدا شده با کاما یا فاصله در فیلد ورودی وارد کنید.
  2. ماشین حساب به طور خودکار آمار جعبه‌نمودار را محاسبه کرده و نتایج را نمایش می‌دهد.
  3. یک نمایش بصری از جعبه‌نمودار در زیر نتایج نشان داده خواهد شد.
  4. می‌توانید نتایج محاسبه شده را با استفاده از دکمه "کپی نتیجه" کپی کنید.

فرمول

فرمول‌های کلیدی استفاده شده در محاسبات جعبه‌نمودار عبارتند از:

  1. میانه (Q2): برای یک مجموعه داده مرتب شده با n عنصر،

    x_{\frac{n+1}{2}} & \text{اگر n فرد باشد} \\ \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) & \text{اگر n زوج باشد} \end{cases} $$
  2. چارک اول (Q1) و چارک سوم (Q3): Q1=میانه نیمه پایینی دادهQ1 = \text{میانه نیمه پایینی داده} Q3=میانه نیمه بالایی دادهQ3 = \text{میانه نیمه بالایی داده}

  3. دامنه بین چارکی (IQR): IQR=Q3Q1IQR = Q3 - Q1

  4. شاخک‌ها: شاخک پایینی=max(min(x),Q11.5IQR)\text{شاخک پایینی} = \max({\min(x), Q1 - 1.5 * IQR}) شاخک بالایی=min(max(x),Q3+1.5IQR)\text{شاخک بالایی} = \min({\max(x), Q3 + 1.5 * IQR})

  5. نقاط دورافتاده: هر نقطه داده‌ای که زیر شاخک پایینی یا بالاتر از شاخک بالایی باشد.

محاسبه

ماشین حساب مراحل زیر را برای تولید جعبه‌نمودار انجام می‌دهد:

  1. داده‌های ورودی را به ترتیب صعودی مرتب کنید.
  2. میانه (Q2) را محاسبه کنید:
    • اگر تعداد نقاط داده فرد باشد، میانه مقدار وسط است.
    • اگر تعداد نقاط داده زوج باشد، میانه میانگین دو مقدار وسط است.
  3. چارک اول (Q1) را محاسبه کنید:
    • این میانه نیمه پایینی داده است.
    • اگر تعداد نقاط داده فرد باشد، میانه در هیچ‌یک از نیمه‌ها گنجانده نمی‌شود.
  4. چارک سوم (Q3) را محاسبه کنید:
    • این میانه نیمه بالایی داده است.
    • اگر تعداد نقاط داده فرد باشد، میانه در هیچ‌یک از نیمه‌ها گنجانده نمی‌شود.
  5. دامنه بین چارکی (IQR) را محاسبه کنید: IQR = Q3 - Q1.
  6. شاخک‌ها را تعیین کنید:
    • شاخک پایینی: کوچک‌ترین نقطه داده بزرگتر یا برابر با Q1 - 1.5 * IQR
    • شاخک بالایی: بزرگ‌ترین نقطه داده کمتر یا برابر با Q3 + 1.5 * IQR
  7. نقاط دورافتاده را شناسایی کنید: هر نقطه داده‌ای که زیر شاخک پایینی یا بالاتر از شاخک بالایی باشد.

مهم است که توجه داشته باشید که روش‌های مختلفی برای محاسبه چارک‌ها وجود دارد، به ویژه هنگام کار با مجموعه داده‌هایی که تعداد عناصر زوج دارند. روش توصیف شده در بالا به عنوان "روش انحصاری" شناخته می‌شود، اما روش‌های دیگری مانند "روش فراگیر" یا "میانه میانه‌ها" نیز می‌توانند استفاده شوند. انتخاب روش می‌تواند به طور جزئی بر موقعیت Q1 و Q3 تأثیر بگذارد، به ویژه برای مجموعه داده‌های کوچک.

تفسیر

Q3 میانه Q1 حداقل حداکثر اجزای جعبه‌نمودار
  • جعبه در نمودار نشان‌دهنده دامنه بین چارکی (IQR) است، با پایین جعبه در Q1 و بالا در Q3.
  • خط داخل جعبه نمایانگر میانه (Q2) است.
  • شاخک‌ها از جعبه به حداقل و حداکثر مقادیر، به جز نقاط دورافتاده، گسترش می‌یابند.
  • نقاط دورافتاده به عنوان نقاط فردی فراتر از شاخک‌ها ترسیم می‌شوند.

جعبه‌نمودار چندین بینش درباره داده‌ها فراهم می‌کند:

  • تمایل مرکزی: میانه نشان‌دهنده مقدار مرکزی مجموعه داده است.
  • تغییرپذیری: IQR و گسترش کلی از حداقل تا حداکثر نشان‌دهنده پراکندگی داده‌ها است.
  • انحراف: اگر میانه درون جعبه متمرکز نباشد، نشان‌دهنده انحراف در داده‌ها است.
  • نقاط دورافتاده: نقاط فراتر از شاخک‌ها نقاط دورافتاده یا مقادیر افراطی را نشان می‌دهند.

موارد استفاده

جعبه‌نمودارها در زمینه‌های مختلف مفید هستند، از جمله:

  1. آمار: برای تجسم توزیع و انحراف داده‌ها. به عنوان مثال، مقایسه نمرات آزمون در مدارس یا کلاس‌های مختلف.

  2. تحلیل داده: برای شناسایی نقاط دورافتاده و مقایسه توزیع‌ها. در کسب و کار، می‌تواند برای تحلیل داده‌های فروش در مناطق یا دوره‌های زمانی مختلف استفاده شود.

  3. تحقیقات علمی: برای ارائه نتایج و مقایسه گروه‌ها. به عنوان مثال، مقایسه اثربخشی درمان‌های مختلف در مطالعات پزشکی.

  4. کنترل کیفیت: برای نظارت بر متغیرهای فرآیند و شناسایی ناهنجاری‌ها. در تولید، می‌تواند برای پیگیری ابعاد محصولات و اطمینان از اینکه در محدوده‌های قابل قبول قرار دارند، استفاده شود.

  5. مالی: برای تحلیل حرکات قیمت سهام و دیگر معیارهای مالی. به عنوان مثال، مقایسه عملکرد صندوق‌های سرمایه‌گذاری مختلف در طول زمان.

  6. علم محیط زیست: برای تحلیل و مقایسه داده‌های محیطی، مانند سطوح آلودگی یا تغییرات دما در مکان‌ها یا دوره‌های زمانی مختلف.

  7. تحلیل ورزشی: برای مقایسه آمار عملکرد بازیکنان در تیم‌ها یا فصل‌های مختلف.

جایگزین‌ها

در حالی که جعبه‌نمودارها ابزارهای قدرتمندی برای تجسم داده‌ها هستند، بسته به نیازهای خاص تحلیل، چندین جایگزین وجود دارد:

  1. هیستوگرام‌ها: برای نشان دادن توزیع فراوانی یک مجموعه داده مفید هستند. آن‌ها جزئیات بیشتری درباره شکل توزیع ارائه می‌دهند اما ممکن است برای مقایسه چندین مجموعه داده کمتر مؤثر باشند.

  2. نمودارهای ویولن: ویژگی‌های جعبه‌نمودارها را با نمودارهای چگالی هسته‌ای ترکیب می‌کنند و چگالی احتمال داده‌ها را در مقادیر مختلف نشان می‌دهند.

  3. نمودارهای پراکندگی: برای نشان دادن رابطه بین دو متغیر ایده‌آل هستند، که جعبه‌نمودارها نمی‌توانند این کار را انجام دهند.

  4. نمودارهای میله‌ای: برای مقایسه مقادیر منفرد در دسته‌های مختلف مناسب هستند.

  5. نمودارهای خطی: برای نشان دادن روندها در طول زمان مؤثر هستند، که جعبه‌نمودارها نمی‌توانند به خوبی این کار را انجام دهند.

  6. نقشه‌های حرارتی: برای تجسم مجموعه داده‌های پیچیده با چندین متغیر مفید هستند.

انتخاب بین این جایگزین‌ها به ماهیت داده‌ها و بینش‌های خاصی که فرد می‌خواهد منتقل کند بستگی دارد.

تاریخچه

جعبه‌نمودار توسط جان توکی در سال 1970 اختراع شد و اولین بار در کتاب او "تحلیل داده‌های اکتشافی" در سال 1977 ظاهر شد. طراحی اصلی توکی، که "نمودار شماتیک" نامیده می‌شود، تنها میانه، چارک‌ها و مقادیر افراطی را نمایش می‌دهد.

توسعه‌های کلیدی در تاریخچه جعبه‌نمودارها شامل:

  1. 1978: مک‌گیل، توکی و لارسن نمودار جعبه‌ای شکاف‌دار را معرفی کردند که فاصله اطمینان برای میانه را اضافه می‌کند.

  2. دهه 1980: مفهوم "نقاط دورافتاده" در جعبه‌نمودارها به طور استانداردتر تعریف شد، که معمولاً به عنوان نقاطی که فراتر از 1.5 برابر IQR از چارک‌ها هستند، تعریف می‌شود.

  3. دهه 1990-2000: با ظهور گرافیک‌های کامپیوتری، تنوع‌هایی مانند جعبه‌نمودارهای با عرض متغیر و نمودارهای ویولن توسعه یافتند.

  4. روزهای حاضر: جعبه‌نمودارهای تعاملی و پویا در نرم‌افزارهای تجسم داده رایج شده‌اند و به کاربران اجازه می‌دهند تا به داده‌های زیرین بپردازند.

جعبه‌نمودارها به دلیل سادگی و کارآیی خود در خلاصه‌سازی مجموعه‌های داده پیچیده، آزمون زمان را پشت سر گذاشته‌اند. آن‌ها همچنان یکی از ارکان تحلیل داده‌ها در بسیاری از زمینه‌ها هستند.

قطعه‌های کد

در اینجا مثال‌هایی از نحوه ایجاد یک جعبه‌نمودار در زبان‌های برنامه‌نویسی مختلف آورده شده است:

1=QUARTILE(A1:A100,1)  ' Q1
2=MEDIAN(A1:A100)      ' میانه
3=QUARTILE(A1:A100,3)  ' Q3
4=MIN(A1:A100)         ' حداقل
5=MAX(A1:A100)         ' حداکثر
6

منابع

  1. Tukey, J. W. (1977). تحلیل داده‌های اکتشافی. Addison-Wesley.
  2. McGill, R., Tukey, J. W., & Larsen, W. A. (1978). تنوع‌های جعبه‌نمودار. آمار آمریکایی، 32(1)، 12-16.
  3. Williamson, D. F., Parker, R. A., & Kendrick, J. S. (1989). جعبه‌نمودار: یک روش بصری ساده برای تفسیر داده‌ها. سالنامه پزشکی داخلی، 110(11)، 916-921.
  4. Wickham, H., & Stryjewski, L. (2011). 40 سال جعبه‌نمودار. گزارش فنی، had.co.nz.
  5. Frigge, M., Hoaglin, D. C., & Iglewicz, B. (1989). برخی پیاده‌سازی‌های جعبه‌نمودار. آمار آمریکایی، 43(1)، 50-54.