قم بإنشاء تحليل بصري لمجموعة البيانات الخاصة بك باستخدام رسم بياني صندوقي. تقوم هذه الأداة بحساب وعرض المقاييس الإحصائية الرئيسية بما في ذلك الربعيات، والوسيط، والقيم الشاذة.
رسم الصندوق، المعروف أيضًا برسم الصندوق والشعيرات، هو طريقة قياسية لعرض توزيع البيانات بناءً على ملخص مكون من خمسة أرقام: الحد الأدنى، الربع الأول (Q1)، الوسيط، الربع الثالث (Q3)، والحد الأقصى. تتيح لك هذه الآلة حساب رسم صندوق من مجموعة معينة من البيانات العددية، مما يوفر أداة قوية لتصور البيانات وتحليلها.
الصيغ الرئيسية المستخدمة في حسابات رسم الصندوق هي:
الوسيط (Q2): لمجموعة مرتبة من n عناصر،
x_{\frac{n+1}{2}} & \text{إذا كان n فرديًا} \\ \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) & \text{إذا كان n زوجيًا} \end{cases} $$الربع الأول (Q1) والربع الثالث (Q3):
نطاق الربع (IQR):
الشعيرات:
القيم الشاذة: أي نقاط بيانات أقل من الشعيرة السفلية أو أعلى من الشعيرة العلوية.
تقوم الآلة الحاسبة بتنفيذ الخطوات التالية لإنشاء رسم الصندوق:
من المهم ملاحظة أن هناك طرقًا مختلفة لحساب الربع، خاصة عند التعامل مع مجموعات البيانات التي تحتوي على عدد زوجي من العناصر. الطريقة الموضحة أعلاه تعرف باسم "الطريقة الحصرية"، ولكن يمكن أيضًا استخدام طرق أخرى مثل "الطريقة الشاملة" أو "وسيط الوسائط". يمكن أن تؤثر طريقة الاختيار قليلاً على موضع Q1 و Q3، خاصةً لمجموعات البيانات الصغيرة.
يوفر رسم الصندوق العديد من الرؤى حول البيانات:
تكون رسومات الصندوق مفيدة في مجالات متعددة، بما في ذلك:
الإحصائيات: لتصور توزيع البيانات والانحراف. على سبيل المثال، مقارنة درجات الاختبار عبر مدارس أو فصول دراسية مختلفة.
تحليل البيانات: لتحديد القيم الشاذة ومقارنة التوزيعات. في الأعمال، يمكن استخدامها لتحليل بيانات المبيعات عبر مناطق أو فترات زمنية مختلفة.
البحث العلمي: لتقديم النتائج ومقارنة المجموعات. على سبيل المثال، مقارنة فعالية العلاجات المختلفة في الدراسات الطبية.
مراقبة الجودة: لمراقبة متغيرات العمليات وتحديد الشذوذ. في التصنيع، يمكن استخدامها لتتبع أبعاد المنتج وضمان أنها تقع ضمن النطاقات المقبولة.
المالية: لتحليل تحركات أسعار الأسهم وغيرها من المقاييس المالية. على سبيل المثال، مقارنة أداء صناديق الاستثمار المختلفة على مر الزمن.
العلوم البيئية: لتحليل ومقارنة البيانات البيئية، مثل مستويات التلوث أو تقلبات درجات الحرارة عبر مواقع أو فترات زمنية مختلفة.
تحليلات الرياضة: لمقارنة إحصائيات أداء اللاعبين عبر الفرق أو المواسم.
بينما تعتبر رسومات الصندوق أدوات قوية لتصور البيانات، هناك العديد من البدائل اعتمادًا على الاحتياجات المحددة للتحليل:
المدرجات: مفيدة لعرض توزيع تكرار مجموعة البيانات. توفر مزيدًا من التفاصيل حول شكل التوزيع ولكن قد تكون أقل فعالية في مقارنة مجموعات بيانات متعددة.
رسومات الكمان: تجمع بين ميزات رسومات الصندوق مع رسومات كثافة النواة، مما يظهر كثافة الاحتمال للبيانات عند قيم مختلفة.
الرسوم النقطية: مثالية لإظهار العلاقة بين متغيرين، وهو ما لا يمكن أن تفعله رسومات الصندوق.
الرسوم البيانية العمودية: مناسبة لمقارنة قيم فردية عبر فئات مختلفة.
الرسوم البيانية الخطية: فعالة لإظهار الاتجاهات على مر الزمن، وهو ما لا تلتقطه رسومات الصندوق بشكل جيد.
خرائط الحرارة: مفيدة لتصور مجموعات البيانات المعقدة مع متغيرات متعددة.
يعتمد الاختيار بين هذه البدائل على طبيعة البيانات والرؤى المحددة التي يرغب المرء في نقلها.
تم اختراع رسم الصندوق بواسطة جون توكي في عام 1970 وظهر لأول مرة في كتابه "تحليل البيانات الاستكشافية" في عام 1977. كان التصميم الأصلي لتوكي، المعروف باسم "الرسم التخطيطي"، يعرض فقط الوسيط والربعين والقيم القصوى.
تشمل التطورات الرئيسية في تاريخ رسومات الصندوق:
1978: قدم مكغيل وتوكي ولارسون رسم الصندوق المنقوش، الذي يضيف فترات الثقة للوسيط.
1980s: أصبح مفهوم "القيم الشاذة" في رسومات الصندوق أكثر معيارية، وعادة ما يتم تعريفها كنقاط تتجاوز 1.5 مرة نطاق الربع من الربعين.
1990s-2000s: مع ظهور الرسوم البيانية الحاسوبية، تم تطوير أشكال مثل رسومات الصندوق ذات العرض المتغير ورسومات الكمان.
اليوم: أصبحت رسومات الصندوق التفاعلية والديناميكية شائعة في برامج تصور البيانات، مما يسمح للمستخدمين باستكشاف النقاط البيانية الأساسية.
لقد صمدت رسومات الصندوق أمام اختبار الزمن بسبب بساطتها وفعاليتها في تلخيص مجموعات البيانات المعقدة. ولا تزال تعتبر عنصرًا أساسيًا في تحليل البيانات عبر العديد من المجالات.
إليك أمثلة على كيفية إنشاء رسم صندوق في لغات برمجة مختلفة:
1=QUARTILE(A1:A100,1) ' Q1
2=MEDIAN(A1:A100) ' الوسيط
3=QUARTILE(A1:A100,3) ' Q3
4=MIN(A1:A100) ' الحد الأدنى
5=MAX(A1:A100) ' الحد الأقصى
6
1## بافتراض أن 'data' هو متجه الأرقام لديك
2boxplot(data)
3
1% بافتراض أن 'data' هو متجه الأرقام لديك
2boxplot(data)
3
1// باستخدام D3.js
2var svg = d3.select("body").append("svg")
3 .attr("width", 400)
4 .attr("height", 300);
5
6var data = [/* مصفوفة البيانات الخاصة بك */];
7
8var boxplot = svg.append("g")
9 .datum(data)
10 .call(d3.boxplot());
11
1import matplotlib.pyplot as plt
2import numpy as np
3
4data = [/* مصفوفة البيانات الخاصة بك */]
5plt.boxplot(data)
6plt.show()
7
1import org.jfree.chart.ChartFactory;
2import org.jfree.chart.ChartPanel;
3import org.jfree.chart.JFreeChart;
4import org.jfree.data.statistics.DefaultBoxAndWhiskerCategoryDataset;
5
6DefaultBoxAndWhiskerCategoryDataset dataset = new DefaultBoxAndWhiskerCategoryDataset();
7dataset.add(Arrays.asList(/* بياناتك */), "السلسلة 1", "الفئة 1");
8
9JFreeChart chart = ChartFactory.createBoxAndWhiskerChart(
10 "رسم صندوق", "الفئة", "القيمة", dataset, true);
11
اكتشف المزيد من الأدوات التي قد تكون مفيدة لسير عملك