צור ניתוח חזותי של קבוצת הנתונים שלך באמצעות תרשים תיבה וזנב. כלי זה מחשב ומציג מדדים סטטיסטיים מרכזיים כולל רבעונים, חציון וחריגים.
תרשים תיבה, הידוע גם בשם תרשים תיבה וזקן, הוא דרך סטנדרטית להציג את התפלגות הנתונים על בסיס סיכום חמישה מספרים: מינימום, רבעון ראשון (Q1), חציון, רבעון שלישי (Q3) ומקסימום. מחשבון זה מאפשר לך ליצור תרשים תיבה מקבוצת נתונים מספריים נתונה, ומספק כלי עוצמתי להמחשת נתונים וניתוח.
הנוסחאות המרכזיות בהן נעשה שימוש בחישובי תרשימי תיבה הן:
חציון (Q2): עבור קבוצת נתונים מסודרת של n אלמנטים,
x_{\frac{n+1}{2}} & \text{אם n אי זוגי} \\ \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) & \text{אם n זוגי} \end{cases} $$רבעון ראשון (Q1) ורבעון שלישי (Q3):
טווח בין רבעונים (IQR):
זקנים:
ערכים חריגים: כל נקודות נתונים שמתחת לזקן התחתון או מעל לזקן העליון.
המחשבון מבצע את הצעדים הבאים כדי ליצור את תרשים התיבה:
חשוב לציין שישנן שיטות שונות לחישוב רבעונים, במיוחד כאשר עובדים עם קבוצות נתונים שיש להן מספר זוגי של אלמנטים. השיטה המתוארת לעיל ידועה בשם "שיטה בלעדית", אך ניתן להשתמש גם בשיטות אחרות כמו "שיטה כוללת" או "חציון חצאים". הבחירה בשיטה יכולה להשפיע במעט על מיקום Q1 ו-Q3, במיוחד עבור קבוצות נתונים קטנות.
תרשים התיבה מספק מספר תובנות לגבי הנתונים:
תרשימי תיבה שימושיים בתחומים שונים, כולל:
סטטיסטיקה: להמחשת התפלגות והטיה של נתונים. לדוגמה, השוואת ציוני מבחנים בין בתי ספר או כיתות שונות.
ניתוח נתונים: זיהוי ערכים חריגים והשוואת התפלגויות. בעסקים, זה יכול לשמש לניתוח נתוני מכירות בין אזורים או תקופות שונות.
מחקר מדעי: הצגת תוצאות והשוואת קבוצות. לדוגמה, השוואת היעילות של טיפולים שונים במחקרים רפואיים.
בקרת איכות: מעקב אחר משתני תהליך וזיהוי אנומליות. בייצור, זה יכול לשמש למעקב אחר ממדי מוצרים ולהבטיח שהם נמצאים בטווחים מקובלים.
פיננסים: ניתוח תנועות מחירי מניות ומדדים פיננסיים אחרים. לדוגמה, השוואת ביצועי קרנות נאמנות שונות לאורך זמן.
מדע הסביבה: ניתוח והשוואת נתוני סביבה, כגון רמות זיהום או וריאציות בטמפרטורה בין מיקומים או תקופות שונות.
אנליטיקה ספורטיבית: השוואת נתוני ביצועים של שחקנים בין קבוצות או עונות.
בעוד שתרשימי תיבה הם כלים עוצמתיים להמחשת נתונים, ישנן מספר חלופות בהתאם לצרכים הספציפיים של הניתוח:
היסטוגרמות: שימושיות להראות את התפלגות התדירות של קבוצת נתונים. הן מספקות יותר פרטים על צורת ההתפלגות אך עשויות להיות פחות יעילות בהשוואת קבוצות נתונים מרובות.
תרשימי ויולין: משלבים את התכונות של תרשימי תיבה עם תרשימי צפיפות גרעינית, מראים את צפיפות ההסתברות של הנתונים בערכים שונים.
תרשימי פיזור: אידיאליים להראות את הקשר בין שני משתנים, דבר שתרשימי תיבה אינם יכולים לעשות.
תרשימי עמודות: מתאימים להשוואת ערכים בודדים בין קטגוריות שונות.
גרפים קוויים: יעילים להראות מגמות לאורך זמן, דבר שתרשימי תיבה אינם מצליחים לתפוס היטב.
מפות חום: שימושיות להמחשת קבוצות נתונים מורכבות עם משתנים מרובים.
הבחירה בין חלופות אלו תלויה בטבע הנתונים ובתובנות הספציפיות שברצונך להעביר.
תרשים התיבה הומצא על ידי ג'ון טוקי בשנת 1970 והופיע לראשונה בספרו "ניתוח נתונים חקרני" בשנת 1977. העיצוב המקורי של טוקי, שנקרא "תרשים סכמטי", הציג רק את החציון, הרבעונים והערכים הקיצוניים.
פיתוחים מרכזיים בהיסטוריה של תרשימי תיבה כוללים:
1978: מקגיל, טוקי ולרסן הציגו את תרשים התיבה המנוטה, שמוסיף רווחי ביטחון עבור החציון.
שנות ה-80: המושג "ערכים חריגים" בתרשימי תיבה הפך ליותר סטנדרטי, בדרך כלל מוגדר כנקודות מעבר ל-1.5 פעמים ה-IQR מהרבעונים.
שנות ה-90-2000: עם הופעת גרפיקה ממוחשבת, פותחו וריאציות כמו תרשימי תיבה ברוחב משתנה ותרשימי ויולין.
היום: תרשימי תיבה אינטראקטיביים ודינמיים הפכו לנפוצים בתוכנות להמחשת נתונים, המאפשרים למשתמשים לחקור את נקודות הנתונים הבסיסיות.
תרשימי תיבה עמדו במבחן הזמן בזכות הפשטות והיעילות שלהם בסיכום קבוצות נתונים מורכבות. הם ממשיכים להיות עמוד תווך בניתוח נתונים בתחומים רבים.
הנה דוגמאות כיצד ליצור תרשים תיבה בשפות תכנות שונות:
1=QUARTILE(A1:A100,1) ' Q1
2=MEDIAN(A1:A100) ' חציון
3=QUARTILE(A1:A100,3) ' Q3
4=MIN(A1:A100) ' מינימום
5=MAX(A1:A100) ' מקסימום
6
1## בהנחה ש-'data' הוא הווקטור שלך של מספרים
2boxplot(data)
3
1% בהנחה ש-'data' הוא הווקטור שלך של מספרים
2boxplot(data)
3
1// שימוש ב-D3.js
2var svg = d3.select("body").append("svg")
3 .attr("width", 400)
4 .attr("height", 300);
5
6var data = [/* מערך הנתונים שלך */];
7
8var boxplot = svg.append("g")
9 .datum(data)
10 .call(d3.boxplot());
11
1import matplotlib.pyplot as plt
2import numpy as np
3
4data = [/* מערך הנתונים שלך */]
5plt.boxplot(data)
6plt.show()
7
1import org.jfree.chart.ChartFactory;
2import org.jfree.chart.ChartPanel;
3import org.jfree.chart.JFreeChart;
4import org.jfree.data.statistics.DefaultBoxAndWhiskerCategoryDataset;
5
6DefaultBoxAndWhiskerCategoryDataset dataset = new DefaultBoxAndWhiskerCategoryDataset();
7dataset.add(Arrays.asList(/* הנתונים שלך */), "סדרה 1", "קטגוריה 1");
8
9JFreeChart chart = ChartFactory.createBoxAndWhiskerChart(
10 "תרשים תיבה", "קטגוריה", "ערך", dataset, true);
11
גלה עוד כלים שעשויים להיות שימושיים עבור זרימת העבודה שלך