מחשבון תרשים תיבה וזנב לניתוח נתונים חזותי
צור ניתוח חזותי של קבוצת הנתונים שלך באמצעות תרשים תיבה וזנב. כלי זה מחשב ומציג מדדים סטטיסטיים מרכזיים כולל רבעונים, חציון וחריגים.
מחשבון תרשים תיבה
מחשבון תרשים תיבה
תיעוד
מחשבון תרשימי תיבה
מבוא
תרשים תיבה, הידוע גם בשם תרשים תיבה וזקן, הוא דרך סטנדרטית להציג את התפלגות הנתונים על בסיס סיכום חמישה מספרים: מינימום, רבעון ראשון (Q1), חציון, רבעון שלישי (Q3) ומקסימום. מחשבון זה מאפשר לך ליצור תרשים תיבה מקבוצת נתונים מספריים נתונה, ומספק כלי עוצמתי להמחשת נתונים וניתוח.
כיצד להשתמש במחשבון זה
- הזן את הנתונים שלך כרשימה מופרדת בפסיקים או ברווחים של מספרים בשדה הקלט.
- המחשבון יחשב אוטומטית את הסטטיסטיקות של תרשימי התיבה ויציג את התוצאות.
- יופיע ייצוג חזותי של תרשים התיבה מתחת לתוצאות.
- תוכל להעתיק את התוצאות המחושבות באמצעות כפתור "העתק תוצאה".
נוסחה
הנוסחאות המרכזיות בהן נעשה שימוש בחישובי תרשימי תיבה הן:
-
חציון (Q2): עבור קבוצת נתונים מסודרת של n אלמנטים,
x_{\frac{n+1}{2}} & \text{אם n אי זוגי} \\ \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) & \text{אם n זוגי} \end{cases} $$ -
רבעון ראשון (Q1) ורבעון שלישי (Q3):
-
טווח בין רבעונים (IQR):
-
זקנים:
-
ערכים חריגים: כל נקודות נתונים שמתחת לזקן התחתון או מעל לזקן העליון.
חישוב
המחשבון מבצע את הצעדים הבאים כדי ליצור את תרשים התיבה:
- מיין את הנתונים שהוזנו בסדר עולה.
- חשב את החציון (Q2):
- אם מספר נקודות הנתונים הוא אי זוגי, החציון הוא הערך האמצעי.
- אם מספר נקודות הנתונים הוא זוגי, החציון הוא הממוצע של שני הערכים האמצעיים.
- חשב את הרבעון הראשון (Q1):
- זהו החציון של חצי התחתון של הנתונים.
- אם מספר נקודות הנתונים הוא אי זוגי, החציון אינו נכלל בחצי.
- חשב את הרבעון השלישי (Q3):
- זהו החציון של חצי העליון של הנתונים.
- אם מספר נקודות הנתונים הוא אי זוגי, החציון אינו נכלל בחצי.
- חשב את טווח בין הרבעונים (IQR) = Q3 - Q1.
- קבע את הזקנים:
- זקן תחתון: נקודת הנתונים הקטנה ביותר הגדולה או שווה ל-Q1 - 1.5 * IQR
- זקן עליון: נקודת הנתונים הגדולה ביותר קטנה או שווה ל-Q3 + 1.5 * IQR
- זיהוי ערכים חריגים: כל נקודות נתונים שמתחת לזקן התחתון או מעל לזקן העליון.
חשוב לציין שישנן שיטות שונות לחישוב רבעונים, במיוחד כאשר עובדים עם קבוצות נתונים שיש להן מספר זוגי של אלמנטים. השיטה המתוארת לעיל ידועה בשם "שיטה בלעדית", אך ניתן להשתמש גם בשיטות אחרות כמו "שיטה כוללת" או "חציון חצאים". הבחירה בשיטה יכולה להשפיע במעט על מיקום Q1 ו-Q3, במיוחד עבור קבוצות נתונים קטנות.
פרשנות
- התיבה בתרשים מייצגת את טווח הרבעונים (IQR), כאשר תחתית התיבה נמצאת ב-Q1 והחלק העליון ב-Q3.
- הקו בתוך התיבה מייצג את החציון (Q2).
- הזקנים מתארכים מהתיבה אל הערכים המינימליים והמקסימליים, למעט ערכים חריגים.
- ערכים חריגים מוצגים כנקודות נפרדות מעבר לזקנים.
תרשים התיבה מספק מספר תובנות לגבי הנתונים:
- נטייה מרכזית: החציון מראה את הערך המרכזי של קבוצת הנתונים.
- שונות: ה-IQR והפיזור הכולל מהמינימום למקסימום מראים את הפיזור של הנתונים.
- הטיית נתונים: אם החציון אינו ממוקם במרכז התיבה, זה מצביע על הטיה בנתונים.
- ערכים חריגים: נקודות מעבר לזקנים מדגישות ערכים חריגים או קיצוניים פוטנציאליים.
שימושים
תרשימי תיבה שימושיים בתחומים שונים, כולל:
-
סטטיסטיקה: להמחשת התפלגות והטיה של נתונים. לדוגמה, השוואת ציוני מבחנים בין בתי ספר או כיתות שונות.
-
ניתוח נתונים: זיהוי ערכים חריגים והשוואת התפלגויות. בעסקים, זה יכול לשמש לניתוח נתוני מכירות בין אזורים או תקופות שונות.
-
מחקר מדעי: הצגת תוצאות והשוואת קבוצות. לדוגמה, השוואת היעילות של טיפולים שונים במחקרים רפואיים.
-
בקרת איכות: מעקב אחר משתני תהליך וזיהוי אנומליות. בייצור, זה יכול לשמש למעקב אחר ממדי מוצרים ולהבטיח שהם נמצאים בטווחים מקובלים.
-
פיננסים: ניתוח תנועות מחירי מניות ומדדים פיננסיים אחרים. לדוגמה, השוואת ביצועי קרנות נאמנות שונות לאורך זמן.
-
מדע הסביבה: ניתוח והשוואת נתוני סביבה, כגון רמות זיהום או וריאציות בטמפרטורה בין מיקומים או תקופות שונות.
-
אנליטיקה ספורטיבית: השוואת נתוני ביצועים של שחקנים בין קבוצות או עונות.
חלופות
בעוד שתרשימי תיבה הם כלים עוצמתיים להמחשת נתונים, ישנן מספר חלופות בהתאם לצרכים הספציפיים של הניתוח:
-
היסטוגרמות: שימושיות להראות את התפלגות התדירות של קבוצת נתונים. הן מספקות יותר פרטים על צורת ההתפלגות אך עשויות להיות פחות יעילות בהשוואת קבוצות נתונים מרובות.
-
תרשימי ויולין: משלבים את התכונות של תרשימי תיבה עם תרשימי צפיפות גרעינית, מראים את צפיפות ההסתברות של הנתונים בערכים שונים.
-
תרשימי פיזור: אידיאליים להראות את הקשר בין שני משתנים, דבר שתרשימי תיבה אינם יכולים לעשות.
-
תרשימי עמודות: מתאימים להשוואת ערכים בודדים בין קטגוריות שונות.
-
גרפים קוויים: יעילים להראות מגמות לאורך זמן, דבר שתרשימי תיבה אינם מצליחים לתפוס היטב.
-
מפות חום: שימושיות להמחשת קבוצות נתונים מורכבות עם משתנים מרובים.
הבחירה בין חלופות אלו תלויה בטבע הנתונים ובתובנות הספציפיות שברצונך להעביר.
היסטוריה
תרשים התיבה הומצא על ידי ג'ון טוקי בשנת 1970 והופיע לראשונה בספרו "ניתוח נתונים חקרני" בשנת 1977. העיצוב המקורי של טוקי, שנקרא "תרשים סכמטי", הציג רק את החציון, הרבעונים והערכים הקיצוניים.
פיתוחים מרכזיים בהיסטוריה של תרשימי תיבה כוללים:
-
1978: מקגיל, טוקי ולרסן הציגו את תרשים התיבה המנוטה, שמוסיף רווחי ביטחון עבור החציון.
-
שנות ה-80: המושג "ערכים חריגים" בתרשימי תיבה הפך ליותר סטנדרטי, בדרך כלל מוגדר כנקודות מעבר ל-1.5 פעמים ה-IQR מהרבעונים.
-
שנות ה-90-2000: עם הופעת גרפיקה ממוחשבת, פותחו וריאציות כמו תרשימי תיבה ברוחב משתנה ותרשימי ויולין.
-
היום: תרשימי תיבה אינטראקטיביים ודינמיים הפכו לנפוצים בתוכנות להמחשת נתונים, המאפשרים למשתמשים לחקור את נקודות הנתונים הבסיסיות.
תרשימי תיבה עמדו במבחן הזמן בזכות הפשטות והיעילות שלהם בסיכום קבוצות נתונים מורכבות. הם ממשיכים להיות עמוד תווך בניתוח נתונים בתחומים רבים.
קטעי קוד
הנה דוגמאות כיצד ליצור תרשים תיבה בשפות תכנות שונות:
1=QUARTILE(A1:A100,1) ' Q1
2=MEDIAN(A1:A100) ' חציון
3=QUARTILE(A1:A100,3) ' Q3
4=MIN(A1:A100) ' מינימום
5=MAX(A1:A100) ' מקסימום
6
1## בהנחה ש-'data' הוא הווקטור שלך של מספרים
2boxplot(data)
3
1% בהנחה ש-'data' הוא הווקטור שלך של מספרים
2boxplot(data)
3
1// שימוש ב-D3.js
2var svg = d3.select("body").append("svg")
3 .attr("width", 400)
4 .attr("height", 300);
5
6var data = [/* מערך הנתונים שלך */];
7
8var boxplot = svg.append("g")
9 .datum(data)
10 .call(d3.boxplot());
11
1import matplotlib.pyplot as plt
2import numpy as np
3
4data = [/* מערך הנתונים שלך */]
5plt.boxplot(data)
6plt.show()
7
1import org.jfree.chart.ChartFactory;
2import org.jfree.chart.ChartPanel;
3import org.jfree.chart.JFreeChart;
4import org.jfree.data.statistics.DefaultBoxAndWhiskerCategoryDataset;
5
6DefaultBoxAndWhiskerCategoryDataset dataset = new DefaultBoxAndWhiskerCategoryDataset();
7dataset.add(Arrays.asList(/* הנתונים שלך */), "סדרה 1", "קטגוריה 1");
8
9JFreeChart chart = ChartFactory.createBoxAndWhiskerChart(
10 "תרשים תיבה", "קטגוריה", "ערך", dataset, true);
11
מקורות
- טוקי, ג'יי. וו. (1977). ניתוח נתונים חקרני. אדיסון-ווסלי.
- מקגיל, ר., טוקי, ג'יי. וו., ולרסן, וו. א. (1978). וריאציות של תרשימי תיבה. הסטטיסטיקאי האמריקאי, 32(1), 12-16.
- ויליאמסון, ד. פ., פרקר, ר. א., וקנדריק, ג. ס. (1989). תרשים תיבה: שיטה חזותית פשוטה לפרש נתונים. אנאלים של רפואה פנימית, 110(11), 916-921.
- ויקאם, ה., וסטריואסקי, ל. (2011). 40 שנה של תרשימי תיבה. דוח טכני, had.co.nz.
- פריגג, מ., הוגלין, ד. ס., ואיגלויץ, ב. (1989). כמה יישומים של תרשימי תיבה. הסטטיסטיקאי האמריקאי, 43(1), 50-54.
משוב
לחץ על טוסט המשוב כדי להתחיל לתת משוב על כלי זה
כלים קשורים
גלה עוד כלים שעשויים להיות מועילים עבור זרימת העבודה שלך