Υπολογιστής Διαγράμματος Box και Whisker για Στατιστική Ανάλυση
Δημιουργήστε μια οπτική ανάλυση του συνόλου δεδομένων σας χρησιμοποιώντας ένα διάγραμμα box-and-whisker. Αυτό το εργαλείο υπολογίζει και εμφανίζει βασικά στατιστικά μέτρα, συμπεριλαμβανομένων των τεταρτημορίων, της διάμεσου και των εξωτερίων τιμών.
Υπολογιστής Διάγραμμα Κουτιού
Υπολογιστής Διάγραμμα Κουτιού
Τεκμηρίωση
Υπολογιστής Διαγράμματος Κουτιού
Εισαγωγή
Ένα διάγραμμα κουτιού, γνωστό και ως διάγραμμα κουτιού και μουστακιού, είναι ένας τυποποιημένος τρόπος παρουσίασης της κατανομής των δεδομένων βασισμένος σε μια πενταψήφια περίληψη: ελάχιστο, πρώτο τεταρτημόριο (Q1), διάμεσο, τρίτο τεταρτημόριο (Q3) και μέγιστο. Αυτός ο υπολογιστής σας επιτρέπει να δημιουργήσετε ένα διάγραμμα κουτιού από ένα δεδομένο σύνολο αριθμητικών δεδομένων, παρέχοντας ένα ισχυρό εργαλείο για την οπτικοποίηση και ανάλυση δεδομένων.
Πώς να Χρησιμοποιήσετε Αυτόν τον Υπολογιστή
- Εισάγετε τα δεδομένα σας ως μια λίστα αριθμών χωρισμένων με κόμμα ή κενό στο πεδίο εισόδου.
- Ο υπολογιστής θα υπολογίσει αυτόματα τις στατιστικές του διαγράμματος κουτιού και θα εμφανίσει τα αποτελέσματα.
- Μια οπτική αναπαράσταση του διαγράμματος κουτιού θα εμφανιστεί παρακάτω από τα αποτελέσματα.
- Μπορείτε να αντιγράψετε τα υπολογισμένα αποτελέσματα χρησιμοποιώντας το κουμπί "Αντιγραφή Αποτελέσματος".
Τύπος
Οι βασικοί τύποι που χρησιμοποιούνται στους υπολογισμούς του διαγράμματος κουτιού είναι:
-
Διάμεσος (Q2): Για ένα ταξινομημένο σύνολο δεδομένων n στοιχείων,
x_{\frac{n+1}{2}} & \text{αν n είναι περιττός} \\ \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) & \text{αν n είναι ζυγός} \end{cases} $$ -
Πρώτο Τεταρτημόριο (Q1) και Τρίτο Τεταρτημόριο (Q3):
-
Εύρος Διακυμάνσεων (IQR):
-
Μουστάκια:
-
Εκτός Εύρους: Οποιαδήποτε δεδομένα κάτω από το Κάτω Μουστάκι ή πάνω από το Άνω Μουστάκι.
Υπολογισμός
Ο υπολογιστής εκτελεί τα εξής βήματα για να δημιουργήσει το διάγραμμα κουτιού:
- Ταξινομεί τα εισερχόμενα δεδομένα σε αύξουσα σειρά.
- Υπολογίζει τη διάμεσο (Q2):
- Αν ο αριθμός των δεδομένων είναι περιττός, η διάμεσος είναι η μέση τιμή.
- Αν ο αριθμός των δεδομένων είναι ζυγός, η διάμεσος είναι ο μέσος όρος των δύο μέσων τιμών.
- Υπολογίζει το πρώτο τεταρτημόριο (Q1):
- Αυτή είναι η διάμεσος της κάτω σειράς των δεδομένων.
- Αν ο αριθμός των δεδομένων είναι περιττός, η διάμεσος δεν περιλαμβάνεται σε καμία από τις δύο σειρές.
- Υπολογίζει το τρίτο τεταρτημόριο (Q3):
- Αυτή είναι η διάμεσος της άνω σειράς των δεδομένων.
- Αν ο αριθμός των δεδομένων είναι περιττός, η διάμεσος δεν περιλαμβάνεται σε καμία από τις δύο σειρές.
- Υπολογίζει το εύρος διακυμάνσεων (IQR) = Q3 - Q1.
- Καθορίζει τα μουστάκια:
- Κάτω μουστάκι: Η μικρότερη τιμή που είναι μεγαλύτερη ή ίση με Q1 - 1.5 * IQR
- Άνω μουστάκι: Η μεγαλύτερη τιμή που είναι μικρότερη ή ίση με Q3 + 1.5 * IQR
- Αναγνωρίζει τις εκτός εύρους: Οποιαδήποτε δεδομένα κάτω από το κάτω μουστάκι ή πάνω από το άνω μουστάκι.
Είναι σημαντικό να σημειωθεί ότι υπάρχουν διάφορες μέθοδοι υπολογισμού των τεταρτημορίων, ιδιαίτερα όταν ασχολούμαστε με σύνολα δεδομένων που έχουν ζυγό αριθμό στοιχείων. Η μέθοδος που περιγράφεται παραπάνω είναι γνωστή ως η "εξαιρετική" μέθοδος, αλλά μπορούν επίσης να χρησιμοποιηθούν άλλες μέθοδοι όπως η "συμπεριληπτική" μέθοδος ή η "διάμεσος των διαμεσων". Η επιλογή της μεθόδου μπορεί να επηρεάσει ελαφρώς τη θέση των Q1 και Q3, ειδικά για μικρά σύνολα δεδομένων.
Ερμηνεία
- Το κουτί στο διάγραμμα αντιπροσωπεύει το εύρος διακυμάνσεων (IQR), με το κάτω μέρος του κουτιού να βρίσκεται στο Q1 και το πάνω μέρος του στο Q3.
- Η γραμμή μέσα στο κουτί αντιπροσωπεύει τη διάμεσο (Q2).
- Τα μουστάκια εκτείνονται από το κουτί προς τις ελάχιστες και μέγιστες τιμές, εξαιρώντας τις εκτός εύρους.
- Οι εκτός εύρους αναπαρίστανται ως μεμονωμένα σημεία πέρα από τα μουστάκια.
Το διάγραμμα κουτιού παρέχει πολλές πληροφορίες σχετικά με τα δεδομένα:
- Κεντρική τάση: Η διάμεσος δείχνει την κεντρική τιμή του συνόλου δεδομένων.
- Διακύμανση: Το IQR και η συνολική διάδοση από το ελάχιστο στο μέγιστο δείχνουν την διασπορά των δεδομένων.
- Σκορπιές: Αν η διάμεσος δεν είναι κεντραρισμένη μέσα στο κουτί, υποδηλώνει σκορπιές στα δεδομένα.
- Εκτός εύρους: Σημεία πέρα από τα μουστάκια επισημαίνουν πιθανά εκτός εύρους ή ακραίες τιμές.
Χρήσεις
Τα διαγράμματα κουτιού είναι χρήσιμα σε διάφορους τομείς, όπως:
-
Στατιστική: Για την οπτικοποίηση της κατανομής και των σκορπιών των δεδομένων. Για παράδειγμα, η σύγκριση βαθμών εξετάσεων σε διαφορετικά σχολεία ή τάξεις.
-
Ανάλυση Δεδομένων: Για την αναγνώριση εκτός εύρους και τη σύγκριση κατανομών. Στον επιχειρηματικό τομέα, θα μπορούσε να χρησιμοποιηθεί για την ανάλυση δεδομένων πωλήσεων σε διαφορετικές περιοχές ή χρονικές περιόδους.
-
Επιστημονική Έρευνα: Για την παρουσίαση αποτελεσμάτων και τη σύγκριση ομάδων. Για παράδειγμα, η σύγκριση της αποτελεσματικότητας διαφορετικών θεραπειών σε ιατρικές μελέτες.
-
Ποιοτικός Έλεγχος: Για την παρακολούθηση μεταβλητών διαδικασίας και την αναγνώριση ανωμαλιών. Στην παραγωγή, θα μπορούσε να χρησιμοποιηθεί για την παρακολούθηση των διαστάσεων προϊόντων και την εξασφάλιση ότι βρίσκονται εντός αποδεκτών ορίων.
-
Χρηματοοικονομικά: Για την ανάλυση κινήσεων τιμών μετοχών και άλλων χρηματοοικονομικών μετρήσεων. Για παράδειγμα, η σύγκριση της απόδοσης διαφορετικών αμοιβαίων κεφαλαίων με την πάροδο του χρόνου.
-
Περιβαλλοντική Επιστήμη: Για την ανάλυση και σύγκριση περιβαλλοντικών δεδομένων, όπως επίπεδα ρύπανσης ή διακυμάνσεις θερμοκρασίας σε διαφορετικές τοποθεσίες ή χρονικές περιόδους.
-
Ανάλυση Αθλητισμού: Για τη σύγκριση στατιστικών απόδοσης παικτών σε διαφορετικές ομάδες ή σεζόν.
Εναλλακτικές
Ενώ τα διαγράμματα κουτιού είναι ισχυρά εργαλεία για την οπτικοποίηση δεδομένων, υπάρχουν πολλές εναλλακτικές ανάλογα με τις συγκεκριμένες ανάγκες της ανάλυσης:
-
Ιστογράμματα: Χρήσιμα για την εμφάνιση της συχνότητας κατανομής ενός συνόλου δεδομένων. Παρέχουν περισσότερες λεπτομέρειες σχετικά με το σχήμα της κατανομής αλλά μπορεί να είναι λιγότερο αποτελεσματικά για τη σύγκριση πολλαπλών συνόλων δεδομένων.
-
Διάγραμμα Βιολονιού: Συνδυάζει τα χαρακτηριστικά των διαγραμμάτων κουτιού με γραφήματα πυκνότητας πυρήνα, δείχνοντας την πιθανότητα πυκνότητας των δεδομένων σε διαφορετικές τιμές.
-
Διαγράμματα Διασποράς: Ιδανικά για την εμφάνιση της σχέσης μεταξύ δύο μεταβλητών, την οποία τα διαγράμματα κουτιού δεν μπορούν να δείξουν.
-
Ραβδόγραμμα: Κατάλληλο για τη σύγκριση μεμονωμένων τιμών σε διαφορετικές κατηγορίες.
-
Γραφήματα Γραμμής: Αποτελεσματικά για την εμφάνιση τάσεων με την πάροδο του χρόνου, τις οποίες τα διαγράμματα κουτιού δεν καταγράφουν καλά.
-
Χάρτες Θερμότητας: Χρήσιμοι για την οπτικοποίηση σύνθετων συνόλων δεδομένων με πολλές μεταβλητές.
Η επιλογή μεταξύ αυτών των εναλλακτικών εξαρτάται από τη φύση των δεδομένων και τις συγκεκριμένες πληροφορίες που θέλει να μεταδώσει κάποιος.
Ιστορία
Το διάγραμμα κουτιού εφευρέθηκε από τον John Tukey το 1970 και εμφανίστηκε για πρώτη φορά στο βιβλίο του "Exploratory Data Analysis" το 1977. Ο αρχικός σχεδιασμός του Tukey, που ονομάζεται "σχηματικό διάγραμμα", παρουσίαζε μόνο τη διάμεσο, τα τεταρτημόρια και τις ακραίες τιμές.
Κύριες εξελίξεις στην ιστορία των διαγραμμάτων κουτιού περιλαμβάνουν:
-
1978: Οι McGill, Tukey και Larsen εισήγαγαν το διάγραμμα κουτιού με σχισμές, το οποίο προσθέτει διαστήματα εμπιστοσύνης για τη διάμεσο.
-
1980s: Η έννοια των "εκτός εύρους" στα διαγράμματα κουτιού έγινε πιο τυποποιημένη, συνήθως ορίζεται ως σημεία πέρα από 1.5 φορές το IQR από τα τεταρτημόρια.
-
1990s-2000s: Με την εμφάνιση των υπολογιστικών γραφικών, αναπτύχθηκαν παραλλαγές όπως τα διαγράμματα κουτιού μεταβλητού πλάτους και τα διαγράμματα βιολονιού.
-
Σήμερα: Διαδραστικά και δυναμικά διαγράμματα κουτιού έχουν γίνει κοινά σε λογισμικό οπτικοποίησης δεδομένων, επιτρέποντας στους χρήστες να εξερευνήσουν τα υποκείμενα δεδομένα.
Τα διαγράμματα κουτιού έχουν αντέξει στη δοκιμασία του χρόνου λόγω της απλότητας και της αποτελεσματικότητάς τους στην περίληψη σύνθετων συνόλων δεδομένων. Συνεχίζουν να είναι βασικό εργαλείο στην ανάλυση δεδομένων σε πολλούς τομείς.
Κωδικοί
Ακολουθούν παραδείγματα για το πώς να δημιουργήσετε ένα διάγραμμα κουτιού σε διάφορες γλώσσες προγραμματισμού:
1=QUARTILE(A1:A100,1) ' Q1
2=MEDIAN(A1:A100) ' Διάμεσος
3=QUARTILE(A1:A100,3) ' Q3
4=MIN(A1:A100) ' Ελάχιστο
5=MAX(A1:A100) ' Μέγιστο
6
1## Υποθέτοντας ότι το 'data' είναι το διάνυσμά σας με αριθμούς
2boxplot(data)
3
1% Υποθέτοντας ότι το 'data' είναι το διάνυσμά σας με αριθμούς
2boxplot(data)
3
1// Χρησιμοποιώντας το D3.js
2var svg = d3.select("body").append("svg")
3 .attr("width", 400)
4 .attr("height", 300);
5
6var data = [/* το πίνακά σας με δεδομένα */];
7
8var boxplot = svg.append("g")
9 .datum(data)
10 .call(d3.boxplot());
11
1import matplotlib.pyplot as plt
2import numpy as np
3
4data = [/* το πίνακά σας με δεδομένα */]
5plt.boxplot(data)
6plt.show()
7
1import org.jfree.chart.ChartFactory;
2import org.jfree.chart.ChartPanel;
3import org.jfree.chart.JFreeChart;
4import org.jfree.data.statistics.DefaultBoxAndWhiskerCategoryDataset;
5
6DefaultBoxAndWhiskerCategoryDataset dataset = new DefaultBoxAndWhiskerCategoryDataset();
7dataset.add(Arrays.asList(/* τα δεδομένα σας */), "Σειρά 1", "Κατηγορία 1");
8
9JFreeChart chart = ChartFactory.createBoxAndWhiskerChart(
10 "Διάγραμμα Κουτιού", "Κατηγορία", "Τιμή", dataset, true);
11
Αναφορές
- Tukey, J. W. (1977). Exploratory Data Analysis. Addison-Wesley.
- McGill, R., Tukey, J. W., & Larsen, W. A. (1978). Variations of Box Plots. The American Statistician, 32(1), 12-16.
- Williamson, D. F., Parker, R. A., & Kendrick, J. S. (1989). The box plot: a simple visual method to interpret data. Annals of internal medicine, 110(11), 916-921.
- Wickham, H., & Stryjewski, L. (2011). 40 years of boxplots. Τεχνική αναφορά, had.co.nz.
- Frigge, M., Hoaglin, D. C., & Iglewicz, B. (1989). Some Implementations of the Boxplot. The American Statistician, 43(1), 50-54.
Ανατροφοδότηση
Κάντε κλικ στο toast ανατροφοδότησης για να ξεκινήσετε να δίνετε ανατροφοδότηση για αυτό το εργαλείο
Σχετικά Εργαλεία
Ανακαλύψτε περισσότερα εργαλεία που μπορεί να είναι χρήσιμα για τη ροή εργασίας σας