डेटा विश्लेषणासाठी बॉक्स प्लॉट कॅल्क्युलेटर साधन
आपल्या डेटासेटचा दृश्यात्मक विश्लेषण तयार करण्यासाठी बॉक्स-आणि-व्हिस्कर प्लॉट वापरा. हा साधन महत्त्वपूर्ण सांख्यिकी मापे गणना करते आणि दर्शवते ज्यामध्ये क्वारटाइल, मध्यक आणि बाह्यांक समाविष्ट आहेत.
बॉक्स प्लॉट कॅल्क्युलेटर
बॉक्स प्लॉट कॅल्क्युलेटर
दस्तऐवजीकरण
बॉक्स प्लॉट कॅल्क्युलेटर
परिचय
बॉक्स प्लॉट, ज्याला बॉक्स-आणि-व्हिस्कर प्लॉट देखील म्हणतात, हा डेटा वितरण प्रदर्शित करण्याचा एक मानक मार्ग आहे जो पाच-आकडा सारांशावर आधारित आहे: किमान, पहिला क्वारटाइल (Q1), मध्यक, तिसरा क्वारटाइल (Q3), आणि कमाल. हा कॅल्क्युलेटर तुम्हाला दिलेल्या संख्यात्मक डेटाच्या सेटमधून बॉक्स प्लॉट तयार करण्याची परवानगी देतो, डेटा दृश्यता आणि विश्लेषणासाठी एक शक्तिशाली साधन प्रदान करतो.
या कॅल्क्युलेटरचा वापर कसा करावा
- तुमचा डेटा इनपुट फील्डमध्ये संख्यांचा कोमा किंवा जागा-वेगळा सूची म्हणून प्रविष्ट करा.
- कॅल्क्युलेटर स्वयंचलितपणे बॉक्स प्लॉट आकडेवारीची गणना करेल आणि निकाल दर्शवेल.
- निकालांच्या खाली बॉक्स प्लॉटचे दृश्य प्रतिनिधित्व दर्शवले जाईल.
- तुम्ही "निकाल कॉपी करा" बटणाचा वापर करून गणना केलेले निकाल कॉपी करू शकता.
सूत्र
बॉक्स प्लॉट गणनांमध्ये वापरलेले मुख्य सूत्रे आहेत:
-
मध्यक (Q2): n घटकांच्या अनुक्रमित डेटासेटसाठी,
x_{\frac{n+1}{2}} & \text{जर n विषम असेल} \\ \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) & \text{जर n सम असेल} \end{cases} $$ -
पहिला क्वारटाइल (Q1) आणि तिसरा क्वारटाइल (Q3):
-
इंटरक्वारटाइल रेंज (IQR):
-
व्हिस्कर्स:
-
आउट्लायर्स: खालील व्हिस्कर किंवा वरच्या व्हिस्करच्या बाहेर असलेले कोणतेही डेटा पॉइंट्स.
गणना
कॅल्क्युलेटर खालील चरणांचे पालन करून बॉक्स प्लॉट तयार करतो:
- इनपुट डेटाला चढत्या क्रमात क्रमवारीत करा.
- मध्यक (Q2) गणना करा:
- जर डेटा पॉइंट्सची संख्या विषम असेल, तर मध्यक हा मध्यवर्ती मूल्य आहे.
- जर डेटा पॉइंट्सची संख्या सम असेल, तर मध्यक हा दोन मध्यवर्ती मूल्यांचा सरासरी आहे.
- पहिला क्वारटाइल (Q1) गणना करा:
- हा डेटा च्या खालच्या अर्ध्या भागाचा मध्यक आहे.
- जर डेटा पॉइंट्सची संख्या विषम असेल, तर मध्यक कोणत्याही अर्ध्या भागात समाविष्ट केले जात नाही.
- तिसरा क्वारटाइल (Q3) गणना करा:
- हा डेटा च्या वरच्या अर्ध्या भागाचा मध्यक आहे.
- जर डेटा पॉइंट्सची संख्या विषम असेल, तर मध्यक कोणत्याही अर्ध्या भागात समाविष्ट केले जात नाही.
- इंटरक्वारटाइल रेंज (IQR) गणना करा = Q3 - Q1.
- व्हिस्कर्स ठरवा:
- खालील व्हिस्कर: Q1 - 1.5 * IQR पेक्षा मोठा किंवा सम असलेला सर्वात लहान डेटा पॉइंट.
- वरचा व्हिस्कर: Q3 + 1.5 * IQR पेक्षा लहान किंवा सम असलेला सर्वात मोठा डेटा पॉइंट.
- आउट्लायर्स ओळखा: खालील व्हिस्कर किंवा वरच्या व्हिस्करच्या बाहेर असलेले कोणतेही डेटा पॉइंट्स.
हे लक्षात घेणे महत्त्वाचे आहे की क्वारटाइल्सची गणना करण्यासाठी विविध पद्धती आहेत, विशेषतः सम संख्या असलेल्या डेटासेटसाठी. वरील वर्णन केलेली पद्धत "विशिष्ट" पद्धत म्हणून ओळखली जाते, परंतु "समावेशी" पद्धत किंवा "मध्यकांच्या मध्यांचा" पद्धत देखील वापरली जाऊ शकते. पद्धतीचा निवड Q1 आणि Q3 च्या स्थानावर थोडा परिणाम करू शकतो, विशेषतः लहान डेटासेटसाठी.
अर्थ लावणे
- प्लॉटमधील बॉक्स इंटरक्वारटाइल रेंज (IQR) दर्शवतो, ज्यामध्ये बॉक्सचा तळ Q1 वर आणि शीर्ष Q3 वर आहे.
- बॉक्सच्या आतली रेषा मध्यक (Q2) दर्शवते.
- व्हिस्कर्स बॉक्सपासून किमान आणि कमाल मूल्यांपर्यंत विस्तारित होतात, आउट्लायर्स वगळता.
- आउट्लायर्स व्हिस्कर्सच्या बाहेर स्वतंत्र बिंदू म्हणून प्लॉट केले जातात.
बॉक्स प्लॉट डेटा विषयी अनेक अंतर्दृष्टी प्रदान करतो:
- केंद्रीय प्रवृत्ती: मध्यक डेटा सेटचा केंद्रीय मूल्य दर्शवतो.
- विविधता: IQR आणि किमान ते कमालपर्यंतचा एकूण प्रसार डेटा च्या प्रसाराचे प्रदर्शन करतो.
- वक्रता: जर मध्यक बॉक्समध्ये केंद्रीत नसेल, तर ते डेटा मध्ये वक्रतेचे संकेत देते.
- आउट्लायर्स: व्हिस्कर्सच्या बाहेर असलेले बिंदू संभाव्य आउट्लायर्स किंवा अत्यधिक मूल्ये हायलाइट करतात.
वापराचे प्रकरणे
बॉक्स प्लॉट विविध क्षेत्रांमध्ये उपयुक्त आहेत, जसे की:
-
सांख्यिकी: डेटा वितरण आणि वक्रतेचे दृश्य प्रदान करण्यासाठी. उदाहरणार्थ, विविध शाळा किंवा वर्गांमधील चाचणी गुणांची तुलना करणे.
-
डेटा विश्लेषण: आउट्लायर्सची ओळख करणे आणि वितरणांची तुलना करणे. व्यवसायात, विविध प्रदेशांतील किंवा कालावधीतील विक्री डेटा विश्लेषण करण्यासाठी वापरला जाऊ शकतो.
-
वैज्ञानिक संशोधन: परिणाम सादर करणे आणि गटांची तुलना करणे. उदाहरणार्थ, वैद्यकीय अभ्यासात विविध उपचारांच्या प्रभावीतेची तुलना करणे.
-
गुणवत्ता नियंत्रण: प्रक्रिया बदलांची देखरेख करणे आणि अनियमितता ओळखणे. उत्पादनात, उत्पादनाच्या परिमाणांचे ट्रॅकिंग करण्यासाठी आणि ते स्वीकार्य श्रेणीत आहेत की नाही हे सुनिश्चित करण्यासाठी वापरला जाऊ शकतो.
-
वित्त: स्टॉक किंमत चळवळी आणि इतर वित्तीय मेट्रिक्सचे विश्लेषण करणे. उदाहरणार्थ, विविध म्युच्युअल फंडांच्या कार्यप्रदर्शनाची तुलना करणे.
-
पर्यावरणीय विज्ञान: विविध स्थानांवर किंवा कालावधीत प्रदूषण स्तर किंवा तापमानातील बदल यासारख्या पर्यावरणीय डेटाचे विश्लेषण आणि तुलना करणे.
-
क्रीडा विश्लेषण: संघ किंवा हंगामांमधील खेळाडू कार्यप्रदर्शन आकडेवारीची तुलना करणे.
पर्याय
बॉक्स प्लॉट डेटा दृश्यता साठी शक्तिशाली साधने असले तरी, विश्लेषणाच्या विशिष्ट गरजांनुसार काही पर्याय उपलब्ध आहेत:
-
हिस्टोग्राम: डेटासेटच्या वारंवारता वितरण दर्शविण्यासाठी उपयुक्त. ते वितरणाच्या आकाराबद्दल अधिक तपशील प्रदान करतात, परंतु अनेक डेटासेटची तुलना करण्यासाठी कमी प्रभावी असू शकतात.
-
वायोलिन प्लॉट: बॉक्स प्लॉटच्या वैशिष्ट्यांना कर्नेल घनता प्लॉटसह एकत्रित करतात, विविध मूल्यांवर डेटा ची संभाव्यता घनता दर्शवितात.
-
स्कॅटर प्लॉट: दोन चलांमधील संबंध दर्शविण्यासाठी आदर्श, जे बॉक्स प्लॉट करू शकत नाहीत.
-
बार चार्ट: विविध श्रेणींमध्ये एकल मूल्यांची तुलना करण्यासाठी योग्य.
-
लाईन ग्राफ: वेळेत ट्रेंड दर्शविण्यासाठी प्रभावी, जे बॉक्स प्लॉट चांगले पकडत नाहीत.
-
हीटमॅप: अनेक चलांसह जटिल डेटासेटचे दृश्यता साठी उपयुक्त.
या पर्यायांमधील निवड डेटा च्या स्वरूपावर आणि व्यक्तीला दर्शवायच्या विशिष्ट अंतर्दृष्टीवर अवलंबून आहे.
इतिहास
बॉक्स प्लॉटचा शोध जॉन टुकीने 1970 मध्ये लावला आणि 1977 मध्ये "Exploratory Data Analysis" या पुस्तकात प्रथम दिसला. टुकीच्या मूळ डिझाइनला "स्कीमॅटिक प्लॉट" म्हणतात, ज्यामध्ये फक्त मध्यक, क्वारटाइल्स, आणि अत्यधिक मूल्ये दर्शविली जातात.
बॉक्स प्लॉटच्या इतिहासातील मुख्य विकासांमध्ये समाविष्ट आहे:
-
1978: मॅकगिल, टुकी, आणि लार्सन यांनी नॉटेड बॉक्स प्लॉटची ओळख करून दिली, ज्यामध्ये मध्यकासाठी विश्वासार्हता अंतर समाविष्ट आहे.
-
1980s: बॉक्स प्लॉटमध्ये "आउट्लायर्स" संकल्पना अधिक मानक बनली, सामान्यतः क्वारटाइल्सपासून 1.5 वेळा IQR च्या बाहेर असलेल्या बिंदू म्हणून परिभाषित केली जाते.
-
1990s-2000s: संगणक ग्राफिक्सच्या आगमनासह, बदलणारे रुंदी बॉक्स प्लॉट आणि वायोलिन प्लॉट्स विकसित केले गेले.
-
वर्तमान काळ: इंटरएक्टिव्ह आणि डायनॅमिक बॉक्स प्लॉट डेटा दृश्यता सॉफ्टवेअरमध्ये सामान्य झाले आहेत, ज्यामुळे वापरकर्त्यांना अंतर्गत डेटा पॉइंट्स अन्वेषण करण्याची परवानगी मिळते.
बॉक्स प्लॉट्स त्यांच्या साधेपणामुळे आणि जटिल डेटासेटचे सारांशित करण्याच्या कार्यक्षमतेमुळे काळाच्या कसोटीत टिकले आहेत. ते अनेक क्षेत्रांमध्ये डेटा विश्लेषणात एक मुख्य साधन म्हणून राहतात.
कोड स्निप्पेट्स
येथे विविध प्रोग्रामिंग भाषांमध्ये बॉक्स प्लॉट तयार करण्याचे उदाहरणे आहेत:
1=QUARTILE(A1:A100,1) ' Q1
2=MEDIAN(A1:A100) ' मध्यक
3=QUARTILE(A1:A100,3) ' Q3
4=MIN(A1:A100) ' किमान
5=MAX(A1:A100) ' कमाल
6
1## 'data' तुमचा संख्यांचा वेक्टर असल्यास
2boxplot(data)
3
1% 'data' तुमचा संख्यांचा वेक्टर असल्यास
2boxplot(data)
3
1// D3.js वापरताना
2var svg = d3.select("body").append("svg")
3 .attr("width", 400)
4 .attr("height", 300);
5
6var data = [/* तुमचा डेटा अरे */];
7
8var boxplot = svg.append("g")
9 .datum(data)
10 .call(d3.boxplot());
11
1import matplotlib.pyplot as plt
2import numpy as np
3
4data = [/* तुमचा डेटा अरे */]
5plt.boxplot(data)
6plt.show()
7
1import org.jfree.chart.ChartFactory;
2import org.jfree.chart.ChartPanel;
3import org.jfree.chart.JFreeChart;
4import org.jfree.data.statistics.DefaultBoxAndWhiskerCategoryDataset;
5
6DefaultBoxAndWhiskerCategoryDataset dataset = new DefaultBoxAndWhiskerCategoryDataset();
7dataset.add(Arrays.asList(/* तुमचा डेटा */), "सिरीज 1", "श्रेणी 1");
8
9JFreeChart chart = ChartFactory.createBoxAndWhiskerChart(
10 "बॉक्स प्लॉट", "श्रेणी", "मूल्य", dataset, true);
11
संदर्भ
- टुकी, जे. डब्ल्यू. (1977). Exploratory Data Analysis. अॅडिसन-वेस्ली.
- मॅकगिल, आर., टुकी, जे. डब्ल्यू., & लार्सन, डब्ल्यू. ए. (1978). Variations of Box Plots. द अमेरिकन स्टॅटिस्टिशियन, 32(1), 12-16.
- विल्यमसन, डी. एफ., पार्कर, आर. ए., & केंड्रिक, जे. एस. (1989). The box plot: a simple visual method to interpret data. अॅनल्स ऑफ इंटरनल मेडिसिन, 110(11), 916-921.
- विकहॅम, एच., & स्ट्रिजेव्स्की, एल. (2011). 40 years of boxplots. तांत्रिक अहवाल, had.co.nz.
- फ्रिग्ज, एम., होग्लिन, डी. सी., & इग्लेव्हिज, बी. (1989). Some Implementations of the Boxplot. द अमेरिकन स्टॅटिस्टिशियन, 43(1), 50-54.
प्रतिसाद
या साधनाबद्दल प्रतिसाद देण्यासाठी प्रतिसाद टॉस्टवर क्लिक करा
संबंधित साधने
तुमच्या कार्यप्रवाहासाठी उपयुक्त असलेल्या अधिक साधनांचा शोध घ्या