आपल्या डेटासेटचा दृश्यात्मक विश्लेषण तयार करण्यासाठी बॉक्स-आणि-व्हिस्कर प्लॉट वापरा. हा साधन महत्त्वपूर्ण सांख्यिकी मापे गणना करते आणि दर्शवते ज्यामध्ये क्वारटाइल, मध्यक आणि बाह्यांक समाविष्ट आहेत.
बॉक्स प्लॉट, ज्याला बॉक्स-आणि-व्हिस्कर प्लॉट देखील म्हणतात, हा डेटा वितरण प्रदर्शित करण्याचा एक मानक मार्ग आहे जो पाच-आकडा सारांशावर आधारित आहे: किमान, पहिला क्वारटाइल (Q1), मध्यक, तिसरा क्वारटाइल (Q3), आणि कमाल. हा कॅल्क्युलेटर तुम्हाला दिलेल्या संख्यात्मक डेटाच्या सेटमधून बॉक्स प्लॉट तयार करण्याची परवानगी देतो, डेटा दृश्यता आणि विश्लेषणासाठी एक शक्तिशाली साधन प्रदान करतो.
बॉक्स प्लॉट गणनांमध्ये वापरलेले मुख्य सूत्रे आहेत:
मध्यक (Q2): n घटकांच्या अनुक्रमित डेटासेटसाठी,
x_{\frac{n+1}{2}} & \text{जर n विषम असेल} \\ \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) & \text{जर n सम असेल} \end{cases} $$पहिला क्वारटाइल (Q1) आणि तिसरा क्वारटाइल (Q3):
इंटरक्वारटाइल रेंज (IQR):
व्हिस्कर्स:
आउट्लायर्स: खालील व्हिस्कर किंवा वरच्या व्हिस्करच्या बाहेर असलेले कोणतेही डेटा पॉइंट्स.
कॅल्क्युलेटर खालील चरणांचे पालन करून बॉक्स प्लॉट तयार करतो:
हे लक्षात घेणे महत्त्वाचे आहे की क्वारटाइल्सची गणना करण्यासाठी विविध पद्धती आहेत, विशेषतः सम संख्या असलेल्या डेटासेटसाठी. वरील वर्णन केलेली पद्धत "विशिष्ट" पद्धत म्हणून ओळखली जाते, परंतु "समावेशी" पद्धत किंवा "मध्यकांच्या मध्यांचा" पद्धत देखील वापरली जाऊ शकते. पद्धतीचा निवड Q1 आणि Q3 च्या स्थानावर थोडा परिणाम करू शकतो, विशेषतः लहान डेटासेटसाठी.
बॉक्स प्लॉट डेटा विषयी अनेक अंतर्दृष्टी प्रदान करतो:
बॉक्स प्लॉट विविध क्षेत्रांमध्ये उपयुक्त आहेत, जसे की:
सांख्यिकी: डेटा वितरण आणि वक्रतेचे दृश्य प्रदान करण्यासाठी. उदाहरणार्थ, विविध शाळा किंवा वर्गांमधील चाचणी गुणांची तुलना करणे.
डेटा विश्लेषण: आउट्लायर्सची ओळख करणे आणि वितरणांची तुलना करणे. व्यवसायात, विविध प्रदेशांतील किंवा कालावधीतील विक्री डेटा विश्लेषण करण्यासाठी वापरला जाऊ शकतो.
वैज्ञानिक संशोधन: परिणाम सादर करणे आणि गटांची तुलना करणे. उदाहरणार्थ, वैद्यकीय अभ्यासात विविध उपचारांच्या प्रभावीतेची तुलना करणे.
गुणवत्ता नियंत्रण: प्रक्रिया बदलांची देखरेख करणे आणि अनियमितता ओळखणे. उत्पादनात, उत्पादनाच्या परिमाणांचे ट्रॅकिंग करण्यासाठी आणि ते स्वीकार्य श्रेणीत आहेत की नाही हे सुनिश्चित करण्यासाठी वापरला जाऊ शकतो.
वित्त: स्टॉक किंमत चळवळी आणि इतर वित्तीय मेट्रिक्सचे विश्लेषण करणे. उदाहरणार्थ, विविध म्युच्युअल फंडांच्या कार्यप्रदर्शनाची तुलना करणे.
पर्यावरणीय विज्ञान: विविध स्थानांवर किंवा कालावधीत प्रदूषण स्तर किंवा तापमानातील बदल यासारख्या पर्यावरणीय डेटाचे विश्लेषण आणि तुलना करणे.
क्रीडा विश्लेषण: संघ किंवा हंगामांमधील खेळाडू कार्यप्रदर्शन आकडेवारीची तुलना करणे.
बॉक्स प्लॉट डेटा दृश्यता साठी शक्तिशाली साधने असले तरी, विश्लेषणाच्या विशिष्ट गरजांनुसार काही पर्याय उपलब्ध आहेत:
हिस्टोग्राम: डेटासेटच्या वारंवारता वितरण दर्शविण्यासाठी उपयुक्त. ते वितरणाच्या आकाराबद्दल अधिक तपशील प्रदान करतात, परंतु अनेक डेटासेटची तुलना करण्यासाठी कमी प्रभावी असू शकतात.
वायोलिन प्लॉट: बॉक्स प्लॉटच्या वैशिष्ट्यांना कर्नेल घनता प्लॉटसह एकत्रित करतात, विविध मूल्यांवर डेटा ची संभाव्यता घनता दर्शवितात.
स्कॅटर प्लॉट: दोन चलांमधील संबंध दर्शविण्यासाठी आदर्श, जे बॉक्स प्लॉट करू शकत नाहीत.
बार चार्ट: विविध श्रेणींमध्ये एकल मूल्यांची तुलना करण्यासाठी योग्य.
लाईन ग्राफ: वेळेत ट्रेंड दर्शविण्यासाठी प्रभावी, जे बॉक्स प्लॉट चांगले पकडत नाहीत.
हीटमॅप: अनेक चलांसह जटिल डेटासेटचे दृश्यता साठी उपयुक्त.
या पर्यायांमधील निवड डेटा च्या स्वरूपावर आणि व्यक्तीला दर्शवायच्या विशिष्ट अंतर्दृष्टीवर अवलंबून आहे.
बॉक्स प्लॉटचा शोध जॉन टुकीने 1970 मध्ये लावला आणि 1977 मध्ये "Exploratory Data Analysis" या पुस्तकात प्रथम दिसला. टुकीच्या मूळ डिझाइनला "स्कीमॅटिक प्लॉट" म्हणतात, ज्यामध्ये फक्त मध्यक, क्वारटाइल्स, आणि अत्यधिक मूल्ये दर्शविली जातात.
बॉक्स प्लॉटच्या इतिहासातील मुख्य विकासांमध्ये समाविष्ट आहे:
1978: मॅकगिल, टुकी, आणि लार्सन यांनी नॉटेड बॉक्स प्लॉटची ओळख करून दिली, ज्यामध्ये मध्यकासाठी विश्वासार्हता अंतर समाविष्ट आहे.
1980s: बॉक्स प्लॉटमध्ये "आउट्लायर्स" संकल्पना अधिक मानक बनली, सामान्यतः क्वारटाइल्सपासून 1.5 वेळा IQR च्या बाहेर असलेल्या बिंदू म्हणून परिभाषित केली जाते.
1990s-2000s: संगणक ग्राफिक्सच्या आगमनासह, बदलणारे रुंदी बॉक्स प्लॉट आणि वायोलिन प्लॉट्स विकसित केले गेले.
वर्तमान काळ: इंटरएक्टिव्ह आणि डायनॅमिक बॉक्स प्लॉट डेटा दृश्यता सॉफ्टवेअरमध्ये सामान्य झाले आहेत, ज्यामुळे वापरकर्त्यांना अंतर्गत डेटा पॉइंट्स अन्वेषण करण्याची परवानगी मिळते.
बॉक्स प्लॉट्स त्यांच्या साधेपणामुळे आणि जटिल डेटासेटचे सारांशित करण्याच्या कार्यक्षमतेमुळे काळाच्या कसोटीत टिकले आहेत. ते अनेक क्षेत्रांमध्ये डेटा विश्लेषणात एक मुख्य साधन म्हणून राहतात.
येथे विविध प्रोग्रामिंग भाषांमध्ये बॉक्स प्लॉट तयार करण्याचे उदाहरणे आहेत:
1=QUARTILE(A1:A100,1) ' Q1
2=MEDIAN(A1:A100) ' मध्यक
3=QUARTILE(A1:A100,3) ' Q3
4=MIN(A1:A100) ' किमान
5=MAX(A1:A100) ' कमाल
6
1## 'data' तुमचा संख्यांचा वेक्टर असल्यास
2boxplot(data)
3
1% 'data' तुमचा संख्यांचा वेक्टर असल्यास
2boxplot(data)
3
1// D3.js वापरताना
2var svg = d3.select("body").append("svg")
3 .attr("width", 400)
4 .attr("height", 300);
5
6var data = [/* तुमचा डेटा अरे */];
7
8var boxplot = svg.append("g")
9 .datum(data)
10 .call(d3.boxplot());
11
1import matplotlib.pyplot as plt
2import numpy as np
3
4data = [/* तुमचा डेटा अरे */]
5plt.boxplot(data)
6plt.show()
7
1import org.jfree.chart.ChartFactory;
2import org.jfree.chart.ChartPanel;
3import org.jfree.chart.JFreeChart;
4import org.jfree.data.statistics.DefaultBoxAndWhiskerCategoryDataset;
5
6DefaultBoxAndWhiskerCategoryDataset dataset = new DefaultBoxAndWhiskerCategoryDataset();
7dataset.add(Arrays.asList(/* तुमचा डेटा */), "सिरीज 1", "श्रेणी 1");
8
9JFreeChart chart = ChartFactory.createBoxAndWhiskerChart(
10 "बॉक्स प्लॉट", "श्रेणी", "मूल्य", dataset, true);
11
आपल्या कामच्या प्रक्रियेसाठी उपयुक्त असणारे अधिक उपकरण शोधा.