डेटा सेट का विश्लेषण: बॉक्स और व्हिस्कर प्लॉट कैलकुलेटर
अपने डेटा सेट का दृश्य विश्लेषण उत्पन्न करें एक बॉक्स-और-व्हिस्कर प्लॉट का उपयोग करके। यह उपकरण प्रमुख सांख्यिकीय मापों की गणना और प्रदर्शन करता है, जिसमें क्वारटाइल, माध्यिका, और बाहरी मान शामिल हैं।
बॉक्स प्लॉट कैलकुलेटर
बॉक्स प्लॉट कैलकुलेटर
दस्तावेज़ीकरण
बॉक्स प्लॉट कैलकुलेटर
परिचय
बॉक्स प्लॉट, जिसे बॉक्स-एंड-व्हिस्कर प्लॉट भी कहा जाता है, डेटा के वितरण को प्रदर्शित करने का एक मानकीकृत तरीका है जो पांच-संख्यात्मक सारांश पर आधारित होता है: न्यूनतम, पहला क्वारटाइल (Q1), माध्यिका, तीसरा क्वारटाइल (Q3), और अधिकतम। यह कैलकुलेटर आपको दिए गए संख्यात्मक डेटा के सेट से एक बॉक्स प्लॉट उत्पन्न करने की अनुमति देता है, जो डेटा दृश्यता और विश्लेषण के लिए एक शक्तिशाली उपकरण प्रदान करता है।
इस कैलकुलेटर का उपयोग कैसे करें
- इनपुट फ़ील्ड में संख्याओं की एक कॉमा या स्पेस से अलग की गई सूची के रूप में अपना डेटा दर्ज करें।
- कैलकुलेटर स्वचालित रूप से बॉक्स प्लॉट सांख्यिकी की गणना करेगा और परिणाम प्रदर्शित करेगा।
- परिणामों के नीचे बॉक्स प्लॉट का एक दृश्य प्रतिनिधित्व दिखाया जाएगा।
- आप "कॉपी परिणाम" बटन का उपयोग करके गणना किए गए परिणामों को कॉपी कर सकते हैं।
सूत्र
बॉक्स प्लॉट गणनाओं में उपयोग किए जाने वाले मुख्य सूत्र हैं:
-
माध्यिका (Q2): n तत्वों के क्रमबद्ध डेटा सेट के लिए,
x_{\frac{n+1}{2}} & \text{यदि n विषम है} \\ \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) & \text{यदि n सम है} \end{cases} $$ -
पहला क्वारटाइल (Q1) और तीसरा क्वारटाइल (Q3):
-
अंतरक्वारटाइल रेंज (IQR):
-
व्हिस्कर:
-
आउट्लायर्स: कोई भी डेटा बिंदु जो निचले व्हिस्कर से नीचे या ऊपरी व्हिस्कर से ऊपर है।
गणना
कैलकुलेटर बॉक्स प्लॉट उत्पन्न करने के लिए निम्नलिखित चरणों का पालन करता है:
- इनपुट डेटा को आरोही क्रम में क्रमबद्ध करें।
- माध्यिका (Q2) की गणना करें:
- यदि डेटा बिंदुओं की संख्या विषम है, तो माध्यिका मध्य मान है।
- यदि डेटा बिंदुओं की संख्या सम है, तो माध्यिका दो मध्य मानों का औसत है।
- पहले क्वारटाइल (Q1) की गणना करें:
- यह डेटा के निचले आधे का माध्यिका है।
- यदि डेटा बिंदुओं की संख्या विषम है, तो माध्यिका को किसी भी आधे में शामिल नहीं किया जाता है।
- तीसरे क्वारटाइल (Q3) की गणना करें:
- यह डेटा के ऊपरी आधे का माध्यिका है।
- यदि डेटा बिंदुओं की संख्या विषम है, तो माध्यिका को किसी भी आधे में शामिल नहीं किया जाता है।
- अंतरक्वारटाइल रेंज (IQR) की गणना करें = Q3 - Q1।
- व्हिस्कर निर्धारित करें:
- निचला व्हिस्कर: सबसे छोटा डेटा बिंदु जो Q1 - 1.5 * IQR के बराबर या उससे बड़ा है
- ऊपरी व्हिस्कर: सबसे बड़ा डेटा बिंदु जो Q3 + 1.5 * IQR के बराबर या उससे छोटा है
- आउट्लायर्स की पहचान करें: कोई भी डेटा बिंदु जो निचले व्हिस्कर से नीचे या ऊपरी व्हिस्कर से ऊपर है।
यह ध्यान रखना महत्वपूर्ण है कि क्वारटाइल की गणना के लिए विभिन्न तरीके हैं, विशेष रूप से जब सम संख्या के तत्वों वाले डेटा सेट से निपटते हैं। ऊपर वर्णित विधि को "विशेष" विधि के रूप में जाना जाता है, लेकिन "समावेशी" विधि या "माध्यिका के माध्यिका" विधि जैसे अन्य तरीकों का भी उपयोग किया जा सकता है। विधि का चयन Q1 और Q3 की स्थिति को थोड़ा प्रभावित कर सकता है, विशेष रूप से छोटे डेटा सेट के लिए।
व्याख्या
- प्लॉट में बॉक्स अंतरक्वारटाइल रेंज (IQR) का प्रतिनिधित्व करता है, जिसमें बॉक्स का नीचे का भाग Q1 पर और ऊपर का भाग Q3 पर होता है।
- बॉक्स के अंदर की रेखा माध्यिका (Q2) का प्रतिनिधित्व करती है।
- व्हिस्कर बॉक्स से न्यूनतम और अधिकतम मानों तक बढ़ते हैं, आउट्लायर्स को छोड़कर।
- आउट्लायर्स को व्हिस्कर के पार व्यक्तिगत बिंदुओं के रूप में चित्रित किया जाता है।
बॉक्स प्लॉट डेटा के बारे में कई अंतर्दृष्टियाँ प्रदान करता है:
- केंद्रीय प्रवृत्ति: माध्यिका डेटा सेट का केंद्रीय मान दिखाती है।
- विविधता: IQR और न्यूनतम से अधिकतम तक का कुल फैलाव डेटा के प्रसार को दिखाता है।
- झुकाव: यदि माध्यिका बॉक्स के भीतर केंद्रित नहीं है, तो यह डेटा में झुकाव को इंगित करता है।
- आउट्लायर्स: व्हिस्कर के पार बिंदु संभावित आउट्लायर्स या चरम मानों को उजागर करते हैं।
उपयोग के मामले
बॉक्स प्लॉट विभिन्न क्षेत्रों में उपयोगी होते हैं, जैसे:
-
सांख्यिकी: डेटा के वितरण और झुकाव को दृश्य रूप में प्रदर्शित करने के लिए। उदाहरण के लिए, विभिन्न स्कूलों या कक्षाओं में परीक्षा के स्कोर की तुलना करना।
-
डेटा विश्लेषण: आउट्लायर्स की पहचान करना और वितरण की तुलना करना। व्यवसाय में, इसका उपयोग विभिन्न क्षेत्रों या समय अवधियों में बिक्री डेटा का विश्लेषण करने के लिए किया जा सकता है।
-
वैज्ञानिक अनुसंधान: परिणाम प्रस्तुत करना और समूहों की तुलना करना। उदाहरण के लिए, चिकित्सा अध्ययनों में विभिन्न उपचारों की प्रभावशीलता की तुलना करना।
-
गुणवत्ता नियंत्रण: प्रक्रिया के चर की निगरानी करना और विसंगतियों की पहचान करना। निर्माण में, इसका उपयोग उत्पाद के आयामों को ट्रैक करने और यह सुनिश्चित करने के लिए किया जा सकता है कि वे स्वीकार्य रेंज में हों।
-
वित्त: स्टॉक मूल्य आंदोलनों और अन्य वित्तीय मैट्रिक्स का विश्लेषण करना। उदाहरण के लिए, समय के साथ विभिन्न म्यूचुअल फंडों के प्रदर्शन की तुलना करना।
-
पर्यावरण विज्ञान: विभिन्न स्थानों या समय अवधियों में प्रदूषण स्तरों या तापमान के उतार-चढ़ाव जैसे पर्यावरणीय डेटा का विश्लेषण और तुलना करना।
-
खेल विश्लेषण: टीमों या सत्रों के बीच खिलाड़ी के प्रदर्शन सांख्यिकी की तुलना करना।
विकल्प
हालांकि बॉक्स प्लॉट डेटा दृश्यता के लिए शक्तिशाली उपकरण हैं, विश्लेषण की विशिष्ट आवश्यकताओं के आधार पर कई विकल्प हैं:
-
हिस्टोग्राम: डेटा सेट के आवृत्ति वितरण को दिखाने के लिए उपयोगी। वे वितरण के आकार के बारे में अधिक विवरण प्रदान करते हैं लेकिन कई डेटा सेट की तुलना करने के लिए कम प्रभावी हो सकते हैं।
-
वायलिन प्लॉट: बॉक्स प्लॉट की विशेषताओं को कर्नेल घनत्व प्लॉट के साथ मिलाते हैं, विभिन्न मानों पर डेटा की संभाव्यता घनत्व को दिखाते हैं।
-
स्कैटर प्लॉट: दो चर के बीच संबंध दिखाने के लिए आदर्श, जो बॉक्स प्लॉट नहीं कर सकते।
-
बार चार्ट: विभिन्न श्रेणियों में एकल मानों की तुलना करने के लिए उपयुक्त।
-
लाइन ग्राफ: समय के साथ प्रवृत्तियों को दिखाने के लिए प्रभावी, जो बॉक्स प्लॉट अच्छी तरह से नहीं पकड़ते।
-
हीटमैप: कई चर वाले जटिल डेटा सेट को दृश्य रूप में प्रस्तुत करने के लिए उपयोगी।
इन विकल्पों के बीच चयन डेटा के स्वभाव और उन विशिष्ट अंतर्दृष्टियों पर निर्भर करता है जो एक व्यक्त करना चाहता है।
इतिहास
बॉक्स प्लॉट का आविष्कार जॉन टुकी ने 1970 में किया और यह पहली बार 1977 में उनकी पुस्तक "एक्सप्लोरेटरी डेटा एनालिसिस" में दिखाई दिया। टुकी की मूल डिज़ाइन, जिसे "स्कीमैटिक प्लॉट" कहा जाता था, केवल माध्यिका, क्वारटाइल और चरम मानों को प्रदर्शित करती थी।
बॉक्स प्लॉट के इतिहास में प्रमुख विकास में शामिल हैं:
-
1978: मैकगिल, टुकी, और लार्सन ने नॉटेड बॉक्स प्लॉट पेश किया, जो माध्यिका के लिए विश्वास अंतराल जोड़ता है।
-
1980 के दशक: बॉक्स प्लॉट में "आउट्लायर्स" की अवधारणा अधिक मानकीकृत हो गई, आमतौर पर इसे क्वारटाइल से 1.5 गुना IQR के पार के बिंदुओं के रूप में परिभाषित किया जाता है।
-
1990 के दशक-2000 के दशक: कंप्यूटर ग्राफिक्स के आगमन के साथ, परिवर्तनीय चौड़ाई बॉक्स प्लॉट और वायलिन प्लॉट जैसी विविधताएँ विकसित की गईं।
-
वर्तमान दिन: इंटरैक्टिव और गतिशील बॉक्स प्लॉट डेटा दृश्यता सॉफ़्टवेयर में सामान्य हो गए हैं, जो उपयोगकर्ताओं को अंतर्निहित डेटा बिंदुओं का अन्वेषण करने की अनुमति देते हैं।
बॉक्स प्लॉट ने अपनी सरलता और जटिल डेटा सेट को संक्षेप में प्रस्तुत करने की प्रभावशीलता के कारण समय की कसौटी पर खरा उतरने का कार्य किया है। वे कई क्षेत्रों में डेटा विश्लेषण में एक मुख्यधारा बने हुए हैं।
कोड स्निप्पेट्स
यहां विभिन्न प्रोग्रामिंग भाषाओं में बॉक्स प्लॉट बनाने के उदाहरण दिए गए हैं:
1=QUARTILE(A1:A100,1) ' Q1
2=MEDIAN(A1:A100) ' माध्यिका
3=QUARTILE(A1:A100,3) ' Q3
4=MIN(A1:A100) ' न्यूनतम
5=MAX(A1:A100) ' अधिकतम
6
1## मान लें कि 'data' आपका नंबरों का वेक्टर है
2boxplot(data)
3
1% मान लें कि 'data' आपका नंबरों का वेक्टर है
2boxplot(data)
3
1// D3.js का उपयोग करते हुए
2var svg = d3.select("body").append("svg")
3 .attr("width", 400)
4 .attr("height", 300);
5
6var data = [/* आपका डेटा एरे */];
7
8var boxplot = svg.append("g")
9 .datum(data)
10 .call(d3.boxplot());
11
1import matplotlib.pyplot as plt
2import numpy as np
3
4data = [/* आपका डेटा एरे */]
5plt.boxplot(data)
6plt.show()
7
1import org.jfree.chart.ChartFactory;
2import org.jfree.chart.ChartPanel;
3import org.jfree.chart.JFreeChart;
4import org.jfree.data.statistics.DefaultBoxAndWhiskerCategoryDataset;
5
6DefaultBoxAndWhiskerCategoryDataset dataset = new DefaultBoxAndWhiskerCategoryDataset();
7dataset.add(Arrays.asList(/* आपका डेटा */), "श्रृंखला 1", "श्रेणी 1");
8
9JFreeChart chart = ChartFactory.createBoxAndWhiskerChart(
10 "बॉक्स प्लॉट", "श्रेणी", "मान", dataset, true);
11
संदर्भ
- टुकी, जे. डब्ल्यू. (1977). एक्सप्लोरेटरी डेटा एनालिसिस. एडिसन-वेस्ली।
- मैकगिल, आर., टुकी, जे. डब्ल्यू., & लार्सन, डब्ल्यू. ए. (1978). बॉक्स प्लॉट के विविधताएँ. द अमेरिकन स्टैटिस्टिशियन, 32(1), 12-16।
- विलियमसन, डी. एफ., पार्कर, आर. ए., & केंड्रिक, जे. एस. (1989). बॉक्स प्लॉट: डेटा की व्याख्या करने के लिए एक सरल दृश्य विधि. एनल्स ऑफ इंटरनल मेडिसिन, 110(11), 916-921।
- विकहम, एच., & स्ट्रिजेव्स्की, एल. (2011). बॉक्सप्लॉट का 40 साल. तकनीकी रिपोर्ट, had.co.nz।
- फ्रिगगे, एम., होग्लिन, डी. सी., & इग्लेविज़, बी. (1989). बॉक्सप्लॉट के कुछ कार्यान्वयन. द अमेरिकन स्टैटिस्टिशियन, 43(1), 50-54।
प्रतिक्रिया
इस उपकरण के बारे में प्रतिक्रिया देने के लिए प्रतिक्रिया टोस्ट पर क्लिक करें
संबंधित उपकरण
अधिक उपकरणों का पता लगाएँ जो आपके कार्यप्रवाह के लिए उपयोगी हो सकते हैं