🛠️

Whiz Tools

Build • Create • Innovate

डेटा विश्लेषणासाठी बॉक्स प्लॉट कॅल्क्युलेटर साधन

आपल्या डेटासेटचा दृश्यात्मक विश्लेषण तयार करण्यासाठी बॉक्स-आणि-व्हिस्कर प्लॉट वापरा. हा साधन महत्त्वपूर्ण सांख्यिकी मापे गणना करते आणि दर्शवते ज्यामध्ये क्वारटाइल, मध्यक आणि बाह्यांक समाविष्ट आहेत.

बॉक्स प्लॉट कॅल्क्युलेटर

बॉक्स प्लॉट कॅल्क्युलेटर

📚

दस्तऐवजीकरण

बॉक्स प्लॉट कॅल्क्युलेटर

परिचय

बॉक्स प्लॉट, ज्याला बॉक्स-आणि-व्हिस्कर प्लॉट देखील म्हणतात, हा डेटा वितरण प्रदर्शित करण्याचा एक मानक मार्ग आहे जो पाच-आकडा सारांशावर आधारित आहे: किमान, पहिला क्वारटाइल (Q1), मध्यक, तिसरा क्वारटाइल (Q3), आणि कमाल. हा कॅल्क्युलेटर तुम्हाला दिलेल्या संख्यात्मक डेटाच्या सेटमधून बॉक्स प्लॉट तयार करण्याची परवानगी देतो, डेटा दृश्यता आणि विश्लेषणासाठी एक शक्तिशाली साधन प्रदान करतो.

या कॅल्क्युलेटरचा वापर कसा करावा

  1. तुमचा डेटा इनपुट फील्डमध्ये संख्यांचा कोमा किंवा जागा-वेगळा सूची म्हणून प्रविष्ट करा.
  2. कॅल्क्युलेटर स्वयंचलितपणे बॉक्स प्लॉट आकडेवारीची गणना करेल आणि निकाल दर्शवेल.
  3. निकालांच्या खाली बॉक्स प्लॉटचे दृश्य प्रतिनिधित्व दर्शवले जाईल.
  4. तुम्ही "निकाल कॉपी करा" बटणाचा वापर करून गणना केलेले निकाल कॉपी करू शकता.

सूत्र

बॉक्स प्लॉट गणनांमध्ये वापरलेले मुख्य सूत्रे आहेत:

  1. मध्यक (Q2): n घटकांच्या अनुक्रमित डेटासेटसाठी,

    x_{\frac{n+1}{2}} & \text{जर n विषम असेल} \\ \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) & \text{जर n सम असेल} \end{cases} $$
  2. पहिला क्वारटाइल (Q1) आणि तिसरा क्वारटाइल (Q3): Q1=डेटाच्या खालच्या अर्ध्या भागाचा मध्यकQ1 = \text{डेटाच्या खालच्या अर्ध्या भागाचा मध्यक} Q3=डेटाच्या वरच्या अर्ध्या भागाचा मध्यकQ3 = \text{डेटाच्या वरच्या अर्ध्या भागाचा मध्यक}

  3. इंटरक्वारटाइल रेंज (IQR): IQR=Q3Q1IQR = Q3 - Q1

  4. व्हिस्कर्स: Lower Whisker=max(min(x),Q11.5IQR)\text{Lower Whisker} = \max({\min(x), Q1 - 1.5 * IQR}) Upper Whisker=min(max(x),Q3+1.5IQR)\text{Upper Whisker} = \min({\max(x), Q3 + 1.5 * IQR})

  5. आउट्लायर्स: खालील व्हिस्कर किंवा वरच्या व्हिस्करच्या बाहेर असलेले कोणतेही डेटा पॉइंट्स.

गणना

कॅल्क्युलेटर खालील चरणांचे पालन करून बॉक्स प्लॉट तयार करतो:

  1. इनपुट डेटाला चढत्या क्रमात क्रमवारीत करा.
  2. मध्यक (Q2) गणना करा:
    • जर डेटा पॉइंट्सची संख्या विषम असेल, तर मध्यक हा मध्यवर्ती मूल्य आहे.
    • जर डेटा पॉइंट्सची संख्या सम असेल, तर मध्यक हा दोन मध्यवर्ती मूल्यांचा सरासरी आहे.
  3. पहिला क्वारटाइल (Q1) गणना करा:
    • हा डेटा च्या खालच्या अर्ध्या भागाचा मध्यक आहे.
    • जर डेटा पॉइंट्सची संख्या विषम असेल, तर मध्यक कोणत्याही अर्ध्या भागात समाविष्ट केले जात नाही.
  4. तिसरा क्वारटाइल (Q3) गणना करा:
    • हा डेटा च्या वरच्या अर्ध्या भागाचा मध्यक आहे.
    • जर डेटा पॉइंट्सची संख्या विषम असेल, तर मध्यक कोणत्याही अर्ध्या भागात समाविष्ट केले जात नाही.
  5. इंटरक्वारटाइल रेंज (IQR) गणना करा = Q3 - Q1.
  6. व्हिस्कर्स ठरवा:
    • खालील व्हिस्कर: Q1 - 1.5 * IQR पेक्षा मोठा किंवा सम असलेला सर्वात लहान डेटा पॉइंट.
    • वरचा व्हिस्कर: Q3 + 1.5 * IQR पेक्षा लहान किंवा सम असलेला सर्वात मोठा डेटा पॉइंट.
  7. आउट्लायर्स ओळखा: खालील व्हिस्कर किंवा वरच्या व्हिस्करच्या बाहेर असलेले कोणतेही डेटा पॉइंट्स.

हे लक्षात घेणे महत्त्वाचे आहे की क्वारटाइल्सची गणना करण्यासाठी विविध पद्धती आहेत, विशेषतः सम संख्या असलेल्या डेटासेटसाठी. वरील वर्णन केलेली पद्धत "विशिष्ट" पद्धत म्हणून ओळखली जाते, परंतु "समावेशी" पद्धत किंवा "मध्यकांच्या मध्यांचा" पद्धत देखील वापरली जाऊ शकते. पद्धतीचा निवड Q1 आणि Q3 च्या स्थानावर थोडा परिणाम करू शकतो, विशेषतः लहान डेटासेटसाठी.

अर्थ लावणे

Q3 मध्यक Q1 किमान कमाल बॉक्स प्लॉट घटक
  • प्लॉटमधील बॉक्स इंटरक्वारटाइल रेंज (IQR) दर्शवतो, ज्यामध्ये बॉक्सचा तळ Q1 वर आणि शीर्ष Q3 वर आहे.
  • बॉक्सच्या आतली रेषा मध्यक (Q2) दर्शवते.
  • व्हिस्कर्स बॉक्सपासून किमान आणि कमाल मूल्यांपर्यंत विस्तारित होतात, आउट्लायर्स वगळता.
  • आउट्लायर्स व्हिस्कर्सच्या बाहेर स्वतंत्र बिंदू म्हणून प्लॉट केले जातात.

बॉक्स प्लॉट डेटा विषयी अनेक अंतर्दृष्टी प्रदान करतो:

  • केंद्रीय प्रवृत्ती: मध्यक डेटा सेटचा केंद्रीय मूल्य दर्शवतो.
  • विविधता: IQR आणि किमान ते कमालपर्यंतचा एकूण प्रसार डेटा च्या प्रसाराचे प्रदर्शन करतो.
  • वक्रता: जर मध्यक बॉक्समध्ये केंद्रीत नसेल, तर ते डेटा मध्ये वक्रतेचे संकेत देते.
  • आउट्लायर्स: व्हिस्कर्सच्या बाहेर असलेले बिंदू संभाव्य आउट्लायर्स किंवा अत्यधिक मूल्ये हायलाइट करतात.

वापराचे प्रकरणे

बॉक्स प्लॉट विविध क्षेत्रांमध्ये उपयुक्त आहेत, जसे की:

  1. सांख्यिकी: डेटा वितरण आणि वक्रतेचे दृश्य प्रदान करण्यासाठी. उदाहरणार्थ, विविध शाळा किंवा वर्गांमधील चाचणी गुणांची तुलना करणे.

  2. डेटा विश्लेषण: आउट्लायर्सची ओळख करणे आणि वितरणांची तुलना करणे. व्यवसायात, विविध प्रदेशांतील किंवा कालावधीतील विक्री डेटा विश्लेषण करण्यासाठी वापरला जाऊ शकतो.

  3. वैज्ञानिक संशोधन: परिणाम सादर करणे आणि गटांची तुलना करणे. उदाहरणार्थ, वैद्यकीय अभ्यासात विविध उपचारांच्या प्रभावीतेची तुलना करणे.

  4. गुणवत्ता नियंत्रण: प्रक्रिया बदलांची देखरेख करणे आणि अनियमितता ओळखणे. उत्पादनात, उत्पादनाच्या परिमाणांचे ट्रॅकिंग करण्यासाठी आणि ते स्वीकार्य श्रेणीत आहेत की नाही हे सुनिश्चित करण्यासाठी वापरला जाऊ शकतो.

  5. वित्त: स्टॉक किंमत चळवळी आणि इतर वित्तीय मेट्रिक्सचे विश्लेषण करणे. उदाहरणार्थ, विविध म्युच्युअल फंडांच्या कार्यप्रदर्शनाची तुलना करणे.

  6. पर्यावरणीय विज्ञान: विविध स्थानांवर किंवा कालावधीत प्रदूषण स्तर किंवा तापमानातील बदल यासारख्या पर्यावरणीय डेटाचे विश्लेषण आणि तुलना करणे.

  7. क्रीडा विश्लेषण: संघ किंवा हंगामांमधील खेळाडू कार्यप्रदर्शन आकडेवारीची तुलना करणे.

पर्याय

बॉक्स प्लॉट डेटा दृश्यता साठी शक्तिशाली साधने असले तरी, विश्लेषणाच्या विशिष्ट गरजांनुसार काही पर्याय उपलब्ध आहेत:

  1. हिस्टोग्राम: डेटासेटच्या वारंवारता वितरण दर्शविण्यासाठी उपयुक्त. ते वितरणाच्या आकाराबद्दल अधिक तपशील प्रदान करतात, परंतु अनेक डेटासेटची तुलना करण्यासाठी कमी प्रभावी असू शकतात.

  2. वायोलिन प्लॉट: बॉक्स प्लॉटच्या वैशिष्ट्यांना कर्नेल घनता प्लॉटसह एकत्रित करतात, विविध मूल्यांवर डेटा ची संभाव्यता घनता दर्शवितात.

  3. स्कॅटर प्लॉट: दोन चलांमधील संबंध दर्शविण्यासाठी आदर्श, जे बॉक्स प्लॉट करू शकत नाहीत.

  4. बार चार्ट: विविध श्रेणींमध्ये एकल मूल्यांची तुलना करण्यासाठी योग्य.

  5. लाईन ग्राफ: वेळेत ट्रेंड दर्शविण्यासाठी प्रभावी, जे बॉक्स प्लॉट चांगले पकडत नाहीत.

  6. हीटमॅप: अनेक चलांसह जटिल डेटासेटचे दृश्यता साठी उपयुक्त.

या पर्यायांमधील निवड डेटा च्या स्वरूपावर आणि व्यक्तीला दर्शवायच्या विशिष्ट अंतर्दृष्टीवर अवलंबून आहे.

इतिहास

बॉक्स प्लॉटचा शोध जॉन टुकीने 1970 मध्ये लावला आणि 1977 मध्ये "Exploratory Data Analysis" या पुस्तकात प्रथम दिसला. टुकीच्या मूळ डिझाइनला "स्कीमॅटिक प्लॉट" म्हणतात, ज्यामध्ये फक्त मध्यक, क्वारटाइल्स, आणि अत्यधिक मूल्ये दर्शविली जातात.

बॉक्स प्लॉटच्या इतिहासातील मुख्य विकासांमध्ये समाविष्ट आहे:

  1. 1978: मॅकगिल, टुकी, आणि लार्सन यांनी नॉटेड बॉक्स प्लॉटची ओळख करून दिली, ज्यामध्ये मध्यकासाठी विश्वासार्हता अंतर समाविष्ट आहे.

  2. 1980s: बॉक्स प्लॉटमध्ये "आउट्लायर्स" संकल्पना अधिक मानक बनली, सामान्यतः क्वारटाइल्सपासून 1.5 वेळा IQR च्या बाहेर असलेल्या बिंदू म्हणून परिभाषित केली जाते.

  3. 1990s-2000s: संगणक ग्राफिक्सच्या आगमनासह, बदलणारे रुंदी बॉक्स प्लॉट आणि वायोलिन प्लॉट्स विकसित केले गेले.

  4. वर्तमान काळ: इंटरएक्टिव्ह आणि डायनॅमिक बॉक्स प्लॉट डेटा दृश्यता सॉफ्टवेअरमध्ये सामान्य झाले आहेत, ज्यामुळे वापरकर्त्यांना अंतर्गत डेटा पॉइंट्स अन्वेषण करण्याची परवानगी मिळते.

बॉक्स प्लॉट्स त्यांच्या साधेपणामुळे आणि जटिल डेटासेटचे सारांशित करण्याच्या कार्यक्षमतेमुळे काळाच्या कसोटीत टिकले आहेत. ते अनेक क्षेत्रांमध्ये डेटा विश्लेषणात एक मुख्य साधन म्हणून राहतात.

कोड स्निप्पेट्स

येथे विविध प्रोग्रामिंग भाषांमध्ये बॉक्स प्लॉट तयार करण्याचे उदाहरणे आहेत:

1=QUARTILE(A1:A100,1)  ' Q1
2=MEDIAN(A1:A100)      ' मध्यक
3=QUARTILE(A1:A100,3)  ' Q3
4=MIN(A1:A100)         ' किमान
5=MAX(A1:A100)         ' कमाल
6

संदर्भ

  1. टुकी, जे. डब्ल्यू. (1977). Exploratory Data Analysis. अॅडिसन-वेस्ली.
  2. मॅकगिल, आर., टुकी, जे. डब्ल्यू., & लार्सन, डब्ल्यू. ए. (1978). Variations of Box Plots. द अमेरिकन स्टॅटिस्टिशियन, 32(1), 12-16.
  3. विल्यमसन, डी. एफ., पार्कर, आर. ए., & केंड्रिक, जे. एस. (1989). The box plot: a simple visual method to interpret data. अॅनल्स ऑफ इंटरनल मेडिसिन, 110(11), 916-921.
  4. विकहॅम, एच., & स्ट्रिजेव्स्की, एल. (2011). 40 years of boxplots. तांत्रिक अहवाल, had.co.nz.
  5. फ्रिग्ज, एम., होग्लिन, डी. सी., & इग्लेव्हिज, बी. (1989). Some Implementations of the Boxplot. द अमेरिकन स्टॅटिस्टिशियन, 43(1), 50-54.