Veri kümeniz için bir kutu ve çubuk grafiği kullanarak görsel bir analiz oluşturun. Bu araç, çeyrekler, medyan ve aykırı değerler dahil olmak üzere temel istatistiksel ölçümleri hesaplar ve görüntüler.
Bir kutu grafiği, kutu ve çubuk grafiği olarak da bilinir, minimum, birinci çeyrek (Q1), medyan, üçüncü çeyrek (Q3) ve maksimumdan oluşan beş sayı özeti temelinde verilerin dağılımını standart bir şekilde gösterme yöntemidir. Bu hesaplayıcı, verilen bir sayısal veri kümesinden bir kutu grafiği oluşturmanıza olanak tanır ve veri görselleştirme ve analizi için güçlü bir araç sağlar.
Kutu grafiği hesaplamalarında kullanılan ana formüller şunlardır:
Medyan (Q2): n elemanlı sıralı bir veri kümesi için,
x_{\frac{n+1}{2}} & \text{eğer n tek ise} \\ \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1}) & \text{eğer n çift ise} \end{cases} $$Birinci Çeyrek (Q1) ve Üçüncü Çeyrek (Q3):
Çeyrekler Arası Aralık (IQR):
Çubuklar:
Aykırı Değerler: Alt çubuğun altında veya üst çubuğun üzerinde kalan veri noktaları.
Hesaplayıcı, kutu grafiğini oluşturmak için aşağıdaki adımları gerçekleştirir:
Veri kümesinin çift sayıda eleman içerdiği durumlarda çeyrek hesaplama yöntemleri arasında farklılıklar olabileceğini unutmamak önemlidir. Yukarıda açıklanan yöntem "hariç" yöntemi olarak bilinir, ancak "dahil" yöntemi veya "medyanların medyanı" yöntemi gibi diğer yöntemler de kullanılabilir. Yöntem seçimi, özellikle küçük veri kümeleri için Q1 ve Q3'ün konumunu biraz etkileyebilir.
Kutu grafiği, veriler hakkında birkaç içgörü sağlar:
Kutu grafikleri, aşağıdaki alanlarda faydalıdır:
İstatistik: Verilerin dağılımını ve çarpıklığını görselleştirmek için. Örneğin, farklı okullar veya sınıflar arasında test puanlarını karşılaştırmak.
Veri Analizi: Aykırı değerleri tanımlamak ve dağılımları karşılaştırmak için. İş dünyasında, farklı bölgeler veya zaman dilimleri arasındaki satış verilerini analiz etmek için kullanılabilir.
Bilimsel Araştırma: Sonuçları sunmak ve grupları karşılaştırmak için. Örneğin, tıbbi çalışmalarda farklı tedavi yöntemlerinin etkinliğini karşılaştırmak.
Kalite Kontrol: Süreç değişkenlerini izlemek ve anormallikleri tanımlamak için. Üretimde, ürün boyutlarını izlemek ve kabul edilebilir aralıkta olup olmadıklarını sağlamak için kullanılabilir.
Finans: Hisse senedi fiyat hareketlerini ve diğer finansal metrikleri analiz etmek için. Örneğin, farklı yatırım fonlarının zaman içindeki performansını karşılaştırmak.
Çevre Bilimleri: Çevresel verileri analiz etmek ve karşılaştırmak için, örneğin, kirlilik seviyeleri veya farklı yerler veya zaman dilimleri arasındaki sıcaklık değişimleri.
Spor Analitiği: Takımlar veya sezonlar arasında oyuncu performans istatistiklerini karşılaştırmak için.
Kutu grafikleri, veri görselleştirme için güçlü araçlar olmasına rağmen, analiz ihtiyaçlarına bağlı olarak birkaç alternatif vardır:
Histogramlar: Bir veri kümesinin frekans dağılımını göstermek için yararlıdır. Dağılımın şeklini daha ayrıntılı bir şekilde sağlar, ancak birden fazla veri kümesini karşılaştırmak için daha az etkili olabilir.
Violin Grafikleri: Kutu grafiklerinin özelliklerini çekirdek yoğunluk grafikleriyle birleştirir, verilerin farklı değerlerdeki olasılık yoğunluğunu gösterir.
Dağılım Grafikleri: İki değişken arasındaki ilişkiyi göstermek için idealdir, kutu grafiklerinin yapamadığı bir şeydir.
Sütun Grafikleri: Farklı kategoriler arasında tek değerleri karşılaştırmak için uygundur.
Çizgi Grafikler: Zaman içindeki eğilimleri göstermek için etkili olup, kutu grafiklerinin iyi bir şekilde yakalayamadığı bir şeydir.
Isı Haritaları: Birden fazla değişken içeren karmaşık veri kümelerini görselleştirmek için yararlıdır.
Bu alternatifler arasında seçim yapmak, verilerin doğasına ve iletmek istenen belirli içgörülere bağlıdır.
Kutu grafiği, 1970 yılında John Tukey tarafından icat edilmiş ve 1977'de "Exploratory Data Analysis" adlı kitabında ilk kez yayınlanmıştır. Tukey'nin orijinal tasarımı, "şematik grafik" olarak adlandırılmış ve yalnızca medyan, çeyrekler ve uç değerleri göstermiştir.
Kutu grafiklerinin tarihindeki önemli gelişmeler şunlardır:
1978: McGill, Tukey ve Larsen, medyan için güven aralıkları ekleyen notlu kutu grafiğini tanıttı.
1980'ler: Kutu grafiklerinde "aykırı değerler" kavramı daha standart hale geldi ve genellikle çeyreklerden 1.5 kat IQR dışındaki noktalar olarak tanımlandı.
1990'lar-2000'ler: Bilgisayar grafikleri ile değişken genişlikte kutu grafikler ve violin grafikler gibi varyasyonlar geliştirildi.
Günümüzde: Etkileşimli ve dinamik kutu grafiklerinin, kullanıcıların temel veri noktalarını keşfetmesine olanak tanıyan veri görselleştirme yazılımlarında yaygın hale gelmiştir.
Kutu grafiklerinin karmaşık veri kümelerini özetlemedeki basitliği ve etkinliği sayesinde zamanın testine dayanmıştır. Birçok alanda veri analizinin vazgeçilmezi olmaya devam etmektedir.
İşte çeşitli programlama dillerinde bir kutu grafiği oluşturma örnekleri:
1=QUARTILE(A1:A100,1) ' Q1
2=MEDIAN(A1:A100) ' Medyan
3=QUARTILE(A1:A100,3) ' Q3
4=MIN(A1:A100) ' Minimum
5=MAX(A1:A100) ' Maksimum
6
1## 'data' vektörünüz sayılarınızı temsil eder
2boxplot(data)
3
1% 'data' vektörünüz sayılarınızı temsil eder
2boxplot(data)
3
1// D3.js kullanarak
2var svg = d3.select("body").append("svg")
3 .attr("width", 400)
4 .attr("height", 300);
5
6var data = [/* veri diziniz */];
7
8var boxplot = svg.append("g")
9 .datum(data)
10 .call(d3.boxplot());
11
1import matplotlib.pyplot as plt
2import numpy as np
3
4data = [/* veri diziniz */]
5plt.boxplot(data)
6plt.show()
7
1import org.jfree.chart.ChartFactory;
2import org.jfree.chart.ChartPanel;
3import org.jfree.chart.JFreeChart;
4import org.jfree.data.statistics.DefaultBoxAndWhiskerCategoryDataset;
5
6DefaultBoxAndWhiskerCategoryDataset dataset = new DefaultBoxAndWhiskerCategoryDataset();
7dataset.add(Arrays.asList(/* veriniz */), "Seri 1", "Kategori 1");
8
9JFreeChart chart = ChartFactory.createBoxAndWhiskerChart(
10 "Kutu Grafiği", "Kategori", "Değer", dataset, true);
11
İş akışınız için faydalı olabilecek daha fazla aracı keşfedin