Normallik Testi ve Özet Rapor

NORMALLİK TESTİ

Normallik testi, bir veri setinin normal dağılıma uygun olup olmadığını belirlemek için yapılan istatistiksel bir testtir. Normal dağılım, birçok istatistiksel analizde varsayılan bir dağılımdır, bu yüzden verilerin bu dağılıma ne kadar uyduğunu bilmek önemlidir.

En yaygın normallik testleri şunlardır:

1. Shapiro-Wilk Testi:

Küçük örneklem boyutları için oldukça etkilidir.

2. Kolmogorov-Smirnov Testi:

İki dağılımı karşılaştırmak için kullanılır, ancak normal dağılıma karşı da uygulanabilir.

3. D'Agostino's K^2 Testi:

Verinin çarpıklık ve basıklık özelliklerine bakarak normallik testi yapar.

Bu testlerin sonuçları, p-değeri ile ifade edilir. Eğer p-değeri belirli bir anlamlılık seviyesinin (genellikle 0.05) altındaysa, veri setinin normal dağılımdan farklı olduğu sonucuna varılır.

4. Anderson-Darling Testi:

Verilerin normal dağılıma uyumunu değerlendirmek için kullanılan bir başka testtir.

Anderson-Darling Testi, bir veri kümesinin belirli bir dağılıma (örneğin normal dağılıma) uyup uymadığını test etmek için kullanılan istatistiksel bir testtir. Özellikle küçük örneklemler için güçlü bir dağılım uygunluk testidir ve normal dağılımın yanı sıra başka dağılımlara da uygulanabilir.

Testin Temel Mantığı: Anderson-Darling testi, gözlemlerin sıralı olduğu durumlarda kullanılır. Verilerin sıralanmış haliyle teorik bir dağılıma ne kadar uyumlu olduğunu ölçer. Test, beklenen ve gözlenen dağılımlar arasındaki farkları değerlendirir. Fark arttıkça, veri setinin hedeflenen dağılıma uymadığına dair daha güçlü bir kanıt elde edilir.

Test Sonucu Yorumu:

Test sonucunda elde edilen p-değeri, verinin hedeflenen dağılıma uyup uymadığı hakkında bilgi verir.
- Yüksek bir p-değeri, verinin hedef dağılıma uyumlu olduğunu gösterir.
- Düşük bir p-değeri (genelde 0.05'in altı), verinin hedef dağılıma uymadığına dair kanıt sunar.
Ayrıca Anderson-Darling istatistik değeri de elde edilir; bu değerin yüksek olması hedef dağılıma uymadığını işaret eder.

Avantajları ve Dezavantajları:

Avantaj: Özellikle küçük örneklem boyutlarında güçlüdür ve veri setlerinin normal dağılım haricinde farklı dağılımlara uygunlukları da test edilebilir.
Dezavantaj: Belirli dağılımlar için yorumlanabilir olup, sonuçların yorumu için önceden dağılım hakkında bilgi sahibi olunmalıdır.

İSTATİSTİKİ TERİMLER

1. Ortalama

Ortalama, bir dizi sayının aritmetik olarak merkezini veya genel eğilimini belirlemek için kullanılan bir değerdir. En yaygın olarak kullanılan aritmetik ortalama (genellikle sadece "ortalama" olarak anılır), belirli bir sayı kümesindeki tüm sayıların toplanıp toplam eleman sayısına bölünmesiyle bulunur.

Aritmetik ortalama formülü:

\text{Ortalama} = \frac{\text{Tüm değerlerin toplamı}}{\text{Değer sayısı}}

Örneğin, sayı kümesi $3, 5, 8, 10$ ise ortalama şöyle hesaplanır:

\text{Ortalama} = \frac{3 + 5 + 8 + 10}{4} = \frac{26}{4} = 6.5

Ortalama, veri setinin genel yapısını anlamada oldukça yararlıdır; ancak, uç değerlerden (çok küçük veya çok büyük değerler) etkilenebileceği için dikkatle kullanılmalıdır.

2. Standart Sapma

Standart sapma, bir veri kümesindeki değerlerin ortalamaya göre ne kadar yayıldığını veya dağıldığını gösteren bir istatistik ölçüsüdür. Yani, verilerin ortalama etrafında ne kadar "dağıldığını" ölçer. Standart sapmanın düşük olması, verilerin ortalama etrafında sıkı bir şekilde toplandığını, yüksek olması ise verilerin ortalamadan daha fazla uzaklaştığını gösterir.

Standart Sapma Hesaplama Adımları:

Her bir veriden aritmetik ortalamayı çıkararak farkları bul.
Her bir farkın karesini alarak kareli farkları hesapla.
Kareli farkların ortalamasını al (bu değer varyans olarak adlandırılır).
Elde edilen varyansın karekökünü alarak standart sapmayı bulun.

Standart Sapma Formülü:

Veri kümesi $x_1, x_2, x_3, \dots, x_n$ ve aritmetik ortalama $\overline{x}$ ise:

$\sigma = \sqrt{\frac{\sum_{i=1}^n (x_i - \overline{x})^2}{n}}$

Örnek Standart Sapma: Eğer veri kümesi, daha büyük bir popülasyonun örneğiyse, paydadaki $n$ yerine $n - 1$ kullanılır. Bu, örneklem büyüklüğüne göre daha doğru bir tahmin yapılmasını sağlar.

Standart sapma, genellikle veri dağılımını incelemek için kullanılır ve özellikle verilerin ortalamaya göre nasıl dağıldığını anlamada önemli bir rol oynar.

3. Varyans

Varyans, bir veri kümesindeki değerlerin aritmetik ortalamadan (veya beklenen değerden) ne kadar sapma gösterdiğini ölçen bir istatistiksel kavramdır. Varyans, veri noktalarının ortalamaya olan uzaklıklarının karelerinin ortalaması olarak hesaplanır ve verilerin dağılımının büyüklüğünü gösterir.

Varyansın yüksek olması, verilerin ortalamadan daha fazla uzaklaştığını, düşük olması ise verilerin ortalamaya daha yakın olduğunu ifade eder.

Varyans Formülü:

Veri kümesi $x_1, x_2, x_3, \dots, x_n$ ve aritmetik ortalama $\overline{x}$ ise varyans $\sigma^2$ şöyle hesaplanır:

σ^{2} = \frac{\sum_{i = 1}^{n} (x_{i} - \overline{x})^{2}}{n​}

Popülasyon Varyansı: Eğer tüm popülasyon verileri kullanılıyorsa, $n$ ile bölünür.
Örneklem Varyansı: Eğer veri bir örneklem ise, payda olarak $n - 1$ kullanılır. Bu, örneklem varyansının popülasyon varyansına daha iyi bir tahmin olmasını sağlar.

Varyans ile Standart Sapma İlişkisi:

Varyans, standart sapmanın karesine eşittir. Yani:

σ = \sqrt{σ^{2}}

Bu yüzden standart sapma, varyansın kareköküdür ve veri dağılımı hakkında daha doğrudan, yorumlanabilir bir ölçü sağlar.

4. Çarpıklık

Çarpıklık, bir veri setinin simetrik olup olmadığını ve verilerin ortalamaya göre hangi yönde yoğunlaştığını belirten bir istatistiksel ölçüdür. Çarpıklık, verilerin dağılımının ortalamadan ne kadar ve hangi yönde saptığını gösterir. Genellikle simetrik olmayan dağılımlarda ortaya çıkar ve verilerin ortalamaya göre sağa veya sola eğilimli olduğunu ifade eder.
Çarpıklık Türleri:

Pozitif Çarpıklık (Sağa Çarpık): Verilerin büyük kısmı ortalamanın solunda toplanır, ancak ortalamanın sağında, yani daha büyük değerlerde uzun bir kuyruk bulunur. Bu durumda çarpıklık değeri pozitiftir. Örneğin, gelir dağılımı genellikle sağa çarpık bir dağılıma sahiptir.
Negatif Çarpıklık (Sola Çarpık): Verilerin büyük kısmı ortalamanın sağında toplanır, ancak ortalamanın solunda, yani daha küçük değerlerde uzun bir kuyruk bulunur. Bu durumda çarpıklık değeri negatiftir. Örneğin, öğrenci sınav puanları bazen düşük puanlarda uzun bir kuyruk oluşturur ve sola çarpık olabilir.
Sıfır Çarpıklık (Simetrik Dağılım): Veriler simetrik bir dağılıma sahipse, çarpıklık değeri sıfıra yakındır. Bu durumda veri ortalama etrafında simetrik olarak yayılmıştır. Örneğin, ideal bir normal dağılım sıfır çarpıklığa sahiptir.

Çarpıklık Hesaplama Formülü:

Bir veri kümesi $x_1, x_2, x_3, \dots, x_n$ ve aritmetik ortalama $\overline{x}$ , standart sapma $s$ ise çarpıklık şu şekilde hesaplanabilir:

\overset{¸}{C} arpıklık = \frac{\sum_{i = 1}^{n} (x_{i} - \overline{x})^{3}}{n \cdot s^{3​}}

Çarpıklık, veri dağılımının karakteristiğini anlamak ve özellikle normal dağılımdan sapmaları incelemek için kullanılır.

5. Basıklık

Basıklık, bir veri setinin dağılımının sivriliğini veya yayvanlığını ölçen bir istatistiksel kavramdır. Verilerin ortalama etrafında ne kadar yoğunlaştığını, dağılımın "düz" mü yoksa "sivri" mi olduğunu gösterir. Basıklık, özellikle normal dağılımla kıyaslanarak anlaşılır.

Basıklık Türleri:

Pozitif Basıklık (Leptokurtik): Veriler ortalama etrafında çok yoğunlaşmıştır, dağılım merkezi daha sivridir ve kuyruklar daha uzundur. Bu tür dağılımlar, normal dağılıma kıyasla daha fazla uç değere sahiptir. Leptokurtik bir dağılımın basıklık değeri pozitiftir (genellikle 3'ten büyüktür).
Negatif Basıklık (Platikurtik): Veriler ortalama etrafında daha yaygındır, yani dağılım daha düz bir şekle sahiptir ve kuyruklar daha kısa olur. Platikurtik dağılım, normal dağılıma göre daha az uç değere sahiptir. Bu durumda basıklık değeri negatiftir (genellikle 3'ten küçüktür).
Normal Basıklık (Mesokurtik): Normal dağılımda olduğu gibi, basıklık değeri yaklaşık olarak 3’tür. Veriler ortalama etrafında orta derecede yoğunlaşmıştır ve kuyruklar "ne uzun ne kısa"dır. Bu tür dağılımlar simetrik ve "normal" kabul edilen bir yoğunlaşma gösterir.

Basıklık Hesaplama Formülü:

Bir veri kümesi $x_1, x_2, x_3, \dots, x_n$ ve aritmetik ortalama $\overline{x}$ , standart sapma $s$ ise basıklık şu şekilde hesaplanabilir:

Basıklık = \frac{\sum_{i = 1}^{n} (x_{i} - \overline{x})^{4}}{n \cdot s^{4}} - 3

Bu formülde "-3" ifadesi, normal dağılımın basıklığını 0 kabul etmek için kullanılır, böylece dağılımın normalden ne kadar saptığını gözlemlemek kolaylaşır.

Basıklık Anlamı:

0 Basıklık: Dağılım normal şekildedir (mesokurtik).
Pozitif Basıklık (> 0): Dağılım daha sivri (leptokurtik).
Negatif Basıklık (< 0): Dağılım daha yayvan (platikurtik).

Basıklık, veri setindeki uç değerlerin etkisini anlamak ve dağılımın özelliklerini analiz etmek için kullanılır.

MİNİTAB ÖZET RAPOR OLUŞTURMA VE DEĞERLERİ YORUMLAMA

Bu raporu analiz edelim:

Anderson-Darling Normallik Testi

A-Squared Değeri: 0,27
P-Değeri: 0,679

Anderson-Darling testinin p-değeri 0,679 olarak verilmiş, ki bu oldukça yüksek bir değerdir. Genellikle p-değeri 0,05'in üstünde ise verilerin normal dağılıma uygun olduğu kabul edilir. Burada, p-değeri 0,679 olduğu için, veri seti normal dağılıma uygun olarak değerlendirilebilir.

Özet İstatistikler

Ortalama (Mean): 70,359
Standart Sapma (StDev): 1,766
Varyans: 3,119
Çarpıklık (Skewness): 0,103867
Basıklık (Kurtosis): -0,074519
Örneklem Büyüklüğü (N): 150

Veri setinin ortalaması 70,359 ve standart sapması 1,766'dır. Çarpıklık (skewness) değeri 0,103867 ile sıfıra yakın, bu da veri setinin simetrik olduğunu gösterir. Basıklık değeri ise -0,074519, yani veri çok fazla sivri veya basık değil. Bu değerler, veri setinin normal dağılıma uygun olduğunu desteklemektedir.

Çeyrek Değerler ve Minimum/Maximum

Minimum: 66,221
1. Çeyrek: 69,300
Medyan: 70,239
3. Çeyrek: 71,470
Maksimum: 75,057

Veri setinin minimum ve maksimum değerleri sırasıyla 66,221 ve 75,057 olarak verilmiş. Medyan değeri 70,239 olup ortalama ile oldukça yakın, bu da veri setinin simetrik olduğunu destekliyor.

Güven Aralıkları

Ortalama için %95 Güven Aralığı: [70,074 - 70,644]
Medyan için %95 Güven Aralığı: [69,978 - 70,667]
Standart Sapma için %95 Güven Aralığı: [1,586 - 1,992]

Bu güven aralıkları, veri setindeki merkezi eğilim ve dağılım ölçütlerinin güvenilir bir tahminini sağlar. Örneğin, ortalamanın %95 güven aralığı 70,074 ile 70,644 arasında ve standart sapmanın %95 güven aralığı ise 1,586 ile 1,992 arasında. Bu, veri setinin merkezinin ve yayılımının dar bir aralıkta olduğu anlamına gelir.

Grafikler

Histogram ve Normal Dağılım Eğrisi: Histogram grafiği, verilerin yaklaşık olarak normal dağılıma uyduğunu göstermektedir. Kırmızı eğri, normal dağılımı temsil eder ve barlarla uyumlu görünmektedir.
Kutu Grafiği: Kutu grafiği, verilerin merkezi eğilim ve yayılımını özetler. Kutu içindeki veriler, %25 ile %75 arasındaki çeyrekleri temsil eder ve veri setinin çok fazla aykırı değeri olmadığı gözlemlenebilir.
Güven Aralığı Grafikleri: Ortalama ve medyan için %95 güven aralıkları da gösterilmiştir. Her iki değerin güven aralıkları birbirine oldukça yakın, bu da veri setinin simetrik dağıldığını destekler.

Genel Yorum

Bu veriler, Anderson-Darling normallik testi sonuçları ve diğer istatistiksel ölçütlere göre normal dağılıma uygun görünmektedir. Çarpıklık ve basıklık değerleri de normal dağılıma yakın olduğunu desteklemektedir. Ortalama ve medyanın birbirine yakın olması, veri setinin merkezi eğiliminin dengeli olduğunu gösterir.

ENDÜSTRİ MÜHENDİSİYİZ

Bu Blogda Ara

NORMALLİK TESTİ VE ÖZET RAPOR