İstatistik ve Olasılık

advertisement
Anakütle Dağılımları
İstatistik ve Olasılık
Ders 5: Rastgele Değişkenlerin
Dağılımları II
Prof. Dr. İrfan KAYMAZ
Erzurum Teknik Üniversitesi
Anakütle Dağılımları
Sık Kullanılan Dağılımlar
Frekans tablolarına dayalı histogram ve frekans poligonları, verilerin
dağılımı hakkında genel bilgiler vermektedir.
Yapılan araştırmalardan elde edilen verilere ait dağılımın şeklinin ve
dağılım fonksiyonunun ampirik olarak belirlenmesi kolay değildir.
Bu nedenle, verilerin özelliklerine göre uygunluk gösterecekleri bazı
anakütle dağılımları teorik olarak geliştirilmiştir.
Bazı önemli anakütle dağılımları:
Kesikli Anakütle Dağılımları
Kesikli düzgün dağılım
Sürekli Anakütle Dağılımları
Sürekli düzgün dağılım
Bernoulli dağılımı
Normal dağılım
Binom dağılımı
Üstel dağılım
Poisson dağılımı
Lognormal dağılım
Hipergeometrik dağılım
Gamma dağılımı
Negatif binom dağılımı
Ki-kare dağılımı
....................
....................
....................
....................
Erzurum Teknik Üniversitesi
Binom Dağılımı
Anakütle Dağılımları
Kesikli dağılımların en yaygın kullanılanıdır.
Atılan bir paranın yazı veya tura gelmesi,
Montajdaki parçanın toleransa uygunluğu ve uygunsuzluğu
öğrencinin bir dersten başarılı veya başarısız olması
gibi iki sonuçlu olayların olasılığının hesaplanmasında kullanılır.
Binom dağılımına uyması için aşağıdaki şartları sağlaması gerekir:
Deneme belirli sayıda (n) tekrarlanır.
Her deneyin başarılı ve başarısız olmak üzere iki sonucu vardır.
Deneyler birbirinden bağımsızdır.
Başarı olasılığı (p) ve başarısızlık olasılığı q=1-p dir.
n deneyde elde edilen başarılı sonuçlar x değişkenine atanır.
Erzurum Teknik Üniversitesi
Binom Dağılımı
Anakütle Dağılımları
Binom dağılımın olasılık fonksiyonu:
Binom dağılımının ortalaması ve varyansı ise aşağıdaki formüllerle hesaplanır.
Erzurum Teknik Üniversitesi
Binom Dağılımı
Anakütle Dağılımları
Örnek 1:
a)10 yazı/tura atmada 4 yazı gelme olasılığını hesaplayınız
b)Bir zarın 20 kez atılması durumunda tam 12 kez altı gelme olasılığını
hesaplayınız.
Örnek 1 ÇÖZÜM:
a)
Binom dağılımın uygun olduğu rastgele olaylarda başarılı ve başarısız olarak
iki durumun olduğu olaylarla ilgilenildiğinden:
başarılı: yazı gelmesi (p=0.5)
başarısız: yazı gelmemesi (q=0.5)
Olarak tanımlama yapılabilir. n=10;X=4 olduğundan istenilen olasılık:
Erzurum Teknik Üniversitesi
Binom Dağılımı
Anakütle Dağılımları
Örnek 1 ÇÖZÜM:
b) başarılı: 6 gelmesi (p=1/6)
başarısız: yazı gelmemesi (q=5/6)
Olarak tanımlama yapılabilir. n=20;X=12 olduğundan istenilen olasılık:
Erzurum Teknik Üniversitesi
Poisson Dağılımı
Anakütle Dağılımları
İlgilenilen zaman aralığı, uzunluk veya hacimde sık sık karşılaşılmayan olayların
özel durumları için geliştirilen dağılımdır.
Örneğin:
belirli bir trafik noktasında meydana gelen trafik kazası sayısı,
1 m2 kumaştaki kusur sayısı,
1 cm3 kandaki anormal hücre sayısı,......vb sayılabilir.
Poisson dağılımının olasılık fonksiyonu aşağıda verilmiştir.
   2  np
olarak ifade edildiğinden dağılımın tek parametresi olduğu
söylenebilir.
Erzurum Teknik Üniversitesi
Anakütle Dağılımları
Poisson Dağılımı
Örnek 2:
Bir sınıftaki öğrenciler üzerine yapılan bir araştırmada dersi dinlemeyen öğrenci
sayısının ortalama olarak 3 kişi olduğu belirlenmiştir. Herhangi bir derste;
a) En az bir kişinin dersi dinlememesi olasılığını hesaplayınız.
b) En fazla iki kişinin dersi dinlememesi olasılığını hesaplayınız
Örnek 2 Çözüm:
Dersi dinlememek nadiren karşılaşılan bir olay! olduğu için poisson dağılımı
kullanılmalıdır.   np  3 olup bu olaya ait poisson olasılık fonksiyonu :
e 3 3 X
P( X ) 
X!
.
Erzurum Teknik Üniversitesi
Sürekli Rastgele Değişken Dağılım
Anakütle Dağılımları
En sık kullanılan sürekli rastgele değişkenlere ait Anakütle Dağılımları
Sürekli Anakütle Dağılımları
Sürekli düzgün dağılım
Normal dağılım
Üstel dağılım
Lognormal dağılım
Gamma dağılımı
Ki-kare dağılımı
....................
....................
Erzurum Teknik Üniversitesi
Düzgün (Üniform) Dağılım
Anakütle Dağılımları
X sürekli rastgele değişken belirli bir aralıktaki her değerinin meydana gelme
olasılığı eşit ise bu rastgele değişkenin dağılım düzgün (Ünifrom) dağılımdır.
Ünifrom dağılıma ait olasılık fonksiyonu:
Erzurum Teknik Üniversitesi
Düzgün (Üniform) Dağılım
Anakütle Dağılımları
Örnek 3 :
Süper marketteki kasaya 30 dakikalık periyotta bir müşteri gelmiştir. Bu müşterinin
son 5 dakikada gelmiş olma ihtimalini hesaplayınız.
Örnek 3 ÇÖZÜM :
Olasılık yoğunluk fonksiyonu:
Erzurum Teknik Üniversitesi
Düzgün (Üniform) Dağılım
Anakütle Dağılımları
ÜNİFORM DAĞILIM İLE İLGİLİ MATLAB KOMUTLARI
[a, b] aralığında üniform dağılmış rasgele değişkenin bu aralık içerindeki
herhangi bir x değerini alma ihtimali unifcdf komutu ile hesaplanır.
Örneğin bir önceki örnek aşağıda verilen MATLAB komutu yardımıyla kolaylıkla
hesaplanabilir:
prob=unifcdf(5,0,30)
Erzurum Teknik Üniversitesi
Normal Dağılım
Anakütle Dağılımları
Sürekli olasılık dağılımlarının en önemlisi ve en çok kullanılanı normal
dağılımdır. Normal dağılıma, bu dağılımı geliştiren kişilerin isimlerine atfen
Gauss-Laplace dağılımı,
Eğrinin biçimine izafeten de çan eğrisi de denilmektedir.
Evrendeki birçok olay normal dağılıma uygunluk gösterdiğinden yapılan
araştırmalarda elde edilen verilerin değerlendirilmesinde çok yaygın olarak
kullanılmaktadır.
Erzurum Teknik Üniversitesi
Normal Dağılım
Anakütle Dağılımları
Normal dağılımın olasılık yoğunluk fonksiyonu
Normal yoğunluk fonksiyonu iki parametreye sahiptir:
ortalama 
standart sapma 
Normal dağılım fonksiyonu ve kümülatif dağılım fonksiyonu grafiksel
olarak aşağıda verilmiştir.
Erzurum Teknik Üniversitesi
Normal Dağılım
Anakütle Dağılımları
Ortalama ve Standart sapma değerlerine bağlı olarak Normal dağılımın yeri ve
biçimi değişmektedir.
Örneğin:
Aşağıda şekilleri verilen A, B ve C normal dağılmış rastgele değişkenler
arasında:
Erzurum Teknik Üniversitesi
Anakütle Dağılımları
Normal Dağılım
Normal dağılımın süreklilik özelliğinden dolayı X rastgele değişkeninin
sadece belirli bir aralıkta değer alması söz konusudur.
İlgilenilen aralıkta değer alma olasılığı, olasılık yoğunluk fonksiyonunun
entegrali ile elde edilir.
Örneğin:
P( a  X  b) olasılığını hesaplamak için
işlemi yapılmalıdır.
Görüleceği üzere oldukça fazla işlem yükü gelmektedir.
İşlem yükünü azaltmak için bu dağılım yerine geliştirilen standart normal
dağılım kullanılmaktadır.
X rastgele değişkeni normal dağılıyorsa aşağıdaki şeklinde gösterilir:
X ~ N( ;  2 )
.
Erzurum Teknik Üniversitesi
Standart Normal Dağılım
Anakütle Dağılımları
X normal değişkeni sonsuz değer alabileceğinden nümerik olarak çözüm elde
edilebilmesi için normal dağılmış rastgele fonksiyon standart normal dağılmış
rastgele değişkene dönüştürülür:
Standart normal dağılım: ortalaması 0 ve varyansı 1 olacak
şekilde dönüşüm yapılır:
Bu ifade normal rastgele değişkenin olasılık yoğunluk fonksiyonun yazılırsa
standart normal değişkene ait olasılık yoğunluk fonksiyonu elde edilir:
belirli entegraline eşit olur.
Erzurum Teknik Üniversitesi
Standart Normal Dağılım
Anakütle Dağılımları
Dağılımın genel özellikleri dikkate alınarak standart normal değişken (Z) için
integralleri hesaplanarak standart normal dağılımla ilgili tablolar hazırlanmıştır.
Erzurum Teknik Üniversitesi
Standart Normal Dağılım
Anakütle Dağılımları
Z tablosu olarak adlandırılan bu tablolar farklı şekillerde düzenlenmektedir.
Bu ders kapsamında kullanılacak olan tablo P(Z > z0) olasılığını vermektedir.
Verilen tablo yardımıyla normal dağılıma ait her türlü olasılık
hesaplanabilmektedir.
Ayrıca, dağılım simetrik olup dağılımın tepe noktasının yatay ekseni kestiği
noktanın koordinatı sıfırdır (dağılımın ortalamasıdır) ve eğri altında kalan alanın
değeri 1’e eşittir.
Dağılım simetrik olduğu için P(Z > 0) = P(Z < 0)= 0.5 dir.
Bu nedenle, ortalamanın sağında kalan kısmı tablolarda verilmekte, diğer
yarısının aynı olduğu bilinmektedir.
Erzurum Teknik Üniversitesi
Standart Normal Dağılım
Anakütle Dağılımları
İstenen X rastgele değişkeninin belirli aralıkta değer alma olasılığını hesaplamak
için izlenecek yaklaşımlar şöyle özetlenebilir:
1. Verilen a < X < b aralığı m < Z < n aralığına dönüştürülür. Yani,
Bu amaçla
Z
X 

dönüşümü kullanılır.
2. Karşı gelen P(m<Z<n) değeri tablo yardımıyla belirlenir. Öyle ise P(A<X>b):
hesaplanır.
Erzurum Teknik Üniversitesi
Olasılık Tabloların okunuşu
Anakütle Dağılımları
Z tablosundan istenilen olasılık değeri bulunulurken verilen değer;
tamsayı kısmı ile birinci ondalık kısmı
ikinci ondalık kısmı
olmak üzere iki parçaya ayrılır
Z tablosundan bir olasılık değeri okumak
için aşağıdaki adımlar takip edilir:
1. tamsayı kısmı ile birinci ondalık kısmı
düşey eksende işaretlenir.
2. ikinci ondalık kısmı için yatay eksende
eksende işaretlenir.
3. Bu değerlere yatay ve düşey eksende
karşı gelen değerlerin kesiştiği hücredeki
değer aranan olasılık değeridir.
Erzurum Teknik Üniversitesi
Normal Dağılım-MATLAB
Anakütle Dağılımları
NORMAL DAĞILIM İLE İLGİLİ MATLAB KOMUTLARI
Normal dağılmış bir rastgele değişkenin belirli bir X değerine karşılık olasılık
yoğunluk fonksiyonu değeri aşağıdaki komut yardımıyla hesaplanır:
P = normpdf(X,MU,SIGMA)
Burada MU ve SIGMA sırasıyla normal dağılmış rastgele değişkenin ortalamasını
ve standart sapma değerini göstermektedir.
Normal dağılmış rastgele değişkenin – ile belirli bir x değerini alma olasılığı
P(X<x) = normcdf(X,MU,SIGMA)
P olasılığını veren -
dan X’e olasılık hesabında X rastgele değişkeni belirlemek
X = norminv(P,MU,SIGMA)
Erzurum Teknik Üniversitesi
Anakütle Dağılımları
Normal Dağılım-MATLAB
Standart normal dağılmış bir fonksiyona ait olasılık hesaplamaları için
normcdf komutu aşağıdaki şekilde verilmedir.
P = normcdf([Z])
Probability Between Limits is 0.81859
0.4
Verilen iki sınır değer arasında normal
rastgele değişkene ait olasılık dağılım
fonksiyonunu çizmek için:
0.35
0.3
[p,h] = normspec(specs, mu, sigma)
Density
0.25
0.2
0.15
Burada
specs: limit değerleri göstermektedir.
p: olasılık değerini göstermektedir.
0.1
0.05
0
-4
-3
-2
-1
0
Critical Value
1
2
3
4
Erzurum Teknik Üniversitesi
Örnekler
Anakütle Dağılımları
Örnek 4 :
Eğer Z standart normal dağılmış bir rastgele değişken ise aşağıdaki olasılıkları
grafiksel olarak gösterip hesaplayınız.
a) P(0<=Z<=2)
b) P(-2<=Z<=2)
c) P(0<=Z<=1.53)
d) P(0.28 < Z < 1.28)
Erzurum Teknik Üniversitesi
Anakütle Dağılımları
Örnekler
Örnek 4 ÇÖZÜM:
a) P(0<=Z<=2)
MATLAB komutu:
normspec([0,2],0,1)
Probability Between Limits is 0.47725
0.4
0.35
0.3
Density
0.25
0.2
0.15
0.1
0.05
0
-4
-3
-2
-1
0
Critical Value
1
2
3
4
Erzurum Teknik Üniversitesi
Anakütle Dağılımları
Örnekler
Örnek 4 ÇÖZÜM:
b) P(-2<=Z<=2)
MATLAB komutu:
Probability Between Limits is 0.9545
0.4
normspec([-2,2],0,1)
0.35
0.3
Density
0.25
0.2
0.15
0.1
0.05
0
-4
-3
-2
-1
0
Critical Value
1
2
3
4
Erzurum Teknik Üniversitesi
Anakütle Dağılımları
Örnekler
Örnek 4 ÇÖZÜM:
c) P(0<=Z<=1.53)
MATLAB komutu:
Probability Between Limits is 0.43699
0.4
normspec([0,1.53],0,1)
0.35
0.3
Density
0.25
0.2
0.15
0.1
0.05
0
-4
-3
-2
-1
0
Critical Value
1
2
3
4
Erzurum Teknik Üniversitesi
Anakütle Dağılımları
Örnekler
Örnek 4 ÇÖZÜM:
d) P(0.28 < Z < 1.28)
MATLAB komutu:
Probability Between Limits is 0.28947
0.4
normspec([0.28,1.28],0,1)
0.35
0.3
Density
0.25
0.2
0.15
0.1
0.05
0
-4
-3
-2
-1
0
Critical Value
1
2
3
4
Erzurum Teknik Üniversitesi
Anakütle Dağılımları
Örnekler
Örnek 5 :
P(Z > z1)=0.025 ise z1=?
Örnek 5 ÇÖZÜM:
Önceki problemlerde eksen değerlerinden hareketle
olasılık değeri bulunurken bu problemde olasılık
değerinden hareketle eksen değerleri bulunmaktadır.
Yani tabloya bakış yönteminde değişiklik var.
Probability Greater than Lower Bound is 0.024998
0.4
Tablodan 0.025 olasılık değerine karşı gelen z değeri
araştırılırsa bunun 1.96 (yani z1=1.96) olduğu görülür.
0.35
0.3
Density
0.25
MATLAB komutu
0.2
z1=norminv(0.975,0,1)
0.15
0.1
0.05
0
-4
-3
-2
-1
0
Critical Value
1
2
3
4
Erzurum Teknik Üniversitesi
Anakütle Dağılımları
Örnekler
Örnek 6:
P(-z1 < Z < z1)=0.90 ise
z1=?
Örnek 6 ÇÖZÜM:
değer çift taraflı olduğundan (her iki kuyruğu kapsadığından) her parçanın olasılığı
(1-0.90)/2=0.05 dir.
Tablodan 0.05 olasılık değerine karşı gelen z değeri araştırılırsa bunun 1.64
(yani z1=1.64) olduğu görülür.
Erzurum Teknik Üniversitesi
Örnekler
Anakütle Dağılımları
Örnek 7:
Bir imalathanede üretilen millerin çaplarının ortalaması 3.0005 inç ve standart
sapmalarının ise 0.001 inç olan normal dağılıma uyduğu tespit edilmiştir. Üretilen
miller eğer 3.0000.002 inç aralığının dışında iseler bu miller hatalı üretim kabul
edilmektedir.
Buna göre toplam üretimdeki hatalı ürün miktarını bulunuz.
Erzurum Teknik Üniversitesi
Örnekler
Anakütle Dağılımları
Örnek 7 ÇÖZÜM:
İstenilen olasılık ifadesi:
Bu olasılık değerini hesaplamak için X sürekli normal değişkeni standart
normal hale dönüştürülür:
Erzurum Teknik Üniversitesi
Dağılım Tipinin Belirlenmesi
Anakütle Dağılımları
Ham olarak elde edilen rasgele değişkene ait dataların dağılım tipini
(Normal, exponensiyal, Log-nomal v.b. ) belirlemek rasgele değişken
kullanılarak yapılacak analizler için çok önemlidir.
Bu işlemlerde rasgele değişkenin nasıl bir dağılım davranışı gösterdiği ve bu
dağılımın parametreleri kullanılmaktadır.
Ham olarak elde edilen bu datalara bir dağılım uydurmak (distirbution
fitting) için aşağıda verilen adımlar takip edilir:
 Dağılım tipini grafiksel olarak belirlemek
 Belirlenen bu dağılım tipine ait parametreleri tahmin etmek
 Belirlenen bu dağılım tipinin uygunluğunu test etmek.
Erzurum Teknik Üniversitesi
Dağılım Tipinin Belirlenmesi
Anakütle Dağılımları
Dağılım tipini grafiksel olarak belirleme:
Ham olarak elde edilmiş rasgele değişkene ait dataların hangi dağılım tipine
uygun olduğunu belirlemede genellikle bu dataların grafiksel olarak
gösterimi ile birlikte uygunluk testi (goodness-of-fit) uygulanarak elde edilir.
Erzurum Teknik Üniversitesi
Dağılım Tipinin Belirlenmesi
Anakütle Dağılımları
Dağılım parametrelerinin Tahmini:
Belirlenen dağılıma ait parametrelerin (ortalama, standart sapma, çarpıklık,
basıklık gibi) için başlıca iki metot kullanılır:
• Momentler metodu (method of moments)
• Maksimum olabilirlik metodu (method of maximum likelihood)
Bu metotlar vasıtasıyla edilen parametreler daha sonra gerçekleştirilecek
analizlerde rasgele değişkenlerin kullanılmasını sağlar.
Erzurum Teknik Üniversitesi
Dağılım Tipinin Belirlenmesi
Anakütle Dağılımları
Seçilen dağılım fonksiyonun uygunluk testi:
Son adım olarak, rasgele değişkenlere ait belirlenmiş dağılım tipinin
uygunluk testi yapılarak istatistiksel olarak ne kadar uygun olduğu tespit
edilir. Bu adımda kullanılan belli başlı uygunluk testi yöntemleri:
• Ki-kare uygunluk testi (Chi Square test)
• Kolmogorov Smirnov test
• Anderson Darling test
Bu testlerden sadece ilk ikisine ait teorik bilgiler verilecektir.
Erzurum Teknik Üniversitesi
Dağılım Tipinin Belirlenmesi
Anakütle Dağılımları
Kİ-KARE UYGUNLUK TESTİ:
Ki-kare istatistik değerini hesaplamak için öncelikle datalar belirli sayıda
aralıklara (intervals) ayrılır ve bu aralıkların beklenen değeri (Expected
value) uydurulan dağılımdan hesaplanır. Sonra Chi-square istatistik değeri
aşağıdaki bağıntı yardımıyla hesaplanır:
Erzurum Teknik Üniversitesi
Gelecek Dersin Konusu
Anakütle Dağılımları
Örnekleme Planları ve Dağılımları …
Prof. Dr. rfan
KAYMAZ'n ders
notlarndan alnmtr.
Erzurum Teknik Üniversitesi
Download