Poisson Dağılımı

advertisement
Poisson Dağılımı
Poisson Dağılımı ile ilk tanışmam 1976-1977 ders yılında, sayın hocam Prof.Dr. Fikri
Akdeniz’in anlattığı M215-M216 Olasılık ve İstatistik dersinde oldu. Dersten çıkar çıkmaz,
fizik bölümü öğrencisi olan bir arkadaşıma, bir otobüs durağında, durakta epey bir zaman
bekledikten sonra, sohbet konusu olsun diye, Poisson Dağılımı’ndan söz edeyim dedim. Belli
bir zaman aralığında duraktan geçen otobüs sayısının Poisson Dağılımı ile anlatılabileceğini
(modellenebileceğini) ve bunu, bu gün derste öğrendiğimizi söyledikten sonra, konuya
daldım:
- Belli bir zaman aralığında geçen otobüs sayısı bir rasgele değişkendir.
- Tamam, bunu anlamayacak ne var.
- Ayrık zaman aralıklarında geçen otobüs sayıları birbirinden bağımsız.
- Birbirinden habersiz mi kalkıyorlar?
- Tur atıyorlar.
- Duraklarda geçiş saatleri yazmıyor mu?
-Görmüyor musun, durağın tabelası bile yok, düşmüş.
- Konudan kaçma.
- Kaçtığım yok. İzin verirsen, küçük bir zaman aralığında bir otobüsün geçme
olasılığı aralık uzunluğu ile orantılı ve yeterince küçük bir zaman aralığında iki veya daha çok
otobüsün geçme olasılığının yaklaşık olarak sıfır olduğunu varsayalım. Bu varsayımlar
altında, olasılık hesaplama formülü …
- Otobüs geliyor.
- Gördün mü, küçük zaman aralıkları için bir otobüs gelme olasılığı zaman aralığının
uzunluğu ile orantılı. Geldi işte.
- Görmüyor musun, arka arkaya üç tane daha geliyor, olmaz demiştin.
- Demedim. İki veya daha çok otobüsün geçme olasılığının yaklaşık olarak sıfır
olduğunu söylemiştim.
- Her şeye rağmen gelişleri güzel, yani rasgele, gelişigüzel oldu.
Fizikçi olan arkadaşım, dünkü sohbetimizde bana: “Doğanın esası gelişigüzelliktir, ancak
gelişigüzelliğinde bir düzen vardır” deyişini söylemişti ve Heisenberg’in Belirsizlik İlkesinin
de olasılık esaslı olduğunu anlatmıştı. Heisenberg'in Belirsizlik İlkesine göre, bir parçacığın
momentumu ve konumu aynı anda tam doğrulukla ölçülemez demişti. Açıklamaya çalışmıştı,
ama ben fazla bir şey anlamamıştım. Yine de anlaşabiliyorduk..
Birinci Sınıfta Okuyan Öğrenciler İçin Poisson Dağılımı
Poisson Dağılımı sürekli ortamlarda (zaman, alan, hacim, … ) kesikli sonuçlar veren ve
aşağıda a),b),c) şıklarında belirtilen özelliklere sahip olguların modellenmesinde kullanılan bir
dağılımdır. Poisson Dağılımı ile ilgili açıklamaları ortamın zaman olması halinde yapalım.
(0,t  zaman aralığında meydana gelen sonuçların (bir olayın gerçekleşme) sayısı X olsun.
Sonuçları ortaya çıkaran deney ile ilgili aşağıdaki özellikler geçerli olsun :
a) Küçük t uzunluklu bir zaman aralığında bir başarı elde etme olasılığı t ile
orantılıdır.
b) t uzunluklu ayrık aralıklar için elde edilen sonuçlar bağımsız birer Bernoulli
Denemesidir (iki sonuçlu bir deneyin yapılması).
c) Küçük t uzunluklu bir zaman aralığında iki veya daha çok başarı elde etme olasılığı
yaklaşık olarak sıfırdır.
(0,t  zaman aralığında meydana gelen sonuç sayısı X , kesikli bir rasgele değişken olmak
üzere, X ‘in aldığı değerler x = 0,1,2,… dır. X ‘in olasılık fonksiyonunu bulmaya çalışalım.
t
tane alt aralığı parçalayalım. Belli
(0,t  aralığını yeterince küçük t uzunluklu, n 
t
bir parçada 0 veya 1 tane sonuç ortaya çıkabilir diyebiliriz. t zaman aralığında bir sonuç
çıkması veya çıkmaması bir Bernoulli Denemesi olup, sonucun ortaya çıkması olasılığı t ile
orantılıdır. Bu olasılık, c bir sabit olmak üzere, p = cD t olsun. (0,t  aralığında n tane t
uzunluklu ayrık aralık bulunmakta ve bu aralıklarda bağımsız sonuçlar veren p = cD t
olasılıklı Bernoulli Denemeleri gerçekleşmektedir. O zaman (0,t  aralığında elde edilen
t
, p  ct ) Binom Dağılımına sahip olacaktır. t  0 için
t
t
t
t
n
  , np  ct  ct   olmak üzere, b(n  , p  ct ) Binom Dağılımındaki
t
t
t
olasılıkların limitleri Poisson Dağılımındaki olasılıkları verecektir. Başka bir ifade ile, (0,t 
zaman aralığında meydana gelen sonuç sayısı olan ve Poisson dağılımına sahip olan X
rasgele değişkeninin olasılık fonksiyonu,
sonuçların sayısı b(n 
t x
 t / t 
n  x
 n x
x
t
(
c

t
)
(1

c

t
)
 lim
(
)
(1

)



n  x
n
  n
 x 
f ( x)  P( X  x)  lim

t 0 
x
n

n!
x       
 lim 
. . 1   . 1   
n   x ! n  x  ! n x
 n   n  

 n  n  1 ...(n  ( x  1))    x   n 

lim 
1   . 1   
x ! n 
nx
 n  n 
x

e   x
x!
dır.
n  n  1 (n  2)...(n  ( x  1))
n
 
1  
 n
x
x
n 

1
,
x = 0,1,2,3,...
n  1  2   x  1  n
 1  1   ... 1 
1
 
n  n  n  
n 
 
n 
 e
1   
n


n
X Poisson Dağılımına sahip bir rasgele değişken olduğunda,
e   x
x!
f ( x) 
,
x = 0,1,2,3,...
ve
M X (t )  E (etX )   etx f ( x)
x

  etx .
x 0

e   x
( e t ) x
= e  
x!
x!
x 0
 e   e e
t
 e (e 1)
t
,
tÎ R
olmak üzere,
E( X ) 
t
dM X (t )
 et e ( e 1)  
t 0
dt t 0
2
t
t
d 2 M X (t )
E( X ) 
 et e ( e 1)    et  e ( e 1)     2
2
dt
t 0
t 0
2
Var ( X )  E ( X 2 )   EX      2   2  
2
dır. Poisson Dağılımının parametresi olan  (  (0, )) sayısı aynı zamanda dağılımın
beklenen değeri (ortalaması) ve varyansıdır.  parametresinin bazı değerleri için Poisson
dağılımının olasılık fonksiyonunun grafikleri aşağıdaki gibidir.
 1
0.4
0.3
0.2
0.1
0
  2.5
0
5
10
15
20
25
30
35
40
45
50
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
0
5
10
15
20
25
30
35
40
45
50
0
5
10
15
20
25
30
35
40
45
50
 5
0.2
0.15
0.1
0.05
0
  10
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
  20
0
5
10
15
20
25
30
35
40
45
50
0.1
0.08
0.06
0.04
0.02
0
0
5
10
15
20
0
5
10
15
20
5
10
25
30
35
40
45
50
  30
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0
25
30
35
40
45
50
  0.5
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
15
20
25
30
35
40
45
50
 parametreli bir Poisson Dağılımından n birimlik bir örneklem X1 , X 2 ,..., X n olsun
( X1 , X 2 ,..., X n ‘ler bağımsız ve herbiri  parametreli Poisson Dağılımına sahip).
X1 , X 2 ,..., X n ‘lerin ortak olasılık fonksiyonu,
n
n
n
i 1
i 1
f X1 , X 2 ,..., X n ( x1 , x2 ,..., xn ;  )   f X i ( xi ;  )  
e   xi e n 
 n
xi !
i 1
x !
i 1
Olabilirlik Fonksiyonu,
 xi
i
n
L ( ) 
e
 n

 xi
i 1
n
x !
i 1
i
ve Log-Olabilirlik Fonksiyonu,
n
n
i 1
i 1
l ( )  ln L( )  n   xi  ln( xi !) ,   (0, )
olmak üzere,  parametresinin En Çok Olabilirlik Tahmin Edicisi,
n
ˆ 
X
i 1
i
n
dır. Bu tahmin edicinin beklenen değeri ve varyansı,
 n

  Xi  1
n
1 n
  E ( X i )   E ( X i ) 
E (ˆ )  E  i 1
n i 1
 n  n i 1




n


  Xi  1
n
1 n

  2 Var ( X i )  2  Var ( X i ) 
Var (ˆ )  Var  i 1
n i 1
n
 n  n
i 1




olmak üzere, Düzgün En Küçük Varyanslı Yansız Tahmin Edici’dir.
Dördüncü Sınıf Öğrencileri İçin Poisson Dağılımı
Noktasal Poisson Süreci: Zaman içinde rasgele anlarda sonuçlar veren bir süreç
gözönüne alalım. Belli bir başlangıç anından t zamanına kadar, yani 0, t  aralığında meydana
gelen sonuçların sayısı, N (t ) rasgele değişkeni ile gösterilsin. Başlangıç anında sonuç sayısı
sıfır olsun ( PN (0)  0  1 ). t1 ,t 2  gibi bir zaman aralığındaki sonuçların sayısı
N (t 2 )  N (t1 ) olacaktır. Bu süreç ile iligili aşağıdaki özelliklerin sağlandığı varsayılsın:
1) Ayrık zaman aralıklarındaki sonuç sayıları bağımsız.
2) Süreç zaman boyutunda durağan, yani t1 ,t 2  , t1  h, t 2  h aralıklarındaki sonuç
sayısını gösteren rasgele değişkenlerin olasılık dağılımları aynı olsun.
3) Küçük t uzunluklu bir zaman aralığında bir başarı elde etme olasılığı t ile
orantılı yani PN (t )  1  kt ve yeterince küçük t uzunluklu bir zaman aralığında iki
veya daha çok başarı elde etme olasılığı yaklaşık olarak sıfır, yani PN (t )  2  0 olsun.
Bu varsayımlar altında N (t ) rasgele değişkeninin olasılık dağılımını bulmaya
çalışalım. N (t ) nin alabileceği değerler 0,1,2,... olmak üzere önce PN (t )  0 olasılığını
elde edelim.
PN (t  t )  0  PN (t )  0 ve N (t  t )  N (t )  0
 PN (t )  0 PN (t  t )  N (t )  0
 PN (t )  0 PN (t )  0
 PN (t )  0 1  PN (t )  1  PN (t )  2
 PN (t )  0 1  kt 
olmak üzere
PN (t  t )  0   PN (t )  0 
 kPN (t )  0 
t
yazılır. y(t )  PN (t )  0  , t nin bir fonksiyonu olmak üzere yukarıdaki ifade t  0 için
dy (t )
 ky(t )
dt
diferensiyel denklemi biçimine gelir. y (0)  1 başlangıç değerine bağlı olarak
y(t )  e  kt
elde edilir. Buna göre t anına kadar veya t uzunlukta bir zaman aralığında sonuç olmaması
olasılığı
P N (t )  0   e  kt
dır.
Şimdi PN (t )  n , n  1,2,... olasılığını hesaplayalım.
n
PN (t  t )  n   PN (t )  j , N (t  t )  N (t )  n  j 
j 0
n
  PN (t )  j PN (t  t )  N (t )  n  j 
j 0
n
  PN (t )  j PN (t )  n  j 
j 0
olmak üzere n  1 için,
PN (t  t )  1  PN (t )  0PN (t )  1  PN (t )  1PN (t )  0
 e  kt kt  PN (t )  1
. 1  kt 
ve
PN (t  t )  1  PN (t )  1
 ke kt  kPN (t )  1
t
yazılır. y(t )  PN (t )  1 gösterimi ile t  0 için
dy (t )
 kekt  ky(t )
dt
diferensiyel denklemi elde edilir. v(t )  e kt y (t ) dönüşümü sonucu
dv(t )
k
dt
ve
v(t )  kt
y (t )  e  kt kt
bulunur. Buna göre,
PN (t )  1  e  kt kt
dır. n  2 için,
n2
PN (t  t )  n   PN (t )  j PN (t )  n  j  
j 0
 PN (t )  n  1PN (t )  1  PN (t )  nPN (t )  0
 PN (t )  n  1PN (t )  1  PN (t )  nPN (t )  0
 PN (t )  n  1kt  PN (t )  n1  kt 
 PN (t )  n  1  PN (t )  nkt  PN (t )  n
olmak üzere
PN (t  t )  n  PN (t )  n
 kPN (t )  n  1   kPN (t )  n
t
yazılır. y n (t )  PN (t )  n gösterimi ile t  0 için
dy n (t )
 kyn 1 (t )  kyn (t )
dt
diferensiyel denklemi ve vn (t )  e kt y n (t ) dönüşümü sonucu
dvn (t )
 kvn1 (t )
dt
diferensiyel denklemi elde edilir. v1 (t )  kt olmak üzere n  2,3,... için ardışık çözümler,
(kt) 2
2
(kt) 3
v3 (t ) 
2.3
...
(kt) n
v n (t ) 
n!
v 2 (t ) 
y 2 (t )  e kt
y3 (t )  e kt
y n (t )  e kt
(kt) 2
2
(kt) 3
2.3
(kt) n
n!
dır.
Buna göre,
PN (t )  n   e kt
(kt) n
n!
,
n  0,1,2,...
elde edilir.
t değerini sabit alıp t uzunluğunda belli bir zaman aralığı için bu zaman aralığında
meydana gelen sonuçların sayısı X rasgele değişkeni ile gösterilirse,   kt olmak üzere,
e  x
f ( x)  P( X  x) 
, x  0,1,2,...
x!
ve
E( X )   ,
Var ( X ) = 
dır. X rasgele değişkeni Poisson dağılımına sahiptir.
Bu kısmın başında yapılan varsayımlar altında tanımlanan N (t ) rasgele
değişkenlerinin N (t ) : t  0 ailesine Poisson Süreci denir. Poisson Sürecinde ilk sonuç
ortaya çıkıncaya kadar geçen zaman T rasgele değişkeni olmak üzere,
P(T  t )  PN (t )  0  e  kt
F (t )  1  P(T  t )  1  e  kt
f (t )  ke kt
dır, yani T üstel dağılıma sahiptir. Birinci sonuç ortaya çıktıktan sonra ikinci sonuç meydana
gelinceye kadar geçen zaman da üstel dağılıma sahiptir. Poisson Sürecinde sonuçların ortaya
çıkış zamanları arasındaki farklar bağımsız ve aynı üstel dağılımlı rasgele değişkenlerdir.
Yüksek Lisans Öğrencileri İçin Birazcık Poisson Dağılımı
Bir basımevinde şöyle bir problem ortaya çıkmıştır: 10000 adet baskısı yapılmış,
harmanlanmış, henüz ciltlenmemiş bir kitabın bazı sayfalarında bazı harflerin silik çıktığı
gözlenmiştir. Sebebi araştırıldığında, bunun kâğıttan kaynaklandığı ortaya çıkmıştır.
Kesilmemiş kâğıt ruloları incelendiğinde, seyrek de olsa, aşağı yukarı harf büyüklüğünde,
mürekkebi zamanla soluklaştıran ve yok olmasına sebep olan bazı gözle görünmeyen benekler
tespit edilmiştir. Bu benekler, kâğıt üzerinde düzensiz, üst üste binmemiş ve rasgele bir
şekilde dağılmış gibi görünmektedir. 500 sayfalık olan kitapların toplam 5 milyon sayfasında
silik harf bulunduran sayfa sayısı az ise bunların tespitine ve düzeltilmişleri ile
değiştirilmesine, aksi halde kitapların atılmasına karar verilecektir. Bu amaçla kusursuz (silik
harf bulundurmayan) sayfaların oranı (kitle oranı) tahmin edilmek istenmektedir. Bu göreve
soyunan iki istatistikçi aşağıdaki gibi düşünmektedir.
Birincisi: 5 milyon sayfadan rasgele 50 tane seçer (belli bir şekilde sayfaları 1 den 5000000 a
kadar numaralandırıp rasgele rakamlar tablosu veya sayı üreteçleri kullanarak 200 tanesini
seçer) ve seçilen sayfaların kusurlu olup olmadığını gözlerim. Gözlenen oranı, kitle oranı için
bir tahmin olarak alırım. İstatistik kavramları çerçevesinde ifade edilirse; kitle oranını
p ( p  (0,1)) ile gösterip, seçilen sayfa için kusursuz olmayı başarı diye nitelendirip, b(1, p)
Bernoulli Dağılımını model olarak kullanırım. n (n  200) birimlik Y1 , Y2 ,..., Yn örneklemini
bağımsız ve aynı b(1, p) dağılımlı rasgele değişkenler olarak görebilirim. Kitle oranı olan
p parametresi için,
n
Yn 
Y
i 1
i
n
örneklem oranını tahmin edici olarak kullanırım.
İkincisi: Bir sayfadaki silik harf sayısını Poisson Dağılımına sahip diye düşünüp, 5 milyon
sayfadan rasgele 200 tane seçer, her sayfadaki silik harf sayısını gözler ve n (n  200)
birimlik X1 , X 2 ,..., X n örneklemini bağımsız ve aynı  (  (0, )) parametreli Poisson
Dağılımlı rasgele değişkenler olarak görebilirim. Kitle oranı p (birinci istatistikçinin model
olarak kullandığı Bernoulli Dağılımının parametresi), bu modelde rasgele seçilen bir
sayfadaki silik harf sayısının sıfıra eşit olması olasılığı, yani
p  P( X  0)  e 
dir. e   nın En Çok Olabilirlik Tahmin Edicisi,
pˆ  e X n
dır. Diğer taraftan p = e   için Düzgün En Küçük Varyanslı Yansız Tahmin Edici (UMVUE),
1
p  (1  ) nX n
n
dır. Ayrıca, Poisson Dağılımında  parametresinin dağılımın varyansı olduğu göz önüne
alınırsa, p = e   için,
U e
 Sn21
V  e  Sn
2
tahmin edicileri de önerilebilir. Bunun ötesinde, n birimlik örneklemde kusursuz sayfaların
oranı olan,
n
W
 I(X
i 1
i
 0)
n
istatistiği de p için bir tahmin edicidir. Bu tahmin edici birinci istatistikçinin kullandığı
tahmin edicidir. Bu tahmin edicileri düşünebilirim.
T1  e X n
1 nX n
T2  (1  )
n
T3  e
T4  e
 Sn21
 Sn2
n
T5 
 I(X
i 1
i
 0)
n
Bu tahmin edicilerden hangileri yansız, hangisi Hata Kareleri Ortalaması (MSE) ölçütüne
göre en iyidir? Kolay gelsin.
12.10.2004
Download