RASTGELE DEĞİŞKENLER VE PARAMETRELER Daha önceki

advertisement
RASTGELE DEĞİŞKENLER VE PARAMETRELER
Daha önceki bölümlerde belirli ve belirsiz olaylardan sıklıkla bahsedildi. Rastgele veri
üretiminin integral alan hesaplamalarında bile kullanılabileceğinden söz edildi. Kısacası
rastgele değişken bir sonraki durumun ne olacağı önceki bilgiler ile kesin olarak bilinemeyen
değişkenlere denir. Bu değişkenlerin, zaman ve uzay eksenine göre değişimini gösteren
grafiklere sinyal, zaman serisi veya örnek fonksiyonu şeklinde değişik isimler verilir.
Belirsiz olayların sonucu birçok olabilirlik ve her bir olabilirlik de rastgele sayısal değerlere
sahiptir. Bir yapının ömrü boyunca maruz kalacağı rüzgar yüküdeğerleri, trafikte belirli
kilometreler arasında kaza meydana gelme sayısı, bir partinin genel seçimlerde çıkaracağı
milletvekili sayısı, bir günde doğan çocukların sayısı, deniz dalalarının yükseklikleri, bir
bölgenin sıcaklık değerleri, at yaışlarının sonuçları, barajlara aylık olarak gelecek su miktarı,
atom altı parçacıkların konum ve momentumları, önümüzdeki 100 yılda meydana gelebilecek
en şiddetli depremlerin Richter ölçeğine göre şiddeti, vb. birçok olay rastgele davranışlara ve
bunun sonucunda da ölçülebilen değişkenlere sahiptir.
Rastgele Değişken Türleri
Rastgele değişkenlik üç durumdan biri şeklinde ortaya çıkar.
Bunlardan birincisi, olabilirlik sayılarının ve herbir olabilirliğe tekabül eden miktarların
ikisinin de rastgele olmasıdır. Bir bölgede meydana gelecek olan kuraklık sayısı ve şiddeti
rastgele değerlerdir. Bu gibi değişkenlere rastgele sayıda rastgele değişken adıverilir.
İkincisi, basit halleri olan olabilirlik sayısının belirli ama miktarının rastgele olması durumu
rastgele değişken türünü verir. Bu rastgeleliklere durum rastgeleliği adı verilir. Yağışlı veya
yağışsız, sisli veya sissiz, güneşli veya güneşssiz, sondaj kuyusunun kuru veya yaş olması,
futbol karşılaşmasında galibiyet, mağlubiyet veya beraberlik olması, ticaretin karlı veya karsız
olması durumların her biri durum rastgeleliğine birer örnek teşkil eder.
Üçüncüsü, olabilirliklerin belirli olmasına karşın sadece miktarlarının rastgele olması
durumudur. Örneğin bir paranın atılması halinde olabilirlik uzayında yazı veya tura olmasına
ve 95 kere atılması halinde yazının ve turanın toplamı belli olmasına karşılık kaçının yazı
kaçının tura geleceği rastgele değişkendir. Zamanla değişken olan belirsiz olayların, mesela
günlük ölçümler dizisinde olabilirlik olarak düşünülen günler tarih olarak bellidir. Fakat hangi
günde örnekten ne miktarın ortaya çıkacağı kesinlikle bilinmez. Üçüncü türden olan bu
rastgeleliğe Şiddet veya miktar rastgeleliği adı verilir. Bu rastgeleliğe örnekte yağışlı olan bir
günde ne miktarda yağmur düşeceğinin bilinememesidir. Hergün ve hatta her an sıcaklık,
nemlilik gibi sürekli değişkenler mutlaka vardır ama bunların günlük şiddetlerinin yani
miktarlarının ne olacağı rastgele bir değişkenliğe sahiptir.
Bu rastgeleliklerin her biri sadece bir rastgele sinyalin içinde bulunabilirler. Örneğin aşağıdaki
gibi bir rüzgar türbininin belirli bir süre zarfındaki enerji verimliliklerini düşünelim. Bu zaman
zarfında rüzgar şiddetleri sürekli rastgele olmalarından dolayı türbinin enerji verimlilikleri de
rastgele olacaktır.
0.6
0.5
Enerji Verimliliği/100
(E)
0.4
y
0.3
d
0.2
0.1
0
1
9
17 25 33 41 49 57 65 73 81 89 97 105 113 121 129 137 145 153 161 169 177 185 193 201 209 217 225 233
Zaman (t)
Böyle bir sinyalin t anında bir miktar değişkenliği vardır. Sinyal n tane ölçüme dayanıyorsa
bu örnekte olduğu gibi n tane rastgele ölçüm vardır. Bu miktar değişkenliği bir andan diğerine
kesin olarak değil ancak belirli yaklaşık değerlerle bilinebilir. Bu miktar değişkenliğine ilave
olarak, sinyalin yukardaki şekildeki gibi E(0.3) seviyesinde kesilmesi ile, bu seviyeye göre
yüksek, yi (Si > E(0.3)) ve düşük, di (Si < E(0.3)) gibi durum rastgele değişkenleri ortaya
çıkar. Bu örnekte durum sayısı ikidir ama hangisinin hangi zamanda ortaya çıkacağı kesinlikle
bilinmez. Burada miktar önemli değildir. Üçüncü olarakta, kesim seviyesi boyunca yüksek
verimlilik (y1, y2, ...., yn) ve düşük verimlilik (d1, d2, ......, dn) sürelerinin düşünülmesi ile yeni
bir rastgele değişkenler dizisi elde edilir. İşte bu sürelerin sayısı ve uzunlukları rastgele
olduklarından bunlara rastgele sayıda rastgele değişken adı verilir.
Yukarıdaki veri dizisini temsil eden grafiğe aynı zamanda örnek fonksiyon/zaman serisi de
denir. Bir dizi ile karşılaşıldığında ilk yapılması gereken onun kartezyen koordinat sisteminde
garfiksel olarak basit bir şekilde çizilmesidir. Görsel olarak bu grafik gösterimi bize
a- Başlangıç ve sonuç durumlarını (büyüklük ve zaman olarak),
b- Verilerin en büyük ve en küçük değerlerinin ne miktarda ve hangi zamanda olduğunu,
c- Verilerin içinde hangi değerin sıklıkla bulunduğunu,
d- Veriler arasındaki zikzaklığın (değişimin) fazla olması durumunda belirsizlik
miktarının oransal olarak tahmin edilebilmesi durumunu,
e- Verideki genel gidişatın artar mı yoksa azalan mı yönde olduğu?
f- Veride sorunlu noktalar olup olmadığı,
g- Veri dizisi boyunca peryodik salınımların bulunup bulunmadığı,
Önceki bölümlerde kümeler ve daha sonra sayma teknikleri ve ihtimal yaklaşımları ile bir
ölçüye kadar belirsizlik yöntemlerinin rastgele değişkenlerin işlenmesinde nasıl kullanıldıkları
hakkında detaylı bilgiler verilmişti. Ancak bunlar belirsiz olayları ayrıntılı incelenerek bazı
parametrelerinin bulunmasına yetmeyebilir. Bunun için belirsiz olaylarla ilgili bir dizi
ölçümlerin yapılması sonucunda elde edilen diziden belirsizliğin ihtimal ve bununla bağlantılı
olarak diğer türden çeşitli ortalama davranışlarını temsil eden parametrelerin de tanımlanması
gerekir. Çok sayıda rastgele değişken değerinin, böylece az sayıda anlamlı parametrelerle izah
edilerek yorumlar çıkarılmasında büyük yararlar ve kolaylıklar vardır. Örneğin uzun zaman
sürelerinde olayın ortalama davranışlarının bilinmesi ile o olayın genel davranışları hakkında
bilgi sahibi olabiliriz.
Her olayda, ilgilenilen davranışın bir ölçüsü olarak, rastgele değişken büyük harf ile temsil
edilir. Mesela, X taşkın rastgele değişkeni ise, X>10 (m3/s) ifadesi taşkının miktarının 10
(m3/s)’den daha büyük olduğunu gösterir. Rastgele değişkeni temsil eden büyük harflerin,
X=a, X<a, X>a, X≤a, X≥a gibi ifadelerle, o rastgele değişkenin değişik alt olayları izah edilir
Kesikli Rastgele Değişken
Arda arda ayrık değerler alan değişkenlere kesikli rastgele değişken denir. “Yağmur
var-yok”, zaman boyunca “malzeme bozuk-sağlam” sayısı, bir kişinin belirli bir sürede
tutabildiği balık sayısı kesikli değişkenlere birer örnektir. Bu değişkenlerin
modellenmesi diğerleri ile karşılaştırıldığında daha zordur. Öncelikle bu tip verilerin
sözel modellerinin çok sağlam kurulması gerekmektedir. Bunun da yolu verileri iyi
yorumlamaktan geçmektedir. Aşağıdaki şekilde belirli bir zaman aralığında oluşmuş
trafik kazalarının sayısı bulunmaktadır.
10
9
8
Trafik kazası sayısı
7
6
5
4
3
2
1
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
Zaman
Sürekli Raslantı Değişkeni
Sürekli raslantı değişkeni, bir aralıkta (belirli sınır şartlarında), ondalık sayılarla süreklilik
içeren değerler anlamına gelir. Bu değişkenler istenilen her türlü incelikle ölçülebilir. Kesikli
ve sürekli raslantı değişkenleri arasındaki en önemli fark kesikli olanların olabilirlik
sayılarının ve ihtimallerinin istenilen değer için daha açık bir şekilde tanımlanabilmesidir. Fakat
sürekli raslantı değişkeninde her bir değerin ihtimali daha düşüktür. Hatta küsüratlar hesaba
katıldığında olabilirliği sıfıra yaklaşmaktadır. Kısacası çok hassas değerler bir veya daha küçük
değerlerde olmaktadır. Ancak aralık alındığında bu değerlerin olabilirlikleri de artacaktır.
Bir uzunluğun değişik kişiler tarafından ölçüldüğünü düşünelim, ölçülen çubuk ve ölçen metre
hep aynı olmasına rağmen genelde sonuçlar birbirinden farklı olabilmektedir. Bazen neredeyse
ölçümün aynısını bir kere daha yapmak mümkün olamamaktadır. Yani değerler birbirine çok
yakın olmalarına rağmen her bir değer bir defa tekrar edebilmektedir. Bu durumda bu değerlerin
ihtimalleri sıfıra çok yaklaşmaktadır. Ancak ölçümlerin bir desimale yuvarlatılarak yapılması
arzu edilirse aynı ölçüm değerlerini daha fazla sıklıkla gözlemleyebiliriz.
Kümeyi Oluşturan Noktalar ve Parametreleri
Küme elemanlarının rastgele olan değerleri bir dizi teşkil etmektedirler. Bu dizide elemanların
sırası önemli olabilir veya olmayabilir. Önemli olamamsı durumunda, dizinin zaman veya
konumla deişimleri değil de genel olarak zaman ve konumdan bağımsız davranışlarının
parametre halinde incelenmesi yolu açılır. Burada zaman veya konum yorumları yapılamaz.
Örneğin, taşkın, deprem, kasırga, fabrikada üretilen malların çeşitliliği, uzaydaki gezegenlerin
sınıfları için gerekli hesaplamalarda zaman gözönünde tutulmaz. Bunların gelecek 50 ve 100
yıl içinde herhangi bir zamanda ortaya çıkabilecekleri düşünülerek hesaplar yapılır. Buradan
başka bir çıkarım olarak da, dizi öğelerinin ard arda gelmesinin hiç önemi olmaması, bunların
ardışık olarak bir sıra dahilinde birbirini etkilemedikleri gerçeğine varılabilir. Biraz daha ileri
gidecek olursak, aynı olayın farklı zaman ve konumlardaki rastgeleliğin birbirine etkisi
bulunmadığı yani olayın ortaya çıkışında bir bağımsızlığın bulunduğu düşüncesine varılabilir.
İşte bu şekilde olayların incelenmesi ile ortaya çıkan parametrelere, zaman ve konumdan
bağımsız parametreler adı verilir. Ayrıca bunların ortaya çıkışında iç bağımlılığın
bulunmadığı da anlaşılmaktadır.
Tekil Dağılım Fonksiyonu
Rastgele değişkenlerin en önemli özelliği noktasal değerlerden ziyade aralık değerlerinin göz
önünde tutulmasıdır. Daha önce değinildiği gibi belirsizlik olaylarının değerlendirilmesinde
nokta değerler veya çıkarımlar yerine aralık çıkarımların kullanılması özellikle sürekli raslantı
değişkenleri için önemlidir.
Elimizde bir belirsizlik olayının ölçümü sonucunda elde edilmiş olan bir dizi veri bulunsun.
Genel olarak bu ölçümler dizisi X1, X2,.......,Xn şeklinde gösterilir. Bu dizinin en büyük, Xb ve
en küçük Xk değerleri arasındaki fark bize verilerin değişim aralığı nı verecektir. Burada
∆X = Xb – Xa
olacaktır. Nasılki klasik matematikte fonksiyonların değişim aralığı varsa belirsizlik
durumlarında da, rastgele değişkenlerin ya ölçümlerinden yada tecrübelerden yararlanarak
değişim aralığı hesaplanır. n adet verinin hepsi bu aralığa düşer. Yalnız bu aralığın hesaba
alınması halinde rastgele değişkenin olabilirlik sayısı, yani sonuçlarının düşebileceği öğe bir
tanedir. Ancak herhangi bir rastgele değişkenin daha ayrıntılı değerlendirmesinin yapılabilmesi
için olabilirlik alt aralıkarının iyi tanımlanması yani belirlenmesi ve herbirine düşen veri
sayısının belirlenmesi gerekmektedir. Böylece, alt aralık şeklinde, yapay da olsa olayın
olabilirlik uzayında eleman sayısı artırılır ve rastgele değişkenin küçük ölçekteki davranışları
ortaya çıkarılır. Pratik uygulamalarda alt aralık sayısını veren değişik amprik (tecrübeye
dayanan) formüller vardır. Bunların her biri veri sayısına bağlıdır. Örneğin, rastgele değişkenin
alt aralık şeklinde olabilirlik sayısı m’yi veren formüller
m = 1+3.3 logn
veya
m = logn/log2
Bu konulardaki uzman kişilerin önerisi alt aralık sayısının 5’ten küçük ve 15’ten büyük
alınmaması yönündedir. Her bir aralığın ortasını temsil eden rastgele değişken değerine o
aralığın olabilirlik değeri olarak bakarsak m tane olabilirlik değeri var demektir (x1,
x2,..............,xm) . Bu şekilde belirlenen her bir aralığa düşen veri sayısına sıklık (frekans) (Fx1,
Fx2,......,Fxm) denir. Alt aralık sayısı kadar sıklık değeri bulunur. Tanım olarak bu sıklık
değerlerindeki verilerin toplamı veri sayısına eşittir.
Fx1+ Fx2+......+Fxm = n
Bu ifadenin her iki tarafının n’ye bölünmesiyle veri sayısından bağımsız olan bağıl sıklık
değerleri (fx1, fx2,......,fxm) elde edilir. Bu şekilde tanımlanan oran sıfır ile bir arasında değişir ve
asla negatif olamaz ( 0 ≤ fxi ≤ 1). Bu değerlere olayın ihtimali, yüzdesi, bağıl sıklığı, bağıl
frekansı veya bağıl ihtimali denir. Bu durumda
fxi = Fxi/n
Şeklinde ifade edilir. Bu durumda
fx1+ fx2+......+fxm =1
olacaktır. Bu yaklaşım ve hesapların yapılmasının nedeni rastgele değişkenin dağılım
fonksiyonunun elde edilmesi içindir. Bir rastgele değişkenin dağılım fonksiyonu, veri değişim
aralığında alt aralıklara göre veri sıklık veya bağıl sıklıklarının değişimini gösteren grafik olarak
gösterilir. Alt aralıklar sonlu uzunlukta olduğundan bu fonksiyonun verilerden elde edilen
yapısı aşağıdaki şekilde görüldüğü gibi basamaklı bir çubuk diyagramı olur.
Bağıl sıklık (frekans)
f4
f1
f8
0
xek
xeb
Dağılım fonksiyonu şekli olarak gösterilebildiği gibi çizelge halinde de yazılabilir.
Olabilirlik rastgele değişkeni
Sıklık (frekans)
Bağıl sıklık (frekans)
x1, x2,..............,xm
Fx1, Fx2,..........,Fxm
fx1, fx2,............,,fxm
Bir anlamda bu çizelge, x sonlu kümeli olabilirlik uzayında bir küme ile gösterilebilen bir
rastgele değişkendir. Sıklıklar belirlenen aralığın tekrar sayıları olup bağıl sıklıklar bu aralığın
ihtimalleridir. Ayrıca
F(x = xi) = fxi
Olarak tanımlanan fonksiyona x’in dağılımı yada ihtimal fonksiyonu denir ve histogram adı
verilir. Bu dağılımda
0 ≤ fxi ≤ 1
ve
fx1+ fx2+......+fxm =1
gibi en temel iki kuralı bulunmaktadır. Pratik çalışmalarda olaydan olaya, konudan konuya
bağıl sıklık diyagramları değişecektir. Çeşitli durumlarda karşımıza çıkabilecek bağıl sıklık
diyagramlarından bazı örnekler aşağıdaki gibidir.
Bağıl sıklık (frekans)
0
(a)
Sola çarpık bir bağıl sıklık diyagramıdır. Küçük değerlerin daha sık gözlendiği ve bazı
durumlarda risk oluşturabilecek maksimum değerlerin az gözlendiği bir ihtimal dağılımıdır.
Bağıl sıklık (frekans)
0
(b)
Bu da sola çarpık histograma bir örnek olabilir. Fakat küçük şiddeteki değerler (a) ya göre daha
düşüktürler.
Bağıl sıklık (frekans)
0
(c)
Sağa çarpık olayları temsil etmede kullanılabilir. Örneğin nüfusu giderek yaşlanan bir ülkede
gençler azınlıkta olacaktır.
Bağıl sıklık (frekans)
0
(e)
Bu histogram normal dağılımı aritmetik ortalama durumunda temsil etmektedir. Ortalamaya
göre simetrik bir yapı sergilemektedir. İleride görülecek olan normal dağılımı temsil
etmektedir.
Bağıl sıklık (frekans)
0
(f)
Ortalama civarında normale yaklaşmakta fakat normal dağılım olmamaktadır.
Bağıl sıklık (frekans)
0
(f)
Tek ve homojen bir yapıyı temsil etmektedir. Bir anlamda ortalamanın ifadesidir. Bu durum
büyük sorunlar ortaya çıkarmaktadır.
Bunlara ilave olarak pratik kullanımlar için ihtimal dağılım fonksiyonu raslantı değişkenin en
küçük değerinden başlayarak en büyüğüne doğru gidildikçe ihtimallerin (bağıl sıklıkların)
ardışık toplamları alınırsa sonunda toplam ihtimal değeri 1’e ulaşacaktır. Böylece aşağıdaki
şekilde görüldüğü gibi hiç azalmayan ve gittikçe artan bir eğri elde edilir. Bu eğriye rastgele
değişkenin toplam bağıl sıklık fonksiyonu veya toplam ihtimal dağılım fonksiyonu (TİDF)
adı verilir. Buna S harfine benzediği için S fonksiyonu da denir.
fx1 = Fx1/n
fx2 = (Fx1+Fx2)/n
......
fxn =(Fx1+Fx2+......+Fxn)/n
Bu grafiğin bir kaç özellik ve yararı şöylece sıralanabilir
a- TİDF’de değişim aralığı sonundaki sıklık veri sayısına eşittir. Yine yatay eksende alınan
herhangi bir noktanın düşey eksendeki karşılığı o noktadan daha küçük değerlerin
sayısıdır.
b- TİDF’de n/2 veri sayısına karşı gelen düşey eksen değerinin yatay eksendeki karşılığı
örnek fonksiyonun orta değerini yani medyan’ı verir.
Bağıl sıklık (frekans)
0
Parametrik Büyüklükler
Parametre bir veri dizisinin belirli bir özelliğini verilerin tümü veya bir kısmını hesaplamalara
katarak bulunan ve bir tek değeri olan büyüklüklere denir. Bu parametrelerin her biri verilerin
genel davranışı hakkında sorulan bazı sorulara cevap oluşturur. Bu sorulardan bazıları;
1. Acaba veri dizisi hangi ortalama etrafında salınımlarını gösterir?
2. Tespit edilen ortalama seviye etrafında acaba bu seviyeden olan salınımlar, sapmaların
miktarı nasıl olçülebilir?
3. Farklı iki veri dizisi/örnek fonksiyonu birbiri ile kıyaslaması nasıl yapılır?
4. Acaba verilerin çoğuortalamanın altındamıdır yok sa üstünde midir?
5. Acaba tüm veriler arasında hangi nokta veya gurup en fazla sıklıkla ortaya çıkmaktadır?
6. Verilerin yarı sayısını altında yarısını da üstünde bulunduran veri değeri nedir?
7. Acaba arda arda gelen verilerin birbirine etkisi varmıdır? Yoksa veriler tamamen
birbirinden bağımsız mı olarak ortaya çıkıyorlar?
8. Acaba veri dizisi üzerinde zamanın, bölgenin veya çalışılan sistemin bir etkisi varmıdır?
9. Acaba verilerin uç değerleri ve değişim aralığı nedir?
10. Acaba veri değişim aralığında bulunan ve belki de mühendislik tasarımları için önemli
olan bir alt aralıkta verilerin yüzde kaçı bulunmaktadır?
11. İki veri gurubu arasında bir etkileşim varmıdır?
12. Bütün veri guruplarında aynı parametreler kullanılırsa ne olur?
Beklenen Değer
Şu ana kadar tanımlanmaya çalışılan ihtimal dağılım fonksiyonundan veya daha önce verilen
çizelge yardımıyla x rastgele değişkeninin beklenen değer parametresini
E ( x)   x  x1. f x1  x2 . f x2  ........  xm . f xm
Olarak tanımlayabiliriz. Beklenen değer kısaca μx ile gösterilir. Aslında bu x, rastgele
değişkeninin olabilirlik değerlerinin ağırlıklı ortalamasından başka bir şey değildir. Bu
denklem , daha önce verilen sıklık ve bağıl sıklık bağıntısı tanımından yararlanarak
E( x)   x  ( x1.Fx1  x2 .Fx2  ........  xm .Fxm ) /( Fx1  Fx2  .......  Fxm )
Olarak ifade edilirse ağırlıklı ortalama daha açık bir şekilde görülmüş olur. Beklenen değer
işleminin rastgele değişken olabilirlik değerleri ile doğrusal olan tanımının vereceği başlıca
önermeler şunlardır.
1. Bir x rastgele değişkeni sabit bir k sayısı ile çarpılırsa elde edilen yeni kx rastgele
değişkeninin beklenen değeri önceki rastgele değişkenin beklenen değerinin bu k sabiti
ile çarpımına eşittir.
E(kx) = k. E(x)
Aslında dizi elemanlarının sabit k sayısı ile çarpılması, rastgele değişkenlik ölçeğinin
değiştirilmesi, yani k>1 için büyütülmesi, k<1 için küçültme işlemi anlamına
gelmektedir.
2. Aynı olabilirlik uzayının iki farklı rastgele değişkeni x ve y ise, bunların toplamının
beklenen değeri, her birinin beklenen değerleri toplamına eşittir
E(x+y) = E(x) + E(y)
Bunun geneleştirilmesi ile, aynı olabilirlik uzayının n tane rastgele değişkeni toplamının
beklenen değeri, herbirinin beklenen değerleri toplamına eşit olacağı çıkarımına varılır.
E(x1 + x2 +.................+ xn) = E(x1) + E (x2) +..........+ E(xn)
Aslında beklenen değer teorik bir kavramdır. Bunun pratikte çok yaygın olarak kullanılan
karşıtı aritmetik ortalamadır. Ortalama değer
x
1 n
 xi
n i 1
Burda belirtilmesi gereken bir nokta ihtimal dağılım fonksiyonunun simetriğe yakın olması
durumunda en büyük ihtimalli olabilirlik alt aralığın orta değeri aritmetik ortalamaya eşittir
(Şekil e). Şekil f’de ise ortalama bütün değerleri temsil etmektedir. Bir anlamda bu frekans
dağılım fonksiynu ortalamadır. Diğer şekillerde aritmetik ortalamayı direk kullanmak
büyük sorunlara yol açacaktır.
Beklenen değere benzer olarak rastgele değişkeni en iyi şekilde temsil edecek büyüklük en
sık tekrarlanan değeri ifade eden Mode (en sık değer) dir. Simetrik dağılımlarda en sık
değer yani mode ile aritmetik ortalama eşit olacaktır. Fakat simetriklik bozuldukça
birbirleirnden olan farklar artacaktır. Şekil e ve c mode kullanımına en iyi örnektir.
Ortalama ve mode değerlerine ilave olarak dizinin Medyan’ı (orta değeri) yine beklenen
değeri temsilde kullanılabilmektedir. Bunu elde etmek için diziyi küçükten büyüğe veya
büyükten küçüğe histogramını çizmeden sıralıyoruz. Dizinin orta değeri bize ortalama
değere yakın bir değer verecektir. Dizideki sayıların toplamı tekli olursa orta değeri
kullanıyoruz. Eğer sayıların adedi çiftli bir değer olursa bu durumda n/2 ve (n/2)+1
sayılarını toplayıp ortalamasını alıyoruz. Bu değerler bize ortalamaya yakın sonuçlar
verecektir.
Varyans (Değişinti) ve Standart Sapma
Yukarıdaki şekillerde de görüleceği gibi sadece histogramları beklenen değer olarak
ortalama ile ifade etmek büyük sorunlara yol açacaktır. Sadece ortalamanın kullanılması
durumunda ortalamadan olan sapmaları veya veri içindeki değişimleri göremeyiz.
Sapmaları göremediğimiz durumda sadece veri ortalamadan ibaretmiş gibi bir sonuç ile
karşı karşıya kalmış oluruz. Burada akla gelen soru, acaba beklenen değer etrafındaki bu
sapmaların bir ölçütü yokmudur? Aslında sapmaların bir ölçütü olan parametrenin sıfırdan
farklı olması durumunda değişkenin rastgele olduğuna karar verilebilir. Sonuç olarak
sadece beklenen değer parametresi rastgele değişkenin belirsizliği hakkında bilgi
vermiyecektir.
Varyans (değişinti) olarak tanımlanan bu X parametresi, rastgele değişkenin sapmalarının
beklenen değer etrafında ne büyüklükte olduğunu tesbit etmeye yarar. Bir X rastgele
değişkeninin varyansı V(X) veya kısaca  2 notasyonu ile gösterilir. Varyans, tanım olarak;
X raslantı değişkeninin beklenen değerinden olan farklarının karelerinin beklenen değeridir.
Buna göre
n
 2   ( xi   )2 . fi
i 1
Beklenen değer genelde ortalama alındığından dolayı varyans, ortalamadan olan farkların
karelerinin ortalaması olarak ifade edilebilir. Burada farkların karelerinin alınmasının
sebebi, sapmaların artı ve eksi olanlarının birbirini götürerek varyansın sıfır çıkmasını
önlemek içindir. Varyans üzerinde düşünülecek olursak sadece belirgin olayların varyansı
sıfır olur. Yani varyansı sıfır olan olay belirgindir, başka bir ifade ile varyans büyüdükçe
belirsizlik artar.
Varyansın birimi, rastgele değişkenin karesi olacağından varyans ile rastgele değişkeni,
beklenen değer parametresini, mod veya medyan değerlerini karşılaştırmak mümkün olmaz.
Bu durumda ne yapmalıyız? Örneğin rastgele değişken birimi metre ise varyansın birimi
(metre)2 olacaktır. Varyansın, rastgele değişken ile kıyaslayabilmek için varyansın
karekökü alınmaktadır. Tanım olarak varyansın karekök değerine rastgele değişkenin
standard sapması denir.
  2
Standard sapmanın bir artı birde eksi değeri vardır. Bu durum gerçekte beklenen değerin
sağında ve solunda değerler olmasından dolayı mantıklıdır ve önemli bir sorunu ortadan
kaldırmaktadır.Beklenen değerden olan sapmaların bir tür ağırlıklı ortalamaları standart
sapmayı vermektedir.
Yukarıda verilen ve beklenen değere göre hesaplanan varyans ifadesinin ortalama değer göz
önünde bulundurularak açılmasıyla
 x 2  Var ( x) 
1 n
( xi  x) 2

n i 1
Şeklinde elde edilir. Daha önce izah edilen aritmetik ortalamada olduğu gibi burada da eşit
ihtimal (1/n) göz önünde tutulmuştur. Yukarıdaki denklem pratikte çok kullanılmaktadır.
Veri sayısının çok az, 10 civarında, olması durumunda tanımın paydasındaki n yerine (n-1)
konarak hesapların yapılması tavsiye edilmektedir.
Varyans hesaplamaları ile ilgili bazı önermeler aşağıdaki gibidir;
1. Bir X rastgele değişkeninin varyansı Var (X) olduğuna göre, bu değişkenin k gibi bir
sabit ile çarpılması sonunda elde edilen yeni rastgele değişkenin varyansı k2Var(X) olur.
2. Aritmetik ortalama ve varyansa fiziksel anlamlar da verilebilir. Bir eksen boyunca
başlangıç noktasından olan uzaklık xi uzaklıkları ile, o noktadaki fxi bağıl sıklıkları birer
ağırlık gibi düşünülmesi sonucunda elde dilen sistemin aritmetik ortalaması, sistemin
ağırlık merkezini (sentroid), varyans ise sistemin atalet momentini verir. Diğer bir ifade
ile , aritmetik ortalama birinci moment, varyans ise ikinci moment olarak adlandırılır.
3. Doğal ve sosyal olayların çoğu simetriğe yakın ihtimal dağılım fonksiyonları verir. Bu
durumda beklenen değer (aritmetik ortalama) ve varyans veya standart sapma tüm
dağılımı ve rastgele değişimin davranışını temsil etmeye yeterlidir.
4. Birbirine bağımlı olmayan iki veya daha fazla raslantı değişkeninin toplamlarının
varyansı bunların ayrı ayrı varyansları toplamına eşittir.
Var(x1+x2+.......+xn) = Var(x1)+ Var(x2)+......+Var(xn)
Birbirine bağlı olan raslantı değişkenleri için bu durum geçerli değildir.
Değişim Katsayısı
Verilerdeki salınımları tespit etmek için veri topluluğunun standart sapması ve aritmetik
ortalaması karşılaştırılmaktadır. Ortalamadan sapma ne kadar büyük ise değişim katsayısı da o
kadar büyük olacaktır. Değişim katsayısı verinin standart sapmasının veri ortalamasına oranı
olarak tarif edilmektedir. Bun agöre
Dx 
x
x
Bu katsayı aynı zamanda farklı iki veri gurubunun birbirleriyle olan ilişkilerini ve değişimlerini
belirlemek için de kullanılmaktadır. Farklı iki veri gurubunu kıyaslamada sıklıkla bu katsayıya
başvurulmaktadır. Değişim katsayısı ne kadar küçük olursa tahmin (öngörü) o kadar kolay ve
başarılı olur.
Çarpıklık Katsayısı
Bir rastlantı değişkeninin bağıl sıklık fonksiyonu simetrik değilse bu değişken çarpık olarak
ifade edilir. Çarpıklığın ölçütü olarak da çarpıklık katsayısı kavramı dikkate alınır. Daha önce
anlattığımız gibi aritmetik ortalama birinci dereceden, varyans ise ikinci dereceden moment
olarak düşünülebileceği söylenmiş idi. Çarpıklık katsayısı da üçüncü dereceden momenti
ifade eder. Tanım olarak varyansa benzer fakat farkların karesi yerine küpleri gelir. Böylece
çarpıklık katsayısı
 
1 n 1
( xi  x ) 3

3
n i 1 
Şeklinde tanımlanır. Farkların kübü alındığından, varyanstan farklı olarak çerpıklık katsayısının
değeri artı, sıfır veya eksi olabilir. Bu katsayının sıfır olması ihtimal dağılım fonksiyonunun
simetrik olduğunu gösterir. Katsayının artı veya eksi işaretli olması ise katsayının sırasıyla sağa
veya sola çarpık olduğunu yani değerlerin bu bölgelerde kümelediklerini gösterir. Sağa (artı)
çarpıklık durumunda verinin büyüklükleri ortalamanın genelde üzerindedir fakat sola (eksi)
çarpıklıkta bunun tersi durum söz konusudur.
STANDART ÖRNEK FONKSİYONU (STANDARTLAŞTIRMA)
İstatistikte sıklıkla kullanılan tanımlardan biri de standart örnek fonksiyonu veya veri dizisidir.
Buna aynı zamanda örnek fonksiyonun standartlaştırılması da denir. Doğa bilimlerinde veya
uygulamalı mühendislik dallarında farklı birimlere ve ölçeklere sahip örnek fonksiyonların aynı
zamanlı değerlerinin karşılaştırılması gerekebilir. Örneğin farklı ölçek ve birimlere sahip olan
sıcaklık ve yağış arasında karşılaştırılma yapılmak istendiğinde bunların aynı birim altında
olması veya birimsizleştirilmesi gerekir. Standartlaştırma işleminde aritmetik ortalama ve
standart sapma değerlerinden yararlanılır. Bu durumda örnek fonksiyonundaki her bir değer
standart hale her bir değerden aynı sayının çıkarılması ve aynı sayıya bölme ile elde edilecektir.
Verilen örnek fonksiyonu standart örnek fonksiyonu na
Xi  X
Sx
Bu şekilde tanımlanan standart örnek fonksiyonu aşağıdaki pratik özelliklere sahip olacaktır
a. Standart örnek fonksiyonu dizisinin aritmetik ortalaması sıfırdır.
b. Standart örnek fonksiyonun varyansı ve standart sapması birbirine eşit olup o da 1 dir,
 x2   x  1
c. Standart örnek fonksiyonunun birimi yoktur
xi 
Bu durumda standartlaştırma işlemi ile birlikte bütün veriler sıfır civarında salınım yaparlar.
Standartlaştırılan farklı ölçeklerdeki veriler üst üste konarak karşılaştırılma imkanı bulmuş
olacaktır. Aşağıdaki örnekte gerçekte ölçülmüş basınç ve rüzgar şiddetleri bulunmaktadır.
Şimdi bunları nasıl karşılaştıracağız?
1000
Baasınç, Rüzgar şiddeti
800
600
30m Rüzgar Şiddeti(m/s)
Basınç (mb)
400
200
0
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88 91 94 97
Zaman
Bu iki değişkenin zamansal değişimine bakıldığında sanki sabit değerlere yakınmışlar gibi bir
durum ortaya çıkmaktadır. Bu değişkenlerin bazı istatistiksel parametreleri aşağıdaki tabloda
verildiği gibidir. Burda rüzgar şiddetlerinde tam bir tekrarlama gerçekleşmediğinden dolayı
Mod değeri gözlenmemiştir.
Ortalama
Varyans
Standart sapma
Mod
Medyan
Rüzgar
Şiddeti (m/s)
8.05373394
19.2457489
4.38699771
6.582125
Basınç
(mb)
994.5769
52.49286
7.245196
1003.3
994.44
30 metredeki rüzgar şiddetini tek başına düşündüğümüzde yukardaki şeklin tersine büyük
değişimlere sahip bir parametre karşımıza çıkmaktadır. Bu durumda
30
25
Rüzgar Şiddeti (m/s)
20
30m Rüzgar Şiddeti(m/s)
15
10
5
0
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88 91 94 97
Zaman
Yukardaki şekilde de görüldüğü gibi çok büyük çalkantı yani değişim değerlerine sahip olan
rüzgar şiddeti yanlış ölçeklemeden dolayı sanki sabit ve ortalama etrefında salınım
gösteriyormuş gibi bir yapı ortaya çıkmaktadır. Bu iki değişkenin standartlaştırılması
durumunda daha önce elde edilen istatistiksel parametreler
ortalama
Varyans
standart
sapma
Mod
Medyan
Rüzgar Şiddeti
(m/s)
8.05
19.25
4.39
6.58
Basınç (mb)
994.58
52.49
7.25
1003.30
994.44
Standart Rüzgar
Şiddeti
0.00
1.00
Standart
Basınç
0.00
1.00
1.00
1.00
1.20
-0.02
-0.34
Burdan da görüldüğü gibi standartlaştırma birçok istatistiksel parametreyi ortadan
kaldırmaktadır. Böylece verimizi daha az parametre ile yorumlayacağız. İhtimal dağılım
fonksiyonları standartlaştırılmış verilerden oluşmaktadırlar. Normal dağılımda ortalama sıfır ve
standart sapma ile varyans değerleri 1’e eşittir.
5
4
Standart rüzgar ve basınç
3
2
Standart rüzgar şiddeti
Standart basınç
1
0
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88 91 94 97
-1
-2
Zaman
Bu şekilden de görüldüğü gibi verinin değişim yapısında herhangi bir sorun ortaya
çıkmamaktadır. Sadece ölçek değişikliğine uğramakta ve karşılaştırma imkanı sunmaktadır.
Standartlaştırılan veriyi tekrar eski formuna dönüştürmek istediğimizde veriyi standart sapma
ile çarpıp ortalamayı eklememiz gerekmektedir.
ALT KÜMELİ (FREKANS) VERİLER VE PARAMETRELERİ
Önceki derste sıklık ve daha sonra da bağıl sıklıkların hesaplanması sırasında verileri alt
guruplara yani frekanslarına ayırmıştık. Her bir sıklık aralığının toplam değerlere
bölünmesiylede bağıl sıklık diyagramları elde edilmişti. Elde binlerce veri bulunması
durumunda bile alt kümelerin sayısı pratikte 15’ten büyük olmayacağına göre tüm veriler bu alt
kümelerin orta değerleri ve onlara karşı gelen sıklık ve bağıl sıklıkla temsil edilebilir.Bu
durumda alt kümeli olan bu verilerin istatistik parametrelerinin gereklidir. Sonuçta elimizde alt
aralık orta değerleri ile onlara kaşı gelen sıklık yani tekrar ve bağıl sıklık dizileri vardır.
Dizideki veri
Alt aralık orta değeri
Sıklık (frekans)
Bağıl sıklık (frekans)
x1, x2, x3, ..................., xm
x1, x2 , ............, xn , x1  x2  xn
Fx1, Fx2,..........,Fxm
fx1, fx2,............,,fxm
Olup bu durumda örnek fonksiyonunda verilen dizideki ortalama nedir? Bu durumda ağırlıklı
ortalama parametresini kullanmak her zaman veri temsilinde daha anlamlı olmaktadır.
m
xart. 
 x .F
i 1
i
x
Fx1  Fx2  .............  Fxm
Olarak bulunacaktır.Genel olarak varyans, veri dizisinin ortalamadan olan sapmalarının
karelerinin ortalaması olarak tanımlandığında
m
 x2 
(x
i 1, m
1
 xart. ) 2 .Fxi
Fx1  Fx2  .............  Fxm

m
(x
i 1, m
1
 xart. ) 2 . f xi
Aynı şekilde´çarpıklık katsayısı, değişim katsayısı vb. parametreler de kolaylıkla
hesaplanabilecektir.
Hatalı ortalama yönteminin seçilip hesaplanmasının yapılmasından dolayı büyük sorunlar
yaşanabilmektedir. Olayların ağırlıklarının hesaba katılması durumunda gerçeğe daha yakın
sonuçlar elde edilecektir.
CHEBYSHEV EŞİTSİZLİĞİ
Bu eşitsizliğin temel mantığı, bir dağılım fonksiyonunda çoğu örneğin ortalamaya yakın olduğu
fikridir. Örneğin verinin ¼’ünden fazlası ortalamadan 2 standart sapmadan daha uzak olmaz,
1/9’undan fazlası 3 standart sapmadan daha uzakta olmaz ve 1/25’den fazlası ortalamadan 5
standart sapma uzaklıkta olmaz. Belirsiz olayların incelenmesinde beklenen değerden
(ortalama) 1, 2 veya 3 standart sapma sınırlarında sapmalar söz konusu olabilir. Örneğin 1
standart sapma sınırında beklenen değerin sağında ve solunda μ+σ ve μ-σ olacak şekilde sınırlar
göz önünde tutulur. İhtimal dağılım fonksiyonun tümünün bilinmemesi fakat sadece beklenen
değer ve standart sapmanın bilinmesi durumunda, pratik olarak rastgele değişkenin aritmetik
ortalamasının sağında ve solunda standart sapma sınırlarına düşmesi ihtimali yaklaşık
olarak %65, iki standart sapma sınırları arasında bulunma ihtimali %95, üç standart sapma sınırı
durumunda ise %99.5 olacağı var sayılır.
Böylece ilgilenilen rastgele değişkenin yaklaşık ihtimalleri hakkında sadece aritmetik ortalama
ve standart sapmanın bilinmesi ile bazı hesaplar yapılabilmektedir. Bu tür ihtimal
çıkarımlarının genel olarak ihtimal dağılım fonksiyonunun simetriğe yakın olması
durumlarında kullanılması gerekmektedir. Aritmetik ortalama, μ ve standart sapmanın σ
bilinmesiyle aşağıda verilen Chebyshev eşitsizliği ile gerekli ihtimal hesapları yapılabilir. Bu
durumda
P((  h  X    h ))  1  1/ h2 , h>1
P((  h  X    h ))  1/ h2
Bu eşitsizlikte h standart sapma sayısını gösterir. Bu durumda h= 1.1, 1.7, 2, 3 gibi sayı
değerleridir. Chebyshev eşitsizliği yaklaşık ihtimal değerleri verir ama, pratikte ihtimal dağılım
fonksiyonunun bilinmesini gerektirmediğinden çok büyük avantajlar sağlamaktadır.
Chebyshev, büyük sayılar kuralına dayanarak ihtimallerin hesap edilebilmesi için yaklaşık bir
ifadenin kullanılabileceğini göstermişir. Burada ihtimalin daha önce yapılan tanımlarından ve
özellikle deney sayısının artması ile olayın ihtimal değerine yaklaşıldığı bilinmektedir. Aslında
bu ihtimal değeridir.
Örnek: Bir makale ortalama 1000 karakterden oluşmaktadır. Bu makalede karakter sayısına
göre standart sapma 200 olmaktadır, bu durumda ortalamanın iki standart sapma altında ve
üstünde kaç karakter buulunmektadır,
P(1000-2x200<Xkarakter <1000+2x200)≥1-1/4
P(600<Xkarakter<1400)≥3/4 =%75
Örnek: Yukarıda verilen basınç verilerinin iki standart sapma yukarısında ve aşağısında toplam
verinin % kaçı bulunmaktadır.
Ortalama
Varyans
standart sapma
Mod
Medyan
Basınç (mb)
994.58
52.49
7.25
1003.30
994.44
P(994.58-2x7.25<994.58+2x7.25)≥%75
P(980.05<x<1009.08)≥ %75
NORMAL STANDART DAĞILIM
Daha öncede bahsedildiği gibi doğal olayların ölçümleri sonucu elde edilen örnek
fonksiyonlardaki (veri dizisindeki) verilerin bir çoğu normal dağılıma uymaktadır. Uymayanlar
bazı dönüşümler ile (karekök, logaritma gibi) normal dağılım haline dönüştürülebilir. Normal
dağılımın bazı özellikleri arasında önemli olanları şu şekilde sıralayabiliriz;
a. Verilerden elde edilen bağıl sıklık diyagramının simetrik yapıya sahip olması halinde
normal dağılımın uygun düşeceği sonucuna varılır. Bu durumda çarpıklık katsayısının
değeri sıfıra eşittir.
b. Normal dağılımın bir tek en sık değeri (Mod) vardır. Bu değer yaklaşık olarak orta değer
(Medyan) ile aritmetik ortalama değerine eşittir. Bu eşitlik hata sınırları içinde kabul
gören istatistik eşitliktir.
c. Normal dağılım biri aritmetik ortalama diğeri standart sapma olmak üzere iki tane
istatistik parametreye sahiptir.
d. Verilerin çoğu beklendiği gibi en sık değer etrafında bulunur. Buradan sağa ve sola
gidildikçe verilerin bağıl sıklıkları aynı oranda azalır.
e. Teorik normal dağılımın altında kalan alanın değeri bire eşittir.
f. Teorik dağılım fonksiyonunda sağ ve solda olmak üzere uç (ekstrem) değerleri içeren
iki kuyruk vardır. Bunlar teorik olarak -∞ ile +∞’a kadar uzanır. Ama pratikte en büyük
ve en küçük değerler sonludur.
Matematik olarak normal dağılım fonksiyonu
f ( x) 
1
 1 X   2
exp  (
) 
2
 2 

Şeklinde ifade edilir. Burada μ aritmetik ortalama, σ ise standart sapma değerini gösterir ve
dağılım fonksiyonu N(μ, σ) notasyonu ile gösterilir. Bu denklemin geometrik görüntüsü
aşağıdaki şekilde görüldüğü gibidir. İstatistik deneylerin %90’nı bu şeklin altındaki alt alanların
düşünülmesi ile yapılır.
Bu eğrilerin altında kalan alanın integral yolu ile hesaplanması güç olduğundan dolayı
alanların hesabı için aşağıdaki çizelge hazırlanmıştır. Bu çizelgede sayısal olarak verilen
alanlar -∞’dan artı bir standart normal değişken olan x’e kadar taralı yerdir. Bu çizelgedeki
alanların 1’den çıkarılması ile aynı standart değişken için anlam seviyesi elde edilir. Çizelge
yardımıyla anlam seviyesi ve standart değişkenin birinin verilmesi ile diğeri bulunur. Bu
çizelgeden yararlanmak için önce normal (Gaussian) dağılıma uyduğu belirlenen verinin daha
önce açıklanan şekilde standart değerinin bulunması gerekir. Gauss (normal) ihtimal
fonksiyonu her türlü belirsizlik konusunun temel dağılım fonksiyonu olarak nitelendirilir.
Belirsizlik konuları ile çalışanların adları gibi öğrenmeleri gereken bir dağılımdır.
Download