RASTGELE DEĞİŞKENLER VE PARAMETRELER Daha önceki bölümlerde belirli ve belirsiz olaylardan sıklıkla bahsedildi. Rastgele veri üretiminin integral alan hesaplamalarında bile kullanılabileceğinden söz edildi. Kısacası rastgele değişken bir sonraki durumun ne olacağı önceki bilgiler ile kesin olarak bilinemeyen değişkenlere denir. Bu değişkenlerin, zaman ve uzay eksenine göre değişimini gösteren grafiklere sinyal, zaman serisi veya örnek fonksiyonu şeklinde değişik isimler verilir. Belirsiz olayların sonucu birçok olabilirlik ve her bir olabilirlik de rastgele sayısal değerlere sahiptir. Bir yapının ömrü boyunca maruz kalacağı rüzgar yüküdeğerleri, trafikte belirli kilometreler arasında kaza meydana gelme sayısı, bir partinin genel seçimlerde çıkaracağı milletvekili sayısı, bir günde doğan çocukların sayısı, deniz dalalarının yükseklikleri, bir bölgenin sıcaklık değerleri, at yaışlarının sonuçları, barajlara aylık olarak gelecek su miktarı, atom altı parçacıkların konum ve momentumları, önümüzdeki 100 yılda meydana gelebilecek en şiddetli depremlerin Richter ölçeğine göre şiddeti, vb. birçok olay rastgele davranışlara ve bunun sonucunda da ölçülebilen değişkenlere sahiptir. Rastgele Değişken Türleri Rastgele değişkenlik üç durumdan biri şeklinde ortaya çıkar. Bunlardan birincisi, olabilirlik sayılarının ve herbir olabilirliğe tekabül eden miktarların ikisinin de rastgele olmasıdır. Bir bölgede meydana gelecek olan kuraklık sayısı ve şiddeti rastgele değerlerdir. Bu gibi değişkenlere rastgele sayıda rastgele değişken adıverilir. İkincisi, basit halleri olan olabilirlik sayısının belirli ama miktarının rastgele olması durumu rastgele değişken türünü verir. Bu rastgeleliklere durum rastgeleliği adı verilir. Yağışlı veya yağışsız, sisli veya sissiz, güneşli veya güneşssiz, sondaj kuyusunun kuru veya yaş olması, futbol karşılaşmasında galibiyet, mağlubiyet veya beraberlik olması, ticaretin karlı veya karsız olması durumların her biri durum rastgeleliğine birer örnek teşkil eder. Üçüncüsü, olabilirliklerin belirli olmasına karşın sadece miktarlarının rastgele olması durumudur. Örneğin bir paranın atılması halinde olabilirlik uzayında yazı veya tura olmasına ve 95 kere atılması halinde yazının ve turanın toplamı belli olmasına karşılık kaçının yazı kaçının tura geleceği rastgele değişkendir. Zamanla değişken olan belirsiz olayların, mesela günlük ölçümler dizisinde olabilirlik olarak düşünülen günler tarih olarak bellidir. Fakat hangi günde örnekten ne miktarın ortaya çıkacağı kesinlikle bilinmez. Üçüncü türden olan bu rastgeleliğe Şiddet veya miktar rastgeleliği adı verilir. Bu rastgeleliğe örnekte yağışlı olan bir günde ne miktarda yağmur düşeceğinin bilinememesidir. Hergün ve hatta her an sıcaklık, nemlilik gibi sürekli değişkenler mutlaka vardır ama bunların günlük şiddetlerinin yani miktarlarının ne olacağı rastgele bir değişkenliğe sahiptir. Bu rastgeleliklerin her biri sadece bir rastgele sinyalin içinde bulunabilirler. Örneğin aşağıdaki gibi bir rüzgar türbininin belirli bir süre zarfındaki enerji verimliliklerini düşünelim. Bu zaman zarfında rüzgar şiddetleri sürekli rastgele olmalarından dolayı türbinin enerji verimlilikleri de rastgele olacaktır. 0.6 0.5 Enerji Verimliliği/100 (E) 0.4 y 0.3 d 0.2 0.1 0 1 9 17 25 33 41 49 57 65 73 81 89 97 105 113 121 129 137 145 153 161 169 177 185 193 201 209 217 225 233 Zaman (t) Böyle bir sinyalin t anında bir miktar değişkenliği vardır. Sinyal n tane ölçüme dayanıyorsa bu örnekte olduğu gibi n tane rastgele ölçüm vardır. Bu miktar değişkenliği bir andan diğerine kesin olarak değil ancak belirli yaklaşık değerlerle bilinebilir. Bu miktar değişkenliğine ilave olarak, sinyalin yukardaki şekildeki gibi E(0.3) seviyesinde kesilmesi ile, bu seviyeye göre yüksek, yi (Si > E(0.3)) ve düşük, di (Si < E(0.3)) gibi durum rastgele değişkenleri ortaya çıkar. Bu örnekte durum sayısı ikidir ama hangisinin hangi zamanda ortaya çıkacağı kesinlikle bilinmez. Burada miktar önemli değildir. Üçüncü olarakta, kesim seviyesi boyunca yüksek verimlilik (y1, y2, ...., yn) ve düşük verimlilik (d1, d2, ......, dn) sürelerinin düşünülmesi ile yeni bir rastgele değişkenler dizisi elde edilir. İşte bu sürelerin sayısı ve uzunlukları rastgele olduklarından bunlara rastgele sayıda rastgele değişken adı verilir. Yukarıdaki veri dizisini temsil eden grafiğe aynı zamanda örnek fonksiyon/zaman serisi de denir. Bir dizi ile karşılaşıldığında ilk yapılması gereken onun kartezyen koordinat sisteminde garfiksel olarak basit bir şekilde çizilmesidir. Görsel olarak bu grafik gösterimi bize a- Başlangıç ve sonuç durumlarını (büyüklük ve zaman olarak), b- Verilerin en büyük ve en küçük değerlerinin ne miktarda ve hangi zamanda olduğunu, c- Verilerin içinde hangi değerin sıklıkla bulunduğunu, d- Veriler arasındaki zikzaklığın (değişimin) fazla olması durumunda belirsizlik miktarının oransal olarak tahmin edilebilmesi durumunu, e- Verideki genel gidişatın artar mı yoksa azalan mı yönde olduğu? f- Veride sorunlu noktalar olup olmadığı, g- Veri dizisi boyunca peryodik salınımların bulunup bulunmadığı, Önceki bölümlerde kümeler ve daha sonra sayma teknikleri ve ihtimal yaklaşımları ile bir ölçüye kadar belirsizlik yöntemlerinin rastgele değişkenlerin işlenmesinde nasıl kullanıldıkları hakkında detaylı bilgiler verilmişti. Ancak bunlar belirsiz olayları ayrıntılı incelenerek bazı parametrelerinin bulunmasına yetmeyebilir. Bunun için belirsiz olaylarla ilgili bir dizi ölçümlerin yapılması sonucunda elde edilen diziden belirsizliğin ihtimal ve bununla bağlantılı olarak diğer türden çeşitli ortalama davranışlarını temsil eden parametrelerin de tanımlanması gerekir. Çok sayıda rastgele değişken değerinin, böylece az sayıda anlamlı parametrelerle izah edilerek yorumlar çıkarılmasında büyük yararlar ve kolaylıklar vardır. Örneğin uzun zaman sürelerinde olayın ortalama davranışlarının bilinmesi ile o olayın genel davranışları hakkında bilgi sahibi olabiliriz. Her olayda, ilgilenilen davranışın bir ölçüsü olarak, rastgele değişken büyük harf ile temsil edilir. Mesela, X taşkın rastgele değişkeni ise, X>10 (m3/s) ifadesi taşkının miktarının 10 (m3/s)’den daha büyük olduğunu gösterir. Rastgele değişkeni temsil eden büyük harflerin, X=a, X<a, X>a, X≤a, X≥a gibi ifadelerle, o rastgele değişkenin değişik alt olayları izah edilir Kesikli Rastgele Değişken Arda arda ayrık değerler alan değişkenlere kesikli rastgele değişken denir. “Yağmur var-yok”, zaman boyunca “malzeme bozuk-sağlam” sayısı, bir kişinin belirli bir sürede tutabildiği balık sayısı kesikli değişkenlere birer örnektir. Bu değişkenlerin modellenmesi diğerleri ile karşılaştırıldığında daha zordur. Öncelikle bu tip verilerin sözel modellerinin çok sağlam kurulması gerekmektedir. Bunun da yolu verileri iyi yorumlamaktan geçmektedir. Aşağıdaki şekilde belirli bir zaman aralığında oluşmuş trafik kazalarının sayısı bulunmaktadır. 10 9 8 Trafik kazası sayısı 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 Zaman Sürekli Raslantı Değişkeni Sürekli raslantı değişkeni, bir aralıkta (belirli sınır şartlarında), ondalık sayılarla süreklilik içeren değerler anlamına gelir. Bu değişkenler istenilen her türlü incelikle ölçülebilir. Kesikli ve sürekli raslantı değişkenleri arasındaki en önemli fark kesikli olanların olabilirlik sayılarının ve ihtimallerinin istenilen değer için daha açık bir şekilde tanımlanabilmesidir. Fakat sürekli raslantı değişkeninde her bir değerin ihtimali daha düşüktür. Hatta küsüratlar hesaba katıldığında olabilirliği sıfıra yaklaşmaktadır. Kısacası çok hassas değerler bir veya daha küçük değerlerde olmaktadır. Ancak aralık alındığında bu değerlerin olabilirlikleri de artacaktır. Bir uzunluğun değişik kişiler tarafından ölçüldüğünü düşünelim, ölçülen çubuk ve ölçen metre hep aynı olmasına rağmen genelde sonuçlar birbirinden farklı olabilmektedir. Bazen neredeyse ölçümün aynısını bir kere daha yapmak mümkün olamamaktadır. Yani değerler birbirine çok yakın olmalarına rağmen her bir değer bir defa tekrar edebilmektedir. Bu durumda bu değerlerin ihtimalleri sıfıra çok yaklaşmaktadır. Ancak ölçümlerin bir desimale yuvarlatılarak yapılması arzu edilirse aynı ölçüm değerlerini daha fazla sıklıkla gözlemleyebiliriz. Kümeyi Oluşturan Noktalar ve Parametreleri Küme elemanlarının rastgele olan değerleri bir dizi teşkil etmektedirler. Bu dizide elemanların sırası önemli olabilir veya olmayabilir. Önemli olamamsı durumunda, dizinin zaman veya konumla deişimleri değil de genel olarak zaman ve konumdan bağımsız davranışlarının parametre halinde incelenmesi yolu açılır. Burada zaman veya konum yorumları yapılamaz. Örneğin, taşkın, deprem, kasırga, fabrikada üretilen malların çeşitliliği, uzaydaki gezegenlerin sınıfları için gerekli hesaplamalarda zaman gözönünde tutulmaz. Bunların gelecek 50 ve 100 yıl içinde herhangi bir zamanda ortaya çıkabilecekleri düşünülerek hesaplar yapılır. Buradan başka bir çıkarım olarak da, dizi öğelerinin ard arda gelmesinin hiç önemi olmaması, bunların ardışık olarak bir sıra dahilinde birbirini etkilemedikleri gerçeğine varılabilir. Biraz daha ileri gidecek olursak, aynı olayın farklı zaman ve konumlardaki rastgeleliğin birbirine etkisi bulunmadığı yani olayın ortaya çıkışında bir bağımsızlığın bulunduğu düşüncesine varılabilir. İşte bu şekilde olayların incelenmesi ile ortaya çıkan parametrelere, zaman ve konumdan bağımsız parametreler adı verilir. Ayrıca bunların ortaya çıkışında iç bağımlılığın bulunmadığı da anlaşılmaktadır. Tekil Dağılım Fonksiyonu Rastgele değişkenlerin en önemli özelliği noktasal değerlerden ziyade aralık değerlerinin göz önünde tutulmasıdır. Daha önce değinildiği gibi belirsizlik olaylarının değerlendirilmesinde nokta değerler veya çıkarımlar yerine aralık çıkarımların kullanılması özellikle sürekli raslantı değişkenleri için önemlidir. Elimizde bir belirsizlik olayının ölçümü sonucunda elde edilmiş olan bir dizi veri bulunsun. Genel olarak bu ölçümler dizisi X1, X2,.......,Xn şeklinde gösterilir. Bu dizinin en büyük, Xb ve en küçük Xk değerleri arasındaki fark bize verilerin değişim aralığı nı verecektir. Burada ∆X = Xb – Xa olacaktır. Nasılki klasik matematikte fonksiyonların değişim aralığı varsa belirsizlik durumlarında da, rastgele değişkenlerin ya ölçümlerinden yada tecrübelerden yararlanarak değişim aralığı hesaplanır. n adet verinin hepsi bu aralığa düşer. Yalnız bu aralığın hesaba alınması halinde rastgele değişkenin olabilirlik sayısı, yani sonuçlarının düşebileceği öğe bir tanedir. Ancak herhangi bir rastgele değişkenin daha ayrıntılı değerlendirmesinin yapılabilmesi için olabilirlik alt aralıkarının iyi tanımlanması yani belirlenmesi ve herbirine düşen veri sayısının belirlenmesi gerekmektedir. Böylece, alt aralık şeklinde, yapay da olsa olayın olabilirlik uzayında eleman sayısı artırılır ve rastgele değişkenin küçük ölçekteki davranışları ortaya çıkarılır. Pratik uygulamalarda alt aralık sayısını veren değişik amprik (tecrübeye dayanan) formüller vardır. Bunların her biri veri sayısına bağlıdır. Örneğin, rastgele değişkenin alt aralık şeklinde olabilirlik sayısı m’yi veren formüller m = 1+3.3 logn veya m = logn/log2 Bu konulardaki uzman kişilerin önerisi alt aralık sayısının 5’ten küçük ve 15’ten büyük alınmaması yönündedir. Her bir aralığın ortasını temsil eden rastgele değişken değerine o aralığın olabilirlik değeri olarak bakarsak m tane olabilirlik değeri var demektir (x1, x2,..............,xm) . Bu şekilde belirlenen her bir aralığa düşen veri sayısına sıklık (frekans) (Fx1, Fx2,......,Fxm) denir. Alt aralık sayısı kadar sıklık değeri bulunur. Tanım olarak bu sıklık değerlerindeki verilerin toplamı veri sayısına eşittir. Fx1+ Fx2+......+Fxm = n Bu ifadenin her iki tarafının n’ye bölünmesiyle veri sayısından bağımsız olan bağıl sıklık değerleri (fx1, fx2,......,fxm) elde edilir. Bu şekilde tanımlanan oran sıfır ile bir arasında değişir ve asla negatif olamaz ( 0 ≤ fxi ≤ 1). Bu değerlere olayın ihtimali, yüzdesi, bağıl sıklığı, bağıl frekansı veya bağıl ihtimali denir. Bu durumda fxi = Fxi/n Şeklinde ifade edilir. Bu durumda fx1+ fx2+......+fxm =1 olacaktır. Bu yaklaşım ve hesapların yapılmasının nedeni rastgele değişkenin dağılım fonksiyonunun elde edilmesi içindir. Bir rastgele değişkenin dağılım fonksiyonu, veri değişim aralığında alt aralıklara göre veri sıklık veya bağıl sıklıklarının değişimini gösteren grafik olarak gösterilir. Alt aralıklar sonlu uzunlukta olduğundan bu fonksiyonun verilerden elde edilen yapısı aşağıdaki şekilde görüldüğü gibi basamaklı bir çubuk diyagramı olur. Bağıl sıklık (frekans) f4 f1 f8 0 xek xeb Dağılım fonksiyonu şekli olarak gösterilebildiği gibi çizelge halinde de yazılabilir. Olabilirlik rastgele değişkeni Sıklık (frekans) Bağıl sıklık (frekans) x1, x2,..............,xm Fx1, Fx2,..........,Fxm fx1, fx2,............,,fxm Bir anlamda bu çizelge, x sonlu kümeli olabilirlik uzayında bir küme ile gösterilebilen bir rastgele değişkendir. Sıklıklar belirlenen aralığın tekrar sayıları olup bağıl sıklıklar bu aralığın ihtimalleridir. Ayrıca F(x = xi) = fxi Olarak tanımlanan fonksiyona x’in dağılımı yada ihtimal fonksiyonu denir ve histogram adı verilir. Bu dağılımda 0 ≤ fxi ≤ 1 ve fx1+ fx2+......+fxm =1 gibi en temel iki kuralı bulunmaktadır. Pratik çalışmalarda olaydan olaya, konudan konuya bağıl sıklık diyagramları değişecektir. Çeşitli durumlarda karşımıza çıkabilecek bağıl sıklık diyagramlarından bazı örnekler aşağıdaki gibidir. Bağıl sıklık (frekans) 0 (a) Sola çarpık bir bağıl sıklık diyagramıdır. Küçük değerlerin daha sık gözlendiği ve bazı durumlarda risk oluşturabilecek maksimum değerlerin az gözlendiği bir ihtimal dağılımıdır. Bağıl sıklık (frekans) 0 (b) Bu da sola çarpık histograma bir örnek olabilir. Fakat küçük şiddeteki değerler (a) ya göre daha düşüktürler. Bağıl sıklık (frekans) 0 (c) Sağa çarpık olayları temsil etmede kullanılabilir. Örneğin nüfusu giderek yaşlanan bir ülkede gençler azınlıkta olacaktır. Bağıl sıklık (frekans) 0 (e) Bu histogram normal dağılımı aritmetik ortalama durumunda temsil etmektedir. Ortalamaya göre simetrik bir yapı sergilemektedir. İleride görülecek olan normal dağılımı temsil etmektedir. Bağıl sıklık (frekans) 0 (f) Ortalama civarında normale yaklaşmakta fakat normal dağılım olmamaktadır. Bağıl sıklık (frekans) 0 (f) Tek ve homojen bir yapıyı temsil etmektedir. Bir anlamda ortalamanın ifadesidir. Bu durum büyük sorunlar ortaya çıkarmaktadır. Bunlara ilave olarak pratik kullanımlar için ihtimal dağılım fonksiyonu raslantı değişkenin en küçük değerinden başlayarak en büyüğüne doğru gidildikçe ihtimallerin (bağıl sıklıkların) ardışık toplamları alınırsa sonunda toplam ihtimal değeri 1’e ulaşacaktır. Böylece aşağıdaki şekilde görüldüğü gibi hiç azalmayan ve gittikçe artan bir eğri elde edilir. Bu eğriye rastgele değişkenin toplam bağıl sıklık fonksiyonu veya toplam ihtimal dağılım fonksiyonu (TİDF) adı verilir. Buna S harfine benzediği için S fonksiyonu da denir. fx1 = Fx1/n fx2 = (Fx1+Fx2)/n ...... fxn =(Fx1+Fx2+......+Fxn)/n Bu grafiğin bir kaç özellik ve yararı şöylece sıralanabilir a- TİDF’de değişim aralığı sonundaki sıklık veri sayısına eşittir. Yine yatay eksende alınan herhangi bir noktanın düşey eksendeki karşılığı o noktadan daha küçük değerlerin sayısıdır. b- TİDF’de n/2 veri sayısına karşı gelen düşey eksen değerinin yatay eksendeki karşılığı örnek fonksiyonun orta değerini yani medyan’ı verir. Bağıl sıklık (frekans) 0 Parametrik Büyüklükler Parametre bir veri dizisinin belirli bir özelliğini verilerin tümü veya bir kısmını hesaplamalara katarak bulunan ve bir tek değeri olan büyüklüklere denir. Bu parametrelerin her biri verilerin genel davranışı hakkında sorulan bazı sorulara cevap oluşturur. Bu sorulardan bazıları; 1. Acaba veri dizisi hangi ortalama etrafında salınımlarını gösterir? 2. Tespit edilen ortalama seviye etrafında acaba bu seviyeden olan salınımlar, sapmaların miktarı nasıl olçülebilir? 3. Farklı iki veri dizisi/örnek fonksiyonu birbiri ile kıyaslaması nasıl yapılır? 4. Acaba verilerin çoğuortalamanın altındamıdır yok sa üstünde midir? 5. Acaba tüm veriler arasında hangi nokta veya gurup en fazla sıklıkla ortaya çıkmaktadır? 6. Verilerin yarı sayısını altında yarısını da üstünde bulunduran veri değeri nedir? 7. Acaba arda arda gelen verilerin birbirine etkisi varmıdır? Yoksa veriler tamamen birbirinden bağımsız mı olarak ortaya çıkıyorlar? 8. Acaba veri dizisi üzerinde zamanın, bölgenin veya çalışılan sistemin bir etkisi varmıdır? 9. Acaba verilerin uç değerleri ve değişim aralığı nedir? 10. Acaba veri değişim aralığında bulunan ve belki de mühendislik tasarımları için önemli olan bir alt aralıkta verilerin yüzde kaçı bulunmaktadır? 11. İki veri gurubu arasında bir etkileşim varmıdır? 12. Bütün veri guruplarında aynı parametreler kullanılırsa ne olur? Beklenen Değer Şu ana kadar tanımlanmaya çalışılan ihtimal dağılım fonksiyonundan veya daha önce verilen çizelge yardımıyla x rastgele değişkeninin beklenen değer parametresini E ( x) x x1. f x1 x2 . f x2 ........ xm . f xm Olarak tanımlayabiliriz. Beklenen değer kısaca μx ile gösterilir. Aslında bu x, rastgele değişkeninin olabilirlik değerlerinin ağırlıklı ortalamasından başka bir şey değildir. Bu denklem , daha önce verilen sıklık ve bağıl sıklık bağıntısı tanımından yararlanarak E( x) x ( x1.Fx1 x2 .Fx2 ........ xm .Fxm ) /( Fx1 Fx2 ....... Fxm ) Olarak ifade edilirse ağırlıklı ortalama daha açık bir şekilde görülmüş olur. Beklenen değer işleminin rastgele değişken olabilirlik değerleri ile doğrusal olan tanımının vereceği başlıca önermeler şunlardır. 1. Bir x rastgele değişkeni sabit bir k sayısı ile çarpılırsa elde edilen yeni kx rastgele değişkeninin beklenen değeri önceki rastgele değişkenin beklenen değerinin bu k sabiti ile çarpımına eşittir. E(kx) = k. E(x) Aslında dizi elemanlarının sabit k sayısı ile çarpılması, rastgele değişkenlik ölçeğinin değiştirilmesi, yani k>1 için büyütülmesi, k<1 için küçültme işlemi anlamına gelmektedir. 2. Aynı olabilirlik uzayının iki farklı rastgele değişkeni x ve y ise, bunların toplamının beklenen değeri, her birinin beklenen değerleri toplamına eşittir E(x+y) = E(x) + E(y) Bunun geneleştirilmesi ile, aynı olabilirlik uzayının n tane rastgele değişkeni toplamının beklenen değeri, herbirinin beklenen değerleri toplamına eşit olacağı çıkarımına varılır. E(x1 + x2 +.................+ xn) = E(x1) + E (x2) +..........+ E(xn) Aslında beklenen değer teorik bir kavramdır. Bunun pratikte çok yaygın olarak kullanılan karşıtı aritmetik ortalamadır. Ortalama değer x 1 n xi n i 1 Burda belirtilmesi gereken bir nokta ihtimal dağılım fonksiyonunun simetriğe yakın olması durumunda en büyük ihtimalli olabilirlik alt aralığın orta değeri aritmetik ortalamaya eşittir (Şekil e). Şekil f’de ise ortalama bütün değerleri temsil etmektedir. Bir anlamda bu frekans dağılım fonksiynu ortalamadır. Diğer şekillerde aritmetik ortalamayı direk kullanmak büyük sorunlara yol açacaktır. Beklenen değere benzer olarak rastgele değişkeni en iyi şekilde temsil edecek büyüklük en sık tekrarlanan değeri ifade eden Mode (en sık değer) dir. Simetrik dağılımlarda en sık değer yani mode ile aritmetik ortalama eşit olacaktır. Fakat simetriklik bozuldukça birbirleirnden olan farklar artacaktır. Şekil e ve c mode kullanımına en iyi örnektir. Ortalama ve mode değerlerine ilave olarak dizinin Medyan’ı (orta değeri) yine beklenen değeri temsilde kullanılabilmektedir. Bunu elde etmek için diziyi küçükten büyüğe veya büyükten küçüğe histogramını çizmeden sıralıyoruz. Dizinin orta değeri bize ortalama değere yakın bir değer verecektir. Dizideki sayıların toplamı tekli olursa orta değeri kullanıyoruz. Eğer sayıların adedi çiftli bir değer olursa bu durumda n/2 ve (n/2)+1 sayılarını toplayıp ortalamasını alıyoruz. Bu değerler bize ortalamaya yakın sonuçlar verecektir. Varyans (Değişinti) ve Standart Sapma Yukarıdaki şekillerde de görüleceği gibi sadece histogramları beklenen değer olarak ortalama ile ifade etmek büyük sorunlara yol açacaktır. Sadece ortalamanın kullanılması durumunda ortalamadan olan sapmaları veya veri içindeki değişimleri göremeyiz. Sapmaları göremediğimiz durumda sadece veri ortalamadan ibaretmiş gibi bir sonuç ile karşı karşıya kalmış oluruz. Burada akla gelen soru, acaba beklenen değer etrafındaki bu sapmaların bir ölçütü yokmudur? Aslında sapmaların bir ölçütü olan parametrenin sıfırdan farklı olması durumunda değişkenin rastgele olduğuna karar verilebilir. Sonuç olarak sadece beklenen değer parametresi rastgele değişkenin belirsizliği hakkında bilgi vermiyecektir. Varyans (değişinti) olarak tanımlanan bu X parametresi, rastgele değişkenin sapmalarının beklenen değer etrafında ne büyüklükte olduğunu tesbit etmeye yarar. Bir X rastgele değişkeninin varyansı V(X) veya kısaca 2 notasyonu ile gösterilir. Varyans, tanım olarak; X raslantı değişkeninin beklenen değerinden olan farklarının karelerinin beklenen değeridir. Buna göre n 2 ( xi )2 . fi i 1 Beklenen değer genelde ortalama alındığından dolayı varyans, ortalamadan olan farkların karelerinin ortalaması olarak ifade edilebilir. Burada farkların karelerinin alınmasının sebebi, sapmaların artı ve eksi olanlarının birbirini götürerek varyansın sıfır çıkmasını önlemek içindir. Varyans üzerinde düşünülecek olursak sadece belirgin olayların varyansı sıfır olur. Yani varyansı sıfır olan olay belirgindir, başka bir ifade ile varyans büyüdükçe belirsizlik artar. Varyansın birimi, rastgele değişkenin karesi olacağından varyans ile rastgele değişkeni, beklenen değer parametresini, mod veya medyan değerlerini karşılaştırmak mümkün olmaz. Bu durumda ne yapmalıyız? Örneğin rastgele değişken birimi metre ise varyansın birimi (metre)2 olacaktır. Varyansın, rastgele değişken ile kıyaslayabilmek için varyansın karekökü alınmaktadır. Tanım olarak varyansın karekök değerine rastgele değişkenin standard sapması denir. 2 Standard sapmanın bir artı birde eksi değeri vardır. Bu durum gerçekte beklenen değerin sağında ve solunda değerler olmasından dolayı mantıklıdır ve önemli bir sorunu ortadan kaldırmaktadır.Beklenen değerden olan sapmaların bir tür ağırlıklı ortalamaları standart sapmayı vermektedir. Yukarıda verilen ve beklenen değere göre hesaplanan varyans ifadesinin ortalama değer göz önünde bulundurularak açılmasıyla x 2 Var ( x) 1 n ( xi x) 2 n i 1 Şeklinde elde edilir. Daha önce izah edilen aritmetik ortalamada olduğu gibi burada da eşit ihtimal (1/n) göz önünde tutulmuştur. Yukarıdaki denklem pratikte çok kullanılmaktadır. Veri sayısının çok az, 10 civarında, olması durumunda tanımın paydasındaki n yerine (n-1) konarak hesapların yapılması tavsiye edilmektedir. Varyans hesaplamaları ile ilgili bazı önermeler aşağıdaki gibidir; 1. Bir X rastgele değişkeninin varyansı Var (X) olduğuna göre, bu değişkenin k gibi bir sabit ile çarpılması sonunda elde edilen yeni rastgele değişkenin varyansı k2Var(X) olur. 2. Aritmetik ortalama ve varyansa fiziksel anlamlar da verilebilir. Bir eksen boyunca başlangıç noktasından olan uzaklık xi uzaklıkları ile, o noktadaki fxi bağıl sıklıkları birer ağırlık gibi düşünülmesi sonucunda elde dilen sistemin aritmetik ortalaması, sistemin ağırlık merkezini (sentroid), varyans ise sistemin atalet momentini verir. Diğer bir ifade ile , aritmetik ortalama birinci moment, varyans ise ikinci moment olarak adlandırılır. 3. Doğal ve sosyal olayların çoğu simetriğe yakın ihtimal dağılım fonksiyonları verir. Bu durumda beklenen değer (aritmetik ortalama) ve varyans veya standart sapma tüm dağılımı ve rastgele değişimin davranışını temsil etmeye yeterlidir. 4. Birbirine bağımlı olmayan iki veya daha fazla raslantı değişkeninin toplamlarının varyansı bunların ayrı ayrı varyansları toplamına eşittir. Var(x1+x2+.......+xn) = Var(x1)+ Var(x2)+......+Var(xn) Birbirine bağlı olan raslantı değişkenleri için bu durum geçerli değildir. Değişim Katsayısı Verilerdeki salınımları tespit etmek için veri topluluğunun standart sapması ve aritmetik ortalaması karşılaştırılmaktadır. Ortalamadan sapma ne kadar büyük ise değişim katsayısı da o kadar büyük olacaktır. Değişim katsayısı verinin standart sapmasının veri ortalamasına oranı olarak tarif edilmektedir. Bun agöre Dx x x Bu katsayı aynı zamanda farklı iki veri gurubunun birbirleriyle olan ilişkilerini ve değişimlerini belirlemek için de kullanılmaktadır. Farklı iki veri gurubunu kıyaslamada sıklıkla bu katsayıya başvurulmaktadır. Değişim katsayısı ne kadar küçük olursa tahmin (öngörü) o kadar kolay ve başarılı olur. Çarpıklık Katsayısı Bir rastlantı değişkeninin bağıl sıklık fonksiyonu simetrik değilse bu değişken çarpık olarak ifade edilir. Çarpıklığın ölçütü olarak da çarpıklık katsayısı kavramı dikkate alınır. Daha önce anlattığımız gibi aritmetik ortalama birinci dereceden, varyans ise ikinci dereceden moment olarak düşünülebileceği söylenmiş idi. Çarpıklık katsayısı da üçüncü dereceden momenti ifade eder. Tanım olarak varyansa benzer fakat farkların karesi yerine küpleri gelir. Böylece çarpıklık katsayısı 1 n 1 ( xi x ) 3 3 n i 1 Şeklinde tanımlanır. Farkların kübü alındığından, varyanstan farklı olarak çerpıklık katsayısının değeri artı, sıfır veya eksi olabilir. Bu katsayının sıfır olması ihtimal dağılım fonksiyonunun simetrik olduğunu gösterir. Katsayının artı veya eksi işaretli olması ise katsayının sırasıyla sağa veya sola çarpık olduğunu yani değerlerin bu bölgelerde kümelediklerini gösterir. Sağa (artı) çarpıklık durumunda verinin büyüklükleri ortalamanın genelde üzerindedir fakat sola (eksi) çarpıklıkta bunun tersi durum söz konusudur. STANDART ÖRNEK FONKSİYONU (STANDARTLAŞTIRMA) İstatistikte sıklıkla kullanılan tanımlardan biri de standart örnek fonksiyonu veya veri dizisidir. Buna aynı zamanda örnek fonksiyonun standartlaştırılması da denir. Doğa bilimlerinde veya uygulamalı mühendislik dallarında farklı birimlere ve ölçeklere sahip örnek fonksiyonların aynı zamanlı değerlerinin karşılaştırılması gerekebilir. Örneğin farklı ölçek ve birimlere sahip olan sıcaklık ve yağış arasında karşılaştırılma yapılmak istendiğinde bunların aynı birim altında olması veya birimsizleştirilmesi gerekir. Standartlaştırma işleminde aritmetik ortalama ve standart sapma değerlerinden yararlanılır. Bu durumda örnek fonksiyonundaki her bir değer standart hale her bir değerden aynı sayının çıkarılması ve aynı sayıya bölme ile elde edilecektir. Verilen örnek fonksiyonu standart örnek fonksiyonu na Xi X Sx Bu şekilde tanımlanan standart örnek fonksiyonu aşağıdaki pratik özelliklere sahip olacaktır a. Standart örnek fonksiyonu dizisinin aritmetik ortalaması sıfırdır. b. Standart örnek fonksiyonun varyansı ve standart sapması birbirine eşit olup o da 1 dir, x2 x 1 c. Standart örnek fonksiyonunun birimi yoktur xi Bu durumda standartlaştırma işlemi ile birlikte bütün veriler sıfır civarında salınım yaparlar. Standartlaştırılan farklı ölçeklerdeki veriler üst üste konarak karşılaştırılma imkanı bulmuş olacaktır. Aşağıdaki örnekte gerçekte ölçülmüş basınç ve rüzgar şiddetleri bulunmaktadır. Şimdi bunları nasıl karşılaştıracağız? 1000 Baasınç, Rüzgar şiddeti 800 600 30m Rüzgar Şiddeti(m/s) Basınç (mb) 400 200 0 1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88 91 94 97 Zaman Bu iki değişkenin zamansal değişimine bakıldığında sanki sabit değerlere yakınmışlar gibi bir durum ortaya çıkmaktadır. Bu değişkenlerin bazı istatistiksel parametreleri aşağıdaki tabloda verildiği gibidir. Burda rüzgar şiddetlerinde tam bir tekrarlama gerçekleşmediğinden dolayı Mod değeri gözlenmemiştir. Ortalama Varyans Standart sapma Mod Medyan Rüzgar Şiddeti (m/s) 8.05373394 19.2457489 4.38699771 6.582125 Basınç (mb) 994.5769 52.49286 7.245196 1003.3 994.44 30 metredeki rüzgar şiddetini tek başına düşündüğümüzde yukardaki şeklin tersine büyük değişimlere sahip bir parametre karşımıza çıkmaktadır. Bu durumda 30 25 Rüzgar Şiddeti (m/s) 20 30m Rüzgar Şiddeti(m/s) 15 10 5 0 1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88 91 94 97 Zaman Yukardaki şekilde de görüldüğü gibi çok büyük çalkantı yani değişim değerlerine sahip olan rüzgar şiddeti yanlış ölçeklemeden dolayı sanki sabit ve ortalama etrefında salınım gösteriyormuş gibi bir yapı ortaya çıkmaktadır. Bu iki değişkenin standartlaştırılması durumunda daha önce elde edilen istatistiksel parametreler ortalama Varyans standart sapma Mod Medyan Rüzgar Şiddeti (m/s) 8.05 19.25 4.39 6.58 Basınç (mb) 994.58 52.49 7.25 1003.30 994.44 Standart Rüzgar Şiddeti 0.00 1.00 Standart Basınç 0.00 1.00 1.00 1.00 1.20 -0.02 -0.34 Burdan da görüldüğü gibi standartlaştırma birçok istatistiksel parametreyi ortadan kaldırmaktadır. Böylece verimizi daha az parametre ile yorumlayacağız. İhtimal dağılım fonksiyonları standartlaştırılmış verilerden oluşmaktadırlar. Normal dağılımda ortalama sıfır ve standart sapma ile varyans değerleri 1’e eşittir. 5 4 Standart rüzgar ve basınç 3 2 Standart rüzgar şiddeti Standart basınç 1 0 1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88 91 94 97 -1 -2 Zaman Bu şekilden de görüldüğü gibi verinin değişim yapısında herhangi bir sorun ortaya çıkmamaktadır. Sadece ölçek değişikliğine uğramakta ve karşılaştırma imkanı sunmaktadır. Standartlaştırılan veriyi tekrar eski formuna dönüştürmek istediğimizde veriyi standart sapma ile çarpıp ortalamayı eklememiz gerekmektedir. ALT KÜMELİ (FREKANS) VERİLER VE PARAMETRELERİ Önceki derste sıklık ve daha sonra da bağıl sıklıkların hesaplanması sırasında verileri alt guruplara yani frekanslarına ayırmıştık. Her bir sıklık aralığının toplam değerlere bölünmesiylede bağıl sıklık diyagramları elde edilmişti. Elde binlerce veri bulunması durumunda bile alt kümelerin sayısı pratikte 15’ten büyük olmayacağına göre tüm veriler bu alt kümelerin orta değerleri ve onlara karşı gelen sıklık ve bağıl sıklıkla temsil edilebilir.Bu durumda alt kümeli olan bu verilerin istatistik parametrelerinin gereklidir. Sonuçta elimizde alt aralık orta değerleri ile onlara kaşı gelen sıklık yani tekrar ve bağıl sıklık dizileri vardır. Dizideki veri Alt aralık orta değeri Sıklık (frekans) Bağıl sıklık (frekans) x1, x2, x3, ..................., xm x1, x2 , ............, xn , x1 x2 xn Fx1, Fx2,..........,Fxm fx1, fx2,............,,fxm Olup bu durumda örnek fonksiyonunda verilen dizideki ortalama nedir? Bu durumda ağırlıklı ortalama parametresini kullanmak her zaman veri temsilinde daha anlamlı olmaktadır. m xart. x .F i 1 i x Fx1 Fx2 ............. Fxm Olarak bulunacaktır.Genel olarak varyans, veri dizisinin ortalamadan olan sapmalarının karelerinin ortalaması olarak tanımlandığında m x2 (x i 1, m 1 xart. ) 2 .Fxi Fx1 Fx2 ............. Fxm m (x i 1, m 1 xart. ) 2 . f xi Aynı şekilde´çarpıklık katsayısı, değişim katsayısı vb. parametreler de kolaylıkla hesaplanabilecektir. Hatalı ortalama yönteminin seçilip hesaplanmasının yapılmasından dolayı büyük sorunlar yaşanabilmektedir. Olayların ağırlıklarının hesaba katılması durumunda gerçeğe daha yakın sonuçlar elde edilecektir. CHEBYSHEV EŞİTSİZLİĞİ Bu eşitsizliğin temel mantığı, bir dağılım fonksiyonunda çoğu örneğin ortalamaya yakın olduğu fikridir. Örneğin verinin ¼’ünden fazlası ortalamadan 2 standart sapmadan daha uzak olmaz, 1/9’undan fazlası 3 standart sapmadan daha uzakta olmaz ve 1/25’den fazlası ortalamadan 5 standart sapma uzaklıkta olmaz. Belirsiz olayların incelenmesinde beklenen değerden (ortalama) 1, 2 veya 3 standart sapma sınırlarında sapmalar söz konusu olabilir. Örneğin 1 standart sapma sınırında beklenen değerin sağında ve solunda μ+σ ve μ-σ olacak şekilde sınırlar göz önünde tutulur. İhtimal dağılım fonksiyonun tümünün bilinmemesi fakat sadece beklenen değer ve standart sapmanın bilinmesi durumunda, pratik olarak rastgele değişkenin aritmetik ortalamasının sağında ve solunda standart sapma sınırlarına düşmesi ihtimali yaklaşık olarak %65, iki standart sapma sınırları arasında bulunma ihtimali %95, üç standart sapma sınırı durumunda ise %99.5 olacağı var sayılır. Böylece ilgilenilen rastgele değişkenin yaklaşık ihtimalleri hakkında sadece aritmetik ortalama ve standart sapmanın bilinmesi ile bazı hesaplar yapılabilmektedir. Bu tür ihtimal çıkarımlarının genel olarak ihtimal dağılım fonksiyonunun simetriğe yakın olması durumlarında kullanılması gerekmektedir. Aritmetik ortalama, μ ve standart sapmanın σ bilinmesiyle aşağıda verilen Chebyshev eşitsizliği ile gerekli ihtimal hesapları yapılabilir. Bu durumda P(( h X h )) 1 1/ h2 , h>1 P(( h X h )) 1/ h2 Bu eşitsizlikte h standart sapma sayısını gösterir. Bu durumda h= 1.1, 1.7, 2, 3 gibi sayı değerleridir. Chebyshev eşitsizliği yaklaşık ihtimal değerleri verir ama, pratikte ihtimal dağılım fonksiyonunun bilinmesini gerektirmediğinden çok büyük avantajlar sağlamaktadır. Chebyshev, büyük sayılar kuralına dayanarak ihtimallerin hesap edilebilmesi için yaklaşık bir ifadenin kullanılabileceğini göstermişir. Burada ihtimalin daha önce yapılan tanımlarından ve özellikle deney sayısının artması ile olayın ihtimal değerine yaklaşıldığı bilinmektedir. Aslında bu ihtimal değeridir. Örnek: Bir makale ortalama 1000 karakterden oluşmaktadır. Bu makalede karakter sayısına göre standart sapma 200 olmaktadır, bu durumda ortalamanın iki standart sapma altında ve üstünde kaç karakter buulunmektadır, P(1000-2x200<Xkarakter <1000+2x200)≥1-1/4 P(600<Xkarakter<1400)≥3/4 =%75 Örnek: Yukarıda verilen basınç verilerinin iki standart sapma yukarısında ve aşağısında toplam verinin % kaçı bulunmaktadır. Ortalama Varyans standart sapma Mod Medyan Basınç (mb) 994.58 52.49 7.25 1003.30 994.44 P(994.58-2x7.25<994.58+2x7.25)≥%75 P(980.05<x<1009.08)≥ %75 NORMAL STANDART DAĞILIM Daha öncede bahsedildiği gibi doğal olayların ölçümleri sonucu elde edilen örnek fonksiyonlardaki (veri dizisindeki) verilerin bir çoğu normal dağılıma uymaktadır. Uymayanlar bazı dönüşümler ile (karekök, logaritma gibi) normal dağılım haline dönüştürülebilir. Normal dağılımın bazı özellikleri arasında önemli olanları şu şekilde sıralayabiliriz; a. Verilerden elde edilen bağıl sıklık diyagramının simetrik yapıya sahip olması halinde normal dağılımın uygun düşeceği sonucuna varılır. Bu durumda çarpıklık katsayısının değeri sıfıra eşittir. b. Normal dağılımın bir tek en sık değeri (Mod) vardır. Bu değer yaklaşık olarak orta değer (Medyan) ile aritmetik ortalama değerine eşittir. Bu eşitlik hata sınırları içinde kabul gören istatistik eşitliktir. c. Normal dağılım biri aritmetik ortalama diğeri standart sapma olmak üzere iki tane istatistik parametreye sahiptir. d. Verilerin çoğu beklendiği gibi en sık değer etrafında bulunur. Buradan sağa ve sola gidildikçe verilerin bağıl sıklıkları aynı oranda azalır. e. Teorik normal dağılımın altında kalan alanın değeri bire eşittir. f. Teorik dağılım fonksiyonunda sağ ve solda olmak üzere uç (ekstrem) değerleri içeren iki kuyruk vardır. Bunlar teorik olarak -∞ ile +∞’a kadar uzanır. Ama pratikte en büyük ve en küçük değerler sonludur. Matematik olarak normal dağılım fonksiyonu f ( x) 1 1 X 2 exp ( ) 2 2 Şeklinde ifade edilir. Burada μ aritmetik ortalama, σ ise standart sapma değerini gösterir ve dağılım fonksiyonu N(μ, σ) notasyonu ile gösterilir. Bu denklemin geometrik görüntüsü aşağıdaki şekilde görüldüğü gibidir. İstatistik deneylerin %90’nı bu şeklin altındaki alt alanların düşünülmesi ile yapılır. Bu eğrilerin altında kalan alanın integral yolu ile hesaplanması güç olduğundan dolayı alanların hesabı için aşağıdaki çizelge hazırlanmıştır. Bu çizelgede sayısal olarak verilen alanlar -∞’dan artı bir standart normal değişken olan x’e kadar taralı yerdir. Bu çizelgedeki alanların 1’den çıkarılması ile aynı standart değişken için anlam seviyesi elde edilir. Çizelge yardımıyla anlam seviyesi ve standart değişkenin birinin verilmesi ile diğeri bulunur. Bu çizelgeden yararlanmak için önce normal (Gaussian) dağılıma uyduğu belirlenen verinin daha önce açıklanan şekilde standart değerinin bulunması gerekir. Gauss (normal) ihtimal fonksiyonu her türlü belirsizlik konusunun temel dağılım fonksiyonu olarak nitelendirilir. Belirsizlik konuları ile çalışanların adları gibi öğrenmeleri gereken bir dağılımdır.