12. Hafta Ders Notları GENEL TEKRAR A – Veri Türleri Anakütle bir bütünü temsil ederken; örneklem, bir bütünün sadece bir kısmını temsil etmektedir. Anakütledeki gözlem sayısı N ile temsil edilirken; örneklemdeki gözlem sayısı n ile temsil edilir. 𝑛≤𝑁 Anakütlenin bir özelliğini tanımlayan sayısal bir değere parametre denirken; örneklemin bir özelliğini tanımlayan sayısal değere istatistik adı verilir. Örnek: Sakarya Üniversitesi’nde okuyan 73.500 öğrenci mevcuttur. Bu öğrencilerin not ortalaması 2,01 olarak tespit edilmiştir. Sakarya Üniversitesi’nde bulunan bir fakültenin içerisinde yer alan bir bölüm ele alındığında, bu bölümde 420 öğrenci okumaktadır ve bu öğrencilerin not ortalaması 2,23 olarak bulunmuştur. Anakütle: Sakarya Üniversitesi’nde okuyan öğrenciler Anakütle gözlem sayısı: 𝑁 = 73.500 Anakütle parametresi: Ortalama not 𝜇 = 2.01 Örneklem: Sakarya Üniversitesi’nde bulunan bir fakültenin içerisinde yer alan bir bölümün öğrencileri Örneklem gözlem sayısı: 𝑛 = 420 Örneklem için istatistik: Ortalama 𝑥 = 2.23 1 A – 1 – Verilerin Ölçümü Bazı veriler sayısal değerler alırken; bazı veriler sayısal olmayan ölçümlerden oluşur: A – 2 – Verilerin Ölçü Düzeyleri Kullandığınız verilerin ölçü düzeyleri, istatistiksel olarak hangi ölçümleri yapabileceğinizi ve hangi işlemleri uygulayabileceğinizi belirleyecektir: Ölçüm Düzeyi türündeki değişkenlerin sıralanması nedir” sorusu mümkün değildir. Ordinal (Sıralı) Düzey Kategoriler aralarında sıralanabilir. Türkiye’deki üniversitelerin Ancak kategoriler arası farklar sıralaması, veya bir dersten bulunamaz veya anlamsızdır. alınan geçme notlarının harfler ile temsil edilmesi. Interval (Aralık) Düzeyi Bu düzeydeki değişkenin değerleri Isı ölçümleri: Isı, 0 derece arasındaki fark, anlamlıdır. Ancak olabilir. Ancak bu, ısının doğal bir sıfır noktası yoktur ve olmadığı anlamına gelmez. değerlerin birbirine oranı anlamsızdır. Ratio (Oran) Düzeyi Bu düzeydeki değişkenin doğal bir “Gelir düzeyiniz nedir?” “0” noktası vardır ve değerleri sorusunun cevabı, “0” arasındaki oranlar anlamlıdır. olabilir. 2 Sayısal Bir anketteki “göz renginiz Kategorik Sadece kategorilerden oluşur. Bu veri (Niceliksel) değişkenler Örnek (Niteliksel) değişkenler Nominal (Kategorik) Düzey Tanımı ve özellikleri Korelasyon (Correlation) ve Nedensellik (Causality) İki değişken arasında doğrusal ilişkinin yönü ve şiddeti, korelasyon katsayısı ile ölçülmektedir. Ancak iki değişken arasında doğrusal bir ilişkinin varlığı, birbirleri arasında bir nedensellik ilişkisi olduğu anlamına gelmeyecektir. Örneğin elde edilen mısır miktarı ile yağan yağmur miktarı arasında pozitif yönlü bir korelasyon söz konusudur. Bu, “Elde edilen mısır miktarı arttıkça yağan yağmur miktarı da artar” şeklinde bir nedensellik içermemektedir. B – VERİLERİN SAYISAL ÖLÇÜMLERİ B – 1 – Merkezi Eğilim Ölçüleri : Bir veri setinde yer alan tüm değerlerin toplanmasını ifade eder. X: Aynı özellikleri tanımlanmış gözlem değerlerinin oluşturduğu bir değişkendir. Ortalama: Bir veri setinde yer alan bütün gözlem değerlerini dikkate alır ve gözlem değerlerinin hepsine eşit ağırlık vererek, bu değerleri temsil edecek tek bir sayısal değer türetir. B – 2 – Değişimin Ölçülmesi Varyans ve standart sapma ile yapılmaktadır. Varyans: Bir veri setinde yer alan gözlem değerlerinin her birinin ortalamaya olan uzaklığının ortalamasını temsil eden bir sayısal değerdir. Standart Sapma: Varyansıın pozitif kareköküdür. ANAKÜTLE Ortalama (Mean, Average) Varyans Standart Sapma 𝜇= ! 𝜎 = 𝜎= ÖRNEKLEM ! !!! 𝑋 ! ! !!! (𝑋! − 𝜇) 𝑁 ! !!! (𝑋! − 𝜇) 𝑁 3 𝑋= 𝑁 𝑠! = ! 𝑠= ! !!! 𝑋 𝑛 ! !!!(𝑋! − 𝑋)! 𝑛−1 ! !!!(𝑋! − 𝑋)! 𝑛−1 Örnek: Bir futbol ligindeki teknik direktörlerin maaşları, aylık olarak, aşağıdaki gibidir: Aylık Maaşlar (TL) 2350 1250 1590 1280 4920 9000 5300 3600 1380 2120 a) Bu veri seti, kesikli mi yoksa sürekli mi değerler almaktadır? b) Bu veri setinin ölçüm düzeyini (nominal, ordinal, interval, ratio) tanımlayınız. c) Bu veri setinin ortalamasını bulunuz. d) Bu veri setinin varyansını ve standart sapmasını bulunuz. 4 C – OLASILIK Rassal süreç: Hangisinin gerçekleşeceği konusunda bir kesinlik olmayan ve en az iki sonuç içeren durumdur. Örneğin, Hilesiz bir zarın atılması. Olay: Rassal süreç sonucunda ortaya çıkması ile ilgilenilen bir durumdur. A olayı: Atılan zarın “1” gelmesi – 𝐴 = {1} B olayı: Atılan zarın çift sayı gelmesi – 𝐵 = {2,4,6} Örneklem uzayı: Rassal süreç sonucunda ortaya çıkabilecek olayların tamamıdır. 𝑆 = 1,2,3,4,5,6 Olasılığın Hesaplanması A olayı için: 𝑃 𝐴 = ! !"#$ı !ç!"!# !"#$ç !"#ı!ı B olayı için: 𝑃 𝐵 = ! !"#$ı !ç!"!# !"#$ç !"#ı!ı !"#$%& !"#$ç !"#ı!ı !"#$%& !"#$ç !"#ı!ı ! =! = ! ! Ayrık – Bağdaşmaz (Disjoint) Olaylar İki olayın aynı anda meydana gelmemesini ifade eder: 𝐴∩𝐵 =∅ Tümleyen olaylar A olayının tümleyeni (𝐴), A olayının sonuçları dışında örneklem uzayında yer alan bütün sonuçlardır. A olayı ile tümleyeni 𝐴 olayı, bağdaşmaz iki olaydır. 𝐴 = {2,3,4,5,6} 𝑃 𝐴 +𝑃 𝐴 =1 Bütünü Kapsayıcılık (Exhaustive Events) Olaylar bağdaşmazsa ve sonuçlarının bir araya gelmesi örneklem uzayını veriyorsa, bu olaylar bütünü kapsayıcıdır. A ve B olayı, bağdaşmaz olmasına rağmen, bütünü kapsayıcı değildirler. C olayı: Atılan zarın sonucu tek sayı gelir. 𝐶 = {1,3,5} 𝐵∪𝐶 =𝑆 Olasılığın kuralları 0 ≤ 𝑃(𝐴) ≤ 1 𝑃 𝐵 +𝑃 𝐶 =1 5 Olasılığın toplama kuralı Şayet iki olay, aynı anda meydana gelebiliyorsa (ayrık değillerse): 𝑃 𝐴 ∪ 𝐵 = 𝑃 𝐴 + 𝑃 𝐵 − 𝑃(𝐴 ∩ 𝐵) Şayet iki olay, aynı anda meydana gelemiyorsa: 𝑃 𝐴∪𝐵 =𝑃 𝐴 +𝑃 𝐵 Koşullu Olasılık Şayet A olayının meydana gelmesi B olayının meydana gelme olasılığını etkiliyorsa, B olayının olasılığı hesaplanırken A olayının meydana geldiği gerçeği de dikkate alınmalıdır: 𝑃 𝐵𝐴 = !(!∩!) !(!) veya 𝑃 𝐴 𝐵 = !(!∩!) !(!) İstatistiksel Bağımlılık İki olay arasında bir etkileşim söz konusu ise, koşullu olasılık denkleminden hareketle, olasılıkları arasında şöyle bir ilişki tanımlanabilir: 𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐵 𝐴 𝑃(𝐴) Veya 𝑃 𝐴∩𝐵 =𝑃 𝐴 𝐵 𝑃 𝐵 İstatistiksel Bağımsızlık Şayet bir olayın olasılığı diğer bir olayın meydana gelmesinden etkilenmiyorsa, koşullu olasılığı kendi olasılığına eşit olacaktır: 𝑃 𝐵 𝐴 = 𝑃(𝐵) Veya 𝑃 𝐴 𝐵 = 𝑃(𝐴) Bu durumda bu iki olayın aynı anda meydana gelme olasılığı, koşullu olasılık denkleminden hareketle, şu şekilde tanımlanabilir: 𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐴 𝑃(𝐵) İki olay, ancak ve ancak, bu koşul altında istatistiksel olarak birbirlerinden bağımsızdırlar. 6 İki Değişkenli Olasılık Bir fabrikada iki makine bulunsun. Bu makinelerin kurşun kalem üretimleri toplamda 1000 adet olup, makinelere dağılımı (kusurlu ve kusursuz olarak) aşağıdaki gibidir: Kusurlu parça Kusursuz parça A makinesi 4 396 B makinesi 12 588 Bileşik Olay: Aynı anda iki farklı olayın meydana gelmesidir: A olayı: A makinesi üretimi parçalar B olayı: B makinesi üretimi parçalar C olayı: Kusurlu parçalar 𝐶 𝑜𝑙𝑎𝑦ı: Kusursuz parçalar Hem kusurlu hem de A makinesinde üretilmiş kaç ürün vardır? 𝐴∩𝐶 =4 Hem kusurlu hem de B makinesinde üretilmiş kaç ürün vardır? 𝐵 ∩ 𝐶 = 12 Marjinal olasılık (Kenar olasılığı) Sadece tek bir olayın olasılığıdır. C olayı: Kusurlu parçalar Kusurlu parça sayısı = (A makinesinden) + (B makinesinden) = 4 + 12 = 16 Bu fabrikada üretilen kalemler arasından rassal olarak çekilen bir kalemin kusurlu olma olasılığı nedir? 𝑃 𝐶 = 𝑡𝑜𝑝𝑙𝑎𝑚 𝑘𝑢𝑠𝑢𝑟𝑙𝑢 𝑝𝑎𝑟ç𝑎 𝑠𝑎𝑦ı𝑠ı 16 = 𝑡𝑜𝑝𝑙𝑎𝑚 𝑘𝑎𝑙𝑒𝑚 𝑠𝑎𝑦ı𝑠ı 1000 Koşullu Olasılık Rassal olarak seçilen bir ürün kusurlu ise, bu kalemin A makinesinde üretilmiş olma olasılığı nedir? Koşul: Ürün kusurlu (C olayı) Aranan olasılık: A makinesinde üretilmiş olma olasılığı (A olayı) 𝑃 𝐴𝐶 = 𝑃(𝐴 ∩ 𝐶) 𝐻𝑒𝑚 𝑘𝑢𝑠𝑢𝑟𝑙𝑢 ℎ𝑒𝑚 𝐴 𝑚𝑎𝑘𝑖𝑛𝑒𝑠𝑖𝑛𝑑𝑒 𝑘𝑎𝑙𝑒𝑚 𝑠𝑎𝑦ı𝑠ı 4 = = = 0,25 𝑃(𝐶) 𝐾𝑢𝑠𝑢𝑟𝑙𝑢 𝑘𝑎𝑙𝑒𝑚 𝑠𝑎𝑦ı𝑠ı 16 7 D – RASSAL DEĞİŞKENLER D – 1 – Kesikli Rassal Değişkenler Örneğin, gün içerisinde bir doktora gelen hasta sayısı, bir kutudaki arızalı parça sayısı gibi. Rassal değişken, tanım kümesi bir sürecin örneklem uzayı, değer kümesi reel sayılar kümesi olan bir sayılar kümesidir. Hilesiz iki zar aynı anda atılsın. Bu rassal süreç sonucunda oluşacak sonuçlar (örneklem uzayı), aşağıdaki gibidir: 1,1 , 1,2 , 1,3 , 1,4 , 1,5 , 1,6 , 2,1 , 2,2 , 2,3 , 2,4 , 2,5 , 2,6 , 3,1 , 3,2 , 3,3 , 3,4 , 3,5 , 3,6 , 4,1 , 4,2 , 4,3 , 4,4 , 4,5 , 4,6 , 5,1 , 5,2 , 5,3 , 5,4 , 5,5 , 5,6 , 6,1 , 6,2 , 6,3 , 6,4 , 6,5 , 6,6 Şimdi bu tanım kümesinden hareketle elde edilecek olan rassal değişkeni ve değer kümesini tanımlayalım. X: Aynı anda atılan iki zarın toplamı 𝑋 = 2,3,4,5,6,7,8,9,10,11,12 Kesikli rassal değişkenin olasılık dağılımı Kesikli rassal değişkenin bir değeri alma olasılığını ifade eder. 𝑃(𝑋 = 𝑥) Örneğimizdeki X rassal değişkeninin alabileceği 11 farklı değer vardır. Her bir değerin gerçekleşme olasılığı ise, tanım kümesinde bu toplamlara denk elen ikililerin sayısı ile ilgilidir: X 2 3 4 5 6 7 P(X = x) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36 8 8 9 10 11 12 Kesikli Rassal Değişkenin Ortalaması (Beklenen Değeri) 𝐸 𝑋 = 𝐸 𝑋 = 𝑋𝑃(𝑋 = 𝑥) 1 + 3 36 𝑋𝑃(𝑋 = 𝑥) = 2 2 + ⋯ + 12 36 1 =7 36 Kesikli Rassal Değişkenin Varyansı 𝜎 ! = 𝐸[𝑋 ! ] − 𝐸(𝑋)! 𝐸[𝑋 ! ] = 𝑋 ! 𝑃 𝑋 = 𝑥 = (2)! 1 + 3 36 𝜎 ! = 𝐸[𝑋 ! ] − 𝐸 𝑋 ! ! 2 + ⋯ + 12 36 = 54.83 − 7 ! = 5.83 Alternatif Varyans hesaplama yöntemi 𝜎! = [𝑋 − 𝐸 𝑋 ]! 𝑃(𝑋 = 𝑥) Kesikli Rassal Değişkenin Standart Sapması 𝜎= 𝜎 ! = 5.83 = 2.414 9 ! 1 = 54.83 36 Kesikli Rassal Değişkenler ve Kovaryans Kovaryans katsayısı, iki rassal değişken arasındaki doğrusal ilişkinin varlığını ve yönünü tespit edebilir. Ancak iki rassal değişken arasında doğrusal olmayan ilişki formalarını tespit edemez. Ayrıca doğrusal ilişkinin varlığını ve yönünü tespit etse bile, doğrusal ilişkinin şiddetini de ölçemez. 𝐶𝑂𝑉 𝑋, 𝑌 = 𝐸 𝑋𝑌 − 𝐸 𝑋 𝐸(𝑌) 𝐸 𝑋𝑌 = 𝑥𝑦𝑃(𝑋 = 𝑥 ∩ 𝑌 = 𝑦) ! ! Kovaryansın sayısal değer sınırları −[𝑉𝑎𝑟 𝑋 𝑉𝑎𝑟 𝑌 ] ≤ 𝐶𝑂𝑉 𝑋, 𝑌 ≤ 𝑉𝑎𝑟 𝑋 𝑉𝑎𝑟(𝑌) Y Değişkeni X değişkeni 𝐸 𝑋 = 𝐸 𝑌 = 𝐸 𝑋𝑌 = 1 2 3 1 0.25 0.25 0 2 0 0.25 0.25 𝑥𝑃 𝑋 = 𝑥 = 1 0.50 + 2 0.50 = 1.50 𝑦𝑃 𝑌 = 𝑦 = 1 0.25 + 2 0.50 + (3)(0.25) = 2.00 𝑥𝑦𝑃 𝑋 = 𝑥 ∩ 𝑌 = 𝑦 ! ! = 1 1 0.25 + 1 2 0.25 + 1 3 0 + 2 1 0 + 2 2 0.25 + 2 3 0.25 = 3.25 𝐶𝑂𝑉 𝑋, 𝑌 = 𝐸 𝑋𝑌 − 𝐸 𝑋 𝐸 𝑌 = 3.25 − 1.5 2.0 = 0.25 Kovaryans katsayısı “0” olmadığı için iki değişken arasında doğrusal bir ilişki olduğu anlaşılır. Kovaryans katsayısı pozitif olduğu için iki rassal değişken arasında pozitif yönlü doğrusal bir ilişki olduğu anlaşılır. Ancak ilişkinin güçlü mü yoksa zayıf mı olduğuna, kovaryans katsayısına bakılarak karar verilemez. Ayrıca kovaryans katsayısı, nedensellik (hangi değişken diğerini etkiler) ile ilgilide bir bilgi vermemektedir. 10 Bernoulli (İki terimli) olasılık dağılımı Temel varsayımları (a) Bir olayın sonucunda “başarı” ve “başarısızlık” olmak üzere iki temel sonuç vardır. (b) Başarı olasılıkları p ve başarısızlık olasılıkları (1 − 𝑝) her bir deneme için sabittir. (c) Toplam n tane deneme içerisinde ilgilenilen x tane başarı vardır. (d) Her bir denemede oluşan sonuçlar, birbirinden bağımsızdır. 𝑃 𝑋=𝑥 = 𝑛! 𝑝 ! (1 − 𝑝)!!! 𝑥! 𝑛 − 𝑥 ! Örnek: Bir yumurta firması yumurtalarını 30’lu kolilerde satışa sunmaktadır. Firmanın verilerine göre yumurtaların % 95’i kırılmadan müşterilere ulaştırılmaktadır. Bu firmadan 4 koli yumurta alan bir müşteri, her bir koliden rassal olarak bir yumurta aldığında, 3 kırık yumurta ile karşılaşma olasılığı nedir? Sorunun iki terimli dağılıma uyduğunu şuradan anlıyoruz: Rassal olarak seçilen yumurtalar kırık mı değil mi? Diğer bir ifadeyle iki sonuçlu bir durum söz konusudur. X değişkeni: Seçilen 4yumurtanın kırık olması 𝑋 = {0,1,2,3,4} 4 𝑦𝑢𝑚𝑢𝑟𝑡𝑎 𝑜𝑙𝑑𝑢ğ𝑢𝑛𝑑𝑎𝑛 𝑛=4 𝑝: 𝑦𝑢𝑚𝑢𝑟𝑡𝑎𝑙𝑎𝑟ı𝑛 𝑘ı𝑟ı𝑙𝑚𝑎 𝑜𝑙𝑎𝑠ı𝑙ığı 1 − 𝑝 : 𝑦𝑢𝑚𝑢𝑟𝑡𝑎𝑙𝑎𝑟ı𝑛 𝑘ı𝑟ı𝑙𝑚𝑎𝑚𝑎 𝑜𝑙𝑎𝑠ı𝑙ığı 𝑝 = 0.05 1 − 𝑝 = 0.95 𝑃 𝑋=𝑥 = 𝑛! 𝑝 ! (1 − 𝑝)!!! 𝑥! 𝑛 − 𝑥 ! 𝑃 𝑋=0 = 4! (0.05)! (1 − 0.05)! = 0.814 0! 4 − 0 ! 𝑃 𝑋=1 = 4! (0.05)! (1 − 0.05)! = 0.171 1! 4 − 1 ! 𝑃 𝑋=2 = 4! (0.05)! (1 − 0.05)! = 0.020 2! 4 − 2 ! 11 𝑃 𝑋=3 = 𝑃 𝑋=4 = 4! 0.05 3! 4 − 3 ! ! 1 − 0.05 ! = 0.00047 4! (0.05)! (1 − 0.05)! = 0.0000062 4! (4 − 4)! Seçilen 4 yumurtanın hiç kırık olmama ihtimali % 81,4 olurken; seçilen 4 yumurtanın sadece 1’inin kırık olma olasılığı da %17,1’dir. Poisson Olasılık Dağılımı Mesafe ve zaman ölçümü içeren sorunlarda kullanılmaktadır. Örneğin, otobanın belirli mesafeleri arasında araçların arıza yapma olasılığı veya bir saat içerisinde bir dükkâna belirli sayıda müşteri gelme olasılıklarının hesaplanmasında kullanılır. Temel Varsayımlar (a) Belirli zaman veya mesafe aralığında meydana gelen olayların birbirinden bağımsız olduğu kabul edilir. (b) Belirli aralıkta meydana gelen olayların ortalama dağılımı, aralıklar için hep eşittir. 𝑒 !! 𝜆! 𝑃 𝑋=𝑥 = 𝑥! 𝑒 = 2.718 λ: Belirli aralıkta meydana gelen ortalama olay sayısı Örnek: Serdivan kavşağında yılın ilk altı ayında ortalama 5 kaza meydana geldiyse, önümüzdeki altı ayda 2 kaza olma olasılığı nedir? X: Serdivan kavşağında meydana gelen kaza sayısı 𝜆=5 𝑃 𝑋 = 2 =? 𝑃 𝑋=2 = 𝑒 !! (5)! = 0.084 2! Sonraki üç ay içerisinde 3 kaza meydana gelme olasılığı nedir? Bu durumda ortalama kaza sayısı 2,5 olacaktır: 𝜆 = 2,5 𝑃 𝑋 = 3 =? 𝑃 𝑋=3 = 𝑒 !!.! (2.5)! = 0.213 3! Sonraki üç ayda 3 kaza meydana gelme olasılığı % 21.3’tür. 12 D – 2 - SÜREKLİ RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI Belirli bir sayı aralığında olası bütün değerleri alabilen değişkenlerdir. Örneğin, ücretler, maliyetler, ağırlıklar gibi. Sürekli rassal değişkenlerin dağılım formunun normal olduğunu kabul ediyoruz. Çan eğrisi şeklindeki olasılık yoğunluk fonksiyonunun altında kalan alanın sayısal değeri “1”dir. Bunun bir diğer anlamı, X rassal değişkinine ait bütün gözlem değerleri, bu çan eğrisinin altında yer almaktadır. Her hangi bir rassal değişkenin belirli aralıktaki olasılığının bulunabilmesi için standart normal dağılıma dönüştürmesi yapılır. Dönüştürme işlemi, aşağıdaki formül aracılığı ile yapılır: 𝑍= 𝑋−𝜇 𝜎 Elde edilen standart normal dağılım değeri (Z değeri) ile standart normal dağılım tablosundaki olasılık değeri bulunur. Örnek: Bir tarantula türü olan Mollicoma örümceklerinin yetişkin erkeklerinin boyu 18.14 mm ortalama ve 1.76 mm standart sapma ile normal dağılım göstermektedir. a) Rassal olarak seçilen yetişkin erkek Mollicoma örümceğinin uzunluğunun 16.34 mm’den kısa olma olasılığı nedir? b) Bu örümceklerin yüzde kaçının uzunluğu 17.00 mm ile 19.00 mm aralığındadır. c) Örümceklerin en uzun olan % 10’u, kaç mm’den daha uzundur? Çözüm – a: Örümceklerin uzunluklarının normal dağılım gösterdiği bilgisi verilmiştir. Belirli uzunluk değerleri için olasılık (veya sıklık) değerlerini bulabilmek için, 13 standart normal dağılıma dönüştürme yapılmalıdır. Bu dönüştürme işleminde kullanılacak veriler, aşağıdaki gibidir: 𝑋 𝑟𝑎𝑠𝑠𝑎𝑙 𝑑𝑒ğ𝑖ş𝑘𝑒𝑛𝑖: Ö𝑟ü𝑚𝑐𝑒𝑘𝑙𝑒𝑟𝑖𝑛 𝑢𝑧𝑢𝑛𝑙𝑢𝑘𝑙𝑎𝑟ı 𝑚𝑚 𝜇 = 18.14 𝑚𝑚 𝜎 = 1.76 𝑚𝑚 𝑃 𝑋 ≤ 16.34 𝑚𝑚 =? 𝑍= 𝑋 − 𝜇 16.34 − 18.14 = 𝜎 1.76 𝑍 = −1.02 Negatif standart normal dağılım tablosunda bu Z değerine denk gelen alan sayısı 0.1539’dur. Bunun anlamı, standart normal dağılıma sahip rassal değişkenin değeri eksi sonsuzdan – 1.02 değerine kadar geldiğinde taradığı alanın sayısal değeri 0.1539’dur. 𝑃 𝑍 ≤ −1.02 = 0.1539 Normal dağılıma sahip rassal değişkenin sayısal değerleri ile bu dönüştürmeyi yaptığımız için, X rassal değişkeninin 16.34 mm’den daha düşük olma olasılığı da aynı değere eşit olacaktır: 𝑃 𝑋 ≤ 16.34 𝑚𝑚 = 𝑃 𝑍 ≤ −1.02 14 𝑃 𝑋 ≤ 16.34 𝑚𝑚 = 0.1539 Mollicoma türü örümceklerin yetişkin erkeklerinin % 15.39’unun uzunluğu, 16.34 mm ve daha kısadır. Diğer bir ifadeyle, Mollicoma türü örümceklerden rassal olarak seçilen yetişkin bir erkeğin boy uzunluğunun 16.34 mm’den daha kısa olma olasılığı % 15.39’dur. b) 𝑃 17.00 𝑚𝑚 ≤ 𝑋 ≤ 19.00 𝑚𝑚 =? 𝑋! = 17.00 𝑋! = 19.00 İlk önce 𝑋! değeri için dönüştürme yapalım: 𝑍! = 𝑋! − 𝜇 19.00 − 18.14 = 𝜎 1.76 𝑍! = 0,48 Pozitif standart normal dağılım tablosunda 0,48 için alanın sayısal değeri 0.6844’tür. Bunun anlamı Z değişkeni eksi sonsuzdan gelip 0.48 sayısal değerine kadar taradığı alanın sayısal değeri 0.6844’tür. 𝑃(𝑍! ≤ 0,48) = 0.6844 Şimdi 𝑋! için dönüştürme yapalım: 𝑍! = 𝑋! − 𝜇 17.00 − 18.14 = 𝜎 1.76 𝑍! = −0.64 Negatif tabloda – 0.64’e denk gelen alanın sayısal değerine baktığımızda 0.2611 değerini görürüz. Bunun anlamı, Z değişkeni eksi sonsuzdan gelip – 0.64 değerine kadar taradığı alanın sayısal değeri 0.2611’dir. 𝑃(𝑍! ≤ −0.64) = 0.2611 Aradığımız olasılık, 𝑍! ve 𝑍! arasında kalan alanın sayısal değeridir: 𝑃 𝑍! ≤ 𝑍 ≤ 𝑍! =? 𝑃 −0.64 ≤ 𝑍 ≤ 0.48 = 𝑃(𝑍! ≤ 0,48) − 𝑃(𝑍! ≤ −0.64) 𝑃 −0.64 ≤ 𝑍 ≤ 0.48 = 0.6844 − 0.2611 𝑃 −0.64 ≤ 𝑍 ≤ 0.48 = 0.4233 15 𝑃 17.00 𝑚𝑚 ≤ 𝑋 ≤ 19.00 𝑚𝑚 = 𝑃 −0.64 ≤ 𝑍 ≤ 0.48 𝑃 17.00 𝑚𝑚 ≤ 𝑋 ≤ 19.00 𝑚𝑚 = 0.4233 Rassal olarak seçilen bir örümceğin uzunluğunun 17 ile 19 mm arasında olma olasılığı % 42.33’tür. c) 𝑃 𝑋 ≥? = 0.10 İstenilen X değerini bulabilmek için önce standart normal dağılım tablosunda kendisinden sonra kalan alanın sayısal değeri 0.1000 olan Z değerini bulmalıyız. Pozitif Z tablosunda 1.28 sayısal değerinin karşılığı 0.8997’dir. Bunun anlamı, eksi sonsuzdan gelip 1.28 sayısına kadar standart normal dağılıma sahip rassal değişkenin gözlem değerlerinin % 89.97’si geçilmiştir. Bu noktadan sonra kalan kısımda (yaklaşık olarak) gözlem değerlerinin % 10’u bulunmaktadır: 𝑃 𝑍 ≥ 1.28 = 0.10 Şimdi Z değerini X değerine dönüştürelim: 𝑍= 𝑋−𝜇 𝜎 16 1.28 = 𝑋 − 18.14 1.76 1.28 1.76 = 𝑋 − 18.14 𝑋 = 20.39 𝑚𝑚 Bu tür örümceklerin % 10’u, 20.39 mm’den daha uzundur. E - ÖRNEKLEM ORTALAMALARININ DAĞILIMI Anakütlenin gözlemlenebildiği bir durumda hesaplanacak olan parametrelerin, örneğin ortalama ve standart sapma, sadece tek bir değeri olacaktır. Örneğin bir ampul üreticisi bir firma, bir üretim süreci sonucunda 1 milyon ampul üretiyor ve bunların tamamının saat olarak ömrünü ölçebiliyorsa, ampulleri için ortalama bir ömür (saat) belirleyecektir ve bu değer, tek bir sayısal değer (parametre) olacaktır. Ancak gerçek hayatta anakütlenin tamamının gözlemlenmesi çoğu zaman mümkün değildir. Bunun için anakütleden örneklem çekilecektir. 1 milyon ampul üreten bir firmanın ampullerin ömrünü kontrol etmek için 100 veya 1000 ampulü alıp ölçüm yaptığını düşünelim. Alınan örneklemin kendine özgü bir ortalama değeri (istatistik) olacaktır. Ancak dikkat edilmesi gereken nokta, çekilen tek bir örneklemden elde edilen ortalama değeri, 1 milyon gözlem sayısına sahip anakütleden 100 veya 1000 elemanlı çekilebilecek örneklemlerden 17 sadece biridir. Dolayısıyla 1 milyonun 100’lü kombinasyonu sonucunda kaç tane farklı örneklem elde edilebilecekse, o kadar farklı örneklem ortalamaları elde edilecektir. Merkezi Limit Teoremi (1) Ortalaması 𝜇 ve standart sapması 𝜎 olan (dağılımı normal olsun veya olmasın) bir anakütleden çekilen örneklemin gözlem sayısı 30’dan büyükse (𝑛 ≥ 30), elde edilebilecek örneklemlerin ortalamalarının dağılımı, beklenen değeri (ortalaması) 𝜇 ve standart sapması 𝜎 𝑛 ile normal dağılım gösterecektir. (2) Ortalaması 𝜇 ve standart sapması 𝜎 olan ve normal dağılım gösteren bir anakütleden çekilen örneklemin gözlem sayısı 30’dan küçükse (𝑛 < 30), elde edilebilecek örneklemlerin ortalamalarının dağılımı, beklenen değeri (ortalaması) 𝜇 ve standart sapması 𝜎 𝑛 ile normal dağılım gösterecektir. Dikkat edilirse bu iki koşul altında örneklem ortalamalarının ortalaması (𝝁𝑿 ) ile anakütle ortalaması (𝝁) birbirine eşit olmaktadır. Mümkün olan bütün örneklemlerin ortalamaları hesaplandığı için örneklem ortalamalarının dağılımı da ayrı bir anakütle olacaktır. Bu anakütlenin ortalaması ve standart sapması, şu şekilde sembolize edilecektir: 𝜇! : Ö𝑟𝑛𝑒𝑘𝑙𝑒𝑚 𝑜𝑟𝑡𝑎𝑙𝑎𝑚𝑎𝑙𝑎𝑟ı𝑛ı𝑛 𝑜𝑟𝑡𝑎𝑙𝑎𝑚𝑎𝑠ı 𝜎! : Ö𝑟𝑛𝑒𝑘𝑙𝑒𝑚 𝑜𝑟𝑡𝑎𝑙𝑎𝑚𝑎𝑙𝑎𝑟ı𝑛ı𝑛 𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑡 𝑠𝑎𝑝𝑚𝑎𝑠ı Bu bilgiler ışığında, örneklem ortalamalarının dağılımına dair olasılıkları bulabilmek için standart normal dağılım dönüştürmesi, şu şekilde yapılacaktır: 𝑍= 𝑋 − 𝜇! 𝑋 − 𝜇! = 𝜎! 𝜎 𝑛 Örnek: Bir emlak dergisinin yapmış olduğu araştırmada Bodrum’daki evlerin ortalama metrekare fiyatı 18000 TL bulunmuştur. Anakütle, standart sapması 4000 TL ile normal dağılım göstermektedir. a) Anakütleden çekilen bir evin metrekare fiyatının 23750 TL’den büyük olma olasılığı nedir? Soruda verilenler: 𝜇 = 18.000 𝑇𝐿 𝜎 = 4.000 𝑇𝐿 𝑃 𝑋 ≥ 23.750 𝑇𝐿 =? 18 Normal dağılama sahip bu rassal değişkenin değerlerini, standart normal dağılıma dönüştürelim: 𝑍= 𝑋 − 𝜇 23.750 − 18.000 = 𝜎 4.000 𝑍 = 1.43 Pozitif Z tablosunda bu değerin karşısında 0.9236 yazmaktadır. Bunun anlamı, Z rassal değişkeni eksi sonsuzdan gelip 1.43 sayısına kadar taradığı alanın sayısal değeri 0.9236’dır. 𝑃 𝑍 ≤ 1.43 = 0.9236 Ancak biz, bu değerden daha büyük olma olasılığını arıyoruz: 𝑃 𝑍 ≥ 1.43 = 1 − 𝑃 𝑍 ≤ 1.43 𝑃 𝑍 ≥ 1.43 = 1 − 0.9236 𝑃 𝑍 ≥ 1.43 = 0.0764 Standart normal dağılıma sahip rassal değişkenin 1.43 değerini aşma olasılığı ile normal dağılıma sahip rassal değişkenin 23.750 TL değerini aşma olasılığı eşittir: 𝑃 𝑋 ≥ 23.750 𝑇𝐿 = 𝑃 𝑍 ≥ 1.43 𝑃 𝑋 ≥ 23.750 𝑇𝐿 = 0.0764 Bodrum’da rassal olarak seçilen bir evin metrekare fiyatının 23.750 TL’den daha fazla olma olasılığı % 7,64’tür. 19 b)Anakütleden çekilen 32 gözlemli bir örneklemin ortalamasının 23750 TL’den yüksek olma olasılığı kaçtır? Örneklem olduğu için dönüştürme işlemi ve dağılımın parametreleri değişecektir: 𝑛 = 32 𝜇 = 𝜇! = 18.000 𝑇𝐿 𝜎! = 𝜎 𝑛 = 4.000 32 = 707,96 𝑃 𝑋 ≥ 23.750 𝑇𝐿 =? Bu sorunun cevabını bulabilmek için verilenleri Z değişkenine dönüştürelim: 𝑍= 𝑋 − 𝜇! 𝑋 − 𝜇! 23.750 − 18000 = = 𝜎! 707,96 𝜎 𝑛 𝑍 = 8,12 Pozitif Z tablosunda en büyük Z değeri 3,50’dir. Standart normal dağılıma sahip rassal değişkenin bu değeri aşma olasılığı oldukça düşüktür. 𝑃 𝑋 ≥ 23.750 𝑇𝐿 = 𝑃 𝑍 ≥ 8,12 = 0,0001 Dikkat edilirse bir anakütleden tek bir gözlem çekmek ile belirli bir büyüklükte örneklem çekip ortalamasının olasılığını bulmak, oldukça farklı olasılık değerleri vermektedir. 20