Yayılma (Değişkenlik) Ölçüleri •Bir veri setini tanımak yada iki farklı veri setini birbirinden ayırt etmek için her zaman yalnızca yer ölçüleri yeterli olmayabilir. • Dağılımları birbirinden ayırt etmede kullanılan ve genellikle aritmetik ortalama etrafındaki değişimi dikkate alarak hesaplanan istatistiklere yayılma (değişkenlik) ölçüleri adı verilir. 1 Aşağıdaki iki grafik n = 1500 hacimlik alınan iki farklı örnek doğrultusunda oluşturulan histogramlardır. Her iki örnek ortalaması yaklaşık olarak 100 olduğuna göre iki örneğin aynı anakütleden alındığı söylenebilir mi? 1200 Frekans 400 300 1000 800 200 600 400 100 200 12 33 3, 33 9, 3 ,3 3 ,3 3 ,3 3 X 10 95 81 0 67 3 3, 12 3 X 3 9, 10 3 ,3 95 3 ,3 81 3 ,3 67 0 2 • Dağılımları birbirinden ayırt etmede kullanılan yayılım ölçüleri aritmetik ortalama etrafındaki değişimleri dikkate alan tanımlayıcı istatistiklerdir. • Bir veri setinde aritmetik ortalamalardan her bir gözlemin farkı alınıp bu değerlerin tümü toplandığında sonucun 0 olduğu görülür. 3 • Örnek: 4,8,9,13,16 şeklinde verilen bir basit veri için; n x 4 8 9 13 16 x 10 n 5 i 1 i x x 4 10 8 10 9 10 n i 1 i 13 10 16 10 0 • Bu örnekten görüleceği üzere gözlemlerin aritmetik ortalamadan uzaklığı alıp toplandığında 0 elde edildiğinden dolayı bu problem mutlaka değer kullanarak veya karesel uzaklık alınarak ortadan kaldırılır. 4 7) Range (Değişim Aralığı) • Veri setindeki yayılımı ifade etmede kullanılan en basit ölçü, değişim aralığıdır. Genel olarak az sayıda veri için kullanılır. • En büyük gözlem değeri ile en küçük gözlem değeri arasındaki fark değişim aralığını verir. • Veri setindeki tek bir gözlemin aşırı derecede küçük veya büyük olmasından etkilendiği için bir başka ifadeyle örnekte yer alan sadece iki veri kullanılarak hesaplanmasından dolayı tüm veri setinin değişkenliğini açıklamak için yetersiz kalmaktadır. 5 Değişim Aralığı Örnek: Aralık, veri seti içindeki en büyük değerle en küçük değer arasındaki uzaklığı ölçerek verinin yayılımını ortaya koyar. Örneğin aşağıdaki şekilde gösterildiği üzere A hisse senedi belirli bir yılda 36$ ila 32$ arasında çeşitlilik gösterirken, B hisse senedi 10$ ila 58$ arasında gösterdi. Hisse senedinin fiyatındaki aralık A için 36$-32$ = 4$ dır; B için 58$-10$=48$.Aralıkları kıyasladığımızda B hisse senedinin fiyat aralığının A ya göre daha çok değişkenlik gösterdiğini söyleyebiliriz. B hissesinin aralığı A hissesinin aralığı 10 20 30 32 36 40 50 58 60 Ücret ($) 6 Kartiller Arası Fark • Diğer değişkenlik 3. ve 1. kartiller arasındaki farka dikkat çeker. Çeyrek aralık olarak adlandırılan bu fark, Q3-Q1, bize veri setinin yarısını içeren genişliği verir. 7 8) Ortalama Mutlak Sapma(OMS) • Veri setindeki her bir gözlem değerinin aritmetik ortalamadan farklarının mutlak değerlerinin toplamının örnek hacmine bölünmesiyle elde edilir. • Gözlem değerlerinin aritmetik ortalamadan faklarının toplamı 0 olacağından bu problemi ortadan kaldırmak için mutlak değer n ifadesi kullanılır. xi x Basit veriler için: OMS i 1 n k Gruplanmış veriler için: OMS f i 1 xi x i k f i 1 k Sınıflanmış veriler için : OMS f i 1 i i mi x 8 k f i Örnek: İstatistik I dersini alan 10 öğrencinin vize notları aşağıdaki gibi sıralanmıştır. Buna göre vize notları için ortalama mutlak sapma değerini hesaplayınız. 30,41,53,61,68,79,82,88,90,98 n x 30 41 .... 98 x 69 n 10 i 1 i x x n OMS i 1 i 30 69 41 69 ... 98 69 10 n 145 14,5 10 9 Sınıflanmış Veriler İçin Ortalama Mutlak Sapma Örneği Sınıflar 150-157’den az 157-164’den az 164-171’den az 171-178’den az 178-185’den az 185-192’den az 192-199’dan az Toplam fi 5 7 14 9 8 4 3 50 mi 153,5 160,5 167,5 174,5 181,5 188,5 195,5 Ifi(mi- x )I 92,4 80,36 62,72 22,68 76,17 66,08 70,56 470,96 k k x mi f i i 1 k fi i 1 171,98 kg. OMS fi mi x i 1 k fi 470,96 9.42 50 10 Yayılma Ölçülerinin Gerekliliği Ölçümler Ortalama x dan Uzaklıklar Örnek 1 1,2,3,4,5 Örnek 2 2,3,3,3,4 1 2 3 4 5 15 5 5 3 x 2 3 3 3 4 15 5 5 3 x 1-3, 2-3, 3-3, 4-3, 5-3 2-3, 3-3, 3-3, 3-3, 4-3 veya veya -2, -1, 0, 1, 2 -1, 0, 0, 0, 1 İki veri seti için uzaklıklar a) Örnek 1 b) Örnek 2 11 9) Varyans Ortalama mutlak sapmada kullanılan mutlak değerli ifadeler ile işlem yapmanın zor hatta bazı durumlarda imkansız olması sebebiyle yeni değişkenlik ölçüsüne ihtiyaç bulunmaktadır. • • Mutlak değer ifadesindeki zorluk aritmetik ortalamadan farkların karelerinin alınmasıyla ortadan kalkmaktadır. • Veri setindeki her bir gözlem değerinin aritmetik ortalamadan farklarının karelerinin toplamının örnek hacminin bir eksiğine bölünmesinden elde edilen yayılım ölçüsüne örnek varyansı adı verilir. 12 Basit veriler İçin: Anakütle Varyansı: m : Anakütle Ortalaması x m 2 2 i N N : Anakütle Hacmi x x n Örnek Varyansı : s 2 s2 n 1 i 1 s2 f i ( xi x ) 2 k f k Sınıflanmış veriler için : i i 1 k Gruplanmış veriler için: 2 i 1 i 1 i 1 f i (mi x ) 2 k f i 1 i 1 13 x x n 2 i i 1 ifadesi istatistikte bir çok formülde kullanılır ve kareler toplamı olarak adlandırılır. • Matematiksel olarak hesaplama kolaylığı sağlaması açısından formüllerde kareler toplamının açılımı olan aşağıdaki eşitlik kullanılabilir. x 2 n x x x n i 1 2 i n i 1 2 i i i 1 n 14 x 2 n n Basit Veriler İçin: x i i 1 s 2 i 1 2 n 1 n fx 2 k k fx i i Gruplanmış Veriler İçin: s 2 i i i k f i i 1 2 i f 1 k i 1 i f i mi f m2 i k k i Sınıflanmış Veriler İçin : s i i 2 k f i 1 2 k f i 1 i i 1 15 Örnek: Bir gömlek fabrikasının satış mağazasında bir gün içinde satılan gömleklerin bedenlerine göre satış adetleri aşağıda verilmiştir. Buna göre veri seti için varyans değerlerini hesaplayınız. Gömlek bedeni Satış adedi xi.fi x2i.fi 0 5 0 0 1 12 12 12 2 35 70 140 3 14 42 126 4 8 32 128 5 6 30 150 186 556 toplam s2 802 k fi xi k 2 i f x ii k i fi i 1 k fi 1 i 1 186 556 80 79 2 1,56 Sınıflanmış Veriler İçin Varyans Örneği Sınıflar 150-157’den az 157-164’den az 164-171’den az 171-178’den az 178-185’den az 185-192’den az 192-199’dan az Toplam fi 5 7 14 9 8 4 3 50 mi 153,5 160,5 167,5 174,5 181,5 188,5 195,5 fi(mi- x )2 1707,552 922,5328 280,9856 57,1536 725,0432 1091,642 1659,571 6444,48 k k x mi f i i 1 k fi i 1 171,98 kg. s 2 2 f ( m x ) i i i 1 k fi 1 6444,48 131,52 50 1 17 10) Standart Sapma • Varyans hesaplanırken kullanılan verilerin kareleri alındığından verilerin ölçü biriminin karesi varyansında ölçü birimi mevcut ölçü birimini karesi olur. • Örnek: kg2, cm2 gibi. • Bu nitelendirme veriler açısından bir anlam taşımayacağından varyans yerine ortalama etrafındaki değişimin bir ölçüsü olarak onun pozitif karekökü olan standart sapma kullanılır. 18 Basit Veriler İçin: Populasyon Standart Sapması: x m 2 i N : Populasyon Standart Sapması N : Populasyon Hacmi x x n Örnek Standart Sapması : s s i i 1 n 1 k Gruplanmış Veriler İçin: 2 i 1 f i ( xi x ) 2 k f i 1 k Sınıflanmış Veriler İçin : s i 1 i 1 f i (mi x ) 2 k f i 1 i 1 19 Örnek: İstatistik I dersini alan 10 öğrencinin vize notları aşağıdaki gibi sıralanmıştır. Buna göre vize notları için varyans ve standart sapmayı hesaplayınız. n 30,41,53,61,68,79,82,88,90,98 x x n s 2 i 1 2 i i 1 i n 30 41 .... 98 69 10 30 69 41 69 ... 98 69 2 2 n 1 4538 504,22 9 s 504,22 2 x x → 2 9 s s 504,22 22,45 2 İstatistik I vizesinden alınan notların ortalama etrafında yaklaşık olarak 22 puan değiştiği görülmektedir. 20 Aynı soru kareler ortalamasının açılımı kullanılarak çözüldüğünde aynı sonuçları verecektir. 30,41,53,61,68,79,82,88,90,98 2 x x 30 41 53 61 68 79 82 88 90 900 1681 2809 3721 4624 6241 6724 7744 8100 x 2 n n s 2 x i 1 2 i i 1 n 1 n 690 52148 2 10 9 s 504,22 2 s s 504,22 22,45 2 x 690 x 52148 n i 1 n i i 1 2 i 21 CHEBYSHEV TEOREMİ Herhangi bir veri setinde, verilerin ortalamanın K standart sapma uzağında bulunması oranı 1-1/K2 dır. Burada K, birden büyük pozitif sayıdır. K=2 ve K=3 için; •Verilerin en az 3/4’ ü (%75) ortalamanın 2 standart sapma uzagında bulunur. •Verilerin en az 8/9’ u (%89) ortalamanın 3 standart sapma uzağında bulunur. 22 • Örnek: X değişkeni bir sınıftaki İstatistik I dersinin başarı notlarını göstermek üzere, örnek ortalamasının 60 varyansının 100 olduğu bilindiğine göre, verilerin ¾ ‘ü hagi aralıkta değişir? 1 3 1 2 4 k x 2s k 2 60 2.10 40,80 23 Standart Sapmanın Yorumlanması - Chebyshev teoreminden, frekans dağılımının şekline bakılmaksızın, ölçümlerin herhangi bir örneğine uygulanan kural: a- Ölçümlerden hiçbirinin x s yada ( x s, x s) aralığına düşmemesi mümkündür. b- Ölçümlerin en az ¾’ü ( x 2s , x 2s) aralığına düşer.ortalamanın c- Ölçümlerin en az 8/9’u ( x 3s , x 3s) aralığına düşer.d- Genellikle, ölçümlerin en az (1-1/k2)’ı ( x ks , x ks) aralığına düşer. (k>1) 24 - Simekrik dağılışlarda standart sapmanın yorumu: a- Ölçümlerin yaklaşık %68’i x s yada ( x s, x s) aralığına düşer.- ortalamanın 1 standart sapması için b- Ölçümlerin yaklaşık %95’i ( x 2s , x 2s) aralığına düşer.- ortalamanın 2 standart sapması için c- Temelde, tüm ölçümler ( x 3s , x 3s) aralığına düşer. -ortalamanın 3 standart sapması için 25 Ampirik Kural 26 Ampirik Kural 27 Ampirik Kural 28 • Örnek veri seti: • 50 şirketin AR-GE için harcanan gelirlerinin yüzdeleri burada tekrar verilmiştir: 13.5 9.5 8.2 6.5 8.4 8.1 6.9 7.5 10.5 13.5 7.2 7.1 9.0 9.9 8.2 13.2 9.2 6.9 9.6 7.7 9.7 7.5 7.2 5.9 6.6 11.1 8.8 5.2 10.6 8.2 11.3 5.6 10.1 8.0 8.5 11.7 7.1 7.7 9.4 6.0 8.0 7.4 10.5 7.8 7.9 6.5 6.9 6.5 6.8 9.5 29 Örnek: Aralıkları içinde kalan bu ölçümlerin kesrini(fraction) hesaplayınız Çözüm: İlk aralık • = (8.49 – 1.98, 8.49 + 1.98) = (6.51, 10.47) 50 ölçümün 34’ünün ve ya %68’inin ortalamanın 1 standart sapması içerisinde olduğunu ortaya koyar. Aralık, = (8.49 – 3.96 , 8.49 + 3.96 ) = (4.53, 12.45) 50 ölçümün 47’sini ya da %94’ünü içerir. ortalama etrafında 3 standart sapma aralığı, = (8.49 – 5.94 , 8.49 + 5.94 ) = (2.55, 14.43) tüm ölçümleri içerir. 30 11) z Skoru Verilen bir gözlem değerinin ortalamanın kaç standart sapma uzağında olduğunu ölçer. Örneklem x x z= s Anakütle x µ z= 2 ondalık basamağa yuvarlanır. 31 z- skorunun Yorumlanması Bir veri ortalamadan küçük olursa z-skoru değeri negatif olur. Olağan Veriler : z skoru –2 ve 2 s.s arasında Olağandışı Veriler: z skoru < -2 veya z skoru > 2 s.s 32 33 • Örnek: 200 çelik işçisinin yıllık gelirleri incelenmiş ve ortalaması = 24.000$ ve standart sapması s= 2.000$ olarak bulunmuştur. Yıllık geliri 22.000$ olan Joe Smith’in z-skoru kaçtır? 18.000$ 22.000$ 24.000$ Joe Smith’in geliri 30.000$ 34 z= x s x = 22.000$ 24.000$ 2.000$ =-1.0 bulunur. Burada ki -1.0 ın anlamı Joe Smith’in yıllık geliri ortalamanın 1 standart sapma altındadır. z-skorunun sayısal değeri göreli durumlar için ölçümü yansıtmaktadır. Bir x değeri için bulunan en büyük pozitif z-skoru değeri, bu x değerinin diğer bütün ölçümlerden daha büyük olduğunu gösterir ve mutlak değerce en büyük negatif z-skoru değeri de bu ölçümün diğer tüm ölçümlerden daha küçük olduğunu gösterir. Eğer z skoru 0 veya 0’a yakın ise ölçüm ortalamaya eşit veya ortalamaya çok yakındır. 35 12) Değişkenlik(Varyasyon) Katsayısı • İki veya daha fazla populasyon üzerinde aynı şans değişkenleri için yapılan araştırmalarda değişkenliklerin karşılaştırılması için kullanılan bir ölçüdür. • Standart sapmayı ortalamanın bir yüzdesi olarak ifade eden ve iki veya daha fazla populasyondaki varyasyonu (değişkenliği) karşılaştırmada kullanılan ölçüye varyasyon(değişkenlik) katsayısı denir. Varyasyon Katsayısı: s C *100 X V • Örnek: İstanbul’da ve Ankara’da yaşayan ailelerin aylık gelirlerinin değişkenliklerinin karşılaştırılması 36 Örnek: A,B ve C hisse senetlerinin kapanış fiyatlarına ilişkin yapılan bir araştırmada, hisse senetlerinin kapanış fiyatlarının ortalamaları ve standart sapmaları hesaplanmış ve aşağıdaki tabloda verilmiştir. Buna göre hisse senetlerini kapanış fiyatlarının değişkenlikleri açısından karşılaştırınız ve hangi hisse senedinin fiyatındaki değişkenlik daha fazladır ifade ediniz. x s A 8 2 B 5 1 C 15 3 sA 2 CVA *100 *100 25 %25 XA 8 sB 1 CVB *100 *100 20 %20 XB 5 CVC sC 3 *100 *100 20 %20 XC 15 Üç hisse senedinin kapanış fiyatlarının değişkenlikleri karşılaştırıldığında en büyük standart sapma değeri C hisse senedinde olmasına rağmen en büyük varyasyon katsayısına sahip olduğundan en fazla değişkenliğin A hisse senedinde olduğu görülür. 37 Tanımlamalar Simetrik Veriler Eğer veri simetrik ise verinin histogramının sağ tarafı ve sol tarafı eşit büyüklüktedir Çarpık Veriler Eğer veri çarpık ise (simetrik değilse), verinin histogramın bir kısmı diğer kısmın büyüktür veya küçüktür. 38 Çarpıklık 39 Çarpıklık (Asimetri) Ölçüleri • Anakütleleri birbirinden ayırmak için her zaman yalnızca yer ve yayılım ölçüleri yeterli olmayabilir. Aşağıda iki farklı anakütleden alınmış örnekler için oluşturulan histogramlar verilmiştir. 40 13) Asimetri Ölçüleri PEARSON ÇARPIKLIK ÖLÇÜSÜ x mod Sk p s veya 3( X med ) Sk p s SkP < 0 →Negatif çarpık(Sola) SkP > 0 → Pozitif Çarpık(Sağa) SkP = 0 ise dağılış simetrik BOWLEY ÇARPIKLIK ÖLÇÜSÜ (Q3 Q2 ) (Q2 Q1 ) Skb Q3 Q1 Skb < 0 → Negatif çarpık(Sola) Skb > 0 → Pozitif Çarpık(Sağa) Skb = 0 ise dağılış simetrik 41 Örnek: Aşağıdaki tabloda 30 günlük süre içinde bir restoranın kullandığı et miktarının dağılımından elde edilen bazı tanımlayıcı istatistikler verilmiştir. Buna göre pearson ve bowley asimetri ölçülerini hesaplayıp yorumlayınız. Aritmetik Ort. Mod Medyan Q1 Q2 s2 46,6 45,4 46,2 41,5 51,9 54,46 3( X med ) 3(46,6 46,2) Sk p 0,16 0 s 54,46 x mod 46,6 45,4 Sk p 0,16 0 s 54,46 Sağa Çarpık , Pozitif Asimetri Sağa Çarpık, Pozitif Asimetri (Q3 Q2 ) (Q2 Q1 ) (51,9 46,2) (46,2 41,5) Skb Q3 Q1 51,9 41,5 1 0,10 0 10,4 Sağa Çarpık , Pozitif Asimetri 42 Simetrik Dağılım A.O = Med = Mod İki modlu simetrik dağılım Sağa çarpık dağılım Sola çarpık dağılım A.O > Med > Mod A.O < Med < Mod Modu olmayan dağılım Tekdüzen dağılım 43 14) Sapan Gözlemler Sapan gözlem, diğer bütün gözlemlerden uzakta bulunan gözlemdir. Sapan gözlem ortalama üzerinde önemli bir etkiye sahip olabilir. Sapan gözlem standart sapma üzerinde önemli bir etkiye sahip olabilir. Sapan gözlem dağılımın gerçek histogramının ölçeği üzerinde önemli bir etkiye sahip olabilir. 44 15) 5 Sayı Özeti 5 sayı özeti, bir veri setinde minimum değer, 1.Kartil, 2.Kartil(medyan), 3.Kartil’i ve maksimum değeri içerir. Kutu grafiği(veya kutu ve bıyık grafiği) bir veri seti için, sınırları maksimum ve minimum değer olmak üzere, içinde 1.Kartil, 2.Kartil(medyan) ve 3.Kartil’i bulunduran kutu şeklindeki grafiktir. 45 Kutu Grafiği 46 Kutu grafiği hazırlama • Q1:Kutunun sol kenarı • Q3:Kutunu sağ kenarı • Q2:Kutunun ortasındaki çizgi • Sapan hariç min.: Sol bıyık • Sapan hariç max.: Sağ bıyık • Sapan değer kontrolu Q1 – 1.5(Q3 – Q1) Q3 + 1.5(Q3 – Q1) bu değerleri aşan veriler * ile gösterilir. 47 • Örnek: Yazlık ürünler satan bir mağazada haftalık satılan t-shirt sayıları yandaki tabloda verilmiştir. Verilen tablodan beş sayı özetini bulunuz ve kutu grafiğini çiziniz. 27 22 20 17 18 18 22 21 29 20 32 17 30 19 28 25 20 31 22 23 21 28 22 24 18 18 32 25 18 44 17 • Çözüm: Öncelikle veriler yandaki gibi sıralanırsa; Q1=(31+1)/4=8.sıraya karşılık gelen veri olur. Q1=18 Q3=3(31+1)/4=24. sıraya karşılık gelen veri olur. Q3=28 Minimum değer=17, Maksimum değer=44 ve Medyan(Q2)=22 olur. Sapan değerleri kontrol etmek için; Q1-1,5(Q3-Q1)=18-1,5(28-18)=3 Q3+1,5(Q3-Q1)=28+1,5(28-18)=43 bulunur. Bu durumda elimizdeki 44 değeri sapan değerdir ve * ile gösterilir.. 17 20 25 17 20 25 17 21 27 18 21 28 18 22 28 18 22 29 18 22 30 18 22 31 19 23 32 20 24 32 44 45 * 44 sapan değer 40 35 30 25 Medyan(Q2)=22 20 Kutu Grafiği Figure 2-16 51 Kutu Grafiği Figure 2-17 52 16) Basıklık Ölçüsü Aşağıdaki A ve B dağılımlarının ortalamaları, değişkenlik ölçülerinin aynı olmasından dolayı ve hatta ikisinin de simetrik olmalarından dolayı bu iki dağılışı ayırt etmek için Basıklık Ölçüsü kullanılır. A B mA = mB 53 Herhangi bir olasılık fonksiyonunun şekli ile ilgili parametrelerden bir tanesi de basıklık ölçüsüdür. Basıklık Ölçüsü ortalamaya göre dördüncü momentten gidilerek hesaplanır ve 4 olarak gösterilir. m4 4 4 n Basit Seri İçin m4 4 x m i i 1 n 4 = 3 ise Seri Normal 4 < 3 ise Seri Basık 4 < 3 ise Seri Sivri Ya da Yüksek 54