20.10.2016 Tanımlayıcı İstatistikler • Bir veri setini tanımak veya birden fazla veri setini karşılaştırmak için kullanılan ve ayrıca örnek verilerinden hareket ile frekans dağılışlarını sayısal olarak özetleyen değerlere tanımlayıcı istatistikler denir. Bölüm 3 • Analizlerde kullanılan veri tiplerine (basit, gruplanmış, sınıflanmış) göre hesaplamalarda kullanılacak formüller değişmektedir. Tanımlayıcı İstatistikler 1 Tanımlayıcı İstatistikler Yer Ölçüleri 1)Aritmetik ort. 2)Geometrik ort. 3)Harmonik ort. 4)Mod 5)Medyan 6)Kartiller 2 Yer Ölçüleri Değişkenlik Ölçüleri Çarpıklık Ölçüleri Basıklık 1) Range 1)Pearson Asimetri Ölçüleri (Değişim Aralığı) Ölçüsü 2) Ort. Mutlak sapma 2)Bowley Asimetri Ölçüsü 3) Varyans 4) Standart Sapma 5) Değişkenlik(Varyasyon) Katsayısı 3 • Yer ölçüsünü belirlemek amacıyla veri analizini yapacak kişi, öncelikle veri seti için hangi ölçüyü kullanması gerektiğine karar vermelidir. 4 1 20.10.2016 Tanım Yer Ölçüleri Merkezi Eğilim Ölçüsü Veri setinin orta noktası veya merkezinin değeridir. Hesaplama tüm verilerin kullanıldığı ölçüler -Aritmetik Ort. -Ağırlıklı Arit. Ort. -Geometrik Ort. -Harmonik Ort. Hesaplama tüm verilerin kullanılmadığı ölçüler -Mod -Medyan -Kartil 5 6 Örnek Ortalaması ve Anakütle Ortalaması 1) Aritmetik Ortalama • Üzerinde inceleme yapılan veri setindeki elemanların toplanıp incelenen eleman sayısına bölünmesiyle elde edilen yer ölçüsüne aritmetik ortalama denir. x , x-bar şeklinde telaffuz edilir ve örneklemin ortala masıdır. x x = n • Örnek: – Sınav notlarının ortalaması, – Yaz aylarında m2’ye düşen ortalama yağış miktarı µ, “mü” şeklinde telaffuz edilir ve anakütle ortalamasıdır µ = 7 x N 8 2 20.10.2016 Bir Denge Noktası Olarak Ortalama Eğer çizgiyi üzerinde ağırlıklar olan bir tahta olarak düşünürsek, tahtayı dengede tutmak için ’nün bulunduğu yerden denge noktası koymalıyız. Bu aritmetik denge noktasının özelliği; her bir sayı için xi- ‘yü hesaplarsak pozitif ve negatif sayılar dengede kalır çünkü toplamları 0 olur. Herhangi bir veri seti için, • 1, 14, 19, 31, 50 sayılarının ortalaması =23 tür. Şekil sayıları bir çizgi üzerinde yerleştirilmiş eşit küçük ağırlıklar şeklinde gösterir.1,14,19,31,50 • Aritmetik ortalama denge noktasıdır. (x i ) 0 olur. x i 1 14 19 31 50 x 9 x i Basit Veriler için Aritmetik Ortalama Örneği Örnek: İzmir ilinde öğrenciler üzerinde 8 öğrenci seçilmiş sorusuna aşağıdaki çocuk sayılarının ilköğretim ikinci sınıfta okuyan yapılan bir araştırmada rasgele ve ailenizde kaç çocuk vardır gibi cevap vermişlerdir. Ailelerin ortalamasını hesaplayınız. 1,3,2,1,4,5,6,2 n=8 i = 1,2,…,8 n x xi i 1 n i uzaklığı 10 Gruplanmış Veriler İçin Aritmetik Ortalama k x x f i i 1 i k f i 1 i f n k i 1 i f : frekans 11 2 2 3 4 5 6 3 8 k: grup sayısı i = 1,2,3,……….,k 3 20.10.2016 Örnek: Bir otomobil Araba bayisinde 80 gün boyunca (xi) yapılan inceleme sonucunda 0 satılan arabaların adetlerine 1 göre dağılımı yandaki tabloda 2 verilmiştir. Buna göre bir gün 3 içinde satılan ortalama araba sayısını hesaplayınız. 4 5 Gün (fi) xi.fi 5 12 35 14 8 6 ∑fi=80 0 12 70 42 32 30 k x xi fi i 1 k fi 0 12 70 42 32 30 186 2,33 80 80 Sınıflanmış Veriler İçin Aritmetik Ortalama m f k x f : frekans k : sınıf sayısı i i 1 i k f i 1 i i = 1,2,3,……….,k m : sınıf orta noktası f n k i 1 i • Sınıflanmış verilerde her bir sınıf içindeki değerlerin neler olduğu bilinmediğinden dolayı ve yalnızca her bir sınıfın frekans değerleri bilindiğinden dolayı sınıfı temsil etmek üzere sınıf orta noktaları hesaplamada kullanılır. • Kullanılan formül gruplanmış veriler için kullanılan 14 formüle benzerdir. i 1 Örnek: Bir sınıftaki öğrencilerin boyları hakkında bir araştırma yapılmaktadır. Bu amaçla 50 öğrencinin boyları ölçülerek kaydedilmiştir.Öğrencilerin boylarının aritmetik ortalamasını hesaplayınız. k x mi fi i 1 k i 1 fi Sınıflar 150-157’den az 157-164’den az 164-171’den az 171-178’den az 178-185’den az 185-192’den az 192-199’dan az Toplam fi 5 7 14 9 8 4 3 50 mi 153,5 160,5 167,5 174,5 181,5 188,5 195,5 m if i 767,5 1123,5 2345 1570,5 1452 754 586,5 8599 Aritmetik Ortalama 1. x x x x nx nx 0 Aritmetik ortalamadan sapmaların toplamı sıfırdır. 2. x x min 2 3. Örnek değerlerinde meydana gelen değişim çok küçük de olsa aritmetik ortalama bu değişimden etkilenir. Verilerin tümünün bir fonksiyonudur. 153,5(5) 160,5(7) ... 195,5(3) 8599 171,98 cm. 50 50 16 4 20.10.2016 Ağırlıklı Aritmetik Ortalama Aritmetik Ortalama 4. Örnek gözlemlerin tümü a gibi bir sabit ile çarpılırsa bu yeni veri setinin aritmetik ortalaması da eski veri setinin aritmetik ortalamasının a ile çarpımı kadar değişir. 5. Örnek gözlemlerin tümü a gibi bir sabit ile toplanırsa bu yeni veri setinin aritmetik ortalaması da eski veri setinin aritmetik ortalamasının a ile toplamı kadar değişir. 6. Aritmetik ortalama tüm verileri hesaplama fonksiyonu içinde kullanması nedeni ile güçlü bir istatistiktir. Veri setindeki gözlemlerin belirli bir kritere göre ağırlıklandırılması durumunda veri setinin ortalamasının hesaplanması için kullanılan ortalamadır. xw wi xi wi 7. Aritmetik ortalama verilerdeki uç değerlerden etkilenmesi ise bu istatistiğin zayıf yönünü oluşturur. 17 Ağırlıklı Aritmetik Ortalama • Gözlemler belli bir kritere göre ağırlıklandırılmış ise ağırlıklı aritmetik ortalama kullanılır. Ağırlıklı aritmetik ortalama kullanılırken tüm gözlemlerin ağırlıkları eşit ise aritmetik ortalama ile aynı sonucu verir. 19 18 • İktisadi ve İdari Bilimler Fakültesi İşletme Bölümü’ndeki birinci sınıf öğrencisinin güz döneminde aldığı dersler, başarı notları, başarı notlarının katsayıları ve kredi değerleri aşağıda verilmiştir: Öğrencinin dönem not ortalamasını katsayı cinsinden hesaplayınız. 20 5 20.10.2016 2) Geometrik Ortalama • Bir veri setinde bulunan n adet elemanın çarpımının n nci dereceden kökünün alınmasıyla elde edilen yer ölçüsüdür. G n x1 x2 .... xn • Geometrik ortalamanın formülüne bakıldığında hesaplama zorluğu olduğundan dolayı logaritma ifadesi kullanılır. Genellikle basit veriler için kullanışlı olup negatif sayılar için kullanışlı değildir. n Log G 21 Geometrik Ortalama’nın Kullanım Alanları • Ortalama oranları, log x i i 1 G anti log n 1 n log xi n i 1 22 Geometrik Ortalama 1.xi 0 olmalıl • Değişim Oranları, • Logaritmik dağılış gösteren veri setleri, için kullanışlıdır. 2. G x 3. Uç değerlerden etkilenmez. aritmetik ortalama kadar Örnek: fiyat indeksleri, faiz formülleri. 24 6 20.10.2016 Örnek: Abac şirketinin yıldan-yıla olan fuel deki tüketim harcamalarının değişimi yüzde -5, 10, 20, 40, ve 60. büyüme faktörlerinin geometrik ortalamasını kullanarak harcamalardaki ortalama yıllık yüzde değişim belirlenir. Büyüme faktörleri için yüzde değişim dönüştürme ile elde edilenler; 0.95 1.10 1.20 1.40 1.60 G n x1 x2 .... xn 5 (0,95)(1,10)(1, 20)(1, 40)(1, 60) 5 2.80896 1, 229 n log xi 0, 022276 0, 041393 0, 079181 0,146128 0, 204120 n 5 0, 448546 Log G 0, 08971 5 Log G i 1 G = anti log 0,27045 = 100,08971 ≈ 1,229 3) Harmonik Ortalama Harmonik Ortalama’nın Kullanım Alanları • Bir veri setinde bulunan n adet elemanın çarpma Zaman verileri için kullanışlıdır. Örnek: Zaman birimi başına hız, para birimi başına satın alınan birim sayısı. Belirli koşullar ve fiyat tipleri için zaman verilerinin ortalamalarının hesaplanmasında kullanılan bir yer ölçüsüdür. Zamana bağlı hız, fiyat verimlilik gibi oransal olarak ifade edilebilen verilerin ortalamasın alınmasında da kullanılabilir. işlemine göre terslerinin ortalamasının tersinin alınmasıyla elde edilen yer ölçüsüdür. Genellikle basit veriler için kullanışlıdır. 1 n H 1 1 1 1 1 1 .... .... x x x x x x 1 2 n 1 2 n n n 1 H 1 x i 1 n NOT: ARİTMETİK ORT. > GEOMETRİK ORT. > HARMONİK ORT. i 27 28 7 20.10.2016 Örnek: Bir tekstil fabrikasında çalışan dört kişinin bir pantolonu ütüleme süreleri aşağıda verilmiştir. Buna göre bu fabrikada bir pantolon ortalama kaç dakikada ütülenir? • İşçi 1: 10 dk. İşçi 2: 6 dk. n 1 H H 1 x i 1 n i İşçi 3: 4 dk. İşçi 4 : 5 dk. Örnek: A ve B gibi iki şehir arasında 100km lik bir yol vardır. Bir otomobilli yolun ilk yarısını 30 km/saat hızla gidiyor. Diğer yarısını 40 km/saat hızla gidiyor. Hız ortalaması nedir? 1 1 1 1 43 4 5 6 10 4 240 240 5,58 dk. 43 29 30 4) Mod • Bir veri setinde en çok gözlenen ( en çok tekrar eden ) değere veya frekansı en fazla olan şans değişkeni değerine mod adı verilir. • Bir hızlı tren gittiği mesafesinin ilk üçte birinde 300km/s, ikinci üçte birinde 450 km/s ve son üçte birinde 360 km/s hız yapmıştır. Buna göre aracın ortalama hızı ne • Veri setinin modu olmayacağı gibi birden fazla da modu olabilir. olmuştur. • Mod genellikle kesikli şans değişkenli için oluşturulan gruplanmış verilerde aritmetik ortalama yerine kullanılabilir. 31 32 8 20.10.2016 Örnekler Mod • Mod, büyük veri setlerinde verinin daha çok nerede toplandığını bulmak için kullanılır. Örneğin erkek kıyafetleri satan bir perakendeci, potansiyel müşterilerini belirlemek için gömlek kol uzunluğu ve gömlek yaka ölçüsüyle ilgilenebilir. 1) 5,40 1,10 0,42 0,73 0,48 1,10 2) 27 27 27 55 55 55 88 88 99 Modu 1,10 1 den fazla moda sahip , 27 ve 55 3) 1 2 3 6 7 8 9 10 Modu yok 33 Gruplanmış Veriler İçin Mod 34 Sınıflanmış Veriler İçin Mod Basit verilerde bulunduğu gibi hesaplanır. Örnek: Bir gömlek bayisinde 80 gün boyunca yapılan inceleme sonucunda satılan gömleklerin adetlerine göre dağılımı yandaki tabloda verilmiştir. Buna göre gömlek satışları için mod değeri nedir? Gömlek bedeni(xi) Satış adedi (fi) 0 1 2 3 4 5 5 12 35 14 8 6 • Sınıflanmış verilerde mod değeri hesaplanırken ilk olarak mod sınıfı belirlenir. • Mod sınıfı frekansı en yüksek olan sınıftır. En yüksek frekansa sahip olan gözlem değeri 2 olduğundan dolayı gömlek satışları için mod değeri 2’dir. 35 • Mod sınıfı belirlendikten sonra bu sınıf içerisinde yer alan modun tam değeri sınıf frekansı ve kendine komşu olan sınıf frekansları dikkate alınarak hesaplanır. 36 9 20.10.2016 Örnek: Bir sınıftaki öğrencilerin boyları hakkında bir araştırma Mod LMod = yapılmaktadır. Bu amaçla 50 öğrencinin boyları ölçülerek kaydedilmiştir.Öğrencilerin boylarının mod değerini hesaplayınız. 1 Lmod .i 1 2 = Mod Sınıfı Aralığının Alt Sınırı 1 = Mod Sınıfı Frekansı - Kendinden Bir Önceki Sınıf Frekansı 2 = Mod Sınıfı Frekansı – Kendinden Bir Sonraki Sınıf Frekansı i = Mod Sınıfının Sınıf Aralığı Mod sınıfı Sınıflar 150-157’den az 157-164’den az 164-171’den az 171-178’den az 178-185’den az 185-192’den az 192-199’dan az Toplam fi 5 7 14 9 8 4 3 50 37 Frekansı en yüksek olan sınıf mod sınıfı olarak belirlenir. Mod sınıfı belirlendikten sonra formülde ilgili değerler yerine koyularak mod değeri hesaplanır. 1 Mod Lmod i 1 2 (14 7) 164 7 168,08 cm. (14 7) (14 9) 5) Medyan • Bir veri setini büyükten küçüğe veya küçükten büyüğe sıraladığımızda tam orta noktadan veri setini iki eşit parçaya ayıran değere medyan adı verilir. • Veri setinde aşırı uçlu elemanlar olduğunda aritmetik ortalamaya göre daha güvenilirdir. • Medyan, veri setindeki tüm elemanlardan etkilenmez. 40 10 20.10.2016 Basit Veriler İçin Medyan • Veri Setinin Hacmi Tek Sayı İse; n 1 2 5.40 1.10 0.42 0.73 0.48 1.10 0.42 0.48 0.73 1.10 1.10 5.40 Medyan bu iki noktanın arasına düşmektedir nci gözlem değeri medyandır. 0.73 + 1.10 MEDYAN 0.915 2 • Veri Setinin Hacmi Çift Sayı İse; n 2 ve n 1 2 nci gözlem değerinin aritmetik 5.40 1.10 0.42 0.73 0.48 1.10 0.66 0.42 0.48 0.66 0.73 1.10 1.10 5.40 Tam ortadaki değer medyandır. ortalaması medyandır. MEDYAN 0.73 41 Gruplanmış Veriler İçin Medyan 42 Örnek: Bir gömlek bayisinin satış mağazasında bir gün içinde satılan gömleklerin dağılımı aşağıda verilmiştir. Buna göre veri seti için medyan değerini hesaplayınız. Gruplanmış verilerde medyan değeri hesaplanırken veri setinin tam orta noktasının hangi gruba ait olduğunu belirlemek için birikimli frekans sütunu oluşturulur. • • Sıra numarası belirlendikten sonra o sıra numarasına ait grup medyan değeri olarak ifade edilir. 43 Gömlek bedeni Satış adedi Birikimli Frekans ( ∑f ) 0 1 2 3 4 5 5 12 35 14 8 6 5 17 52 66 74 80 • n/2 ve (n/2)+1 nci gözlem değerlerine karşılık gelen değerler (40 ve 41 nci sıra ) 2 olduğundan dolayı medyan değeri 2’dir. 11 20.10.2016 •Frekans dağılımı aşağıdaki gibi olsaydı (n+1)/2 nci elemana (40 ncı elemana) karşılık gelen değer 8 olacağından dolayı veri setinin medyanı 3 olarak hesaplanacaktı. Gömlek bedeni Satış adedi Birikimli Frekans ( ∑f ) 0 1 2 3 4 5 5 12 22 32 14 4 5 17 39 61 75 79 Sınıflanmış Veriler İçin Medyan • Sınıflanmış verilerde medyan değeri hesaplanırken ilk olarak medyan sınıfı belirlenir. • Medyan sınıfı birikimli frekanslar dikkate alındığında toplam frekansın yarısını içinde bulunduran sınıftır. • Medyan sınıfı belirlendikten sonra medyan sınıfından bir önceki sınıfın birikimli frekansı ve medyan sınıfı frekansı dikkate alınarak hesaplanır. 46 f Medyan L med 2 Örnek: Bir sınıftaki öğrencilerin boyları hakkında bir araştırma f i f yapılmaktadır. Bu amaçla 50 öğrencinin boyları ölçülerek kaydedilmiştir.Öğrencilerin boylarının mod değerini hesaplayınız. l .i med Lmed : Medyan sınıfının alt sınırı fl : Medyan sınıfından bir önceki sınıfın birikimli frekansı fmed : Medyan sınıfının frekansı Medyan sınıfı Sınıflar 150-157’den az 157-164’den az 164-171’den az 171-178’den az 178-185’den az 185-192’den az 192-199’dan az Toplam fi 5 7 14 9 8 4 3 50 ∑fi 5 12 26 35 43 47 50 47 12 20.10.2016 Toplam 50 adet gözlem olduğundan dolayı, birikimli frekans sütununda 50/2 =25 nci gözlemin bulunduğu sınıf medyan sınıfı olarak belirlenir. Merkezi Ölçüm Tanım Ortalama x x n Nasıl Kullanılıyor En Bilinen ‘ortalama’ Varlığı Her zaman vardır. Her değer Dikkate Alınırmı? Uç Değerlerden Etkilenirmi? Evet Evet Medyan Medyan Lmed 164 Orta değer fi fl 2 f med Mod En sık tekrar eden veri değeri .i 25 12 .7 170,5cm 14 Sıklıkla Kullanılır Her zaman vardır. Hayır Hayır Ara sıra kullanılır Olmayabilir ya da birden fazla olabilir. Hayır Hayır Avantajları ve Dezavantajları Birçok istatistiksel metodla iyi çalışır. Birkaç uç değer varsa genellikle iyi bir tercihtir Nominal düzeyde veriler için uygundur Veriler mod etrafında simetrik oldukları zaman, mod, medyan ve artimetik ortalama birbirlerine eşit olur. Eğer örneklem aynı anakütleden çekilmişse, aritmetik ortalama diğer ölçülere göre daha güvenilirdir 50 6) Kartiller Basit Veriler İçin Kartiller •Bir veri setini büyükten küçüğe veya küçükten büyüğe sıraladığımızda dört eşit parçaya ayıran üç değere kartiller adı verilir. •İlk % 25’lik kısmı içinde bulunduran 1. Kartil (Q1), % 50’lik kısmı içinde bulunduran 2. Kartil (Q2), % 75’lik kısmı içinde bulunduran 3. Kartil (Q2), olarak adlandırılır. •%50’lik kısmı içinde bulunduran 2. Kartil (Q2) aynı zamanda veri setinin medyanıdır. • 1.Kartil Q1 n 1 4 %25 nci gözlem değeri, %25 • 3.Kartil Q3 3(n 1) 4 nci gözlem değeri, %25 %25 Q1 Q2 Q3 51 52 13 20.10.2016 Örnek: İstatistik I dersini alan 10 öğrencinin vize notları aşağıdaki gibi sıralanmıştır. Buna göre vize notları için Q1 ve Q3 değerlerini hesaplayınız. Veri seti aşağıdaki gibi verilseydi, 30,42,56,61,68,79,82,88,90,98 30,42,56,61,68,79,82,88,90,98 (n+1)/4 ‘ncü verinin sıra numarası (10+1)/4 = 2,75’dir. Q1= 42 + 0,75 .(56 - 42) = 52,5 , 3(n+1)/4 ‘ncü verinin sıra numarası 3(9+1)/4 = 7,5’dir. Q3= 82 + 0, 5.(88 - 82) = 85 , 3(n+1)/4 ‘ncü verinin sıra numarası 3(10+1)/4 = 8,25’dir. Q3= 88 + 0,25.(90 - 88) = 88,5 ‘dir. (n+1)/4 ‘ncü verinin sıra numarası (9+1)/4 = 2,5’dir. Q1= 42 + 0, 5 .(56 - 42) = 49 , olarak hesaplanacaktı. 53 Gruplanmış Veriler İçin Kartiller • Gruplanmış verilerde kartiller hesaplanırken veri setinin ilk çeyrek ve son çeyrek kısmını tam olarak ifade etmek amacıyla birikimli frekans sütünü oluşturulur. • Gruplanmış verilerde örnek hacminin tek veya çift olduğuna bakılmaksızın n/4 ncü eleman 1.Kartil (Q1), 3n/4 ncü eleman ise 3.Kartil (Q3), olarak ifade edilir. 55 Örnek: Bir gömlek bayisinin bedenlerine göre satış adetleri aşağıda verilmiştir. Buna göre veri seti için Q1 ve Q3 nedir? Gömlek bedeni Satış adedi Birikimli Frekans ( ∑f ) 0 1 2 3 4 5 5 12 35 14 8 5 5 17 52 66 74 79 • n+1/4 ncü ( 20 nci ) sıra numarasına karşılık gelen gözlem 2 olduğundan; 1.kartil 2, 3(n+1)/4 ncü ( 60 nci ) sıra numarasına karşılık gelen gözlem 3 olduğundan; 3.kartil 3’dür. 14 20.10.2016 f Sınıflanmış Veriler İçin Kartiller • Sınıflanmış verilerde kartiller hesaplanırken ilk olarak birikimli frekans sütunu oluşturularak kartil sınıfları belirlenir. • Kartil sınıfları belirlenirken gruplanmış verilerde olduğu gibi n/4 ve (3n)/4 ncü sıralardaki elemanların hangi sınıflara ait iseler o sınıflar kartil sınıfları olur. • Kartil sınıfları belirlendikten sonra bu sınıflardan bir önceki sınıfın birikimli frekansı ve mevcut sınıf frekansı dikkate alınarak kartil değerleri hesaplanır. 1. Kartil Q1 LQ1 Örnek: Bir sınıftaki öğrencilerin7 boyları hakkında bir araştırma yapılmaktadır. Bu amaçla 50 öğrencinin boyları ölçülerek kaydedilmiştir.Öğrencilerin boylarının birinci ve üçüncü kartillerini hesaplayınız. Sınıflar fi ∑fi 150-157’den az 5 5 157-164’den az 7 12 164-171’den az 14 26 Q1 sınıfı 171-178’den az 9 35 178-185’den az 8 43 Q3 sınıfı 185-192’den az 4 47 192-199’dan az 3 50 Toplam 50 Q1 LQ1 164 fi fl 4 fQ1 .i 12,5 12 .7 164,58cm 6 59 i fl .i f Q1 f 2. Kartil Q2 Medyan LQ2 2 i fl f Q2 3 f f 4 Q L .i f .i i l 3. Kartil 3 57 4 Q3 Q3 58 Yayılma (Değişkenlik) Ölçüleri •Bir veri setini tanımak yada iki farklı veri setini birbirinden ayırt etmek için her zaman yalnızca yer ölçüleri yeterli olmayabilir. • Dağılımları birbirinden ayırt etmede kullanılan ve genellikle aritmetik ortalama etrafındaki değişimi dikkate alarak hesaplanan istatistiklere yayılma (değişkenlik) ölçüleri adı verilir. 60 15 20.10.2016 Aşağıdaki iki grafik n = 1500 hacimlik alınan iki farklı örnek doğrultusunda oluşturulan histogramlardır. Her iki örnek ortalaması yaklaşık olarak 100 olduğuna göre iki örneğin aynı anakütleden alındığı söylenebilir mi? 1200 Frekans Frekans 400 300 • Dağılımları birbirinden ayırt etmede kullanılan yayılım ölçüleri aritmetik ortalama etrafındaki değişimleri dikkate alan tanımlayıcı istatistiklerdir. 1000 • Bir veri setinde aritmetik ortalamalardan her bir gözlemin farkı alınıp bu değerlerin tümü toplandığında sonucun 0 olduğu görülür. 800 200 600 400 100 200 33 3, 33 9, 3 ,3 3 ,3 3 ,3 3 3 X 12 10 95 81 0 67 3 3, 12 X 3 9, 10 3 ,3 95 3 ,3 81 3 ,3 67 0 61 • Örnek: 4,8,9,13,16 şeklinde verilen bir basit veri için; n x x i 1 n i 4 8 9 13 16 10 5 x x 4 10 8 10 9 10 n i 1 i 13 10 16 10 0 • Bu örnekten görüleceği üzere gözlemlerin aritmetik ortalamadan uzaklığı alıp toplandığında 0 elde edildiğinden dolayı bu problem mutlaka değer kullanarak veya karesel uzaklık alınarak ortadan kaldırılır. 63 62 7) Range (Değişim Aralığı) • Veri setindeki yayılımı ifade etmede kullanılan en basit ölçü, değişim aralığıdır. Genel olarak az sayıda veri için kullanılır. • En büyük gözlem değeri ile en küçük gözlem değeri arasındaki fark değişim aralığını verir. • Veri setindeki tek bir gözlemin aşırı derecede küçük veya büyük olmasından etkilendiği için bir başka ifadeyle örnekte yer alan sadece iki veri kullanılarak hesaplanmasından dolayı tüm veri setinin değişkenliğini açıklamak için yetersiz kalmaktadır. 64 16 20.10.2016 Değişim Aralığı Kartiller Arası Fark Örnek: Aralık, veri seti içindeki en büyük değerle en küçük değer arasındaki uzaklığı ölçerek verinin yayılımını ortaya koyar. Örneğin aşağıdaki şekilde gösterildiği üzere A hisse senedi belirli bir yılda 36$ ila 32$ arasında çeşitlilik gösterirken, B hisse senedi 10$ ila 58$ arasında gösterdi. Hisse senedinin fiyatındaki aralık A için 36$-32$ = 4$ dır; B için 58$-10$=48$.Aralıkları kıyasladığımızda B hisse senedinin fiyat aralığının A ya göre daha çok değişkenlik gösterdiğini söyleyebiliriz. • Diğer değişkenlik 3. ve 1. kartiller arasındaki farka dikkat çeker. Çeyrek aralık olarak adlandırılan bu fark, Q3-Q1, bize veri setinin yarısını içeren genişliği verir. B hissesinin aralığı A hissesinin aralığı 10 20 30 32 36 40 50 58 60 Ücret ($) 65 8) Ortalama Mutlak Sapma(OMS) • Veri setindeki her bir gözlem değerinin aritmetik ortalamadan farklarının mutlak değerlerinin toplamının örnek hacmine bölünmesiyle elde edilir. • Gözlem değerlerinin aritmetik ortalamadan faklarının toplamı 0 olacağından bu problemi ortadan kaldırmak için mutlak değer n ifadesi kullanılır. xi x Basit veriler için: OMS i 1 n k Gruplanmış veriler için: OMS i 1 f i xi x i 1 k Sınıflanmış veriler için : OMS f i 1 i mi x f i 1 30,41,53,61,68,79,82,88,90,98 n x x i 1 i n 30 41 .... 98 69 10 x x n i 67 k Örnek: İstatistik I dersini alan 10 öğrencinin vize notları aşağıdaki gibi sıralanmıştır. Buna göre vize notları için ortalama mutlak sapma değerini hesaplayınız. OMS k f 66 n 145 14,5 10 i 1 i 30 69 41 69 ... 98 69 10 68 i 17 20.10.2016 Sınıflanmış Veriler İçin Ortalama Mutlak Sapma Örneği Sınıflar 150-157’den az 157-164’den az 164-171’den az 171-178’den az 178-185’den az 185-192’den az 192-199’dan az Toplam fi 5 7 14 9 8 4 3 50 mi 153,5 160,5 167,5 174,5 181,5 188,5 195,5 Yayılma Ölçülerinin Gerekliliği Ölçümler Ortalama Ifi(mi- x )I 92,4 80,36 62,72 22,68 76,17 66,08 70,56 470,96 Örnek 1 1,2,3,4,5 x Örnek 2 2,3,3,3,4 1 2 3 4 5 15 5 5 x 3 x dan Uzaklıklar 2 3 3 3 4 15 5 5 3 1-3, 2-3, 3-3, 4-3, 5-3 2-3, 3-3, 3-3, 3-3, 4-3 veya veya -2, -1, 0, 1, 2 -1, 0, 0, 0, 1 İki veri seti için uzaklıklar k k x mi f i i 1 k fi i 1 171,98 kg. OMS fi mi x i 1 k fi 470,96 9.42 50 69 a) Örnek 1 b) Örnek 2 70 i 1 9) Varyans Basit veriler İçin: Ortalama mutlak sapmada kullanılan mutlak değerli ifadeler ile işlem yapmanın zor hatta bazı durumlarda imkansız olması sebebiyle yeni değişkenlik ölçüsüne ihtiyaç bulunmaktadır. • • Mutlak değer ifadesindeki zorluk aritmetik ortalamadan farkların karelerinin alınmasıyla ortadan kalkmaktadır. • Veri setindeki her bir gözlem değerinin aritmetik ortalamadan farklarının karelerinin toplamının örnek hacminin bir eksiğine bölünmesinden elde edilen yayılım ölçüsüne örnek varyansı adı verilir. 71 Anakütle Varyansı: : Anakütle Ortalaması x 2 2 i N N : Anakütle Hacmi x x n Örnek Varyansı : s 2 2 i i 1 n 1 k Gruplanmış veriler için: s2 f (x x) i 1 Sınıflanmış veriler için : s i 1 2 i k f k 2 i i 1 f (m x ) i 1 i k f i 1 2 i i 1 72 18 20.10.2016 n x 2 2 ifadesi istatistikte bir çok formülde kullanılır ve kareler toplamı olarak adlandırılır. n 1 fx i i s x x x i 1 n 2 i 2 i i 1 i 1 Satış adedi xi.fi 5 0 0 12 12 12 2 35 70 140 3 14 42 126 4 8 32 128 5 6 30 150 toplam 80 186 572 s2 k fi xi k 2 fi xi i k i fi i 1 k fi 1 i 1 i i s i 2 k f i 1 2 k f i 1 i i 1 74 Sınıflanmış Veriler İçin Ortalama Varyans Örneği Sınıflar 150-157’den az 157-164’den az 164-171’den az 171-178’den az 178-185’den az 185-192’den az 192-199’dan az Toplam x2i.fi 1 i k f i mi i 2 fm 73 0 k f i k Örnek: Bir un fabrikasının satış mağazasında bir gün içinde satılan un paketlerinin gramajlarına göre göre satış adetleri aşağıda verilmiştir. Buna göre veri seti için varyans değerlerini hesaplayınız. Araba i f 1 k Sınıflanmış Veriler İçin : n 2 i i i 1 i i f x i 1 2 n 2 2 • Matematiksel olarak hesaplama kolaylığı sağlaması açısından formüllerde kareler toplamının açılımı olan aşağıdaki eşitlik kullanılabilir. x n k k Gruplanmış Veriler İçin: n 2 i 1 2 i i 1 s Basit Veriler İçin: i i 1 x n x x n 2 fi 5 7 14 9 8 4 3 50 mi 153,5 160,5 167,5 174,5 181,5 188,5 195,5 fi(mi- x )2 1707,552 922,5328 280,9856 57,1536 725,0432 1091,642 1659,571 6444,48 k 186 556 80 79 k 2 1,56 x mi f i i 1 k fi i 1 171,98 kg. s 2 fi (mi x )2 i 1 k fi 1 6444,48 131,52 50 1 76 i 1 19 20.10.2016 10) Standart Sapma Basit Veriler İçin: 2 n 2 i i 1 n 1 k s Gruplanmış Veriler İçin: f (x x) i i 1 k i 1 n 30,41,53,61,68,79,82,88,90,98 s 2 i 1 Sınıflanmış Veriler İçin : x i 1 i n 2 s f (m x ) i i 1 2 i → s s 504,22 22,45 2 k f i 1 78 2 x x 30 41 53 61 68 79 82 88 90 900 1681 2809 3721 4624 6241 6724 7744 8100 x 2 n n s 2 x i 1 2 i n 1 n 690 2 i 1 52148 10 9 s 504,22 2 s s 504,22 22,45 2 x 690 x 52148 n İstatistik I vizesinden alınan notların ortalama etrafında yaklaşık olarak 22 puan değiştiği görülmektedir. 2 i 30,41,53,61,68,79,82,88,90,98 30 41 .... 98 69 10 2 1 Aynı soru kareler ortalamasının açılımı kullanılarak çözüldüğünde aynı sonuçları verecektir. 30 69 41 69 ... 98 69 n 1 9 4538 504,22 9 s 504,22 2 x i k i 1 Örnek: İstatistik I dersini alan 10 öğrencinin vize notları aşağıdaki gibi sıralanmıştır. Buna göre vize notları için varyans ve standart sapmayı hesaplayınız. 2 i f 77 2 N x x s Örnek Standart Sapması : • Bu nitelendirme veriler açısından bir anlam taşımayacağından varyans yerine ortalama etrafındaki değişimin bir ölçüsü olarak onun pozitif karekökü olan standart sapma kullanılır. n i : Populasyon Standart Sapması N : Populasyon Hacmi • Örnek: kg2, cm2 gibi. x x x Populasyon Standart Sapması: • Varyans hesaplanırken kullanılan verilerin kareleri alındığından verilerin ölçü biriminin karesi varyansında ölçü birimi mevcut ölçü birimini karesi olur. i 1 79 n i i 1 2 i 80 20 20.10.2016 CHEBYSHEV TEOREMİ • Örnek: X değişkeni bir sınıftaki İstatistik I dersinin başarı notlarını göstermek üzere, örnek ortalamasının 60 varyansının 100 olduğu bilindiğine göre, verilerin ¾ ‘ü hagi aralıkta değişir? Herhangi bir veri setinde, verilerin ortalamanın K standart sapma uzağında bulunması oranı 1-1/K2 dır. Burada K, birden büyük pozitif sayıdır. 1 3 k2 4 x 2s 1 K=2 ve K=3 için; •Verilerin en az 3/4’ ü (%75) ortalamanın 2 standart sapma uzagında bulunur. •Verilerin en az 8/9’ u (%89) ortalamanın 3 standart sapma uzağında bulunur. k 2 60 2.10 40,80 81 Standart Sapmanın Yorumlanması - Chebyshev teoreminden, frekans dağılımının şekline bakılmaksızın, ölçümlerin herhangi bir örneğine uygulanan kural: a- Ölçümlerden hiçbirinin x s yada ( x s, x s) aralığına düşmemesi mümkündür. b- Ölçümlerin en az ¾’ü ( x 2s , x 2s) aralığına düşer.ortalamanın c- Ölçümlerin en az 8/9’u ( x 3s , x 3s) aralığına düşer.d- Genellikle, ölçümlerin en az (1-1/k2)’ı ( x ks , x ks) aralığına düşer. (k>1) 82 - Simekrik dağılışlarda standart sapmanın yorumu: a- Ölçümlerin yaklaşık %68’i x s yada ( x s, x s) aralığına düşer.- ortalamanın 1 standart sapması için b- Ölçümlerin yaklaşık %95’i ( x 2s , x 2s) aralığına düşer.- ortalamanın 2 standart sapması için c- Temelde, tüm ölçümler ( x 3s , x 3s) aralığına düşer. -ortalamanın 3 standart sapması için 83 84 21 20.10.2016 Ampirik Kural Ampirik Kural 85 86 Ampirik Kural • Örnek veri seti: • 50 şirketin AR-GE için harcanan gelirlerinin yüzdeleri burada tekrar verilmiştir: 87 13.5 9.5 8.2 6.5 8.4 8.1 6.9 7.5 10.5 13.5 7.2 7.1 9.0 9.9 8.2 13.2 9.2 6.9 9.6 7.7 9.7 7.5 7.2 5.9 6.6 11.1 8.8 5.2 10.6 8.2 11.3 5.6 10.1 8.0 8.5 11.7 7.1 7.7 9.4 6.0 8.0 7.4 10.5 7.8 7.9 6.5 6.9 6.5 6.8 9.5 88 22 20.10.2016 Örnek: Aralıkları içinde kalan bu ölçümlerin kesrini(fraction) hesaplayınız Çözüm: İlk aralık • = (8.49 – 1.98, 8.49 + 1.98) = (6.51, 10.47) 50 ölçümün 34’ünün ve ya %68’inin ortalamanın 1 standart sapması içerisinde olduğunu ortaya koyar. Aralık, = (8.49 – 3.96 , 8.49 + 3.96 ) = (4.53, 12.45) 50 ölçümün 47’sini ya da %94’ünü içerir. ortalama etrafında 3 standart sapma aralığı, = (8.49 – 5.94 , 8.49 + 5.94 ) = (2.55, 14.43) tüm ölçümleri içerir. 89 11) z Skoru Verilen bir gözlem değerinin ortalamanın kaç standart sapma uzağında olduğunu ölçer. Örneklem z = x s- x Anakütle z= x-µ 2 ondalık basamağa yuvarlanır. 90 z- skorunun Yorumlanması Bir veri ortalamadan küçük olursa z-skoru değeri negatif olur. Olağan Veriler : z skoru –2 ve 2 s.s arasında Olağandışı Veriler: z skoru < -2 veya z skoru > 2 s.s 91 92 23 20.10.2016 • Örnek: 200 çelik işçisinin yıllık gelirleri incelenmiş ve ortalaması = 24.000$ ve standart sapması s= 2.000$ olarak bulunmuştur. Yıllık geliri 22.000$ olan Joe Smith’in z-skoru kaçtır? 18.000$ 30.000$ 22.000$ 24.000$ Joe Smith’in geliri z= x s x = 22.000$ 24.000$ 2.000$ =-1.0 bulunur. Burada ki -1.0 ın anlamı Joe Smith’in yıllık geliri ortalamanın 1 standart sapma altındadır. z-skorunun sayısal değeri göreli durumlar için ölçümü yansıtmaktadır. Bir x değeri için bulunan en büyük pozitif z-skoru değeri, bu x değerinin diğer bütün ölçümlerden daha büyük olduğunu gösterir ve mutlak değerce en büyük negatif z-skoru değeri de bu ölçümün diğer tüm ölçümlerden daha küçük olduğunu gösterir. Eğer z skoru 0 veya 0’a yakın ise ölçüm ortalamaya eşit veya ortalamaya çok yakındır. 93 12) Değişkenlik(Varyasyon) Katsayısı • İki veya daha fazla populasyon üzerinde aynı şans değişkenleri için yapılan araştırmalarda değişkenliklerin karşılaştırılması için kullanılan bir ölçüdür. • Standart sapmayı ortalamanın bir yüzdesi olarak ifade eden ve iki veya daha fazla populasyondaki varyasyonu (değişkenliği) karşılaştırmada kullanılan ölçüye varyasyon(değişkenlik) katsayısı denir. Örnek: A,B ve C hisse senetlerinin kapanış fiyatlarına ilişkin yapılan bir araştırmada, hisse senetlerinin kapanış fiyatlarının ortalamaları ve standart sapmaları hesaplanmış ve aşağıdaki tabloda verilmiştir. Buna göre hisse senetlerini kapanış fiyatlarının değişkenlikleri açısından karşılaştırınız ve hangi hisse senedinin fiyatındaki değişkenlik daha fazladır ifade ediniz. Varyasyon Katsayısı: C V 94 x s 8 2 B 5 1 C 15 3 A s *100 X • Örnek: İstanbul’da ve Ankara’da yaşayan ailelerin aylık gelirlerinin değişkenliklerinin karşılaştırılması 95 sA 2 *100 *100 25 %25 XA 8 s 1 B *100 *100 20 %20 XB 5 CVA CVB CVC sC 3 *100 *100 20 %20 XC 15 Üç hisse senedinin kapanış fiyatlarının değişkenlikleri karşılaştırıldığında en büyük standart sapma değeri C hisse senedinde olmasına rağmen en büyük varyasyon katsayısına sahip olduğundan en fazla değişkenliğin A hisse senedinde olduğu görülür. 96 24 20.10.2016 Çarpıklık Tanımlamalar Simetrik Veriler Eğer veri simetrik ise verinin histogramının sağ tarafı ve sol tarafı eşit büyüklüktedir Çarpık Veriler Eğer veri çarpık ise (simetrik değilse), verinin histogramın bir kısmı diğer kısmın büyüktür veya küçüktür. 97 98 13) Asimetri Ölçüleri Çarpıklık (Asimetri) Ölçüleri PEARSON ÇARPIKLIK ÖLÇÜSÜ • Anakütleleri birbirinden ayırmak için her zaman yalnızca yer ve yayılım ölçüleri yeterli olmayabilir. Sk p x mod s veya 3( X med ) Sk p s SkP < 0 →Negatif çarpık(Sola) SkP > 0 → Pozitif Çarpık(Sağa) SkP = 0 ise dağılış simetrik BOWLEY ÇARPIKLIK ÖLÇÜSÜ Skb 99 (Q3 Q2 ) (Q2 Q1 ) Q3 Q1 Skb < 0 → Negatif çarpık(Sola) Skb > 0 → Pozitif Çarpık(Sağa) Skb = 0 ise dağılış simetrik 100 25 20.10.2016 Örnek: Aşağıdaki tabloda 30 günlük süre içinde bir restoranın kullandığı et miktarının dağılımından elde edilen bazı tanımlayıcı istatistikler verilmiştir. Buna göre pearson ve bowley asimetri ölçülerini hesaplayıp yorumlayınız. Ar it me t ik O r t . Mod Medyan Q1 Q2 s2 Simetrik Dağılım 46,6 45,4 46,2 41,5 51,9 54,46 A.O = Med = Mod 3( X med ) 3(46,6 46,2) Sk p 0,16 0 s 54,46 Sk p Skb x mod 46,6 45,4 0,16 0 s 54,46 1 0,10 0 10,4 A.O > Med > Mod A.O < Med < Mod Sağa Çarpık , Pozitif Asimetri Sağa Çarpık, Pozitif Asimetri İki modlu simetrik dağılım (Q3 Q2 ) (Q2 Q1 ) (51,9 46,2) (46,2 41,5) Q3 Q1 51,9 41,5 Sağa çarpık dağılım Sola çarpık dağılım Sağa Çarpık , Pozitif Asimetri Modu olmayan dağılım Tekdüzen dağılım 101 14) Sapan Gözlemler 102 15) 5 Sayı Özeti Sapan gözlem, diğer bütün gözlemlerden uzakta bulunan gözlemdir. 5 sayı özeti, bir veri setinde minimum değer, 1.Kartil, 2.Kartil(medyan), 3.Kartil’i ve maksimum değeri içerir. Sapan gözlem ortalama üzerinde önemli bir etkiye sahip olabilir. Kutu grafiği(veya kutu ve bıyık grafiği) bir veri Sapan gözlem standart sapma üzerinde önemli bir etkiye sahip olabilir. seti için, sınırları maksimum ve minimum değer olmak üzere, içinde 1.Kartil, 2.Kartil(medyan) ve 3.Kartil’i bulunduran kutu şeklindeki grafiktir. Sapan gözlem dağılımın gerçek histogramının ölçeği üzerinde önemli bir etkiye sahip olabilir. 103 104 26 20.10.2016 Kutu grafiği hazırlama Kutu Grafiği • Q1:Kutunun sol kenarı • Q3:Kutunu sağ kenarı • Q2:Kutunun ortasındaki çizgi • Sapan hariç min.: Sol bıyık • Sapan hariç max.: Sağ bıyık • Sapan değer kontrolu Q1 – 1.5(Q3 – Q1) Q3 + 1.5(Q3 – Q1) bu değerleri aşan veriler * ile gösterilir. 105 • Örnek: Yazlık ürünler satan bir mağazada haftalık satılan t-shirt sayıları yandaki tabloda verilmiştir. Verilen tablodan beş sayı özetini bulunuz ve kutu grafiğini çiziniz. 27 17 22 22 18 21 20 18 29 20 32 17 30 19 28 25 20 31 22 23 21 28 22 24 18 18 32 25 18 44 17 106 • Çözüm: Öncelikle veriler yandaki gibi sıralanırsa; Q1=(31+1)/4=8.sıraya karşılık gelen veri olur. Q1=18 Q3=3(31+1)/4=24. sıraya karşılık gelen veri olur. Q3=28 Minimum değer=17, Maksimum değer=44 ve Medyan(Q2)=22 olur. Sapan değerleri kontrol etmek için; Q1-1,5(Q3-Q1)=18-1,5(28-18)=3 Q3+1,5(Q3-Q1)=28+1,5(28-18)=43 bulunur. Bu durumda elimizdeki 44 değeri sapan değerdir ve * ile gösterilir.. 17 20 25 17 20 25 17 21 27 18 21 28 18 22 28 18 22 29 18 22 30 18 22 31 19 23 32 20 24 32 44 27 20.10.2016 Kutu Grafiği 45 * 44 sapan değer 40 35 30 25 Medyan(Q2)=22 20 Figure 2-16 Kutu Grafiği 110 16) Basıklık Ölçüsü Aşağıdaki A ve B dağılımlarının ortalamaları, değişkenlik ölçülerinin aynı olmasından dolayı ve hatta ikisinin de simetrik olmalarından dolayı bu iki dağılışı ayırt etmek için Basıklık Ölçüsü kullanılır. A B Figure 2-17 111 A = B 112 28 20.10.2016 Herhangi bir olasılık fonksiyonunun şekli ile ilgili parametrelerden bir tanesi de basıklık ölçüsüdür. Basıklık Ölçüsü ortalamaya göre dördüncü momentten gidilerek hesaplanır ve 4 olarak gösterilir. 4 4 4 n Basit Seri İçin 4 x i 1 4 i n 4 = 3 ise Seri Normal 4 < 3 ise Seri Basık 4 < 3 ise Seri Sivri Ya da Yüksek 113 29