Bölüm 3 Tanımlayıcı İstatistikler 1 Tanımlayıcı İstatistikler • Bir veri setini tanımak veya birden fazla veri setini karşılaştırmak için kullanılan ve ayrıca örnek verilerinden hareket ile frekans dağılışlarını sayısal olarak özetleyen değerlere tanımlayıcı istatistikler denir. • Analizlerde kullanılan veri tiplerine (basit, gruplanmış, sınıflanmış) göre hesaplamalarda kullanılacak formüller değişmektedir. 2 Tanımlayıcı İstatistikler Yer Ölçüleri 1)Aritmetik ort. 2)Geometrik ort. 3)Harmonik ort. 4)Mod 5)Medyan 6)Kartiller Değişkenlik Ölçüleri Çarpıklık Ölçüleri Basıklık 1) Range 1)Pearson Asimetri Ölçüleri (Değişim Aralığı) Ölçüsü 2) Ort. Mutlak sapma 2)Bowley Asimetri Ölçüsü 3) Varyans 4) Standart Sapma 5) Değişkenlik(Varyasyon) Katsayısı 3 Yer Ölçüleri • Yer ölçüsünü belirlemek amacıyla veri analizini yapacak kişi, öncelikle veri seti için hangi ölçüyü kullanması gerektiğine karar vermelidir. 4 Tanım Merkezi Eğilim Ölçüsü Veri setinin orta noktası veya merkezinin değeridir. 5 Yer Ölçüleri Hesaplama tüm verilerin kullanıldığı ölçüler -Aritmetik Ort. -Ağırlıklı Arit. Ort. -Geometrik Ort. -Harmonik Ort. Hesaplama tüm verilerin kullanılmadığı ölçüler -Mod -Medyan -Kartil 6 1) Aritmetik Ortalama • Üzerinde inceleme yapılan veri setindeki elemanların toplanıp incelenen eleman sayısına bölünmesiyle elde edilen yer ölçüsüne aritmetik ortalama denir. • Örnek: – Sınav notlarının ortalaması, – Yaz aylarında m2’ye düşen ortalama yağış miktarı 7 Örnek Ortalaması ve Anakütle Ortalaması x , x-bar şeklinde telaffuz edilir ve örneklemin ortala masıdır. x x = n µ, “mü” şeklinde telaffuz edilir ve anakütle ortalamasıdır µ = x N 8 Bir Denge Noktası Olarak Ortalama • 1, 14, 19, 31, 50 sayılarının ortalaması =23 tür. Şekil sayıları bir çizgi üzerinde yerleştirilmiş eşit küçük ağırlıklar şeklinde gösterir.1,14,19,31,50 • Aritmetik ortalama denge noktasıdır. 1 14 19 31 50 9 Eğer çizgiyi üzerinde ağırlıklar olan bir tahta olarak düşünürsek, tahtayı dengede tutmak için ’nün bulunduğu yerden denge noktası koymalıyız. Bu aritmetik denge noktasının özelliği; her bir sayı için xi- ‘yü hesaplarsak pozitif ve negatif sayılar dengede kalır çünkü toplamları 0 olur. Herhangi bir veri seti için, (x i ) 0 olur. x i x i x i uzaklığı 10 Basit Veriler için Aritmetik Ortalama Örneği Örnek: İzmir ilinde ilköğretim ikinci sınıfta okuyan öğrenciler üzerinde yapılan bir araştırmada rasgele 8 öğrenci seçilmiş ve ailenizde kaç çocuk vardır sorusuna aşağıdaki gibi cevap vermişlerdir. Ailelerin çocuk sayılarının ortalamasını hesaplayınız. 1,3,2,1,4,5,6,2 n=8 i = 1,2,…,8 n x xi i 1 n 11 2 2 3 4 5 6 3 8 Gruplanmış Veriler İçin Aritmetik Ortalama k x x f i i 1 i k f i 1 i f n k i 1 i f : frekans k: grup sayısı i = 1,2,3,……….,k Örnek: Bir otomobil Araba bayisinde 80 gün boyunca (xi) yapılan inceleme sonucunda 0 satılan arabaların adetlerine 1 göre dağılımı yandaki tabloda 2 verilmiştir. Buna göre bir gün 3 içinde satılan ortalama araba sayısını hesaplayınız. 4 5 Gün (fi) xi.fi 5 0 12 35 14 8 6 ∑fi=80 12 70 42 32 30 k x xi fi i 1 k fi i 1 0 12 70 42 32 30 186 2,33 80 80 Sınıflanmış Veriler İçin Aritmetik Ortalama m f k x f : frekans k : sınıf sayısı i = 1,2,3,……….,k m : sınıf orta noktası i i 1 i k f i 1 i f n k i 1 i • Sınıflanmış verilerde her bir sınıf içindeki değerlerin neler olduğu bilinmediğinden dolayı ve yalnızca her bir sınıfın frekans değerleri bilindiğinden dolayı sınıfı temsil etmek üzere sınıf orta noktaları hesaplamada kullanılır. • Kullanılan formül gruplanmış veriler için kullanılan 14 formüle benzerdir. Örnek: Bir sınıftaki öğrencilerin boyları hakkında bir araştırma yapılmaktadır. Bu amaçla 50 öğrencinin boyları ölçülerek kaydedilmiştir.Öğrencilerin boylarının aritmetik ortalamasını hesaplayınız. k x mi fi i 1 k fi i 1 Sınıflar 150-157’den az 157-164’den az 164-171’den az 171-178’den az 178-185’den az 185-192’den az 192-199’dan az Toplam fi 5 7 14 9 8 4 3 50 mi 153,5 160,5 167,5 174,5 181,5 188,5 195,5 m if i 767,5 1123,5 2345 1570,5 1452 754 586,5 8599 153,5(5) 160,5(7) ... 195,5(3) 8599 171,98 cm. 50 50 Aritmetik Ortalama 1. x x x x nx nx 0 Aritmetik ortalamadan sapmaların toplamı sıfırdır. 2. x x min 2 3. Örnek değerlerinde meydana gelen değişim çok küçük de olsa aritmetik ortalama bu değişimden etkilenir. Verilerin tümünün bir fonksiyonudur. 16 Aritmetik Ortalama 4. Örnek gözlemlerin tümü a gibi bir sabit ile çarpılırsa bu yeni veri setinin aritmetik ortalaması da eski veri setinin aritmetik ortalamasının a ile çarpımı kadar değişir. 5. Örnek gözlemlerin tümü a gibi bir sabit ile toplanırsa bu yeni veri setinin aritmetik ortalaması da eski veri setinin aritmetik ortalamasının a ile toplamı kadar değişir. 6. Aritmetik ortalama tüm verileri hesaplama fonksiyonu içinde kullanması nedeni ile güçlü bir istatistiktir. 7. Aritmetik ortalama verilerdeki uç değerlerden etkilenmesi ise bu istatistiğin zayıf yönünü oluşturur. 17 Ağırlıklı Aritmetik Ortalama Veri setindeki gözlemlerin belirli bir kritere göre ağırlıklandırılması durumunda veri setinin ortalamasının hesaplanması için kullanılan ortalamadır. wi xi xw wi 18 Ağırlıklı Aritmetik Ortalama • Gözlemler belli bir kritere göre ağırlıklandırılmış ise ağırlıklı aritmetik ortalama kullanılır. Ağırlıklı aritmetik ortalama kullanılırken tüm gözlemlerin ağırlıkları eşit ise aritmetik ortalama ile aynı sonucu verir. 19 • İktisadi ve İdari Bilimler Fakültesi İşletme Bölümü’ndeki birinci sınıf öğrencisinin güz döneminde aldığı dersler, başarı notları, başarı notlarının katsayıları ve kredi değerleri aşağıda verilmiştir: Öğrencinin dönem not ortalamasını katsayı cinsinden hesaplayınız. 20 21 2) Geometrik Ortalama • Bir veri setinde bulunan n adet elemanın çarpımının n nci dereceden kökünün alınmasıyla elde edilen yer ölçüsüdür. G n x1 x2 .... xn • Geometrik ortalamanın formülüne bakıldığında hesaplama zorluğu olduğundan dolayı logaritma ifadesi kullanılır. Genellikle basit veriler için kullanışlı olup negatif sayılar için kullanışlı değildir. n Log G log x i i 1 n n 1 G anti log log xi n i 1 22 Geometrik Ortalama’nın Kullanım Alanları • Ortalama oranları, • Değişim Oranları, • Logaritmik dağılış gösteren veri setleri, için kullanışlıdır. Örnek: fiyat indeksleri, faiz formülleri. Geometrik Ortalama 1.xi 0 olmalıl 2. G x 3. Uç değerlerden etkilenmez. aritmetik ortalama kadar 24 Örnek: Abac şirketinin yıldan-yıla olan fuel deki tüketim harcamalarının değişimi yüzde -5, 10, 20, 40, ve 60. büyüme faktörlerinin geometrik ortalamasını kullanarak harcamalardaki ortalama yıllık yüzde değişim belirlenir. Büyüme faktörleri için yüzde değişim dönüştürme ile elde edilenler; 0.95 1.10 1.20 1.40 1.60 G n x1 x2 .... xn 5 (0,95)(1,10)(1, 20)(1, 40)(1, 60) 5 2.80896 1, 229 n Log G log xi i 1 0, 022276 0, 041393 0, 079181 0,146128 0, 204120 5 n 0, 448546 Log G 0, 08971 5 G = anti log 0,27045 = 100,08971 ≈ 1,229 3) Harmonik Ortalama • Bir veri setinde bulunan n adet elemanın çarpma işlemine göre terslerinin ortalamasının tersinin alınmasıyla elde edilen yer ölçüsüdür. Genellikle basit veriler için kullanışlıdır. 1 n H 1 1 1 1 1 1 .... .... xn xn x1 x2 x1 x2 n n 1 H i 1 n 1 xi 27 Harmonik Ortalama’nın Kullanım Alanları Zaman verileri için kullanışlıdır. Örnek: Zaman birimi başına hız, para birimi başına satın alınan birim sayısı. Belirli koşullar ve fiyat tipleri için zaman verilerinin ortalamalarının hesaplanmasında kullanılan bir yer ölçüsüdür. Zamana bağlı hız, fiyat verimlilik gibi oransal olarak ifade edilebilen verilerin ortalamasın alınmasında da kullanılabilir. NOT: ARİTMETİK ORT. > GEOMETRİK ORT. > HARMONİK ORT. 28 Örnek: Bir tekstil fabrikasında çalışan dört kişinin bir pantolonu ütüleme süreleri aşağıda verilmiştir. Buna göre bu fabrikada bir pantolon ortalama kaç dakikada ütülenir? İşçi 1: 10 dk. İşçi 2: 6 dk. n 1 H i 1 n 1 xi İşçi 3: 4 dk. İşçi 4 : 5 dk. 1 1 1 1 43 4 5 6 10 4 240 240 H 5,58 dk. 43 29 • Örnek: A ve B gibi iki şehir arasında 100km lik bir yol vardır. Bir otomobilli yolun ilk yarısını 30 km/saat hızla gidiyor. Diğer yarısını 40 km/saat hızla gidiyor. Hız ortalaması nedir? 30 • Bir hızlı tren gittiği mesafesinin ilk üçte birinde 300km/s, ikinci üçte birinde 450 km/s ve son üçte birinde 360 km/s hız yapmıştır. Buna göre aracın ortalama hızı ne olmuştur. 31 4) Mod • Bir veri setinde en çok gözlenen ( en çok tekrar eden ) değere veya frekansı en fazla olan şans değişkeni değerine mod adı verilir. • Veri setinin modu olmayacağı gibi birden fazla da modu olabilir. • Mod genellikle kesikli şans değişkenli için oluşturulan gruplanmış verilerde aritmetik ortalama yerine kullanılabilir. 32 Mod • Mod, büyük veri setlerinde verinin daha çok nerede toplandığını bulmak için kullanılır. Örneğin erkek kıyafetleri satan bir perakendeci, potansiyel müşterilerini belirlemek için gömlek kol uzunluğu ve gömlek yaka ölçüsüyle ilgilenebilir. 33 Örnekler 1) 5,40 1,10 0,42 0,73 0,48 1,10 2) 27 27 27 55 55 55 88 88 99 Modu 1,10 1 den fazla moda sahip , 27 ve 55 3) 1 2 3 6 7 8 9 10 Modu yok 34 Gruplanmış Veriler İçin Mod Basit verilerde bulunduğu gibi hesaplanır. Örnek: Bir gömlek bayisinde 80 gün boyunca yapılan inceleme sonucunda satılan gömleklerin adetlerine göre dağılımı yandaki tabloda verilmiştir. Buna göre gömlek satışları için mod değeri nedir? Gömlek bedeni(xi) Satış adedi (fi) 0 5 1 2 3 12 35 14 4 5 8 6 En yüksek frekansa sahip olan gözlem değeri 2 olduğundan dolayı gömlek satışları için mod değeri 2’dir. 35 Sınıflanmış Veriler İçin Mod • Sınıflanmış verilerde mod değeri hesaplanırken ilk olarak mod sınıfı belirlenir. • Mod sınıfı frekansı en yüksek olan sınıftır. • Mod sınıfı belirlendikten sonra bu sınıf içerisinde yer alan modun tam değeri sınıf frekansı ve kendine komşu olan sınıf frekansları dikkate alınarak hesaplanır. 36 Mod LMod = 1 Lmod .i 1 2 = Mod Sınıfı Aralığının Alt Sınırı 1 = Mod Sınıfı Frekansı - Kendinden Bir Önceki Sınıf Frekansı 2 = Mod Sınıfı Frekansı – Kendinden Bir Sonraki Sınıf Frekansı i = Mod Sınıfının Sınıf Aralığı 37 Örnek: Bir sınıftaki öğrencilerin boyları hakkında bir araştırma yapılmaktadır. Bu amaçla 50 öğrencinin boyları ölçülerek kaydedilmiştir.Öğrencilerin boylarının mod değerini hesaplayınız. Mod sınıfı Sınıflar 150-157’den az 157-164’den az 164-171’den az 171-178’den az 178-185’den az 185-192’den az 192-199’dan az Toplam fi 5 7 14 9 8 4 3 50 Frekansı en yüksek olan sınıf mod sınıfı olarak belirlenir. Mod sınıfı belirlendikten sonra formülde ilgili değerler yerine koyularak mod değeri hesaplanır. 1 Mod Lmod i 1 2 (14 7) 164 7 168,08 cm. (14 7) (14 9) 5) Medyan • Bir veri setini büyükten küçüğe veya küçükten büyüğe sıraladığımızda tam orta noktadan veri setini iki eşit parçaya ayıran değere medyan adı verilir. • Veri setinde aşırı uçlu elemanlar olduğunda aritmetik ortalamaya göre daha güvenilirdir. • Medyan, veri setindeki tüm elemanlardan etkilenmez. 40 Basit Veriler İçin Medyan • Veri Setinin Hacmi Tek Sayı İse; n 1 2 nci gözlem değeri medyandır. • Veri Setinin Hacmi Çift Sayı İse; n 2 ve n 1 2 nci gözlem değerinin aritmetik ortalaması medyandır. 41 5.40 1.10 0.42 0.73 0.48 1.10 0.42 0.48 0.73 1.10 1.10 5.40 Medyan bu iki noktanın arasına düşmektedir 0.73 + 1.10 MEDYAN 0.915 2 5.40 1.10 0.42 0.73 0.48 1.10 0.66 0.42 0.48 0.66 0.73 1.10 1.10 5.40 Tam ortadaki değer medyandır. MEDYAN 0.73 42 Gruplanmış Veriler İçin Medyan Gruplanmış verilerde medyan değeri hesaplanırken veri setinin tam orta noktasının hangi gruba ait olduğunu belirlemek için birikimli frekans sütunu oluşturulur. • • Sıra numarası belirlendikten sonra o sıra numarasına ait grup medyan değeri olarak ifade edilir. 43 Örnek: Bir gömlek bayisinin satış mağazasında bir gün içinde satılan gömleklerin dağılımı aşağıda verilmiştir. Buna göre veri seti için medyan değerini hesaplayınız. Gömlek bedeni Satış adedi Birikimli Frekans ( ∑f ) 0 5 5 1 2 12 35 17 52 3 4 5 14 8 6 66 74 80 • n/2 ve (n/2)+1 nci gözlem değerlerine karşılık gelen değerler (40 ve 41 nci sıra ) 2 olduğundan dolayı medyan değeri 2’dir. •Frekans dağılımı aşağıdaki gibi olsaydı (n+1)/2 nci elemana (40 ncı elemana) karşılık gelen değer 8 olacağından dolayı veri setinin medyanı 3 olarak hesaplanacaktı. Gömlek bedeni Satış adedi Birikimli Frekans ( ∑f ) 0 1 2 5 12 22 5 17 39 3 4 5 32 14 4 61 75 79 Sınıflanmış Veriler İçin Medyan • Sınıflanmış verilerde medyan değeri hesaplanırken ilk olarak medyan sınıfı belirlenir. • Medyan sınıfı birikimli frekanslar dikkate alındığında toplam frekansın yarısını içinde bulunduran sınıftır. • Medyan sınıfı belirlendikten sonra medyan sınıfından bir önceki sınıfın birikimli frekansı ve medyan sınıfı frekansı dikkate alınarak hesaplanır. 46 f Medyan L med 2 f i f l .i med Lmed : Medyan sınıfının alt sınırı fl : Medyan sınıfından bir önceki sınıfın birikimli frekansı fmed : Medyan sınıfının frekansı 47 Örnek: Bir sınıftaki öğrencilerin boyları hakkında bir araştırma yapılmaktadır. Bu amaçla 50 öğrencinin boyları ölçülerek kaydedilmiştir.Öğrencilerin boylarının mod değerini hesaplayınız. Medyan sınıfı Sınıflar 150-157’den az 157-164’den az 164-171’den az 171-178’den az 178-185’den az 185-192’den az 192-199’dan az Toplam fi 5 7 14 9 8 4 3 50 ∑fi 5 12 26 35 43 47 50 Toplam 50 adet gözlem olduğundan dolayı, birikimli frekans sütununda 50/2 =25 nci gözlemin bulunduğu sınıf medyan sınıfı olarak belirlenir. Medyan Lmed fi f 2 f med l .i 25 12 164 .7 170,5cm 14 Merkezi Ölçüm Ortalama Tanım Nasıl Kullanılıyor x x En Bilinen ‘ortalama’ Orta değer Sıklıkla Kullanılır Ara sıra kullanılır n Varlığı Her zaman vardır. Her değer Dikkate Alınırmı? Uç Değerlerden Etkilenirmi? Evet Evet Her zaman vardır. Hayır Hayır Olmayabilir ya da birden fazla olabilir. Hayır Hayır Medyan Mod En sık tekrar eden veri değeri Avantajları ve Dezavantajları Birçok istatistiksel metodla iyi çalışır. Birkaç uç değer varsa genellikle iyi bir tercihtir Nominal düzeyde veriler için uygundur Veriler mod etrafında simetrik oldukları zaman, mod, medyan ve artimetik ortalama birbirlerine eşit olur. Eğer örneklem aynı anakütleden çekilmişse, aritmetik ortalama diğer ölçülere göre daha güvenilirdir 50 6) Kartiller •Bir veri setini büyükten küçüğe veya küçükten büyüğe sıraladığımızda dört eşit parçaya ayıran üç değere kartiller adı verilir. •İlk % 25’lik kısmı içinde bulunduran 1. Kartil (Q1), % 50’lik kısmı içinde bulunduran 2. Kartil (Q2), % 75’lik kısmı içinde bulunduran 3. Kartil (Q2), olarak adlandırılır. •%50’lik kısmı içinde bulunduran 2. Kartil (Q2) aynı zamanda veri setinin medyanıdır. %25 %25 %25 %25 Q1 Q2 Q3 51 Basit Veriler İçin Kartiller • 1.Kartil Q1 n 1 4 nci gözlem değeri, • 3.Kartil Q3 3(n 1) 4 nci gözlem değeri, 52 Örnek: İstatistik I dersini alan 10 öğrencinin vize notları aşağıdaki gibi sıralanmıştır. Buna göre vize notları için Q1 ve Q3 değerlerini hesaplayınız. 30,42,56,61,68,79,82,88,90,98 (n+1)/4 ‘ncü verinin sıra numarası (10+1)/4 = 2,75’dir. Q1= 42 + 0,75 .(56 - 42) = 52,5 , 3(n+1)/4 ‘ncü verinin sıra numarası 3(10+1)/4 = 8,25’dir. Q3= 88 + 0,25.(90 - 88) = 88,5 ‘dir. 53 Veri seti aşağıdaki gibi verilseydi, 30,42,56,61,68,79,82,88,90,98 (n+1)/4 ‘ncü verinin sıra numarası (9+1)/4 = 2,5’dir. Q1= 42 + 0, 5 .(56 - 42) = 49 , 3(n+1)/4 ‘ncü verinin sıra numarası 3(9+1)/4 = 7,5’dir. Q3= 82 + 0, 5.(88 - 82) = 85 , olarak hesaplanacaktı. Gruplanmış Veriler İçin Kartiller • Gruplanmış verilerde kartiller hesaplanırken veri setinin ilk çeyrek ve son çeyrek kısmını tam olarak ifade etmek amacıyla birikimli frekans sütünü oluşturulur. • Gruplanmış verilerde örnek hacminin tek veya çift olduğuna bakılmaksızın n/4 ncü eleman 1.Kartil (Q1), 3n/4 ncü eleman ise 3.Kartil (Q3), olarak ifade edilir. 55 Örnek: Bir gömlek bayisinin bedenlerine göre satış adetleri aşağıda verilmiştir. Buna göre veri seti için Q1 ve Q3 nedir? Gömlek bedeni Satış adedi Birikimli Frekans ( ∑f ) 0 5 5 1 2 3 4 5 12 35 14 8 6 17 52 66 74 80 • n/4 ncü ( 20 nci ) sıra numarasına karşılık gelen gözlem 2 olduğundan; 1.kartil 2, 3n/4 ncü ( 20 nci ) sıra numarasına karşılık gelen gözlem 3 olduğundan; 3.kartil 3’dür. Sınıflanmış Veriler İçin Kartiller • Sınıflanmış verilerde kartiller hesaplanırken ilk olarak birikimli frekans sütunu oluşturularak kartil sınıfları belirlenir. • Kartil sınıfları belirlenirken gruplanmış verilerde olduğu gibi n/4 ve (3n)/4 ncü sıralardaki elemanların hangi sınıflara ait iseler o sınıflar kartil sınıfları olur. • Kartil sınıfları belirlendikten sonra bu sınıflardan bir önceki sınıfın birikimli frekansı ve mevcut sınıf frekansı dikkate alınarak kartil değerleri hesaplanır. 57 f 1. Kartil Q1 LQ1 4 i fl .i f Q1 f 2. Kartil Q2 Medyan LQ2 2 i fl f Q2 3 f f 4 Q L .i f .i i l 3. Kartil 3 Q3 Q3 58 Örnek: Bir sınıftaki öğrencilerin7 boyları hakkında bir araştırma yapılmaktadır. Bu amaçla 50 öğrencinin boyları ölçülerek kaydedilmiştir.Öğrencilerin boylarının birinci ve üçüncü kartillerini hesaplayınız. Sınıflar fi ∑fi 150-157’den az 5 5 157-164’den az 7 12 164-171’den az 14 26 Q1 sınıfı 171-178’den az 9 35 178-185’den az 8 43 Q3 sınıfı 185-192’den az 4 47 192-199’dan az 3 50 Toplam 50 Q1 LQ1 fi fl 4 fQ1 .i 12,5 12 164 .7 164,58cm 6 59