B Bilişim Teknolojileri için İşletme İstatistiği Yrd. Doç. Dr. Halil İbrahim CEBECİ SAYISAL TANIMLAYICI TEKNİKLER MERKEZİ EĞİLİM ÖLÇÜTLERİ Aritmetik Ortalama: • Basit şekli ile bütün gözlem değerlerinin toplam gözlem adedine bölünmesi ile hesaplanır. 𝜇 = 𝐴𝑛𝑎 𝐾ü𝑡𝑙𝑒 𝑂𝑟𝑡𝑎𝑙𝑎𝑚𝑎𝑠𝚤, 𝑥 = Ö𝑟𝑛𝑒𝑘𝑙𝑒𝑚 𝑂𝑟𝑡𝑎𝑙𝑎𝑚𝑎𝑠𝚤 • Uç (Aykırı) değerlerden etkilenir. Medyan (Ortanca): • Önceden sıralanmış veri seti içerisindeki tam orta değerdir. • Eğer gözlem sayısı çift ise ortada bulunan iki değerin ortalaması medyan olarak kabul edilir. MERKEZİ EĞİLİM ÖLÇÜTLERİ Mod • En yüksek frekansa sahip olan gözlem değeridir. • Merkezi eğilim ölçütü olarak kullanılmasında bazı sıkıntılar olabilir. – Eğer örnek sayısı çok az ise uygun sonuç üretmeyebilir. – Bazı durumlarda tek değildir. Geometrik Ortalama: • Bir veri setindeki aykırı değerlerin etkisini minimize edebilmek için geometrik ortalama kullanılır. 45 + 37 + 40 + 30 + 35 + 45 + 50 + 95 𝜇= = 47,13 8 𝐺= 8 45 ∗ 37 ∗ 40 ∗ 30 ∗ 35 ∗ 45 ∗ 50 ∗ 95 = 44,34 DEĞİŞKENLİK ÖLÇÜTLERİ • Merkezi eğilim ölçüleri dağılım hakkında bilgi vermez. Bir veri setinin ortalamasının ne olduğu kadar, verilerin bu ortalama etrafında nasıl değişkenlik gösterdiğinin de bilinmesi önemlidir. • Yandaki örnekten de anlaşılacağı üzere, mavi ve kırmızı sınıfların bir dersten aldığı ortalamalar aynı olmakla beraber, farkı değişkenlikleri oldukları görsel olarak söylenebilir. DEĞİŞKENLİK ÖLÇÜTLERİ Dağılım Aralığı: • Dağılım aralığı en basit değişkenlik ölçütüdür. 𝐷𝑎ğ𝚤𝑙𝚤𝑚 𝐴𝑟𝑎𝑙𝚤ğ𝚤 = 𝐸𝑛 𝐵ü𝑦ü𝑘 𝐷𝑒ğ𝑒𝑟 − 𝐸𝑛 𝐾üçü𝑘 𝐷𝑒ğ𝑒𝑟 • Avantaj : Basitlik • Dezavantaj : Basitlik Set 1 : 4, 4, 4, 4, 4, 50 𝐷𝑎ğ𝚤𝑙𝚤𝑚 𝐴𝑟𝑎𝑙𝚤ğ𝚤 = 50 − 4 = 46 Set 2 : 4, 8, 15, 24, 39, 50 𝐷𝑎ğ𝚤𝑙𝚤𝑚 𝐴𝑟𝑎𝑙𝚤ğ𝚤 = 50 − 4 = 46 DEĞİŞKENLİK ÖLÇÜTLERİ Varyans: • Bir veri setindeki her bir değerin ortalamadan uzaklıklarının karelerinin, ortalaması şeklinde hesaplanır. • Varyans beklenen değer ile (Bütçe) gözlenen değer (Harcama) arasındaki farktır. Yapılması gereken ile yapılan arasındaki farktır. 𝜎 2 = 𝐴𝑛𝑎 𝐾ü𝑡𝑙𝑒 𝑉𝑎𝑟𝑦𝑎𝑛𝑠𝚤 𝑠 2 = Ö𝑟𝑛𝑒𝑘𝑙𝑒𝑚 𝑉𝑎𝑟𝑦𝑎𝑛𝑠𝚤 DEĞİŞKENLİK ÖLÇÜTLERİ Standart Sapma: • Ortalama veya beklenen değerden ne ölçüde sapma olduğunu gösterir. • Düşük standart sapma değerleri verilerin ortalamaya daha yakın seyrettiğini gösterir. Yüksek değerlerde ise veriler o kadar ortalamadan uzaklaşır. 𝜎 = 𝐴𝑛𝑎 𝐾ü𝑡𝑙𝑒 𝑆𝑡𝑎𝑛𝑑𝑎𝑟𝑡 𝑆𝑎𝑝𝑚𝑎𝑠𝚤 𝑠 = Ö𝑟𝑛𝑒𝑘𝑙𝑒𝑚 𝑆𝑡𝑎𝑛𝑑𝑎𝑟𝑡 𝑆𝑎𝑝𝑚𝑎𝑠𝚤 DEĞİŞKENLİK ÖLÇÜTLERİ • Eğer Histogram Çan eğrisi şeklinde (simetrik ise) bütün değerleri % 68’i tek, %95’i çift ve %99,7 si üç standart sapma aralığındadır. DEĞİŞKENLİK ÖLÇÜTLERİ Değişkenlik Katsayısı: • Değişkenlik katsayısı standart sapmanın aritmetik ortalamaya bölünmesi ile elde edilen yüzdesel bir orandır 𝜎2 𝑠2 𝐶𝑉 = 𝑣𝑒𝑦𝑎 𝐶𝑉 = 𝜇 𝑥 Örneklem 1 Ortalama = 141 Standart Sapma = 12 Değişkenlik Katsayısı = 12/141 = 0,0851 Örneklem 2 Ortalama = 136 Standart Sapma = 12 Değişkenlik Katsayısı = 12/136 = 0,0882 Örneklem 3 Ortalama = 136 Standart Sapma = 10 Değişkenlik Katsayısı = 10/136 = 0,0735 GÖRECELİ DURUM ÖLÇÜTLERİ Persentil: • Bir değişkenin gözlem değerleri arasındaki belirli yüzdelik dilimi belirleyen değerdir. Çeyreklik: • 𝑄1 = İ𝑙𝑘 𝑣𝑒𝑦𝑎 𝑎𝑙𝑡 ç𝑒𝑦𝑟𝑒𝑘𝑙𝑖𝑘(%25 𝑦ü𝑧𝑑𝑒𝑙𝑖ğ𝑖) • 𝑄2 = İ𝑘𝑖𝑛𝑐𝑖 ç𝑒𝑦𝑟𝑒𝑘𝑙𝑖𝑘 𝑀𝑒𝑑𝑦𝑎𝑛 ((%50 𝑦ü𝑧𝑑𝑒𝑙𝑖ğ𝑖) • 𝑄3 = Üçü𝑛𝑐ü 𝑣𝑒𝑦𝑎 ü𝑠𝑡 ç𝑒𝑦𝑟𝑒𝑘𝑙𝑖𝑘((%75 𝑦ü𝑧𝑑𝑒𝑙𝑖ğ𝑖) 𝑃 𝐵𝑖𝑟 𝑦ü𝑧𝑑𝑒𝑙𝑖𝑘 𝑑𝑒ğ𝑒𝑟𝑖𝑛 𝑘𝑜𝑛𝑢𝑚𝑢 = 𝐿𝑝 = (𝑛 + 1) 100 GÖRECELİ DURUM ÖLÇÜTLERİ Örnek • Bir grup çalışanın ağırlık değerleri aşağıda verilmiştir: a. %25 lik dilime karşılık gelen değeri (𝑄1 ) bulunuz b. %50 lik dilime karşılık gelen değeri (𝑄2 ) bulunuz. c. %75 lik dilime karşılık gelen değeri (𝑄3 ) bulunuz. GÖRECELİ DURUM ÖLÇÜTLERİ Örnek 𝐿𝑝 = 𝑛 + 1 𝑃 100 = 25 + 1 25 100 = 6.5 75 100 = 19.5 160 + 162 𝑄1 = = 161 2 𝑄2 = 𝑀𝑒𝑑𝑖𝑎𝑛 = 169 𝐿𝑝 = 𝑛 + 1 𝑄3 = 𝑃 100 = 25 + 1 177 + 179 = 178 2 GÖRECELİ DURUM ÖLÇÜTLERİ 5 Nokta Yöntemi: • 5 sayı yöntemi 𝑄1 , 𝑄2 , 𝑄3 çeyreklik değerleri ile birlikte veri setindeki en küçük (S) ve en büyük değerin (L) birlikte sunulduğu bir tanımlayıcı istatistik yöntemidir. En Küçük Değer (S) Birinci Çeyreklik (𝑸𝟏 ) Medyan (𝑸𝟐 ) Üçüncü Çeyreklik (𝑸𝟑 ) En büyük Değer (L) GÖRECELİ DURUM ÖLÇÜTLERİ Kutu Grafiği: • Temelde 5 Nokta yöntemine dayanan kutu grafiği veri setinin değişkenliği ve hangi aralıkta değiştiği ile ilgili önemli yorumlar sunar. Kutu grafiği uç değerleri, medyanı (dağılım simetrikse ortalamayı) ve dağılımı birlikte sunduğunda kuvvetli bir görsel tanımlama aracıdır.5 farklı değer grafik üzerinde sunulur. GÖRECELİ DURUM ÖLÇÜTLERİ Kutu Grafiği: Çeyreklikler arası uzaklık: – Alt ve üste çeyreklikler arasındaki uzaklığı belirtir. – Ç𝑒𝑦𝑟𝑒𝑘𝑙𝑖𝑘𝑙𝑒𝑟 𝑎𝑟𝑎𝑠𝚤 𝑢𝑧𝑎𝑘𝑙𝚤𝑘 = 𝐼𝑄𝑅 = 𝑄3 − 𝑄1 • Çubuklar (Whiskers): – Soldan sağa doğru uzayan doğrusal çizgi. – Sola doğru 𝑄1 − 1,5 ∗ 𝐼𝑄𝑅 kadar uzar. Veri setindeki en küçük değerden daha sola gidemez. – Sağa doğru 𝑄2 + 1,5 ∗ 𝐼𝑄𝑅 kadar uzar. Veri setindeki en büyük değerden daha sağa gidemez. GÖRECELİ DURUM ÖLÇÜTLERİ Örnek: • Önceki örnekteki veriyi görselleştirelim. GÖRECELİ DURUM ÖLÇÜTLERİ • Wendy’s firmasının servis süresi en kısa ve en az değişkenlik gösterendir. • Hardee’s en yüksek değişkenlik değerine ulaşır. • Jack-in-the-Box en uzun servis süresine sahiptir. SPSS DE TANIMLAYICI İSTATİSTİKLER • SPSS içerisinde sayısal tanımlayıcı istatistikler Analyze içerisinde yer alana Descriptives alanında bulunur. Bütün istatistikleri Bu alanda yer alana geçtiğimiz hafta işlediğimiz Frequencies analizinden elde edilir. • EXCEL içerisinde kullandığımız 25 öğrenciye ait boyları SPSS içerisine girerek BOY adı altında Scale measure yapısında bir değişken oluşturuyoruz. Daha sonra yukarıda belirtilen Freequencies / Statistics tabına basılır. SPSS DE TANIMLAYICI İSTATİSTİKLER • Bu ekranda merkezi eğilim ölçütlerinden Aritmetik Ortalama, Mod ve Medyan yer alırken, Değişkenlik ölçütlerinden Değişim aralığı, varyans ve standart sapma bulunmaktadır. • Göreceli durum ölçütlerinden persentillerde de yine bu ekrandan seçilebilir. Çeyreklikler Quartiles alanından seçilebilirken, istenirse Cuts point for …. Equal groups kısmından eşit aralıklı persentil değerleri alınabilir. SPSS DE TANIMLAYICI İSTATİSTİKLER Kutu Grafiği Oluşturma • Kutu grafiği karşılaştırma amaçlı kullanılan bir diyagram olduğundan Boy veri setinekarşılaştırma ölçütü olarak Cinsiyeti değişkeni (Nominal) de eklenmelidir. • Graphs> Legacy Dialogs > Box Plot seçimi yapılıp aşağıdaki ayarlar gerçekleştirilir. AMAN DİKKAT • Kategorik veriler için sayısal tanımlayıcı teknikleri kullanmayın. Bazı kategorik değişkenler sayısal formda sunulsa da bu durum o değişkenlerin kantitatif yani nominal oldukları manasına gelmez. • Bazı durumlarda birden fazla mod değerine rastlanabilir. Bu şekildeki durumlarda diğer tanımlayıcı istatistiklere yönelin. • Verilerin içerisinde aykırı değer olup olmadığını sorgulayın. Bu durum sonucunda kullanılacak tanımlayıcı yöntemi seçin.