İstatistik Doç. Dr. Şakir GÖRMÜŞ SAÜ Bu konuyu çalıştıktan sonra: - İstatistiksel verileri toplar. İstatiksel olarak toplanan verileri tasnif edebilir. İstatiksel olarak tasnif edilen verileri grafik ve tablolar yardımıyla sunabilir . 2 * 1. VERİLERİN TOPLANMASI * 1.1. Veri Toplama Yöntemleri (Veri Kaynakları) * 2. VERİLERİN DÜZENLENMESİ (TASNİFİ) * 2.1. Verilerin Basit Seri Şeklinde Düzenlenmesi * 2.2.Verilerin Tasnif Edilmiş Seri Şeklinde Düzenlenmesi * 2.3. Verilerin Gruplanmış (Sınıflanmış) Seri Şeklinde Düzenlenmesi * 3. VERİLERİN TABLOLAR VE GRAFİKLERLE SUNUMU VERİLERİN TOPLANMASI (Veri Kaynakları) Araştırmacı yapmak istediği çalışmasının konusuna, veri toplamanın ekonomik ve zaman açısından maliyetine, verinin doğru ve çabuk toplanmasına ve verinin türüne göre çok çeşitli veri toplama yöntemleri kullanabilir. En çok kullanılan dört yöntem aşağıda açıklanmıştır. 1.1.1. Tutulan eski kayıtlar, yayınlanan raporlar ve yıllıklar gibi mevcut olan kaynaklardan derleyerek veri toplama. Doğru ve sistematik olarak tutulması durumunda bu mevcut kaynaklardan elde edilen veriler araştırmacıyı doğru sonuçlara götürür. 1.1.2.Anket veya saha araştırması yaparak veri toplama. Araştırmaya konu olan gruplara anket soruları sorulur ve elde edilen yanıtlar verileri oluşturur. Verilerin güvenilir olabilmesi için anket sorularının iyi hazırlanmalı ve grup iyi seçilmelidir. Anket posta, e-mail, telefon gibi haberleşme araçları ile yapılabileceğinden maliyet ve zaman açısından avantajlı olmasına rağmen, saha araştırması bizzat deneklerle yüz yüze görüşülerek yapılacağından sorularının ne demek istediği deneklere daha iyi anlatılır ve böylece daha sağlıklı veriler toplanabilir. VERİLERİN TOPLANMASI (Veri Kaynakları) 1.1.3. Deney veya gözlem yaparak veri toplama. Özellikle sağlık, kimya, fizik vb. gibi alanlarda denekler üzerinde deney ve ya gözlem yaparak araştırılacak konu ile ilgili veri toplanabilir. 1.1.4.Önceden çeşitli kurumlar tarafından ya da çeşitli araştırmalar için hazırlanmış veri bankalarından hazır verilerin kullanılması. ÖRNEK: IMF, TÜİK, TCMB, DPT, Dünya Bankası vb. gibi kurumların hazırlamış olduğu ekonomik veriler. Tutulan eski kayıtlar, yayınlanan raporlar ve yıllıklar, anket ve saha çalışmaları, deney ve gözlemlere Birincil Veri Kaynakları denir. Bu veriler araştırmacı tarafından toplanmış veya derlenmiştir. Önceden çeşitli kurumlar tarafından ya da çeşitli araştırmalar için toplanmış ve hatta düzenlenmiş veri bankalarındaki verilere İkincil Veri Kaynakları denir. Bu veriler araştırmacı tarafından birincil veri kaynaklarından elde edilmiştir. TÜİK, TCMB, DPT vb. kurumların veya önceki çalışmalardaki verileri örnek olarak gösterilebilir. VERİLERİN DÜZENLENMESİ (TASNİFİ) Farklı yöntemlerle toplanan veriler (değişkenler) çok sayıda gözlem içermektedir. Bu verilerden elde edilen bilgiler düzensiz ve dağınıktır. Bu nedenle ilgilenilen araştırma konusunun değişkenlerinin özellikleri hakkında bilgi edinmek amacıyla, düzensiz ve dağınık verilerin düzenlenerek özetlenmesi (tasnifi) istatiksel araştırmalarda atılacak ikinci adım olacaktır. Tablo 1. Maliye Bölümü Öğrencilerinin İstatistik Final Sınavı Notları Numar Not ası Numar Not ası Numar Not ası Numar Not ası 1 50 6 40 11 60 16 50 2 70 7 80 12 70 17 90 3 100 8 70 13 80 18 80 4 60 9 90 14 60 19 60 5 80 10 70 15 70 20 70 VERİLERİN DÜZENLENMESİ (TASNİFİ) 2.1. Verilerin Basit Seri Şeklinde Düzenlenmesi Araştırmacı bu verileri (notları) küçükten büyüğe doğru sıralayarak basit seri şeklinde Tablo 2’deki gibi düzenleyebilir. Tablo 2. Maliye Bölümü Öğrencilerinin İstatistik Final Sınavı Notlarının Küçükten Büyüğe Doğru Basit Seri Olarak Sunumu Numarası Not Numarası Not Numarası Not Numarası Not 6 40 14 60 12 70 13 80 1 50 19 60 15 70 18 80 16 50 2 70 20 70 9 90 4 60 8 70 5 80 17 90 11 60 10 70 7 80 3 100 Verilerin Tasnif Edilmiş Seri Şeklinde Düzenlenmesi Frekans: Değişkene ait aynı değere sahip bir verinin kaç kez tekrarlandığını gösterir. Araştırmacı bir değişkene ait aynı değere sahip ya da tekrar eden verileri sınıflandırarak (tasnif ederek) verileri tasnif edilmiş seri şeklinde düzenleyebilir. Bu şekilde verilerin sıklık çizelgeleri (frekansları) elde edilmiş olur. Değişkene ait verinin frekansı (sıklığı) fi ile gösterilir. Örneğimizi tasnif edilmiş seri şeklinde Tablo 3’teki gibi düzenleyebiliriz. Tablo 3. Maliye Bölümü Öğrencilerinin İstatistik Final Sınavı Notlarının Tasnif Edilmiş Seri Olarak Sunulması Öğrencilerin Notları 40 50 60 70 80 90 100 Toplam Notların Sıklığı (Frekansı) = fi 1 2 4 6 4 2 1 Verilerin Gruplanmış (Sınıflanmış) Seri Şeklinde Düzenlenmesi Bir değişkene ait çok sayıda ve birbirinden farklı veri mevcut ise bu verileri tasnif edilmiş seri (küme) şeklinde düzenlemek zordur. Bu gibi durumlarda değişkenlerin birbirine yakın değere sahip verileri bir arada toplanarak gruplanmış seri olarak sunulabilir. Verilerin gruplanmış seri olarak düzenlenmesini ve onu ile ilgili bazı kavramları aşağıdaki örnek yardımıyla uygulamalı olarak açıklayabiliriz. Sınıf: Eşit ya da birbirine yakın değere sahip verilerin (gözlemlerin, deneklerin) bir arada gösterilerek oluşturulan her bir gruba sınıf denir. Sınıf sayısı, k ile ifade edilir. Tablo 4’teki örnekte görüldüğü gibi öğrencilerin notları 9 grupta toplanmıştır ve dolayısıyla sınıf sayısı 9’dur (k = 9). Verilerin Gruplanmış (Sınıflanmış) Seri Şeklinde Düzenlenmesi Tablo 4. Sakarya Üniversitesi İİBF Öğrencilerinin İstatistik Yılsonu Notlarının Gruplanmış Seri Olarak Sunulması Başarı Derecesi Not Sınıfları (Gruplar) Sınıf Orta Değeri (mi) Öğrenci Sayısı (Sınıf sıklığı ya da Frekansı) Kümülatif Sıklık Sınıf Aralığı (s) AA 90-100 95 50 50 101-90=11 BA 85-89 87 60 110 90-85=5 BB 80-84 82 40 150 85-80=5 CB 75-79 77 50 200 80-75=5 CC 70-74 72 100 300 75-70=5 DC 60-69 64,5 50 350 70-60=10 DD 50-59 54,5 60 410 60-50=10 DF 40-49 44,5 40 450 50-40=10 FF 0-39 19,5 50 500 40-0=40 Toplam Verilerin Gruplanmış (Sınıflanmış) Seri Şeklinde Düzenlenmesi Sınıf Orta Değeri (mi): Bir sınıfın alt ve üst sınır değerlerinin ortalaması o sınıfın orta değerini verir. Her bir sınıf için sınıf orta değerlerini aşağıdaki formül yardımıyla bulunabilir. Ü𝑺𝒊 − 𝑨𝑺𝒊 𝒎𝒊 = , 𝒊 = 𝟏, 𝟐, 𝟑 … … . , 𝒌. 𝟐 Örneğimizde AA (birinci) grubun sınıf orta değeri 95 ve BA (ikinci) grubun sınıf orta değeri 87 vb. gibidir. Sınıf Sıklığı (Sınıf Frekansı): Bir sınıfta yer alan gözlem ya da denek sayısıdır. Örneğimizde AA (birinci) grubun sınıf sıklığı 50 ve BA (ikinci) grubun sınıf sıklığı 60 vb. gibidir. Kümülatif Sıklık (Frekans): Sınıf sıklıklarının üst üste eklenmesi ile oluşan sıklıklara denir. VERİLERİN TABLOLAR VE GRAFİKLERLE SUNUMU İlk toplanan ham veriler anlamsız ve karmaşık rakam yığınlarından ibarettir. Bu verilerin ilk bakışta ne içerdiğinin anlaşılabilmesi ve kolayca algılanabilmesi için tablo ve grafiksel sunumlar kullanılabilir. 3.1.1. Zaman Serilerinin Tablolar Halinde Sunumu Sayısal veriler yıl, ay, hafta vb. gibi zamana bağlı olarak sıralanmışsa zaman serisi oluşturulmuş olur. Zaman serileri araştırılan konunun özelliğine göre artan, azalan ya da dalgalı zaman serisi olabilir. Tablo 3.1.1. İstanbul’daki Araç Sayısı Yıllar 2000 2001 2002 2003 2004 2005 2006 2007 Araç Sayısı 200.000 230.000 270.000 330.000 380.000 450.000 490.000 550.000 VERİLERİN TABLOLAR VE GRAFİKLERLE SUNUMU Tablo 3.1.3. Türkiye’de Okur-Yazar Olmayanlarının Nüfusa Oranı Yıllar 2000 2001 2002 2003 2004 2005 2006 2007 Okur-Yazar Olmayanlarının Nüfusa Oranı 9,5 9,4 8,9 8,2 7,4 6,5 5,4 4,5 VERİLERİN TABLOLAR VE GRAFİKLERLE SUNUMU 3.1.2. Mekân Serilerinin Tablolar Halinde Sunumu Veriler toplandıkları ülke, bölge, şehir, ilçe vb. gibi bir mekâna göre düzenlenip sıralanmışsa mekânsal seriler oluşturulmuş olur. Türkiye’nin illere göre araç sayısı, illere göre nüfusu, ülkelerin ihracatı, Türkiye’nin Avrupa Birliği ülkelerine ihracatı, Türkiye’ye ülkelere göre gelen turist sayısı vb. Tablo 3.1.7. Türkiye Bölgelere Göre Kişi Başına Milli Gelir Dağılımı (2000 yılı, TL) Bölgeler Milli Gelir Marmara Ege İç Anadolu Akdeniz Batı Karadeniz Doğu Karadeniz Güney Doğu Anadolu Doğu Anadolu 24.000 18.000 1.2000 9000 7000 6000 5500 4000 VERİLERİN TABLOLAR VE GRAFİKLERLE SUNUMU 3.1.3. Bölünme Serilerinin Tablolar Halinde Sunumu Cinsiyet, medeni durum, eğitim durumu, işletmede ki işçilerin çalışma yılı ve ya ücretleri, çeşitlerine göre araç sayıları, amaçlarına göre yurtdışına seyahat edenler vb. gibi veriler zamana ve mekâna bağlı olmadan sektör, amaç vb. gibi kategorilere ayrılarak seri oluştururlar bu tür serilere bölünme seri denir. Tablo 3.1.10. Türkiye’de Çeşitlerine Göre Araç Sayısı Araç Çeşitleri Araç Sayısı Oto SUV Ağır Vasıta Traktör Mini Van 11.200.000 2.100.000 6.200.000 2.900.000 500.000 1- Normal dağılışa neden Çan Eğrisi denilmektedir? a) Sağa çarpık olduğu için b) Sola çarpık olduğu için c) Düzgün ve simetrik olduğu için d) Açık U şeklinde olduğu için e) Hiçbiri 2-Aşağıdakilerden hangisi hem zaman hem de mekan serilerine örnektir? a) Yıllar itibarıyla Türkiye’nin ihracatı b) Türkiye’deki illerin 2000 yılındaki nüfusları c) Yıllar itibarıyla illerin araç sayısı d) Yıllar itibarıyla Türkiye’nin Azerbeycan’dan doğalgaz ithalatı 3- Karmaşık serileri hangi koşullar altında gruplanmış serilere dönüştürmek uygundur? a) Gözlem sayısı çok fazla ve gözlem değerleri birbirine yakınsa b) Gözlem sayısı çok fazla ve gözlem değerleri birbirine eşitse c) Gözlem sayısı çok az ve gözlem değerleri birbirine yakınsa d) Gözlem sayısı çok az ve gözlem değerleri birbirine yakınsa