IRSYSC 2017 KONYA Çok Boyutlu Verilerin Analizi 1. 2. 3. 4. 5. 6. 7. 8. Giriş Deney-Gözlem-Ölçme ve Veri Veri Analizi ve Đlkeler Bir Boyutlu (Bir Değişkenli) Verilerin Analizi Çok Boyutlu (Çok Değişkenli) Verilerin Analizi Veri Merkezi, Derinlikler ve Uygulamaları Veri Madenciliği Wikipedia 1.Giriş Bir araştırma veya projenin içinde Veri Analizinin yeri: Araştırma-Proje * Araştırma Konusunun ortaya atılması • olgu ile ilgili değişkenlerin (ölçülecek-gözlenecek özelliklerin) belirlenmesi • tahmin edilecek parametrelerin ve hipotezlerin öne sürülmesi • amaçların yazılması * Araştırmanın maliyet ve zaman planlaması * Örnekleme ve Verilerin Toplanması * Veri Analizi * Rapor hazırlama * Projenin kapatılması. Verilerin Elde Edilmesi (üzerinde durulacak) * Ölçme-Gözlem * Örnekleme çalışmaları (anket, yüzyüze görüşme, mektup, telefon, internet,…) * Gözlemleme (metereoloji, deprem, çevre, tıp,…) * Bilimsel çalışmalar ( tasarlanan deneylerden elde edilen gözlemler,…) * Veri Anbarları (arşivler, ulusal ve uluslar arası kurumlar, TÜĐK , Sağlık Bakanlığı, http://www.ncbi.nlm.nih.gov/genome/, …) Verilerin Analize Hazırlanması (Verilerin Đşlenmesi) * Veri girişi * Kodlama, sayısallaştırma * Verilerin bilgisayar yazılımına uygun hale getirilmesi Verinin Analizi – Đstatistiksel Sonuç Çıkarım * Kayıp veri sorununun çözülmesi * Đstatistiksel yöntemlerin işlerliği için gerekli varsayımların sınanması (değinilecek) * Analiz, çıktıların elde edilmesi ve yorumlanması (üzerinde durulacak) * Karar ve öneriler R.Arıkan (1995) Araştırma Teknikleri ve Rapor Yazma , TUTĐBAY Yayınları. Örnek: Analize hazır olmayan veri. http://www.ncbi.nlm.nih.gov/genome/guide/human/ http://www.ncbi.nlm.nih.gov/nuccore/NT_077402.2?from=1&to=257719&report=fasta >gi|224514618|ref|NT_077402.2| Homo sapiens chromosome 1 genomic contig, GRCh37.p10 Primary Assembly TAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAAC CCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCAACCCTAACCCTAACCCTAACCCTAACCCTAA CCCTAACCCCTAACCCTAACCCTAACCCTAACCCTAACCTAACCCTAACCCTAACCCTAACCCTAACCCT AACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAAACCCTAAACCCTAACCCTAACCCTAACCCTA ACCCTAACCCCAACCCCAACCCCAACCCCAACCCCAACCCCAACCCTAACCCCTAACCCTAACCCTAACC CTACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCCTAACCCTAACCCTAACCCTA ACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAACCCTAACCCTCGCGGTACCCTCAGCCGGCCCG CCCGCCCGGGTCTGACCTGAGGAGAACTGTGCTCCGCCTTCAGAGTACCACCGAAATCTGTGCAGAGGAC AACGCAGCTCCGCCCTCGCGGTGCTCTCCGGGTCTGTGCTGAGGAGAACGCAACTCCGCCGTTGCAAAGG CGCGCCGCGCCGGCGCAGGCGCAGAGAGGCGCGCCGCGCCGGCGCAGGCGCAGAGAGGCGCGCCGCGCCG GCGCAGGCGCAGAGAGGCGCGCCGCGCCGGCGCAGGCGCAGAGAGGCGCGCCGCGCCGGCGCAGGCGCAG AGAGGCGCGCCGCGCCGGCGCAGGCGCAGACACATGCTAGCGCGTCGGGGTGGAGGCGTGGCGCAGGCGC AGAGAGGCGCGCCGCGCCGGCGCAGGCGCAGAGACACATGCTACCGCGTCCAGGGGTGGAGGCGTGGCGC AGGCGCAGAGAGGCGCACCGCGCCGGCGCAGGCGCAGAGACACATGCTAGCGCGTCCAGGGGTGGAGGCG TGGCGCAGGCGCAGAGACGCAAGCCTACGGGCGGGGGTTGGGGGGGCGTGTGTTGCAGGAGCAAAGTCGC ACGGCGCCGGGCTGGGGCGGGGGGAGGGTGGCGCCGTGCACGCGCAGAAACTCACGTCACGGTGGCGCGG CGCAGAGACGGGTAGAACCTCAGTAATCCGAAAAGCCGGGATCGACCGCCCCTTGCTTGCAGCCGGGCAC TACAGGACCCGCTTGCTCACGGTGCTGTGCCAGGGCGCCCCCTGCTGGCGACTAGGGCAACTGCAGGGCT CTCTTGCTTAGAGTGGTGGCCAGCGCCCCCTGCTGGCGCCGGGGCACTGCAGGGCCCTCTTGCTTACTGT ATAGTGGTGGCACGCCGCCTGCTGGCAGCTAGGGACATTGCAGGGTCCTCTTGCTCAAGGTGTAGTGGCA GCACGCCCACCTGCTGGCAGCTGGGGACACTGCCGGGCCCTCTTGCTCCAACAGTACTGGCGGATTATAG GGAAACACCCGGAGCATATGCTGTTTGGTCTCAGTAGACTCCTAAATATGGGATTCCTGGGTTTAAAAGT AAAAAATAAATATGTTTAATTTGTGAACTGATTACCATCAGAATTGTACTGTTCTGTATCCCACCAGCAA TGTCTAGGAATGCCTGTTTCTCCACAAAGTGTTTACTTTTGGATTTTTGCCAGTCTAACAGGTGAAGCCC TGGAGATTCTTATTAGTGATTTGGGCTGGGGCCTGGCCATGTGTATTTTTTTAAATTTCCACTGATGATT TTGCTGCATGGCCGGTGTTGAGAATGACTGCGCAAATTTGCCGGATTTCCTTTGCTGTTCCTGCATGTAG TTTAAACGAGATTGCCAGCACCGGGTATCATTCACCATTTTTCTTTTCGTTAACTTGCCGTCAGCCTTTT CTTTGACCTCTTCTTTCTGTTCATGTGTATTTGCTGTCTCTTAGCCCAGACTTCCCGTGTCCTTTCCACC GGGCCTTTGAGAGGTCACAGGGTCTTGATGCTGTGGTCTTCATCTGCAGGTGTCTGACTTCCAGCAACTG CTGGCCTGTGCCAGGGTGCAAGCTGAGCACTGGAGTGGAGTTTTCCTGTGGAGAGGAGCCATGCCTAGAG TGGGATGGGCCATTGTTCATCTTCTGGCCCCTGTTGTCTGCATGTAACTTAATACCACAACCAGGCATAG GGGAAAGATTGGAGGAAAGATGAGTGAGAGCATCAACTTCTCTCACAACCTAGGCCAGTAAGTAGTGCTT GTGCTCATCTCCTTGGCTGTGATACGTGGCCGGCCCTCGCTCCAGCAGCTGGACCCCTACCTGCCGTCTG CTGCCATCGGAGCCCAAAGCCGGGCTGTGACTGCTCAGACCAGCCGGCTGGAGGGAGGGGCTCAGCAGGT CTGGCTTTGGCCCTGGGAGAGCAGGTGGAAGATCAGGCAGGCCATCGCTGCCACAGAACCCAGTGGATTG GCCTAGGTGGGATCTCTGAGCTCAACAAGCCCTCTCTGGGTGGTAGGTGCAGAGACGGGAGGGGCAGAGC… Örnek: Çok Boyutlu (Değişkenli) Veri-Đstatistik http://www.tuik.gov.tr/PreTablo.do?alt_id=25 Örnek: Her yerde veri ve istatistikler var. Kitle: 2012-2013 Ders Yılı Đst307 dersini alan öğrenciler. Değişkenler: ağırlık- Y (kg), boy uzunluğu- X1 (cm) kol uzunluğu- X 2 (cm) omuz çevresi- X 3 (cm) kalça çevresi- X 4 (cm) bacak uzunluğu- X 5 (cm) cinsiyet X 5 (K-0,E-1) Veri: Y 97 50 75 55 60 55 65 110 54 68 78 73 88 72 65 73 88 78 55 67 49 54 68 75 71 71 53 47 65 52 54 50 58 67 82 84 75 52 X1 184 163 183 160 166 165 162 191 178 195 187 185 177 174 175 181 188 180 178 178 167 168 180 180 177 186 163 155 171 155 156 167 165 168 178 186 185 160 X2 77 66 73 86 74 91 84 80 76 78 82 81 75 74 75 77 81 80 74 76 71 68 78 79 74 80 68 65 75 68 70 80 72 71 75 83 79 70 X3 98 72 99 70 91 78 72 105 95 110 107 106 92 90 93 93 117 97 96 96 97 90 97 99 95 101 103 84 90 84 86 100 85 85 97 103 100 95 X4 120 90 113 95 105 100 110 140 97 110 107 113 124 111 111 117 105 120 103 114 99 96 109 121 111 115 98 93 110 85 95 97 100 116 128 120 103 95 X5 114 97 91 102 98 100 115 117 92 100 101 94 104 104 100 105 113 107 96 101 90 100 102 109 108 99 89 90 90 98 87 95 93 105 111 109 119 94 X6 1 0 1 0 0 0 0 1 0 1 1 1 1 1 1 1 1 1 1 1 0 0 1 1 1 1 0 0 1 0 0 0 0 0 1 1 1 0 2. Deney-Gözlem-Ölçme ve Veri Veri (Data) dediğimiz şeyin ölçme sonucu ortaya çıktığını ve ölçmenin de gözlemleme veya deney sırasında yapılan bir iş olduğunu söyleyebiliriz. Sıcaklık kavramını göz önüne alalım. Sıcaklık nedir? Bu sorunun cevabı bir tarafa, sıcaklığı ölçmek için termometre denen bir alet kullanıldığını biliyoruz. Đnce bir cam borunun içine civa (bir sıvı) konmuş ve sıvıların genleşme esasına dayalı olarak skalasında sıcaklığı gösteren termometreler görmüşüzdür. Elektrik akımındaki dirence dayalı olarak sıcaklığı ölçen termometreler de vardır. Eskiden arabalarda vardı. Şu anki arabalarda sıcaklık nasıl ve ne ile ölçülmektedir? Ben de bilmiyorum. Hastanelerde, hemşireler hastaların alnına bir alet tutarak (bir ışın göndererek, kızılötesi bir ışın veya lazer ışını olabilir, bilmiyorum) sıcaklık ölçümü yapmaktadır. Termometreler sıcaklığı nasıl ölçmektedir. Wikipedia Ansiklopesinde http://tr.wikipedia.org/wiki/Termometre ‘ye bakınız. Bimetal termometre Dijital termometre Galilei termometresi Zaman ölçümünde kullanılan aletleri (kum saati, güneş saati, sarkaçlı duvar saati, yaylı masa veya kol saati, kristalli kol saati, dijital kol saati,...) ve çalışma prensiplerini göz önüne getirip tarihi gelişimine bakarsak, bilimin tarihi gelişimi ile paralellik görürüz. Diğer ölçü aletleri için de benzer şey söylenebilir. Örneğin kütle ölçmek için kullanılan terazileri göz önüne getirin. Market çıkışlarındaki kasaların yanında bulunan aletler kütle ölçümünü nasıl yapmaktadır? Eğitim, ekonomi, psikoloji ve diğer bilim dallarında da ölçme çok önemli bir yer tutmaktadır. Eğitim fakültelerinde en önemli derslerden birisi ölçme ve değerlendirmedir. Derslerdeki bilginiz nasıl ölçülmektedir? Bilgi nedir? Türk Đstatistik Kurumunun yaptığı işlerden birisi enflasyonu ölçmektir. Enflasyon nedir? Nasıl ölçülmektedir? Zaman nedir ve nasıl ölçülmektedir? Kütle nedir ve nasıl ölçülmektedir? Ağırlık nedir ve nasıl ölçülmektedir? Sıcaklık nedir ve nasıl ölçülmektedir? Isı nedir ve nasıl ölçülmektedir? Cinsiyet nedir ve nasıl ölçülmektedir? Zekâ nedir ve nasıl ölçülmektedir? Tansiyon nedir ve nasıl ölçülmektedir? ... Bu soruların muhatabı Đstatistikçiler değildir. Sıcaklık nedir ve nasıl ölçülür, sorusunun cevabını fizikçiler verecektir. Ancak, belli bir olgudaki bir özellik ile ilgili arda arda yapılan ölçmeler ile elde edilen gözlemler ortaya çıktığında, bu veriyi analiz etmek Đstatistikçilerin işidir. Yatay eksende gözlem sırası, düşey eksende gözlenen değer olmak üzere aşağıdaki gibi bir grafik göz önüne alalım. 3.5 3 2.5 2 1.5 1 0.5 0 0 20 40 60 80 100 120 140 Böyle bir veri nereden gelmiş olabilir? Tıp, ekonomi, iklim, jeofizik,...veya başka bir alandan gelmiş olabilir. Đstatistikçi için fark etmez, bu bir zaman serisidir. Gerçek dünyadan kendine konu edinmiş fizik, kimya, biyoloji, jeoloji, astronomi, ekonomi, sosyoloji, psikoloji, ... gibi bilim dallarının ilgilendikleri olgular ile temasları ölçme vasıtasıyla olmaktadır. Ölçme ne demektir ve nasıl yapılmaktadır? Ortaöğretimdeki Fizik derslerinden hatırladığımız kadarıyla MKS diye bir ölçü sistemi vardı. Bu sistemde uzunluk için metre, kütle için kg ve zaman için saniye diye birimler vardı. Ayrıca bu ölçümleri yapacak aletler söz konusuydu. Uzunluk için standart olarak alınan bir birim ve bunun alt birimleri kullanılarak oranlama düşüncesi ile istenilen bir hassasiyete kadar ölçümler yapılmaktadır. Çubuklar veya şeritler üzerine sıfırdan başlayarak birimin katları ve alt birimleri işaretlenerek uzunluk ölçen ve “çubuk metre” , “şerit metre” gibi isimler taşıyan aletler yapılmaktadır. Bazı dürbünler uzaklık da göstermektedir. Đçlerinde nasıl bir alet vardır? Kütle için de standart bir birim alınmakta ve oranlama düşüncesi ile ölçümler yapılmaktadır. Kütle ölçen kefeli teraziler, yerçekimi kuvveti (ağırlık) ile ilgili moment eşitlenmesi düşüncesi üzerine kuruludur. Bir parantez açalım (Ağırlık nedir ve nasıl ölçülür? Domates satın alırken ve “2 kg domates” derken kütle mi, yoksa ağırlık mı kastediliyor? Ya, “2 kilo domates”derken?). Gazların kütlesi nasıl ölçülmektedir? Uzunluk, hacim, kütle, ağırlık ölçümlerinde standart bir birim ve bu birime göre oranlama söz konusudur. Böyle yapılan ölçümlere Oran Ölçeği’nde yapıldı denir. Zamanı ölçmede farklı bir yol izlenmektedir. Zaman için başlangıcı ve sonu belli bir aralık (zaman dilimi) alınıp ve bu aralığın kendisi veya eşit parçalara bölünmüş bir parçası birim olarak alınmaktadır. Sıcaklık ölçmede de benzer bir yol izlenmektedir. Örneğin, deniz seviyesinde suyun donma sıcaklığı 0, kaynaması 100 sayısına karşılık getirilip, (0,100) aralığının yüzde birlik bir parçası ile 1 Celsius diye isimlendirilen bir birim oluşturulmaktadır. Bu birim ve alt birimleri ile (0,100) aralığının kendisi ve dışı ölçeklendirilmektedir. Sıcaklık ölçmede negatif değerler de çıkmaktadır. Bu şekilde oluşturulan bir ölçeğe Aralık Ölçeği (Interval Scale) denir. Uzunluk, hacim, kütle, ağırlık ölçmede Oran Ölçeği (Ratio Scale), zaman ve sıcaklık ölçmede Aralık Ölçeği (Interval Scale ) kullanılır. Oran Ölçeği ile yapılan ölçmelerde negatif değer olmaz, sıfır “yok” anlamına gelir. Aralık Ölçeği’nde böyle değildir. Her iki ölçekte daha büyük değer, ölçülen şeyin daha büyük olduğu anlamına gelmektedir. Örneğin, 2 kg domatesin kütlesi 1 kg domatesin kütlesinden büyüktür, 2 C olarak ölçülen suyun sıcaklığı 1 C olanın kinden fazladır. Her iki ölçekle yapılan ölçmelerde elde edilen değerlerdeki (sayılardaki) sıralama, ölçülen özellik için de geçerlidir. Ancak, 2 C olarak ölçülen suyun sıcaklığı 1 C olarak ölçülen suyun sıcaklığının iki katıdır denemez. Oranlama Ölçeği’nde böyle değildir, 2 kg olarak ölçülen domatesin kütlesi 1 kg olarak ölçülen domatesin kütlesinin iki katıdır. Renkler için “beyaz-siyah-mavi-yeşil-sarı-kırmızı-kahverengi” gibi bir ölçek oluşturup baktıklarımızı bunlardan birisi ile isimlendirmekteyiz. Böyle bir ölçeğe Đsimlendirme ya da Sınıflandırma Ölçeği (Nominal Scale) denir. Böyle ölçülen renkler için sıralama ve oranlamadan bahsedilemez. Ancak, renkler dalga boylarına göre değerlendirilirse bir sıralama söz konusu olabilir. Đsimlendirme Ölçeği ile yapılan ölçümler için sıralama da söz konusu ise böyle bir ölçeğe Sıralama Ölçeği (Ordinal Scale) denir. Bizim küçüklüğümüzde oda sıcaklığı, “soğuk-ılık-sıcak” ya da “buz gibi-soğukılık-sıcak-hamam gibi” olarak ölçülmekteydi. Ölçümler Sıralama Ölçeğinde yapılmaktaydı. Alet olarak da genellikle çocuklar (burunlarının kızarıklığı, sırtlarının terlemesi, titremeleri, ...) kullanılıyordu. Şimdi her çocuk odasında Termometre var. Sıcaklık Aralık Ölçeğinde ölçülmektedir. Üstelik nesnel. Aralık ve Oranlama Ölçeğinde yapılan ölçümler Sınıflama ve Sıralama Ölçeğinde yapılan ölçümlere göre daha hassas olmaktadır. Belki bu sebepten dolayı Sınıflama, Sıralama, Oran, Aralık Ölçek’leri yerine Sınıflama, Sıralama, Oran, Aralık Düzeyleri deyimi kullanılmaktadır. Ölçme yapanlar, kendi ihtiyacını karşılayacak şekilde bir ölçme düzeyi seçmekte ve imkânlar çerçevesinde bir alet kullanmaktadırlar. Gerçek dünyadaki olguları anlama-anlatma, yani olguları modelleme çerçevesinde ölçme çok önemli bir yer tutmaktadır. Olgu ile temas ölçme’den geçmektedir, demiştik. Ölçme yapmak için bir ölçeğe ve ölçülecek özelliğe karşı duyargaç (sensör) bulunduran bir alete ihtiyaç vardır. Ölçme kolay değildir. Hele, öğrencilerin Đstatistik bilgisini ölçmek hiç de kolay olmamaktadır. Rasgelelik içeren olgulardan elde edilen ölçüm (gözlem) değerlerine istatistiksel veri veya kısaca veri (data) diyelim. Verilerin deneyler sonucu veya doğal şartlarda olguları gözlemekle elde edildiğini belirtelim. Veriler, niceliksel veri (quantitative data, sayısal veri) ve niteliksel veri (qualitative, categorical data) olarak ikiye ayrılabilir. Aralık veya oranlama düzeyinde yapılan ölçümlerden elde edilen veriler birer niceliktir (sayıdır). Bazen sınıflama düzeyinde yapılan ölçümlerden elde edilen veri de sayılardan oluşabilir. Örneğin para atışında, yazı gelişi 0, tura gelişi 1 olarak kodlanırsa elimizdeki veri sayısal bir veri olacaktır. Tersi de olabilir. Sayısal olarak yapılan ölçümlerden niteliksel veri elde edilebilir. Tavla zarı üzerindeki noktalar sayıldıktan sonra ölçümler tek-çift olarak nitelendirilebilir. Aklımız ile gerçek dünyadaki olguları (nesne, olay, süreç, zaman, sıcaklık, ...) anlamak isteriz. Olgunun ilgilendiğimiz bir veya birden çok özelliği ile ilgili ölçümler yaparız. Örneğin bir yaşındaki çocuklarda ağırlık, boy, hareket gibi özellikler bizi ilgilendiriyor olabilir. Ağırlığı kg, boyu cm ve hareketi de “emekleme-ayakta durabilme- yürüme” gibi bir ölçekte ölçtüğümüzü düşünelim. Ağırlık ve boy özelliklerinin ölçümünde elde edilen veri sayısal, hareket özelliğinin ölçümünde elde edilen ise bir kategorik (niteliksel) veri olacaktır. Emekleme 1, ayakta durma 2 ve yürüme 3 ile kodlanırsa elimizde hareket özelliği için de sayısal bir veri olmuş olur. Hareket, doğrudan sayısal veri verebilecek bir ölçek ile de ölçülmüş olabilir. Olgu-özellik-ölçme sonucunda sayısal bir veri elde edilsin. Rasgelelik de söz konusu olduğunda, ölçme sonucu çıkan sayılar da rasgele (gelişigüzel) olacaktır. Bir ölçme sonucunda sayısal bir değer alan bir özellik, istatistik dilinde bir rasgele değişkendir. Bir yaşındaki bir çocuğun ağırlığı ve boy uzunluğu ayrı olarak ele alındıklarında birer rasgele değişken, beraber ele alındıklarında bir rasgele vektör’dür. Rasgele değişkenler, ölçülen özelliğin doğasına bağlı olarak sürekli ve kesikli olarak iki sınıfa ayrılmaktadırlar. Örneğin, boy uzunluğu sürekli bir rasgele değişken, bir mağazaya bir günde gelen müşteri sayısı kesikli rasgele değişken, bir hastanın nabzı kesikli ve tansiyonu sürekli birer rasgele değişkendir. Doğası sürekli olmasına rağmen, ölçümler tam sayılara yuvarlatıldığı zaman tansiyon kesikli bir rasgele değişken olmaktadır. Dağılımları nedir? Boncuk Deneyi Küçük boncuklar, belli bir yükseklikten, masanın üstüne işaretlenmiş bir noktaya düşecek şekilde tek tek bırakılsın. Rasgele konumlanan buncukların işaretlenen noktaya uzaklıkları ölçülsün. Uzaklığın olasılık dağılımı nedir? 1.Deney: Gözlemler 82 54 82 56 51 42 28 59 48 47 52 42 26 38 41 37 36 36 29 45 43 40 33 39 40 35 29 24 15 21 18 22 15 20 24 27 20 7 11 6 8 6 30 25 23 22 0 28 27 18 2.Deney: Gözlemler 19 22 18 18 17 17 24 15 12 18 16 25 13 14 11 8 5 16 10 23 12 7 4 11 (mm) 50 40 27 18 17 11 9 3 3 7 13 19 25 21 39 28 9 13 10 4 7 12 20 25 23 23 30 32 39 42 43 49 51 80 78 9 11 12 21 38 35 64 9 14 17 10 6 32 57 22 11 41 43 7 8 12 19 20 23 25 24 15 9 11 10 25 14 33 22 33 37 47 13 22 25 20 25 16 19 10 13 17 13 31 38 41 51 (mm) 1.Deney 2.Deney Uzaklık ile ilgili histogramlar, sanki beklediğimiz gibi değil. (Đşaretlenen noktaya yakın düşenler daha çok olmalı.) Uzaklığın Karesi 1.Deney 2.Deney Uzaklığın karesi ile ilgili histogramlar “beklentimize (mantığımıza)” daha uygun. (Ok atışı yapan sporcular uzaklığın karesinde mi değerlendirilmeli?) Olgunun Modellenmesi: Gerçek dünyada rasgelelik içeren bir olgunun belli bir özelliğinin modellenmesinde aday modeller, olasılık dağılımlarının parametrelendirilmiş bir F = { f (.,θ ):θ ∈ Θ} ailesi olabilir. Bu ailedeki dağılımlar biçimsel olarak bilinen, ancak bilinmeyen θ parametresine bağlı olan f (.,θ ) olasılık yoğunluk fonksiyonları ile temsil edilmektedir. θ parametresi hakkında istatistiksel sonuç çıkarım; X1, X 2 ,..., X n örnekleminin x1, x2 ,..., xn gözlenen değerlerinin Θ parametre kümesindeki hangi θ değerini tahmin ya da hipotez olarak desteklediğini saptamayı amaçlamaktadır. X 1 , X 2 ,..., X n örnekleminin x1 , x2 ,..., xn gözlenen değerleri kümesine veri denir. Bir olgunun belli bir özelliği ile ilgili araştırmada parametrik bir model söz konusu olmayabilir. Bu yönüyle istatistiksel sonuç çıkarım parametrik ve parametrik olmayan olarak ikiye ayrılır. Örnek: Çakıl taşının hacmi nedir? Hatanın Modellenmesi Çakıl taşının Hacmi Nedir ? Normal dağılım varsayımı altında, “kitle” ortalaması için aşağıdaki tahmin edicilerden hangisini tercih edersiniz? a) Örneklem ortalaması. b) Örneklem ortancası. Normallik varsayımın doğruluğu nasıl sınanacak? Çakıl taşının hacmi ile ilgili veriyi önce dağılım varsayımı olmadan, sonra normallik varsayımı altında ele aldık. Đlkinde sonuç çıkarımı örneklem ortancası, ikincisinde örneklem ortalaması ile yapmış olabiliriz. Bizim tercihimize kalmış. Ayrıca parametrik mi, yoksa parametrik olmayan sonuç çıkarım mı yaptık. Ne dersiniz? Olgunun modellenmesi doğrudan istatistikçilerin işi olmamasına rağmen verilerin analizinde göz ardı edilemez. Modellemeyi, olguyu kendisine konu edinmiş araştırmacılar yapmalıdır. Bu araştırmacılar, veri analizinde yardımcı olacak istatistikçiler ile ortak dil kurup işbirliği yapmalıdır. Bir istatistikçi, bir veriyi alıp aklının estiği gibi bir istatistik paket programından geçirip kafadan sonuç çıkarmamalı. Đstatistikçi olmayan bir araştırmacı da bilgisayar hakimiyetine güvenerek istatistik paket programlarının menülerinde bulunan kutucukları bir istatistikçiye danışmadan tıklatmamalı. X 1 , X 2 ,..., X n örnekleminin kendisine ve fonksiyonlarına istatistik dendiğini, istatistiklerin de dağılımlarının olduğunu biliyoruz. Alışılagelmiş olarak x1, x2 ,..., xn verisine ve işlemler sonucu elde edilenlere de istatistik denmektedir. O kadar ki, “istatistikler” dendiğinde, istatistiklerin kendileri değil aldığı değerler anlaşılmaktadır. Futbol oyununda gol sayısı çok önemli bir özelliktir. Bu özellik bir rasgele değişkendir. Belli bir takım için gol sayısının beklenen değeri (ortalaması), varyansı, olasılık dağılımı söz konusudur. Beklenen değeri bir parametre, tahmin edicisi bir istatistik, 50 karşılaşmada atılan gol sayıları veri, ortalamaları beklenen değer için bir tahmin. Đstatistik dili buna benzer bir şey. O zaman 4:1 biten Beşiktaş-Kasımpaşa maçındaki gol sayıları nedir? Merkez Bankası, gazeteler, televizyonlar tarafından yayınlanan “rakam” dedikleri sayılar nedir? Ne olduklarını istatistikçiler biliyor, onlar da biliyordur, sonuçları yorumlayabildiklerine göre. Zamanımız için söylenen: “Bir toplumun kalkınmışlık düzeyi o toplumun istatistik bilgi düzeyi ile ölçülür” sözünü hatırlatalım ve bu bilgi düzeyinin sağlanmasındaki eğitim sorumluluğunun istatistikçilere düştüğünü belirtelim. Bir x1, x2 ,..., xn verisi örneklemede kullanılan yönteme bağlı olarak analiz edilip istatistiksel sonuç çıkarım yapılmalıdır. Bir özellik incelendiğinde x1, x2 ,..., xn verisi n tane değer (sayı, sembol, karakter,..) olmak üzere, bu veriye Bir Boyutlu Veri veya Bir Değişkenli Veri denmektedir. Birden çok özellik birlikte ele alındığında veriye Çok Boyutlu Veri veya Çok Değişkenli Veri denmektedir. Bir stokastik sürecin bir kez gerçekleşmesindeki yörüngenin analog olarak gözlenmesi ile ilgili veri bir grafik, dijital gözlemlemede bir sayı dizisidir (daha doğrusu dizi parçasıdır). Zaman serilerinde veri sadece bir yörüngenin gözlem değerlerinden oluşmaktadır. Stokastik süreç ergodik olduğunda bir yörüngenin gözlem verisinden sonuç çıkarım yapılabilir. Stokastik sürecin n kez gerçekleşmesindeki yörüngelerin gözlenmesi sonucu elde edilen veri n tane dizi (dizi parçasıdır). Bir dizideki elemanlar, örneğin vektör zaman serilerinde vektörler, mekânsal süreçlerde matrislerdir. 3. Veri Analizi ve Đlkeler Her veri (data, gözlemler) belli bir amaç için elde edilir. Veri, amaca yönelik bilginin dışında başka bilgiler de taşıyabilir. Bunlardan da istifade edilebilir. Bazı veriler anbarlarda tutulur. Verinin kendisi bir istatistiktir. Hemen yukarıda söylendiği gibi veri, sayıların (bir boyutlu veri), vektörlerin (çok boyutlu veri), matrislerin (görüntü analizi) uzun bir listesini oluşturabilir. Bu veriyi doğrudan yorumlamak zor olabilir. Araştırmanın amacına bağlı olarak verinin taşıdığı bilgi bazı istatistikler (örneklem ortalaması, örneklem varyansı, örneklem ortancası, frekans tablosu, histogram,…) tarafından özetleniyor olabilir. Her istatistik bir veri indirgemesi yapmaktadır. Araştırmacı verinin tümü yerine sadece bazı istatistiklerin aldığı değerleri kullanabilir. Bir veri üzerinde yapılan işlemlere betimleme denmektedir. Ancak, betimlemeler bazı istatistiklerin veriye dayalı olarak aldığı değerlerdir. Örneğin örnek ortalaması, verinin bir betimlemesidir diyoruz. Belki betimleme ile betimlenme (verinin betimlenmesi) sözcüklerini ayrı kullanmalıyız. Dilcilere danışmak gerekiyor. Frekans Tablosu bir betimlemedir. Frekans tabloları çok kullanılan ve çok yayınlanan istatistiklerdir. Belli bir kitleden örnekleme ile seçilen bir yaşındaki 60 tane çocuğun kg cinsinden ağırlıkları aşağıdaki gibi gözlenmiş olsun. 11,70 11,23 9,97 10,79 11,70 9,78 8,98 11,57 8,76 10,66 13,11 10,70 11,07 11,21 10,51 9,01 10,28 10,42 10,03 12,54 9,85 9,60 9,84 10,59 11,14 9,91 9,87 10,74 10,95 9,24 10,49 12,28 9,62 8,23 10,24 10,71 9,65 9,56 10,76 9,52 9,20 9,81 9,77 9,87 7,81 10,35 12,16 9,06 11,56 10,19 10,08 9,21 10,69 9,91 10,76 10,17 11,13 9,10 8,38 9,55 Bu gözlemler içinde en büyüğü 13,11 en küçüğü 7,81 dır. Gözlemleri, sınıf genişliği 1 kğ olan 7 sınıfta aşağıdaki gibi sınıflandırabiliriz. Sınıflar Sınıf Ortası 7,00- 8,00 8,00- 9,00 9,00-10,00 10.00-11,00 11,00-12,00 12,00-13,00 13,00-14,00 7.5 8.5 9.5 10.5 11.5 12.5 13.5 Frekans Eklemeli Frekans 1 1 4 5 22 27 20 47 9 56 3 59 1 60 Bazı istatistikler ve aldığı değerler: n Ortalama Ortanca Standart sapma 60 10,26 10,19 1,05 Minimum 7,81 Maximum 13,11 Yatay eksende sınıf sınırları, düşey eksende frekanslar olmak üzere her sınıfın üstüne tabanı sınıf aralığı ve yüksekliği sınıf frekansı olan dikdörtgenler çizilmesiyle aşağıdaki gibi bir grafiğe Histogram denir. Histogram’lar, verilerin hangi aralıklarda hangi sıklıklarla gözlendiğini göstermektedir ve ölçüm yapılan özelliğe karşılık gelen rasgele değişkenin alabileceği değerler ile bunların “yoğunlukları” hakkında bilgi vermektedir. Histogramlar rasgele değişkenlerin olasılık yoğunluk fonksiyonlarının biçimleri hakkında bilgi vermektedir. Histogram Frequency 20 10 0 7,5 8,5 9,5 10,5 11,5 12,5 13,5 Agirlik Nokta Diyagramı 8 9 10 11 12 13 Agirlik Dal-Yaprak Diyagramı 7 8 9 10 11 12 13 8 2379 0012225556667788888999 00112234455667777779 011225577 125 1 Kutu Çiziti 8 9 10 11 Agirlik 12 13 Görüldüğü gibi, bir yaşındaki çocukların ağırlığı ile ilgili bir veri üzerinde birçok betimleme yapılabilir. Đstatistiksel paket programlar sayesinde bunu yapmanın çok kolaylaştığını da biliyorsunuz. Bir yaşındaki çocukların ağırlıkları kimleri, niçin ve hangi yönleri ile ilgilendirmektedir? Đstatistikçileri pek ilgilendirmez. Hele çocuğu yoksa. Yine de biraz fikir yürütelim. Çocuk doktorları, hemşireler, diyetisyenler meslek gereği bir yaşındaki çocukların ağırlıkları ile ilgilenir. Ağırlığın nesi ile ilgilenir? Belki, hangi değerler arasında olması gerektiği, dağılışı, çocukların %99‘unun ağırlığı hangi değerin altında, bir yaşında bir çocuğun ortalama ağırlığı nedir gibi şeylerle ilgileniyor olabilirler. Đstatistik diliyle ifade edersek, bir yaşındaki çocukların ağırlığının “dağılımı, ortalaması, varyansı, yüzdelikleri, çarpıklığı, basıklığı, değişim katsayısı” gibi şeyler onları ilgilendiriyor olabilir. Çocukların kümesine kitle ve çocuklara da birim dendiğini Örnekleme dersinden biliyoruz. Genellikle araştırmalardaki gözlemler, kitlelerden rasgele çekilen birimlerin oluşturduğu örnekler üzerinde yapılır. Bazen de kitledeki tüm birimler üzerinde gözlem yapılır, yani sayım yapılır. Kitle ve Birim kavramları sanıldığı kadar kolay kavramlar değildir. Bir yaşında bir çocuk demek doğduktan sonra doğum gününe ulaşmış bir çocuk olmak üzere, böyle çocukların (birimlerin) kitlesi her gün değişen bir kümedir. Kitleyi, 2017 yılı Konya doğumlu çocuklar olarak belirlesek ve Nüfus Đdare Sisteminden doğan çocukların listesini (çerçeve) alıp, aralarından rasgele bir örnek seçip, doğum günlerinde bu çocukların ağırlıklarını ölçmeyi düşünsek verilerin toplanması ne zaman başlar ne zaman biter? Liste Nüfus Đdare Sisteminden ne zaman alınacaktır? Örnek hacmi ne olacak? Örnek ne zaman çekilecek? Böyle bir araştırmanın maliyeti ne olacak? Kim yapar? Kimler yaptırır? Kim destekler? Neye yarar? Anneler çocuklarını ilk aylarda daha sık olmak üzere, belli aralıklarla muayeneye götürürler. Gözlenen birçok özelliğin içinde bir tanesi de çocuğun ağırlığıdır. Belli bir yaştaki, örneğin bir yaşındaki bir çocuğun ağırlığının normal olup olmadığı, yani kilolu olup olmadığı nasıl söylenmektedir? Araştırmalar sonucunda hazırlanan ve hemşirelerin elinde bulunan çizelgelere bakarak mı? Yoksa göz kararı mı? Bir yaşındaki bir çocuğun ağırlığı, boyu, zekâsı, yürümesi, konuşması “normal” midir? Nasıl karar verilmektedir? Bu soruların muhatabının Đstatistikçiler olmadığı apaçık ortadadır. Đstatistik bilimi açısından ağırlık verisi ile zekâ verisi arasında bir fark yoktur. Farklı yöntemlerle elde edilen bu iki veri aynı istatistik yöntemle analiz edilebilir. Đstatistiğin kendi kavramları, yöntemleri ve ilkeleri vardır. Dört yıl boyunca Đstatistik Bölümü Lisans Öğrencileri bunların büyük bir kısmını öğrenmektedir. Parametrik istatistiksel sonuç çıkarım ile ilgili veri analizinde aşağıdaki ilkelere bağlı kalındığında: 1) Yeterlilik Đlkesi (Sufficiency Principle) verileri özetlerken, θ hakkındaki bilgiyi kaybetmeyecek şekilde bir veri indirgeme (istatistik) sunmaktadır. 2) Olabilirlik Đlkesi (Likelihood Principle) θ hakkında örneklemden elde edilecek tüm bilgiyi içeren, gözlem verilerinin belirlediği, parametreye bağlı bir fonksiyon (olabilirlik fonksiyonu) ortaya koymaktadır. 3) Eşdeğişim Đlkesi (Equivariance Principle) modelin bazı önemli özelliklerini değişmez bırakan bir veri indirgeme sunmaktadır. Đstatistiksel davranışlar ile ilgili öne sürülen ilkesel gerekçeler arasında Olabilrlik Đlkesi (Likelihood Principle) en basit ve en derin içerikli olanıdır. Olabilirlik Đlkesinin başlı başına bir ilke olarak gelişmesi büyük ölçüde R.A.Fisher′in 1920′li yıllardaki fikirlerine dayanmaktadır. Olabilirlik Đlkesi esasında, bilinmeyen bir θ parametresi için bir deneyden elde edilebilecek tüm delilin (kanıtın), verilen gözlem için θ ‘nın olabilirlik fonksiyonunda içerildiğini ifade etmektedir. Eşdeğişim Đlkesi, Ölçüm Eşdeğişimi (Measurement Equivariance) ve Biçimsel Eşdeğişim (Formal Equivariance) olarak ele alınmaktadır. Ölçüm Eşdeğişimi, sonuç çıkarımın ölçekten bağımsız olması gerektiğini söylemektedir. Buradaki ölçek (scale) sözcüğü, gerçek dünyada rasgelelik olgusu içeren bir özelliğin (cinsiyet, boy uzunluğu, sıcaklık, buğday verimi) ölçülmesinde kullanılan birimi ifade etmektedir. Örneğin cinsiyetin 0 yada 1 veya 1 yada 2, boy uzunluğunun cm veya m, sıcaklığın ⁰C veya ⁰F, buğday veriminin kg/m² veya ton/dekar gibi farklı ölçeklerde ölçülmesi sonuç çıkarımı etkilememelidir. Biçimsel Eşdeğişim, esasında Biçimsel Değişmezlik (Formal Đnvariance) olmak üzere, sonuç çıkarım probleminin matematiksel model açısından aynı biçimsel yapıda olması durumunda her iki problemde de aynı çıkarım sürecinin kullanılması gerektiğini ifade etmektedir. (Casella ve Berger, 2002) Yukarıdaki örnekte olduğu gibi, bir yaşındaki çocukların ağırlıkları ile ilgili bir dağılım (model) varsayımı söz konusu olmadığında da sonuç çıkarımın ölçekten bağımsız olması gerekir. Ölçüm Eşdeğişimi, yani sonuç-çıkarımın ölçek değişikliğinden etkilenmemesinin gerekçesi sezgisel olarak kolay kavranmakta ve kabul görmektedir. Dağılım varsayımsız başlayan bir veri analizi sonuç çıkarım ile sonuçlanabilir. Keşfedici Veri Analizi olarak adlandırılan böyle bir analiz, neticede model aracılığı ile sonuç çıkarım aşamasına varabilir. 4. Bir Boyutlu Verilerin Analizi Bir Boyutlu Veri: Kitle Dağılımı Đçin Sonuç Çıkarım fikri öztürk/web sayfası/ist402.html (2.Ders) Bir Boyutlu veriler için serpilme çiziti, histogram ve frekans poligonu Histogram -1891 yılı- Karl Pearson 1 0.5 0 -0.5 -1 -3 -2 -1 0 1 2 3 -2 -1 0 1 2 3 15 10 5 0 -3 Hatırlatma: Kutu Çiziti Tukey tarafında belirtildiği gibi kutu çizitleri, beş tane istatistik değeri ile verilerin görsel bir betimlemedir. Bu beş istatistik; ortanca (median) alt ve üst menteşeler (hinges) ile uç değerlerdir. Kutu çizitlerinin çok değişik biçimleri söz konusudur. En yaygın olarak kutu-ve-bıyıklar çiziti (Box-and-Whiskers-Diagram) kullanılır. Kutunun iki kenarı, birinci ve üçüncü çeyreklik ( Q1, Q3 menteşe) ve içindeki çizgi ortanca ( Q2 , merkez) değerinde olmak üzere, kutu dışındaki çizgiler (wishkers, bıyıklar) değerlerin en uç olanlarına kadar uzanmaktadır. Sıradışı gözlemlerin (outlier), küçük değerlerde Q1 − 1.5(Q3 − Q1 ) (lower fence) değerinden küçük olan gözlemler ve büyük tarafta Q3 + 1.5(Q3 − Q1 ) (upper fence) değerinden büyük olan gözlemler olarak tanımlanması durumunda bıyıklar, sıra dışı gözlemlerin varlığında, sıra dışı gözlemlerin kutu tarafında kalan uç gözlemlere kadar uzar. Bıyıklar en küçük değer ile en büyük değerin ötesine uzanmaz. Not:lower fence= Q2 + 4(Q1 − Q2 ) , upper fence= Q2 + 4(Q3 − Q2 ) olarak tanımlanan kutu çizitleri de var. Boxplot with whiskers from minimum to maximum Boxplot and a probability density function (pdf) of a Normal N(0,1σ2) Population Same Boxplot with whiskers with maximum 1.5 IQR 5. Çok Boyutlu Verilerin Analizi Veri: Boy ölçüleri (boy-kol-omuz-kalça-bacak uzunluğu) Ölçü birimi: cm boy kol omuz 184 163 183 160 166 165 162 191 178 195 187 185 177 174 175 181 188 180 178 178 167 168 180 180 177 186 163 155 171 155 156 167 165 168 178 186 185 160 77 66 73 86 74 91 84 80 76 78 82 81 75 74 75 77 81 80 74 76 71 68 78 79 74 80 68 65 75 68 70 80 72 71 75 83 79 70 98 72 99 70 91 78 72 105 95 110 107 106 92 90 93 93 117 97 96 96 97 90 97 99 95 101 103 84 90 84 86 100 85 85 97 103 100 95 kalca bacak 120 90 113 95 105 100 110 140 97 110 107 113 124 111 111 117 105 120 103 114 99 96 109 121 111 115 98 93 110 85 95 97 100 116 128 120 103 95 114 97 91 102 98 100 115 117 92 100 101 94 104 104 100 105 113 107 96 101 90 100 102 109 108 99 89 90 90 98 87 95 93 105 111 109 119 94 Matlab Minitab Covariances: boy; kol; omuz; kalca; bacak boy kol omuz kalca bacak boy 115,5228 27,5747 83,9331 85,7852 44,1046 kol omuz 32,3215 8,5619 24,6102 22,8663 105,5021 48,4367 13,8137 kalca bacak 133,7383 57,6003 70,3506 Correlations: boy; kol; omuz; kalca; bacak boy 0,451 kol kol omuz omuz 0,760 0,147 kalca 0,690 0,374 0,408 bacak 0,489 0,480 0,160 kalca 0,594 Matrix Plot of boy; kol; omuz; kalca; bacak 70 80 90 100 120 140 200 175 boy 150 90 80 kol 70 120 100 omuz 80 140 120 kalca 100 120 105 bacak 90 150 175 200 80 100 120 90 105 120 S-PLUS *** Summary Statistics for data in: Min: 1st Qu.: Mean: Median: 3rd Qu.: Max: Variance: *** V1 155.0000 165.2500 174.1316 177.0000 182.5000 195.0000 115.5228 Veri3Ders *** V2 V3 V4 65.00000 70.00000 85.0000 72.25000 90.00000 98.2500 75.94737 93.89474 107.7895 75.50000 95.50000 109.5000 80.00000 99.75000 114.7500 91.00000 117.00000 140.0000 32.32148 105.50213 133.7383 Covariances for data in: V5 87.00000 94.25000 101.02632 100.00000 106.50000 119.00000 70.35064 Veri3Ders *** V1 V2 V3 V4 V5 V1 115.52276 27.574680 83.933144 85.78521 44.10455 V2 27.57468 32.321479 8.561878 24.61024 22.86629 V3 83.93314 8.561878 105.502134 48.43670 13.81366 V4 85.78521 24.610242 48.436700 133.73826 57.60028 V5 44.10455 22.866287 13.813656 57.60028 70.35064 *** V1 V2 V3 V4 V5 Correlations for data in: V1 1.0000000 0.4512644 0.7602722 0.6901616 0.4892328 V2 0.4512644 1.0000000 0.1466199 0.3743195 0.4795303 60 Veri3Ders *** V3 0.7602722 0.1466199 1.0000000 0.4077708 0.1603408 70 80 V4 0.6901616 0.3743195 0.4077708 1.0000000 0.5938309 V5 0.4892328 0.4795303 0.1603408 0.5938309 1.0000000 90 80 90 100 110 120 130 140 190 180 V1 170 160 150 90 80 V2 70 60 120 110 100 90 80 70 60 V3 140 130 120 110 100 90 80 V4 120 110 V5 100 90 80 150 160 170 180 190 60 70 80 90 100 110 120 80 90 100 110 120 Veri: Ders Notları > # Kitle:isim_listesi, örneğe çıkan isimler: isimler=sample(isim_listesi, 12) > isimler=c("Gül","Yaprak","Đrem","Merve","Esin","Emre","Hasan","Ali","Mert","Ahmet","Mehmet","Can") #örnek > matnotu=c(67,75,50,30,92,95,35,80,60,15,25,5) > fiziknotu=c(85,70,60,20,100,90,25,80,25,20,20,15) > biyoloji=c(60,65,50,100,90,90,25,70,70,35,95,25) > tarih=c(55,65,75,50,85,95,60,70,80,50,90,60) > veri = data.frame(isimler,matnotu,fiziknotu,biyoloji,tarih) > veri isimler matnotu fiziknotu biyoloji tarih 1 Gül 67 85 60 55 2 Yaprak 75 70 65 65 3 Đrem 50 60 50 75 4 Merve 30 20 100 50 5 Esin 92 100 90 85 6 Emre 95 90 90 95 7 Hasan 35 25 25 60 8 Ali 80 80 70 70 9 Mert 60 25 70 80 10 Ahmet 15 20 35 50 11 Mehmet 25 20 95 90 12 Can 5 15 25 60 > cor(matnotu,biyoloji) [1] 0.484752 > cor(veri$matnotu,veri$biyoloji) [1] 0.484752 > cor(matnotu,fiziknotu) [1] 0.9083283 > X=matrix(cbind(matnotu,fiziknotu,biyoloji,tarih),ncol=4) >X [1,] [2,] [3,] [4,] [5,] [6,] [7,] [8,] [9,] [10,] [11,] [12,] [,1] [,2] [,3] 67 85 60 75 70 65 50 60 50 30 20 100 92 100 90 95 90 90 35 25 25 80 80 70 60 25 70 15 20 35 25 20 95 5 15 25 > boxplot(X) [,4] 55 65 75 50 85 95 60 70 80 50 90 60 Đki Boyutlu Veri Çubuk Grafiği: Çubuk grafikleri, isimlendirme (nominal), sıralama (ordinal) , oran, aralık ölçme düzeyinde gözlenen ve kitle dağılımı kesikli olan verilere uygulanır. Đki boyutlu veriler için çubuk grafiği, üç boyutlu bir koordinat sisteminde, yatay düzlemde veriler için hazırlanan çapraz tablo ve düşey eksende göze frekansları olacak şekilde kolayca görüntülenebilir. Aşağıdaki çapraz tablo için çubuk grafiği (d) ’dedir. (a) 0 1 2 3 (b) 4 400 0 8 1 2 17 8 0 0 33 33 56 48 11 2 150 85 122 81 28 7 323 3 69 137 76 21 2 305 4 43 62 42 13 0 160 5 8 11 9 1 0 29 246 405 264 74 11 1000 (c) 300 200 100 0 ,00 1,00 2,00 3,00 4,00 5,00 (d) 500 400 300 140 200 120 100 100 80 60 0 ,00 1,00 2,00 3,00 40 4,00 0 20 0 0 1 4 2 3 4 3 2 5 Histogram:Histogramlar, aralık ile oran ölçme düzeyinde (interval level of measurement, ratio level of measurement) gözlenen ve kitle dağılımı sürekli olan verilere uygulanır. Bir boyutlu verilerde histogram; sınıf aralıkları üzerinde yükseklikleri o sınıfın frekansı olan bitişik dikdörtgenlerden oluşmaktadır. Đki boyutlu veriler için histogram; tabanda eşit uzunluklu sınıf aralıklarının kartezyen çarpımı olan dikdörtgenler üzerinde, yükseklikleri o dikdörtgenin frekansı olan prizmalardan oluşturulabilir. Bu prizmaların üst yüzeylerinin konumları görsel etkiyi yaratmaktadır. n = 1000 birimlik iki boyutlu (değişkenli) bir veri için serpilme diyagramı (a)‘da, SPSS de çizilen histogram (d)‘dedir. Diğer iki histogram bireysel değişkenlerin marjinal dağılımlar hakkında fikir vermektedirler. Minitab 3,00 100 2,00 1,00 80 0,00 60 -1,00 40 -2,00 -3,00 20 -4,00 -3,00 -2,00 -1,00 0,00 1,00 2,00 3,00 100 80 60 40 20 0 -3,00 -2,00 -1,00 0,00 1,00 2,00 3,00 4,00 4,00 (a) (c) (b) (d) 0 -4,00 -3,00 -2,00 -1,00 0,00 1,00 2,00 3,00 Matlab Serpilme diyagramı Đki boyutlu veri için histogram cizimi >>plot(veri(:,1),veri(:,2),'.') (iki değişkenli dağılımdan alınan veri) >> veri=[ ];hist3(veri) 4 3 2 1 0 -1 -2 -3 -4 -3 -2 -1 0 1 2 3 4 Bir Matlab Programı ve Çıktıları n=1000; veri=randn(2,n); figure;plot(veri(1,:),veri(2,:),'.') [frx,sx]=hist(veri(1,:),15); [fry,sy]=hist(veri(2,:),15); for i=1:15 for j=1:15 x1=sx(i)-(sx(2)-sx(1))/2 ; x2=sx(i)+(sx(2)-sx(1))/2 ; y1=sy(j)-(sy(2)-sy(1))/2 ; y2=sy(j)+(sy(2)-sy(1))/2 ; frekans=0; for ii=1:n if veri(1,ii)<x2 if veri(1,ii)>=x1 if veri(2,ii)<y2 if veri(2,ii)>=y1 frekans=frekans+1; end,end,end,end end frpolig(i,j)=frekans; x=[x1 x2]; y=[y1 y2]; meshgrid(x,y); z=frekans*ones(2,2); mesh(y,x,z); hold on end,end figure;meshgrid(sx,sy);mesh(sy,sx,frpolig); 4 3 2 1 30 30 25 25 20 20 15 15 10 0 10 5 -1 5 0 4 -2 2 4 2 0 0 -2 -3 -2 -4 -4 0 4 2 0 0 -2 -2 -4 -4 -3 -2 -1 0 1 2 3 4 -4 Üç Boyutlu Serpilme (Saçılım) Grafikleri 3D Scatterplot of boy vs kol vs bacak 3D Scatterplot of kol vs omuz vs kalca 90 190 180 boy k ol 80 170 70 160 120 90 80 90 100 bacak 70 110 100 kol 120 100 80 120 k alca omuz 140 Çok Boyutlu (Değişkenli) Veri Analizi fikri öztürk/web sayfası/ist402.html (3.Ders) Tablolar: Hazırlama ve Analiz fikri öztürk/web sayfası/ist402.html (4.Ders) Veri Đndirgeme, Kümeleme Analizi, Diskriminant Analizi fikri öztürk/web sayfası/ist402.html (12.Ders) 6. Veri Merkezi, Derinlikler ve Uygulamaları Bir boyutlu veri analizinde birçok istatistik esasında sıra istatistiklerinin bir fonksiyonudur. Bir boyutlu dağılımlar reel sayıların Borel cebiri üzerinde olup, reel sayılardaki sıralama doğal olarak sıra istatistiklerini ortaya çıkarmaktadır. Çok boyutlu dağılımlarda, bir boyutlu dağılımlarda olduğu gibi sıra istatistiği tanımlamak mümkün olmamakla birlikte, konkominantlar veya çok boyutlu verilerin bulunduğu Euclide uzayındaki normlara dayalı bazı sıra istatistikleri tanımlanabilmektedir. Son yıllarda çok boyutlu veriler için oluşturulan derinlik ve merkez kavramlarına dayalı olarak tanımlanan sıra istatistikleri, bir boyutlu sıra istatistiklerine benzer biçimde bazı işler görebilmektedir. Bir boyutlu veri için ortanca sıra istatistiklerine dayalı bir kavram olmak üzere, veri kümesinin merkezi olarak da adlandırılabilir. Merkez noktasına (ortancaya) ulaşmak için izlenebilecek bir yol aşağıdaki serpilme çizitinde görüldüğü gibidir. Her iki uçtaki iki değer atılır (veri soyulur) ve böyle devam edilerek en sonunda bir nokta kalmışsa bu merkezdir, iki nokta kalmışsa buların ortalaması merkezdir (ortancadır). ortalama * * * ** * * * * * * * * * * * ** * * * * * * * * * ** * * * * * * * ** * * * * * * * * ** * * * ** * ** m Ortanca gibi ortalama da bir veri kümesi için merkez olarak adlandırılabilir. Đki boyutlu veri için merkez kavramı: * * * * * * * * * * * * * * * * * * *m * * * * * * * * * * * * * * * * * * * Çok boyutlu verilerde sıralama yapılamadığı için sıra istatistiklerine dayalı ortanca da söz konusu değildir. Bir boyutlu veride yapıldığı gibi “dıştaki” verileri soya soya en son kalan tek noktaya veya en son kalan iki yada üç noktanın ortalamasına merkez diyebiliriz. Derinlik kavramı Bir boyutlu olasılık dağılımlarında uçlardaki noktalardan ortancaya doğru gittikçe, dağılımda daha derine doğru gidiyoruz sezgisine dayalı olarak bir derinlik kavramı tanımlanabilir. Örneğin, yüzdeliği (quantile) k olan bir noktanın derinliği 0.5 − 0.5 − k olarak tanımlanırsa, böyle bir derinlik kavramı için birinci çeyreklik ile üçüncü çeyreklik aynı derinliğe sahip ve en derin nokta ortanca olacaktır. En derin noktaya merkez denirse, derinlik kavramına dayalı olarak bir merkez kavramı tanımlanmış olur. x ∈ R verilen bir nokta ve F , d boyutlu dağılım fonksiyonu olmak üzere, x noktasının d d X rasgele vektörünün R de tanımlı F nin “merkezine” yakınlığının bir ölçüsü derinlik kavramına dayanılarak yapılabilir. Bunun örneklem karşılığı, x ∈R d noktasının, X1 , X2 ,..., X n gözlem kümesinin (bulutunun) merkezine yakınlığının ölçüsü olarak ifade edilebilir. Mahalanobis Derinliği (Mahalanobis Depth): F , d boyutlu X rasgele vektörüne ait dağılım fonksiyonu, µF ortalama (beklenen değer) vektörü, Σ F varyans kovaryans matrisi ve x ∈ R d bir nokta olmak üzere, MD( F ; x) = 1+ ( x − µ )′Σ−1( x − µ ) F F F −1 değerine x noktasının F dağılım fonksiyonuna göre Mahalanobis derinliği denir. Mahalanobis derinliğinin örneklem karşılığı, µF yerine X örneklem ortalaması ve Σ F yerine S 2 örneklem varyans kovaryans matrisinin konulmasıyla, MDˆ ( F ; x) = 1+ ( x − X )′(S 2 )−1( x − X ) −1 şeklinde yazılır. Yarı Uzay Derinliği (Half-space Depth): x ∈ R d noktasının F dağılımına göre yarı düzlem derinliği, HD(F; x) = inf P(H ): H , Rd de x 'i içeren kapalı bir yarı hiperdüzlem H olarak tanımlanır. Yarı uzay derinliğinin örneklem karşılığı, { s{X i ; X i ∈ H} HDˆ (F ; x) = inf ; H , Rd de x i içeren kapalı bir yarı hiperdüzlem H n biçimindedir. (s(A), A kümesinin eleman sayısını göstermektedir.) } Simpleks Derinliği (Simplicial Depth): x ∈ R d noktasının F dağılım fonksiyonuna göre simpleks derinliği, SD ( F ; x) = P x ∈ S X , X , ..., X d +1 1 2 olarak tanımlanır. Burada X1 , X2 , ..., X d +1 ‘ler F dağılımından alınan d + 1 tane rasgele nokta (vektör) ve S [X1 , X2 ,..., X d +1 ], köşeleri bu noktalar olan bir simplekstir. Bilindiği gibi R2 ’de simpleksler üçgenlerdir. Simpleks derinliğinin örneklem karşılığı, SDˆ ( F ; x) = n d +1 −1 ∑ I S X ,X ,⋯, X ( x) 1 2 d +1 şeklindedir. Burada, I gösterge fonksiyonu olup, toplam X1 , X2 ,..., X n örneklemindeki n tane noktanın (vektörün) simpleks oluşturan d + 1 ‘li kombinasyonları üzerinden yapılmaktadır. Konveks Katman Derinliği (Convex Hull Peeling Depth): Çok değişkenli dağılımdan alınan gözlem değerlerini içeren en küçük konveks küme bir çokyüzlü olmak üzere, bu konveks kümenin köşe noktaları eldeki gözlemlerin birinci katmanı, ilk katman gözlemleri kaldırılıp geriye kalan gözlemlerin birinci katmanı gözlemler için ikinci katman olarak adlandırılsın ve takip eden katmanlarda aynı şekilde oluşturulsun. Buna göre X1 , X2 ,..., X n örneğinde X k noktasının bu veri kümesine göre derinliği, X k noktasının dahil olduğu katmanın düzeyi (katman sıra sayısı), olarak adlandırılır. Gözlemin, dahil olduğu katman sıra sayısı büyüdükçe derinliği artıyor demektir. Burada katmanların oluşumu da bir soğanın katlarına benzetilebilir. Sadece örneklem için düşünülen bu derinliğin sürekli kitle dağılımları için karşılığı tanımsızdır. Olabilirlik Derinliği (Likelihood Depth): x ∈ R d noktasının F dağılım fonksiyonuna göre olabilirlik derinliği, eğer rasgele vektör f olasılık yoğunluk fonksiyonuna sahipse, LD(F; x) = f (x) olarak tanımlanır. Olabilirlik derinliğinin örneklem karşılığı ise olasılık yoğunluk fonksiyonunun uygun herhangi bir fˆ tahmini yardımıyla, ˆ (F; x) = fˆ (x) LD olarak tanımlanır. Çok boyutlu veriler için doğal bir sıralama söz konusu olmamakla birlikte, yukarıda tanımlanan derinlik ölçüleri, gözlemleri dağılımın merkezinden dışarıya doğru sıralamaktadır. Bu derinlik ölçülerinin bazılarında derinlik değerleri [0,1] aralığındadır. Derinliği en büyük olan noktaya derinlik merkezi ya da kısaca merkez denir. En büyük derinliğe sahip birden çok nokta bulunduğunda bunların ortalaması merkez olarak alınmaktadır. Derinlik sıralamasında, eşderinlikli gözlemlerin olması halinde sıra istatistiklerinde olduğu gibi işlem yapılmaz; aynı derinliğe sahip olan gözlemlere birbirlerini takip eden derinlik sıra numarası verilir (gözlem sayısı kadar derinlik sıra numarası söz konusudur). D ( F ; x ) herhangi bir derinlik ölçüsü olmak üzere, t ∈ [0,1] için {x : D ( F ; x ) = t} kümesine t derinlikli kontur veya seviye kümesi denir. R(t ) = {x : D( F ; x) > t} kümesi t derinlikli kontur ile çevrili bölge olmak üzere, C p = ∩{R(t ): P( R(t )) ≥ p} t kümesine p. merkezi bölge denir. Bunun Ĉ p örneklem karşılığı, np tamsayı olduğunda np tane, olmadığında np + 1 tane en derin gözlemi kapsayan en küçük konveks kümedir. Đki değişkenli standart normal dağılımdan alınan 500 birimlik bir örneklemde p = 0.25 , 0.50 , 0.75 , 0.90 için simpleks derinliğine dayalı merkezi bölgelerini çevreleyen derinlik konturları aşağıda solda ve iki değişkenli bir üstel dağılım için aynı konturlar sağda görünmektedir. (Liu, Regina Y., Parelius, J. M., and Singh, K.(1999). Multivariate analysis by data depth: Descriptive statistics, graphics and inference(with dicussions), The Annals of Statistics, Vol. 27, No. 3, 783-858). Çanta Çiziti Verilerin genellikle normal dağılım ile modellendiği ve iki boyutlu normal dağılımlarda güven bölgelerinin elipsler olduğu göz önüne alınırsa, elipslerin bir boyuttaki kutuların yerine kullanılması doğal görünmektedir. Verilerin %50 ‘sini içeren ve içte olan bir elips menteşe (hinge) ve sıradışı değerleri ayırd eden dıştaki elips çit (fence) vazifesini görebilir. Bu elipslerin oluşturulması bir tarafa, eliptik olmayan dağılımlar için uygun olmayacakları ortadadır. Eliptik olmayan dağılımlar için tek parçalı elips yerine, dört farklı elipsin parçalarından oluşan menteşe ve çit önerilmektedir. Aşağıda, Goldberg ve Iglewicz (1992) tarafından sunulan, elips çiziti (robust elliptic plot, relplot) ile dört elips parçasından oluşan çizit (quarter elliptic plot, quelplot) özetlenmektedir. Đki değişkenli dağılımlarda verilerin %50 sinin bulunduğu ve bir değişkenlide kutuya karşılık gelen bölgeye çanta denir. Böylece, kutu çizitinin karşılığı da çanta çiziti olmaktadır. Normal dağılıma sahip olan iki boyutlu ( X , Y ) rasgele vektörünün dağılımı, değişkenlerin ortalamaları ( µ X , µ Y ), standart sapmaları ( σ X , σ Y ) ve aralarındaki korelasyon katsayısı ( ρ ) gibi beş parametre ile belirlenebilir. Bunların örneklem karşılıkları ( X , Y , S X , SY , R ) bu parametreler için tahmin ediciler olmak üzere, örneğin uç değerlere karşı dirençli (robust) olan başka tahmin ediciler de düşünülebilir. Bir boyutlu normal dağılımda, ortalama aynı zamanda konum (location) ve standart sapma aynı zamanda ölçek (scale) parametresidir. Goldberg ve Iglewicz (1992) elips çizitini (relplot) aşağıdaki gibi oluşturmaktadır. Bir ( X , Y ) rasgele vektörünün marjinal dağılımlarının merkezi eğilim ve yayılım ölçüleri ile değişkenler arasındaki ilişki katsayısı için birer tahmin edici sırasıyla TX* , TY* , S X* , SY* , R* olsun. i = 1, 2,...n için ( X i , Yi ) gözlemleri, X si = X i − TX* Yi − TY* , Y = si S X* SY* olarak standartlaştırılmakta ve gözlemlerin ( TX* , TY* ) noktasından, X si2 + Ysi2 − 2 R* X si Ysi Ei = , i = 1, 2,...n 1 − R*2 uzaklıkları hesaplanmaktadır. TX* , TY* , S X* , SY* , R* ler sırasıyla örneklem ortalamaları, standart sapmalar ve Pearson korelasyon katsayısı olduğunda Ei uzaklıkları Mahalonobis uzaklıkları olmaktadır. Bu uzaklıkların ortancası Em ve 1 + R* 1 − R* R1 = Em , R2 = Em 2 2 olmak üzere, θ ∈ [0, 2π ] için, X = TX* + ( R1 cos θ + R2 sin θ ) S X* Y = TY* + ( R1 cos θ − R2 sin θ ) SY* olarak elde edilen ( X , Y ) noktaları çantayı belirleyen iç elipsi oluşturmaktadır. Dış elips ile iç elipsin alanları oranı c sabiti olmak üzere, yukarıdaki ifadelerde Em yerine, Emax = max { Ei : Ei2 < cEm2 , i = 1, 2,..., n} alınmasıyla elde edilen ( X , Y ) noktaları çit’i belirleyen dış elipsi oluşturmaktadır. c sabiti ile ilgili olarak, Goldberg ve Iglewicz (1992) bir gözlem için %99 luk bir güven sınırı oluşturmak amacıyla, c = 7 değerini önermektedirler (normal dağılım durumunda, Ei ∼ [2(n − 1) /(n − 2)]F(2,n − 2) olmak üzere, n = 77 için F(2,n − 2;0.99) / F(2,n − 2;0.50) =7 dır). n = 100 birimlik iki boyutlu bir veri için serpilme diyagramı ile çanta çiziti aşağıdaki gibidir. Bu ve aşağıdaki şekillerde eksenler marjinal dağılımlardaki değişkenleri göstermektedir. 4 3 2 1 0 -1 -2 -3 -5 -4 -3 -2 -1 0 1 2 3 4 5 Goldberg ve Iglewicz (1992) dört elips parçasından oluşan çiziti (quelplot) aşağıdaki gibi oluşturmaktadır. TX* , TY* , S X* , SY* , R* yanında, elipsin eksenlerinin pozitif yönündeki artıkların toplam standart sapmasının oranını yansıtan asimetri parametreleri P1 ve P2 de kullanılarak, Z1i = Ysi + X si , 2(1 + R* ) Z 2i = Z1i , Z1i > 0 2P 1 F1i = Z1i , Z1i ≤ 0 2(1 − P1 ) Ei = F12i + F22i Ysi − X si 2(1 − R* ) , Z 2i , Z2i > 0 2P 2 F2 i = Z 2i , Z2i ≤ 0 2(1 − P2 ) i = 1, 2,...n , hesaplanmaktadır. R1 (−1) = 2(1 − P1 ) Em 1 + R* 2 R2 (−1) = 2(1 − P2 ) Em 1 − R* 1 − R* , R2 (+1) = 2 P2 Em 2 2 , R1 (+1) = 2 P1 Em 1 + R* 2 olmak üzere, θ ∈ [0, 2π ] için, X = TX* + [ R1 (sgn(cos θ )) cos θ + R2 (sgn(sin θ )) sin θ ]S *X Y = TY* + [ R1 (sgn(cos θ )) cos θ − R2 (sgn(sin θ )) sin θ ]SY* olarak elde edilen ( X , Y ) noktaları çantayı oluşturmaktadır. Çit’i oluşturmak için yukarıdaki ifadelerde Em yerine Emax kullanılabilir. P1 ve P2 asimetri parametrelerini belirlemek için önerilen yöntemlerden birisi aşağıdaki gibidir. P ( Z − ɵz1 ) , Z1i < ɵz1 Z1'i = 1 1i (1 − P1 )( Z1i − zɵ 1 ) , Z1i ≥ ɵz1 olmak üzere, P1 ile zɵ 1 değerleri, n ∑ Z1'i = 0 , i =1 n ∑Z i =1 '2 1i sgn( Z1i ) = 0 ve P2 ile ɵz 2 değerleri, n ∑ Z 2' i = 0 , i =1 n ∑Z i =1 olacak şekilde belirlenmektedir. '2 2i sgn( Z 2i ) = 0 P ( Z − zɵ 2 ) , Z 2 i < zɵ 2 Z 2' i = 2 2i (1 − P2 )( Z 2i − zɵ 1 ) , Z 2 i ≥ zɵ 2 n = 100 birimlik iki boyutlu bir veri için serpilme diyagramı ile tek elips (mavi çizgi) çanta çiziti ve dört elips parçasından oluşan (kırmızı çizgi) çanta çiziti aşağıdaki gibidir. 6 5 4 3 2 1 0 -1 -2 -4 -3 -2 -1 0 1 2 3 TX* , TY* , S X* , SY* , R* yerine başka istatistiklerin, özellikle konum ve ölçek parametreleri için dirençli (robust) tahmin edicilerin kullanılmasıyla elde edilen çizitler verileri daha iyi bir şekilde betimlemektedir. Bununla ilgili örnekler Goldberg ve Iglewicz (1992) de TX* , TY* yerine, TX = TX* + bulunmaktadır. Örneğin, zɵ 1 − zɵ 2 SX 2 , TY = TY* + zɵ 1 + zɵ 2 SY alınarak 2 çizilen dört elips parçasından oluşan çanta çiziti (yeşil çizgi) diğerlerine göre serpilmeyi daha iyi yansıtmaktadır. 6 5 4 3 2 1 0 -1 -2 -3 -4 -4 -3 -2 -1 0 1 2 3 4 Derinlikler ve Çanta Çizitleri Belli bir derinlik ölçüsüne göre gözlemler dağılımın merkezinden dışarıya doğru sıralansın. Đki boyutlu sıralanmış gözlemlerin merkeze yakın olan %50’sini içeren konveks çokgene çanta denir. Çanta, tek boyutlu verilerin betimlenmesindeki kutunun karşılığıdır. Çanta sınırından bir gözleme olan uzaklık, merkezden çanta sınırına olan uzaklığın 3 katından fazla olduğunda bu gözlem bir sıradışı gözlem olarak nitelendirilir. Böyle bir gözlem, aşağıda merkez ile birleştirilmiş çizginin ucundaki gözlemdir. Çantanın çevre noktalarının merkeze olan uzaklıklarını 3 ile çarpıp merkezden uzaklaştırarak çit (fence) elde edilir. Çitin dışında kalan noktalar sıradışı gözlem olarak nitelendirilir. Sıradışı gözlemler dışındaki gözlemleri içeren en küçük konveks çokgen yastık (bolster) olarak adlandırılır. Katman derinliğine göre çanta, yastık ve bir tane sıra dışı gözlem bulunduran veri aşağıda soldadır. Çanta koyu, etrafındaki yastık daha açık olarak renklendirilir ve çit görüntülenmeyebilir. Sağda %25, %50, %75 derinlikli konturlar (çeyreklik çizgileri) ve %25., %50., %75. merkezi bölgeler yer almaktadır. DD-Çizitleri d üzerinde iki dağılımın dağılım fonksiyonları F , G ve D (.) bir derinlik ölçüsü olmak üzere, DD ( F , G ) = {( D ( F ; x), D (G; x)) : x ∈ R d } kümesinin R 2 deki grafiğine DD-çiziti denir. Bunun örneklem karşılığı, R ˆ ˆ ( F , G ) = {( Dˆ ( F ; x ), Dˆ (G ; x )) : x ∈ { X , X , ..., X } ∪ {Y , Y , ..., Y }} DD n m 1 2 1 2 dır. Burada, örneklemdir. { X1, X 2 ,..., X n } kümesi F ‘den ve {Y1, Y2 , ..., Ym } kümesi G den birer DD-çizitleri uyum iyiliği sınamalarında kullanılabilir. ˆ ˆ ( F , G ) = {( Dˆ ( F ; x ), Dˆ (G ; x )) : x ∈ { X , X , ..., X } ∪ {Y , Y , ..., Y }} DD n m 1 2 1 2 ˆ ( F , G ) = {( Dˆ ( F ; x ), D (G ; x )) : x ∈ { X , X , ..., X }} DD n 1 2 DDˆ ( F , G ) = {( D ( F ; x ), Dˆ (G ; x )) : x ∈ {Y1 , Y2 ,..., Ym }} ˆ ˆ ( F , F ) -çiziti Şekil-a, konum olmak üzere, aynı dağılımdan iki örneklem için DD ˆ ˆ ( F , G ) -çiziti Şekil-b, ölçek parametresi farklı olan iki dağılımdan iki örneklem için DD ˆ ˆ ( F , G ) -çiziti Şekil-c ve çarpıklığı farklı olanlar için parametresi farklı olanlar için DD ˆ ˆ ( F , G ) - çiziti Şekil-d deki gibi olabilmektedir DD (Liu, Regina Y., Parelius, J. M., and Singh, K.(1999). Multivariate analysis by data depth: Descriptive statistics, graphics and inference(with dicussions), The Annals of Statistics, Vol. 27, No. 3, 783-858). Şekil-a Şekil-c Şekil-b Şekil-d Bir boyutlu veriler için var olan ve kolayca kavranan histogram ve kutu çiziti gibi betimsel istatistiklerin iki boyutlu verilere genişletilmesi veri analizinde yararlı görsel bilgi elde edilmesini sağlamaktadır. Bir boyutlu veriler için doğal tanımlaması olan sıra istatistiklerinin iki ve daha yüksek boyutlara doğrudan bir genişletilmesi yapılamamakla birlikte, derinlik gibi bazı kavramlar yardımıyla sıra istatistiklerine benzer istatistikler tanımlanabilmektedir. Örnek: >> veri=mvnrnd([10 10],[9 5;5 4],100); >> plot(veri(:,1),veri(:,2),'.') 16 14 12 10 8 6 4 2 4 6 8 10 12 14 16 18 >> ort=mean(veri) ort = 10.2745 10.1257 >> hold on; >> plot(10.2745,10.1257,'*') >> plot(10,10,'*r') 16 14 12 10 8 6 4 2 4 6 8 10 12 14 16 18 % Mahalonobis Uzaklığı: MahUzak = ( x − µ )′Σ −1( x − µ ) >> x=[15 15]; >> MahUzak=(x-[10 10])*pinv([9 5;5 4])*(x-[10 10])' MahUzak = 6.8182 >> x=[10 15]; >> MahUzak =(x-[10 10])*pinv([9 5;5 4])*(x-[10 10])' MahUzak = 20.4545 >> plot(10,15,'*g') >> plot(15,15,'*k') 16 14 12 10 8 6 4 2 4 6 8 10 12 14 16 >> S=cov(veri) S= 9.2736 5.3961 5.3961 4.4133 % Örneklem Mahalonobis Uzaklığı: MahUzak = ( x − X )′( S 2 ) −1( x − X ) >> MahUzak=([10 15]-ort)*pinv(S)*([10 15]-ort)' MahUzak = 19.9073 >> MahUzak =([15 15]-ort)*pinv(S)*([15 15]-ort)' MahUzak = 5.9527 >> mahal([15 15],veri) ans = 5.9527 >> mahal([10 15],veri) ans = 19.9073 18 Mahalonobis Derinliği: [ ] −1 −1 MD(F; x) = 1 + (x − µ )′Σ (x − µ ) F F F 2 −1 −1 MDˆ (F; x) = 1+ (x − X )′ (S ) (x − X ) n −1 X = n ∑ k =1 Xk Sij = n −1 ∑ n k =1 ( Xik − Xi ) ′(X jk − X j ), i, j = 1, 2,..., d S = (Sij )d × d 2 Maholonobis Uzaklığı Mahalonobis Derinlikleri >> MahUz_veri=mahal(veri,veri) >> MD=(1+MahUz_veri).^(-1) MahUz_veri = MD = 3.3952 3.6106 1.8233 5.4402 3.1805 3.9444 1.8636 0.1804 1.3726 5.2415 3.2716 2.9233 0.7596 1.5359 2.5823 0.3746 0.5706 0.5477 1.7172 0.4576 0.3247 1.3427 0.8992 0.3251 2.2077 4.5215 2.0074 2.6146 0.0030 1.0401 4.2399 1.4453 2.2688 2.8379 0.2841 0.2042 4.0870 1.7496 3.3852 0.0372 6.7545 2.4027 1.4359 6.3032 5.8961 0.7443 0.6695 1.9280 6.9909 1.8254 1.3894 0.1189 1.4133 3.3646 1.9743 0.4847 0.3177 0.2275 0.2169 0.3542 0.1553 0.2392 0.2023 0.3492 0.8472 0.4215 0.1602 0.2341 0.2549 0.5683 0.3943 0.2791 0.7275 0.6367 0.6461 0.3680 0.6861 0.7549 0.4269 0.5265 0.7547 0.3118 0.1811 0.3325 0.2767 0.9970 0.4902 0.1908 0.4090 0.3059 0.2606 0.7788 0.8304 0.1966 0.3637 0.2280 0.9641 0.1290 0.2939 0.4105 0.1369 0.1450 0.5733 0.5990 0.3415 0.1251 0.3539 0.4185 0.8937 0.4144 0.2291 0.3362 0.6735 0.7589 >> [MD_sort indis]=sort(MD) MD_sort = indis = 0.0993 0.1124 0.1251 0.1290 0.1369 0.1450 0.1549 0.1553 0.1602 0.1784 0.1811 0.1908 0.1966 0.2023 0.2035 0.2169 0.2275 0.2280 0.2291 0.2337 0.2341 0.2387 0.2392 0.2549 0.2563 0.2606 0.2648 0.2764 0.2767 0.2791 0.2864 0.2939 0.2958 0.3032 0.3059 0.3118 0.3325 0.3362 0.3406 0.3415 0.3492 0.3539 0.3542 0.3637 0.3663 0.3680 0.3943 0.4090 0.4105 0.4106 0.4144 0.4185 0.4215 0.4269 0.4284 0.4294 0.4463 64 93 49 41 44 45 58 4 10 100 26 31 37 6 96 2 1 39 54 68 11 85 5 12 87 34 70 98 28 15 65 42 69 67 33 25 27 55 91 48 7 50 3 38 83 19 14 32 43 61 53 51 9 22 75 74 97 0.1549 0.7423 0.9808 0.4106 0.5059 0.7007 0.0993 0.2864 0.8424 0.3032 0.2337 0.2958 0.2648 0.5960 0.5589 0.6387 0.4294 0.4284 0.9473 0.9564 0.4628 0.7602 0.6114 0.6208 0.9012 0.3663 0.6228 0.2387 0.5108 0.2563 0.7142 0.6845 0.5607 0.3406 0.8633 0.1124 0.6839 0.6225 0.2035 0.4463 0.2764 0.8916 0.1784 5.4553 0.3472 0.0195 1.4353 0.9765 0.4272 9.0737 2.4911 0.1871 2.2986 3.2785 2.3812 2.7770 0.6778 0.7893 0.5656 1.3291 1.3340 0.0557 0.0456 1.1607 0.3154 0.6357 0.6107 0.1097 1.7298 0.6057 3.1897 0.9576 2.9016 0.4002 0.4610 0.7834 1.9364 0.1583 7.8992 0.4622 0.6063 3.9150 1.2406 2.6174 0.1215 4.6052 78 30 62 86 23 72 90 13 46 71 47 80 81 95 84 17 73 18 56 94 89 20 63 88 16 59 24 21 57 79 35 36 66 8 92 99 52 82 76 77 40 60 29 0.4628 0.4902 0.5059 0.5108 0.5265 0.5589 0.5607 0.5683 0.5733 0.5960 0.5990 0.6114 0.6208 0.6225 0.6228 0.6367 0.6387 0.6461 0.6735 0.6839 0.6845 0.6861 0.7007 0.7142 0.7275 0.7423 0.7547 0.7549 0.7589 0.7602 0.7788 0.8304 0.8424 0.8472 0.8633 0.8916 0.8937 0.9012 0.9473 0.9564 0.9641 0.9808 0.9970 Merkezdeki gözlem (en derin): >> veri(29,:) ans = 10.3056 10.2043 En uzak gözlem): >> veri(64,:) ans = 8.1848 12.2197 16 14 12 10 8 6 4 2 4 6 8 10 12 14 16 18 Mahalonobis derinliğine dayalı DD-çizitleri ˆ ˆ ( F , G ) = {( Dˆ ( F ; x ), Dˆ (G ; x )) : x ∈ { X , X , ..., X } ∪ {Y , Y , ..., Y }} DD n m 1 2 1 2 ˆ ( F , G ) = {( Dˆ ( F ; x ), D (G ; x )) : x ∈ { X , X , ..., X }} DD n 1 2 DDˆ ( F , G ) = {( D ( F ; x ), Dˆ (G ; x )) : x ∈ {Y1 , Y2 ,..., Ym }} >> veri2=rand(50,2)*10+5*ones(50,2); >> figure >> hold on >> plot(veri(:,1),veri(:,2),'.') >> plot(veri2(:,1),veri2(:,2),'.r') >> veri3=mvnrnd([10 10],[9 5;5 4],50); >> figure >> hold on >> plot(veri(:,1),veri(:,2),'.') >> plot(veri3(:,1),veri3(:,2),'.r') 16 16 14 14 12 12 10 10 8 8 6 6 4 4 2 4 6 8 10 12 14 16 >> DD1=[mahal(veri,veri);mahal(veri2,veri)]; >> DD2=[mahal(veri,veri2);mahal(veri2,veri2)]; >> figure;plot(DD1,DD2) 18 0 2 4 6 8 10 12 14 16 18 >> DD1=[mahal(veri,veri);mahal(veri3,veri)]; >> DD2=[mahal(veri,veri3);mahal(veri3,veri3)]; >> figure;plot(DD1,DD2) 10 12 9 10 8 7 8 6 5 6 4 4 3 2 2 1 0 0 0 5 10 15 20 25 30 35 0 1 2 3 4 5 6 7 8 9 10 Saçılım Eğrisi Belli bir D derinliğine göre oluşturulan C p bölgelerinin hacimleri p nin artmasıyla büyümektedir. Bu artış merkezden dışa doğru derinlik değişim hızına bağlı olup, dağılımın saçılımı ile ilgilidir. S ( p) = hacim(C p ) , p ∈[0,1] Sn ( p) = hacim(C p ) , p ∈[0,1] olmak üzere, saçılım eğrisi veya ölçek eğrisi (scale curve) denen, p ye karşılık S ( p) ‘nin grafiği kitle dağılımı ve p ye karşılık Sn ( p) ’nin grafiği örneklemin saçılımı hakkında fikir vermektedir. N (0, I ) ile N (0, 4 I ) dağılımlarından alınan örneklemler için saçılım eğrileri aşağıda soldaki gibidir. Saçılım eğrileri parametre vektörünün yansız tahmin edicilerinin saçılımlarını karşılaştırmada çok kullanışlı bir araçtır. Örneğin çok değişkenli normal dağılımın ortalaması için birer tahmin edici olan örneklem ortalaması, bileşen ortancalar vektörü (componentwise median), yarı uzay ortancası (merkez noktası) ve simpleks ortancası için 500 tane n = 100 birimlik simülasyon örneklemi ile elde edilen tahmin noktalarının saçılım eğrileri sağdaki gibidir. Bir boyutlu veriler için var olan ve kolayca kavranan histogram, frekans poligonu ve kutu çiziti gibi betimsel istatistiklerin iki boyutlu verilere genişletilmesi veri analizinde yararlı görsel bilgi elde edilmesini sağlamaktadır. Bu kavramların daha yüksek boyutlara genişletilmişleri görselleştirilememektedir. Bir boyutlu veriler için doğal tanımlaması olan sıra istatistiklerinin iki ve daha yüksek boyutlara doğrudan bir genişletilmesi yapılamamakla birlikte, derinlik gibi bazı kavramlar yardımıyla sıra istatistiklerine benzer istatistikler tanımlanabilmektedir. Burada teorik esaslara inilmeden yapılan kısa özetlemelerden görüldüğü gibi çok boyutlu verilerin betimlenmesi oldukça çetin bir matematiksel altyapı ve bilgisayar görüntüleme imkânı gerektirmektedir. 7. Veri Madenciliği Data mining From Wikipedia, the free encyclopedia Not to be confused with analytics, information extraction, or data analysis Data mining is the computing process of discovering patterns in large data sets involving methods at the intersection of artificial intelligence, machine learning, statistics, and database systems.[1] It is an interdisciplinary subfield of computer science… Veri Madenciliği Basit bir tanım yapmak gerekirse veri madenciliği, büyük ölçekli veriler arasından bilgiye ulaşma, bilgiyi madenleme işidir. Ya da bir anlamda büyük veri yığınları içerisinden gelecekle ilgili tahminde bulunabilmemizi sağlayabilecek bağıntıların bilgisayar programı kullanarak aranmasıdır… …Veritabanlarında Bilgi Keşfi (Đng. VBK - Knowledge Discovery From Databases - KDD). 1. Veri bütünleştirme (birçok veri kaynağını birleştirebilmek) 2. Veri seçme (yapılacak olan analizle ilgili olan verileri belirlemek ) 3. Veri dönüşümü (verinin veri madenciliği tekniğinden kullanılabilecek hale dönüşümünü gerçekleştirmek) 4. Veri madenciliği (veri örüntülerini yakalayabilmek için akıllı metotları uygulamak) 5. Örüntü değerlendirme (bâzı ölçümlere göre elde edilmiş bilgiyi temsil eden ilginç örüntüleri tanımlamak) 6. Bilgi sunumu (mâdenciliği yapılmış olan elde edilmiş bilginin kullanıcıya sunumunu gerçekleştirmek). … 8. Wikipedia Aşağıdaki yazı lisansüstü öğrencilerimizden Seda Büyükaksoy tarafından dilimize çevrilmiştir. Yazının kaynağı: http://en.wikipedia.org/wiki/Exploratory_data_analysis Kaynaklar 1. fikri öztürk/web sayfası/ist402.html 2. fikri öztürk/web sayfası/ist432.html 3. Atakan,C., Đ.Karabulut. ve F. Öztürk, (2006) Đki Boyutlu Veriler Đçin Görsel Etkili Bazı Betimsel Đstatistikler, fendergisi.selcuk.edu.tr 4. Atakan,C. ve Đ.Karabulut, (2003) Derinliğe Dayalı Diskriminasyon, fendergisi.selcuk.edu.tr 5.Aydoğdu,H., Đ.Karabulut ve F.Öztürk (2000), Derinlik çizgileri ve çanta çizitleri, 5.Ulusal Biyoistatistik Kongresi Bildiri Kitabı, 191-199, Osmangazi Üniversitesi, Eskişehir. 6. Karabulut, Đ. ve F.Öztürk (2001), Derinlik ölçüleri ve çok değişkenli normal dağılıma uygunluğun grafikle değerlendirilmesi, Cilt:14, No:2, Gazi Üniversitesi Fen Bilimleri Enstitüsü Dergisi. 7. Goldberg, K.M. and B.Iglewicz (1992), Bivariate extensions of the boxplot, Technometrics, Vol. 34, No.3, 307-320. 8. Liu, R.Y. (1990), On a notion of data depth based on random simplices, The Annals of Statistics, Vol. 18, No. 1, 405-414. 9. Liu, R.Y., J.M.Parelius and K.Singh(1999), Multivariate analysis by data depth: Descriptive statistics, graphics and inference(with dicussions), The Annals of Statistics, Vol. 27, No. 3, 783-858. 10. Rousseeuw, P.J. , I.Ruts and J.W.Tukey (1999), The bagplot: A bivariate boxplot, The American Statistician, Vol. 53, N0. 4, 382-387. 11. Öztürk, F. (2003) Đki Boyutlu Veriler Đçin Bazı Betimsel Đstatistikler, Sempozyum Bild., Gazi Üniversitesi. 12. Tukey, J. W.(1977), Exploratory Data Analysis, Addison Wesley. 13.