Çok Boyutlu Verilerin Analizi

advertisement
IRSYSC 2017
KONYA
Çok Boyutlu Verilerin Analizi
1.
2.
3.
4.
5.
6.
7.
8.
Giriş
Deney-Gözlem-Ölçme ve Veri
Veri Analizi ve Đlkeler
Bir Boyutlu (Bir Değişkenli) Verilerin Analizi
Çok Boyutlu (Çok Değişkenli) Verilerin Analizi
Veri Merkezi, Derinlikler ve Uygulamaları
Veri Madenciliği
Wikipedia
1.Giriş
Bir araştırma veya projenin içinde Veri Analizinin yeri:
Araştırma-Proje
* Araştırma Konusunun ortaya atılması
• olgu ile ilgili değişkenlerin (ölçülecek-gözlenecek özelliklerin) belirlenmesi
• tahmin edilecek parametrelerin ve hipotezlerin öne sürülmesi
• amaçların yazılması
* Araştırmanın maliyet ve zaman planlaması
* Örnekleme ve Verilerin Toplanması
* Veri Analizi
* Rapor hazırlama
* Projenin kapatılması.
Verilerin Elde Edilmesi (üzerinde durulacak)
* Ölçme-Gözlem
* Örnekleme çalışmaları (anket, yüzyüze görüşme, mektup, telefon, internet,…)
* Gözlemleme (metereoloji, deprem, çevre, tıp,…)
* Bilimsel çalışmalar ( tasarlanan deneylerden elde edilen gözlemler,…)
* Veri Anbarları (arşivler, ulusal ve uluslar arası kurumlar, TÜĐK , Sağlık Bakanlığı,
http://www.ncbi.nlm.nih.gov/genome/, …)
Verilerin Analize Hazırlanması (Verilerin Đşlenmesi)
* Veri girişi
* Kodlama, sayısallaştırma
* Verilerin bilgisayar yazılımına uygun hale getirilmesi
Verinin Analizi – Đstatistiksel Sonuç Çıkarım
* Kayıp veri sorununun çözülmesi
* Đstatistiksel yöntemlerin işlerliği için gerekli varsayımların sınanması (değinilecek)
* Analiz, çıktıların elde edilmesi ve yorumlanması (üzerinde durulacak)
* Karar ve öneriler
R.Arıkan (1995) Araştırma Teknikleri ve Rapor Yazma , TUTĐBAY Yayınları.
Örnek: Analize hazır olmayan veri.
http://www.ncbi.nlm.nih.gov/genome/guide/human/
http://www.ncbi.nlm.nih.gov/nuccore/NT_077402.2?from=1&to=257719&report=fasta
>gi|224514618|ref|NT_077402.2| Homo sapiens chromosome 1 genomic
contig, GRCh37.p10 Primary Assembly
TAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAAC
CCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCAACCCTAACCCTAACCCTAACCCTAACCCTAA
CCCTAACCCCTAACCCTAACCCTAACCCTAACCCTAACCTAACCCTAACCCTAACCCTAACCCTAACCCT
AACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAAACCCTAAACCCTAACCCTAACCCTAACCCTA
ACCCTAACCCCAACCCCAACCCCAACCCCAACCCCAACCCCAACCCTAACCCCTAACCCTAACCCTAACC
CTACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCCTAACCCTAACCCTAACCCTA
ACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAACCCTAACCCTCGCGGTACCCTCAGCCGGCCCG
CCCGCCCGGGTCTGACCTGAGGAGAACTGTGCTCCGCCTTCAGAGTACCACCGAAATCTGTGCAGAGGAC
AACGCAGCTCCGCCCTCGCGGTGCTCTCCGGGTCTGTGCTGAGGAGAACGCAACTCCGCCGTTGCAAAGG
CGCGCCGCGCCGGCGCAGGCGCAGAGAGGCGCGCCGCGCCGGCGCAGGCGCAGAGAGGCGCGCCGCGCCG
GCGCAGGCGCAGAGAGGCGCGCCGCGCCGGCGCAGGCGCAGAGAGGCGCGCCGCGCCGGCGCAGGCGCAG
AGAGGCGCGCCGCGCCGGCGCAGGCGCAGACACATGCTAGCGCGTCGGGGTGGAGGCGTGGCGCAGGCGC
AGAGAGGCGCGCCGCGCCGGCGCAGGCGCAGAGACACATGCTACCGCGTCCAGGGGTGGAGGCGTGGCGC
AGGCGCAGAGAGGCGCACCGCGCCGGCGCAGGCGCAGAGACACATGCTAGCGCGTCCAGGGGTGGAGGCG
TGGCGCAGGCGCAGAGACGCAAGCCTACGGGCGGGGGTTGGGGGGGCGTGTGTTGCAGGAGCAAAGTCGC
ACGGCGCCGGGCTGGGGCGGGGGGAGGGTGGCGCCGTGCACGCGCAGAAACTCACGTCACGGTGGCGCGG
CGCAGAGACGGGTAGAACCTCAGTAATCCGAAAAGCCGGGATCGACCGCCCCTTGCTTGCAGCCGGGCAC
TACAGGACCCGCTTGCTCACGGTGCTGTGCCAGGGCGCCCCCTGCTGGCGACTAGGGCAACTGCAGGGCT
CTCTTGCTTAGAGTGGTGGCCAGCGCCCCCTGCTGGCGCCGGGGCACTGCAGGGCCCTCTTGCTTACTGT
ATAGTGGTGGCACGCCGCCTGCTGGCAGCTAGGGACATTGCAGGGTCCTCTTGCTCAAGGTGTAGTGGCA
GCACGCCCACCTGCTGGCAGCTGGGGACACTGCCGGGCCCTCTTGCTCCAACAGTACTGGCGGATTATAG
GGAAACACCCGGAGCATATGCTGTTTGGTCTCAGTAGACTCCTAAATATGGGATTCCTGGGTTTAAAAGT
AAAAAATAAATATGTTTAATTTGTGAACTGATTACCATCAGAATTGTACTGTTCTGTATCCCACCAGCAA
TGTCTAGGAATGCCTGTTTCTCCACAAAGTGTTTACTTTTGGATTTTTGCCAGTCTAACAGGTGAAGCCC
TGGAGATTCTTATTAGTGATTTGGGCTGGGGCCTGGCCATGTGTATTTTTTTAAATTTCCACTGATGATT
TTGCTGCATGGCCGGTGTTGAGAATGACTGCGCAAATTTGCCGGATTTCCTTTGCTGTTCCTGCATGTAG
TTTAAACGAGATTGCCAGCACCGGGTATCATTCACCATTTTTCTTTTCGTTAACTTGCCGTCAGCCTTTT
CTTTGACCTCTTCTTTCTGTTCATGTGTATTTGCTGTCTCTTAGCCCAGACTTCCCGTGTCCTTTCCACC
GGGCCTTTGAGAGGTCACAGGGTCTTGATGCTGTGGTCTTCATCTGCAGGTGTCTGACTTCCAGCAACTG
CTGGCCTGTGCCAGGGTGCAAGCTGAGCACTGGAGTGGAGTTTTCCTGTGGAGAGGAGCCATGCCTAGAG
TGGGATGGGCCATTGTTCATCTTCTGGCCCCTGTTGTCTGCATGTAACTTAATACCACAACCAGGCATAG
GGGAAAGATTGGAGGAAAGATGAGTGAGAGCATCAACTTCTCTCACAACCTAGGCCAGTAAGTAGTGCTT
GTGCTCATCTCCTTGGCTGTGATACGTGGCCGGCCCTCGCTCCAGCAGCTGGACCCCTACCTGCCGTCTG
CTGCCATCGGAGCCCAAAGCCGGGCTGTGACTGCTCAGACCAGCCGGCTGGAGGGAGGGGCTCAGCAGGT
CTGGCTTTGGCCCTGGGAGAGCAGGTGGAAGATCAGGCAGGCCATCGCTGCCACAGAACCCAGTGGATTG
GCCTAGGTGGGATCTCTGAGCTCAACAAGCCCTCTCTGGGTGGTAGGTGCAGAGACGGGAGGGGCAGAGC…
Örnek: Çok Boyutlu (Değişkenli) Veri-Đstatistik
http://www.tuik.gov.tr/PreTablo.do?alt_id=25
Örnek: Her yerde veri ve istatistikler var.
Kitle: 2012-2013 Ders Yılı Đst307 dersini alan öğrenciler.
Değişkenler: ağırlık- Y (kg),
boy uzunluğu- X1 (cm)
kol uzunluğu- X 2 (cm)
omuz çevresi- X 3 (cm)
kalça çevresi- X 4 (cm)
bacak uzunluğu- X 5 (cm)
cinsiyet X 5 (K-0,E-1)
Veri:
Y
97
50
75
55
60
55
65
110
54
68
78
73
88
72
65
73
88
78
55
67
49
54
68
75
71
71
53
47
65
52
54
50
58
67
82
84
75
52
X1
184
163
183
160
166
165
162
191
178
195
187
185
177
174
175
181
188
180
178
178
167
168
180
180
177
186
163
155
171
155
156
167
165
168
178
186
185
160
X2
77
66
73
86
74
91
84
80
76
78
82
81
75
74
75
77
81
80
74
76
71
68
78
79
74
80
68
65
75
68
70
80
72
71
75
83
79
70
X3
98
72
99
70
91
78
72
105
95
110
107
106
92
90
93
93
117
97
96
96
97
90
97
99
95
101
103
84
90
84
86
100
85
85
97
103
100
95
X4
120
90
113
95
105
100
110
140
97
110
107
113
124
111
111
117
105
120
103
114
99
96
109
121
111
115
98
93
110
85
95
97
100
116
128
120
103
95
X5
114
97
91
102
98
100
115
117
92
100
101
94
104
104
100
105
113
107
96
101
90
100
102
109
108
99
89
90
90
98
87
95
93
105
111
109
119
94
X6
1
0
1
0
0
0
0
1
0
1
1
1
1
1
1
1
1
1
1
1
0
0
1
1
1
1
0
0
1
0
0
0
0
0
1
1
1
0
2. Deney-Gözlem-Ölçme ve Veri
Veri (Data) dediğimiz şeyin ölçme sonucu ortaya çıktığını ve ölçmenin de
gözlemleme veya deney sırasında yapılan bir iş olduğunu söyleyebiliriz. Sıcaklık
kavramını göz önüne alalım. Sıcaklık nedir? Bu sorunun cevabı bir tarafa, sıcaklığı
ölçmek için termometre denen bir alet kullanıldığını biliyoruz. Đnce bir cam borunun
içine civa (bir sıvı) konmuş ve sıvıların genleşme esasına dayalı olarak skalasında
sıcaklığı gösteren termometreler görmüşüzdür. Elektrik akımındaki dirence dayalı
olarak sıcaklığı ölçen termometreler de vardır. Eskiden arabalarda vardı. Şu anki
arabalarda sıcaklık nasıl ve ne ile ölçülmektedir? Ben de bilmiyorum. Hastanelerde,
hemşireler hastaların alnına bir alet tutarak (bir ışın göndererek, kızılötesi bir ışın veya
lazer ışını olabilir, bilmiyorum) sıcaklık ölçümü yapmaktadır. Termometreler sıcaklığı
nasıl ölçmektedir. Wikipedia Ansiklopesinde http://tr.wikipedia.org/wiki/Termometre
‘ye bakınız.
Bimetal termometre
Dijital termometre
Galilei termometresi
Zaman ölçümünde kullanılan aletleri (kum saati, güneş saati, sarkaçlı duvar
saati, yaylı masa veya kol saati, kristalli kol saati, dijital kol saati,...) ve çalışma
prensiplerini göz önüne getirip tarihi gelişimine bakarsak, bilimin tarihi gelişimi ile
paralellik görürüz. Diğer ölçü aletleri için de benzer şey söylenebilir. Örneğin kütle
ölçmek için kullanılan terazileri göz önüne getirin. Market çıkışlarındaki kasaların
yanında bulunan aletler kütle ölçümünü nasıl yapmaktadır?
Eğitim, ekonomi, psikoloji ve diğer bilim dallarında da ölçme çok önemli bir
yer tutmaktadır. Eğitim fakültelerinde en önemli derslerden birisi ölçme ve
değerlendirmedir. Derslerdeki bilginiz nasıl ölçülmektedir? Bilgi nedir? Türk
Đstatistik Kurumunun yaptığı işlerden birisi enflasyonu ölçmektir. Enflasyon nedir?
Nasıl ölçülmektedir? Zaman nedir ve nasıl ölçülmektedir? Kütle nedir ve nasıl
ölçülmektedir? Ağırlık nedir ve nasıl ölçülmektedir? Sıcaklık nedir ve nasıl
ölçülmektedir? Isı nedir ve nasıl ölçülmektedir? Cinsiyet nedir ve nasıl ölçülmektedir?
Zekâ nedir ve nasıl ölçülmektedir? Tansiyon nedir ve nasıl ölçülmektedir? ... Bu
soruların muhatabı Đstatistikçiler değildir. Sıcaklık nedir ve nasıl ölçülür, sorusunun
cevabını fizikçiler verecektir. Ancak, belli bir olgudaki bir özellik ile ilgili arda arda
yapılan ölçmeler ile elde edilen gözlemler ortaya çıktığında, bu veriyi analiz etmek
Đstatistikçilerin işidir.
Yatay eksende gözlem sırası, düşey eksende gözlenen değer olmak üzere
aşağıdaki gibi bir grafik göz önüne alalım.
3.5
3
2.5
2
1.5
1
0.5
0
0
20
40
60
80
100
120
140
Böyle bir veri nereden gelmiş olabilir? Tıp, ekonomi, iklim, jeofizik,...veya
başka bir alandan gelmiş olabilir. Đstatistikçi için fark etmez, bu bir zaman serisidir.
Gerçek dünyadan kendine konu edinmiş fizik, kimya, biyoloji, jeoloji,
astronomi, ekonomi, sosyoloji, psikoloji, ... gibi bilim dallarının ilgilendikleri olgular
ile temasları ölçme vasıtasıyla olmaktadır. Ölçme ne demektir ve nasıl yapılmaktadır?
Ortaöğretimdeki Fizik derslerinden hatırladığımız kadarıyla MKS diye bir ölçü
sistemi vardı. Bu sistemde uzunluk için metre, kütle için kg ve zaman için saniye diye
birimler vardı. Ayrıca bu ölçümleri yapacak aletler söz konusuydu.
Uzunluk için standart olarak alınan bir birim ve bunun alt birimleri kullanılarak
oranlama düşüncesi ile istenilen bir hassasiyete kadar ölçümler yapılmaktadır.
Çubuklar veya şeritler üzerine sıfırdan başlayarak birimin katları ve alt birimleri
işaretlenerek uzunluk ölçen ve “çubuk metre” , “şerit metre” gibi isimler taşıyan
aletler yapılmaktadır. Bazı dürbünler uzaklık da göstermektedir. Đçlerinde nasıl bir alet
vardır? Kütle için de standart bir birim alınmakta ve oranlama düşüncesi ile ölçümler
yapılmaktadır. Kütle ölçen kefeli teraziler, yerçekimi kuvveti (ağırlık) ile ilgili
moment eşitlenmesi düşüncesi üzerine kuruludur. Bir parantez açalım (Ağırlık nedir
ve nasıl ölçülür? Domates satın alırken ve “2 kg domates” derken kütle mi, yoksa
ağırlık mı kastediliyor? Ya, “2 kilo domates”derken?). Gazların kütlesi nasıl
ölçülmektedir? Uzunluk, hacim, kütle, ağırlık ölçümlerinde standart bir birim ve bu
birime göre oranlama söz konusudur. Böyle yapılan ölçümlere Oran Ölçeği’nde
yapıldı denir.
Zamanı ölçmede farklı bir yol izlenmektedir. Zaman için başlangıcı ve sonu
belli bir aralık (zaman dilimi) alınıp ve bu aralığın kendisi veya eşit parçalara
bölünmüş bir parçası birim olarak alınmaktadır. Sıcaklık ölçmede de benzer bir yol
izlenmektedir. Örneğin, deniz seviyesinde suyun donma sıcaklığı 0, kaynaması 100
sayısına karşılık getirilip, (0,100) aralığının yüzde birlik bir parçası ile 1 Celsius diye
isimlendirilen bir birim oluşturulmaktadır. Bu birim ve alt birimleri ile (0,100)
aralığının kendisi ve dışı ölçeklendirilmektedir. Sıcaklık ölçmede negatif değerler de
çıkmaktadır. Bu şekilde oluşturulan bir ölçeğe Aralık Ölçeği (Interval Scale) denir.
Uzunluk, hacim, kütle, ağırlık ölçmede Oran Ölçeği (Ratio Scale), zaman ve
sıcaklık ölçmede Aralık Ölçeği (Interval Scale ) kullanılır. Oran Ölçeği ile yapılan
ölçmelerde negatif değer olmaz, sıfır “yok” anlamına gelir. Aralık Ölçeği’nde böyle
değildir. Her iki ölçekte daha büyük değer, ölçülen şeyin daha büyük olduğu anlamına
gelmektedir. Örneğin, 2 kg domatesin kütlesi 1 kg domatesin kütlesinden büyüktür,
2 C olarak ölçülen suyun sıcaklığı 1 C olanın kinden fazladır. Her iki ölçekle yapılan
ölçmelerde elde edilen değerlerdeki (sayılardaki) sıralama, ölçülen özellik için de
geçerlidir. Ancak, 2 C olarak ölçülen suyun sıcaklığı 1 C olarak ölçülen suyun
sıcaklığının iki katıdır denemez. Oranlama Ölçeği’nde böyle değildir, 2 kg olarak
ölçülen domatesin kütlesi 1 kg olarak ölçülen domatesin kütlesinin iki katıdır.
Renkler için “beyaz-siyah-mavi-yeşil-sarı-kırmızı-kahverengi” gibi bir ölçek
oluşturup baktıklarımızı bunlardan birisi ile isimlendirmekteyiz. Böyle bir ölçeğe
Đsimlendirme ya da Sınıflandırma Ölçeği (Nominal Scale) denir. Böyle ölçülen renkler
için sıralama ve oranlamadan bahsedilemez. Ancak, renkler dalga boylarına göre
değerlendirilirse bir sıralama söz konusu olabilir. Đsimlendirme Ölçeği ile yapılan
ölçümler için sıralama da söz konusu ise böyle bir ölçeğe Sıralama Ölçeği (Ordinal
Scale) denir.
Bizim küçüklüğümüzde oda sıcaklığı, “soğuk-ılık-sıcak” ya da “buz gibi-soğukılık-sıcak-hamam gibi” olarak ölçülmekteydi. Ölçümler Sıralama Ölçeğinde
yapılmaktaydı. Alet olarak da genellikle çocuklar (burunlarının kızarıklığı, sırtlarının
terlemesi, titremeleri, ...) kullanılıyordu. Şimdi her çocuk odasında Termometre var.
Sıcaklık Aralık Ölçeğinde ölçülmektedir. Üstelik nesnel.
Aralık ve Oranlama Ölçeğinde yapılan ölçümler Sınıflama ve Sıralama
Ölçeğinde yapılan ölçümlere göre daha hassas olmaktadır. Belki bu sebepten dolayı
Sınıflama, Sıralama, Oran, Aralık Ölçek’leri yerine Sınıflama, Sıralama, Oran, Aralık
Düzeyleri deyimi kullanılmaktadır. Ölçme yapanlar, kendi ihtiyacını karşılayacak
şekilde bir ölçme düzeyi seçmekte ve imkânlar çerçevesinde bir alet
kullanmaktadırlar.
Gerçek dünyadaki olguları anlama-anlatma, yani olguları modelleme
çerçevesinde ölçme çok önemli bir yer tutmaktadır. Olgu ile temas ölçme’den
geçmektedir, demiştik. Ölçme yapmak için bir ölçeğe ve ölçülecek özelliğe karşı
duyargaç (sensör) bulunduran bir alete ihtiyaç vardır. Ölçme kolay değildir. Hele,
öğrencilerin Đstatistik bilgisini ölçmek hiç de kolay olmamaktadır.
Rasgelelik içeren olgulardan elde edilen ölçüm (gözlem) değerlerine istatistiksel
veri veya kısaca veri (data) diyelim. Verilerin deneyler sonucu veya doğal şartlarda
olguları gözlemekle elde edildiğini belirtelim. Veriler, niceliksel veri (quantitative
data, sayısal veri) ve niteliksel veri (qualitative, categorical data) olarak ikiye
ayrılabilir. Aralık veya oranlama düzeyinde yapılan ölçümlerden elde edilen veriler
birer niceliktir (sayıdır). Bazen sınıflama düzeyinde yapılan ölçümlerden elde edilen
veri de sayılardan oluşabilir. Örneğin para atışında, yazı gelişi 0, tura gelişi 1 olarak
kodlanırsa elimizdeki veri sayısal bir veri olacaktır. Tersi de olabilir. Sayısal olarak
yapılan ölçümlerden niteliksel veri elde edilebilir. Tavla zarı üzerindeki noktalar
sayıldıktan sonra ölçümler tek-çift olarak nitelendirilebilir.
Aklımız ile gerçek dünyadaki olguları (nesne, olay, süreç, zaman, sıcaklık, ...)
anlamak isteriz. Olgunun ilgilendiğimiz bir veya birden çok özelliği ile ilgili ölçümler
yaparız. Örneğin bir yaşındaki çocuklarda ağırlık, boy, hareket gibi özellikler bizi
ilgilendiriyor olabilir. Ağırlığı kg, boyu cm ve hareketi de “emekleme-ayakta
durabilme- yürüme” gibi bir ölçekte ölçtüğümüzü düşünelim. Ağırlık ve boy
özelliklerinin ölçümünde elde edilen veri sayısal, hareket özelliğinin ölçümünde elde
edilen ise bir kategorik (niteliksel) veri olacaktır. Emekleme 1, ayakta durma 2 ve
yürüme 3 ile kodlanırsa elimizde hareket özelliği için de sayısal bir veri olmuş olur.
Hareket, doğrudan sayısal veri verebilecek bir ölçek ile de ölçülmüş olabilir.
Olgu-özellik-ölçme sonucunda sayısal bir veri elde edilsin. Rasgelelik de söz
konusu olduğunda, ölçme sonucu çıkan sayılar da rasgele (gelişigüzel) olacaktır. Bir
ölçme sonucunda sayısal bir değer alan bir özellik, istatistik dilinde bir rasgele
değişkendir. Bir yaşındaki bir çocuğun ağırlığı ve boy uzunluğu ayrı olarak ele
alındıklarında birer rasgele değişken, beraber ele alındıklarında bir rasgele vektör’dür.
Rasgele değişkenler, ölçülen özelliğin doğasına bağlı olarak sürekli ve kesikli olarak
iki sınıfa ayrılmaktadırlar. Örneğin, boy uzunluğu sürekli bir rasgele değişken, bir
mağazaya bir günde gelen müşteri sayısı kesikli rasgele değişken, bir hastanın nabzı
kesikli ve tansiyonu sürekli birer rasgele değişkendir. Doğası sürekli olmasına
rağmen, ölçümler tam sayılara yuvarlatıldığı zaman tansiyon kesikli bir rasgele
değişken olmaktadır. Dağılımları nedir?
Boncuk Deneyi
Küçük boncuklar, belli bir yükseklikten, masanın üstüne işaretlenmiş bir noktaya
düşecek şekilde tek tek bırakılsın. Rasgele konumlanan buncukların işaretlenen
noktaya uzaklıkları ölçülsün. Uzaklığın olasılık dağılımı nedir?
1.Deney: Gözlemler
82
54
82
56
51
42
28
59
48
47
52
42
26
38
41
37
36
36
29
45
43
40
33
39
40
35
29
24
15
21
18
22
15
20
24
27
20
7
11
6
8
6
30
25
23
22
0
28
27
18
2.Deney: Gözlemler
19
22
18
18
17
17
24
15
12
18
16
25
13
14
11
8
5
16
10
23
12
7
4
11
(mm)
50
40
27
18
17
11
9
3
3
7
13
19
25
21
39
28
9
13
10
4
7
12
20
25
23
23
30
32
39
42
43
49
51
80
78
9
11
12
21
38
35
64
9
14
17
10
6
32
57
22
11
41
43
7
8
12
19
20
23
25
24
15
9
11
10
25
14
33
22
33
37
47
13
22
25
20
25
16
19
10
13
17
13
31
38
41
51
(mm)
1.Deney
2.Deney
Uzaklık ile ilgili histogramlar, sanki beklediğimiz gibi değil. (Đşaretlenen noktaya
yakın düşenler daha çok olmalı.)
Uzaklığın Karesi
1.Deney
2.Deney
Uzaklığın karesi ile ilgili histogramlar “beklentimize (mantığımıza)” daha uygun.
(Ok atışı yapan sporcular uzaklığın karesinde mi değerlendirilmeli?)
Olgunun Modellenmesi:
Gerçek dünyada rasgelelik içeren bir olgunun belli bir özelliğinin
modellenmesinde aday modeller, olasılık dağılımlarının parametrelendirilmiş bir
F = { f (.,θ ):θ ∈ Θ} ailesi olabilir. Bu ailedeki dağılımlar biçimsel olarak bilinen, ancak
bilinmeyen θ parametresine bağlı olan f (.,θ ) olasılık yoğunluk fonksiyonları ile
temsil edilmektedir. θ parametresi hakkında istatistiksel sonuç çıkarım; X1, X 2 ,..., X n
örnekleminin x1, x2 ,..., xn gözlenen değerlerinin Θ parametre kümesindeki hangi θ
değerini tahmin ya da hipotez olarak desteklediğini saptamayı amaçlamaktadır.
X 1 , X 2 ,..., X n örnekleminin x1 , x2 ,..., xn gözlenen değerleri kümesine veri denir. Bir
olgunun belli bir özelliği ile ilgili araştırmada parametrik bir model söz konusu
olmayabilir. Bu yönüyle istatistiksel sonuç çıkarım parametrik ve parametrik olmayan
olarak ikiye ayrılır.
Örnek:
Çakıl taşının hacmi nedir?
Hatanın Modellenmesi
Çakıl taşının Hacmi Nedir ?
Normal dağılım varsayımı altında, “kitle” ortalaması için aşağıdaki tahmin edicilerden
hangisini tercih edersiniz?
a) Örneklem ortalaması.
b) Örneklem ortancası.
Normallik varsayımın doğruluğu nasıl sınanacak?
Çakıl taşının hacmi ile ilgili veriyi önce dağılım varsayımı olmadan, sonra
normallik varsayımı altında ele aldık. Đlkinde sonuç çıkarımı örneklem ortancası,
ikincisinde örneklem ortalaması ile yapmış olabiliriz. Bizim tercihimize kalmış.
Ayrıca parametrik mi, yoksa parametrik olmayan sonuç çıkarım mı yaptık. Ne
dersiniz?
Olgunun modellenmesi doğrudan istatistikçilerin işi olmamasına rağmen
verilerin analizinde göz ardı edilemez. Modellemeyi, olguyu kendisine konu edinmiş
araştırmacılar yapmalıdır. Bu araştırmacılar, veri analizinde yardımcı olacak
istatistikçiler ile ortak dil kurup işbirliği yapmalıdır. Bir istatistikçi, bir veriyi alıp
aklının estiği gibi bir istatistik paket programından geçirip kafadan sonuç
çıkarmamalı. Đstatistikçi olmayan bir araştırmacı da bilgisayar hakimiyetine güvenerek
istatistik paket programlarının menülerinde bulunan kutucukları bir istatistikçiye
danışmadan tıklatmamalı.
X 1 , X 2 ,..., X n örnekleminin kendisine ve fonksiyonlarına istatistik dendiğini,
istatistiklerin de dağılımlarının olduğunu biliyoruz. Alışılagelmiş olarak x1, x2 ,..., xn
verisine ve işlemler sonucu elde edilenlere de istatistik denmektedir. O kadar ki,
“istatistikler” dendiğinde, istatistiklerin kendileri değil aldığı değerler anlaşılmaktadır.
Futbol oyununda gol sayısı çok önemli bir özelliktir. Bu özellik bir rasgele
değişkendir. Belli bir takım için gol sayısının beklenen değeri (ortalaması), varyansı,
olasılık dağılımı söz konusudur. Beklenen değeri bir parametre, tahmin edicisi bir
istatistik, 50 karşılaşmada atılan gol sayıları veri, ortalamaları beklenen değer için bir
tahmin. Đstatistik dili buna benzer bir şey. O zaman 4:1 biten Beşiktaş-Kasımpaşa
maçındaki gol sayıları nedir? Merkez Bankası, gazeteler, televizyonlar tarafından
yayınlanan “rakam” dedikleri sayılar nedir? Ne olduklarını istatistikçiler biliyor, onlar
da biliyordur, sonuçları yorumlayabildiklerine göre. Zamanımız için söylenen: “Bir
toplumun kalkınmışlık düzeyi o toplumun istatistik bilgi düzeyi ile ölçülür” sözünü
hatırlatalım ve bu bilgi düzeyinin sağlanmasındaki eğitim sorumluluğunun
istatistikçilere düştüğünü belirtelim.
Bir x1, x2 ,..., xn verisi örneklemede kullanılan yönteme bağlı olarak analiz
edilip istatistiksel sonuç çıkarım yapılmalıdır. Bir özellik incelendiğinde x1, x2 ,..., xn
verisi n tane değer (sayı, sembol, karakter,..) olmak üzere, bu veriye Bir Boyutlu Veri
veya Bir Değişkenli Veri denmektedir. Birden çok özellik birlikte ele alındığında
veriye Çok Boyutlu Veri veya Çok Değişkenli Veri denmektedir. Bir stokastik sürecin
bir kez gerçekleşmesindeki yörüngenin analog olarak gözlenmesi ile ilgili veri bir
grafik, dijital gözlemlemede bir sayı dizisidir (daha doğrusu dizi parçasıdır). Zaman
serilerinde veri sadece bir yörüngenin gözlem değerlerinden oluşmaktadır. Stokastik
süreç ergodik olduğunda bir yörüngenin gözlem verisinden sonuç çıkarım yapılabilir.
Stokastik sürecin n kez gerçekleşmesindeki yörüngelerin gözlenmesi sonucu elde
edilen veri n tane dizi (dizi parçasıdır). Bir dizideki elemanlar, örneğin vektör zaman
serilerinde vektörler, mekânsal süreçlerde matrislerdir.
3. Veri Analizi ve Đlkeler
Her veri (data, gözlemler) belli bir amaç için elde edilir. Veri, amaca yönelik
bilginin dışında başka bilgiler de taşıyabilir. Bunlardan da istifade edilebilir. Bazı
veriler anbarlarda tutulur. Verinin kendisi bir istatistiktir. Hemen yukarıda söylendiği
gibi veri, sayıların (bir boyutlu veri), vektörlerin (çok boyutlu veri), matrislerin
(görüntü analizi) uzun bir listesini oluşturabilir. Bu veriyi doğrudan yorumlamak zor
olabilir. Araştırmanın amacına bağlı olarak verinin taşıdığı bilgi bazı istatistikler
(örneklem ortalaması, örneklem varyansı, örneklem ortancası, frekans tablosu,
histogram,…) tarafından özetleniyor olabilir. Her istatistik bir veri indirgemesi
yapmaktadır. Araştırmacı verinin tümü yerine sadece bazı istatistiklerin aldığı
değerleri kullanabilir.
Bir veri üzerinde yapılan işlemlere betimleme denmektedir. Ancak,
betimlemeler bazı istatistiklerin veriye dayalı olarak aldığı değerlerdir. Örneğin örnek
ortalaması, verinin bir betimlemesidir diyoruz. Belki betimleme ile betimlenme
(verinin betimlenmesi) sözcüklerini ayrı kullanmalıyız. Dilcilere danışmak gerekiyor.
Frekans Tablosu bir betimlemedir. Frekans tabloları çok kullanılan ve çok
yayınlanan istatistiklerdir. Belli bir kitleden örnekleme ile seçilen bir yaşındaki 60
tane çocuğun kg cinsinden ağırlıkları aşağıdaki gibi gözlenmiş olsun.
11,70
11,23
9,97
10,79
11,70
9,78
8,98
11,57
8,76
10,66
13,11
10,70
11,07
11,21
10,51
9,01
10,28
10,42
10,03
12,54
9,85
9,60
9,84
10,59
11,14
9,91
9,87
10,74
10,95
9,24
10,49
12,28
9,62
8,23
10,24
10,71
9,65
9,56
10,76
9,52
9,20
9,81
9,77
9,87
7,81
10,35
12,16
9,06
11,56
10,19
10,08
9,21
10,69
9,91
10,76
10,17
11,13
9,10
8,38
9,55
Bu gözlemler içinde en büyüğü 13,11 en küçüğü 7,81 dır. Gözlemleri, sınıf genişliği 1
kğ olan 7 sınıfta aşağıdaki gibi sınıflandırabiliriz.
Sınıflar
Sınıf Ortası
7,00- 8,00
8,00- 9,00
9,00-10,00
10.00-11,00
11,00-12,00
12,00-13,00
13,00-14,00
7.5
8.5
9.5
10.5
11.5
12.5
13.5
Frekans Eklemeli
Frekans
1
1
4
5
22
27
20
47
9
56
3
59
1
60
Bazı istatistikler ve aldığı değerler:
n Ortalama Ortanca Standart sapma
60
10,26
10,19
1,05
Minimum
7,81
Maximum
13,11
Yatay eksende sınıf sınırları, düşey eksende frekanslar olmak üzere her sınıfın
üstüne tabanı sınıf aralığı ve yüksekliği sınıf frekansı olan dikdörtgenler çizilmesiyle
aşağıdaki gibi bir grafiğe Histogram denir. Histogram’lar, verilerin hangi aralıklarda
hangi sıklıklarla gözlendiğini göstermektedir ve ölçüm yapılan özelliğe karşılık gelen
rasgele değişkenin alabileceği değerler ile bunların “yoğunlukları” hakkında bilgi
vermektedir. Histogramlar rasgele değişkenlerin olasılık yoğunluk fonksiyonlarının
biçimleri hakkında bilgi vermektedir.
Histogram
Frequency
20
10
0
7,5
8,5
9,5
10,5
11,5
12,5
13,5
Agirlik
Nokta Diyagramı
8
9
10
11
12
13
Agirlik
Dal-Yaprak Diyagramı
7
8
9
10
11
12
13
8
2379
0012225556667788888999
00112234455667777779
011225577
125
1
Kutu Çiziti
8
9
10
11
Agirlik
12
13
Görüldüğü gibi, bir yaşındaki çocukların ağırlığı ile ilgili bir veri üzerinde
birçok betimleme yapılabilir. Đstatistiksel paket programlar sayesinde bunu yapmanın
çok kolaylaştığını da biliyorsunuz. Bir yaşındaki çocukların ağırlıkları kimleri, niçin
ve hangi yönleri ile ilgilendirmektedir? Đstatistikçileri pek ilgilendirmez. Hele çocuğu
yoksa. Yine de biraz fikir yürütelim. Çocuk doktorları, hemşireler, diyetisyenler
meslek gereği bir yaşındaki çocukların ağırlıkları ile ilgilenir. Ağırlığın nesi ile
ilgilenir? Belki, hangi değerler arasında olması gerektiği, dağılışı, çocukların
%99‘unun ağırlığı hangi değerin altında, bir yaşında bir çocuğun ortalama ağırlığı
nedir gibi şeylerle ilgileniyor olabilirler. Đstatistik diliyle ifade edersek, bir yaşındaki
çocukların ağırlığının “dağılımı, ortalaması, varyansı, yüzdelikleri, çarpıklığı,
basıklığı, değişim katsayısı” gibi şeyler onları ilgilendiriyor olabilir. Çocukların
kümesine kitle ve çocuklara da birim dendiğini Örnekleme dersinden biliyoruz.
Genellikle araştırmalardaki gözlemler, kitlelerden rasgele çekilen birimlerin
oluşturduğu örnekler üzerinde yapılır. Bazen de kitledeki tüm birimler üzerinde
gözlem yapılır, yani sayım yapılır. Kitle ve Birim kavramları sanıldığı kadar kolay
kavramlar değildir. Bir yaşında bir çocuk demek doğduktan sonra doğum gününe
ulaşmış bir çocuk olmak üzere, böyle çocukların (birimlerin) kitlesi her gün değişen
bir kümedir. Kitleyi, 2017 yılı Konya doğumlu çocuklar olarak belirlesek ve Nüfus
Đdare Sisteminden doğan çocukların listesini (çerçeve) alıp, aralarından rasgele bir
örnek seçip, doğum günlerinde bu çocukların ağırlıklarını ölçmeyi düşünsek verilerin
toplanması ne zaman başlar ne zaman biter? Liste Nüfus Đdare Sisteminden ne zaman
alınacaktır? Örnek hacmi ne olacak? Örnek ne zaman çekilecek? Böyle bir
araştırmanın maliyeti ne olacak? Kim yapar? Kimler yaptırır? Kim destekler? Neye
yarar?
Anneler çocuklarını ilk aylarda daha sık olmak üzere, belli aralıklarla
muayeneye götürürler. Gözlenen birçok özelliğin içinde bir tanesi de çocuğun
ağırlığıdır. Belli bir yaştaki, örneğin bir yaşındaki bir çocuğun ağırlığının normal olup
olmadığı, yani kilolu olup olmadığı nasıl söylenmektedir? Araştırmalar sonucunda
hazırlanan ve hemşirelerin elinde bulunan çizelgelere bakarak mı? Yoksa göz kararı
mı? Bir yaşındaki bir çocuğun ağırlığı, boyu, zekâsı, yürümesi, konuşması “normal”
midir? Nasıl karar verilmektedir? Bu soruların muhatabının Đstatistikçiler olmadığı
apaçık ortadadır. Đstatistik bilimi açısından ağırlık verisi ile zekâ verisi arasında bir
fark yoktur. Farklı yöntemlerle elde edilen bu iki veri aynı istatistik yöntemle analiz
edilebilir. Đstatistiğin kendi kavramları, yöntemleri ve ilkeleri vardır. Dört yıl boyunca
Đstatistik Bölümü Lisans Öğrencileri bunların büyük bir kısmını öğrenmektedir.
Parametrik istatistiksel sonuç çıkarım ile ilgili veri analizinde aşağıdaki ilkelere
bağlı kalındığında:
1) Yeterlilik Đlkesi (Sufficiency Principle) verileri özetlerken, θ
hakkındaki bilgiyi kaybetmeyecek şekilde bir veri indirgeme (istatistik) sunmaktadır.
2) Olabilirlik Đlkesi (Likelihood Principle) θ hakkında örneklemden elde
edilecek tüm bilgiyi içeren, gözlem verilerinin belirlediği, parametreye bağlı bir
fonksiyon (olabilirlik fonksiyonu) ortaya koymaktadır.
3) Eşdeğişim Đlkesi (Equivariance Principle) modelin bazı önemli
özelliklerini değişmez bırakan bir veri indirgeme sunmaktadır.
Đstatistiksel davranışlar ile ilgili öne sürülen ilkesel gerekçeler arasında
Olabilrlik Đlkesi (Likelihood Principle) en basit ve en derin içerikli olanıdır. Olabilirlik
Đlkesinin başlı başına bir ilke olarak gelişmesi büyük ölçüde R.A.Fisher′in 1920′li
yıllardaki fikirlerine dayanmaktadır. Olabilirlik Đlkesi esasında, bilinmeyen bir θ
parametresi için bir deneyden elde edilebilecek tüm delilin (kanıtın), verilen gözlem
için θ ‘nın olabilirlik fonksiyonunda içerildiğini ifade etmektedir.
Eşdeğişim Đlkesi, Ölçüm Eşdeğişimi (Measurement Equivariance) ve
Biçimsel Eşdeğişim (Formal Equivariance) olarak ele alınmaktadır. Ölçüm
Eşdeğişimi, sonuç çıkarımın ölçekten bağımsız olması gerektiğini söylemektedir.
Buradaki ölçek (scale) sözcüğü, gerçek dünyada rasgelelik olgusu içeren bir özelliğin
(cinsiyet, boy uzunluğu, sıcaklık, buğday verimi) ölçülmesinde kullanılan birimi ifade
etmektedir. Örneğin cinsiyetin 0 yada 1 veya 1 yada 2, boy uzunluğunun cm veya m,
sıcaklığın ⁰C veya ⁰F, buğday veriminin kg/m² veya ton/dekar gibi farklı ölçeklerde
ölçülmesi sonuç çıkarımı etkilememelidir. Biçimsel Eşdeğişim, esasında Biçimsel
Değişmezlik (Formal Đnvariance) olmak üzere, sonuç çıkarım probleminin
matematiksel model açısından aynı biçimsel yapıda olması durumunda her iki
problemde de aynı çıkarım sürecinin kullanılması gerektiğini ifade etmektedir.
(Casella ve Berger, 2002)
Yukarıdaki örnekte olduğu gibi, bir yaşındaki çocukların ağırlıkları ile ilgili bir
dağılım (model) varsayımı söz konusu olmadığında da sonuç çıkarımın ölçekten
bağımsız olması gerekir. Ölçüm Eşdeğişimi, yani sonuç-çıkarımın ölçek
değişikliğinden etkilenmemesinin gerekçesi sezgisel olarak kolay kavranmakta ve
kabul görmektedir. Dağılım varsayımsız başlayan bir veri analizi sonuç çıkarım ile
sonuçlanabilir. Keşfedici Veri Analizi olarak adlandırılan böyle bir analiz, neticede
model aracılığı ile sonuç çıkarım aşamasına varabilir.
4. Bir Boyutlu Verilerin Analizi
Bir Boyutlu Veri: Kitle Dağılımı Đçin Sonuç Çıkarım
fikri öztürk/web sayfası/ist402.html (2.Ders)
Bir Boyutlu veriler için serpilme çiziti, histogram ve frekans poligonu
Histogram -1891 yılı- Karl Pearson
1
0.5
0
-0.5
-1
-3
-2
-1
0
1
2
3
-2
-1
0
1
2
3
15
10
5
0
-3
Hatırlatma: Kutu Çiziti
Tukey tarafında belirtildiği gibi kutu çizitleri, beş tane istatistik değeri ile
verilerin görsel bir betimlemedir. Bu beş istatistik; ortanca (median) alt ve üst
menteşeler (hinges) ile uç değerlerdir. Kutu çizitlerinin çok değişik biçimleri söz
konusudur. En yaygın olarak kutu-ve-bıyıklar çiziti (Box-and-Whiskers-Diagram)
kullanılır. Kutunun iki kenarı, birinci ve üçüncü çeyreklik ( Q1, Q3 menteşe) ve içindeki
çizgi ortanca ( Q2 , merkez) değerinde olmak üzere, kutu dışındaki çizgiler (wishkers,
bıyıklar) değerlerin en uç olanlarına kadar uzanmaktadır. Sıradışı gözlemlerin
(outlier), küçük değerlerde Q1 − 1.5(Q3 − Q1 ) (lower fence) değerinden küçük olan
gözlemler ve büyük tarafta Q3 + 1.5(Q3 − Q1 ) (upper fence) değerinden büyük olan
gözlemler olarak tanımlanması durumunda bıyıklar, sıra dışı gözlemlerin varlığında,
sıra dışı gözlemlerin kutu tarafında kalan uç gözlemlere kadar uzar. Bıyıklar en küçük
değer ile en büyük değerin ötesine uzanmaz. Not:lower fence= Q2 + 4(Q1 − Q2 ) , upper
fence= Q2 + 4(Q3 − Q2 ) olarak tanımlanan kutu çizitleri de var.
Boxplot with whiskers from minimum to maximum
Boxplot and a probability density function (pdf) of a
Normal N(0,1σ2) Population
Same Boxplot with whiskers with maximum 1.5 IQR
5. Çok Boyutlu Verilerin Analizi
Veri: Boy ölçüleri (boy-kol-omuz-kalça-bacak uzunluğu)
Ölçü birimi: cm
boy
kol
omuz
184
163
183
160
166
165
162
191
178
195
187
185
177
174
175
181
188
180
178
178
167
168
180
180
177
186
163
155
171
155
156
167
165
168
178
186
185
160
77
66
73
86
74
91
84
80
76
78
82
81
75
74
75
77
81
80
74
76
71
68
78
79
74
80
68
65
75
68
70
80
72
71
75
83
79
70
98
72
99
70
91
78
72
105
95
110
107
106
92
90
93
93
117
97
96
96
97
90
97
99
95
101
103
84
90
84
86
100
85
85
97
103
100
95
kalca bacak
120
90
113
95
105
100
110
140
97
110
107
113
124
111
111
117
105
120
103
114
99
96
109
121
111
115
98
93
110
85
95
97
100
116
128
120
103
95
114
97
91
102
98
100
115
117
92
100
101
94
104
104
100
105
113
107
96
101
90
100
102
109
108
99
89
90
90
98
87
95
93
105
111
109
119
94
Matlab
Minitab
Covariances: boy; kol; omuz; kalca; bacak
boy
kol
omuz
kalca
bacak
boy
115,5228
27,5747
83,9331
85,7852
44,1046
kol
omuz
32,3215
8,5619
24,6102
22,8663
105,5021
48,4367
13,8137
kalca
bacak
133,7383
57,6003
70,3506
Correlations: boy; kol; omuz; kalca; bacak
boy
0,451
kol
kol
omuz
omuz
0,760
0,147
kalca
0,690
0,374
0,408
bacak
0,489
0,480
0,160
kalca
0,594
Matrix Plot of boy; kol; omuz; kalca; bacak
70
80
90
100
120
140
200
175
boy
150
90
80
kol
70
120
100
omuz
80
140
120
kalca
100
120
105
bacak
90
150
175
200
80
100
120
90
105
120
S-PLUS
***
Summary Statistics for data in:
Min:
1st Qu.:
Mean:
Median:
3rd Qu.:
Max:
Variance:
***
V1
155.0000
165.2500
174.1316
177.0000
182.5000
195.0000
115.5228
Veri3Ders ***
V2
V3
V4
65.00000 70.00000 85.0000
72.25000 90.00000 98.2500
75.94737 93.89474 107.7895
75.50000 95.50000 109.5000
80.00000 99.75000 114.7500
91.00000 117.00000 140.0000
32.32148 105.50213 133.7383
Covariances for data in:
V5
87.00000
94.25000
101.02632
100.00000
106.50000
119.00000
70.35064
Veri3Ders ***
V1
V2
V3
V4
V5
V1 115.52276 27.574680 83.933144 85.78521 44.10455
V2 27.57468 32.321479
8.561878 24.61024 22.86629
V3 83.93314 8.561878 105.502134 48.43670 13.81366
V4 85.78521 24.610242 48.436700 133.73826 57.60028
V5 44.10455 22.866287 13.813656 57.60028 70.35064
***
V1
V2
V3
V4
V5
Correlations for data in:
V1
1.0000000
0.4512644
0.7602722
0.6901616
0.4892328
V2
0.4512644
1.0000000
0.1466199
0.3743195
0.4795303
60
Veri3Ders ***
V3
0.7602722
0.1466199
1.0000000
0.4077708
0.1603408
70
80
V4
0.6901616
0.3743195
0.4077708
1.0000000
0.5938309
V5
0.4892328
0.4795303
0.1603408
0.5938309
1.0000000
90
80 90 100 110 120 130 140
190
180
V1
170
160
150
90
80
V2
70
60
120
110
100
90
80
70
60
V3
140
130
120
110
100
90
80
V4
120
110
V5
100
90
80
150 160 170 180 190
60 70 80 90 100 110 120
80
90
100
110
120
Veri: Ders Notları
> # Kitle:isim_listesi, örneğe çıkan isimler: isimler=sample(isim_listesi, 12)
> isimler=c("Gül","Yaprak","Đrem","Merve","Esin","Emre","Hasan","Ali","Mert","Ahmet","Mehmet","Can") #örnek
> matnotu=c(67,75,50,30,92,95,35,80,60,15,25,5)
> fiziknotu=c(85,70,60,20,100,90,25,80,25,20,20,15)
> biyoloji=c(60,65,50,100,90,90,25,70,70,35,95,25)
> tarih=c(55,65,75,50,85,95,60,70,80,50,90,60)
> veri = data.frame(isimler,matnotu,fiziknotu,biyoloji,tarih)
> veri
isimler matnotu fiziknotu biyoloji tarih
1
Gül
67
85
60
55
2 Yaprak 75
70
65
65
3 Đrem 50
60
50
75
4 Merve 30
20
100
50
5 Esin
92
100
90
85
6 Emre 95
90
90
95
7 Hasan 35
25
25
60
8
Ali
80
80
70
70
9 Mert 60
25
70
80
10 Ahmet 15
20
35
50
11 Mehmet 25
20
95
90
12 Can
5
15
25
60
> cor(matnotu,biyoloji)
[1] 0.484752
> cor(veri$matnotu,veri$biyoloji)
[1] 0.484752
> cor(matnotu,fiziknotu)
[1] 0.9083283
> X=matrix(cbind(matnotu,fiziknotu,biyoloji,tarih),ncol=4)
>X
[1,]
[2,]
[3,]
[4,]
[5,]
[6,]
[7,]
[8,]
[9,]
[10,]
[11,]
[12,]
[,1] [,2] [,3]
67 85 60
75 70 65
50 60 50
30 20 100
92 100 90
95 90 90
35 25 25
80 80 70
60 25 70
15 20 35
25 20 95
5 15 25
> boxplot(X)
[,4]
55
65
75
50
85
95
60
70
80
50
90
60
Đki Boyutlu Veri
Çubuk Grafiği: Çubuk grafikleri, isimlendirme (nominal), sıralama (ordinal) , oran, aralık ölçme
düzeyinde gözlenen ve kitle dağılımı kesikli olan verilere uygulanır. Đki boyutlu veriler için çubuk
grafiği, üç boyutlu bir koordinat sisteminde, yatay düzlemde veriler için hazırlanan çapraz tablo ve
düşey eksende göze frekansları olacak şekilde kolayca görüntülenebilir. Aşağıdaki çapraz tablo için
çubuk grafiği (d) ’dedir.
(a)
0
1
2
3
(b)
4
400
0
8
1
2
17
8
0
0
33
33
56
48
11
2
150
85
122
81
28
7
323
3
69
137
76
21
2
305
4
43
62
42
13
0
160
5
8
11
9
1
0
29
246
405
264
74
11
1000
(c)
300
200
100
0
,00
1,00
2,00
3,00
4,00
5,00
(d)
500
400
300
140
200
120
100
100
80
60
0
,00
1,00
2,00
3,00
40
4,00
0
20
0
0
1
4
2
3
4
3
2
5
Histogram:Histogramlar, aralık ile oran ölçme düzeyinde (interval level of measurement, ratio level
of measurement) gözlenen ve kitle dağılımı sürekli olan verilere uygulanır. Bir boyutlu verilerde
histogram; sınıf aralıkları üzerinde yükseklikleri o sınıfın frekansı olan bitişik dikdörtgenlerden
oluşmaktadır. Đki boyutlu veriler için histogram; tabanda eşit uzunluklu sınıf aralıklarının kartezyen
çarpımı olan dikdörtgenler üzerinde, yükseklikleri o dikdörtgenin frekansı olan prizmalardan
oluşturulabilir. Bu prizmaların üst yüzeylerinin konumları görsel etkiyi yaratmaktadır.
n = 1000 birimlik iki boyutlu (değişkenli) bir veri için serpilme diyagramı (a)‘da, SPSS de
çizilen histogram (d)‘dedir. Diğer iki histogram bireysel değişkenlerin marjinal dağılımlar hakkında
fikir vermektedirler.
Minitab
3,00
100
2,00
1,00
80
0,00
60
-1,00
40
-2,00
-3,00
20
-4,00
-3,00
-2,00
-1,00
0,00
1,00
2,00
3,00
100
80
60
40
20
0
-3,00
-2,00
-1,00
0,00
1,00
2,00
3,00
4,00
4,00
(a)
(c)
(b)
(d)
0
-4,00
-3,00
-2,00
-1,00
0,00
1,00
2,00
3,00
Matlab
Serpilme diyagramı
Đki boyutlu veri için histogram cizimi
>>plot(veri(:,1),veri(:,2),'.') (iki değişkenli dağılımdan alınan veri)
>> veri=[ ];hist3(veri)
4
3
2
1
0
-1
-2
-3
-4
-3
-2
-1
0
1
2
3
4
Bir Matlab Programı ve Çıktıları
n=1000; veri=randn(2,n);
figure;plot(veri(1,:),veri(2,:),'.')
[frx,sx]=hist(veri(1,:),15);
[fry,sy]=hist(veri(2,:),15);
for i=1:15
for j=1:15
x1=sx(i)-(sx(2)-sx(1))/2 ;
x2=sx(i)+(sx(2)-sx(1))/2 ;
y1=sy(j)-(sy(2)-sy(1))/2 ;
y2=sy(j)+(sy(2)-sy(1))/2 ;
frekans=0;
for ii=1:n
if veri(1,ii)<x2
if veri(1,ii)>=x1
if veri(2,ii)<y2
if veri(2,ii)>=y1
frekans=frekans+1;
end,end,end,end
end
frpolig(i,j)=frekans;
x=[x1 x2];
y=[y1 y2];
meshgrid(x,y);
z=frekans*ones(2,2);
mesh(y,x,z);
hold on
end,end
figure;meshgrid(sx,sy);mesh(sy,sx,frpolig);
4
3
2
1
30
30
25
25
20
20
15
15
10
0
10
5
-1
5
0
4
-2
2
4
2
0
0
-2
-3
-2
-4
-4
0
4
2
0
0
-2
-2
-4
-4
-3
-2
-1
0
1
2
3
4
-4
Üç Boyutlu Serpilme (Saçılım) Grafikleri
3D Scatterplot of boy vs kol vs bacak
3D Scatterplot of kol vs omuz vs kalca
90
190
180
boy
k ol
80
170
70
160
120
90
80
90
100
bacak
70
110
100
kol
120
100
80
120
k alca
omuz
140
Çok Boyutlu (Değişkenli) Veri Analizi
fikri öztürk/web sayfası/ist402.html (3.Ders)
Tablolar: Hazırlama ve Analiz
fikri öztürk/web sayfası/ist402.html (4.Ders)
Veri Đndirgeme, Kümeleme Analizi, Diskriminant Analizi
fikri öztürk/web sayfası/ist402.html (12.Ders)
6. Veri Merkezi, Derinlikler ve Uygulamaları
Bir boyutlu veri analizinde birçok istatistik esasında sıra istatistiklerinin bir
fonksiyonudur. Bir boyutlu dağılımlar reel sayıların Borel cebiri üzerinde olup, reel
sayılardaki sıralama doğal olarak sıra istatistiklerini ortaya çıkarmaktadır. Çok boyutlu
dağılımlarda, bir boyutlu dağılımlarda olduğu gibi sıra istatistiği tanımlamak mümkün
olmamakla birlikte, konkominantlar veya çok boyutlu verilerin bulunduğu Euclide
uzayındaki normlara dayalı bazı sıra istatistikleri tanımlanabilmektedir. Son yıllarda
çok boyutlu veriler için oluşturulan derinlik ve merkez kavramlarına dayalı olarak
tanımlanan sıra istatistikleri, bir boyutlu sıra istatistiklerine benzer biçimde bazı işler
görebilmektedir.
Bir boyutlu veri için ortanca sıra istatistiklerine dayalı bir kavram olmak üzere,
veri kümesinin merkezi olarak da adlandırılabilir. Merkez noktasına (ortancaya)
ulaşmak için izlenebilecek bir yol aşağıdaki serpilme çizitinde görüldüğü gibidir. Her
iki uçtaki iki değer atılır (veri soyulur) ve böyle devam edilerek en sonunda bir nokta
kalmışsa bu merkezdir, iki nokta kalmışsa buların ortalaması merkezdir (ortancadır).
ortalama
*
*
*
** * * * *
*
* *
*
*
*
*
** * * * *
*
* *
*
*
** * * * *
*
* *
** * * * *
*
*
* * ** *
*
* ** *
**
m
Ortanca gibi ortalama da bir veri kümesi için merkez olarak adlandırılabilir.
Đki boyutlu veri için merkez kavramı:
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*m
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
Çok boyutlu verilerde sıralama yapılamadığı için sıra istatistiklerine dayalı ortanca da
söz konusu değildir. Bir boyutlu veride yapıldığı gibi “dıştaki” verileri soya soya en
son kalan tek noktaya veya en son kalan iki yada üç noktanın ortalamasına merkez
diyebiliriz.
Derinlik kavramı
Bir boyutlu olasılık dağılımlarında uçlardaki noktalardan ortancaya doğru
gittikçe, dağılımda daha derine doğru gidiyoruz sezgisine dayalı olarak bir derinlik
kavramı tanımlanabilir. Örneğin, yüzdeliği (quantile) k olan bir noktanın derinliği
0.5 − 0.5 − k olarak tanımlanırsa, böyle bir derinlik kavramı için birinci çeyreklik ile
üçüncü çeyreklik aynı derinliğe sahip ve en derin nokta ortanca olacaktır. En derin
noktaya merkez denirse, derinlik kavramına dayalı olarak bir merkez kavramı
tanımlanmış olur.
x ∈ R verilen bir nokta ve F , d boyutlu
dağılım fonksiyonu olmak üzere, x noktasının
d
d
X rasgele vektörünün R de tanımlı
F nin “merkezine” yakınlığının bir
ölçüsü derinlik kavramına dayanılarak yapılabilir. Bunun örneklem karşılığı, x ∈R d
noktasının, X1 , X2 ,..., X n gözlem kümesinin (bulutunun) merkezine yakınlığının ölçüsü
olarak ifade edilebilir.
Mahalanobis Derinliği (Mahalanobis Depth):
F , d boyutlu X rasgele vektörüne ait dağılım fonksiyonu, µF ortalama (beklenen
değer) vektörü, Σ F varyans kovaryans matrisi ve x ∈ R d bir nokta olmak üzere,
MD( F ; x) = 1+ ( x − µ )′Σ−1( x − µ ) 
F F
F 

−1
değerine x noktasının F dağılım fonksiyonuna göre Mahalanobis derinliği denir.
Mahalanobis derinliğinin örneklem karşılığı, µF yerine X örneklem ortalaması ve
Σ F yerine S 2 örneklem varyans kovaryans matrisinin konulmasıyla,
MDˆ ( F ; x) = 1+ ( x − X )′(S 2 )−1( x − X ) 

−1

şeklinde yazılır.
Yarı Uzay Derinliği (Half-space Depth):
x ∈ R d noktasının F dağılımına göre yarı düzlem derinliği,
HD(F; x) = inf P(H ): H , Rd de x 'i içeren kapalı bir yarı hiperdüzlem
H
olarak tanımlanır. Yarı uzay derinliğinin örneklem karşılığı,
{
 s{X i ; X i ∈ H}

HDˆ (F ; x) = inf 
; H , Rd de x i içeren kapalı bir yarı hiperdüzlem
H
n


biçimindedir. (s(A), A kümesinin eleman sayısını göstermektedir.)
}
Simpleks Derinliği (Simplicial Depth):
x ∈ R d noktasının F dağılım fonksiyonuna göre simpleks derinliği,

SD ( F ; x) = P  x ∈ S  X , X , ..., X
d +1 
 1 2




olarak tanımlanır. Burada X1 , X2 , ..., X d +1 ‘ler F dağılımından alınan d + 1 tane rasgele
nokta (vektör) ve S [X1 , X2 ,..., X d +1 ], köşeleri bu noktalar olan bir simplekstir. Bilindiği
gibi R2 ’de simpleksler üçgenlerdir. Simpleks derinliğinin örneklem karşılığı,
SDˆ ( F ; x) =
 n 


 d +1


−1

∑ I S  X ,X ,⋯, X
 ( x)
1 2
d +1

şeklindedir. Burada, I gösterge fonksiyonu olup, toplam X1 , X2 ,..., X n örneklemindeki
n tane noktanın (vektörün) simpleks oluşturan d + 1 ‘li kombinasyonları üzerinden
yapılmaktadır.
Konveks Katman Derinliği (Convex Hull Peeling Depth):
Çok değişkenli dağılımdan alınan gözlem değerlerini içeren en küçük konveks
küme bir çokyüzlü olmak üzere, bu konveks kümenin köşe noktaları eldeki
gözlemlerin birinci katmanı, ilk katman gözlemleri kaldırılıp geriye kalan gözlemlerin
birinci katmanı gözlemler için ikinci katman olarak adlandırılsın ve takip eden
katmanlarda aynı şekilde oluşturulsun. Buna göre X1 , X2 ,..., X n örneğinde X k noktasının
bu veri kümesine göre derinliği, X k noktasının dahil olduğu katmanın düzeyi (katman
sıra sayısı), olarak adlandırılır. Gözlemin, dahil olduğu katman sıra sayısı büyüdükçe
derinliği artıyor demektir. Burada katmanların oluşumu da bir soğanın katlarına
benzetilebilir. Sadece örneklem için düşünülen bu derinliğin sürekli kitle dağılımları
için karşılığı tanımsızdır.
Olabilirlik Derinliği (Likelihood Depth):
x ∈ R d noktasının F dağılım fonksiyonuna göre olabilirlik derinliği, eğer rasgele
vektör f olasılık yoğunluk fonksiyonuna sahipse,
LD(F; x) = f (x)
olarak tanımlanır. Olabilirlik derinliğinin örneklem karşılığı ise olasılık yoğunluk
fonksiyonunun uygun herhangi bir fˆ tahmini yardımıyla,
ˆ (F; x) = fˆ (x)
LD
olarak tanımlanır.
Çok boyutlu veriler için doğal bir sıralama söz konusu olmamakla birlikte,
yukarıda tanımlanan derinlik ölçüleri, gözlemleri dağılımın merkezinden dışarıya
doğru sıralamaktadır. Bu derinlik ölçülerinin bazılarında derinlik değerleri [0,1]
aralığındadır. Derinliği en büyük olan noktaya derinlik merkezi ya da kısaca merkez
denir. En büyük derinliğe sahip birden çok nokta bulunduğunda bunların ortalaması
merkez olarak alınmaktadır. Derinlik sıralamasında, eşderinlikli gözlemlerin olması
halinde sıra istatistiklerinde olduğu gibi işlem yapılmaz; aynı derinliğe sahip olan
gözlemlere birbirlerini takip eden derinlik sıra numarası verilir (gözlem sayısı kadar
derinlik sıra numarası söz konusudur).
D ( F ; x ) herhangi bir derinlik ölçüsü olmak üzere, t ∈ [0,1] için {x : D ( F ; x ) = t}
kümesine t derinlikli kontur veya seviye kümesi denir.
R(t ) = {x : D( F ; x) > t}
kümesi t derinlikli kontur ile çevrili bölge olmak üzere,
C p = ∩{R(t ): P( R(t )) ≥ p}
t
kümesine p. merkezi bölge denir. Bunun Ĉ p örneklem karşılığı, np tamsayı
olduğunda np tane, olmadığında np + 1 tane en derin gözlemi kapsayan en küçük
konveks kümedir.
Đki değişkenli standart normal dağılımdan alınan 500 birimlik bir örneklemde
p = 0.25 , 0.50 , 0.75 , 0.90 için simpleks derinliğine dayalı merkezi bölgelerini
çevreleyen derinlik konturları aşağıda solda ve iki değişkenli bir üstel dağılım için
aynı konturlar sağda görünmektedir.
(Liu, Regina Y., Parelius, J. M., and Singh, K.(1999). Multivariate analysis by data depth:
Descriptive statistics, graphics and inference(with dicussions), The Annals of Statistics, Vol. 27, No.
3, 783-858).
Çanta Çiziti
Verilerin genellikle normal dağılım ile modellendiği ve iki boyutlu normal
dağılımlarda güven bölgelerinin elipsler olduğu göz önüne alınırsa, elipslerin bir boyuttaki
kutuların yerine kullanılması doğal görünmektedir. Verilerin %50 ‘sini içeren ve içte olan bir
elips menteşe (hinge) ve sıradışı değerleri ayırd eden dıştaki elips çit (fence) vazifesini
görebilir. Bu elipslerin oluşturulması bir tarafa, eliptik olmayan dağılımlar için uygun
olmayacakları ortadadır. Eliptik olmayan dağılımlar için tek parçalı elips yerine, dört farklı
elipsin parçalarından oluşan menteşe ve çit önerilmektedir. Aşağıda, Goldberg ve Iglewicz
(1992) tarafından sunulan, elips çiziti (robust elliptic plot, relplot) ile dört elips parçasından
oluşan çizit (quarter elliptic plot, quelplot) özetlenmektedir. Đki değişkenli dağılımlarda
verilerin %50 sinin bulunduğu ve bir değişkenlide kutuya karşılık gelen bölgeye çanta denir.
Böylece, kutu çizitinin karşılığı da çanta çiziti olmaktadır.
Normal dağılıma sahip olan iki boyutlu ( X , Y ) rasgele vektörünün dağılımı,
değişkenlerin ortalamaları ( µ X , µ Y ), standart sapmaları ( σ X , σ Y ) ve aralarındaki korelasyon
katsayısı ( ρ ) gibi beş parametre ile belirlenebilir. Bunların örneklem karşılıkları
( X , Y , S X , SY , R ) bu parametreler için tahmin ediciler olmak üzere, örneğin uç değerlere karşı
dirençli (robust) olan başka tahmin ediciler de düşünülebilir. Bir boyutlu normal dağılımda,
ortalama aynı zamanda konum (location) ve standart sapma aynı zamanda ölçek (scale)
parametresidir.
Goldberg ve Iglewicz (1992) elips çizitini (relplot) aşağıdaki gibi oluşturmaktadır.
Bir ( X , Y ) rasgele vektörünün marjinal dağılımlarının merkezi eğilim ve yayılım
ölçüleri ile değişkenler arasındaki ilişki katsayısı için birer tahmin edici sırasıyla
TX* , TY* , S X* , SY* , R* olsun. i = 1, 2,...n için ( X i , Yi ) gözlemleri,
X si =
X i − TX*
Yi − TY*
,
Y
=
si
S X*
SY*
olarak standartlaştırılmakta ve gözlemlerin ( TX* , TY* ) noktasından,
X si2 + Ysi2 − 2 R* X si Ysi
Ei =
, i = 1, 2,...n
1 − R*2
uzaklıkları hesaplanmaktadır. TX* , TY* , S X* , SY* , R* ler sırasıyla örneklem ortalamaları, standart
sapmalar ve Pearson korelasyon katsayısı olduğunda Ei uzaklıkları Mahalonobis uzaklıkları
olmaktadır. Bu uzaklıkların ortancası Em ve
1 + R*
1 − R*
R1 = Em
, R2 = Em
2
2
olmak üzere, θ ∈ [0, 2π ] için,
X = TX* + ( R1 cos θ + R2 sin θ ) S X*
Y = TY* + ( R1 cos θ − R2 sin θ ) SY*
olarak elde edilen ( X , Y ) noktaları çantayı belirleyen iç elipsi oluşturmaktadır. Dış elips ile
iç elipsin alanları oranı c sabiti olmak üzere, yukarıdaki ifadelerde Em yerine,
Emax = max { Ei : Ei2 < cEm2 , i = 1, 2,..., n}
alınmasıyla elde edilen ( X , Y ) noktaları çit’i belirleyen dış elipsi oluşturmaktadır. c sabiti ile
ilgili olarak, Goldberg ve Iglewicz (1992) bir gözlem için %99 luk bir güven sınırı
oluşturmak amacıyla, c = 7 değerini önermektedirler (normal dağılım durumunda,
Ei ∼ [2(n − 1) /(n − 2)]F(2,n − 2) olmak üzere, n = 77 için F(2,n − 2;0.99) / F(2,n − 2;0.50) =7 dır).
n = 100 birimlik iki boyutlu bir veri için serpilme diyagramı ile çanta çiziti aşağıdaki gibidir.
Bu ve aşağıdaki şekillerde eksenler marjinal dağılımlardaki değişkenleri göstermektedir.
4
3
2
1
0
-1
-2
-3
-5
-4
-3
-2
-1
0
1
2
3
4
5
Goldberg ve Iglewicz (1992) dört elips parçasından oluşan çiziti (quelplot) aşağıdaki
gibi oluşturmaktadır.
TX* , TY* , S X* , SY* , R* yanında, elipsin eksenlerinin pozitif yönündeki artıkların toplam
standart sapmasının oranını yansıtan asimetri parametreleri P1 ve P2 de kullanılarak,
Z1i =
Ysi + X si
,
2(1 + R* )
Z 2i =
 Z1i
, Z1i > 0
 2P

1
F1i = 
 Z1i
, Z1i ≤ 0
 2(1 − P1 )
Ei = F12i + F22i
Ysi − X si
2(1 − R* )
,
 Z 2i
, Z2i > 0
 2P

2
F2 i = 
 Z 2i
, Z2i ≤ 0
 2(1 − P2 )
i = 1, 2,...n
,
hesaplanmaktadır.
R1 (−1) = 2(1 − P1 ) Em
1 + R*
2
R2 (−1) = 2(1 − P2 ) Em
1 − R*
1 − R*
, R2 (+1) = 2 P2 Em
2
2
, R1 (+1) = 2 P1 Em
1 + R*
2
olmak üzere, θ ∈ [0, 2π ] için,
X = TX* + [ R1 (sgn(cos θ )) cos θ + R2 (sgn(sin θ )) sin θ ]S *X
Y = TY* + [ R1 (sgn(cos θ )) cos θ − R2 (sgn(sin θ )) sin θ ]SY*
olarak elde edilen ( X , Y ) noktaları çantayı oluşturmaktadır. Çit’i oluşturmak için yukarıdaki
ifadelerde Em yerine Emax kullanılabilir.
P1 ve P2 asimetri parametrelerini belirlemek için önerilen yöntemlerden birisi
aşağıdaki gibidir.
 P ( Z − ɵz1 )
, Z1i < ɵz1
Z1'i =  1 1i
(1 − P1 )( Z1i − zɵ 1 ) , Z1i ≥ ɵz1
olmak üzere, P1 ile zɵ 1 değerleri,
n
∑ Z1'i = 0 ,
i =1
n
∑Z
i =1
'2
1i
sgn( Z1i ) = 0
ve P2 ile ɵz 2 değerleri,
n
∑ Z 2' i = 0 ,
i =1
n
∑Z
i =1
olacak şekilde belirlenmektedir.
'2
2i
sgn( Z 2i ) = 0
 P ( Z − zɵ 2 )
, Z 2 i < zɵ 2
Z 2' i =  2 2i
(1 − P2 )( Z 2i − zɵ 1 ) , Z 2 i ≥ zɵ 2
n = 100 birimlik iki boyutlu bir veri için serpilme diyagramı ile tek elips (mavi çizgi) çanta
çiziti ve dört elips parçasından oluşan (kırmızı çizgi) çanta çiziti aşağıdaki gibidir.
6
5
4
3
2
1
0
-1
-2
-4
-3
-2
-1
0
1
2
3
TX* , TY* , S X* , SY* , R* yerine başka istatistiklerin, özellikle konum ve ölçek parametreleri
için dirençli (robust) tahmin edicilerin kullanılmasıyla elde edilen çizitler verileri daha iyi bir
şekilde betimlemektedir. Bununla ilgili örnekler Goldberg ve Iglewicz (1992) de
TX* , TY* yerine, TX = TX* +
bulunmaktadır. Örneğin,
zɵ 1 − zɵ 2
SX
2
,
TY = TY* +
zɵ 1 + zɵ 2
SY alınarak
2
çizilen dört elips parçasından oluşan çanta çiziti (yeşil çizgi) diğerlerine göre serpilmeyi daha
iyi yansıtmaktadır.
6
5
4
3
2
1
0
-1
-2
-3
-4
-4
-3
-2
-1
0
1
2
3
4
Derinlikler ve Çanta Çizitleri
Belli bir derinlik ölçüsüne göre gözlemler dağılımın merkezinden dışarıya doğru
sıralansın. Đki boyutlu sıralanmış gözlemlerin merkeze yakın olan %50’sini içeren
konveks çokgene çanta denir. Çanta, tek boyutlu verilerin betimlenmesindeki
kutunun karşılığıdır. Çanta sınırından bir gözleme olan uzaklık, merkezden çanta
sınırına olan uzaklığın 3 katından fazla olduğunda bu gözlem bir sıradışı gözlem
olarak nitelendirilir. Böyle bir gözlem, aşağıda merkez ile birleştirilmiş çizginin
ucundaki gözlemdir. Çantanın çevre noktalarının merkeze olan uzaklıklarını 3 ile
çarpıp merkezden uzaklaştırarak çit (fence) elde edilir. Çitin dışında kalan noktalar
sıradışı gözlem olarak nitelendirilir. Sıradışı gözlemler dışındaki gözlemleri içeren en
küçük konveks çokgen yastık (bolster) olarak adlandırılır. Katman derinliğine göre
çanta, yastık ve bir tane sıra dışı gözlem bulunduran veri aşağıda soldadır. Çanta koyu,
etrafındaki yastık daha açık olarak renklendirilir ve çit görüntülenmeyebilir. Sağda
%25, %50, %75 derinlikli konturlar (çeyreklik çizgileri) ve %25., %50., %75.
merkezi bölgeler yer almaktadır.
DD-Çizitleri
d
üzerinde iki dağılımın dağılım fonksiyonları F , G ve D (.) bir derinlik ölçüsü
olmak üzere, DD ( F , G ) = {( D ( F ; x), D (G; x)) : x ∈ R d } kümesinin R 2 deki grafiğine DD-çiziti
denir. Bunun örneklem karşılığı,
R
ˆ ˆ ( F , G ) = {( Dˆ ( F ; x ), Dˆ (G ; x )) : x ∈ { X , X , ..., X } ∪ {Y , Y , ..., Y }}
DD
n
m
1 2
1 2
dır. Burada,
örneklemdir.
{ X1, X 2 ,..., X n }
kümesi
F
‘den ve
{Y1, Y2 , ..., Ym }
kümesi
G
den birer
DD-çizitleri uyum iyiliği sınamalarında kullanılabilir.
ˆ ˆ ( F , G ) = {( Dˆ ( F ; x ), Dˆ (G ; x )) : x ∈ { X , X , ..., X } ∪ {Y , Y , ..., Y }}
DD
n
m
1 2
1 2
ˆ ( F , G ) = {( Dˆ ( F ; x ), D (G ; x )) : x ∈ { X , X , ..., X }}
DD
n
1 2
DDˆ ( F , G ) = {( D ( F ; x ), Dˆ (G ; x )) : x ∈ {Y1 , Y2 ,..., Ym }}
ˆ ˆ ( F , F ) -çiziti Şekil-a, konum
olmak üzere, aynı dağılımdan iki örneklem için DD
ˆ ˆ ( F , G ) -çiziti Şekil-b, ölçek
parametresi farklı olan iki dağılımdan iki örneklem için DD
ˆ ˆ ( F , G ) -çiziti Şekil-c ve çarpıklığı farklı olanlar için
parametresi farklı olanlar için DD
ˆ ˆ ( F , G ) - çiziti Şekil-d deki gibi olabilmektedir
DD
(Liu, Regina Y., Parelius, J. M., and Singh, K.(1999). Multivariate analysis by data depth:
Descriptive statistics, graphics and inference(with dicussions), The Annals of Statistics, Vol. 27, No.
3, 783-858).
Şekil-a
Şekil-c
Şekil-b
Şekil-d
Bir boyutlu veriler için var olan ve kolayca kavranan histogram ve kutu çiziti
gibi betimsel istatistiklerin iki boyutlu verilere genişletilmesi veri analizinde yararlı
görsel bilgi elde edilmesini sağlamaktadır.
Bir boyutlu veriler için doğal tanımlaması olan sıra istatistiklerinin iki ve daha
yüksek boyutlara doğrudan bir genişletilmesi yapılamamakla birlikte, derinlik gibi
bazı
kavramlar
yardımıyla
sıra
istatistiklerine
benzer
istatistikler
tanımlanabilmektedir.
Örnek:
>> veri=mvnrnd([10 10],[9 5;5 4],100);
>> plot(veri(:,1),veri(:,2),'.')
16
14
12
10
8
6
4
2
4
6
8
10
12
14
16
18
>> ort=mean(veri)
ort = 10.2745 10.1257
>> hold on;
>> plot(10.2745,10.1257,'*')
>> plot(10,10,'*r')
16
14
12
10
8
6
4
2
4
6
8
10
12
14
16
18
% Mahalonobis Uzaklığı: MahUzak = ( x − µ )′Σ −1( x − µ )
>> x=[15 15];
>> MahUzak=(x-[10 10])*pinv([9 5;5 4])*(x-[10 10])'
MahUzak = 6.8182
>> x=[10 15];
>> MahUzak =(x-[10 10])*pinv([9 5;5 4])*(x-[10 10])'
MahUzak = 20.4545
>> plot(10,15,'*g')
>> plot(15,15,'*k')
16
14
12
10
8
6
4
2
4
6
8
10
12
14
16
>> S=cov(veri)
S=
9.2736
5.3961
5.3961
4.4133
% Örneklem Mahalonobis Uzaklığı: MahUzak = ( x − X )′( S 2 ) −1( x − X )
>> MahUzak=([10 15]-ort)*pinv(S)*([10 15]-ort)'
MahUzak = 19.9073
>> MahUzak =([15 15]-ort)*pinv(S)*([15 15]-ort)'
MahUzak = 5.9527
>> mahal([15 15],veri)
ans = 5.9527
>> mahal([10 15],veri)
ans = 19.9073
18
Mahalonobis Derinliği:
[
]
−1
−1
MD(F; x) = 1 + (x − µ )′Σ (x − µ )
F F
F

2 −1
 −1
MDˆ (F; x) = 1+ (x − X )′ (S ) (x − X )


n
−1
X = n ∑ k =1 Xk
Sij = n
−1
∑
n
k =1
( Xik − Xi ) ′(X jk − X j ), i, j = 1, 2,..., d
S = (Sij )d × d
2
Maholonobis Uzaklığı
Mahalonobis Derinlikleri
>> MahUz_veri=mahal(veri,veri)
>> MD=(1+MahUz_veri).^(-1)
MahUz_veri =
MD =
3.3952
3.6106
1.8233
5.4402
3.1805
3.9444
1.8636
0.1804
1.3726
5.2415
3.2716
2.9233
0.7596
1.5359
2.5823
0.3746
0.5706
0.5477
1.7172
0.4576
0.3247
1.3427
0.8992
0.3251
2.2077
4.5215
2.0074
2.6146
0.0030
1.0401
4.2399
1.4453
2.2688
2.8379
0.2841
0.2042
4.0870
1.7496
3.3852
0.0372
6.7545
2.4027
1.4359
6.3032
5.8961
0.7443
0.6695
1.9280
6.9909
1.8254
1.3894
0.1189
1.4133
3.3646
1.9743
0.4847
0.3177
0.2275
0.2169
0.3542
0.1553
0.2392
0.2023
0.3492
0.8472
0.4215
0.1602
0.2341
0.2549
0.5683
0.3943
0.2791
0.7275
0.6367
0.6461
0.3680
0.6861
0.7549
0.4269
0.5265
0.7547
0.3118
0.1811
0.3325
0.2767
0.9970
0.4902
0.1908
0.4090
0.3059
0.2606
0.7788
0.8304
0.1966
0.3637
0.2280
0.9641
0.1290
0.2939
0.4105
0.1369
0.1450
0.5733
0.5990
0.3415
0.1251
0.3539
0.4185
0.8937
0.4144
0.2291
0.3362
0.6735
0.7589
>> [MD_sort indis]=sort(MD)
MD_sort =
indis =
0.0993
0.1124
0.1251
0.1290
0.1369
0.1450
0.1549
0.1553
0.1602
0.1784
0.1811
0.1908
0.1966
0.2023
0.2035
0.2169
0.2275
0.2280
0.2291
0.2337
0.2341
0.2387
0.2392
0.2549
0.2563
0.2606
0.2648
0.2764
0.2767
0.2791
0.2864
0.2939
0.2958
0.3032
0.3059
0.3118
0.3325
0.3362
0.3406
0.3415
0.3492
0.3539
0.3542
0.3637
0.3663
0.3680
0.3943
0.4090
0.4105
0.4106
0.4144
0.4185
0.4215
0.4269
0.4284
0.4294
0.4463
64
93
49
41
44
45
58
4
10
100
26
31
37
6
96
2
1
39
54
68
11
85
5
12
87
34
70
98
28
15
65
42
69
67
33
25
27
55
91
48
7
50
3
38
83
19
14
32
43
61
53
51
9
22
75
74
97
0.1549
0.7423
0.9808
0.4106
0.5059
0.7007
0.0993
0.2864
0.8424
0.3032
0.2337
0.2958
0.2648
0.5960
0.5589
0.6387
0.4294
0.4284
0.9473
0.9564
0.4628
0.7602
0.6114
0.6208
0.9012
0.3663
0.6228
0.2387
0.5108
0.2563
0.7142
0.6845
0.5607
0.3406
0.8633
0.1124
0.6839
0.6225
0.2035
0.4463
0.2764
0.8916
0.1784
5.4553
0.3472
0.0195
1.4353
0.9765
0.4272
9.0737
2.4911
0.1871
2.2986
3.2785
2.3812
2.7770
0.6778
0.7893
0.5656
1.3291
1.3340
0.0557
0.0456
1.1607
0.3154
0.6357
0.6107
0.1097
1.7298
0.6057
3.1897
0.9576
2.9016
0.4002
0.4610
0.7834
1.9364
0.1583
7.8992
0.4622
0.6063
3.9150
1.2406
2.6174
0.1215
4.6052
78
30
62
86
23
72
90
13
46
71
47
80
81
95
84
17
73
18
56
94
89
20
63
88
16
59
24
21
57
79
35
36
66
8
92
99
52
82
76
77
40
60
29
0.4628
0.4902
0.5059
0.5108
0.5265
0.5589
0.5607
0.5683
0.5733
0.5960
0.5990
0.6114
0.6208
0.6225
0.6228
0.6367
0.6387
0.6461
0.6735
0.6839
0.6845
0.6861
0.7007
0.7142
0.7275
0.7423
0.7547
0.7549
0.7589
0.7602
0.7788
0.8304
0.8424
0.8472
0.8633
0.8916
0.8937
0.9012
0.9473
0.9564
0.9641
0.9808
0.9970
Merkezdeki gözlem (en derin):
>> veri(29,:)
ans = 10.3056 10.2043
En uzak gözlem):
>> veri(64,:)
ans = 8.1848 12.2197
16
14
12
10
8
6
4
2
4
6
8
10
12
14
16
18
Mahalonobis derinliğine dayalı DD-çizitleri
ˆ ˆ ( F , G ) = {( Dˆ ( F ; x ), Dˆ (G ; x )) : x ∈ { X , X , ..., X } ∪ {Y , Y , ..., Y }}
DD
n
m
1 2
1 2
ˆ ( F , G ) = {( Dˆ ( F ; x ), D (G ; x )) : x ∈ { X , X , ..., X }}
DD
n
1 2
DDˆ ( F , G ) = {( D ( F ; x ), Dˆ (G ; x )) : x ∈ {Y1 , Y2 ,..., Ym }}
>> veri2=rand(50,2)*10+5*ones(50,2);
>> figure
>> hold on
>> plot(veri(:,1),veri(:,2),'.')
>> plot(veri2(:,1),veri2(:,2),'.r')
>> veri3=mvnrnd([10 10],[9 5;5 4],50);
>> figure
>> hold on
>> plot(veri(:,1),veri(:,2),'.')
>> plot(veri3(:,1),veri3(:,2),'.r')
16
16
14
14
12
12
10
10
8
8
6
6
4
4
2
4
6
8
10
12
14
16
>> DD1=[mahal(veri,veri);mahal(veri2,veri)];
>> DD2=[mahal(veri,veri2);mahal(veri2,veri2)];
>> figure;plot(DD1,DD2)
18
0
2
4
6
8
10
12
14
16
18
>> DD1=[mahal(veri,veri);mahal(veri3,veri)];
>> DD2=[mahal(veri,veri3);mahal(veri3,veri3)];
>> figure;plot(DD1,DD2)
10
12
9
10
8
7
8
6
5
6
4
4
3
2
2
1
0
0
0
5
10
15
20
25
30
35
0
1
2
3
4
5
6
7
8
9
10
Saçılım Eğrisi
Belli bir D derinliğine göre oluşturulan C p bölgelerinin hacimleri p nin
artmasıyla büyümektedir. Bu artış merkezden dışa doğru derinlik değişim hızına bağlı
olup, dağılımın saçılımı ile ilgilidir.
S ( p) = hacim(C p ) , p ∈[0,1]
Sn ( p) = hacim(C p ) , p ∈[0,1]
olmak üzere, saçılım eğrisi veya ölçek eğrisi (scale curve) denen, p ye karşılık S ( p)
‘nin grafiği kitle dağılımı ve p ye karşılık Sn ( p) ’nin grafiği örneklemin saçılımı
hakkında fikir vermektedir. N (0, I ) ile N (0, 4 I ) dağılımlarından alınan örneklemler
için saçılım eğrileri aşağıda soldaki gibidir. Saçılım eğrileri parametre vektörünün
yansız tahmin edicilerinin saçılımlarını karşılaştırmada çok kullanışlı bir araçtır.
Örneğin çok değişkenli normal dağılımın ortalaması için birer tahmin edici olan
örneklem ortalaması, bileşen ortancalar vektörü (componentwise median), yarı uzay
ortancası (merkez noktası) ve simpleks ortancası için 500 tane n = 100 birimlik
simülasyon örneklemi ile elde edilen tahmin noktalarının saçılım eğrileri sağdaki
gibidir.
Bir boyutlu veriler için var olan ve kolayca kavranan histogram, frekans
poligonu ve kutu çiziti gibi betimsel istatistiklerin iki boyutlu verilere genişletilmesi
veri analizinde yararlı görsel bilgi elde edilmesini sağlamaktadır. Bu kavramların daha
yüksek boyutlara genişletilmişleri görselleştirilememektedir. Bir boyutlu veriler için
doğal tanımlaması olan sıra istatistiklerinin iki ve daha yüksek boyutlara doğrudan bir
genişletilmesi yapılamamakla birlikte, derinlik gibi bazı kavramlar yardımıyla sıra
istatistiklerine benzer istatistikler tanımlanabilmektedir. Burada teorik esaslara
inilmeden yapılan kısa özetlemelerden görüldüğü gibi çok boyutlu verilerin
betimlenmesi oldukça çetin bir matematiksel altyapı ve bilgisayar görüntüleme imkânı
gerektirmektedir.
7. Veri Madenciliği
Data mining
From Wikipedia, the free encyclopedia
Not to be confused with analytics, information extraction, or data analysis
Data mining is the computing process of discovering patterns in large data sets involving methods
at the intersection of artificial intelligence, machine learning, statistics, and database systems.[1] It is
an interdisciplinary subfield of computer science…
Veri Madenciliği
Basit bir tanım yapmak gerekirse veri madenciliği, büyük ölçekli veriler arasından bilgiye ulaşma,
bilgiyi madenleme işidir. Ya da bir anlamda büyük veri yığınları içerisinden gelecekle ilgili
tahminde bulunabilmemizi sağlayabilecek bağıntıların bilgisayar programı kullanarak aranmasıdır…
…Veritabanlarında Bilgi Keşfi (Đng. VBK - Knowledge Discovery From Databases - KDD).
1. Veri bütünleştirme (birçok veri kaynağını birleştirebilmek)
2. Veri seçme (yapılacak olan analizle ilgili olan verileri belirlemek )
3. Veri dönüşümü (verinin veri madenciliği tekniğinden kullanılabilecek hale dönüşümünü
gerçekleştirmek)
4. Veri madenciliği (veri örüntülerini yakalayabilmek için akıllı metotları uygulamak)
5. Örüntü değerlendirme (bâzı ölçümlere göre elde edilmiş bilgiyi temsil eden ilginç örüntüleri
tanımlamak)
6. Bilgi sunumu (mâdenciliği yapılmış olan elde edilmiş bilginin kullanıcıya sunumunu
gerçekleştirmek).
…
8. Wikipedia
Aşağıdaki yazı lisansüstü öğrencilerimizden Seda Büyükaksoy tarafından dilimize çevrilmiştir.
Yazının kaynağı: http://en.wikipedia.org/wiki/Exploratory_data_analysis
Kaynaklar
1. fikri öztürk/web sayfası/ist402.html
2. fikri öztürk/web sayfası/ist432.html
3. Atakan,C., Đ.Karabulut. ve F. Öztürk, (2006) Đki Boyutlu Veriler Đçin Görsel Etkili Bazı Betimsel
Đstatistikler, fendergisi.selcuk.edu.tr
4. Atakan,C. ve Đ.Karabulut, (2003) Derinliğe Dayalı Diskriminasyon, fendergisi.selcuk.edu.tr
5.Aydoğdu,H., Đ.Karabulut ve F.Öztürk (2000), Derinlik çizgileri ve çanta çizitleri,
5.Ulusal Biyoistatistik Kongresi Bildiri Kitabı, 191-199, Osmangazi Üniversitesi, Eskişehir.
6. Karabulut, Đ. ve F.Öztürk (2001), Derinlik ölçüleri ve çok değişkenli normal dağılıma uygunluğun
grafikle değerlendirilmesi, Cilt:14, No:2, Gazi Üniversitesi Fen Bilimleri Enstitüsü Dergisi.
7. Goldberg, K.M. and B.Iglewicz (1992), Bivariate extensions of the boxplot, Technometrics, Vol. 34,
No.3, 307-320.
8. Liu, R.Y. (1990), On a notion of data depth based on random simplices, The Annals of Statistics, Vol. 18,
No. 1, 405-414.
9. Liu, R.Y., J.M.Parelius and K.Singh(1999), Multivariate analysis by data depth: Descriptive statistics,
graphics and inference(with dicussions), The Annals of Statistics, Vol. 27, No. 3, 783-858.
10. Rousseeuw, P.J. , I.Ruts and J.W.Tukey (1999), The bagplot: A bivariate boxplot,
The American Statistician, Vol. 53, N0. 4, 382-387.
11. Öztürk, F. (2003) Đki Boyutlu Veriler Đçin Bazı Betimsel Đstatistikler, Sempozyum Bild.,
Gazi Üniversitesi.
12. Tukey, J. W.(1977), Exploratory Data Analysis, Addison Wesley.
13.
Download