ankara üniversitesi fen bilimleri enstitüsü doktora tezi aktüeryal

advertisement
ANKARA ÜNİVERSİTESİ
FEN BİLİMLERİ ENSTİTÜSÜ
DOKTORA TEZİ
AKTÜERYAL MODELLEMEDE BULANIK DESTEK VEKTÖR
MAKİNELERİ
Furkan BAŞER
İSTATİSTİK ANABİLİM DALI
ANKARA
2013
Her hakkı saklıdır
TEZ ONAYI
Furkan BAŞER tarafından hazırlanan “Aktüeryal Modellemede Bulanık Destek
Vektör Makineleri” adlı tez çalı
çalışması 22/07/2013 tarihinde aşağıdaki
ğıdaki jür
jüri tarafından
oy birliğii ile Ankara Üniversitesi Fen Bilimleri Enstitüsü İstatistik
statistik Ana
Anabilim Dalı’nda
DOKTORA TEZİ olarak kabul edilmiştir.
Danışman
: Prof. Dr. Ay
Ayşen APAYDIN
Jüri Üyeleri :
Başkan
: Prof. Dr. İ. Burhan TÜRKŞEN
TOBB Ekonomi ve T
Teknoloji Üniversitesi
Endüstri Mühendisliği Anabilim Dalı
Üye
: Prof. Dr. Ay
Ayşen APAYDIN
Ankara Üniversitesi, İstatistik Anabilim Dalı
Üye
: Prof. Dr. Burhan Ç
ÇİL
Gazi Üniversitesi, Ekonometri Anabilim Dalı
Üye
: Doç. Dr. Cemal ATAKAN
Ankara Üniversitesi, İstatistik Anabilim Dalı
Üye
: Doç. Dr. Fatih TANK
Ankara Üniversitesi, İstatistik Anabilim Dalı
Yukarıdaki sonucu onaylarım.
Prof. Dr. İbrahim
brahim DEMİR
DEM
Enstitü Müdürü
ÖZET
Doktora Tezi
AKTÜERYAL MODELLEMEDE BULANIK DESTEK VEKTÖR MAKİNELERİ
Ankara Üniversitesi
Fen Bilimleri Enstitüsü
İstatistik Anabilim Dalı
Danışman: Prof. Dr. Ayşen APAYDIN
Aktüerya bilimi, belirsizlik durumunda sigorta prim ve rezervlerini tespit etmek
amacıyla her türlü risk ölçüm ve hesaplamalarını kapsamaktadır. Bu belirsizlikler,
belirsiz ortamlarda optimum karar almaya yarayan ve belli bir mantığa dayalı çıkarım
olarak kabul edilen bulanık küme kuramı ile açıklanabilmektedir. Özellikle modelleme
problemlerinde optimum düzeyde belirsizliğe izin veren yöntemler geliştirmek
uygulamada büyük yarar sağlayacaktır. Çözümleme, öngörü ve denetim gibi alanlarda
farklı amaçlarla kullanılabilen bu yaklaşımların dayanıklılık ve şeffaflık gibi özellikleri
başlıca yararları arasındadır.
Yeni bir makine öğrenmesi tekniği olan destek vektör makineleri (DVM), fonksiyon
tahmini ve sınıflandırma problemlerinin çözümü için önerilmiş olan bir istatistiksel
öğrenme algoritmasıdır. Sinir ağları, bulanık modeller ve sinir-bulanık ortak sistemleri
gibi geleneksel öğrenme ve sistem modelleme yöntemleriyle karşılaştırıldığında, DVM
yüksek genelleme başarımı, en iyileme kapasitesi ve yüksek boyutlu az sayıda veri
üzerinde dahi çalışabilme gibi özelliklere sahiptir. Günümüzde DVM, veri
madenciliğinde, finans alanında, çeşitli mühendislik problemlerinde ve görüntü işleme
uygulamalarında başarıyla kullanılmaktadır.
Birçok problemde olduğu gibi sigorta problemlerinde de güvenilir modellerin
geliştirilmesi, sigorta şirketinin finansal istikrarı için çok önemlidir. Bu çalışmada, bazı
özel sigorta problemlerinde destek vektör makineleri ile (bulanık) regresyon
çözümlemesinin kullanımının önemi üzerinde durulacaktır. Bu doğrultuda, sistem
parametrelerinin optimizasyonu aracılığı ile gizli yapıları tanımlayabilen güçlü bulanık
modellere ulaşılması hedeflenmektedir.
Temmuz 2013, 154 sayfa
Anahtar Kelimeler: Bulanık sistem modelleri, bulanık regresyon, destek vektör
makineleri, ağırlıklı bulanık aritmetik, en küçük kareler prensibi, muallak hasar
rezervleri
i
ABSTRACT
Ph.D. Thesis
FUZZY SUPPORT VECTOR MACHINES IN ACTUARIAL MODELING
Ankara University
Graduate School of Natural and Applied Sciences
Department of Statistics
Supervisor: Prof. Dr. Ayşen APAYDIN
Actuarial science encompasses all types of quantifications of risks under conditions of
uncertainty for the purpose of setting insurance premiums and reserves. These
uncertainties can be explained well by fuzzy set theory which is accepted as an
inference mechanism based on certain logic and is useful for the optimal decisionmaking under uncertainty. Especially in modeling problems, developing methods that
allow an optimum level of uncertainty will be very beneficial in practice. These
methods can be used for different purposes in areas such as analyzing, prediction,
control, and the main benefits of them include features such as robustness and clearness.
A novel machine learning technique, Support Vector Machines (SVM), has recently
been receiving considerable attention in pattern recognition and regression function
estimation problems. Compared to the traditional learning and system modeling
methods such as neural networks, fuzzy models and neuro-fuzzy systems, SVM has a
high generalization performance, optimization capability, and can work even on highdimensional sparse data sets. Recently, SVM is successfully used in data mining,
various financial and engineering problems and image processing applications.
The development of reliable models for insurance problems as well as for the other
problems is very important for the financial stability of the insurance companies. In this
study, we intend to highlight the importance of the usage of (fuzzy) regression analysis
with support vector machines for some featured insurance problems. Accordingly, it is
aimed to achieve the strong fuzzy models that can identify hidden structures through
optimization of the system parameters.
July 2013, 154 pages
Key Words: Fuzzy system models, fuzzy regression, support vector machines,
weighted fuzzy arithmetic, the least squares principle, outstanding claim reserve
ii
TEŞEKKÜR
Tezin hazırlanması sırasında bilgi ve deneyimleri ile desteğini esirgemeyen danışman
hocam Sayın Prof. Dr. Ayşen APAYDIN (Ankara Üniversitesi, İstatistik Anabilim
Dalı)’a en içten teşekkürlerimi sunarım. Çalışmanın gelişimine önerileriyle önemli
katkılarda bulunan, tez izleme komitesi üyelerinden, Sayın Prof. Dr. İ. Burhan
TÜRKŞEN (TOBB Ekonomi ve Teknoloji Üniversitesi, Endüstri Mühendisliği
Anabilim Dalı)’e ve Sayın Doç. Dr. Cemal ATAKAN (Ankara Üniversitesi, İstatistik
Anabilim Dalı)’a teşekkürü bir borç bilirim. Gazi Üniversitesi’nde göreve başladığım
günden bu yana sevgi dolu yaklaşımı ile beni kendine hayran bırakan, bilime ve bilgiye
bakış açısı ile örnek aldığım değerli hocam Sayın Prof. Dr. Burhan ÇİL (Gazi
Üniversitesi, Ekonometri Anabilim Dalı)’e teşekkür ederim. Ayrıca, çalışmalarım
süresince birçok fedakârlıklar göstererek bana destek veren BAŞER ailesinin çok
değerli üyelerine sonsuz minnettarım.
Dünya bilim ve teknolojisine katkıda bulunan saygın bir Türkiye’nin yaratılması için
bilim insanlarına yönelik destekleyici ve teşvik edici bir program olan Bilim İnsanı
Destekleme Programı aracılığıyla; doktora öğrenimime destekte bulunan Türkiye
Bilimsel ve Teknolojik Araştırma Kurumu (TÜBİTAK)’na teşekkürlerimi sunarım.
Furkan BAŞER
Ankara, Temmuz 2013
iii
İÇİNDEKİLER
ÖZET ........................................................................................................................... i
ABSTRACT ............................................................................................................... ii
TEŞEKKÜR ............................................................................................................... iii
ŞEKİLLER DİZİNİ .................................................................................................. vii
ÇİZELGELER DİZİNİ ........................................................................................... viii
1. GİRİŞ VE ÖNCEKİ ÇALIŞMALAR .................................................................... 1
1.1 Giriş ...................................................................................................................... 1
1.2 Önceki Çalışmalar ................................................................................................ 3
2. İSTATİSTİKSEL ÖĞRENME TEORİSİ ............................................................. 8
2.1 Öğrenme Probleminin Yapısı .............................................................................. 8
2.1.1 Öğrenmenin amacı ............................................................................................ 9
2.1.2 Temel öğrenme problemleri ............................................................................ 10
2.1.3 Deneysel risk minimizasyonu .......................................................................... 11
2.2 Öğrenme Sürecinin Tutarlılığı Teorisi .............................................................. 15
2.2.1 Öğrenme teorisinin anahtar teoremi .............................................................. 16
2.2.2 Düzgün yakınsaklık için gerek ve yeter şartlar .............................................. 17
2.2.3 Öğrenme teorisinin üç aşaması ....................................................................... 21
2.3 Büyüme Fonksiyonu ve Vapnik–Chervonenkis Boyutu ................................... 23
2.3.1 Büyüme fonksiyonunun yapısı ........................................................................ 23
2.3.2 Vapnik–Chervonenkis boyutu ........................................................................ 25
2.4 Genelleme Üzerine Sınırlar ................................................................................ 27
2.4.1 Sınıflandırma ................................................................................................... 28
2.4.2 Regresyon ........................................................................................................ 31
2.5 Yapısal Risk Minimizasyonu ............................................................................. 32
3. DESTEK VEKTÖR MAKİNELERİ ................................................................... 36
3.1 Pay Tabanlı Kayıp Fonksiyonları ...................................................................... 39
3.2 Optimum Ayırma Hiperdüzlemi ....................................................................... 44
3.3 Çekirdek Gösterimi ile Nitelik Uzayları ............................................................ 54
3.3.1 Nitelik uzayında öğrenme ............................................................................... 55
3.3.2 Nitelik uzayına örtülü dönüşüm ..................................................................... 57
3.4 Doğrusal Olmayan Sınıflandırıcılar .................................................................. 60
3.5 Destek Vektör Makineleri ile Regresyon ........................................................... 61
3.5.1 Doğrusal regresyon ......................................................................................... 62
3.5.2 Doğrusal olmayan regresyon .......................................................................... 66
3.5.3 -Destek vektör regresyonu ............................................................................ 67
3.6 Toplam Hasar Ödeme Tutarlarının Kestiriminde DVR Yaklaşımı ................. 69
4. BULANIK REGRESYON FONKSİYONLARI YAKLAŞIMI ......................... 74
4.1 Bulanık Kümeleme Algoritmaları ..................................................................... 74
4.1.1 Bulanık c-ortalama kümeleme algoritması .................................................... 77
4.2 Bulanık Regresyon Fonksiyonları ..................................................................... 83
4.2.1 Bulanık regresyon fonksiyonları ile yapı tanımlama ..................................... 86
4.2.2 Bulanık regresyon fonksiyonları ile çıkarım .................................................. 91
4.3 Sigorta Hasar Tutarlarının Kestiriminde Bulanık Regresyon Fonksiyonları
Yaklaşımı ............................................................................................................ 93
5. MELEZ BULANIK DESTEK VEKTÖR REGRESYON ÇÖZÜMLEMESİ ... 99
5.1 Bulanık Sayılar ve Ağırlıklı Bulanık Aritmetik ................................................ 99
5.1.1 Bulanık kümeler ve temel kavramlar ............................................................. 99
5.1.2 Bulanık sayılar .............................................................................................. 101
5.1.3 Ağırlıklı bulanık aritmetik ............................................................................ 104
5.1.4 Bulanık sayıların ağırlıklı fonksiyonu .......................................................... 108
5.2 Melez Bulanık Destek Vektör Regresyonu ...................................................... 112
5.2.1 Bulanık doğrusal regresyon .......................................................................... 113
5.2.2 Bulanık doğrusal olmayan regresyon ........................................................... 116
5.3 Melez Bulanık DVR’nin Diğer Bazı Bulanık Regresyon Yöntemleri ile
Karşılaştırılması ................................................................................................ 118
6. SİGORTA HASAR REZERVLERİ ................................................................. 126
6.1 Geometrik Ayırma Yöntemi ............................................................................ 129
6.2 Sigorta Hasar Rezervlerinin Kestirimi için Önerilen Algoritma ................... 132
6.3 Melez Bulanık DVR ile Sigorta Hasar Rezervlerinin Kestirimi ..................... 135
7. SONUÇ VE TARTIŞMA ................................................................................... 140
KAYNAKLAR ....................................................................................................... 143
ÖZGEÇMİŞ ........................................................................................................... 151
ŞEKİLLER DİZİNİ
Şekil 2.1
Öğrenme makinesi modeli ......................................................................... 9
Şekil 2.2
DRM prensibinin tutarlılığı ...................................................................... 15
Şekil 2.3
Büyüme fonksiyonunun davranışı ............................................................ 24
Şekil 2.4
Gerçel değerli fonksiyonlar kümesinin VC boyutu ................................... 27
Şekil 2.5
Fonksiyonlar kümesinin yapısı ................................................................. 33
Şekil 2.6
değerinin ( sabit) bir fonksiyonu olarak gerçek (beklenen) risk ve
deneysel risk üzerine sınırlar .................................................................... 35
Şekil 3.1
Düzlemde üç nokta .................................................................................. 37
Şekil 3.2
Sınıflandırma için pay tabanlı kayıp ......................................................... 41
Şekil 3.3
Doğrusal ayrılabilir verilerin ikili sınıflandırması ..................................... 42
Şekil 3.4
Ayrılabilir olmayan verilerin ikili sınıflandırması .................................... 43
Şekil 3.5
Şekil 3.6
-duyarsız kayıp fonksiyonu .................................................................... 44
Optimum hiperdüzlemin karar sınırı ........................................................ 46
Şekil 3.7
Dual problemde optimum hiperdüzlem .................................................... 48
Şekil 3.8
Ayrılabilir olmayan veri durumunda optimum esnek pay hiperdüzlemi ..... 52
Şekil 3.9
Sınıflandırma probleminde nitelik dönüşümü ........................................... 56
Şekil 3.10 Doğrusal regresyon modelleri .................................................................. 71
Şekil 3.11 Polinomiyal regresyon modelleri ............................................................. 72
Şekil 4.1
Bulanık regresyon fonksiyonları yaklaşımı ile bulanık sistem modelleme . 85
Şekil 4.2
Küme geçerlilik göstergelerinin küme sayılarına göre değişimi ................ 95
Şekil 5.1
Üçgensel bulanık sayı ............................................................................ 102
Şekil 5.2
Yamuksal bulanık sayı ........................................................................... 104
Şekil 5.3
Bulanık fonksiyonlar ............................................................................. 108
Şekil 5.4
Düzenli fonksiyon .................................................................................. 109
Şekil 5.5
Düzenli olmayan fonksiyon ................................................................... 110
vii
ÇİZELGELER DİZİNİ
Çizelge 3.1 Klasik çekirdek fonksiyonları ................................................................ 60
Çizelge 3.2 Toplam hasar tutarlarının değişimi ........................................................ 70
Çizelge 3.3 Doğrusal ve doğrusal olmayan DVR çözümlemesi sonuçları ................. 73
Çizelge 4.1 Bazı uzaklık ölçüleri .............................................................................. 78
Çizelge 4.2 Bazı önemli küme geçerlilik göstergeleri ............................................... 82
Çizelge 4.3 Modelde yer alan girdi ve çıktı değişkenleri .......................................... 94
Çizelge 4.4 Hasar tutarlarının dağılımı ve betimleyici istatistikler ............................ 94
Çizelge 4.5 Küme geçerlilik göstergelerine göre optimum küme sayısı ve
bulanıklık derecesi ................................................................................. 95
Çizelge 4.6 Bulanık regresyon fonksiyonlarında en küçük kareler yöntemi
sonucunda elde edilen bulgular .............................................................. 97
Çizelge 4.7 Bulanık regresyon fonksiyonlarında klasik DVR yöntemi sonucunda
elde edilen bulgular ............................................................................... 97
Çizelge 4.8 Bulanık doğrusal regresyon fonksiyonlarında en küçük kareler
yöntemi sonucunda belirlenen katsayılar ............................................... 98
Çizelge 4.9 Bulanık doğrusal regresyon fonksiyonlarında DVR yöntemi
sonucunda belirlenen katsayılar ............................................................. 98
Çizelge 5.1 Kesin girdi – bulanık çıktı verisi .......................................................... 119
Çizelge 5.2 Kesin girdi – bulanık çıktı verisi ile çeşitli çekirdek fonksiyonları
için belirlenen değerleri ................................................................. 120
Çizelge 5.3 Simetrik üçgensel bulanık sayılar ile tanımlı bulanık girdi – çıktı
verisi .................................................................................................... 121
Çizelge 5.4 Simetrik üçgensel bulanık sayılar ile tanımlı bulanık girdi – çıktı
verisi için bulanık doğrusal regresyon modeline dayalı karşılaştırma
sonuçları .............................................................................................. 121
Çizelge 5.5 Simetrik üçgensel bulanık sayılar ile tanımlı bulanık girdi – çıktı
verisi için melez bulanık doğrusal olmayan DVR sonuçları ................. 121
Çizelge 5.6 Asimetrik üçgensel bulanık sayılar ile tanımlı bulanık girdi – çıktı
verisi .................................................................................................... 122
viii
Çizelge 5.7 Asimetrik üçgensel bulanık sayılar ile tanımlı bulanık girdi – çıktı
verisi için bulanık doğrusal regresyon modeline dayalı karşılaştırma
sonuçları ............................................................................................... 122
Çizelge 5.8 Asimetrik üçgensel bulanık sayılar ile tanımlı bulanık girdi – çıktı
verisi için melez bulanık doğrusal olmayan DVR sonuçları ................. 123
Çizelge 5.9 Ev değerlerine ilişkin kesin girdi – bulanık çıktı verileri ...................... 124
Çizelge 5.10 Ev değerleme modeli için bulanık doğrusal regresyon çözümlemesine
ilişkin karşılaştırma sonuçları .............................................................. 124
Çizelge 5.11 Ev değerleme modeli için melez bulanık doğrusal olmayan DVR
sonuçları .............................................................................................. 125
Çizelge 6.1 Hasar tutarları üçgeni .......................................................................... 129
Çizelge 6.2 Ortalama hasar tutarları üçgeni ............................................................ 130
Çizelge 6.3 Dört yıllık gelişme süreciyle hasar tutarları üçgeni .............................. 135
Çizelge 6.4 Uygulamaya ilişkin ortalama hasar tutarları (, ) üçgeni ..................... 136
Çizelge 6.5 ln , değerlerinden oluşan veri üçgeni ................................................ 136
Çizelge 6.6 ln ’nin en küçük kareler tahmini ve bulanıklaştırılmış katsayılar ....... 137
Çizelge 6.7 ln ’nin en küçük kareler tahmini ve bulanıklaştırılmış katsayılar .... 138
Çizelge 6.8 Hasar tutarlarına ilişkin kestirimler, ln , ........................................... 139
Çizelge 6.9 Hasar tutarlarına ilişkin kestirimler, S, ................................................ 139
Çizelge 6.10 Uygulamaya ilişkin muallak hasar tutarları .......................................... 139
ix
1. GİRİŞ VE ÖNCEKİ ÇALIŞMALAR
1.1 Giriş
Bilgi yüklü, karmaşık ve büyük veri setlerinin anlaşılmasına olan ihtiyaç; işletme, fen
ve mühendisliğin neredeyse tüm alanlarında yaygın hale gelmiştir. Bu örnekler, tıbbi
teşhis, el yazısı karakterlerin tanınması ve zaman serisi kestirimi gibi çeşitli problemleri
de içermektedir. İş dünyasında ise kurum veya müşteri verileri, stratejik bir servet
olarak görülmektedir. Bu veriler içerisinde saklı, faydalı bilginin ortaya çıkarılabilmesi
ve buna göre geliştirilen eylemler, günümüz rekabetçi dünyasında oldukça öneme
sahiptir.
Öğrenme yöntemi, mevcut veriden sistem girdileri ve çıktıları arasındaki bilinmeyen
eşleşmeyi (bağımlılık) açıklayan bir algoritmadır ve genellikle yazılımlar aracılığıyla
uygulanır. Bağımlılığı ortaya koyan doğru modelin belirlenmesiyle de girdi
değerlerinden sistem çıktıları kestirilir. Son yıllarda, makine öğrenmesi (machine
learning) alanında önemli gelişmeler gözlenmektedir. Bu durum,
•
düşük maliyetli bilgisayarların,
•
düşük maliyetli algılayıcıların ve veri tabanı teknolojilerinin,
•
bilgisayar eğitimli uygulama uzmanlarının
yaygınlaşmasından dolayı beklenilen bir gelişmedir (Cherkassky ve Mulier 2007).
Model geliştirme ve tahmini için yöntemler, istatistik (regresyon ve sınıflandırma),
mühendislik (örüntü tanıma) ve bilgisayar bilimi (yapay zeka, makine öğrenmesi ve veri
madenciliği) gibi alanlarda sıklıkla kullanılmaktadır. Veriden öğrenme için yapılan son
çalışmalar, yapay sinir ağları ve bulanık sistemler gibi biyolojik tabanlı yöntemlerin
geliştirilmesi ile sonuçlanmıştır.
1
Yıllar öncesinden araştırılmaya başlanmış olmasına rağmen belirsizlik halinde
modelleme problemi, henüz tamamıyla çözüme kavuşturulamamıştır (Türkşen 2009).
Diğer birçok problemde olduğu gibi sigorta problemlerinde de güvenilir modellerin
geliştirilmesi, model değişkenlerinin önemli değerlerinin tanımlanmasına bağlıdır.
Ancak gerçek hayat problemlerinde mevcut bilginin doğasından kaynaklı eksik olması,
belirsizlik ve hata içermesinden dolayı bu önemli değerler elde edilememektedir. Bu
çalışmanın amacı, mevcut bilginin muhafaza edilerek; belirsizliği parametrelerde ve
bulanık fonksiyonların yapısında tutmak üzere bir bulanık modelleme yapısı
geliştirmektir. Bu amaç doğrultusunda, sistem parametrelerinin optimizasyonu aracılığı
ile gizli yapıları tanımlayabilen güçlü bulanık modeller üzerinde durulacaktır.
Bu çalışmada, doğrusal veya doğrusal olmayan bulanık regresyon modelleri için melez
bulanık destek vektör regresyon çözümlemesi olarak adlandırılan yeni bir yöntem
geliştirilecektir. Önerilen yaklaşıma göre parametre tahminleri, klasik destek vektör
makineleri ve en küçük kareler prensibi temelindeki düşünceler kullanılarak doğrusal
kısıtlar ile tanımlı iki konveks karesel programlama probleminin çözümüyle
gerçekleştirilecektir. Ayrıca farklı çekirdek (kernel) fonksiyonlarının seçimi ile
polinomiyal regresyon fonksiyonları, radyal tabanlı fonksiyon formuna bağlı regresyon
fonksiyonları gibi doğrusal olmayan regresyon modelleri de elde edilecektir.
Çalışmanın ikinci bölümünde, istatistiksel öğrenme teorisine ilişkin temel kavramlar ele
alınacak ve sonuçlar incelenecektir. Esasında bu sonuçlar, regresyon ve sınıflandırma
amaçlı yapısal öğrenme yöntemlerinin anlaşılmasında gerekli kavramsal ve kuramsal
altyapıyı oluşturmaktadır.
Üçüncü bölümde, klasik destek vektör regresyonu tüm yönleri ile incelenecek; çekirdek
gösteriminden yararlanarak doğrusal olmayan destek vektör regresyon modeline ilişkin
programlama problemi ele alınacaktır. Ayrıca bu bölümde, -destek vektör regresyon
çözümlemesine de yer verilecektir. Bölümün uygulama kesiminde ise toplam hasar
ödeme tutarlarının kestiriminde destek vektör regresyon yaklaşımının önemi üzerinde
durulacaktır.
2
Dördüncü bölümde, Bulanık c-Ortalama Kümeleme Algoritması ele alınacak; Tip-1
Bulanık Regresyon Fonksiyonları ile bulanık sistem modelinin yapı tanımlama ve
çıkarım algoritmaları detaylı bir biçimde incelenecektir. Ayrıca, otomobil maddi zarar
sigortalama sürecinde, hasar tutarlarının kestirimi için Bulanık Regresyon Fonksiyonları
yaklaşımının bir uygulaması gerçekleştirilecektir.
Çalışmanın özgün kısmını oluşturan beşinci bölümünde, bulanık doğrusal ve doğrusal
olmayan regresyon modellerinde melez bulanık destek vektör regresyon çözümlemesi
tanıtılacaktır. Bulanık küme teorisi ve temel kavramlar ele alınacak; ağırlıklı bulanık
aritmetik tanımına göre asimetrik (simetrik) üçgensel bulanık sayılar için bulanık
aritmetik işlemler geliştirilecektir. Önerilen yöntemden elde edilen bulguları, literatürde
mevcut diğer bulanık destek vektör regresyon yöntemlerinden elde edilen bulgularla
karşılaştırabilmek amacıyla bu çalışmalarda kullanılan farklı veri setleri tekrar ele
alınacaktır.
Çalışmanın altıncı bölümünde, önerilen melez bulanık destek vektör regresyon yöntemi,
muallak hasar rezerv kestirimi olarak adlandırılan özel bir sigorta problemi üzerinde
uygulanacaktır. Bu nedenle, sigorta hasar rezervleri ve bazı temel kavramlar ele
alınacak; sigorta şirketinin hasar rezervi ayırma amaçları üzerinde durulacaktır. Daha
sonra, hasar rezerv kestiriminde melez bulanık destek vektör regresyonunun kullanımı
üzerine önerilen algoritma sunulacaktır.
Son olarak, uygulamalardan ulaşılan bulgular da değerlendirilerek çalışmadan elde
edilen önemli sonuçlar özetlenecektir.
1.2 Önceki Çalışmalar
Ölçüm kısıtları ve ölçüm hatalarının bir bileşimi olarak ortaya çıkan belirsizlik ile
neredeyse tüm gerçek dünya problemlerinde karşılaşılmaktadır. Bilişsel problemlerde
belirsizlik ise doğal dile özgü muğlaklık veya sosyal ilişkilerde insanların etkileşimi
3
sonucu beliren ortak anlamlılıktan kaynaklanmaktadır. Bundan dolayı; belirsizlik,
insanların gerçek dünya ile bir dereceden etkileşimi için gerekli bir kavramdır.
1965 yılında Prof. Lotfi A. Zadeh’in “Bulanık Kümeler” başlıklı yayını, modern
belirsizlik kavramının gelişiminde önemli bir dönüm noktası olarak kabul görmektedir.
Zadeh çalışmasında, kesin olmayan sınırlar ile tanımlanmış kümeler olarak açıkladığı
bulanık kümelere ilişkin bir teoriyi tanıtmıştır. Bulanık kümedeki üyeliklerin, kabul ya
da redden ziyade bir derecelendirme sonucu belirlenmesi bulanık kümelerin yegâne
özelliğidir (Zadeh 1965).
Bulanık sistem modellemesi, klasik matematiksel modellerin başarılı sonuçlar ortaya
çıkarmada yetersiz olduğu, karmaşık ve belirsiz sistemlerin modellenmesinde
kullanılmaktadır. Bilinen bulanık modeller, özellikle belirsizliğin hakim olduğu
sistemlerde kullanışlı olan bulanık kümelere ve bulanık mantığa dayalıdır. Bulanık
sistemlerin birçok bulanık modelinde kural tabanları, girdi ve çıktı değişkenleri için
tanımlanmış bulanık sözel terimlerin bulanık fonksiyonları ile birlikte kullanılmaktadır.
Bu modellerde, girdiler ve çıktılar arasındaki ilişkiler eğer-ise kuralları ile temsil
edilmektedir. Böylece farklı yapıları çözümlemek üzere geliştirilen bulanık çıkarım
sistemleri de farklılık göstermektedir (Celikyilmaz ve Türksen 2009).
Bulanık kural tabanları; bulanıklaştırma, bileşke (aggregation), durulaştırma gibi birçok
bulanık işlemciyi içermektedir. Bulanık kümelerin ve parametrelerinin tanımlanması,
üyelik fonksiyonlarının sayısının ve şeklinin belirlenmesi günümüzde birçok
araştırmacının odaklandığı bir konudur. Literatürde mevcut çeşitli bulanık sistem
modelleme yaklaşımları, belirsizliği çözümlemek üzere diğer esnek hesaplama
yaklaşımları ile birleştirilmiştir. Yapısal olarak bulanık sistemleri kurmak için tek bir
çözüm olarak değerlendirilmemesi gereken bu yaklaşımlar, bulanık kural tabanlarına
dayandırılmaktadır.
Bulanık
kural
tabanlarına
alternatif
bir
yaklaşım
olarak
değerlendirilen Bulanık Regresyon Fonksiyonları’nın temeli ise Türkşen (2008)
tarafından yapılan çalışmada atılmıştır.
4
Bulanık Regresyon Fonksiyonları yaklaşımı üyelik değerlerini bugüne kadar uygulanan
diğer başka bulanık sistem modellerinden farklı bir biçimde ele almaktadır. Burada
üyelik değerleri, bir sistem davranışı hakkında bilgileri içinde barındıran ve her an
gücünü serbest bırakmak üzere etkinleştirilmiş atomlarmış gibi düşünülebilir. Üyelik
değerlerinden elde edilen bu potansiyel bilgiler, sistem modellerinin tahmin edicisi gibi
lokal bulanık fonksiyonlar içerisinde biriktirilirler. Bu nedenle, bir sistem için modeller
geliştirmek üzere, bulanık kural tabanlı yapıları kullanmak yerine Bulanık Regresyon
Fonksiyonlarının kullanımı önerilmektedir (Celikyilmaz ve Türksen 2009).
Benzerliklerin vektörler arasındaki uzaklıklara bağlı olarak açıklandığı bu sistem
modelleme yaklaşımlarında üyelik değerleri önemli rol oynamaktadır (Çelikyılmaz ve
Türkşen 2007). Türkşen ve Celikyilmaz (2006) tarafından yapılan çalışmada da üyelik
değerlerinin bulanık modeller üzerinde öneme sahip olduğu vurgulanmıştır. Bulanık
Regresyon Fonksiyonları yönteminin, klasik bulanık kural tabanlı sistem yaklaşımlara
göre sistem çıktısı ve model çıktısı arasındaki hatayı enküçükleyebilmesi açısından daha
iyi sonuçlar verdiği belirlenmiştir.
Yeni bir makine öğrenmesi tekniği olan Destek Vektör Makineleri (DVM) son
zamanlarda örüntü tanıma ve regresyon model kestirimi alanlarında oldukça ilgi
görmektedir. DVM ilk olarak 1995 yılında Vladimir N. Vapnik ve çalışma arkadaşları
tarafından ortaya atılmıştır (Vapnik 1995). İstatistiksel öğrenme teorisinde bu teknik,
deneysel risk minimizasyonundan
(Empirical Risk Minimization – DRM)
ziyade
yapısal risk minimizasyonuna (Structural Risk Minimization – YRM) dayandırılan bir
öğrenme algoritması olarak geliştirilmiştir. YRM tümevarım prensibi, sonlu
örneklemler için Vapnik–Chervonenkis (VC) boyutuna bağlı olarak optimum model
karmaşıklığını belirlemek üzere biçimsel bir mekanizma sağlar. Klasik sinir ağları ile
karşılaştırıldığında DVM, bir tek global optimum çözüm elde edebilir ve boyut sorunu
ile karşılaşmaz. Bu ilgi çekici özellikleri DVM’yi sıklıkla tercih edilir bir teknik haline
getirmektedir. DVM ilk olarak örüntü tanıma problemlerini çözmek üzere tasarlanmıştır
(Chiu ve Chen 2009, Min ve Cheng 2009, Chen vd. 2008, Shieh ve Yang 2008, Chen ve
Hsieh 2006, Yang vd. 2006, Jayadeva ve Chandra 2004, Tsujinishi ve Abe 2003).
Vapnik’in -duyarsız kayıp fonksiyonunun ortaya atılması ile birlikte DVM, fonksiyon
5
yakınsama ve regresyon model kestirimi problemlerine de genişletilmiştir (Wu 2009,
Dong vd. 2007).
Birçok gerçek hayat uygulamalarında ise gözlenen girdi verileri kesin olarak ölçülemez
ve sıklıkla sözel terimler ile açıklanır. Klasik destek vektör regresyon yönteminin nitel
verileri çözümleyememesinden dolayı bu konuda bulanık teori altyapısından
faydalanılması anlamlı hale gelmektedir. Bulanık mantığın, bulanık ve belirsiz verilerin
çözümlenmesinde güçlü bir araç olduğu gerçeğinden yola çıkarak bazı araştırmacılar,
bulanık destek vektör makinesi üzerinde çalışmalar yapmışlardır. İlk olarak Hong ve
Hwang (2003, 2005) çalışmalarında DVM’nin, çok değişkenli bulanık doğrusal ve
doğrusal olmayan regresyon modellerinde kullanımını önermişlerdir. Hong ve Hwang
(2003) tarafından önerilen destek vektör bulanık regresyon makinesi, bir karesel
programlama probleminin çözümü ile ortaya konulmuştur.
Jeng
vd.
(2003),
DVM’yi
aralık
regresyon
çözümlemesinde
kullanmıştır.
Çalışmalarında aralık regresyonu için iki radyal tabanlı fonksiyon ağı ile veri aralığının
alt ve üst sınırlarını açıklayan iki adımlı bir yaklaşım önermişlerdir. Radyal tabanlı
fonksiyon ağının başlangıç yapısı DVM öğrenme yaklaşımı ile elde edilmiştir. Sonuç
olarak ağın iyileştirilmesinde klasik geri yayılımlı öğrenme algoritması kullanılmıştır.
Hao ve Chiang (2008) çalışmalarında, kesin girdilere karşılık bulanık çıktı durumunda,
bulanık doğrusal (doğrusal olmayan) regresyon çözümlemesine ilişkin bir algoritma
önermiştir. Bu bulanık DVM yaklaşımında, mevcut eğitim verisi için bulanık çıktı
değerlerine, belirli bir uyum derecesine sahip bulanık regresyon modeli aranmaktadır.
Oluşturulan programlama problemi incelendiğinde, Tanaka vd. (1982) tarafından
önerilen bulanık regresyon yaklaşımının, DVM regresyon çözümlemesine uyarlandığı
görülmektedir.
Wu (2010) çok boyutlu zaman serisi kestiriminde bulanık DVM’nin yeni bir
uygulamasını geliştirmiştir. Birçok kestirim probleminde sınırlı sayıda örnek ve bulanık
veri mevcut olması dolayısıyla; kapsamlı bulanık değerlendirmeler sonucunda girdi –
çıktı değişkenlerinin bulanık sayılar ile açıklanması önem arz etmektedir. Bu çalışmada,
6
girdi değişkenlerinin bulanıklık derecesini temsil etmek üzere simetrik üçgensel bulanık
sayılardan faydalanılmıştır. Bulanık teori ile -destek vektör makinesi birleştirilerek
simetrik üçgensel bulanık sayılar için bulanık -destek vektör makinesi yaklaşımı
sunulmuştur.
7
2. İSTATİSTİKSEL ÖĞRENME TEORİSİ
1960’lı yılların sonlarında geliştirilen istatistiksel öğrenme teorisi, 1990’lara kadar veri
setinden fonksiyon tahmin probleminin bir teorik çözümlemesi olarak kalmıştır. 1990’lı
yılların ortalarında ise bu teoriye dayandırılan ve destek vektör makineleri (Support
Vector Machine – DVM) olarak adlandırılan yeni bir öğrenme algoritması önerilmiştir.
Böylece istatistiksel öğrenme teorisi, sadece teorik çözümlemeler için değil aynı
zamanda çok boyutlu fonksiyon tahmininde de kullanışlı algoritmalar geliştirmek üzere
etkili bir araç haline gelmiştir. Bu bölümde, kuramsal ve algoritmik yönleri ile
istatistiksel öğrenme teorisi incelenecektir.
2.1 Öğrenme Probleminin Yapısı
Öğrenme, kısıtlı sayıda gözlemler kullanarak girdi ve çıktı arasındaki bilinmeyen
bağımlılığın veya sistem yapısının tahmin edilmesi sürecidir. Veriden öğrenme modeli,
•
•
•
Olasılık (yoğunluk) fonksiyonu olan rasgele vektörlerinin üreticisi,
⁄ koşullu olasılık (yoğunluk) fonksiyonuna göre her bir girdi vektörü
için bir çıktısını belirleyen sistem,
, Ω kümesinden bir parametre olmak üzere; , , kümesini uygulayabilecek bir öğrenme makinesi
Ω fonksiyon
biçiminde verilen üç bileşen (Şekil 2.1) yardımıyla açıklanabilir (Vapnik 1998).
Öğrenme problemi, verilen , , Ω fonksiyonlar kümesinden sistem yanıtını
mümkün en iyi yol ile tahmin eden fonksiyonu seçmektir. Seçim, , !
⁄ ortak olasılık (yoğunluk) fonksiyonuna göre rasgele seçilmiş birbirinden
bağımsız aynı dağılımlı gözlemin oluşturduğu # , # , … , % , % eğitim kümesine
dayalıdır.
8
Üretici
Öğrenme
Makinesi
Sistem
,
Şekil 2.1 Öğrenme makinesi modeli
2.1.1 Öğrenmenin amacı
İstatistiksel model tahmini çerçevesinde öğrenmenin amacı, bilinmeyen bir sistemin
doğru tanımlanması iken; kestirimsel öğrenmede amaç, sistem çıktısının doğru taklit
edilmesidir. Buna göre, amaçları itibariyle bakıldığında sistem tanımlamasının, sistem
taklidinden daha tercih edilir olduğu açıktır. Örneğin, doğru bir sistem tanımlaması girdi
örneklemlerinin dağılımına bağlı değilken; iyi bir kestirimsel model genellikle bu
(bilinmeyen) dağılıma koşulludur. Bundan dolayı, sistem tanımlama yaklaşımına göre
doğru bir model, kestirimsel açıdan iyi genellemeye sahip olacaktır ancak bunun tersi
doğru değildir. Sistem tanımlamanın matematiksel işlemlerinin sonucu olarak bir
fonksiyon yakınsama yapısına ulaşılır ve bu konuda esas problem de boyut sorunudur.
Bunun aksine, kestirimsel öğrenmede belirlenen amaç ile Vapnik–Chervonenkis (VC)
öğrenme teorisine ulaşılır (Vapnik 1998).
Sistem yanıtının mümkün en iyi tahmine ulaşmak üzere; verilen bir girdisi için sistem
yanıtı ile öğrenme makinesi tarafından elde edilen , arasındaki kayıp veya
uyuşmazlık ölçülür. Risk fonksiyonu olarak tanımlanan &, '(, , ) kayıp
fonksiyonunun beklenen değeridir ve
& ! * '(, , ) , ++
(2.1)
biçiminde tanımlanır (Vapnik 1999). Burada amaç, , ortak olasılık (yoğunluk)
fonksiyonunun bilinmediği ve tek mümkün bilginin eğitim veri setinde barındırıldığı bir
9
durumda, & risk fonksiyonunu ( , , Ω fonksiyonlar kümesi üzerinde)
minimum yapacak , - fonksiyonunu bulmaktır.
2.1.2 Temel öğrenme problemleri
Öğrenme probleminin oldukça genel olan formülasyonu esasında birçok özel problemi
kapsamaktadır. Bu kesimde, örüntü tanıma problemleri, regresyon fonksiyonu tahmini
ve olasılık (yoğunluk) fonksiyonu tahmini biçiminde belirlenen üç temel problem
incelenecektir.
Tanım 2.1 Örüntü tanıma problemi
Sistem çıktısı olan ’nin sadece iki değer alması ! .0, 11 ve , , Ω gösterge
fonksiyonlar (sadece 0 ve 1 değerlerini alan fonksiyonlar) kümesini göstermesi
durumunda,
0, ! , 4
'(, , ) ! 2
1, 3 , (2.2)
biçiminde verilen bir kayıp fonksiyonu göz önüne alınsın. Bu tür bir kayıp fonksiyonu
kullanıldığında, (2.1) denklemi hatalı sınıflandırma olasılığını verir. Bundan dolayı;
problem, , olasılık ölçüsünün bilinmediği ancak # , # , … , % , % eğitim
kümesinin mevcut olduğu durumda, hatalı sınıflandırma olasılığını minimum yapan
fonksiyonu belirlemektir (Vapnik 1999).
Tanım 2.2 Regresyon fonksiyonu tahmin problemi
Reel değerler alan sistem yanıtı için , , , - ! * ⁄+
Ω fonksiyonlar kümesi,
(2.3)
10
biçimindeki regresyon fonksiyonunu içersin. Eğer 5, fonksiyonu,
'(, , ) ! ( 7 , )
6
'6 ise regresyon
(2.4)
kayıp fonksiyonunu ile & riskini minimum yapan fonksiyondur. Böylece regresyon
tahmin problemi, , olasılık ölçüsünün bilinmediği ancak # , # , … , % , % eğitim kümesinin mevcut olduğu durumda, eşitlik (2.4)’deki kayıp fonksiyonu
kullanıldığında; (2.1) eşitliği ile verilen risk fonksiyonunun minimum yapılması
problemidir (Vapnik 1999).
Tanım 2.3 Olasılık (yoğunluk) fonksiyonu tahmin problemi
, , Ω olasılık (yoğunluk) fonksiyonları kümesinden olasılık (yoğunluk)
fonksiyonu tahmin problemi için
'(, ) ! 7 log , (2.5)
biçiminde verilen bir kayıp fonksiyonu göz önüne alınsın. Aranılan fonksiyonun, (2.5)
eşitliğindeki kayıp fonksiyonu kullanıldığında, (2.1) denklemi ile verilen risk
fonksiyonunu minimum yapması istenmektedir. Buna göre, olasılık ölçüsünün
bilinmediği fakat birbirinden bağımsız aynı dağılımlı # , 6 , … , % veri setinin mevcut
olması durumunda, veriden olasılık (yoğunluk) fonksiyonu tahmini için yine bir risk
fonksiyonunun minimum yapılması gerekmektedir (Vapnik 1999).
2.1.3 Deneysel risk minimizasyonu
: ! , girdi-çıktı ikililerini göstermek üzere ;:, , Ω kayıp fonksiyonlar
kümesi göz önüne alınsın. Bir öğrenme probleminde bilinmeyen bir : olasılık
(yoğunluk) fonksiyonuna göre üretilmiş sayıda birbirinden bağımsız ve aynı dağılımlı
11
eğitim veri seti <% ! .:# , :6 , … , :% 1 mevcut olduğunda kestirimsel öğrenme
yaklaşımında amaç,
& ! * ; :, :+: ,
Ω
(2.6)
risk fonksiyonunu minimum yapan ;:, - fonksiyonunu bulmaktır.
: olasılık (yoğunluk) fonksiyonunun bilinmediği durumda, (2.6) eşitliği ile verilen
risk fonksiyonunu minimum yapmak amacıyla; beklenen risk fonksiyonu & ,
<% ! .:# , :6 , … , :% 1 deneysel veri seti temeli üzerine kurulan deneysel risk fonksiyonu,
#
&=>? ! % ∑%B# ;:A , (2.7)
ile yer değiştirilir.
Eşitlik (2.6)’daki risk fonksiyonunu minimum yapan ;:, - fonksiyonuna, (2.7)
eşitliği ile verilen deneysel riski minimum yapan ;:, % fonksiyonu ile
yakınsanmasına deneysel risk minimizasyonu (Empirical Risk Minimization – DRM)
tümevarım prensibi adı verilmektedir (Kecman 2001, Cherkassky ve Mulier 2007).
Regresyon tahmin problemlerinde kullanılan en küçük kareler veya yoğunluk tahmin
problemlerinde kullanılan maksimum olabilirlik gibi klasik yöntemler, belirli kayıp
fonksiyonları ile DRM prensibinin özel bir halidir. Aslında, bir regresyon problemi,
# , # , … , % , % eğitim veri seti için (2.4) eşitliğinde gösterilen kayıp fonksiyonu ile
tanımlanır. (2.7) eşitliği ile verilen risk fonksiyonu kullanılarak regresyon model
tahmini (en küçük kareler yöntemi) için minimum yapılması gereken,
#
&=>? ! % ∑%B#( 7 , )
6
fonksiyonuna ulaşılır.
12
(2.8)
, , Ω olasılık (yoğunluk) fonksiyonları kümesinden olasılık (yoğunluk)
fonksiyonu tahmin probleminde, eşitlik (2.5) ile verilen kayıp fonksiyonu kullanılabilir.
Bu kayıp fonksiyonu, (2.7) eşitliği ile verilen risk fonksiyonunda yerine konulduğunda,
#
&=>? ! 7 % ∑%B# log , (2.9)
fonksiyonu elde edilir. &=>? ’nın minimumu, olasılık (yoğunluk) fonksiyonunun
aynı zamanda maksimum olabilirlik tahminidir.
Öğrenme teorisi,
i)
DRM prensibinin tutarlılığı için koşullar nelerdir? (Öğrenme sürecinin tutarlılığı
teorisi)
ii) Deneysel risk değerlerinin en küçüklerinin dizisinin, gerçek en küçük riske olan
yakınsama hızı nedir? Bir başka ifadeyle; deneysel risk minimizasyon prensibini
uygulayan bir öğrenme makinesinin genelleme derecesi nedir? (Öğrenme sürecinin
yakınsama derecesinin asimptotik olmayan teorisi)
iii) Öğrenme makinesinin yakınsama derecesi (genelleme derecesi) nasıl kontrol
edilebilir? (Öğrenme sürecinin genelleme kabiliyetini kontrol etme teorisi)
iv) Genelleme derecesini kontrol edebilen bir algoritma nasıl oluşturulabilir? (Öğrenme
algoritmalarının oluşturulması teorisi)
biçiminde verilen dört soruya çözüm arar (Vapnik 1999).
Birinci sorunun yanıtına, rasgele değişkenlerin bir dizisinin olasılıkta yakınsaması için
gerek ve yeter şartların belirlenmesi ile ulaşılabilir:
a) & % risk değerlerinin riskin mümkün minimum değeri olan & - ’a
yakınsaması yani, C ∞ için
13
E
&% FGGH &- (2.10)
dır. Burada & % , ! 1,2, … değerleri, her biri &=>? % deneysel riskini
minimum yapan ; :, % kayıp fonksiyonları için beklenen risklerdir. (2.10)
denklemi, DRM prensibi kullanılarak bulunan çözümlerin, mümkün en iyi risk
değerine olasılıkta yakınsadığını göstermektedir.
b) &=>? % , ! 1,2, … deneysel risk değerlerinin riskin mümkün minimum
değeri olan & - ’a yakınsaması yani, C ∞ için
E
&=>? % FGGH & - (2.11)
dır. (2.11) denklemi, deneysel risk değerlerinin, mümkün en küçük risk değerine
olasılıkta yakınsadığını göstermektedir.
Burada, &% değerlerinin olasılıkta yakınsaması, J K 0 ve JL K 0 için öyle bir
- ! - , L sayısı vardır öyle ki J K - için en az 1 7 L olasılık ile
& % 7 &ω- N eşitsizliği sağlanır, anlamına gelmektedir.
Şekil 2.2 ile de gösterildiği gibi ; :, % kayıp fonksiyonlarının bir dizisi için beklenen
risk ve deneysel risk, aynı (mümkün en küçük) risk değerine yakınsıyor ise DRM
yöntemi tutarlıdır, denir Ayrıca, verilen bir eğitim veri seti için öğrenme makinesi
genellikle deneysel riski minimum yapan fonksiyonu seçeceğinden, &=>? % N
& % olması beklenilir. Başka bir ifade ile sayıda örneklem için DRM prensibine
göre belirlenen ; :, % fonksiyonları, gerçek riski minimum yapan en iyi
fonksiyonların yanlı tahminleri olduğu söylenilir. C ∞ için (büyük sayılar yasası
gereği) deneysel riskin, beklenen riske (belirli bir değeri için) yakınsaması arzu edilir.
14
Ancak burada tutarlılık özelliği, deneysel riski minimum yapan parametre kümesinin,
gerçek riski de kendi kendine minimum yapacağı anlamına gelmemektedir. Bu nedenle
DRM yönteminin tutarlılığının, fonksiyonlar kümesinin belirli bir elemanının
özelliklerine bağlı olmadığının ortaya konulması amacıyla; (2.10) ve (2.11) denklemi ile
verilen tutarlılık koşullarının, tüm (kabul edilebilir) fonksiyonlar için sağlanması
gerekmektedir. Bu koşul, güçlü tutarlılık olarak bilinir (Vapnik 1995, 1998). Güçlü
tutarlılık kavramı, belirlenen en iyi fonksiyonun küme içerisinden çıkarılmasından sonra
da DRM prensibinin tutarlı kalmasını gerektirir. Bir sonraki kesimde verilecek olan
öğrenme teorisinin anahtar teoremi, DRM tümevarım prensibinin güçlü tutarlılığı için
gerek ve yeter şartları temin eder.
Beklenen risk & % minQ &
Deneysel risk &=>? % Şekil 2.2 DRM prensibinin tutarlılığı
2.2 Öğrenme Sürecinin Tutarlılığı Teorisi
Gözlem sayısı arttığında, deneysel risk minimizasyonu yöntemi kullanılarak elde edilen
çözümlerin mümkün en iyiye yakınsaması için gerek ve yeter şartları açıklayan tutarlılık
teorisi bir asimptotik teoridir. Burada amaç, örneklem hacmi küçük (sonlu) olduğunda
bir algoritma oluşturmak ise tutarlılık teorisine neden ihtiyaç duyulduğu sorusu
gündeme gelmektedir. Deneysel risk minimizasyonu tümevarım yönteminde yakınsama
15
durumu için tutarlılık teorisi, sadece yeter değil gerek şartları da açıklamaktadır.
Bundan dolayı tutarlılık teorisine ihtiyaç duyulmaktadır.
Bu kesimde, DRM prensibinin genelleme kabiliyetini tanımlayan Vapnik–Chervonenkis
(VC) entropi kavramı ele alınacak ve daha sonra öğrenmenin asimptotik olmayan
teorisinin, belirli sayıda gözlem için bu kavramı değerlendiren farklı tip sınırlara dayalı
olduğu gösterilecektir.
2.2.1 Öğrenme teorisinin anahtar teoremi
Sınırlı kayıp fonksiyonlarına sahip ;:, , alınsın. Buna göre, eğer
R S * ;:, :+: S T , J
Ω fonksiyonlar kümesi göz önüne
Ω
(2.12)
ise DRM prensibinin tutarlı olması için gerek ve yeter şart; &=>? deneysel riskinin,
& gerçek risk değerine ; :, , lim%CU V WsupQ
Ω [& Ω fonksiyonlar kümesi üzerinde,
7 &=>? \ K ] ! 0 , J K 0
(2.13)
biçiminde düzgün yakınsak olmasıdır (Vapnik ve Chervonenkis 1991). Bu tip bir
yakınsamaya da düzgün tek taraflı yakınsama denir.
Başka bir ifadeyle anahtar teoreme göre; DRM prensibinin tutarlılığının koşulları,
(2.13) denklemi ile verilen düzgün tek taraflı yakınsaklığın mevcut olması koşullarına
denktir. Bu teorem, DRM prensibinin yakınsaklık özelliğinin herhangi bir analizinin, en
kötü durum çözümlemesi olması gerektiği anlamına gelmesi dolayısıyla anahtar teorem
olarak adlandırılmaktadır. Buna göre, tutarlılık için gerek şart (sadece yeter şart değil),
belirli bir fonksiyonlar kümesi üzerinde en kötü fonksiyon için
16
∆=% _öaü ! supQ
Ω [& 7 &=>? \
(2.14)
biçiminde verilen sapmanın olasılıkta sıfıra yakınsamasıdır (Vapnik 1999).
2.2.2 Düzgün yakınsaklık için gerek ve yeter şartlar
(2.13) denklemi ile verilen düzgün yakınsaklık için gerek ve yeter şartları açıklamak
üzere; sayıda örnek üzerinde ;:, , Ω fonksiyonlar kümesi için entropi olarak
adlandırılan kavram tanıtılacaktır. Buna göre, ilk olarak gösterge fonksiyonlar kümesi
ve daha sonra ise gerçel değerli fonksiyonlar kümesi için entropi kavramı ele
alınacaktır.
Tanım 2.4 Gösterge fonksiyonlar kümesi için entropi
; :, , Ω gösterge fonksiyonlar kümesi olsun ve <% ! .: , c ! 1, 2, … , 1
örneklemi göz önüne alınsın. Belirli bir örneklem üzerinde, ;:, , Ω fonksiyonlar
kümesinin çeşitliliği ise d <% değeri ile tanımlansın. Gösterge fonksiyonlar
kümesinden fonksiyonlar kullanılarak elde edilebilen d <% değeri, örneklemin farklı
parçalanmalarının sayısını göstermektedir. Başka bir biçimle; , Ω parametre
kümesinden farklı değerler aldığı zaman - boyutlu ikili vektörlerin kümesi,
e ! (;:# , , … , ;:% , ) , Ω
(2.15)
ile ifade edildiğinde, geometrik olarak d <% değeri, <% ! .: , c ! 1, 2, … , 1
örneklemi ve ;:, , Ω fonksiyonlar kümesine bağlı olarak elde edilebilen -
boyutlu küpün farklı köşe noktalarının sayısını göstermektedir. Ayrıca,
f<% ! ln d<% (2.16)
17
değerine de rasgele entropi adı verilir (Vapnik 1999). Rasgele entropi, belirli bir
örneklem üzerinde fonksiyonlar kümesinin çeşitliliğini açıklamaktadır. Burada f<% bir rasgele değişkendir. g :# , … , :% ortak dağılım fonksiyonu üzerinde rasgele
entropinin beklenen değeri,
f ! hiln d<% j
(2.17)
göz önüne alınsın. Bu değer, sayıda örneklem üzerinde ;:, , Ω gösterge
fonksiyonlar kümesinin entropi miktarı olarak adlandırılır. Burada beklenen değer,
; :, , Ω fonksiyonlar kümesine, (bilinmeyen) g : dağılım fonksiyonuna ve gözlem sayısına bağlıdır. Entropi, verilen gösterge fonksiyonlar kümesinin, sayıda
örneklem için beklenen çeşitliliğini belirtmektedir.
Örüntü tanıma problemleri (gösterge kayıp fonksiyonu) için tutarlılık teorisinin başlıca
sonucu teorem 2.1 ile verilir.
Teorem 2.1: &=>? deneysel riskinin, & gerçek risk değerine çift taraflı düzgün
yakınsaması yani,
lim%CU VksupQ Ωl& 7 &=>? l K m ! 0 , J K 0
(2.18)
için gerek ve yeter şart,
lim%CU
n%
%
! 0 , J K 0
(2.19)
eşitliğinin sağlanmasıdır (Vapnik ve Chervonenkis 1971, Mendelson 2003).
(2.19) eşitliği ile verilen koşulun yeniden düzenlenmesiyle, eşitlik (2.13)’deki tek taraflı
düzgün yakınsaklık için de gerek ve yeter şartlar elde edilebilir.
18
Tanım 2.5 Gerçel fonksiyonlar kümesi için entropi
Entropi kavramını gerçel değerli fonksiyonlar için genellemek üzere; R S ;:, S
T, Ω sınırlandırılmış fonksiyonlar kümesi göz önüne alınsın. Bu fonksiyonlar
kümesini ve <% ! .: , c ! 1, 2, … , 1 eğitim veri setini kullanarak -boyutlu gerçel
değerli vektörlerin bir kümesi,
e ! (;:# , , … , ;:% , ) , Ω
(2.20)
biçiminde oluşturulabilir. Vektörlerin bu kümesi, o metriğinde sonlu bir 7 pq’e
sahiptir.
Burada 7 pq şöyle tanımlanır: Eğer herhangi bir e r , r
Ω vektörü için belirli
bulanabiliyorsa ve d ! d; <% sayısı mevcut ise e , Ω vektörler kümesi
bir metrik üzerinde bu vektöre, uzaklıkta olan bir es e# , … , e t vektörü
minimal 7 pq’e sahiptir denir. Burada d, o metriğinde,
v(er , es ) ! maks#yy% |;: , r 7 ;: , s | S (2.21)
özelliğini sahip vektörlerin minimum sayısıdır (Vapnik 1999).
Buna göre, d; <% rasgele değişkeninin logaritması olan
f; <% ! ln d; <% değişkenine,
<% ! .: , c ! 1, 2, … , 1
(2.22)
örneklemi
için
R S ;:, S T, Ω
fonksiyonlar kümesinin rasgele VC-entropisi adı verilir. Burada tanımlanan VC-entropi,
; :, , Ω fonksiyonlar kümesinin minimum 7 pq’inin kardinalitesi d ile
gösterilmek üzere,
19
f_{|}_ ! ln d (2.23)
biçimindeki klasik metriksel -entropiden farklıdır.
Rasgele VC-entropinin beklenen değeri,
f; ! hif ; <% j
(2.24)
sayıda örneklem için R S ;:, S T, olarak adlandırılır.
Ω fonksiyonlar kümesinin entropi miktarı
Sınırlandırılmış kayıp fonksiyonu için gerçek riske deneysel riskin düzgün yakınsaklığı
teorisinin başlıca sonuçları arasında Teorem 2.2’de yer alır.
Teorem 2.2: Deneysel riskin gerçek riske çift taraflı düzgün yakınsaması yani,
lim%CU VksupQ Ωl& 7 &=>? l K m ! 0 , J K 0
(2.25)
için gerek ve yeter şart,
lim%CU
n~,%
%
! 0 , J K 0
(2.26)
eşitliğinin sağlanmasıdır (Vapnik 1995, 1998).
(2.26) eşitliği ile verilen koşulun yeniden düzenlenmesiyle eşitlik (2.13)’deki tek taraflı
düzgün yakınsaklık için de gerek ve yeter şartlar elde edilebilir.
20
2.2.3 Öğrenme teorisinin üç aşaması
Bu kesimde, basite indirgemek açısından bir ;:, , Ω gösterge fonksiyonlar
kümesi (örüntü tanıma problemi) ele alınsın. Gösterge fonksiyonlar kümesi ile elde
edilen sonuçlar, gerçel değerli fonksiyonlar için genellenebilir.
Kesim 2.2.2’de gösterge fonksiyonlar kümesi için
f ! hiln d<% j
biçiminde tanımlanan entropi kavramı ele alınmıştı. Burada, d<% değerlerine
dayandırılarak oluşturulan iki yeni fonksiyon olarak,
f|%% ! ln hid<% j
(2.27)
tavlanmış (annealed) VC-entropisi ve
 ! ln sup<€ d<% (2.28)
büyüme fonksiyonu göz önüne alınsın. Bu fonksiyonlar, herhangi bir için
f S f|%% S  S ln 2
(2.29)
eşitsizliği sağlanacak biçimde belirlenir (Cherkassky ve Mulier 2007). Bu fonksiyonlara
dayandırılarak da istatistiksel öğrenme teorisinde başlıca üç aşama oluşturulur (Vapnik
1999).
Teorem 2.1’de DRM prensibinin tutarlılığı için gerek ve yeter şartı açıklayan,
lim%CU
n%
%
! 0 , J K 0
21
denklemi tanıtılmıştı. Bu denklem öğrenme teorisinin birinci aşaması olarak
değerlendirilir ve deneysel riski minimum yapan herhangi bir makine bu şartı
sağlamalıdır.
Fakat (2.19) denklemi, elde edilen &% risklerinin, mininum olan &- ’a yakınsama
hızı konusunda herhangi bir bilgi vermemektedir. Ayrıca, DRM prensibinin tutarlı olup
da gelişigüzel yavaş bir asimptotik yakınsama derecesine sahip olması durumu da söz
konusudur. Bundan dolayı, hangi koşullar altında asimptotik yakınsama derecesinin
hızlı olacağı belirlenmelidir. Buna göre,  K 0 bir sabit ve K - olmak üzere,
V.& % 7 & - K 1 N p ‚ƒ%~
„
üstel sınır sağlanırsa asimptotik yakınsama derecesinin hızlı olduğu söylenir (Bousquet
vd. 2003). Sonuç olarak,
lim%CU
n…€€ %
%
!0
(2.30)
denklemi hızlı yakınsama için yeter şartı ifade etmektedir. Bu denklem öğrenme
teorisinin ikinci aşaması olarak değerlendirilir ve hızlı bir asimptotik yakınsama
derecesi temin eder (Vapnik 1999).
DRM yönteminin hem tutarlılık için gerek ve yeter şartını açıklayan ve hem de hızlı
yakınsaklık için yeter şartını açıklayan denklemleri, belirli bir g : dağılım fonksiyonu
için geçerlidir yani, VC-entropisi, f ve tavlanmış VC-entropisi f|%% , dağılım
fonksiyonu kullanılarak belirlenir. Ancak istatistiksel öğrenme teorisinde amaç, farklı
birçok problem için bir öğrenme makinesi geliştirmektir. Buna göre; DRM prensibinin
hangi şartlar altında dağılımdan bağımsız, tutarlı ve hızlı yakınsak olduğu
incelenmelidir. Herhangi bir dağılım fonksiyonu için DRM prensibinin tutarlılığını
belirleyen gerek ve yeter şart,
22
lim%CU
†%
%
!0
(2.31)
denklemi ile açıklanır. Ayrıca bu denklem, hızlı yakınsaklık için de yeter şarttır (Vapnik
1999).
(2.31) eşitliği, öğrenme teorisinin üçüncü aşaması olarak değerlendirilir ve ele alınan
problemden bağımsız olarak, öğrenme makinesini uygulayan DRM prensibinin hangi
koşul altında yüksek dereceden asimptotik yakınsaklığa sahip olduğunu açıklar.
Bu kesimde verilen üç aşama, öğrenme makinesinin yakınsaklık derecesi için hem
dağılımdan bağımsız sınırlar hem de dağılıma bağımlı sınırlar geliştirmek üzere bir
temel oluşturur.
2.3 Büyüme Fonksiyonu ve Vapnik–Chervonenkis Boyutu
Belirli bir örneklem sayısı için DRM yönteminin kalitesini belirlemek amacıyla düzgün
yakınsaklık derecesi üzerinde asimptotik olmayan sınırların belirlenmesi gerekmektedir.
Yakınsaklık derecesinin asimptotik olmayan sınırı; büyüme fonksiyonu için yapısal bir
sınır elde etmeye de imkan sağlayan, Vapnik–Chervonenkis (VC) boyutu olarak
adlandırılan yeni bir kapasite kavramı kullanılarak belirlenebilir. VC-boyutu kavramı,
 büyüme fonksiyonunun önemli bir özelliğine dayanmaktadır.
2.3.1 Büyüme fonksiyonunun yapısı
Öğrenme makinesinin genelleme kapasitesi üzerinde dağılımdan bağımsız sınırlar
geliştirmek üzere, eşitlik (2.31) ile verilen büyüme fonksiyonunun değerlendirilmesi
gerekmektedir. Bu da yakınsama fonksiyonlarının VC boyutu kavramının kullanılması
ile gerçekleştirilebilir.
Teorem 2.3: bir tamsayı olmak üzere i ! ln 2j ve i ‡ 1 3 ‡ 1 ln 2j
için herhangi bir büyüme fonksiyonu ya
23
%
 S [ln ˆ ‡ 1\
(2.32)
eşitsizliği tarafından sınırlandırılır ya da
 ! ln 2
(2.33)
eşitliğini sağlar. Diğer bir ifade ile büyüme fonksiyonu, Şekil 2.3’de gösterildiği gibi ya
doğrusal bir fonksiyon ya da bir logaritmik fonksiyon tarafından sınırlandırılmış
olacaktır (Vapnik ve Chervonenkis 1971). Örneğin; büyümü fonksiyonu,  !  √
formunda olamayacaktır.

ln 2
ln⁄ ‡ 1
Şekil 2.3 Büyüme fonksiyonunun davranışı
Eğer ;:, , Ω gösterge fonksiyonlar kümesi için büyüme fonksiyonu doğrusal ise
bu fonksiyonlar kümesinin VC boyutunun sonsuz olduğu söylenir. Ayrıca, eğer
; :, , Ω gösterge fonksiyonlar kümesi için büyüme fonksiyonu, katsayısı ile
bir logaritmik fonksiyon tarafından sınırlandırılmış ise bu fonksiyonlar kümesinin VC
boyutunun sonlu ve değerine eşit olduğu söylenir.
24
Öğrenme makinesi tarafından uygulanan gösterge fonksiyonlar kümesinin VC
boyutunun sonluluğu, DRM yönteminin tutarlılığı için dağılımdan bağımsız olarak
gerek ve yeter şartı belirler. VC boyutunun sonlu olması aynı zamanda hızlı
yakınsamayı da gerektirmektedir (Kecman 2001).
2.3.2 Vapnik–Chervonenkis boyutu
Bu kesimde, gösterge fonksiyonlar kümelerinin VC boyutunun eşdeğer bir
tanımlamasının verilmesinin ardından bu tanımlama, gerçel değerli fonksiyonlar
kümeleri için genellenecektir.
Tanım 2.6 Gösterge fonksiyonlar kümesinin VC boyutu
; :, , Ω
gösterge
fonksiyonlar
kümesinin
VC
boyutu,
bu
kümenin
fonksiyonlarını kullanarak (bu fonksiyonlar kümesi tarafından) 2ˆ mümkün yol ile
parçalanabilen :# , … , :ˆ vektörlerinin maksimum sayısı olan değeridir. Eğer, her için ;:, , Ω kümesi tarafından parçalanabilen sayıda vektörün bir kümesi
mevcut ise VC boyutu sonsuza eşittir (Vapnik 1999).
(2.31) ve (2.32) ile verilen denklemlere göre VC boyutunun sonlu olması, DRM
yönteminin tutarlılığı ve hızlı yakınsaklığı için gerek ve yeter şartları belirler. Bundan
dolayı; VC boyutu kavramı, öğrenme teorisinde dağılımdan bağımsız sonuçlar elde
etmede önemlidir. Ayrıca, dağılımdan bağımsız tüm bu yardımcı sonuçlar da kayıp
fonksiyonları kümesinin VC boyutuyla ilişkilidir.
Şekil 2.3’deki büyüme fonksiyonunun doğrusal parçasına göre; örneklem sayısı, (sonlu)
VC boyutunu aşıyorsa sonlu bir örneklem ile öğrenmenin mümkün olabileceği sezgisel
olarak belirlenir. Başka bir ifade ile yakınsama fonksiyonlarının kümesi çok esnek
olmamalıdır ve bu da fonksiyonlar kümesinin kapasitesi ile açıklanır. Ayrıca bu
sonuçlar, dağılımdan bağımsız olarak öğrenmenin mümkün olduğunu göstermektedir.
25
(2.29) ve (2.32) ile verilen eşitsizlikler birleştirildiğinde, VC teorisinde ele alınan
kapasite kavramına ilişkin
%
f S f|%% S  S [ln ˆ ‡ 1\
(2.34)
sonucuna ulaşılır. (2.34) eşitsizliğine göre entropi tabanlı kapasite yaklaşımı, en doğru
yol olmasına rağmen dağılıma bağımlı olması dolayısıyla en zor belirlenendir. Bunun
aksine, VC boyutu, doğruluğu en az ancak en kullanışlı kavramdır. Birçok uygulama
probleminde, veri sayısı az ve boyutunun yüksek olmasından dolayı; kapasite
(karmaşıklık) kontrolü için olasılık (yoğunluk) fonksiyonu tahmini söz konusu değilken;
en kullanışlı seçim VC boyutunun kullanılmasıdır (Vapnik 1995).
Tanım 2.7 Gerçel değerli fonksiyonlar kümesinin VC boyutu
Š S ;:, S R, Ω; Š ve R (Š, 7∞ ve R, ∞’a değerini alabilir) sabitleri tarafından
sınırlandırılmış gerçel değerli fonksiyonların bir kümesi olsun.
Š N ‹ N R olacak biçimde katsayılar ve Œ,
Œ  ! W
0,  N 04
1,  Ž 0
(2.35)
bir adım fonksiyonu olmak üzere;
:, , ‹ ! Œ.; :, 7 ‹1 , Ω
gösterge fonksiyonlar kümesi ile ; :, , önüne alınsın.
26
(2.36)
Ω gerçel değerli fonksiyonlar kümesi göz
Şekil 2.4’de görüldüğü üzere; ;:, , Ω gerçel değerli fonksiyonlar kümesinin VC
boyutu, (2.36)’da verilen gösterge fonksiyonlar kümesinin VC boyutu ile tanımlanır
(Vapnik 1995, 1998).
;:, 1
i; :, K ‹j
‹
0
<
Şekil 2.4 Gerçel değerli fonksiyonlar kümesinin VC boyutu
2.4 Genelleme Üzerine Sınırlar
Bu kesimde, DRM yöntemine dayalı bir öğrenme sürecinin düzgün yakınsaklık derecesi
üzerine üst sınırlar verilecektir. Örneklem sayısı ’nin bir fonksiyonu olan bu sınırlar,
bilinmeyen
dağılım
fonksiyonu
g :’nin,
kayıp
fonksiyonunun,
yakınsama
fonksiyonlarının özelliklerine bağlıdır ve (bilinmeyen) gerçek risk ile bilinen bir
deneysel risk arasındaki farkı değerlendirir. Buna göre, belirli bir örneklem sayısı için
deneysel riski minimum yapan ; :, % kayıp fonksiyonu göz önüne alınsın. & % , bu
kayıp fonksiyonuna göre gerçek riski ve &=>? % ise deneysel riski göstermek üzere;
genelleme sınırları,
•
& % gerçek riski, minimum deneysel risk değeri &=>? % ’e ne kadar
yakındır?
27
•
& % gerçek riski, mümkün minimum risk değeri & - ! minQ & ’a ne
kadar yakındır?
biçiminde verilen iki soruya çözüm arar.
Kesim 2.3’te; VC entropisi, büyüme fonksiyonu ve VC boyutu gibi birbirinden farklı
bazı kapasite kavramları tanıtılmıştı. (2.34) ile verilen eşitsizliğe göre en doğru
genelleme sınırları, VC entropisine dayalı olarak elde edilebilir. Fakat, VC entropisi,
(bilinmeyen) dağılımın özelliklerine bağlı olmasından dolayı kolaylıkla belirlenemez ve
kullanışlı değildir (Vapnik 1995). Bu kesimde, büyüme fonksiyonu ve VC boyutu gibi
dağılım varsayımı gerektirmeyen kapasite kavramları ele alınacaktır. Bu sınırlar da
yapısal risk minimizasyonu (Structural Risk Minimization – YRM) olarak adlandırılan
yeni bir tümevarım prensibinin gelişmesini sağlamıştır. Buna göre, (sınıflandırma
problemleri için) sınırlandırılmış negatif olmayan kayıp fonksiyonları ve (regresyon
problemleri için) sınırlandırılmamış negatif olmayan kayıp fonksiyonları incelenecektir.
2.4.1 Sınıflandırma
Öğrenme makinesi tarafından negatif olmayan kayıp fonksiyonlarının (0/1 kayıp
fonksiyonu) kullanıldığı ikili sınıflandırma problemleri göz önüne alınsın. Bu durumda,
tamamen sınırlandırılmış olan fonksiyon kümeleri için sınırlara ilişkin teorinin başlıca
sonucu olarak Teorem 2.4 verilir (Vapnik 1982, 1995, 1999).
Teorem 2.4: En az 1 7 L olasılık ile (DRM’yi uygulayan) öğrenme makinesinin
genelleme kabiliyeti için
& S &=>? ‡ 1 ‡ ‘1 ‡
~
6
’ [“”•– Q\
~
—
(2.37)
eşitsizliği, deneysel riski minimum yapan ;:, % fonksiyonunu da içeren tüm ;:, fonksiyonları için eşanlı olarak sağlanır (Vapnik 1999). ;:, kayıp fonksiyonlar
28
kümesi sonsuz sayıda eleman içerdiği zaman yani her bir elemanın (fonksiyonun)
sürekli parametre değerleri ile belirlendiği bir parametre ailesi için
% ‚ ˜™ š
! [ ,
ˆ
%
\ ! Š#
… €
ˆ[˜™ „ #\‚˜™š⁄’
›
%
(2.38)
dır. Kayıp fonksiyonlar kümesi sonlu d sayıda eleman içeriyor ise
!2
˜™ t‚˜™ š
(2.39)
%
olarak alınır.
İstatistiksel öğrenme teorisine göre Vapnik (1982, 1995, 1998), Š# ve Š6 sabitlerinin
sırasıyla 0 N Š# S 4 ve 0 N Š6 S 2 aralığında olması gerektiğini göstermiştir. Š# ! 4
ve Š6 ! 2 değerleri, en kötü durum dağılımlarına (kesikli dağılım fonksiyonu) uygun
olarak belirlenir ve bu durumda,
!4
ˆ[˜™
„€
#\‚˜™š⁄’
›
(2.40)
%
dır. Ancak uygulamada, Š# ! 4 ve Š6 ! 2 değerleri için (2.40) eşitliği ile elde edilen
genelleme sınırlarının kötü performans sergilediği görülmüştür. Bundan dolayı, gerçek
hayat problemlerine ilişkin dağılımları yansıtan Š# ve Š6 sabitlerinin daha küçük
değerleri deneysel olarak seçilebilmektedir (Cherkassky ve Mulier 2007). Örneğin,
uygulama sonuçlarına göre regresyon problemleri için Š# ! 1 ve Š6 ! 1 değerleri ile
genelleme
sınırlarını kullanarak iyi
modeller seçilebilmektedir. Sınıflandırma
problemleri için Š# ve Š6 ’nin en iyi deneysel değerleri bilinmemektedir (Cherkassky ve
Mulier 2007).
En az 1 7 2L olasılık ile deneysel riski minimum yapan ;:, % fonksiyonu için sınır,
29
&% 7 minQ & S ‘
‚ ˜™ š
6%
~
’
‡ 6 1 ‡ ‘1 ‡ ~ —
(2.41)
biçiminde verilir.
1 7 L güven düzeyi arttıkça (1’e yaklaştıkça), (2.37) ve (2.41) ile verilen sınırlar da
büyür. Çünkü diğer parametreler sabit iken L C 0 iken (2.38)–(2.40) eşitlikleri gereği,
C ∞ olur ve tüm sınırların sağ tarafı (sonsuza doğru) büyür. Bu durumda, sınırların
uygulamada kullanılabilirliği düşer. Burada sezgisel olarak, sonlu sayıda örneklemden
elde edilen herhangi bir (model) tahminin, gelişigüzel yüksek güven düzeyine sahip
olamayacağı düşünülür. Sınırlar tarafından sağlanan doğruluk ile güven düzeyi arasında
genellikle ters yönde bir ilişki vardır. Bunun aksine, diğer parametreler sabit iken
örneklem sayısı arttıkça ise (2.37) ve (2.41) sınırları daha doğru (dar) hale gelecek yani,
C ∞ iken deneysel risk, gerçek riske daha yakın olacaktır. Bundan dolayı
uygulamada bu sınırları kullanmak üzere mantıklı olan yol, güven düzeyini, örneklem
sayısının bir fonksiyonu olarak seçmektir. Böylece, örneklem sayısı küçük olduğunda
güven düzeyi düşük tutulur; örneklem sayısı büyük olduğunda ise güven düzeyi yüksek
tutulur. Vapnik (1995) tarafından özel olarak güven düzeyini belirlemek üzere
geliştirilen kural,
L ! min [
’
√%
, 1\
(2.42)
biçimindedir. Ayrıca, eşitlik (2.38) incelendiğinde, (2.37) eşitsizliğinin sağ yanındaki
ikinci terim ile ⁄ oranı arasında güçlü bir ilişkinin var olduğu görülecektir. Bu
durumda da iki farklı düzen ortaya çıkar: (1) örneklem sayısının küçük (sonlu) olması
durumu (eğitim veri sayısının, yakınsama fonksiyonlarının VC boyutuna oranının küçük
olduğu zaman (örneğin, ⁄ N 20 ise)) ve (2) büyük örneklem sayısı (⁄ oranının
büyük olduğu zaman). Örneklem sayısının büyük olması halinde eşitsizlik (2.37)’nin
sağ yanındaki ikinci terimin değeri küçülür ve deneysel risk, gerçek riskin bir ölçümü
olarak rahatlıkla kullanılabilir. Böylece Şekil 2.2’den de anlaşılacağı üzere, klasik
(parametrik) istatistiksel yöntemlerin, DRM’ye veya maksimum olabilirlik yöntemine
30
dayalı bir uygulaması gerçekleştirilmiş olur. Bunun aksine, küçük örneklem halinde
ikinci terimin değeri göz ardı edilemez ve bu durumda yakınsama fonksiyonlarının
karmaşıklığının (kapasite), mevcut veriye uyumlu olmasına ihtiyaç vardır. Bu da YRM
tümevarım prensibinin kullanımı ile mümkündür.
2.4.2 Regresyon
Öğrenme
makinesi
tarafından,
sınırlandırılmamış
negatif
olmayan
kayıp
fonksiyonlarının kullanıldığı regresyon fonksiyon tahmini problemleri göz önüne
alınsın. Gerçek fonksiyon üzerine sınırlar bilinmedikçe de bu tip kayıp fonksiyonları
için sonlu sınırlar elde edilemez. Başka bir ifadeyle, küçük bir olasılıkla bile olsa kayıp
fonksiyonunun büyük (sınırlandırılmamış) değerleriyle sonuçlanan çok büyük çıktı
değerleri gözlemlenebilir. Sadece sonlu eğitim verisinden bu olasılığı tahmin etmek de
mümkün değildir. Böylece, öğrenme teorisi, kaybın büyük değerlerinin çok sık ortaya
çıkmadığı sınırlandırılmamış kayıp fonksiyonlarının dağılımları için bazı genel
tanımlamalar sağlar (Vapnik 1995). Bu tanımlama, kaybın büyük değerlerinin gözlenme
olasılığı olarak adlandırılan, dağılımların kuyruk davranışlarını açıklar. Hafif kuyruklu
dağılımlar için ise hızlı bir yakınsama derecesi mümkündür. Bu gibi dağılımlar için
genelleme üzerine sınırlar Teorem 2.5 ile verilir.
Teorem 2.5: En az 1 7 L olasılık ile
& S
“”•– Q
(2.43)
(#‚ƒ√~)
eşitsizliği, bütün kayıp fonksiyonları (deneysel riski minimum yapan fonksiyon da
dahil) için eşanlı olarak sağlanır. Burada , (2.38) ile elde edilir ve Š !
maksŠ, 0’dır. Ayrıca,  sabiti, kayıp fonksiyonunun dağılımının kuyruklarına bağlı
olarak belirlenir. Bir regresyon probleminde, büyük örneklem sayısı için 1 7 L güven
düzeyi, (2.42) denklemi ile belirlendiğinde; Š# ! 1, Š6 ! 1 ve  ! 1 değerleri için VC
sınırları,
31
& S &=>? 1 7 ‘ 7 ln ‡
˜™ %
6%
—
‚#
(2.44)
olarak elde edilir. Burada ! ⁄’dir.
En az 1 7 2L olasılık ile deneysel riski minimum yapan ;:, % fonksiyonu için sınır,
“Q€ ‚ž™Ÿ “Q
ž™Ÿ “Q
ƒ √~
S (#‚ƒ
√~)
#
‡ O [% \
(2.45)
biçiminde verilir. Bu sınır deneysel risk ile mümkün en küçük risk arasındaki farkı
tahmin etmek üzere kullanılır (Cherkassky ve Mulier 2007).
2.5 Yapısal Risk Minimizasyonu
Önceki kesimlerde de tartışıldığı gibi DRM tümevarım prensibinin büyük örneklemler
için uygulanması hedeflenir. Bu durumda yani ⁄ oranı büyük olduğunda,
sınıflandırma problemi için (2.37) denklemi, regresyon problemi için (2.43) denklemi
ile verilen sınırda ¡ 0 olacak ve deneysel risk, gerçek riske yaklaşacaktır. Böylece
deneysel riskin küçük bir değeri, küçük gerçek riski garanti edecektir. Ancak ⁄
oranının küçük olması (örneğin, ⁄ N 20) halinde (2.37) denkleminin sağ yanındaki
tüm terimlerin veya (2.43) denkleminin pay ve payda kısımlarının minimum yapılması
gerekmektedir. (2.37) denkleminin sağ yanındaki ilk terim (deneysel risk), fonksiyonlar
kümesinden seçilmiş belirli bir fonksiyona bağlı iken; ikinci terim esas olarak
fonksiyonlar kümesinin VC boyutuna bağlıdır. Benzer bir biçimde; regresyon
problemleri için (2.43) ile verilen sınırda pay kısmı, özel bir fonksiyona; payda kısmı
ise fonksiyonlar kümesinin VC boyutuna bağlıdır. (2.37) ve (2.43)’de riskin sınırlarını
tüm terimler üzerinden minimum yapmak için VC boyutunun bir kontrol değişkeni
olarak belirlenmesi gerekmektedir. Bir başka ifade ile problem, verilen bir eğitim veri
seti için optimum kapasiteye (VC boyutuna) sahip olan fonksiyonlar kümesini
belirlemektir. Birçok uygulama probleminde, gerçek model karmaşıklığı bilinmeyip de
32
sadece veri seti mevcut olduğunda küçük örneklem tahmin problemi ile karşılaşılır.
Bunun aksine; DRM tümevarım prensibine dayalı parametrik yöntemler, gerçek
modelin, fonksiyonlar kümesi tarafından içerildiği varsayımı altında; fonksiyonlar
kümesinin bilinen bir sabit karmaşıklığını (parametre sayısı gibi) kullanır. Bu
parametrik yaklaşım, yukarıdaki varsayımın sağlanması ve gözlem sayısının (⁄
oranının) büyük olması halinde doğrulanır (Cherkassky ve Mulier 2007).
Yapısal risk minimizasyonu (YRM) olarak adlandırılan tümevarım prensibi, sonlu
örneklemler için optimum model karmaşıklığını belirlemek üzere biçimsel bir
mekanizma sağlar. YRM esasında sınıflandırma problemleri için önerilmiş ve
uygulanmıştır fakat herhangi bir öğrenme problemi için de uygulanabilir. ;:, , Ω fonksiyonlar kümesi ile gösterilmek üzere; , birbirini içeren _ ! .;:, , Ω¢ 1 altkümelerinden (elemanlarından) oluşan bir yapı öyle ki,
# £ 6 £ ¤ £ % ¤
(2.46)
olsun ve her bir _ elemanı da sonlu bir _ , VC boyutu ile belirlensin. Buna göre YRM,
elemanların karmaşıklığına (VC boyutuna) göre sıralamalarını, Şekil 2.5’de verildiği
gibi belirler.
Ayrıca _ elemanı tarafından içerilen ;:, , Ω¢ fonksiyonları ya sınırlı olmalı ya
da (eğer sınırsız ise) risk fonksiyonunun sınırsız ve kontrolsüz büyümemesini temin
etmek üzere bazı genel şartları sağlamalıdır (Vapnik 1995).
# S 6 S ¤ S _ S ¤
#
6 ¤
_ ¤
Şekil 2.5 Fonksiyonlar kümesinin yapısı
33
YRM’ye göre sonlu veri ile öğrenme probleminin çözümü, yakınsama fonksiyonlarının
bir kümesi üzerinde yapının, öncül bilgi olarak tanımlanmasını gerektirmektedir. Daha
sonra da verilen bir veri seti için optimum model tahmini,
Adım 1. Optimum karmaşıklığa sahip olan yapıdan eleman seçimi,
Adım 2. Adım 1’de seçilen elemanlar kullanılarak model tahmini
biçiminde verilen iki adım ile gerçekleştirilir. Burada istatistiksel yöntem olarak; birinci
adım model seçimine, ikinci adım ise parametre tahminine karşılık gelir.
(2.37) ve (2.43) ile verilen VC sınırlarını minimum yapmak üzere iki geliştirici YRM
uygulamasına öncülük eden stratejiler,
1. Model karmaşıklığı (VC boyutu) sabit tutulur ve deneysel hata terimi minimum
yapılır,
2. Deneysel hata sabit (küçük) tutulur ve VC boyutu minimum yapılır
biçiminde verilir (Cherkassky ve Mulier 2007). İlk YRM stratejisi şöyle açıklanır:
Verilen bir :# , :6 , … , :% eğitim verisi için YRM prensibi, _ elemanından alınan
fonksiyonlar için deneysel riski minimum yapan ;_ :, % fonksiyonunu belirler. Daha
sonra, _ yapısının her bir elemanı için garanti edilmiş risk, sınıflandırma
problemlerinde (2.37) eşitsizliğinin veya regresyon problemlerinde (2.43) eşitsizliğinin
sağ yanı ile belirli sınırların kullanılmasıyla bulunur. Son olarak ise minimum garanti
edilmiş riski veren elemanın optimum yapısı, ¥?a seçilir. ¥?a altkümesi, mevcut bir
veri seti için optimum karmaşıklığa (VC boyutuna) sahip olan bir fonksiyonlar
kümesidir.
YRM prensibi esasında yakınsama fonksiyonlarının karmaşıklığı ile eğitim veri setine
uyumun kalitesi arasındaki değişimin çözümlemesini gerçekleştirir. Şekil 2.6’da
görüldüğü gibi karmaşıklık (¦ altküme indeksi) arttıkça deneysel riskin minimumu
azalır (veriye uyumun kalitesi artar). Böylece, (2.37) denklemindeki ikinci terimin
34
değeri artar. Benzer biçimde, regresyon problemleri için artan karmaşıklık ile (2.43)
eşitsizliğinin pay kısmındaki terim (deneysel risk) değeri azalır. Bu durumda da payda
küçük (sıfıra yakın) hale gelir. YRM, gerçek risk üzerinde minimum garanti edilmiş
riski veren yapının optimum elemanını seçer (Luxburg ve Schölkopf 2011).
Sınıflandırma hatası
Aşağı uyum
Aşırı uyum
Gerçek risk
Güven aralığı
Deneysel risk
#
r
_
Şekil 2.6 değerinin ( sabit) bir fonksiyonu olarak gerçek (beklenen) risk ve deneysel
risk üzerine sınırlar
35
3. DESTEK VEKTÖR MAKİNELERİ
Destek vektör makineleri (DVM), sınırlı sayıda öğrenme örüntüsü üzerinden iyi bir
genelleme düzeyi elde etmek amacıyla yapısal risk minimizasyonu (YRM) tümevarım
prensibini uygulayan bir öğrenme makinesidir. YRM, deneysel riski ve VC (Vapnik–
Chervonenkis) boyutunu minimum yapmak üzere eşanlı girişimlerden oluşmaktadır.
Teori esasında ayrılabilir ikili sınıflandırma problemi temelinde, Vapnik ve çalışma
arkadaşları tarafından AT & T Bell Laboratuarlarında geliştirilmiştir. DVM, karmaşık
veri setlerinde, çözümlemesi zor örüntülerin tanımlanmasında kullanışlı bir öğrenme
algoritmasını uygulamaktadır. Algoritma, önceden gözlenmemiş verilerin sınıflandırma
kestirimi
için
örneklerden
ayırt
edebilen
bir
sınıflandırma
öğrenmesini
gerçekleştirmektedir.
Bir fonksiyonlar kümesinin VC boyutu, bu fonksiyonlar kümesi tarafından
parçalanabilen en büyük veri setinin boyutudur. §% kümesinden .0, 11’e veya .71, 11’e
tanımlı , fonksiyonlar kümesi göz önüne alınsın. Bu fonksiyonlar, veri
noktalarını iki sınıftan birine eşleyen gösterge fonksiyonları olarak adlandırılır. §% ’de
tanımlı tane nokta ele alındığında bu noktalardan her biri 0 veya 1 sınıflarından birine
rasgele atanabilir. Buna göre tane nokta 2ˆ farklı yol ile etiketlenebilir. Örneğin, §6
düzleminde tanımlı üç nokta için ayırıcı hiperdüzlem ile 8 mümkün etiketleme Şekil
3.1’de gösterilmiştir. Buna göre, §6 düzleminde yönlendirilmiş doğrular kümesinin VC
boyutunun 3’e eşit olduğu söylenilebilir.
Bölüm 2’de sınıflandırma problemlerinde sonlu örneklem ile öğrenme için VC
genelleme sınırı (2.37) denklemi ile verilmişti. Bu eşitsizliğin sağ yanındaki ikinci
terim, temel olarak VC boyutuna (veya ⁄ oranına) bağlı iken, birinci terim (deneysel
risk), parametresine bağlıdır. YRM tümevarım prensibi, verilen sayıda eğitim
örneklemi için (2.37) denkleminin sağ yanını minimum yapmak amacıyla tahmin
edicinin optimum VC boyutunun belirlenmesi üzerine odaklanmıştır. (2.37)’yi
minimum yapmak üzere doğal bir strateji, VC boyutunun sabit tutulduktan sonra birinci
terimin (deneysel risk) minimum yapılmasıdır. Sınıflandırma ve regresyon amaçlı
birçok istatistiksel ve sinir ağları öğrenme algoritmaları, YRM stratejisine dayalıdır.
36
Model karmaşıklığının parametre sayısı ile ilişkili olduğu klasik görüşü yansıtan bu
yapılar, boyut sorunu nedeniyle bazen elverişli olmayabilir (Cherkassky ve Mulier
2007).
(a)
(b)
(c)
(d)
(e)
(f)
(g)
(h)
Şekil 3.1 Düzlemde üç nokta
İstatistiksel öğrenme teorisine göre VC boyutu () kavram olarak parametre sayısı ile
ilişkili değildir. Bu nedenle prensipte, , fonksiyonunun çok parametreye sahip
olması durumunda bile küçük olacak biçimde yapıların tasarlanması mümkündür. Bu
yapılar, YRM prensibini farklı bir biçimde uygular. Buna göre, (2.37) eşitsizliğinde VC
boyutunu minimum yapmak üzere,
•
Tüm eğitim örneklemi için , yakınsama fonksiyonları kümesinin, aynı
sınıftan bir fonksiyonun aynı tahminleri ( değeri) ürettiği g# , g6 , … , gt denklik
sınıflarına parçalanması (aynı denklik sınıfındaki bütün fonksiyonlar (modeller),
eğitim örneklemini aynı yol ile ayırırlar ve böylece (2.37) eşitsizliğindeki
deneysel risk teriminin aynı değerine sahip olur)
37
•
Her bir denklik sınıfı için VC boyutunu minimum yapan bir fonksiyon
bulunması (böylece (2.37) eşirsizliğinin sağ yanındaki ikinci terim de minimum
olur)
biçiminde bir strateji uygulanır. Bu sınıflamaya örnek olarak, veri setini sıfır hata ile
ayıran (eğitim verisinin doğrusal ayrılabilir olduğu varsayımıyla) girdi uzayındaki
hiperdüzlemlerin veya doğrusal fonksiyonların bir kümesi verilir. Bu durumda, aynı
denklik sınıfındaki tüm modeller aynı sayıda parametreye sahip olsa da farklı VC
boyutuna sahip olabilirler. DVM yaklaşımı belirli yapıları, g# , g6 , … , gt denklik
sınıflarının bir kümesi üzerinde tanımlar. DVM sınıflandırmasında YRM yapısı, nitelik
uzayının boyutu ile ilişkili olmayan bir hiperparametre (pay olarak adlandırılır) ile
açıklanır (Kecman 2001).
İstatistiksel öğrenme teorisi, sınıflandırma ve regresyon problemlerinde etkili bir yapı
temin etmektedir. DVM de böyle bir yapıdan doğrudan üretilir. DVM, konveks amaç
fonksiyonunun, kayıp fonksiyonu ve bir düzenleme teriminin (ağırlıkların normu)
kombinasyonu ile verildiği kısıtlı karesel optimizasyon probleminin çözümü ile
belirlenir. Burada düzenleme terimi doğrudan, fonksiyonlar kümesinin VC boyutu ile
ilişkilendirilirken; kayıp fonksiyonu ise genellikle problemin özelliğine bağlı olarak
seçilir. DVM’nin uygulandığı ilk çalışma optik karakter tanıma üzerine yapılmıştır.
Destek vektör sınıflandırması kısa bir zaman içerisinde mümkün en iyi sistemler ile
nesne tanıma problemlerinde diğer yaklaşımlar ile rekabet eder hale gelmiştir
(Schölkopf ve Smola 2002). Burges (1998) destek vektör sınıflandırması üzerine
kapsamlı bir başvuru makalesi yayımlamıştır. Ayrıca, DVM ile regresyon ve zaman
serisi kestirimi uygulamalarında da iyi performanslar elde edilmiştir (Drucker vd.
1997).
DVM’nin, destek vektör sınıflandırması (Support Vector Classification – DVS) ve
destek vektör regresyonu (Support Vector Regression – DVR) olmak üzere iki temel
türü vardır. Yüksek boyutlu bir nitelik uzayını kullanan DVM, destek vektörlerin
altkümesi üzerine kurulu fonksiyon kestirimleri verir. DVS’ye göre model geliştirmek
üzere, belirlenen payın dışında kalan eğitim verisi, amaç fonksiyonunda dikkate
38
alınmaz. Dolayısıyla bu durumda ortaya konulan model, sadece eğitim verisinin bir
altkümesine bağlı olacaktır. Benzer biçimde DVR tarafından üretilen model de eğitim
verisinin bir altkümesine bağlıdır ve amaç fonksiyonu, model kestirimine yakın (bir eşik değerinin içerisinde) her bir eğitim verisini öğrenme sürecinin dışında
bırakmaktadır. Destek vektör regresyonu olarak adlandırılan regresyon amaçlı bu DVM
türü, Vapnik vd. (1997) tarafından önerilmiştir.
DVM yaklaşımı, birtakım temel düşünceleri (pay, çekirdek (kernel) gösterimi ve
dualite) yapısında birleştirir. Bu kavramlar farklı içerikte olsa da esasında yıllar
öncesinde tanıtılmıştı. Örneğin, çekirdeklerin kullanımı düşüncesi 1960’ların ortalarında
ortaya çıkmıştır (Cherkassky ve Mulier 2007). Matematiksel programlamada doğrusal
optimizasyon formülasyonu, DVM’ye benzer olarak, sınıflandırma problemleri için
Mangasarian (1965) tarafından önerilmiştir. Fakat bu öncül gelişmeler, istatistiksel
öğrenme tarafından sağlanan sağlam zeminden yoksun olması nedeniyle pratik öğrenme
algoritmaları ile sonuçlanamamıştır.
3.1 Pay Tabanlı Kayıp Fonksiyonları
DVM ve çekirdek (kernel) yaklaşımları gibi pay tabanlı yöntemlerin, uygulamalarda
başarılı bir biçimde kullanıldığı görülmektedir. Bu kesimde, VC öğrenme teorisine göre
“pay” kavramına dayalı yeni bir yapı incelenecektir. Buna göre, , , c ! 1, 2, … , biçiminde sonlu sayıda eğitim örneği için “iyi” bir model tahmini elde etmek amacıyla
tümevarımsal öğrenme problemi göz önüne alınacaktır.
Standart bir tümevarımsal öğrenme algoritmasına göre öğrenme, sadece eğitim verisi ile
gerçekleştirilir. Öğrenme sürecinde eğitim verisi, benzetim tekniklerinde olduğu gibi
gelecek veri seti (test verisi) için bir temsil olarak kullanılabilir. Bundan dolayı, kestirim
amaçlı iyi bir model,
•
deneysel risk minimum olacak biçimde eğitim verisini açıklamalı,
•
diğer mümkün veri setine göre maksimum belirsizliğe sahip olmalı
39
biçiminde verilen iki (çelişen) amaca ulaşmaya çalışmalıdır (Cherkassky ve Mulier
2007). Bu amaçlara ulaşmanın mümkün bir yolu, eğitim verisinin (büyük) bir kısmının
model tarafından çok iyi açıklanabildiği (sıfıra eşit deneysel kayıp) ve geriye kalan
kısmının ise bir miktar belirsizlik ile açıklanabildiği (sıfırdan farklı deneysel kayıp) bir
kayıp fonksiyonu kullanmaktır. Sınıflandırma problemlerinde sıfırdan farklı kayıp için
belirlenen bölge pay olarak ifade edilir. Ayrıca, bu tip bir kayıp fonksiyonu,
parçalanmayı (sınıflandırma problemleri için pay büyüklüğü) belirleyen bir parametreye
de sahip olmalıdır. Böyle bir kayıp fonksiyonu ile öğrenmenin belirtilen iki çelişen
amacı arasındaki değişim etkili bir biçimde kontrol edilir.
Pay kavramı, 1960’ların başlarında ilk olarak doğrusal ayrılabilir veriler ile
sınıflandırma problemleri için geliştirilmiştir (Vapnik ve Lerner 1963, Vapnik ve
Chervonenkis 1964). Çekirdek gösterimi ve ayrılabilir olmayan verilerin çözümlenmesi
gibi ilave iki gelişmenin DVM yöntemi ile birleştirilmesi bir başka otuz yıl almıştır
(Boser vd. 1992, Cortes ve Vapnik 1995). Bundan sonra DVM metodolojisi, diğer tür
öğrenme problemlerinin çözümlenmesine uyarlanmıştır.
Pay tabanlı kayıp yaklaşımı ikili sınıflandırma problemleri için geliştirildiğinde;
sign , işaret fonksiyonu girdi uzayını, , K 0 için pozitif sınıf bölgesine,
, N 0 için ise negatif sınıf bölgesine ayıran bir karar sınırıdır. Model tarafından
doğru sınıflandırılan eğitim örnekleri, , ! 0 karar sınırından uzakta yer alır ve
sıfır kayıp fonksiyonu değeri ile belirlenir. Bunun aksine, model tarafından yanlış
sınıflandırılan gözlemler karar sınırına yakındır ve sıfırdan farklı (pozitif) bir kayıp
değerine sahiptir. Şekil 3.2’de görüldüğü üzere iyi bir karar sınırı,
•
pay içerisinde yer alan örneklem için toplam deneysel kaybın minimum
yapılması,
•
model tarafından doğru sınıflandırılan (açıklanan) eğitim örnekleri arasında ise
maksimum ayrıma (pay) ulaşılması
biçiminde verilen amaçlar arasında optimum dengeyi sağlamalıdır. Daha büyük bir pay,
daha büyük deneysel riski gerektirdiğinden, bu iki amaç birbirine göre çelişiktir. İyi bir
40
genelleme düzeyine ulaşmak amacıyla da uygun bir pay büyüklüğü seçilmelidir
(Kecman 2001, Cherkassky ve Mulier 2007).
Pay
'!0
'K0
'!0
, ! 0
Şekil 3.2 Sınıflandırma için pay tabanlı kayıp
Bundan sonraki kısımda, bazı özel öğrenme problemleri için , ! ª«, ¬ ‡ ­
biçiminde doğrusal yakınsama fonksiyonları ile pay tabanlı yapılara ilişkin örnekler
incelenecektir.
Tanım 3.1 Sınıflandırma problemi
Öğrenmenin birinci amacının sağlanabildiği yani doğrusal sınıflayıcının sıfır hata ile
ayırma gerçekleştirdiği bir doğrusal ayrılabilir veri durumu göz önüne alınsın. Bundan
sonra ise en iyi model, diğer mümkün veriler için maksimum belirsizliğe sahip olandır.
Şekil 3.3.a’da görüldüğü üzere, payın kullanımıyla çıktının belirsiz olduğu bölgeyi
temsil etmek üzere girdi uzayı ikiye ayrılır. Yani, pay sınırının “doğru” tarafına düşen,
etiketlenmemiş yeni veri noktaları daima doğru sınıflandırılabilirken; pay sınırının
“yanlış” tarafına düşen veri noktaları kesin bir biçimde sınıflandırılamaz. Pay
büyüklüğü (genişliği), model karmaşıklığını kontrol etmede önemli bir rol oynar. Bu
eğitim verisini çok iyi ayıran (açıklayan) birçok doğrusal karar sınırı olmasına rağmen
bu modeller, iki sınıf arasındaki ayırma (pay) derecesine göre farklılık gösterir. Örneğin,
Şekil 3.3’de aynı veri seti için farklı bir pay büyüklüğü ile iki mümkün doğrusal karar
sınırı gösterilmektedir. Küçük pay büyüklüğüne sahip modellerin, büyük paya sahip
41
modellerden daha esnek olduğu (daha büyük VC boyutu) Şekil 3.3’den açık bir biçimde
görülmektedir. Böylece, yapısal risk minimizasyonu stratejisinde, (2.37) ile verilen VC
sınırının minimizasyonu için pay büyüklüğü, denklik sınıflarının bir kümesinde
karmaşıklık sıralaması olarak kullanılabilir.
! ‡1
Pay
! ‡1
Pay
! 71
! 71
(a)
(b)
Şekil 3.3 Doğrusal ayrılabilir verilerin ikili sınıflandırması
Birçok durumda veri, mevcut yakınsama fonksiyonlarının kümesi tarafından çok iyi
açıklanamaz yani, deneysel riskin minimumu sıfıra yakın bir değer olmayabilir. Bu
durumda, iyi bir tümevarımsal model, deneysel riskin minimum olması ve gelecek veri
için maksimum belirsizliğe ulaşılması amaçları arasında bir denge belirlemeye çalışır.
Ayrılabilir olmayan eğitim verisi ile sınıflandırmada, bazı eğitim verisinin pay içerisine
düşmesine izin verilir ve bu verilerin, pay sınırından sapması da deneysel riski belirler.
Şekil 3.4 ile görüldüğü üzere; sapma, verilerin pay sınırından uzaklıklarının (® ) toplamı
ile belirlenir. Teknik olarak bu yorum, girdi uzayını iki bölgeye parçalayan uyarlamalı
bir kayıp fonksiyonunun (∆ pay büyüklüğüne bağlı) kullanımını gerektirir. Girdi
uzayını, eğitim verisinin bir kısmının model tarafından açıklanabildiği (sıfır kayıp) ve
geri kalanının bir miktar belirsizlik ile açıklanabildiği iki bölgeye ayıran kayıp
fonksiyonu,
'∆ (, , ) ! maks∆ 7 , , 0
42
(3.1)
biçiminde verilir (Cherkassky ve Mulier 2007). Bu da sınıflandırma problemleri için
DVM kayıp fonksiyonu olarak bilinir. Buna göre öğrenmenin amacı, toplam hata (pay
sınırının “yanlış” tarafında bulunan veriler için sınırdan sapmalar toplamı) minimum
yapılırken; sıfır hata ile sınıflandırılmış veriler (pay sınırının “doğru” tarafında bulunan)
için ise payın maksimum yapılmasıdır.
®#
! ‡1
®6
! 71
Şekil 3.4 Ayrılabilir olmayan verilerin ikili sınıflandırması
Tanım 3.2 Regresyon problemi
Bu durumda tahmin edilen model bir gerçel değerli fonksiyondur ve buna göre kayıp
fonksiyonu, çıktıya ilişkin gerçek değer ile kestirim , arasındaki farkı ölçer.
Sınıflandırma problemine benzer olarak kayıp fonksiyonu,
•
, modeli, | 7 , |’nin küçük değerleri için veri setini mükemmel
açıklayacak (sıfır deneysel riski verir),
•
, modeli, | 7 , |’nin büyük değerleri için sıfırdan farklı deneysel
risk üretecek
biçimde tanımlanır. Buna göre, -duyarsız kayıp fonksiyonu,
'∆ (, , ) ! maks| 7 , | 7 , 0
43
(3.2)
olarak verilir (Cherkassky ve Mulier 2007). Şekil 3.5 ile de gösterilen bu kayıp
fonksiyonu, , modeli için , uzayının parçalanmasını tanımlar (Schölkopf ve
Smola 2002). ’un uygun seçimi, genelleme için kritik öneme sahiptir. Küçük değeri,
(sınıflandırma probleminde) büyük paya karşılık gelir ve bu durumda model, verinin
sadece küçük bir kısmını açıklar. Bunun aksine, daha büyük değeri, küçük paya
karşılık gelir ve böylece model, verinin çoğunu açıklar.
Kayıp
®#
®6
7
±
7 , (a)
(b)
Şekil 3.5 -duyarsız kayıp fonksiyonu
3.2 Optimum Ayırma Hiperdüzlemi
Ayırma hiperdüzlemi, eğitim verisini (sınıflandırma probleminde) hatasız ayırabilen bir
doğrusal fonksiyon olarak tanımlanır. gözlem içeren # , # , … , % , % , .‡1, 711 eğitim verisinin,
° ! ª«, ¬ ‡ ­
§¯ ,
(3.3)
hiperdüzlem karar fonksiyonu tarafından uygun « ve ­ katsayıları ile ayrılabilir olduğu
varsayılsın. Verilerin doğrusal ayrılabilir olduğu hakkındaki varsayım daha sonraki
kesimlerde gevşetilecek olsa da burada bu varsayım DVM yaklaşımının gelişimi
açısından öneme sahiptir. Başarılı bir eğitim süreci sonunda, elde edilen « ağırlıklarını
44
da kullanarak, yeni gözlenen örüntüleri için kestirimde bulunmak üzere sign ° işaret fonksiyonuna göre çıktı üretilir.
Şekil 3.3’de görüldüğü üzere, ayırma hiperdüzleminden en yakın veri noktasına olan
minimum uzaklık ∆ ile gösterilir. Buna göre, 2∆ marjı ile bir ayırma hiperdüzlemi,
eğer ! ‡1 ise ª«, ¬ ‡ ­ Ž ‡∆
eğer ! 71 ise ª«, ¬ ‡ ­ S 7∆
c ! 1, … , (3.4)
kısıtlarını veya daha sade gösterim ile
iª«, ¬ ‡ ­j Ž ∆, c ! 1, … , (3.5)
denklemini sağlamalıdır. Verilen bir eğitim veri seti için tüm mümkün ∆-ayırma
hiperdüzlemi (3.5) eşitsizliğinde olduğu gibi tanımlanabilir. Bu denklem, ayırma
hiperdüzleminin, eğitim verisi ile doğrudan açıklanmasına olanak vermesinden dolayı
önemli bir yorumdur (Smola ve Schölkopf 2004).
Pay, verinin olanak verdiği ölçüde (Şekil 3.3.a’ya karşı 3.3.b) maksimum büyüklüğe
sahipse ∆-ayırma hiperdüzlemi, optimum olarak adlandırılır. Bir önceki kesimde ele
alındığı üzere payın maksimum olması, karar sınırının genelleme yeteneğini de
maksimum yapar.
ª«, ¬ ‡ ­ ! 0
ayırma
hiperdüzlemi
ile
´
gözlemi
arasındaki
uzaklık
|ª«, ´¬ ‡ ­|⁄µ«µ ile belirlenir. 2∆ payı için her eğitim örüntüsü, karar sınırından en az
∆ uzaklıkta bulunur ve ¶· iª«, · ¬¸j
µ«µ
.71, 11 için
Ž ∆, c ! 1, … , (3.6)
45
eşitsizliğini sağlar. Bu eşitsizlik, ∆ payının maksimum yapılmasının, µ«µ teriminin
minimum yapılmasına denk olduğunu belirtmektedir. ∆µ«µ ! 1 olacak biçimde « ve ­
parametrelerinin yeniden ölçeklendirilmesi, ayırma hiperdüzlemi için
iª«, ¬ ‡ ­j Ž 1,
c ! 1, … , (3.7)
kanonik form gösterimi ile sonuçlanır. Optimum bir ayırma hiperdüzlemi, (3.7)
koşulunu sağlamakla birlikte « ve ­ parametrelerine göre
L« ! µ«µ6
(3.8)
denklemini minimum yapar. Şekil 3.6’da görüldüğü gibi pay sınırı içerisinde yer alan
veya eşitlik halinde (3.7) denklemini sağlayan veri noktaları destek vektörler olarak
adlandırılır. Karar yüzeyinin konumunu belirleyen destek vektörler, karar sınırına en
yakın veri noktaları olmasından dolayı sınıflandırılması en zor olanlardır (Cherkassky
ve Mulier 2007).
° K ‡1
1
µ«µ
|°¹ |
µ«µ
° ! ‡1
° ! 0
´
° N 71
° ! 71
Şekil 3.6 Optimum hiperdüzlemin karar sınırı
46
Optimum ayırma hiperdüzleminin genelleme yeteneği, destek vektörlerinin sayısı ile
doğrudan ilişkilendirilebilir. Vapnik (1995)’e göre destek vektörlerinin sayısı, bir test
örneği için hata oranının beklenen değeri üzerinde,
h% ihata oranıj S
¼€ i½¾¿À¾¢ Á¾¢Àö˜¾Â™™ ¿ÃÄı¿ıj
%
(3.9)
biçiminde bir sınır temin eder. h% işlemcisi, sayıdaki eğitim kümelerinin tümü
üzerinde beklenen değeri ifade etmektedir. Bir optimum hiperdüzlem, (eğitim
kümesinin büyüklüğüne göre) az sayıda destek vektörler ile oluşturulabileceği
varsayımı altında; yüksek boyutlu uzayda dahi iyi genelleme yeteneğine sahip olacaktır.
Girdi uzayının boyutundan bağımsız olarak hiperdüzlemin karmaşıklığının (VC boyutu)
doğrudan kontrol edilmesi mümkündür. Minimum karmaşıklık (maksimum genelleme)
ile ayırma hiperdüzlemi maksimum paya sahiptir. Ayrılabilir olan veriler için optimum
hiperdüzlemin bulunması, doğrusal kısıtlar ile tanımlı bir karesel optimizasyon
problemidir. Böylece, , , c ! 1, … , ; programlama problemi,
§¯ eğitim verisi mevcut olmak üzere
Amaç fonksiyonu:
min«
Kısıtlar:
#
6
Å,¸ § Æ6 µ«µ Ç
(3.10)
iª«, ¬ ‡ ­j Ž 1, c ! 1, … , biçiminde oluşturulur (Cherkassky ve Mulier 2007). Burada problemin çözümünde
+ ‡ 1 parametre mevcuttur. Uygun bir + boyutuna sahip veri seti için bu problem,
karesel programlama kullanılarak çözülebilir. Çok yüksek boyutlu girdi uzayları için
problemi bu haliyle çözmek pratik değildir. Fakat problemi, kolay çözülebilir olan dual
formuna dönüştürmek daha uygun olabilir. Optimizasyon teorisine göre eğer amaç
fonksiyonu ve kısıtlar kesin konveks ise optimizasyon probleminin dual formunun
mevcut olduğu söylenir. Buna göre primal problemin çözümü, dual problemin
çözümüne denktir. (3.10) ile verilen optimizasyon problemi, bu kriterleri sağlar ve bir
47
dual forma sahiptir. Bu durumda, problemi dualine dönüştürmek üzere Kuhn-Tucker
teoremi kullanılır (Strang 1986).
Problemin duali, Şekil 3.7’de gösterildiği gibi bir geometrik yoruma da sahiptir. Bir
kümenin konveks gövdesi, sınıftaki veri noktalarını içerecek şekilde oluşturulan en
küçük geometrik konveks küme biçiminde tanımlansın ve her bir sınıftaki veri noktaları
için konveks gövde oluşturulsun. Geometrik yoruma göre optimum hiperdüzlem, iki
konveks gövdenin birbirine olan en yakın uzaklığını ikiye böler. Bu dual problemi
çözmek, iki destek yüzeyi arasındaki maksimum payı bulmaya denktir (Şekil 3.3.a).
Destek vektörler olarak adlandırılan az sayıdaki eğitim örneği, problemin hem primal
hem de dual formu için çözümü belirler. Primal problemde, payın sınırında bulunan,
dolayısıyla payı belirleyen veri noktalarına destek vektörler denir (Cherkassky ve
Mulier 2007). Dual problemde ise bu aynı destek vektörler, her bir konveks gövde
içerisinde en yakın noktaları belirler. Ayrıca, Şekil 3.7’de görüldüğü gibi « vektörü,
ayırma hiperdüzlemine olan normal yönü belirler.
! ‡1 için
konveks gövde
! 71 için
konveks gövde
«
Şekil 3.7 Dual problemde optimum hiperdüzlem
(3.10) ile verilen primal problemi dualine dönüştürmek üzere iki adım mevcuttur. İlk
adımda, È Lagrange çarpanları kullanılarak,
48
#
'«, ­, È ! 6 µ«µ6 7 ∑%B# È . iª«, ¬ ‡ ­j 7 11
(3.11)
kısıtsız optimizasyon problemi oluşturulur. Bu fonksiyonun eyer (saddle) noktası,
problemin çözümünü verir. Fonksiyon, « ve ­ katsayılarına göre minimum, È Ž 0 için
maksimum yapılmalıdır.
İkinci adımda ise « ve ­ parametrelerini, sadece È parametrelerine göre ifade etmek
üzere Karush-Kuhn-Tucker (KKT) koşulları kullanılır. Buna göre (3.11) fonksiyonu, È
Lagrange çarpanlarına göre maksimum yapılması gereken amaç fonksiyonunu belirler.
KKT koşullarına göre «, ­ ve È için çözümler,
ÉÊ«,¸,Ë
ɸ
ÉÊ«,¸,Ë
É«
!0
(3.12)
!0
(3.13)
biçiminde olşturulur. Bu kısmi türevlerin çözümü ise optimum hiperdüzlemlerin,
1. È , c ! 1, … , katsayıları,
∑%B# È ! 0,
È Ž 0,
c ! 1, … , (3.14)
kısıtlarını sağlamalıdır,
2. « vektörü,
« ! ∑%B# È ,
È Ž 0,
c ! 1, … , ile eğitim kümesindeki vektörlerin doğrusal bir bileşimidir
49
(3.15)
biçimindeki özelliklerini verir (Cherkassky ve Mulier 2007). Ayrıca KKT koşullarına
göre her È parametresi; eğer karşılık gelen , veri örneği, (3.10) ile verilen
problemdeki kısıtları eşitlik durumunda sağlıyorsa sıfırdan farklıdır. Bu durum,
È i ª«, ¬ ‡ ­ 7 1j ! 0, c ! 1, … , (3.16)
koşulu ile açıklanır. Kısıtları eşitlik durumunda (È sıfırdan farklı olduğunda) sağlayan
veri örnekleri aynı zamanda destek vektörlerdir. Dual problemi oluşturmak amacıyla;
(3.14) ve (3.15) ifadeleri, (3.11) Lagrange fonksiyonunda yerine yazılır. Bu işlemin
Lagrange fonksiyonunda etkisini daha açık görmek için (3.11) ifadesi,
#
'«, ­, È ! 6 µ«µ6 7 ∑%B# È ª«, ¬ 7 ­ ∑%B# È ‡ ∑%B# È
(3.17)
biçiminde tekrar yazılabilir. (3.14) koşulu altında Lagrange fonksiyonundaki üçüncü
terim sıfırdır. (3.15) ile verilen ifade Lagrange fonksiyonunda yerine konulduğunda,
#
'È ! 7 6 ∑%,B# È È ª , ¬ ‡ ∑%B# È
(3.18)
elde edilir. (3.18) denklemi, dual optimizasyon probleminde amaç fonksiyonunu belirler
ve È# , … , È% parametrelerine göre maksimum yapılmalıdır. (3.3) hiperdüzlem karar
fonksiyonunun È# , … , È% ve ­ parametrelerine göre gösterimi, eşitlik (3.15)’in (3.3)
denkleminde yerine konulması ile belirlenir. Böylece,
° ! ∑%B# È ª , ¬ ‡ ­
(3.19)
formunda bir hiperdüzlem elde edilir. Daha sonra ­ parametresi, destek vektörler
üzerindeki koşullardan faydalanılarak hesaplanır. Destek vektörlerinden biri olan
} , } verildiğinde bu destek vektör,
} iª«, } ¬ ‡ ­j ! 1
(3.20)
50
eşitliğini sağlar. Bu denklemde, eşitlik (3.15) yerine konulup ­ için çözüldüğünde,
­ ! } 7 ∑%B# È ª , } ¬
(3.21)
elde edilir (Cherkassky ve Mulier 2007).
Böylece, Lagrange fonksiyonu ve KKT koşulları kullanılarak dual problem
formülasyonu tamamlanmış olur. Buna göre, , , c ! 1, … , eğitim verisi mevcut
olmak üzere dual problem,
Amaç fonksiyonu:
maksÌ
§€
#
Æ∑%B# È 7 ∑%,B# È È ª , ¬Ç
Kısıtlar:
6
∑%B# È ! 0
(3.22)
È Ž 0, c ! 1, … , ile belirlidir (Burges 1998). È , c ! 1, … , dual problemin çözümü olmak üzere ve ­,
eşitlik (3.21) ile hesaplandığında optimum hiperdüzlem, (3.19) fonksiyonu ile verilir.
Burada, (3.22) optimizasyon probleminde ve (3.19) fonksiyonunun yapısında, girdi
vektörleri arasında ª, ´¬ gibi bir iç çarpım işlemine ihtiyaç duyulmaktadır. Bu
durumdan daha sonra, yüksek boyutlu nitelik uzayında optimum hiperdüzlemlerin
belirlenmesinde faydalanılacaktır. È ’lerin sıfırdan farklı olduğu veri örnekleri destek
vektörlerdir. Uygulamada eğitim verisinin sadece küçük bir kısmı destek vektör olarak
ortaya çıkar ve optimizasyon problemi, klasik karesel programlama yöntemleri
kullanılarak çözülebilir.
51
®# ! 1 7 °# #
®6 ! 1 7 °6 6
Í
®Í ! 1 ‡ °Í ° ! ‡1
° ! 0
° ! 71
Şekil 3.8 Ayrılabilir olmayan veri durumunda optimum esnek pay hiperdüzlemi
Optimum ayırma hiperdüzlemi formülasyonunda; eğitim verisinin, geçerli modellerin
bir kümesi tarafından çok iyi açıklanabildiği (verinin doğrusal ayrılabilir olduğu) gibi
güçlü bir varsayımda bulunulur. Fakat birçok durumda deneysel risk, minimumu sıfır
olacak biçimde belirlenemez. Buna göre iyi bir tümevarımsal model, deneysel riskin
minimizasyonu (eğitim verisine uyum) ile payın maksimizasyonu arasında bir denge
arar. Şekil 3.8’de görüldüğü üzere ayrılabilir olmayan eğitim verisinin sınıflandırılması
durumunda bu sorun, bazı eğitim örneğinin pay içerisine düşmesine izin verilmesiyle
aşılır. (3.7)’de gösterilen bir kanonik hiperdüzlem için eşitlik (3.1)’de verilen pay
tabanlı kayıpta olduğu gibi '∆ (, , ) ! maks1 7 , , 0 fonksiyonuyla
deneysel risk,
#
&=>? , <% ! % ∑%B# '∆ ( , , )
(3.23)
ile belirtilir. Pay tabanlı kayıp, ® ! maks1 7 , , 0 , c ! 1, … , gevşek
değişkenleri ile ifade edilen pay sınırlarından sapmaların bir göstergesidir. Diğer benzer
sınıflandırma yöntemlerinde olduğu gibi DVM’de, sayısal optimizasyona uygun bir
kayıp fonksiyonu kullanarak sınıflandırma hatasını tahmin etmeye çalışır. Bu nedenle,
ayrılabilir olmayan noktaların sayısından ziyade, ayrılabilir olmayan noktalar için
52
sapmaların toplamı minimum yapılır. Esnek pay hiperdüzleminin belirlenmesi problemi
de bir karesel optimizasyon problemidir. Buna göre, o yeterince büyük bir sabit olmak
üzere programlama problemi,
Amaç fonksiyonu:
min«
Kısıtlar:
#
6
Å,¸ § Æ6 µ«µ
Î
‡ % ∑%B# ® Ç
(3.24)
i« · ‡ ­j Ž 1 7 ® , c ! 1, … , biçiminde oluşturulur (Cherkassky ve Mulier 2007). Bu yapıda kullanıcı tarafından
belirlenmesi gereken o katsayısı, karmaşıklık ile ayrılabilir olmayan örneklerin miktarı
(oranı) arasındaki değişimi kontrol eder. Verilen bir o değeri, (3.24) formülasyonu
aracılığıyla dolaylı olarak, ∆-pay boyutunda belirleyicidir. Böylece, (3.24) probleminde
amaç fonksiyonunu minimum yapan parametrelere göre optimum esnek pay
hiperdüzlemi, ∆! 1⁄µ«µ olan ∆-pay hiperdüzlemidir.
Bu optimizasyon problemi yüksek boyutlu uzaylar için çözümlenecekse yine dual
formuna
dönüştürülmesine
ihtiyaç
duyulur.
Bu
işlem
ise
optimum
ayırma
hiperdüzleminde kullanılan yöntem ile benzerlik gösterir. Buna göre, (3.24) ile verilen
dual karesel optimizasyon problemi tekrar formüle edilir (Vapnik 1995).
, , c ! 1, … , eğitim verisi ve o de bir düzenleme sabiti olmak üzere dual
problem,
Amaç fonksiyonu:
maksÌ
Kısıtlar:
§€
#
Æ∑%B# È 7 ∑%,B# È È ª , ¬Ç
6
∑%B# È ! 0
0 S È S o ⁄ , c ! 1, … , 53
(3.25)
biçimindedir. È , c ! 1, … , dual problemin çözümü olmak üzere ve ­ ise (3.21) ile
belirlendiğinde, hiperdüzlem karar fonksiyonu,
° ! ∑%B# È ª , ¬ ‡ ­
(3.26)
dir ve ayrılabilir veri durumuyla aynıdır. Burada, È parametrelerinin sıfırdan farklı
olduğu veri örnekleri, destek vektör olarak adlandırılır.
3.3 Çekirdek Gösterimi ile Nitelik Uzayları
Doğrusal öğrenme makinelerinin hesaplama gücünün sınırlılığı günümüze kadar birçok
çalışmada vurgulanmıştır. Buna göre gerçek dünyanın karmaşık uygulamalarında
genellikle doğrusal fonksiyonlardan daha açıklayıcı olan modeller tasarlanmalıdır.
Problemin çözümünde belli bir yaklaşıma göre kavramlar, mevcut özelliklerin basit
doğrusal bileşimi ile sıklıkla açıklanamasa da veriden elde edilen daha özet niteliklere
her zaman ihtiyaç duyulabilir. Bu yaklaşım, çok katmanlı sinir ağlarının ve bu
sistemlerin eğitimi için geri yayılımlı öğrenme algoritmalarının gelişimine öncülük
etmiştir.
Çekirdek (kernel) gösterimleri, doğrusal öğrenme makinelerinin hesaplama gücünü
artırmak için veriyi yüksek boyutlu bir nitelik uzayına eşleyerek alternatif bir çözüm
sunmaktadır. Problemin dual gösteriminde doğrusal makinelerin kullanımı da bu adımın
dolaylı olarak gerçekleştirilmesini sağlamaktadır. Dual gösterimde makinelerin
kullanımının avantajı, bu gösterimde parametrelerin sayısının kullanılan niteliklerin
sayısına bağlı olmamasından ileri gelmektedir. Seçilen uygun bir çekirdek
fonksiyonunun iç çarpım ile yer değiştirilmesiyle, yüksek boyutlu bir nitelik uzayına
doğrusal olmayan bir dönüşüm; parametre sayısı artırılmaksızın dolaylı olarak
gerçekleştirilebilir.
Bu kesimde, destek vektör makinelerinin temel yapı taşlarından birini oluşturan
çekirdek tekniği incelenecektir.
54
3.3.1 Nitelik uzayında öğrenme
Öğrenilen bir fonksiyonun karmaşıklığı, fonksiyonun yapısına bağlıdır ve öğrenme
sürecinin zorluğu da bu duruma göre değişebilir. Bu nedenle öğrenme problemine
uygun, ideal bir fonksiyon yapısının seçimi oldukça öneme sahiptir. Makine
öğrenmesinde yaygın bir strateji verinin, girdi uzayından nitelik uzayına tanımlı
Φ: Å Ò Ó fonksiyonu yardımıyla bir önişleme tabii tutulmasıdır.
Örnek 3.1 Newton’un yerçekimi yasasına göre Ô# ve Ô6 kütlelerine sahip cisimler
arasındaki yerçekimi kuvvetini açıklayan
Ô# , Ô6 , ! 
>Õ >„
(3.27)
s„
fonksiyonu göz önüne alınsın. Bu yasa, kütle ve uzaklık gibi gözlenebilir iki değere
göre açıklanır. Doğrusal bir öğrenme makinesinin, bu fonksiyon yapısına uygun
olamaması dolayısıyla koordinatlar üzerinde
Ô# , Ô6 , Ö ±, , × ! ln Ô# , ln Ô6 , ln (3.28)
biçiminde basit bir değişiklik yapılırsa doğrusal makine tarafından öğrenilebilen
ر, , × ! ln Ô# , Ô6 , ! ln  ‡ ln Ô# ‡ ln Ô6 7 2 ln ! o ‡ ± ‡ 7 2×
yapısına ulaşılır.
55
(3.29)
Φ
Å
Ú Ú
Ó
Φ Ú Ú
Φ
Φ
ΦÚ
Ú
ΦÚ
Φ Ú Φ
Φ
Şekil 3.9 Sınıflandırma probleminde nitelik dönüşümü
Eğitim verisinin başka bir uzayın altkümesi olacak biçimde dönüştürülmesi makine
öğrenmesi alanında uzun zamandır bilinen ve uygulanan bir yaklaşımdır. Burada Å
girdi uzayı, Ó ! .Φ: Å1 ise nitelik uzayı olarak adlandırılır. Şekil 3.9’da iki
boyutlu girdi uzayından iki boyutlu nitelik uzayına dönüşümün bir örneği gösterilmiştir.
Bu örnekte girdi uzayında veri, doğrusal fonksiyon ile ayrılamaz iken nitelik uzayında
doğrusal bir fonksiyon ile ayrılabilir hale gelmektedir.
Doğrusal olmayan DVM’nin tasarlanmasındaki esas düşünce Å girdi vektörlerini,
daha yüksek boyutlu bir Ó nitelik uzayından : vektörlerine dönüştürmek (: ! Φ) ve
daha sonra bu nitelik uzayında bir doğrusal sınıflandırma problemini çözmektir. Burada
Φ fonksiyonu önceden belirlenmiş olan bir fonksiyondur ayrıca girdi uzayı, vektörlerinin ± bileşenleri tarafından ve Ó nitelik uzayı ise : vektörünün Ù bileşenleri tarafından gerilmektedir.
Örnek 3.2 Üçüncü dereceden polinomiyaller kullanılarak dönüştürülen ! i±# ±6 j
biçiminde iki boyutlu girdi vektörü göz önüne alınsın. Bu durumda, dönüşüm
fonksiyonlarının bir kümesi veya nitelikler,
56
Ù# ! 1,
Ù6 ! ±# ,
ÙÍ ! ±6 ,
ْ ! ±#6 ,
ÙÛ ! ±66 ,
ÙÜ ! ±#Í ,
ÙÝ ! ±6Í ,
ÙÞ ! ±# ±6 ,
Ù#Í ! ±#Í ±66 ,
Ù#’ ! ±#6 ±6Í ,
Ù#Û ! ±#6 ±66 ,
Ù#Ü ! ±#Í ±6Í
Ùß ! ±#6 ±6 ,
Ù#- ! ±# ±66 ,
Ù## ! ±#Í ±6 ,
Ù#6 ! ±# ±6Í ,
biçimindedir (Cherkassky ve Mulier 2007). Burada iki boyutlu girdi uzayı, 16 boyutlu
bir nitelik uzayına dönüştürülmüştür. Buna göre bir DVM sınıflandırma probleminde
optimum hiperdüzlem, girdi uzayında üçüncü dereceden polinomiyal karar sınırına göre
bulunur. Bu örnekten, küçük boyutlu problemler için bile nitelik uzayının boyutunun
büyük olabileceği açıkça görülür.
3.3.2 Nitelik uzayına örtülü dönüşüm
Doğrusal bir makine ile doğrusal olmayan bağıntıların öğrenilmesi amacıyla doğrusal
olmayan niteliklerin bir kümesinin seçilmesi ve verinin yeni gösterimi ile tekrar ele
alınması gerekir. Bu işlem, doğrusal bir öğrenme makinesinin uygulanabileceği bir
nitelik uzayında verinin doğrusal olmayan dönüşümünün kullanılmasına denktir.
Burada, Φ: Å Ò Ó girdi uzayından nitelik uzayına doğrusal olmayan bir dönüşümü
göstermek üzere,
! ∑%B# á Ù ‡ ­
(3.30)
biçiminde fonksiyonlar göz önüne alınacaktır. Buna göre doğrusal olmayan bir makine
iki adımda oluşturulur: ilk adımda belirli bir doğrusal olmayan dönüşüm ile veri Ó
nitelik uzayına eşlenir ve sonraki adımda ise bu örüntüler doğrusal bir makine
kullanılarak öğrenilir.
Doğrusal öğrenme makinesinin önemli bir özelliği problemin dual gösterimi ile de
açıklanabilmesidir. Bu durum ayrıca modelin, eğitim noktalarının doğrusal bileşimi ile
ifade edilebileceği anlamına gelmektedir. Böylece, sonraki kesimlerde de açıklanacağı
57
üzere, destek vektör regresyon yaklaşımında eğitim noktaları ile test noktası arasındaki
iç çarpım kullanılarak fonksiyonu,
! ∑%B#È 7 Èr ªΦ , Φ¬ ‡ ­
biçiminde
belirlenir.
Burada
È , Èr ,
c ! 1, 2, … , (3.31)
Lagrange
katsayılarını
göstermektedir. Ayrıca, Ô nitelik uzayının boyutunu belirlemek üzere Φ !
iÙ# Ù6 … Ù> j’dir.
Orijinal girdi noktalarının bir fonksiyonuna göre nitelik uzayında ªΦ , Φ¬ iç
çarpımı direkt hesaplanabiliyorsa doğrusal olmayan bir öğrenme makinesinin
tasarlanması için gerekli, bahsedilen iki adımın birleşmesi mümkün hale gelir. Böyle bir
direkt hesaplama yöntemi ise çekirdek gösterimi olarak adlandırılır.
Tanım 3.3 Çekirdek Fonksiyonu
Her , â
Å için ve Φ: Å Ò Ó girdi uzayından nitelik uzayına doğrusal olmayan bir
dönüşümü göstermek üzere çekirdek,
¦, â ! ªΦ, Φâ¬
(3.32)
biçiminde tanımlı bir fonksiyondur.
Bu yaklaşımda esas, etkili bir biçimde kullanılabilecek bir çekirdek fonksiyonunun
bulunmasıdır. Böyle bir çekirdek fonksiyonuna sahip olunduğu zaman ise destek vektör
regresyonu, gözlem için çekirdeğin hesabı ile
! ∑%B#È 7 Èr ¦ , ‡ ­
(3.33)
biçiminde belirlenir.
58
¦ , â çekirdek fonksiyonu girdi uzayında tanımlı bir fonksiyondur. Çekirdek
fonksiyonunun kullanımındaki esas avantaj, Φ dönüşümünün dolaylı olarak
gerçekleştirilmesidir. Başka bir ifade ile nitelik uzayında ihtiyaç duyulan ªΦ, Φâ¬
iç çarpımı, girdi uzayında mevcut eğitim veri vektörleri kullanılarak ¦, â çekirdekleri
ile direkt olarak hesaplanır. Bu yol ile Ó nitelik uzayının aşırı yüksek boyutlu olma
durumu göz ardı edilmiş olur. Böylece, seçilen bir ¦, â çekirdeği yardımıyla sonsuz
boyutlu bir uzayda da çalışabilecek biçimde bir DVM oluşturulmuş olur. Ayrıca
çekirdeğin gösteriminin kullanımı ile gerçek Φ dönüşümünün ne olduğunun bilinmesine
de gerek yoktur.
Çekirdek fonksiyonlarının kullanımında esas soru: “Hangi tür çekirdek fonksiyonu
kabul edilebilirdir?” ve “DVM uygulaması için uygun çekirdek fonksiyonunun türü için
herhangi bir kısıt var mıdır?” biçimindedir. Sorunun çözümü ise girdi uzayında
herhangi bir simetrik ¦, â fonksiyonunun,
ã ¦ , âØØâ + +â K 0, JØ
'6 §% (3.34)
olmak üzere nitelik uzayında bir iç çarpımı temsil edebileceği ile ilişkilidir. Burada
Ø·, sınırlı bir '6 normu ile girdi uzayında tanımlı yani * Ø6 + N ∞ olacak
biçimde bir fonksiyondur. ä ! [¦( , )\
%
,B#
pozitif tanımlı bir simetrik matrisin
özdeğerleri , c ! 1, 2, … , ile gösterilmek üzere Ó uzayında nitelikler,
* ¦ , âÙ + ! Ù (3.35)
biçiminde oluşturulur ve ¦ çekirdek fonksiyonu, Ù ’ye göre
¦, â ! ∑U
B# Ù Ù â
(3.36)
59
açılımına sahiptir. Sonuç olarak, (3.35) denklemi sağlanacak biçimde .Ù 1U
B#
fonksiyonlar kümesi mevcut ise åæ# Ù# æ6 Ù6 … æ6 Ù> … ç nitelikleri, iç
çarpımın
ªΦ, Φ⬠! ∑U
B# Ù Ù â ! ¦ , â
(3.37)
biçiminde hesaplanabilmesi bakımından kabul edilebilirdir. Smola ve Schölkopf (1998)
ve Vapnik (1998)’de ayrıntıları bulunan Hilbert-Schmidt teorisine göre; (3.34)
eşitsizliği ile verilen Mercer koşulları, ¦, â kabul edilebilir simetrik fonksiyonlarını
(kernel) belirler. Bu nedenle, (3.34) eşitsizliğini sağlayan herhangi bir ¦ , â simetrik
fonksiyonu, girdi uzayında bir iç çarpıma karşılık gelmektedir (Kecman 2001).
Öğrenme makinesi için kullanılan dönüşüm fonksiyonunun türü, iç çarpımın
hesaplanması amacıyla çekirdek fonksiyonlarının farklı seçimlerine göre değişiklik
gösterir. Çizelge 3.1 ile makine öğrenmesi ve sinir ağları alanlarında sıklıkla uygulanan
iç çarpım çekirdekleri verilmiştir (Kecman 2001).
Çizelge 3.1 Klasik çekirdek fonksiyonları
Çekirdek Fonksiyonları
Sınıflandırma Türü
¦, ! i è ‡ 1jé
#
¦, ! exp W7 6 i 7 è Σ ‚# 7 j]
¦, ! tanhi è ‡ ­j*
* Belirli bir ­ değeri için
e derecesinden polinomiyal
Gauss radyal tabanlı fonksiyon
Çok tabakalı sinir ağı
3.4 Doğrusal Olmayan Sınıflandırıcılar
Sınıflandırma problemlerinde doğrusal olmayan sınıflandırıcılar da göz önüne alınabilir.
Doğrusal olmayan bir DVM (sınıflandırıcısı) için öğrenme algoritması, nitelik uzayında
optimum ayırma hiperdüzleminin tasarlanması ile ortaya çıkar. Bu işlem, girdi uzayında
bir pay hiperdüzleminin oluşturulmasına benzerdir.
60
, , c ! 1, … , eğitim verisi, ¦ iç çarpım çekirdeği ve o de bir düzenleme sabiti
olmak üzere karesel optimizasyon problemi,
Amaç fonksiyonu:
maksÌ
Kısıtlar:
§€
#
Æ∑%B# È 7 ∑%,B# È È ¦( , )Ç
6
∑%B# È ! 0
(3.38)
0 S È S o ⁄ , c ! 1, … , biçimindedir (Kecman 2001). Burada, È , c ! 1, … , değerleri ile problemin çözümü
belirlidir. Böylece, ° karar hiperdüzlemi,
° ! ∑%B# È ¦ , ‡ ­
(3.39)
ve + K 3 için aynı zamanda bir hiperdüzlem olan destek vektör sınıflandırıcısı,
sign ° ! sign∑%B# È ¦ , ‡ ­
(3.40)
dir. Burada, } , } destek vektörlerden biri olmak üzere ­ parametresi,
­ ! } 7 ∑%B# È ¦ , } (3.41)
ile elde edilir.
3.5 Destek Vektör Makineleri ile Regresyon
Klasik regresyon çözümlemesi, tüm eğitim örnekleri için deneysel olarak gözlenmiş
yanıtlar ile kestirimleri arasında en küçük sapmaya sahip olan fonksiyonunun
belirlenmesi süreci olarak açıklanır. Genelleştirilmiş bir performans elde etmek üzere
destek vektör regresyonunun esas karakteristiklerinden biri, gözlenen eğitim hatasının
61
minimum yapılması yerine, genelleştirilmiş hata sınırının minimum yapılmaya
çalışılmasıdır. Bu genelleştirilmiş hata sınırı ise eğitim hatasının ve fonksiyonlar
kümesinin karmaşıklığını kontrol eden bir düzenleme teriminin kombinasyonu ile
belirlenir.
Destek vektör regresyonu (DVR), destek vektör makinelerinin en yaygın uygulanan bir
formudur. Regresyon model kestirimi için DVM temelindeki belli başlı düşünceler,
Smola ve Schölkopf (2004) tarafından yapılan çalışmada bulunabilir. Ayrıca bu
çalışmada, DVM’nin eğitimi için kullanılan, hem karesel (konveks) programlamayı hem
de büyük veri setleri için çözüm sağlayan gelişmiş yöntemleri içeren son algoritmaların
bir özeti de yer almaktadır. Son olarak, standart destek vektör algoritması için bazı
değişiklikler ve genişlemeler de ele alınmıştır. Çalışmada, destek vektör bakış açısına
göre düzenleme ve kapasite kontrol terimleri tüm boyutlarıyla tartışılmıştır.
3.5.1 Doğrusal regresyon
Å girdi örüntülerinin uzayını (örneğin §¯ ) göstermek üzere; eğitim verisi
.# , # , … , % , % 1 £ Å ì § biçiminde ele alınsın. – destek vektör regresyonunda
amaç, tüm eğitim verisi için elde edilen gerçek hedeflerinden en çok sapmaya sahip
olacak biçimde bir fonksiyonunun bulunmasıdır. ª. , . ¬, Å uzayında iç çarpımı
göstermek üzere doğrusal fonksiyonun tahmini,
! ª«, ¬ ‡ ­ ,
«
Å, ­
§
(3.42)
formu ile açıklanır. DVR çözümlemesinde kullanılan pay tabanlı kayıp fonksiyonu,
eşitlik (3.2) ile verilen -duyarsız kayıp fonksiyonudur. Regresyon modelinin bilinen bir
yapısına göre; eğitim örneği, <% ! .# , # , … , % , % 1 için deneysel risk,
#
&=>? , <% ! % ∑%B# '~ ( , , )
62
(3.43)
dir
ve
burada
'~ (, , ) ! maks| 7 , | 7 , 0
olarak
tanımlanır
(Cherkassky ve Mulier 2007). Sonlu sayıda veri ile (3.43) deneysel riskinin
minimizasyonu, pay tabanlı karmaşıklık kontrolünün de kullanılmasıyla (-duyarsız
bölgesinin genişliğinin ayarlanması) daha iyi model tahminleri üretebilir.
Kesim 3.1’de tartışıldığı üzere verilen bir veri seti için değerinin farklı seçimleri,
sınıflandırma probleminde pay büyüklüğünün ayarlanmasına karşılık gelmektedir.
Ancak (3.43) ile verilen risk fonksiyonu, pay büyüklüğüne ve model seçimine bağlı
karmaşıklık
kontrolünün
esnek
bir
kombinasyonuna
olanak
vermez.
Bunu
gerçekleştirmek üzere; DVM regresyon çözümlemesinde risk fonksiyonuna bir terim
daha eklenir. Böylece, , ! ª«, ¬ ‡ ­ biçiminde doğrusal bir model göz önüne
alındığında risk fonksiyonu,
#
&îïð «, ­, <% ! 6 µ«µ6 ‡ o · &=>? , <% (3.44)
formuna sahiptir. DVM risk fonksiyonu, model karmaşıklığını kontrol eden ve o
değerlerine bağlıdır. Teknik olarak, o değerinin büyük olacak biçimde seçilmesi ile
(3.43) pay tabanlı deneysel riskinin minimizasyonu sağlanır.
-duyarsız bölgesinin dışında bulunan eğitim örneklerinin, pay sınırından sapmalarını
(Şekil 3.4.b) tanımlamak üzere negatif olmayan ® ve ®r , c ! 1, … , gevşek
değişkenleri kullanılır ve -duyarsız kaybın minimizasyonu da böylece açıklanmış olur.
, , c ! 1, … , eğitim verisi için destek vektör regresyonunda « parametrelerinin
tahmini problemi,
Amaç fonksiyonu:
min«
Å, ñr §€ ,¸ §
#
Î
Æ6 µ«µ6 ‡ % ∑%B#® ‡ ®r Ç
(3.45)
Kısıtlar:
7 ª«, ¬ 7 ­ S ‡ ®
ª«, ¬ ‡ ­ 7 S ‡ ®r
® , ®r Ž 0, c ! 1, … , 63
biçiminde oluşturulur (Cherkassky ve Mulier 2007). Bu problem, doğrusal kısıtlar ile
tanımlı bir karesel optimizasyon problemidir. Burada o parametresi ile model
karmaşıklığı ve pay tabanlı hata arasındaki değişim kontrol edilir.
Problemin dual formülasyonu, DVM’nin doğrusal olmayan fonksiyonlara genişletilmesi
için bir yol temin eder. Lagrange çarpanlarını kullanarak standart dual alma işlemi,
#
Î
µ«µ6 ‡ ∑%B#® ‡ ®r ‡ ∑%B# È 7 ª«, ¬ 7 ­ 7 7 ® %
'!ò
%
r ª
‡ ∑B# È «, ¬ ‡ ­ 7 7 7 ®r 7 ∑%B#‹ ® ‡ ‹r ®r 6
ó
(3.46)
biçiminde açıklanır. (3.46) denklemindeki dual değişkenler È , Èr , ‹ , ‹r Ž 0 pozitif
olma kısıtlarını sağlaması gerekmektedir. Eyer (saddle) noktası koşulundan á, ­, ® , ®r primal değişkenlerine göre '’nin kısmi türevleri,
ÉÊ
ɸ
ÉÊ
É«
! ∑%B#È 7 Èr ! 0
ÉÊ
! « 7 ∑%B#È 7 Èr ! ô
r
Éõ·
(3.47)
Î
r
! % 7 È
r
7 ‹
(3.48)
!0
(3.49)
biçiminde sıfıra eşitlenmelidir. (3.47), (3.48) ve (3.49) eşitlikleri, (3.46) denkleminde
yerine konulursa,
Amaç fonksiyonu:
maksÌr
Kısıtlar:
§€
#
7 ∑%,B#È 7 Èr (È 7 Èr )ª , ¬
ö 6
÷
7 ∑%B#È ‡ Èr ‡ ∑%B#È 7 Èr ∑%B#È 7 Èr ! 0
È , Èr
Î
Æ0, %Ç , c ! 1, … , 64
(3.50)
dual optimizasyon problemi elde edilir. (3.50) ile verilen programlama problemini
oluşturmak üzere ‹ ve ‹r dual değişkenleri, (3.49) koşulu gereği dışta bırakılır. Buna
göre (3.48) denklemi,
« ! ∑%B#È 7 Èr (3.51)
olarak yazılır ve bunun sonucunda
! ∑%B#È 7 Èr ª , ¬ ‡ ­
(3.52)
dır. Eşitlik (3.51)’da görüldüğü üzere « parametresi, destek vektör yardımıyla eğitim
örüntülerinin bir doğrusal bileşimi olarak tamamen açıklanabilir.
­’nin
hesaplanması,
Karush-Kuhn-Tucker
(KKT)
koşullarından
faydalanılarak
gerçekleştirilir (Smola ve Schölkopf 2004). Buna göre, optimum çözümde dual
değişkenler ile kısıtların çarpımı sıfıra eşittir. Destek vektör durumunda bu, c !
1, 2, … , için
È 7 ª«, ¬ 7 ­ 7 7 ® ! 0
ve
Èr ª«, ¬ ‡ ­ 7 7 7 ®r ! 0
(3.53)
Î
[% 7 È \ ® ! 0
Î
(3.54)
[% 7 Èr \ ®r ! 0
anlamına gelir. Buna göre,
r
i. È
Î
! % olan , örnekleri, -duyarsız bölgesinin dışında yer alırlar,
ii. È Èr ! 0’dır yani her ikisi birden sıfırdan farklı olan È , Èr dual
değişkenlerinin bir kümesi olamaz bu da her yönde sıfırdan farklı gevşek
değişkenlerin varlığını gerektirir.
65
Sonuç olarak, È} , Èar
Î
[0, %\; ø, q ! 1, 2, … , için ®} , ®ar ! 0’dır. Bu durumda, eşitlik
(3.53) ile verilen eşitliklerdeki ikinci faktör sıfıra eşit olur ve
­ ! } 7 ª«, } ¬ 7 ,
­ ! a 7 ª«, a ¬ ‡ ,
È}
Èar
Î
[0, %\
Î
[0, \
(3.55)
%
elde edilir. Lagrange katsayıları üzerinde benzer bir çözümleme ile bağlantılı olarak
È}
Î
[0, \ ve Èar
%
Î
[0, \; ø, q ! 1, 2, … , için
%
min.} 7 ª«, } ¬ 7 , a 7 ª«, a ¬ ‡ 1 S ­ S
maks.} 7 ª«, } ¬ 7 , a 7 ª«, a ¬ ‡ 1
(3.56)
dır. ­’nin seçimi için farklı yollar Keerthi vd. (2001)’de verilmiştir.
(3.53)’deki eşitliklere göre sadece | 7 | Ž için Lagrange çarpanları sıfırdan
farklı olabilir yani ile belirli sınırların içinde kalan tüm örnekler için È , Èr sıfıra
eşittir. | 7 | N için (3.53) eşitliklerindeki ikinci faktör sıfırdan farklıdır. Buna
göre, È ve Èr katsayıları, KKT koşulları sağlanacak biçimde sıfıra eşit olacaktır. Sonuç
olarak, örneklerine göre «’nin sade bir açılımı elde edilmiş olur («’nin
açıklanmasında tüm örneklerine ihtiyaç duyulmaz). Burada, sıfırdan farklı È , Èr için
belirlenen örnekler ise destek vektörler olarak adlandırılır.
3.5.2 Doğrusal olmayan regresyon
Destek vektör algoritması, girdi uzayından nitelik uzayına tanımlı Φ: Å Ò Ó
fonksiyonu yardımıyla eğitim örneklerini bir önişleme tabii tutarak doğrusal olmayan
bir yapıya dönüştürülür ve daha sonra yine standart DVR algoritması kullanılarak
çözümlenebilir. Destek vektör algoritması, örneklerinin sadece iç çarpımlarına bağlı
olarak tanımlıdır. Böylece, destek vektör optimizasyon problemini yeniden ifade
66
edilmesine olanak veren, Φ fonksiyonundan ziyade, ¦ , ´ ! ªΦ, Φ´¬ iç çarpım
çekirdeğinin bilinmesi yeterlidir. Doğrusal olmayan DVR için dual optimizasyon
problemi,
Amaç fonksiyonu:
maksÌr
Kısıtlar:
∑%B#È
È , Èr
#
7 ∑%,B#È 7 Èr (È 7 Èr ) ¦( , )
6
÷
§€ ö
7 ∑%B#È ‡ Èr ‡ ∑%B#È 7 Èr 7
Èr Î
Æ0, %Ç
!0
(3.57)
biçiminde tanımlanır. Doğrusal olmayan DVR için (3.51) ve (3.52) denklemlerinin
genişlemesi,
« ! ∑%B#È 7 Èr Φ (3.58)
! ∑%B#È 7 Èr ¦ , ‡ ­
(3.59)
olarak yazılır. Bu yapının doğrusal durumdan farkı «’nin bundan böyle açıkça
verilememesidir. Ayrıca burada, doğrusal olmayan durumda optimizasyon probleminin,
girdi uzayında değil de nitelik uzayında uygun fonksiyonu bulmaya karşılık geldiğini
belirtmek gerekir.
3.5.3 -Destek vektör regresyonu
-duyarsız kayıp fonksiyonunda parametresi, eğer yaklaşımdan istenen doğruluk
düzeyi baştan belirlenebiliyor ise oldukça kullanışlıdır. Ancak bazı durumlarda,
önceden özel bir doğruluk düzeyi belirlemeksizin mümkün olduğunca doğru tahminler
üretilmesi istenir. Bu problem, değerini kendiliğinden hesaplayan -destek vektör
regresyonu (-DVR) olarak adlandırılan yeni bir algoritma ile kısmi olarak çözüme
kavuşturulur (Schölkopf vd. 2000).
67
.# , # , … , % , % 1 £ Å ì § eğitim verisinden, (3.42) ile verilen fonksiyonu tahmin
etmek üzere, her bir noktası için kadar hataya izin verilir. ’un üstünde hataya sahip
her örnek, önceden seçilmiş bir o düzenleme sabiti ile amaç fonksiyonunda
r
cezalandırılan ®
gevşek değişkenlerinde tutulur. değeri, model karmaşıklığına ve bir
Ž 0 sabiti ile gevşek değişkenlere karşı bir değişim ölçüsüdür. Buna göre, -DVR için
primal problem,
Amaç fonksiyonu:
min«
Å, ñr §€ ,¸ §
#
#
Æ6 µ«µ6 ‡ o ù [ ‡ % ∑%B#® ‡ ®r \Ç
(3.60)
Kısıtlar:
7 ª«, ¬ 7 ­ S ‡ ®
ª«, ¬ ‡ ­ 7 S ‡ ®r
Ž 0, ® , ®r Ž 0, c ! 1, … , r
r
olarak yazılır. Kısıtlar için È , ‹ , L Ž 0 çarpanları tanımlanır ve Lagrange
fonksiyonu,
'!ò
#
6
Î
µ«µ6 ‡ o ‡ ∑%B#® ‡ ®r ‡ ∑%B# È 7 ª«, ¬ 7 ­ 7 7 ® %
‡ ∑%B# Èr ª«, ¬ ‡ ­ 7 7 7 ®r 7 L 7 ∑%B#‹ ® ‡ ‹r ®r ó (3.61)
biçiminde elde edilir. (3.60) problemindeki amaç fonksiyonunu minimum yapmak
r
r
r
üzere; «, , ­, ® primal değişkenlerine göre minimum, È , ‹ , L dual değişkenlerine
göre
maksimum
olacak
biçimde '’nin
eyer (saddle) noktasının bulunması
gerekmektedir. Lagrange fonksiyonunun primal değişkenlere göre türevlerinin sıfıra
eşitlenmesi sonucunda,
« ! ∑%B#È 7 Èr (3.62)
∑%B#È 7 Èr ! 0
(3.64)
o ù 7 ∑%B#È ‡ Èr 7 ‹ ! 0
(3.63)
68
Î
%
r
7 È
r
7 ‹
!0
(3.65)
eşitlikleri elde edilir. Dört koşulun ' fonksiyonunda yerine konulması ile dual
optimizasyon problemi (Wolfe duali olarak da adlandırılır) elde edilmiş olur. Klasik
olarak problem, çekirdek gösterimi kullanılarak da ifade edilebilir. Bu amaçla iç çarpım
yerine doğrusal olmayan bir Φ fonksiyonu aracılığıyla, girdi uzayı ile ilişkili nitelik
uzayında bir iç çarpıma karşılık gelen
¦, ´ ! ªΦ, Φ´¬ ! ª, ´¬
(3.66)
çekirdeği kullanılır. Kısıtların yeniden yazılması ile Ž 0 ve o K 0 için
Amaç fonksiyonu:
maksÌr
§€
#
W7 6 ∑%,B#È 7 Èr (È 7 Èr )¦( , ) ‡ ∑%B#È 7 Èr ]
(3.67)
Kısıtlar:
∑%B#È 7 Èr ! 0
È , Èr
Î
Æ0, %Ç
∑%B#È ‡ Èr S o · -DVR dual optimizasyon problemine ulaşılır (Smola ve Schölkopf 2004).
3.6 Toplam Hasar Ödeme Tutarlarının Kestiriminde DVR Yaklaşımı
Sigorta şirketlerinin, sigortalanan bireylerin hasar tutarı ödeme taleplerinin karşılanması
ile sonuçlanan tüm belirsiz olaylara karşı hazır olması beklenir. Bundan dolayı sigorta
şirketi gelecek hasar ödemelerinin kestiriminde farklı modelleri göz önünde
bulundurmalıdır. Doğrusal regresyon çözümlemesi, uygulamada sıklıkla kullanılan
istatistiksel yöntemler arasındadır. Klasik regresyon çözümlemesinde, hatanın genellikle
sabit varyans ve sıfır ortalama ile normal dağılıma uygun olduğu varsayımı yapılır. Bu
69
anlamda, temel varsayımların sağlanamaması durumunda regresyon modelinin
geçerliliği olumsuz yönde etkilenebilmektedir. Literatürde genelleştirilmiş doğrusal
modeller gibi klasik regresyon çözümlemesine alternatif yaklaşımlar bulunmaktadır.
Bu kesimde, DVM ile regresyon çözümlemesi toplam hasar miktarının belirlenmesi
amacıyla uygulanacaktır. Buna göre, Rousseeuw vd. (1984) tarafından yapılan
çalışmada da kullanılan, Belçika’da bir sigorta şirketi tarafından gözlenmiş hasar tutarı
ödemelerine ilişkin veriler ele alınacaktır.
Çizelge 3.2 Toplam hasar tutarlarının değişimi
Ay
Ödeme
1
2
3
4
5
6
7
8
9
10
11
12
3.22
9.62
4.50
4.94
4.02
4.20
11.24
4.53
3.05
3.76
4.23
42.69
1979 yılında sigorta şirketinin hayat sigortası sözleşmelerine ilişkin aylık toplam
ödemelerinin değişimi Çizelge 3.2’de sunulmuştur. Ödemeler ilgili yılda toplam ödeme
tutarları içindeki yüzde hesaplanılarak verilmiştir. Şekil 3.10 incelendiğinde, Aralık
ayında tamamlayıcı emeklilik sisteminden kaynaklanan bir aşırı yüksek ödeme
miktarının gerçekleştiği görülmektedir.
70
Şekil 3.10 Doğrusal regresyon modelleri
Klasik en küçük kareler regresyon çözümlemesi sonucunda, Şekil 3.10’da kesikli çizgi
ile gösterilmiş olan
, ! 70.294 ‡ 1.327±
modeline ulaşılmıştır. Bu yöntemde, eğimi büyük olan regresyon doğrusunun, aykırı bir
değer olan Aralık ayı ödemesinden büyük ölçüde etkilendiği görülmektedir. Diğer
taraftan, DVR çözümlemesi ile ! 1 ve o ! 200 için doğrusal model,
, ! 4.119 ‡ 0.101±
biçiminde belirlenmiştir. Şekil 3.10’da da gösterildiği gibi DVM sonucunda elde edilen
modelde, aykırı değerin modele olan etkisinin giderildiği görülmektedir.
71
e!2
e!3
e!4
Şekil 3.11 Polinomiyal regresyon modelleri
DVR algoritmasının avantajı, doğrusal olmayan regresyon denkleminin, girdi
vektörlerinin yüksek boyutlu bir nitelik uzayına eşlenmesi sonucunda kolaylıkla elde
edilebilmesidir. Böylece, çekirdek fonksiyonunun seçimine bağlı olarak doğrusal
olmayan regresyon için farklı öğrenme makineleri oluşturulabilmektedir. Çizelge 3.3 ile
farklı çekirdek fonksiyonlarının kullanımı ile doğrusal ve doğrusal olmayan DVR
çözümlemesine ilişkin bulgular sunulmuştur. Çizelgede, hata kareler ortalaması (HKO)
kriterine göre elde edilen model sonuçları da görülmektedir. Ayrıca; ikinci, üçüncü ve
dördüncü dereceden polinomiyal regresyon modellerinin grafikleri Şekil 3.11 ile
verilmiştir.
72
Çizelge 3.3 Doğrusal ve doğrusal olmayan DVR çözümlemesi sonuçları
Doğrusal Model
Polinomiyal Model (e ! 2
Polinomiyal Model (e ! 3
Polinomiyal Model (e ! 4
Gauss Radyal Tabanlı Fonksiyon
1
9
8
3
1
73
o
200
300
300
2000
30000
HKO
11.082
8.166
6.460
4.593
3.503
4. BULANIK REGRESYON FONKSİYONLARI YAKLAŞIMI
Zadeh (1965, 1975), kesin olmayan önermeler, bulanık kümeleme ve bulanık mantık ile
matematiksel modelleme kavramlarını ileri sürmüştür. Bundan sonra ise bulanık
kümeler ve bulanık mantık, belirsiz bilgiyi kontrol etmek ve belirsiz bilgi mevcut
olduğunda çıkarımların nasıl yapılacağını açıklamak üzere birçok alanda uygulanmaya
başlamıştır. Herhangi bir veritabanı sisteminden gürültü (noise) ve belirsizliklerin hiçbir
zaman bütünüyle yok edilemeyeceği bilinmektedir. Genel olarak bu tür belirsizlikleri
daha fazla açıklamak için yaygın bir yol bulanık mantık ve teorisini kullanmaktır.
Bulanık kümeleme algoritmaları, her bir nesnenin kümelere hangi derece ile ait
olduğunu belirleyen üyelik fonksiyonlarını hesaplarken, veri seti içerisindeki örtüşen
kümeleri de saptayabilir.
Bir sonraki kesimde ilk olarak, bulanık kümeleme yöntemine ilişkin terminoloji ve
bulanık küme analizinin bir genel sınıflandırması üzerinde durulacaktır. Sistem
modelleme
yaklaşımlarından
olan
“Bulanık
Regresyon
Fonksiyonları”,
yapı
tanımlanmasında Bulanık c-Ortalama (BCO) kümeleme yöntemi (Bezdek 1981) olarak
adlandırılan bir tür algoritmadan faydalanmaktadır. Bundan dolayı, bu kesimde BCO
kümeleme yönteminin matematiksel temeli üzerinde durulacaktır.
4.1 Bulanık Kümeleme Algoritmaları
Esnek hesaplama ile sistem modelleme, global ve lokal sistem modelleme olmak üzere
iki kısma ayrılmaktadır (Babuška ve Verbruggen 1997). Global modellemede sistem,
mevcut ilişkileri ortaya koymak üzere bir bütün olarak çözümlenir. Lokal modellemede
ise sistem, öncelikle anlamlı kısımlara ayrıştırılır ve sonra doğrusal veya doğrusal
olmayan yöntemler kullanılarak alt modeller oluşturulur. Bu lokal modellerin
özelliklerini belirlemek için de bulanık kümeleme algoritmalarının sınıfı kullanılır.
Bulanık kümeleme algoritmalarını geliştirmek üzere gerçekleştirilmiş birçok araştırma
vardır. Bu çalışmalar kümeleme yapısına göre,
74
• Bulanık ilişkiye dayanan bulanık kümeleme
• Bir amaç fonksiyonu ve kovaryans matrisine dayanan bulanık kümeleme
• Parametrik olmayan sınıflayıcılar
• Sinir-bulanık kümeleme
biçiminde sınıflandırılabilir (Celikyilmaz ve Türksen 2009).
Bu çalışmada, mümkün küme parçalanmaları için bir değerlendirme fonksiyonunun
kullanımıyla belirlenen sayısal ölçüyü ve aynı zamanda da toplam hatayı minimum
yapmaya çalışan “amaç” tabanlı bulanık kümeleme algoritmaları üzerinde durulacaktır.
Amaç fonksiyonu en iyi değerine ulaşınca, küme parçalanmaları da ideal durumuna
ulaşmıştır denilir. Dolayısıyla amaç tabanlı kümeleme algoritmaları bir optimizasyon
probleminin çözümüne bağlıdır.
Tanım 4.1 Amaç Fonksiyonu
ý veya ý ile gösterilen amaç fonksiyonu esasında bir hata ölçüsüdür. Bulanık
kümeleme algoritmalarında amaç, kümeleme algoritmasının yapısına bağlı olarak ý’nin
global minimum veya maksimumunu belirlemektir. ý fonksiyonu genellikle aynı
kümeleme probleminde elde edilen farklı çözümleri kıyaslamak amacıyla kullanılır
(Celikyilmaz ve Türksen 2009).
þ ! .# , 6 , … , % 1 nesneler kümesini göstermek üzere; her bir c nesnesi (c !
è
1, 2, … , ), + boyutlu ! å±#, ±6, … ±¯, ç
§¯ vektörü ile temsil edilsin. Buna göre,
vektörlü bu küme, ì + boyutlu veri matrisi ile
±#,#
±6,#
X! ±%,#
±#,6
±6,6
±%,6
… ±#,¯
… ±6,¯
… ±%,¯
(4.1)
biçiminde verilir.
75
Bir bulanık kümeleme algoritması þ veri kümesini, U parçalanma matrisi tasarımıyla 
sayıda örtüşen kümeye parçalar.
Tanım 4.2 Bulanık Parçalanma Matrisi
Bulanık parçalanma matrisi, U, her ¦ (¦ ! 1, 2, … , ) kümesinde yer alan (c !
1, 2, … , ) nesnelerinin üyelik derecelerinden oluşan bir matristir. ¦ kümesindeki c.
vektörün üyelik derecesi _,
#,#
#,6
U! #,%
6,#
6,6
6,%
…
…
…
U ile gösterilir. Buna göre de parçalanma matrisi,
ƒ,#
ƒ,6
ƒ,%
(4.2)
ile verilir. Bulanık kümeleme algoritmasında her bir küme, küme merkez vektörü veya
küme prototip vektörü ile temsil edilirler (Celikyilmaz ve Türksen 2009).
Tanım 4.3 Küme Merkez/Prototip Vektörü
+ boyutlu veri vektörlerinden oluşan bir X matrisi için bulanık kümeleme algoritması ,
¦ ! 1, 2, … ,  küme merkez vektörlerini belirler. ! .# , 6 , … , ƒ 1
üzere her bir küme merkezi, ƒì¯ olmak
§¯ , + boyutlu bir vektördür. Bu küme merkezleri
genellikle, + sayıda nesnenin ağırlık merkezi olarak ifade edilir (Celikyilmaz ve
Türksen 2009).
Bu çalışmada, bulanık kümeleme algoritmalarının farklı türleri arasından amaç
fonksiyonu tabanlı noktasal (uzaklık ölçütlü) kümeleme algoritmaları üzerinde
durulacaktır. Sistem modelleme yaklaşımlarının bir genişlemesi olan Bulanık
Regresyon
Fonksiyonlarının
(BRF),
Bulanık
c-Ortalama
(BCO)
kümeleme
algoritmasını kullanmasından dolayı; bir sonraki kesimde bu algoritma detaylı bir
biçimde incelenecektir.
76
4.1.1 Bulanık c-ortalama kümeleme algoritması
BCO kümeleme algoritması (Bezdek 1981) basit ve kullanışlı bir yöntemdir. Bu
yöntemde, þ ! .# , 6 , … , % 1 veri setinin kaç kümeye parçalanacağını belirten 
sayısının bilindiği veya en azından belirlenebilir olduğu varsayılır. Birçok veri
çözümleme probleminde bu varsayımın gerçekçi bulunmamasından dolayı, BCO
kümeleme algoritmasında küme sayısının belirlenmesinde Küme Geçerlilik İndeksi
analizi gibi yöntemler geliştirilmiştir.
BCO kümeleme algoritması, küme sayısı  ve bulanıklık parametresi Ô gibi iki önsel
bilgi ile
min ý X; U, V ! ∑ƒ_B# ∑%B#(_, ) +6 , _ >
(4.3)
amaç fonksiyonunu minimum yapmaya çalışır. Burada her bir küme bir prototip ile
temsil edilir.
(4.3) denkleminde Ô
1, ∞ değeri, bulanık kümeleme algoritmasında bir bulanıklık
derecesi veya bulanıklaştırıcı (fuzzifier) olarak ifade edilir ve kümelerin örtüşme
derecesini belirler. “Ô ! 1” durumu kümelerin örtüşmemesi anlamına gelip bir kesin
(crisp) kümeleme yapısını temsil etmektedir. Burada +6 , _ ise c. nesne ile ¦. küme
merkezi arasındaki bir uzaklık ölçüsüdür. Karesel uzaklık, amaç fonksiyonunun negatif
tanımlı olmamasını, ý K 0, sağlamaktadır. Bütün veri nesneleri, örtüşmeyen kümelerde
birer merkez olarak belirlendiği zaman ( ! ), amaç fonksiyonunun değeri sıfır
olacaktır. Ayrıca veri nesneleri, küme merkezi ’lerden uzaklaştıkça da amaç
fonksiyonunun değeri büyüyecektir. Yani küme merkezlerinin sayısı ve yeri, amaç
fonksiyonunun değerini etkilemektedir. Optimum
çözüme ulaşıldığında amaç
fonksiyonu minimum olmalı ve global minimum için çözüm aranmalıdır. Problemde
ulaşılabilecek gereksiz çözümlerden kaçınmak amacıyla U parçalanma matrisine,
77
∑ƒ_B# _, ! 1 , Jc K 0
(4.4)
0 N ∑%B# _, N , J¦ K 0
(4.5)
gibi iki kısıt daha eklenir.
Eşitlik (4.4) ile verilen kısıt parçalanma matrisindeki her bir satırın toplamının 1’e eşit
olduğu anlamına gelmektedir. Krishnapuram ve Keller (1993) tarafından yapılan
çalışmaya göre (4.4) denklemi kümelemeye olabilirlik yaklaşımı olarak açıklanır.
Eşitlik (4.5) ile verilen kısıt ise yine parçalanma matrisindeki her bir sütunda üyelik
değerleri toplamının, veri vektörü sayısı ’yi aşamayacağı ve sıfırdan da büyük olması
gerektiğini belirtmektedir. Bu da her bir kümeye en azından bir elemanın atanmasını
sağlamaktadır. Bu yaklaşımda üyelik değerlerinin belirli bir dağılıma sahip olması gibi
bir kısıt yoktur. Uzaklık ölçüsü için genel formül ise
+6 , _ ! 7 _ è A_ 7 _ Ž 0
(4.6)
biçimindedir.
Çizelge 4.1 Bazı uzaklık ölçüleri
Uzaklık Ölçüsü
Fonksiyon
+6 , ! Æ∑¯B#(Š 7 ­ ) Ç
6 #⁄6
Öklid Uzaklığı
Minkowski Uzaklığı
Maksimum Uzaklık
Mahalanobis Uzaklığı
+? , ! å∑¯B#lŠ 7 ­ l ç
? # ⁄?
, K0
+U , ! maks lŠ 7 ­ l, ! 1, 2, … , +
+ , ! æ 7 è A 7 (4.6) eşitliğinde A_ , ¦ ! 1, 2, … ,  norm matrisi, pozitif tanımlı simetrik bir matristir.
Bulanık kümeleme algoritmalarında diğer başka uzaklık ölçüleri de kullanılabilir.
Çizelge 4.1’de uzaklık ölçülerinin bazılarından oluşan bir liste verilmiştir (Celikyilmaz
78
ve Türksen 2009). BCO kümeleme algoritması, özel olarak Öklid uzaklığını
kullanmaktadır. Buna bağlı olarak, A_ norm matrisi birim matrise eşit olarak seçilir
(A ! I) çünkü girdi matrisi ortalaması 0 ve varyansı 1 olacak biçimde ölçeklendirilir.
(4.3) – (4.6) denklemlerinden BCO kümeleme algoritmasının, optimum çözüme amaç
fonksiyonunun minimumu ile ulaşan bir kısıtlı optimizasyon problemi olduğu söylenilir.
Buna göre, BCO kümeleme algoritması bir optimizasyon problemi olarak;
min ýX; U, V ! ∑ƒ_B# ∑%B#(_, ) +6 7 _ >
0 S _, S 1 , Jc, ¦
∑ƒ_B# _, ! 1 ,
Jc K 0
0 N ∑%B# _, N ,
J¦ K 0
(4.7)
matematiksel modeli ile tanımlanır (Bezdek 1981). Bu problem Lagrange Çarpanları
yöntemi ile çözülebilir (Khuri 2003) ve böylece model bir amaç fonksiyonu ile kısıtsız
optimizasyon problemi halini alır. Eşitlik kısıtlı bir optimizasyon problemi elde etmek
amacıyla ilk olarak; (4.7) ile verilen primal problem Lagrange çarpanları () olarak
bilinen parametreler yardımıyla kısıtsız problem biçimine dönüştürülür:
maks U, V ! ∑ƒ_B# ∑%B#(_, ) +6 _ , 7 (∑ƒ_B# _, 7 1).
>
(4.8)
Lagrange Çarpanları yöntemine göre Lagrange fonksiyonunun primal parametrelere
göre enküçüklenmesi ve dual parametrelere göre ise enbüyüklenmesi gerekir. Lagrange
fonksiyonunun orijinal model parametrelerine göre türevinde U ve V yok edilmelidir.
Buna göre, (4.8) ile verilen amaç fonksiyonunun, küme merkezleri (V) ve üyelik
değerlerine (U) göre türevi alınırsa optimum üyelik değerleri ve küme merkezleri,
„
Õ
¯[ · , \ •Õ
Õ
¯[ · , \
_, = ∑ƒ{B# 
a
—
‚#
(4.9)
79
_ =
a
•
∑€
·Õ[,· \ ·
•
∑€
·Õ[,· \
,
J¦ ! 1, 2, … , 
(4.10)
biçiminde belirlenir (Celikyilmaz ve Türksen 2009). (4.9) denkleminde _
a‚#
, q 7 1.
iterasyonda ¦. küme için elde edilen küme merkez vektörünü göstermektedir. (4.9) ve
(4.10) denklemlerinde birlikte görülen _, ise q. iterasyonda hesaplanılan optimum
a
üyelik değerlerini ifade etmektedir. Bu işlemlere göre üyelik değerleri ve küme
merkezlerinin birbirlerine bağımlı olduğu görülmektedir. Bundan dolayı; Bezdek
(1981), üyelik değerlerinin ve küme merkezlerinin belirlenmesi için bir iteratif formül
önermiştir. Buna göre her bir q iterasyonunda, ý a amaç fonksiyonu,
ýa ! ∑ƒ_B# ∑%B#[_, \ +6 [ , _ \ K 0
a >
a
(4.11)
ile belirlenir.
BCO algoritması, belirli bir iterasyon sonunda veya iki en yakın kümenin ayrılma
büyüklüğünün gibi bir değerden küçük olması biçiminde tanımlanan bir durdurma
kuralına göre son bulur. BCO kümeleme algoritması iteratif olarak aşağıda verilmiştir
(Celikyilmaz ve Türksen 2009).
þ ! .# , 6 , … , % 1 bir veri vektörü; c, küme sayısı; m, bulanıklık derecesi ve , bir
durdurma sabiti (burada maksimum iterasyon sayısı olarak alınmıştır) olarak
tanımlansın. Ayrıca başlangıçta, U parçalanma matrisine ilişkin üyelik değerleri de
rasgele seçilsin.
Adım 1. Başlangıç parçalanma matrisinin üyelik değerleri kullanılarak (4.10) ile verilen
denklem yardımıyla başlangıç küme merkezleri belirlenir.
80
Adım 2. İterasyon, q ! 1’den maksimum iterasyon sayısına kadar sürecek biçimde
başlatılır.
a‚#
Adım 2.1. girdi veri vektörünü ve q 7 1. iterasyonda elde edilen _
küme merkezlerini kullanarak, (4.9) ile verilen denklem yardımıyla, ¦. kümede her bir c
girdi veri nesnesinin üyelik değeri, _, hesaplanır.
a
Adım 2.2. _, üyelik değeri ve girdisi kullanılarak, (4.10) ile verilen küme
a
merkez fonksiyonu yardımıyla, q iterasyonunda her bir ¦ kümesinin küme merkezleri
hesaplanılır.
Adım 2.3. _ 7 _
a
a‚#
S gibi bir durdurma kuralı sağlandığı zaman
durulur. Sağlanmaz ise Adım 2’ye dönülür.
BCO kümeleme algoritmasına bulanıklık derecesinin (Ô) etkisi, (4.9) ile verilen üyelik
değeri hesaplama denkleminin sınırlar için limitleri alınarak aşağıdaki gibi
incelenilebilir:
lim>CU _, = lim>CU ∑!!1
1 71
Ô71
+ (c , ¦ )
" =
2
+ (c , ! )
2
#
ƒ
, J¦, ! ! 1, 2, … ,  .
(4.12)
Ayrıca, hiçbir küme merkezinin birbirinin aynı olmadığı varsayımı altında,
lim>C# _, ! #
1, +6 , _ N +6 , { ; J¦, ! ! 1, 2, … ,  ; ¦ 3 !
0, +cğp p!p+p
4
(4.13)
olarak elde edilir. Buna göre Ô değeri arttıkça; _, üyelik değeri sıfıra yakınsayacaktır.
Burada Ô parametresi kümelerin örtüşme derecesini göstermesinden dolayı, Ô değeri
81
büyüdükçe elde edilen sonuçlar daha bulanık ve kümelerdeki örtüşme daha fazla
olacaktır. Ô küçüldüğünde ise bulanık kümeleme sonuçları bir kesin kümeleme
modeline daha yakın olacaktır. Ô ! 1 olması durumu kümeler arasında hiçbir şekilde
örtüşmenin olmadığı bir kesin kümeleme yöntemi ile aynıdır ve bütün üyelik değerleri
_,
.0, 11’dir. Turksen (1999) tarafından yapılan çalışmada sistem modelleme
analizinde Ô ! 2 olarak kullanılmasının uygun olduğu savunulmuştur. Optimum küme
sayısının belirlenmesinde ise bir Küme Geçerlilik İndeksi kullanılması önem arz
etmektedir. Çizelge 4.2’de literatürde mevcut bazı önemli küme geçerlilik göstergeleri
sunulmuştur. Genel olarak, bu küme geçerlilik göstergelerinden birisini minimum yapan
 değeri, uygun küme sayısı olarak değerlendirilir (Celikyilmaz ve Türksen 2009).
Çizelge 4.2 Bazı önemli küme geçerlilik göstergeleri
6
⁄
%E& ! ∑%B# ∑ƒ_B# _,
Bezdek’in Parçalanma Katsayısı
Bezdek’in Parçalanma Entropisi
Xie – Beni İndeksi
Fukuyama – Sugeno İndeksi
%E¼ !
%()r !
6
6
å∑%B# ∑ƒ_B# _,
log | (_,
)ç'
•
„
žÃ¢¿Õ,…,*k∑€
·Õ ,· µ · ‚ µ m
%ž™. ‚ 1
,¦3!
>
µ 7 _ µ 7 µ_ 7 -µ
%+, ! ∑%B# ∑ƒ_B# _,
ƒ
- ! (1⁄∑%B# ∑_B#
(_, ) ) ∑%B# ∑ƒ_B#(_, ) >
>
BCO kümeleme algoritması (Bezdek 1981), standart bir bulanık kümeleme algoritması
olarak değerlendirilir. Literatürde mevcut BCO kümeleme algoritmasının genişlemeleri
üzerine yapılan çalışmalar birçok farklı amaç doğrultusunda önerilmişlerdir. Bu yöntem
aynı zamanda geliştirilmiş kümeleme algoritmasının da temelini oluşturmaktadır.
82
4.2 Bulanık Regresyon Fonksiyonları
Klasik bulanık sistem modellerinde uzman bilgisi, bulanık kümeler ile sözel nitelikleri
tanımlamak üzere kullanılır. Fakat bu yöntemler öznel olma ve genelleştirilememe gibi
eksikliklere sahiptir. Uzman bilgi müdahalesini azaltmak üzere kendi kendine öğrenen
ve daha nesnel bulanık sistem modelleri geliştirilmiştir. Bu yöntemlerde bulanık
kümeler, bulanık kümeleme gibi bir optimizasyon algoritması ile veriden öğrenirler.
Son yıllarda yapılan çalışmalarda; sinir-bulanık algoritmalardan ve genetik bulanık
sistemler gibi daha karmaşık optimizasyon algoritmalarından performans artırmak üzere
faydalanılmaktadır.
Klasik bulanık sistem modelleme yaklaşımları, bulanık sistemleri etkinlik açısından
geliştirse de göz ardı edilmemesi gereken çeşitli sorunlara sahiptir (Türkşen ve
Celikyilmaz 2006). Bulanık kural tabanlarına dayanan bu standart bulanık sistemlere
ilişkin yöntemlerdeki bazı zorluklar aşağıda verilmiştir:
• Öncül ve soncul üyelik fonksiyonlarının ve parametrelerinin tanımlanması
• Öncüllerin ve soncullara ilişkin bileşke işlemi sürecinde en uygun bileşke
işlemcisinin seçiminin (t-norm, t-conorm vd.) tanımlanması
• Kuralların temsili ve bu kurallarla çıkarım yapmak amacıyla “h”, “h.R”,
“h” sözel bağlaçlarına ilişkin belirsizliğin çözümlenmesi için gerektirme
işlemci türünün tanımlanması
• Durulaştırma yönteminin seçimi
Yıllar içerisinde, belirtilen bu sorunlar incelenmiş ve uzman müdahalelerini azaltan
birçok farklı yöntem sistem model parametrelerini eniyilemek üzere kullanılmıştır.
Buna göre, bu kesimde bulanık kural tabanlı yaklaşımlar yerine Türkşen (2008)
çalışmasında önerilmiş olan Bulanık Regresyon Fonksiyonları (BRF) yaklaşımı ele
alınacaktır. Bu yöntemde amaç; bulanıklaştırma, öncüllerin ve sonculların bileşkesi
(aggregation), gerektirme, öncül ve soncul üyelik fonksiyonlarının eniyilenmesi gibi
bulanık işlemlerin sayısının indirgenmesidir. BRF yöntemi, bu bahsedilen birçok
83
işlemciyi kullanmaması dolayısıyla bulanık kural tabanlı sistemlerden daha az
karmaşıktır. Tip-1 BRF çözümlemesi sade bir biçimde aşağıda anlatılmıştır:
• þ / §¯ olmak üzere + boyutlu girdi uzayı; _ , ¦ ! 1, 2, … ,  küme
merkezleri ile temsil edilen örtüşen  kümeye parçalanır.
• Belirlenen her bir bölgeye (kümeye), _ : _ C § olacak biçimde bir lokal
bulanık model atanır. Sistem, þ girdisi için her bir bulanık modelden bir
bulanık çıktı belirler ve sonra bu çıktılar, girdi vektörünün kümelere ait olma
derecesine (üyelik derecesi) bağlı olarak ağırlıklandırılır.
Burada daha az sayıda bulanık işlemci gerektiren ve iyi kestirim performansına sahip bir
bulanık sistem elde etmek amacıyla sağlanması gereken iki koşulun açıklanması
gerekmektedir (Celikyilmaz ve Türksen 2009).
(i) Parçalanma: Parçalanma, çıkarım sürecinde lokal ilişkileri mümkün olduğunca
doğru
açıklayan lokal fonksiyonları tanımlamalıdır.
Fakat
gerçek
hayat
uygulamalarına ilişkin veri setlerinde, değişkenler arasında yüksek dereceden ilişki
ve/veya etkileşim ile karşılaşılmasından dolayı değişkenlerin ayrıştırılması
genellikle mümkün olamamaktadır. Bu nedenle, BRF sistemlerinde kuralların öncül
kısımları, etkileşimli üyelik değerleri ile temsil edilerek değişkenler birlikte
çözümlenir. Örnek olarak; değişkenleri {“enlem” ve “boylam”} yerine “konum”
biçiminde veya benzer olarak {“uzaklık” ve “yolculuk zamanı”} yerine “hız”
biçiminde ele almak daha uygun olacaktır.
(ii) Lokal modellerin karmaşıklığı: Lokal modellerin gerçek lokal ilişkilere yakın
olması ve iyi bir genelleme kapasitesine sahip olması amacıyla model kestirim
performansı artırılmalıdır. Ayrıca lokal fonksiyonlar aşırı uyuma (over-fitting)
neden olacak biçimde karmaşık da olmamalıdır. Birçok durumda basit modellerin
küçük bir kümesi çıkarım için yeterli olmaktadır.
Bu yöntemde, bulanık kümeleme algoritması, BRF yaklaşımında sistem modellerini
biçimlendirmek ve gizli lokal yapıları tanımlamak üzere uygulanmıştır. BRF, üyelik
değerlerinin bulanık kümelemeden elde edilmesi ve lokal bulanık ilişkileri açıklamak
84
üzere kullanılmasından dolayı özgün bir yaklaşımdır. Bulanık sistem modelleme
çalışmaları içerisinde değerlendirildiğinde, bu yaklaşımda üyelik değerleri farklı bir
biçimde kullanılmaktadır. Bu doğrultuda; kümeleme algoritmaları, lokal bulanık
regresyon fonksiyonlarının kestirim performansını artırmak amacıyla, geliştirilmiş
üyelik değerlerini bulmalıdır. Bundan dolayı, BRF sistem modellerinin performansı,
girdi/çıktı davranışının lokal bulanık regresyon fonksiyonları ile açıklanabilir olmasına
bağlıdır. Bu da aşağıda verilen üçüncü koşulun sağlanmasını gerektirmektedir.
(iii) Üyelik değerlerinin davranışı: BRF ile sistem modellemede, her bir kümede çıktı
değişkeninin davranışını açıklamak üzere nesnelerin kümelere olan üyelik
dereceleri hesaplanır. Bu nedenle, geliştirilmiş üyelik değerleri, geliştirilmiş
bulanık kümeleme algoritması ile elde edilmelidir. Her bir modelin kestirim
gücünün artırılması, uzman bulanık kümeleme algoritmasının kullanımı ile
mümkündür.
Bulanık
Fonksiyonlar ile
Çıkarım
Girdi
Değişkenleri ve
Üyelik Değeri
Yapı Tanımlama
Bulanık
Fonksiyonlar ile
Bulanık Sistem
Modelleme
Bulanık
Fonksiyonlar ile
Kural Üretimi
Sistem
Tanımlama ve
Eğitim Motoru
Parametre
Tanımlama
Çıkarım Motoru
Şekil 4.1 Bulanık regresyon fonksiyonları yaklaşımı ile bulanık sistem modelleme
BRF sistem modelleri ile bulanık kural tabanlı yapılar veya bunların genişlemelerine
ilişkin klasik bulanık sistem modelleri, Şekil 4.1’de gösterildiği gibi benzer sistem
tasarım adımlarına sahiptir. Ancak bu modeller, tanımlı her bir örüntü ve çıkarım
yöntemleri için bulanık modellerin (kuralların) geliştirilmesi olarak adlandırılan yapı
tanımlama teknolojilerine göre farklılaşmaktadır. BRF yaklaşımına göre; veriler ilk
olarak örtüşen çeşitli bulanık kümelere ayrılır. Bu kümelerin her biri farklı karar
85
kuralını tanımlamak üzere kullanılır. Başlangıçta bu yöntemde, bulanık parçalanmaları
belirlemek üzere BCO kümeleme algoritması kullanılmaktaydı. BRF yaklaşımındaki
yenilik; üyelik değerleri ve bunların dönüşümlerinin ilave bulanık tanımlayıcılar olarak
kullanılmasıyla nesneler arasındaki belirsizliğin daha açık bir biçimde ortaya
konulmasıdır. Burada üyelik değerleri ve dönüşümleri, orijinal girdi değişkenleri ile
birlikte girdi-çıktı verilerinin lokal ilişkilerini tahmin etmek için ilave kestirimciler
olarak kullanılmaktadır. Buna göre, her bir küme için farklı veri setlerinin yapısını
çözümlemek üzere üyelik değerleri ve bunların mümkün (kullanıcı tanımlı)
dönüşümlerinin listesi orijinal veri setine yeni kestirimciler olarak eklenilir. Lokal
fonksiyonlar, her bir kümeye ilişkin veri setlerini kullanarak lokal girdi-çıktı ilişkilerini
açıklamak için belirlenir. Bu yaklaşım ilk olarak Türkşen (2008) tarafından önerilmiş ve
“Bulanık Regresyon Fonksiyonları” olarak adlandırılmıştır.
Benzerliklerin vektör nesneleri arasındaki uzaklıklara bağlı olarak açıklandığı sistem
modelleme yaklaşımlarında üyelik değerleri önemli rol oynamaktadır (Çelikyılmaz ve
Türkşen 2007). Türkşen ve Celikyilmaz (2006) tarafından yapılan çalışmada da üyelik
değerlerinin bulanık modeller üzerinde öneme sahip olduğu vurgulanmıştır. BRF
tekniğinin, klasik bulanık kural tabanlı yaklaşımlara göre sistem çıktısı ve model çıktısı
arasındaki hatayı enküçükleyebilmesi açısından daha iyi sonuçlar verdiği belirlenmiştir.
Bu sistemler, yapı tanımlamada ise BCO kümeleme algoritmasını (Bezdek 1981)
uygulamaktadır.
4.2.1 Bulanık regresyon fonksiyonları ile yapı tanımlama
BRF sistemlerinin, eğitim ve çıkarım olmak üzere iki farklı bileşeni vardır. Eğitim
sürecinde, tüm veri seti içerisinden rasgele seçilen bir eğitim veri seti ile sistem modeli
çözümlenir. Model parametreleri, geçerlilik veri seti olarak adlandırılan başka bir örnek
veri seti yardımıyla eniyilenir. Çıkarım algoritmasında ise yine tüm veri seti içerisinden
rasgele seçilen bir test veri seti kullanılarak model performansı ölçülür. Böylece veriler
üç parçaya bölünmüş olur.
86
Bu çalışmada çoklu girdili – tek çıktılı problemler ele alınacaktır. Buna göre, 0, !
.# , # , 6 , 6 , … , % , % 1 girdi-çıktı veri setini göstermek üzere × , £ §¯#
ise eğitim veri setinden herhangi bir veri noktası (vektör) olsun. Burada her (+ ‡ 1)
boyutlu veri noktası; ! å±#, ±6, … ±¯, ç
è
§¯ , c ! 1, 2, … , veri vektörü ve §
çıktısından oluşmaktadır. Ayrıca bu yaklaşımda 0, ( ì + ‡ 1) boyutlu girdi-çıktı
matrisi; , veri vektörlerinin sayısı; , küme sayısı ve Ô, bulanık c-ortalama kümeleme
yöntemine göre bulanıklık derecesi (örtüşme derecesi) olarak tanımlanır. _,
i0, 1j, k.
kümede c. verinin üyelik derecesini temsil etmek üzere; eğitim algoritmasına ilişkin
parametrelerin listesi,
•
Sistem modelinde küme sayısı , 
tarafından belirlenen bir değer)
•
.2, 3, … , 1⁄11. (0 N 1 N kullanıcı
Sistem modelinin bulanıklık derecesi Ô, Ô
i1.1, ∞
•
Modellenen sistemin tipi (doğrusal veya doğrusal olmayan)
•
Fonksiyon tahminlerine ilişkin ilave başlangıç parametreleri
biçiminde verilir (Celikyilmaz ve Türksen 2009). Buna göre, standart BCO kümeleme
algoritması kullanılarak Tip-1 BRF yaklaşımı için geliştirilmiş eğitim algoritması
aşağıda verilmiştir (Celikyilmaz ve Türksen 2009):
Adım 1. Ô Ž 1.1 (bulanıklık derecesi),  K 1 (küme sayısı) ve 2 (durdurma eşiği)
olmak üzere BCO kümeleme yöntemi için parametreler seçilir.
Adım 2.
0, veri seti kullanılarak BCO’ya göre , küme merkezleri ve
etkileşimli (girdi-çıktı) üyelik değerleri,
_, 5 = 3∑ƒ{B# 4
+_, 5+ 6
{,
6'
>‚#
7
‚#
+_, ! µ , 7 , µ; c ! 1, 2, … , ; ¦ ! 1, 2, … , 
87
(4.14)
(4.15)
biçiminde bulunur.
Adım 3. Girdi uzayına ilişkin üyelik değerleri,
+ _, = 3∑ƒ{B# 4 _, 5+ 6
{,
6'
>‚#
7
‚#
+_, ! µ 7 _ µ; c ! 1, 2, … , ; ¦ ! 1, 2, … , 
(4.16)
(4.17)
yardımıyla belirlenir.
Adım 4. Her ¦ kümesi için;
Adım 4.1. Girdilere ilişkin _, üyelik değerleri ve bunların §¯> uzayındaki
istenilen dönüşümleri orijinal girdi ile birleştirilir. Böylece her ¦ kümesi için §¯¯>
nitelik uzayı üzerinde tanımlı Γ_ , _ matrisleri elde edilir.
9_ ) bulanık fonksiyonlarına ilişkin 9_ ! k
9- , 9# , … , 9¯¯> m
Adım 4.2. _ (Γ_ , parametreleri tahmin edilir.
Verilen bu algoritma, , üyelik değerlerini ve _ , , ¦ ! 1, 2, … ,  küme
merkezlerini üretmek üzere; × , , c ! 1, 2, … , girdi-çıktı verisi üzerinde standart
BCO kümeleme yöntemini (Bezdek 1981) uygulamaktadır. Algoritmanın 3. adımında
girdi uzayına karşılık gelen _ üyelik değerleri ve _ küme merkezleri elde
edilmektedir. Adım 4’de, _ üyelik değerleri ve/veya dönüşümleri ilave boyut olarak
kullanılarak her ¦ kümesi için farklı bir veri seti oluşturulur. Böylece her bir veri
vektörü + boyutlu orijinal girdi değişkenleri, üyelik değerleri ve üyelik değerlerinin
(+Ô) mümkün dönüşümlerinden oluşan bir matris olan Γ_,
§¯¯> matrisi ile temsil
edilir. Burada, nitelik uzayı boyutu (+ ‡ +Ô, kullanıcı tarafından belirlenir ve
88
optimum boyut ise kapsamlı arama yöntemine dayalı olarak araştırılabilir. Bunun
sonucunda da optimum regresyon fonksiyon parametreleri araştırılır.
BRF yaklaşımına göre; + girdili – tek çıktılı bir model için +Ô ! 1 olacak biçimde bir
modeli ele alalım. Burada üyelik değerlerinin sadece kendisi modele ilave bir boyut
olarak eklensin. Buna göre her bir küme için yeni girdi matrisi, Γ_ , _ _,#
_,6
Γ_ , _ ! _,?
±#,#
±6,#
±?,#
±#,6
±6,6
±?,6
…
…
…
±#,¯
±6,¯
,
±?,¯
¦ ! 1, 2, … , 
c ! 1, 2, … , 0NS
_, K È 7 kesim
§¯# ,
(4.18)
biçiminde oluşturulur.
Eşitlik (4.18)’de görüldüğü üzere,
_, K È–kesim, ¦ ! 1, 2, … , ; c ! 1, 2, … , ; N (4.19)
kısıtı ile È–kesimin farklı seçimleri için farklı bir alt küme elde edilebilmektedir.
Burada È–kesimK 0’ın kullanılmasıyla birlikte küme merkezlerinden uzak olan ve
karar yüzeylerini etkilemeyen vektörler dikkate alınmamış olur. Uygulamalardan elde
edilen sonuçlara göre bir kümedeki gözlem sayısı ⁄ ’nin altında kalıyorsa È–kesim!
0 olarak kullanılır (Celikyilmaz ve Türksen 2009). BRF yaklaşımının en önemli
özelliği, girdi ve çıktı değişkenleri arasındaki ilişkinin orijinal girdi değişkenleri ile
açıklamanın yetersiz olduğu durumlarda; üyelik değerleri ve dönüşümleri ile belirlenen
ilave bilgilere de modelde yer verilmesidir.
9_ )
Algoritmada, 4.2 ile verilen adımda, her ¦, ¦ ! 1, 2, … ,  kümesi için bir _ (Γ_ , regresyon modeli tanımlanır. Bu fonksiyonlar, Tip-1 Bulanık Regresyon Fonksiyonları
olarak adlandırılır (Türkşen 2008, Çelikyılmaz ve Türkşen 2007). Girdilere eklenen
üyelik değerlerinin çeşitli formları ile birlikte belirlenen modelin, doğrusal veya
doğrusal olmama durumlarına göre model parametreleri tahmin edilebilir. Ô bulanıklık
89
>
6
derecesini göstermek üzere _,
, _,
, p±(_, ), !((1 7 _, )'_, ) gibi matematiksel
dönüşümler kullanılabilmektedir. Celikyilmaz ve Türksen (2009) tarafından yapılan
çalışmada, üyelik değerlerinin üstel ve çeşitli logaritmik dönüşümlerinin diğerlerine
göre model performansını daha çok artırdığı belirtilmektedir. Burada, regresyon model
parametrelerinin tahmini, en küçük kareler yöntemi gibi bir regresyon çözümlemesinin
kullanımı ile gerçekleştirilir.
Bu çalışmada, her bir kümede bulanık regresyon fonksiyonu katsayılarının tahmininde,
en küçük kareler regresyon çözümlemesinin yanı sıra, farklı çekirdek fonksiyonlarının
seçimi ile Destek Vektör Regresyon (DVR) çözümlemesinden de faydalanılacaktır.
9_,- , 9_,# , … , 9_,¯¯> m ile ¦ kümesi için belirli _ (Γ_ , 9_ ) bulanık
9_ ! k
Burada, regresyon fonksiyonunun parametreleri ifade edilmektedir. Buna göre, her bir kümenin
(¦ ! 1, 2, … , ) bulanık regresyon fonksiyonu için DVR optimizasyon modeli, (3.57)
programlama problemi tekrar düzenlenerek,
Amaç fonksiyonu:
maks_ ' !
maksÌr
r
r
7 6 ∑%,B#(È_, 7 È_,
)(È_, 7 È_,
) ¦ [Γ( , _, ), Γ( , _, )\
#
:
€
§
r
r
7 ∑%B#(È_, ‡ È_,
) ‡ ∑%B#(È_, 7 È_,
)
#
(4.20)
Kısıtlar:
r
∑%B#(È_, 7 È_,
)!0
r
È_, , È_,
Î
Æ0, %Ç
biçiminde oluşturulur.
(4.20) probleminde DVR optimizasyon algoritması, destek vektörleri ve karşılık gelen
r
(È_, , È_,
) Lagrange çarpanlarını belirlemek üzere her bir ¦ kümesi için ayrı ayrı
uygulanır. DVR çözümlemesinin uygulanmasından önce her bir kümeye düşen eğitim
veri seti içerisinden bazı veri vektörleri, (4.19) kriterine bağlı olarak yani, _, K È–
90
kesim olacak biçimde çıkarılabilir. Bu durumda, her bir kümedeki vektörlerin toplam
sayısı, eğitim vektörlerinin toplam sayısından az olur. DVR, fonksiyon parametrelerinin
tahmini için kullanıldığında, her bir bulanık regresyon fonksiyonu,
r
_ Γ¢ ! ∑%B#(È_, 7 È_,
) ¦ [Γ( , _, ), Γ, _ \ ‡ ­_
(4.21)
olarak ifade edilir.
4.2.2 Bulanık regresyon fonksiyonları ile çıkarım
BRF ile çıkarım yöntemi, yeni örnekler için çıktı değerlerinin kestiriminde, önceden
seçilmiş eğitim örneklerini kullanır. Standart kapsamlı arama yöntemlerinde optimum
modelin parametreleri, parametrelerin farklı değerleri için belirli bir metodolojinin
iteratif olarak uygulanmasıyla aranır. BRF yaklaşımına göre sistem modellerinin
öğrenilmesi için yapı tanımlaması, eğitim veri seti üzerinden gerçekleştirilmektedir.
Doğrulama veya test verisi gibi veri setleri kullanılarak gerçekleştirilen çıkarım işlemi,
yapı tanımlama esnasında belirlenen modellerin performansının hesaplanması için
kullanılır. Doğrulama veri seti, yapı tanımlama yönteminin bir parçası olan çapraz
doğrulama (cross validation) esnasında model parametrelerinin eniyilenmesi amacıyla
kullanılır. Optimum modele ise kapsamlı arama sonucunda ulaşılır. Optimum modelin
seçimi, çıkarım metodolojisinden elde edilen en iyi performansa dayalıdır. Daha sonra,
optimum modelin parametreleri kullanılarak, test veri seti ile modelin genelleme
kapasitesi test edilir.
X ; , + ì + boyutlu girdi matrisi; +, doğrulama veri vektörlerinin toplam sayısı; ,
toplam küme sayısı; Ô, BCO kümeleme yönteminde kullanılan bulanıklık derecesi
olmak üzere,
;
1: Doğrulama veri seti
þ ; ! .#; , 6; , … , %¯
;
;
;
; ! å±#,
±6,
… ±¯,
ç
; : Çıktı değişkeni
è
§¯ : + boyutlu girdi vektörü, c ! 1, 2, … , 91
biçiminde ifade edilsin. Diğer taraftan, X a=}a , q ì + boyutlu girdi matrisi; q, test
veri vektörlerinin toplam sayısını göstermek üzere,
a=}a 1:
þ a=}a ! .#a=}a , 6a=}a , … , %a
Test veri seti
è
a=}a a=}a
a=}a
±6, … ±¯,
ç
a=}a ! å±#,
a=}a : Çıktı değişkeni
§¯ : + boyutlu girdi vektörü, c ! 1, 2, … , q
olarak ifade edilsin. BRF çıkarım mekanizmasında, model tahmininden kesin çıktı
değerlerinin kestirimi gerçekleştirilir. Kestirilen bu çıktı değerleri, karşılık gelen gerçek
çıktı değerleriyle birlikte modelin performansının hesaplanması amacıyla kullanılır.
Standart BCO kümeleme yöntemi kullanılarak, Tip-1 BRF yaklaşımının çıkarım
algoritması aşağıda sunulmuştur (Celikyilmaz ve Türksen 2009).
Adım 1. ; , c ! 1, 2, … , kullanılarak her bir doğrulama örneği için girdi üyelik
değerleri
;
J #y_yƒ _,
#yy%;
!<
¯
∑ƒ{B# ,·
"
¯=
=
,·
6⁄>‚# ‚#
> , ¦ ! 1, 2, … , 
;
+_,
! µ; 7 _ µ
(4.22)
(4.23)
ile belirlenir.
;
Adım 2. Doğrulama verisinin üyelik değerleri, _,
ve bunların çeşitli dönüşümleri
orijinal doğrulama verisi ile birleştirilir. Böylece her ¦ kümesi için §¯¯> nitelik uzayı
üzerinde tanımlı Γ_ ; , _; matrisleri elde edilir.
Adım 3. Belirlenmiş olan BRF parametreleri kullanılarak ve (4.21) ile verilen modelden
9_ ) kestirilir.
faydalanarak yeni veri vektörlerinin çıktı değerleri, ,_, ! (Γ_, , 92
Adım 4. Her bir kümede, kestirilen bulanık çıktı değerleri karşılık gelen üyelik değerleri
ile ağırlıklandırılır ve doğrulama veri örnekleri için tek çıktı değeri,
, !
∑*Õ ¶,,· ,·
∑*Õ ,·
, ¦ ! 1, 2, … , ; c ! 1, 2, … , (4.24)
biçiminde hesaplanır.
Tip-1 BRF sisteminin çıkarım algoritmasının ilk adımında bulanıklaştırma işlemi
gerçekleştirilir. Burada, her bir ; doğrulama veri örneğinin üyelik değeri, küme
merkezleri kullanılarak hesaplanır. ! .# , … , ƒ 1 küme merkezleri de belirli
bir Ô ve  değeri için standart BCO kümeleme algoritması ile elde edilir. Bu işlem,
öğrenme esnasında her bir kümedeki test örneklerinin üyelik değerlerinin belirlenmesi
olarak ifade edilir. Bu üyelik değerleri ise orijinal doğrulama girdi matrisine ilave
boyutlar olarak kullanılır. Böylece, her ¦ kümesi için §¯¯> nitelik uzayı üzerinde
tanımlı, Γ_ ; , _; matrisleri elde edilmiş olur. Eğitim algoritması sonucunda
9_ ), ¦ ! 1, 2, … , ; doğrulama
belirlenmiş olan bulanık regresyon fonksiyonları, (Γ_ , örnekleri için çıktı değerlerini kestirmek üzere kullanılır. Buna göre, mevcut örnekler
için her bir kümeden bir ,_ ! Γ_ bulanık model çıktısı elde edilir. Kesin çıktının
belirlenmesi amacıyla ise her bir bulanık çıktı, üyelik değerleriyle, eşitlik (4.24)’deki
bulanık ağırlıklı ortalama formülüne göre ağırlıklandırılır (Celikyilmaz ve Türksen
2009).
4.3 Sigorta Hasar Tutarlarının Kestiriminde Bulanık Regresyon Fonksiyonları
Yaklaşımı
Çalışmanın bu kesiminde, otomobil maddi zarar sigortalama sürecinde, hasar
tutarlarının kestirimi için Türkşen (2008), Çelikyılmaz ve Türkşen (2007) tarafından
önerilen, destek vektör makineleri ve en küçük kareler prensibi ile BRF yaklaşımının bir
uygulaması gerçekleştirilecektir.
93
Uygulamada kullanılan veriler, Türkiye’de faaliyet gösteren bir sigorta şirketinden
alınmıştır. Bu amaçla, 01 Ocak 2007 – 31 Aralık 2007 tarihlerinde, 360 adet otomobil
maddi zarar sigorta poliçesine ilişkin veriler derlenmiştir. BRF yaklaşımına göre veri
seti, yapı tanımlama ve çıkarım aşamasında kullanılmak üzere; eğitim, doğrulama ve
test biçiminde toplam 3 parçaya ayrılmıştır. Modelde yer alan değişkenlerin listesi
Çizelge 4.3 ile verilmiştir. Burada hasarsızlık indirimi, sigorta şirketinin mevcut
politikası gereği 5 basamaktan oluşmaktadır. Sigortalı aracın poliçe süresindeki hasar
durumuna göre, bir sonraki poliçe döneminde uygulanacak hasarsızlık indirimi oranları;
1. basamak için %30, 2. basamak için %40, 3. basamak için %50, 4. basamak için %60,
5. basamak için %65 biçimindedir.
Çizelge 4.3 Modelde yer alan girdi ve çıktı değişkenleri
Girdi Değişkenleri
þ#
þ6
þÍ
þ’
þÛ
Çıktı Değişkeni
Hasarsızlık İndirim Düzeyi
Hasar Adedi
Yürürlük Sigorta Bedeli
İl Trafik Yoğunluğu
Araç Yaşı
Hasar Tutarı
Çizelge 4.4 Hasar tutarlarının dağılımı ve betimleyici istatistikler
Hasar Tutarı
Toplam Tutar
İçindeki Pay
(%)
Ortalama
Medyan
Std.
Sapma
8.9
15.76
0
452.56
0
0
0.8
8.10
Frekans
(%)
0
84.4
1000, 2000j
3.1
0, 1000j
2000, 3000j
K 3000
Toplam
2.8
100
0
468.00
188.43
2489.45
369.45
15.68
1309.94
1258.00
60.46
5555.36
4679.50
100
2480.06
255.24
0
222.99
2457.54
1035.95
Çizelge 4.4 ile verilen hasar tutarlarının dağılımına ilişkin frekanslar incelendiğinde;
hasar tutarı sıfır olan poliçe sahipleri, toplam bireyler içerisinde %84.4 gibi bir oran ile
94
temsil edilmektedir. Bu sonuç, hasar tutarlarının çarpık bir dağılıma sahip olduğunu
göstermektedir. Hasar tutarlarının %2.8’i ise 3000 TL’nin üzerindedir. Burada önemli
olan bir diğer husus ise bu hasarların toplam hasar tutarı içindeki ağırlığının %60.46
olarak gerçekleşmesidir.
Çizelge 4.5 Küme geçerlilik göstergelerine göre optimum küme sayısı ve bulanıklık
derecesi
Küme Geçerlilik Göstergeleri
Bezdek’in Parçalanma Katsayısı
Bulanıklık Derecesi
(?r )
2.2
Küme Sayısı
(@r )
4
1.7
3
2.1
Xie – Beni İndeksi (XB*)
Geliştirilmiş Bulanık Kümeleme (IFC)
3
Şekil 4.2 Küme geçerlilik göstergelerinin küme sayılarına göre değişimi
95
BRF yaklaşımının ilk aşamasında; BCO kümeleme algoritması kullanılarak Çizelge
4.3’de verilen risk faktörlerine göre kümeleme işlemi gerçekleştirilir. Uygun küme
sayısının belirlenmesinde; Bezdek’in Parçalanma Katsayısı, Xie – Beni (XB*) İndeksi
ve Celikyilmaz ve Turksen (2008) tarafından önerilen Geliştirilmiş Bulanık Kümeleme
(IFC) yöntemlerinden yararlanılmıştır. Belirtilen küme geçerlilik göstergelerinin
kullanılması sonucu elde edilen optimum küme sayıları ve bulanıklık dereceleri Çizelge
4.5’te gösterildiği gibi elde edilmiştir. Küme geçerlilik göstergelerinin küme sayılarına
göre değişimi ise Şekil 4.2’de gösterilmiştir.
BCO kümeleme yönteminin kullanılarak poliçe sahiplerini çeşitli risk gruplarına
ayrılmasının ardından, her bir risk grubu için bulanık regresyon fonksiyonlarının tahmin
edilmesi gerekmektedir. Bulanık regresyon fonksiyonlarında katsayıların tahmininde,
Türkşen (2008), Çelikyılmaz ve Türkşen (2007) çalışmalarında olduğu gibi en küçük
kareler
yönteminden
ve
klasik
destek
vektör
regresyon
çözümlemesinden
yararlanılmıştır. BCO kümeleme algoritması sonucunda elde edilen üyelik değerleri ve
>
6
_,
, _,
, p±(_, ), !((1 7 _, )'_, ) gibi matematiksel dönüşümleri, orijinal girdi
matrisine ilave boyutlar olarak kullanılmıştır. Celikyilmaz ve Türksen (2009) tarafından
yapılan çalışmada vurgulandığı gibi bu işlem, lokal bulanık regresyon fonksiyonlarının
kestirim performansının artırılması amacıyla gerçekleştirilmiştir.
Küme sayılarının ve bulanıklık derecelerinin farklı değerlerine göre oluşturulan bulanık
regresyon fonksiyonları için en küçük kareler regresyon çözümlemesi sonucunda elde
edilen bulgular Çizelge 4.6 ile sunulmuştur. Buna göre, optimum küme sayısı  r ! 3 ve
bulanıklık derecesi Ôr ! 1.7 olarak seçildiğinde hata kareler ortalaması ve belirleme
katsayılarına (& 6 ) göre daha iyi bir model tahmine ulaşıldığı görülmüştür.
DVR çözümlemesinde, çekirdek fonksiyonunun seçimine bağlı olarak doğrusal
olmayan regresyon için farklı öğrenme makineleri de oluşturulabilmektedir. Çizelge
4.7’de farklı çekirdek fonksiyonlarının kullanımı ile doğrusal ve doğrusal olmayan
DVR çözümlemesine ilişkin bulgular sunulmuştur. Hata kareler ortalaması (HKO) ve
belirleme katsayıları (& 6 ) incelendiğinde;  r ! 3, Ôr ! 1.7 için üçüncü dereceden
polinomiyal regresyon modelinin daha iyi sonuç verdiği gözlenmiştir.
96
Çizelge 4.6 Bulanık regresyon fonksiyonlarında en küçük kareler yöntemi sonucunda
elde edilen bulgular1
&6
HKO
Doğrusal Model ( r ! 4, Ô r ! 2.2)
205.77
0.748
Doğrusal Model ( r ! 3, Ô r ! 1.7)
199.63
0.763
Doğrusal Model ( r ! 3, Ô r ! 2.1)
204.16
0.752
Çizelge 4.7 Bulanık regresyon fonksiyonlarında klasik DVR yöntemi sonucunda elde
edilen bulgular2
o
HKO
&6
Doğrusal Model ( r ! 4, Ô r ! 2.2)
150
22500
251.43
0.629
Doğrusal Model ( r ! 3, Ô r ! 1.7)
150
35000
250.55
0.632
Doğrusal Model ( r ! 3, Ô r ! 2.1)
150
Polinomiyal Model (e ! 2,  r ! 4, Ô r ! 2.2)
100
Polinomiyal Model (e ! 2,  r ! 3, Ô r ! 2.1)
100
Polinomiyal Model (e ! 2,  r ! 3, Ô r ! 1.7)
100
Polinomiyal Model (e ! 3,  r ! 4, Ô r ! 2.2)
10
Polinomiyal Model (e ! 3,  r ! 3, Ô r ! 2.1)
20
Polinomiyal Model (e ! 3,  r ! 3, Ô r ! 1.7)
10
25000
14500
12000
10000
10
10
10
251.79
209.96
167.53
201.53
161.32
158.79
155.48
0.628
0.738
0.833
0.759
0.843
0.850
0.874
Optimum küme sayısı  r ! 3 ve bulanıklık derecesi Ôr ! 1.7 olarak seçildiğinde; BCO
sonucunda
belirlenen
her
bir
kümeye
ilişkin
bulanık
doğrusal
regresyon
fonksiyonlarında, en küçük kareler yaklaşımı ve DVR çözümlemesi ile elde edilen
katsayı tahminleri Çizelge 4.8 ve Çizelge 4.9 ile verilmiştir. Burada üyelik değerleri ve
>
6
_,
, _,
, p±(_, ), !((1 7 _, )'_, ) gibi matematiksel dönüşümleri, orijinal girdi
matrisine ilave boyutlar olarak kullanılmıştır. Çizelge 4.9’da verilen doğrusal destek
vektör regresyon modeline ilişkin katsayı tahminleri, (4.20) programlama probleminin
çözümünden elde edilmiştir.
1
Her bir kümeye ilişkin bulanık regresyon fonksiyonlarında parametre tahminleri, Türkşen (2008)
çalışmasında önerilen yaklaşımdan yararlanarak elde edilmiştir.
2
Her bir kümeye ilişkin bulanık regresyon fonksiyonlarında parametre tahminleri, Çelikyılmaz ve
Türkşen (2007) çalışmasında önerilen yaklaşımdan yararlanarak elde edilmiştir.
97
Çizelge 4.8 Bulanık doğrusal regresyon fonksiyonlarında en küçük kareler yöntemi
sonucunda belirlenen katsayılar
Katsayı
Küme 1
Küme 2
773.61
750.54
9834.43
Sabit (‹- )
‹(Õ
‹(„
810.41
‹(A
17.58
Küme 3
1564.26
74966.84
585.48
665.94
7.71
773.24
26.21
‹(B
72.88
730.96
718.57
‹
72.97
9.35
25753.33
‹(C
‹„
‹= D
37.87
35.99
57.05
740677.34
75365.51
747855.44
78761.79
71654.76
958.35
‹˜™#‚⁄
Hata Kareler Ortalaması (HKO)
75.21
18.02
376.74
199.63
0.763
Belirleme Katsayısı (& 6 )
Çizelge 4.9 Bulanık doğrusal regresyon fonksiyonlarında DVR yöntemi sonucunda
belirlenen katsayılar
Katsayı
Küme 1
Küme 2
Küme 3
‹(Õ
739.24
734.63
722.24
‹(A
0.13
0.93
2.99
Sabit (‹- )
‹(„
‹(B
‹(C
‹
‹„
‹= D
‹˜™#‚⁄
Hata Kareler Ortalaması (HKO)
98.94
297.94
79.85
293.11
10.53
313.67
70.27
72.75
77.58
0.66
11.92
712.60
17.63
717.06
70.18
71.14
70.35
73.47
71.18
9.35
749.71
73.80
77.81
42.78
250.55
0.632
Belirleme Katsayısı (& 6 )
98
5. MELEZ BULANIK DESTEK VEKTÖR REGRESYON ÇÖZÜMLEMESİ
5.1 Bulanık Sayılar ve Ağırlıklı Bulanık Aritmetik
Bulanık mantık, Aristo mantığına karşı geliştirilmiş olan ve uygulamada ortaya çıkan
olayların hangi oranlarda gerçekleştiğini belirlemeye çalışan bir çoklu mantık
sistemidir. Belirsiz bilgiyi temsil edebilme yeteneği önemli bir özelliğidir. Bulanık teori,
uygun ve güvenilir veriler elde olmadığı zaman pratiklik sağlar.
Bulanık mantığın ardındaki temel fikir, bir önermenin doğruluğunun, kesin doğru ve
kesin yanlış arasındaki sonsuz sayıda doğruluk değerlerini içeren bir kümedeki değerler
ya da sayısal olarak i0, 1j reel sayı aralığıyla ilişkilendiren bir fonksiyon olarak
kabulüdür. Bu, Zadeh’in bulanık kümeler üzerindeki ilk çalışmasının bir sonucudur
(Zadeh 1965). Bulanık mantık yaklaşık akıl yürütmenin mantığıdır. Sözel olarak değişik
sıfat dereceleri ile ifade edilen (ya da sayısal olarak i0, 1j reel sayı aralığında yer alan)
doğruluk değerlerine sahip oluşu ve geçerliliği kesin olmayan ancak yaklaşık olan
çıkarım kurallarına sahip oluşu ayırt edici özellikleridir.
Bulanık mantığın geçerli olduğu durumlardan ilki, incelenen olayın çok karmaşık
olması ve bununla ilgili yeterli bilginin bulunmaması durumunda kişilerin görüş ve
değer yargılarına yer verilmesi, ikincisi ise insan kavrayış ve yargısına gerek duyan
hallerdir. İnsan düşüncesinde sayısal olmasa bile belirsizlik, yararlı bir bilgi kaynağıdır.
Bu tür bilgi kaynaklarının, olayların incelenmesinde özgün bir biçimde kullanılmasına
bulanık mantık ilkeleri yardımcı olmaktadır (Baykal ve Beyan 2004).
5.1.1 Bulanık kümeler ve temel kavramlar
þ, elemanları ±’ler ile gösterilen bir evrensel küme ve R kümesi de þ’in bir klasik alt
kümesi olsun. Üyelik fonksiyonu kavramı, ± elemanlarının R kümesine olan üyelik
derecelerini belirler. Eğer üyelik dereceleri, .0, 11 kümesinden alınıyor ise R’ya klasik
(kesin) bir küme denir. Ancak üyelik derecelerinin i0, 1j aralığında olmasına izin
99
veriliyor ise R, bulanık küme olarak adlandırılır ve genellikle R ile gösterilir. ±
þ ve
R / þ için bu bulanık kümeye ilişkin üyelik fonksiyonu g ± : þ C i0, 1j biçiminde
gösterilir. Bulanık küme teorisi klasik kümelerin genel bir biçimidir (Lai ve Hwang
1992).
Tanım 5.1 Destek Kümesi
Bulanık bir kümenin sıfırdan büyük üyelik derecelerine sahip elemanlarının oluşturduğu
kümeye destek kümesi denir ve matematiksel olarak,
Destek(R) ! .±
þ, g ± K 01
(5.1)
biçiminde ifade edilir.
Tanım 5.2 -Kesim Kümesi
R bulanık kümesinin, üyelik dereceleri ’ye eşit veya büyük olan elemanlarından
oluşturulan klasik kümeye -kesim kümesi denir. R bulanık kümesi için -kesim
kümesi,
FG ! .±|g± Ž , ±
þ1
(5.2)
biçiminde tanımlanır.
Tanım 5.3 Yükseklik
R bulanık kümesinin yüksekliği, üyelik fonksiyonunda en büyük üyelik derecesine
sahip olan değerdir. Yükseklik matematiksel olarak
Yük(R) ! sup(g ±) ,
J±
þ
(5.3)
100
biçiminde ifade edilir.
Tanım 5.4 Normallik
R bulanık kümesinin yüksekliği 1 ise bu kümeye “normaldir” denir. Diğer bir ifade ile
sup(g ± ) ! 1 ise R bulanık kümesi normaldir. Verilen bir bulanık küme boş değilse
(R 3 I) tüm elemanlar yüksekliğe bölünerek normal hale getirilebilir.
Tanım 5.5 Dışbükeylik
Klasik kümeler için dışbükeylik tanımı bulanık kümeler içinde genişletilebilir ve klasik
kümelerde geçerli olan birçok özellik korunur. R bulanık kümesi için
g±# ‡ 1 7 ±6 Ž min.g±# , g±6 1
(5.4)
koşulunu sağlayan üyelik fonksiyonu dışbükeydir.
5.1.2 Bulanık sayılar
R bulanık sayısı, §’nin bir bulanık altkümesi olarak tanımlanır. Normal ve konveks bir
bulanık küme için g ± üyelik fonksiyonu, i0, 1j için sürekli ve sınırlı ise R bir
bulanık sayı olarak adlandırılır (Bector ve Chandra 2005). R bulanık sayısı, üyelik
değeri 1 olan bir reel sayı, merkez olmak üzere; sol ve sağ genişliklere sahiptir. Bu
genişlikler bulanık sayının bulanıklığını temsil eder ve böylece bulanık sayı simetrik
veya asimetrik hale gelir. Eğer genişlikler sıfıra eşitse sayının bulanıklığı yoktur ve bu
durumda sayı bir reel sayıdır. Bulanık sayıların özel türü olan üçgensel ve yamuksal
bulanık sayılar uygulamada sıklıkla kullanılmaktadır.
101
Tanım 5.6 Üçgensel Bulanık Sayı
ÔF merkez, !F sol genişlik, F sağ genişlik olmak üzere R üçgensel bulanık sayısı
R ! ÔF , !F , F biçiminde tanımlanır. Şekil 5.1 ile gösterilen üçgensel bulanık sayının
üyelik fonksiyonu,
M
K
17
>N ‚O
{N
N
! g ± ! 1 7
s
N
L
K
J
0
O‚>
,
,
,
ÔF 7 !F S ± N ÔF
ÔF S ± N ÔF ‡ F
± Ž ÔF ‡ F pŠ ± N ÔF 7 !F
4
(5.5)
biçimindedir. g ÔF ! 1 olacak biçimde ÔF değerine üçgensel bulanık sayının
merkezi denir.
R üçgensel bulanık sayısı için -kesim kümesi,
FG ! åFP , FQ ç ! iÔF 7 !F 1 7 , ÔF ‡ F 1 7 j
(5.6)
olarak ifade edilir (Kaufmann ve Gupta 1991).
g ± 1
ÔF 7 !F
ÔF
ÔF ‡ F
Şekil 5.1 Üçgensel bulanık sayı
102
±
F ! !F ! F olduğunda bir üçgensel bulanık sayı simetrik üçgensel bulanık sayı olarak
adlandırılır. Bu durumda R ! ÔF , F simetrik üçgensel bulanık sayısının üyelik
fonksiyonu ve -kesim kümesi,
! g ± ! #
17
|>N ‚O|
0
,
ƒN
ÔF 7 F S ± S ÔF ‡ F
, ± K ÔF ‡ F pŠ ± N ÔF 7 F
FG ! åFP , FQ ç ! iÔF 7 F 1 7 , ÔF ‡ F 1 7 j
4
(5.7)
(5.8)
olarak tanımlanır.
Tanım 5.7 Yamuksal Bulanık Sayı
Yamuksal bulanık sayı dört parametre ile belirlenir. ÔF¹ , ÔF¹¹ merkezleri, !F sol genişliği
ve F sağ genişliği göstermek üzere R yamuksal bulanık sayısı, R ! ÔF¹ , ÔF¹¹ , !F , F biçiminde tanımlanır. Şekil 5.2’de gösterilen yamuksal bulanık sayının üyelik
fonksiyonu ve -kesim kümesi,
! g± !
0
M
R
K
K 1 7 >N ‚O
{N
1
L
K
RR
K
O‚>N
1
7
J
sN
, ± N ÔF¹ 7 !F pŠ ± Ž ÔF¹¹ ‡ F
,
ÔF¹ 7 !F S ± N ÔF¹
,
ÔF¹¹ S ± N ÔF¹¹ ‡ F
,
ÔF¹ S ± N ÔF¹¹
FG ! åFP , FQ ç ! iÔF¹ 7 !F 1 7 , ÔF¹¹ ‡ F 1 7 j
olarak gösterilir (Kaufmann ve Gupta 1991).
103
4
(5.9)
(5.10)
Üçgensel bulanık sayılar, yamuksal bulanık sayıların özel bir halidir. Şekil 5.2’den de
anlaşılacağı üzere ÔF¹ ve ÔF¹¹ değerlerinin birbirine eşit olduğu durumlarda yamuksal
bulanık sayı, üçgensel bulanık sayı haline dönüşmektedir.
g ± 1
ÔF¹ 7 !F
ÔF¹
ÔF¹¹
ÔF¹¹ ‡ F
±
Şekil 5.2 Yamuksal bulanık sayı
5.1.3 Ağırlıklı bulanık aritmetik
Bulanık regresyon çözümlemesinde fazla veri çok sayıda aritmetik işlem gerektirir ve
bu durumda klasik bulanık aritmetik kullanıldığı zaman genişlikler, gerçekçi olmayan
bir büyük sayı haline gelebilir. Klasik bulanık aritmetikteki bu sakıncaları ortadan
kaldırmak üzere ağırlıklı bulanık aritmetik Chang (2001) tarafından önerilmiştir.
Özel bir değerleme yönteminin kullanımına dayanan ağırlıklı bulanık aritmetik, bulanık
küme işlem sonuçlarını, kesin reel sayılara dönüştürmek üzere durulaştırma
(defuzzification) yaklaşımından yararlanır. Kesin sayı işlem sonuçları, bulanık aritmetik
işlemlerinin ortalama değeri şeklinde yorumlanabilir. Bunun aksine bulanık aritmetiğin
klasik tanımlaması, bulanık aritmetik işlemlerde muhtemel tüm değerleri bir bulanık
küme şeklinde tasarlar (Chang 2001).
104
Ağırlıklı bulanık aritmetik temelindeki düşünce esasında Yager (1981) tarafından
önerilmiştir. Buna göre, FG ! .±|g± Ž , ±
üzere R bulanık kümesi,
þ1, R’nın -kesim kümesini göstermek
#
%(R) ! *- SqŠ!ŠÔŠFG +
(5.11)
ile durulaştırılır. Burada eğer R normal değil ise maksimum üyelik derecesine göre
ölçeklendirilerek normal hale getirilebilir. Yager ve Filev (1999), çalışmalarını ilgili
olasılık dağılımı aracılığıyla (Yager ve Filev 1998) bir bulanık altkümenin
dönüştürülmesi üzerine dayandırarak bu formülasyonu,
* Tsa|{|>|(N
U ) ¯
%(R) ! V
Õ
Õ
*V ¯
(5.12)
biçiminde genişletmişlerdir. Bu kesimde, ağırlıklı bulanık aritmetik tanımına (Chang
2001) göre asimetrik (simetrik) üçgensel bulanık sayılar ile bulanık aritmetik işlemler
için formüller üretilecektir.
ÔF merkez, !F sol genişlik, F sağ genişlik olmak üzere R asimetrik üçgensel bulanık
sayısı R ! ÔF , !F , F biçiminde tanımlansın. Diğer bir asimetrik üçgensel bulanık
sayıda TG ! Ô) , !) , ) biçiminde gösterilsin. üyelik derecesinde R ve TG ’nin
kesimleri,
FG ! åFP , FQ ç ! iÔF 7 !F 1 7 , ÔF ‡ F 1 7 j
)G ! å)P , )Q ç ! iÔ) 7 !) 1 7 , Ô) ‡ ) 1 7 j
biçiminde tanımlanır.
105
(5.13)
(5.14)
Tanım 5.8 Ağırlıklı Bulanık Toplama
Ağırlıklı bulanık aritmetik tanımına göre, R ve TG ’nın ağırlıklı bulanık toplamı,
R ‡ TG ! „
Õ
Æ*D(NP WP ) ¯*D(NQ WQ ) ¯Ç
*D ¯
(5.15)
biçimindedir. Burada payda,
* + ! *- + ! Æ6 6 Ç ! 6
#
#
#
-
#
(5.16)
ile hesaplanabilir. FP , FQ , )P ve )Q değerleri (5.15) eşitliğinde yerine konulursa
*(FP ‡ )P ) + ! *- .iÔF 7 !F 1 7 j ‡ iÔ) 7 !) 1 7 j1 +
#
! *- iÔF ‡ Ô) 7 1 7 !F ‡ !) j +
#
! 6 ÔF ‡ Ô) 7 Ü !F ‡ !) #
#
(5.17a)
*(FQ ‡ )Q ) + ! *- .iÔF ‡ F 1 7 j ‡ iÔ) ‡ ) 1 7 j1 +
#
! *- iÔF ‡ Ô) ‡ 1 7 F ‡ ) j +
#
#
#
! ÔF ‡ Ô) ‡ F ‡ ) 6
Ü
(5.17b)
elde edilir. (5.17a) ve (5.17b) eşitliklerinin toplamından
#
R ‡ TG ! ÔF ‡ Ô) ‡ iF ‡ ) 7 !F ‡ !) j
Ü
olarak bulunur.
106
(5.18)
R ve TG bulanık sayısı simetrik üçgensel bir bulanık sayı ise F ! !F ! F ve ) ! !) !
) olacağından toplam,
R ‡ TG ! ÔF ‡ Ô)
(5.19)
biçiminde elde edilir.
Tanım 5.9 Ağırlıklı Bulanık Çıkarma
R ve TG iki üçgensel bulanık sayı olmak üzere ağılıklı bulanık çıkarma,
#
R 7 TG ! ÔF 7 Ô) ‡ Ü iF 7 ) 7 !F 7 !) j
R 7 TG ! ÔF 7 Ô) ,
simetrik R ve TG için
(5.20)
(5.21)
biçiminde belirlenir.
Tanım 5.10 Ağırlıklı Bulanık Çarpma
R ve TG iki üçgensel bulanık sayı olmak üzere ağılıklı bulanık çarpma,
#
R · TG ! ÔF Ô) ‡ iÔ) F ‡ ÔF ) 7 Ô) !F ‡ ÔF !) j
‡
#
#6
Ü
!F !) ‡ F ) #
R · TG ! ÔF Ô) ‡ Ü F ) ,
simetrik R ve TG için
(5.22)
(5.23)
biçiminde belirlenir.
Tanım 5.11 Ağırlıklı Bulanık Bölme
R ve TG iki üçgensel bulanık sayı olmak üzere ağırlıklı bulanık bölme ise benzer olarak,
107
# > ‚{ #‚
# > s #‚
R/TG ! *- >N‚{N #‚ + ‡ *- >NsN #‚ +
W
W
W
(5.24)
W
eşitliğinden elde edilir.
(5.18) – (5.24) eşitliklerinde tüm bulanık sayılar, kesin (crisp) hale geldiği zaman
ağırlıklı bulanık aritmetik, klasik aritmetik ile aynı sonuçları vermektedir (Chang 2001).
5.1.4 Bulanık sayıların ağılıklı fonksiyonu
Bu kesimde, bulanık fonksiyonlara ilişkin bazı temel kavramların verilmesinin ardından
Apaydin ve Baser (2010) tarafından önerilen bulanık sayıların ağırlıklı fonksiyonları
üzerinde durulacaktır.
Tanım 5.12 Bulanık Fonksiyon
Her R £ § bulanık sayısı, TG £ § ile birebir eşleme oluşturacak biçimde, Şekil 5.3 ile
de gösterilmiş olan §’den §’ye tanımlı (R) bulanık fonksiyonu,
)G ! FG , J
i0, 1j
(5.25)
ile açıklanır (Kaufmann ve Gupta 1991).
§
FG
)G
Şekil 5.3 Bulanık fonksiyonlar
108
§
Tanım 5.13 Düzenli Fonksiyon
FG
åFP , FQ ç için eğer J
i0, 1j ve FG å(FP ), (FQ )ç geçerli ise , R £ §
bulanık sayısı için bir düzenli fonksiyondur (Kaufmann ve Gupta 1991). Bu tanım, ±
fonksiyonunun åFP , FQ ç aralığında monoton artan olmasını gerektirmektedir. Şekil
5.4’te, her FG için FG å(FP ), (FQ )ç olacak biçimde bir tek FG fonksiyonunun olduğu görülmektedir.
FG (FQ )
FP
0
FG
FQ
(FP )
Şekil 5.4 Düzenli fonksiyon
Tanım 5.14 Düzenli Olmayan Fonksiyon
FG
åFP , FQ ç için eğer J
i0, 1j ve FG å(FQ ), (FP )ç geçerli ise , R £ §
bulanık sayısı için düzenli olmayan fonksiyondur (Kaufmann ve Gupta 1991). Bu
tanımdan, ± fonksiyonunun åFP , FQ ç aralığında monoton azalan olduğu
anlaşılmaktadır. Şekil 5.5’te, her FG için FG tek FG fonksiyonu olduğu görülmektedir.
Bir ° £ § tanım kümesi göz önüne alınsın. J
fonksiyonu, ° üzerinde düzenli bir fonksiyon ise
109
å(FQ ), (FP )ç olacak biçimde bir
i0, 1j ve JåFP , FQ ç £ ° için FG ! åFP , FQ ç ! å(FP ), (FQ )ç
dir. °´ £ § olmak üzere J
(5.26)
i0, 1j ve JåFP , FQ ç £ °´ için fonksiyonu, °´
üzerinde düzenli olmayan bir fonksiyon ise
FG ! åFP , FQ ç ! å(FQ ), (FP )ç
(5.27)
dir (Kaufmann ve Gupta 1991).
FG (FP )
(FQ )
FP
0
FQ
FG
Şekil 5.5 Düzenli olmayan fonksiyon
Tanım 5.15 Bulanık Sayıların Ağırlıklı Fonksiyonu
R £ § bir üçgensel bulanık sayı ve düzenli veya düzenli olmayan bir fonksiyon
olmak üzere bulanık sayıların ağırlıklı fonksiyonu,
Õ
(R) ! „
Æ*D Y(NP ) ¯*D Y(NQ ) ¯Ç
*D ¯
biçiminde tanımlanır (Apaydin ve Baser 2010).
110
(5.28)
FG ! åFP , FQ ç olmak üzere; R ! ÔF , !F , F üçgensel bulanık sayısının üstel
fonksiyonu, p FG göz önüne alınsın. Bu üstel fonksiyonun Taylor serisine açılımı,
p NU ! i1, 1j‡åFP , FQ ç‡1⁄2!åFP , FQ ç ‡1⁄3!åFP , FQ ç
6
‡1⁄4!åFP , FQ ç ‡ … ‡1⁄!åFP , FQ ç ‡ …
’
biçiminde yazılır. Í
%
(5.29)
i0, 1j için
(i) FP S FQ S 0 ise
p NU ! i1⁄2 p NP 7 p ‚NP ‡ p NQ ‡ p ‚NQ ,4
4 ⁄2 p NQ 7 p ‚NQ ‡ p NP ‡ p ‚NP j
1
(5.30)
(ii) FP S 0 S FQ , lFP l S lFQ l ise
p NU ! å1 ‡ (FP ⁄FQ )p NQ 7 1, p NQ ç
(5.31)
(iii) FP S 0 S FQ , lFP l Ž lFQ l ise
p NU ! Æ[2(FP 7 FQ ) ‡ FQ p NP ‡ p ‚NP ‡ FP p NP 7 p ‚NP \'2FP ,4
(iv) 0 S FP S FQ ise
4[(F ‡ F )p NP ‡ (F 7 F )p ‚NP \'2F Ç
P
Q
P
Q
P
p NU ! ip NP , p NQ j
(5.32)
(5.33)
biçiminde verilen dört durum dikkate alınsın. p FG fonksiyonunun, § için düzenli
olduğu görülmektedir. Buna göre, 0 S FP S FQ için
111
FG ! p NU ! ip NP , p NQ j
Õ • ÕD
N
N
* =
(R) ! p FG ! V
(5.34)
Õ
¯*V = •N ÕD[N ¯
6 *V ¯
Õ
(5.35)
olarak yazılır. Sonuç olarak, R ! ÔF , !F , F üçgensel bulanık sayısının üstel
fonksiyonu, p FG
=
(R) ! p >N \[
N {
„
{N
N ‚#
\‡[
= [N ‚sN ‚#
sN„
\] , !F , F K 0
(5.36)
biçiminde elde edilir. Bu sonuç, bir bulanık sayının fonksiyonunun ortalama değeri
olarak yorumlanabilir. Eğer R ! ÔF , F biçiminde bir simetrik üçgensel bulanık sayı
kullanılsaydı, (5.33) denkleminin özel bir hali,
=
(R) ! p >N [
*N = *N ‚6
„
ƒN
\ , F K 0
(5.37)
olarak belirlenirdi (Apaydin ve Baser 2010).
5.2 Melez Bulanık Destek Vektör Regresyonu
Mevcut bilginin belirsiz ya da bulanık olduğu bazı sistemlerin modellenmesinde,
sistemin bir bulanık yapısı mutlaka göz önüne alınmalı ve çözümlenmelidir. Bu yapılar;
parametreleri, girdi veya çıktı değişkenleri bulanık kümelerle tanımlı bir bulanık
fonksiyon ile temsil edilirler. Bulanık fonksiyonlar, Zadeh’in genişleme prensibi
yardımıyla tanımlanır (Yager 1979, Dubois ve Prade 1978, Zadeh 1975). Bu kesimde,
melez bulanık destek vektör regresyonu olarak adlandırılan yeni bir bulanık regresyon
yöntemi önerilmiştir. Ele alınan bulanık regresyon modelinde, sabit (yan) terim ve
eğitim örneklerinde girdi – çıktı değerleri, asimetrik (simetrik) üçgensel bulanık sayılar
olarak tanımlanmıştır. Melez bulanık destek vektör algoritmasına göre parametre
tahminleri, DVM’nin ve en küçük kareler prensibinin temelini oluşturan düşünceler
112
kullanılarak gerçekleştirilecektir. Önerilen yöntemin bir özelliği de oluşturulan karesel
programlama problemlerine ilişkin bulanık işlemlerde, ağırlıklı bulanık aritmetikten
faydalanılmasıdır.
þG ! [Ô(·^ , !(·^ , (·^ \, c ! 1, 2, … , ; ! 1, 2, … , + asimetrik üçgensel bulanık sayısı
U ! iþG# þG6 … þG¯ jè
için _
`§¯ bulanık girdi vektörü ve .G ! (Ô· , !· , · )
` § bulanık çıktısı göz önüne alınsın. Burada ` §¯ ile asimetrik üçgensel bulanık
sayıların + boyutlu vektörlerinin bir kümesi gösterilmektedir. Ayrıca gözlenen bulanık
girdilerden
yararlanarak
a(· ! åÔ(·Õ Ô(·„ … Ô(·b ç ,
d(· ! å(·Õ (·„ … (·b ç vektörleri oluşturulsun.
è
è
c(· ! å!(·Õ !(·„ … !(·b ç
è
ve
5.2.1 Bulanık doğrusal regresyon
U , .G ), c ! 1, … , bulanık eğitim örneklerinin bir kümesi için bulanık doğrusal
(_
regresyon modelinin tahmini,
U ¬ ‡ TG ,
.G ! ª«, _
«
§¯ , TG
`§
(5.38)
biçiminde tanımlanır. Burada « ! iá# á6 … ᯠjè kesin (crisp) regresyon katsayıları ve
TG ! Ô) , !) , ) asimetrik üçgensel bulanık sayı olarak tanımlanan sabit terimdir.
Bu durumda her bir kestirim değeri,
.G ! (Ô) ‡ ª«, a(· ¬, !) ‡ ª«, c(· ¬, ) ‡ ª«, d(· ¬)
biçiminde asimetrik üçgensel bulanık sayılar ile ifade edilir.
Önerilen melez bulanık DVR yaklaşımına göre regresyon katsayıları,
113
(5.39)
Amaç fonksiyonu:
min«
§b, ñr §€ ,)G è§
#
Î
Æ µ«µ6 ‡ ∑%B#® ‡ ®r Ç
Kısıtlar:
6
%
(5.40)
Ô· 7 Ô) 7 ª«, a(· ¬ ‡ å(· 7 ) 7 ª«, d(· ¬) 7 (!· 7 !) 7 ª«, c(· ¬)ç S ‡ ®
#
Ü
Ô) ‡ ª«, a(· ¬ 7 Ô· ‡ Ü å() ‡ ª«, d(· ¬ 7 · ) 7 ( !) ‡ ª«, c(· ¬ 7 !· )ç S ‡ ®r
#
® , ®r Ž 0, c ! 1, … , biçiminde verilen doğrusal kısıtlı karesel optimizasyon problemi ile tahmin edilir.
Burada o, fonksiyon karmaşıklığı ile -duyarsız eğitim hatası arasındaki değişimi
kontrol eden bir sabittir. Önerilen yöntemde, gerçek çıktı ve model çıktısı arasındaki
sapma ağırlıklı bulanık aritmetik kullanılarak hesaplanmaktadır.
Lagrange çarpanlarının tanımlanması ile Lagrange fonksiyonu,
#
Î
' ! µ«µ6 ‡ ∑%B#® ‡ ®r 7 ∑%B#‹ ® ‡ ‹r ®r 6
%
(5.41)
‡ ∑%B# È [Ô· 7 Ô) 7 ª«, a(· ¬ ‡ Ü å(· 7 ) 7 ª«, d(· ¬) 7 (!· 7 !) 7 ª«, c(· ¬)ç 7 7 ® \
#
‡ ∑%B# Èr [Ô) ‡ ª«, a(· ¬ 7 Ô· ‡ å() ‡ ª«, d(· ¬ 7 · ) 7 ( !) ‡ ª«, c(· ¬ 7 !· )ç 7 7 ®r \
#
Ü
biçiminde oluşturulur. Burada, È , Èr , ‹ , ‹r Ž 0, c ! 1, 2, … , Lagrange çarpanlarıdır.
(5.41) fonksiyonunun «, Ô) , !) , ) ve ®
r
ÉÊ
É«
ÉÊ
É ÔT
ÉÊ
É{W
ÉÊ
ÉsW
ÉÊ
değişkenlerine göre türevi alındığında ise
! ô e « ! ∑%B#È 7 Èr Æa(· ‡ Ü (d(· 7 c(· )Ç
#
! 0 e ∑%B#È 7 Èr ! 0
! 0 e ∑%B#È 7 Èr ! 0
! 0 e % 7 È 7 ‹
Î
r
r
(5.43)
(5.44)
! 0 e ∑%B#È 7 Èr ! 0
r
Éõ·
(5.42)
(5.45)
!0
(5.46)
114
elde edilir. (5.42) – (5.46) denklemleri, (5.41) fonksiyonunda yerine yazıldığında,
f ! a(· ‡ Ü (d(· 7 c(· ) ve × ! Ô· ‡ Ü (· 7 !· ) için
#
#
Amaç fonksiyonu:
maksÌr
Kısıtlar:
§€
7 ∑%,B#È 7 Èr (È 7 Èr )ªf , f ¬
#
ö 6
÷
7 ∑%B#È ‡ Èr ‡ ∑%B#È 7 Èr ×
(5.47)
∑%B#È 7 Èr ! 0
Î
È , Èr
Æ0, Ç
%
dual optimizasyon problemi elde edilir.
Bu aşamada; Ô) , !) , ) parametrelerinin tahmin edilmesi gerekir. Karush-Kuhn-Tucker
(KKT) koşullarından faydalanarak, ø, q ! 1, 2, … , için
Ô) ‡ Ü ) 7 !) ! ×} 7 ª«, f} ¬ 7 ,
#
Ô) ‡ Ü ) 7 !) ! ×a 7 ª«, fa ¬ ‡ ,
#
olarak belirlenir. Buna göre, È}
Lagrange katsayıları için
È}
Èar
Î
Î
[0, %\
Î
(5.48)
[0, %\
[0, %\ ve Èar
Î
[0, %\; ø, q ! 1, 2, … , olan
min.×} 7 ª«, f} ¬ 7 , ×a 7 ª«, fa ¬ ‡ 1 S Ô) ‡ ) 7 !) S
maks.×} 7 ª«, f} ¬ 7 , ×a 7 ª«, fa ¬ ‡ 1
#
Ü
(5.49)
dır. (5.49) ile elde edilen bilgi doğrultusunda Ô) , !) , ) değerlerinin seçimi için burada
en küçük kareler yaklaşımının kullanımı önerilmiştir. Bunun için ise hata kareler
toplamını minimum yapmak üzere;
115
Amaç fonksiyonu:
min>W
Kısıtlar:
§, {W g-, sW g- #
∑™B#(Ô· 7 Ô) 7 ª«, a(· ¬)
6
‡ ∑™B#(!· 7 !) 7 ª«, c(· ¬) ‡ ∑™B#(· 7 ) 7 ª«, d(· ¬)
6
Ô) ‡ ) 7 !) Ž min.×} 7 ª«, f} ¬ 7 , ×a 7 ª«, fa ¬ ‡ 1
#
6
:
(5.50)
Ü
Ô) ‡ ) 7 !) S maks.×} 7 ª«, f} ¬ 7 , ×a 7 ª«, fa ¬ ‡ 1
Ü
#
!) Ž 0, ) Ž 0, Ô)
§
karesel programlama problemi çözülür.
5.2.2 Bulanık doğrusal olmayan regresyon
Girdi ve çıktı değişkenleri arasında doğrusal olmayan bir ilişki mevcut olduğunda
doğrusal olmayan DVR algoritması uygulanılabilir. Literatürde bulanık doğrusal
olmayan regresyon üzerine yapılmış olan çalışmalar oldukça kısıtlıdır (Buckley ve
Feuring 2000, Buckley vd. 1999, Celmins 1991). Mevcut çalışmalarda, modeldeki girdi
ve çıktı değişkenlerinden birinin veya her ikisinin birden bulanık olarak ele alındığı
görülmektedir.
Çalışmanın bu aşamasında, bir önceki kesimde önerilen bulanık doğrusal DVR
çözümlemesi, doğrusal olmayan regresyon modelleri için geliştirilecektir. Bunu
gerçekleştirmek üzere de Kesim 3.5.2’de sunulan, kesin veriler ile doğrusal olmayan
U bulanık girdi örüntülerinin, Φ: Å Ò Ó
doğrusal olmayan regresyon fonksiyonu, _
regresyon için klasik destek vektör makinesi yaklaşımından yararlanılacaktır. Buna göre
dönüşümü yardımıyla yüksek boyutlu bir Ó nitelik uzayına eşlenmesi ile tanımlanır ve
bundan sonra nitelik uzayında standart doğrusal regresyon algoritması uygulanır. Sonuç
olarak, farklı çekirdek fonksiyonlarının seçimi ile girdi uzayında doğrusal olmayan
regresyon fonksiyonlarının türleri için farklı öğrenme makineleri düzenlenebilir.
Bulanık doğrusal olmayan DVR için dual optimizasyon problemi,
116
Amaç fonksiyonu:
maksÌr
Kısıtlar:
7 6 ∑%,B#È 7 Èr (È 7 Èr ) ¦(f , f )
ö
÷
€
§
7 ∑%B#È ‡ Èr ‡ ∑%B#È 7 Èr ×
#
(5.51)
∑%B#È 7 Èr ! 0
Î
È , Èr
Æ0, %Ç
biçiminde oluşturulur. Buna göre,
« ! ∑%B#(È 7 Èr )Φ(f )
(5.52)
∑%B#(È 7 Èr ) ¦(f , a(· ) , ∑%B#(È 7 Èr ) ¦(f , c(· ) ,
G
G
. ! T ‡ h
i
∑%B#(È 7 Èr ) ¦(f , d(· )
(5.53)
elde edilir.
Bu aşamada; Ô) , !) , ) parametrelerinin tahmin edilmesi gerekir. KKT koşullarından
faydalanarak, ø, q ! 1, 2, … , için
Ô) ‡ Ü ) 7 !) ! ×} 7 ∑%B#(È 7 Èr ) ¦(f , f} ) 7 ,
#
Ô) ‡ Ü ) 7 !) ! ×a 7 ∑%B#(È 7 Èr ) ¦(f , fa ) ‡ ,
#
olarak belirlenir. Buna göre, È}
Lagrange katsayıları için
Î
[0, %\ ve Èar
117
Î
È}
Èar
Î
[0, %\
Î
[0, %\
(5.54)
[0, %\; ø, q ! 1, 2, … , olan
(×} 7 ∑%B#(È 7 Èr ) ¦(f , f} ) 7 ),
#
min ö
÷ S Ô) ‡ Ü ) 7 !) S
%
r
(×a 7 ∑B#(È 7 È ) ¦(f , fa ) ‡ )
(×} 7 ∑%B#(È 7 Èr ) ¦(f , f} ) 7 ),
maks ö
÷
(×a 7 ∑%B#(È 7 Èr ) ¦(f , fa ) ‡ )
(5.55)
dır. Ô) , !) , ) parametrelerini tahmin etmek üzere;
Amaç fonksiyonu:
min>W
Kısıtlar:
%
™
r
M∑B#(Ô· 7 Ô) 7 ∑B#(È 7 È ) ¦(f , a(· ))
K
6
%
™
r
§, {W g-, sW g- ‡ ∑B#(!· 7 !) 7 ∑B#(È 7 È ) ¦(f , c(· ))
L
K‡ ∑™ ( 7 7 ∑% (È 7 È r ) ¦(f , d ))6
)
(·
B# ·
B# J
(×} 7 ∑%B#(È 7 Èr ) ¦(f , f} ) 7 ),
÷
Ô) ‡ Ü ) 7 !) Ž min ö
(×a 7 ∑%B#(È 7 Èr ) ¦(f , fa ) ‡ )
6
l
K
k
K
j
(5.56)
#
(×} 7 ∑%B#(È 7 Èr ) ¦(f , f} ) 7 ),
Ô) ‡ Ü ) 7 !) S maks ö
÷
(×a 7 ∑%B#(È 7 Èr ) ¦(f , fa ) ‡ )
#
!) Ž 0, ) Ž 0, Ô)
§
karesel programlama problemi çözülür.
5.3 Melez Bulanık DVR’nin Diğer Bazı Bulanık Regresyon Yöntemleri ile
Karşılaştırılması
Bu kesimde, önerilen melez bulanık DVR yönteminin uygulaması dört farklı örnek
üzerinde gerçekleştirilecektir. Hao ve Chiang (2008), Hong ve Hwang (2003), Diamond
(1988), Tanaka vd. (1982)’nin çalışmalarında önerilen bulanık (destek vektör)
regresyon yöntemleri ile karşılaştırmaya da olanak vermek amacıyla bu çalışmalarda
kullanılan veri setleri tekrar ele alınmıştır.
118
Eğitim verilerine göre her bir yönteme ilişkin regresyon modelinde katsayı tahminleri
belirlendikten sonra modeller, hata kareler ortalaması ölçütüne göre karşılaştırılacaktır.
Ağırlıklı bulanık aritmetik kullanılarak tahminlere ilişkin hata kareler ortalaması,
#
G ! ‘% ∑%B# [.G 7 .G \
6
(5.57)
biçiminde hesaplanır ve bulanık gözlemlerin, bulanık regresyon modeline uyumunu
değerlendirmek amacıyla kullanılır (Chang 2001).
i. Kesin girdi – bulanık çıktı durumu
Birinci örnekte, Tanaka ve Lee (1998)’nin çalışmasında bulunan ve Hao ve Chiang
(2008) tarafından bir bulanık DVR çözümlemesinde kullanılmış olan veriler ele
alınmıştır. Çizelge 5.1 ile sunulan bu veriler için melez bulanık DVR çözümlemesinin
uygulanması ile
.G ! 1.041, 1.300, 1.356 ‡ 8.375 þ
bulanık doğrusal regresyon modeli elde edilmiştir. Bu uygulamada, iteratif arama
sonucunda ! 0.15 ve o ! 1200 olarak seçilmiştir.
Çizelge 5.1 Kesin girdi – bulanık çıktı verisi
c
1
2
3
4
5
6
7
8
.G
2.25, 0.75, 0.75
2.875, 0.875, 0.875
2.5, 1.0, 1.0
4.25, 1.75, 1.75
4.0, 1.5, 1.5
5.25, 1.25, 1.25
7.5, 2.0, 2.0
8.5, 1.5, 1.5
119
þ
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
Doğrusal olmayan modeller için melez bulanık DVR yöntemi Çizelge 5.1 ile sunulan
veri setinin çözümlenmesinde de kullanılmıştır. İlk olarak, ! 0.01 ve o ! 210
seçimiyle üçüncü dereceden polinomiyal bir çekirdek fonksiyonu kullanarak bulanık
doğrusal olmayan model tahmini yapılmıştır. Daha sonra uygulama, ! 0.15, o !
20000 ve Σ ! 0.06 için Gauss çekirdek fonksiyonu için de geliştirilmiştir.
Çizelge 5.2 Kesin girdi – bulanık çıktı verisi ile çeşitli çekirdek fonksiyonları için
belirlenen G değerleri
Çekirdek Fonksiyonları
Lineer
Polinomiyal
Gauss
Melez Bulanık DVR
Hao ve Chiang (2008)’ın Yöntemi
0.7437
0.7500
0.4235
0.4854
0.2927
0.4199
Melez bulanık DVR ve Hao ve Chiang (2008)’ın yönteminden elde edilen sonuçlar
Çizelge 5.2’de verilmiştir. Çekirdek fonksiyonlarının ele alınan bütün farklı türleri için
melez bulanık DVR’nin, hata kareler ortalaması kriterine göre daha iyi bir performansa
sahip olduğu görülmüştür.
ii. Simetrik üçgensel bulanık sayılar ile tanımlı bulanık girdi – çıktı durumu
Simetrik üçgensel bulanık sayılar ile tanımlı bulanık girdi – çıktı veri durumunu
örneklendirmek üzere Hong ve Hwang (2003)’ın çalışmasından veriler göz önüne
alınmıştır. Çizelge 5.3 ile verilen veri seti için ilk olarak bulanık doğrusal regresyon
model tahmini yapılmıştır. ! 0.0001 ve o ! 100 için melez bulanık doğrusal DVR
modeli,
.G ! 75.449, 0, 0 ‡ 1.216 þ
olarak elde edilmiştir. Doğrusal model için Hong ve Hwang (2003)’ın yöntemi ile melez
bulanık DVR’den elde edilen karşılaştırma sonuçları Çizelge 5.4’de verilmiştir.
120
Bulanık doğrusal olmayan modeller için melez bulanık DVR yöntemi ile ulaşılan
sonuçları değerlendirmek amacıyla farklı çekirdek fonksiyonları göz önünde
bulundurulmuştur. Çizelge 5.5’de polinomiyal ve Gauss radyal tabanlı fonksiyonlara
göre elde edilen sonuçlar listelenmiştir.
Çizelge 5.3 Simetrik üçgensel bulanık sayılar ile tanımlı bulanık girdi – çıktı verisi
m
1
2
3
4
5
6
7
8
9
.G
þ
71.6, 0.5, 0.5
71.8, 0.5, 0.5
71.0, 0.5, 0.5
1.2, 0.5, 0.5
2.2, 1.0, 1.0
6.8, 1.0, 1.0
10.0, 1.0, 1.0
10.0, 1.0, 1.0
10.0, 1.0, 1.0
1.0, 0.5, 0.5
3.0, 0.5, 0.5
4.0, 0.5, 0.5
5.6, 0.8, 0.8
7.8, 0.8, 0.8
10.2, 0.8, 0.8
11.0, 1.0, 1.0
11.5, 1.0, 1.0
12.7, 1.0, 1.0
Çizelge 5.4 Simetrik üçgensel bulanık sayılar ile tanımlı bulanık girdi – çıktı verisi için
bulanık doğrusal regresyon modeline dayalı karşılaştırma sonuçları
TG
á
75.449, 0, 0
Melez Bulanık DVR
1.216
72.457, 0.071, 0.071
Hong ve Hwang (2003)’ın Yöntemi
0.857
G
1.372
1.875
Çizelge 5.5 Simetrik üçgensel bulanık sayılar ile tanımlı bulanık girdi – çıktı verisi için
melez bulanık doğrusal olmayan DVR sonuçları
Melez Bulanık DVR
Polinomiyal Çekirdek
Gauss Çekirdek
e
5
0.2
0.01
-
121
o
2600
7600
G
0.3676
0.3467
iii. Asimetrik üçgensel bulanık sayılar ile tanımlı bulanık girdi – çıktı durumu
Diamond (1988) çalışmasında, bulanık sayılar için tanımlı bir uzaklık ölçüsüne bağlı
olarak klasik en küçük karelerin bir bulanık genişlemesi olan bulanık en küçük kareler
regresyon çözümlemesini önermiştir. Çalışmada kullanılan, öğrenci başarı düzeyi ve
aile gelirlerinden oluşan veri seti Çizelge 5.6 ile verilmiştir. Önerilen melez bulanık
DVR yaklaşımının uygulanması ile bulanık doğrusal regresyon modeli,
.G ! 1.282, 0.151, 0.252 ‡ 0.125 þ
olarak elde edilmiştir. Bu örnekte ise ! 0.311, o ! 100 olarak belirlenmiştir. Bulanık
doğrusal regresyon modeli için Diamond (1988)’ın yöntemi ve melez bulanık DVR ile
ulaşılan sonuçlar Çizelge 5.7’de sunulmuştur.
Çizelge 5.6 Asimetrik üçgensel bulanık sayılar ile tanımlı bulanık girdi – çıktı verisi
m
1
2
3
4
5
6
7
8
.G
þG
4.0, 0.6, 0.8
3.0, 0.3, 0.3
3.5, 0.35, 035
2.0, 0.4, 0.4
3.0, 0.3, 0.45
3.5, 0.53, 0.7
2.5, 0.25, 0.38
2.5, 0.5, 0.5
21, 4.2, 2.1
15, 2.25, 2.25
15, 1.5, 2.25
9, 1.35, 1.35
12, 1.2, 1.2
18, 3.6, 1.8
6, 0.6, 1.2
12, 1.8, 2.4
Çizelge 5.7 Asimetrik üçgensel bulanık sayılar ile tanımlı bulanık girdi – çıktı verisi için
bulanık doğrusal regresyon modeline dayalı karşılaştırma sonuçları
Melez Bulanık DVR
Diamond (1988)’ın Yöntemi
TG
1.282, 0.151, 0.252
1.201, 0.180, 0.180
122
á
0.125
0.136
G
0.2937
0.2963
Çizelge 5.8 Asimetrik üçgensel bulanık sayılar ile tanımlı bulanık girdi – çıktı verisi için
melez bulanık doğrusal olmayan DVR sonuçları
Melez Bulanık DVR
Polinomiyal Çekirdek
Gauss Çekirdek
e
3
0.15
0.1
-
o
30
50
G
0.2654
0.2213
Polinomiyal ve Gauss radyal tabanlı çekirdek fonksiyonları için melez bulanık doğrusal
olmayan DVR yaklaşımına göre elde edilen sonuçlar Çizelge 5.8 ile verilmiştir.
iv. Ev değerleme modeli
Bu örnekte, melez bulanık DVR yaklaşımı bir ev değerleme modeli üzerinde
uygulanacaktır. Tanaka vd. (1982)’nin çalışmasından alınan kesin girdi – bulanık çıktı
verisi Çizelge 5.9 ile verilmiştir. Modelde þ# malzeme kalite düzeyi, þ6 birinci katın
alanı, þÍ ikinci katın alanı, þ’ oda sayısı, þÛ Japon tarzı oda sayısı ve .G evin satış
değeridir. þ# değişkeni, 1-düşük, 2-orta ve 3-yüksek kalite olacak biçimde değerler
almaktadır.
Regresyon parametre tahminlerini elde etmek üzere bulanık regresyon çözümlemesi, her
bir bağımsız değişken için standartlaştırma işleminin ardından gerçekleştirilmiştir.
Önerilen melez bulanık regresyon yönteminin uygulanması sonucunda bulanık doğrusal
regresyon modeli,
.G ! 1107.9, 40.4, 39.6 ‡ 183.758 þ# ‡ 191.859 þ6
‡89.840 þÍ 7 39.943 þ’ ‡ 5.001 þÛ
olarak elde edilmiştir. Bu uygulamada, iteratif arama sonucunda ! 20 ve o ! 9000
olarak seçilmiştir. Ayrıca, Tanaka vd. (1982)’nin çalışmasında önerilen yöntem
kullanılarak ise
123
.G ! 1104, 82, 82 ‡ 181, 0, 0 þ# ‡ 214, 37, 37 þ6
‡87, 0, 0 þÍ 7 54, 0, 0 þ’ 7 18, 0, 0 þÛ
bulanık doğrusal regresyon modeline ulaşılmıştır. Çizelge 5.10 ile hata kareler
ortalaması kriterine göre Tanaka vd. (1982)’nin yönteminden ve melez bulanık
DVR’den elde edilen karşılaştırma sonuçları verilmiştir.
Çizelge 5.9 Ev değerlerine ilişkin kesin girdi – bulanık çıktı verileri
m
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
.G
606, 55, 55
710, 5, 5
808, 40, 40
826, 15, 15
865, 75, 75
852, 45, 45
917, 70, 70
1031, 20, 20
1092, 60, 60
1203, 10, 10
1394, 35, 35
1420, 25, 25
1601, 30, 30
1632, 50, 50
1699, 65, 65
þ#
1
1
1
1
1
2
2
2
2
2
3
3
3
3
3
þ6
38.09
62.10
63.76
74.52
75.38
52.99
62.93
72.04
76.12
90.26
85.70
95.27
105.98
79.25
120.50
þÍ
36.43
26.50
44.71
38.09
41.40
26.49
26.49
33.12
43.06
42.64
31.33
27.64
27.64
66.81
32.25
þ’
5
6
7
8
7
4
5
6
7
7
6
6
6
6
6
þÛ
1
1
1
1
2
2
2
3
2
2
3
3
3
3
3
Çizelge 5.10 Ev değerleme modeli için bulanık doğrusal regresyon çözümlemesine
ilişkin karşılaştırma sonuçları
G
31.349
33.122
Melez Bulanık DVR
Tanaka vd. (1982)’nin Yöntemi
Önerilen melez bulanık DVR algoritmasının bir avantajı, girdi vektörlerinin yüksek
boyutlu bir nitelik uzayına eşlenmesi sonucunda doğrusal olmayan regresyon
fonksiyonunun elde edilebilmesidir. Daha sonra ise çekirdek fonksiyonunun farklı
124
seçimlerine göre doğrusal olmayan bulanık regresyon modeli için farklı öğrenme
makinelerinin tasarlanabilmesidir. Çizelge 5.11’de farklı çekirdek fonksiyonları ile
melez bulanık doğrusal olmayan DVR çözümlemesi sonuçları sunulmuştur.
Çizelge 5.11 Ev değerleme modeli için melez bulanık doğrusal olmayan DVR sonuçları
Melez Bulanık DVR
Polinomiyal Çekirdek
Gauss Çekirdek
e
2
25
12
-
125
o
5500
8000
G
23.804
11.917
6. SİGORTA HASAR REZERVLERİ
Hesap döneminin sonunda, sigorta şirketinin portföyünde bulunan poliçeler kapsamı
içinde meydana gelmiş birtakım hasarlar söz konusu olmakta; ancak bu hasarların
varlığı ve maliyeti konusunda sigorta şirketinin herhangi bir bilgisi bulunmamaktadır.
Primlerin ödenmesi sürecinde birçok alternatif olmasına rağmen genellikle prim ödeme
süreci hasarların ödeme sürecinden çok önce biter. Bu aşamada, sigorta şirketinin
gerçekleşmesini beklediği risklere ait hasarları ödemek için belli karşılıklar tutması ve
bunları finansal tablolarına da yansıtması gerekmektedir (Boulter ve Grubbs 2000).
Sigorta şirketlerinin, henüz ödenmemiş hasarlar ile meydana gelmiş ancak sigorta ve
reasürans şirketinin bilgisi dahilinde olmayan hasarlar için tutulması gereken karşılıklar,
şirket bilançosunun pasif bölümünde yer alır ve şirketin gideri olarak işlem görür. Bu
durumda sigorta şirketi, geçmiş yıllardaki deneyimlerine dayanarak, bir miktarı Muallak
Hasar Rezervi (Outstanding Claim Reserve) olarak belirlemektedir (Mutlu 2005).
Muallak Hasar Rezervi, sigorta şirketi tarafından dönem sonu itibariyle henüz tasfiye
edilmemiş, ancak eldeki bilgilere göre ödenmesi olası hasar miktarını, yaklaşık olarak
yansıtacak şekilde ayrılmış karşılıklardır. Sigortacılık tekniğinde muallak hasar rezervi
ile ilgili olan bir başka kavram ise "gerçekleşmiş ancak henüz bildirimi yapılmamış"
(IBNR – Incurred But Not Reported) ve "gerçekleşmiş ancak bildirimi yetersiz veya
eksik yapılmış" (IBNER – Incurred But Not Enough Reported) hasarlardır. Bu hasarlar
bir mali yıl içerisinde gerçekleşmesine karşın ihbarı yapılmamış veya eksik yapılmış
olan hasarlardır.
Hasar rezervlerinin gerçeğe yakın bir biçimde belirlenebilmesi sigorta şirketinin
finansal istikrarı için çok önemlidir. Buna göre, hasar rezervlerinin ayrılması sürecinde
sigortanın istatistiksel yapısından doğan öncelikler,
•
İflas riskinin en aza indirgenmesi
•
Yükümlülükleri karşılayacak fonun tespiti
126
•
Ayrılan fonun hasarların gerçekleşme beklentisindeki sapma nedeni ile yetersiz
kalması durumunda farklı kaynakların hazır edilmesi
biçiminde sıralanabilir (Yaman 2005).
Tüm dünyadaki aktüerler, hasar rezervlerinin güvenilir ve doğru tespiti için yöntemler
geliştirmek üzere senelerdir çalışmaktadırlar. Hasarların hesaplanmasında ve uygun
rezervin belirlenmesinde kullanılabilecek birçok yöntem üretilmiştir. Yöntemlerin
bazıları sıkça kullanılırken bazılarını sektörde nadiren görmek mümkün olmaktadır.
Yöntemlerin çeşitliliğinin aksine rezerv tespitinde değişmez bir gerçek vardır ki o da
ileri derecede matematiksel ve istatistiksel uygulamaların gerekliliğidir. England ve
Verrall (2002) çalışmalarında belirttiği gibi, aktüeryal literatürde çok ilgi çeken bu
yöntemler, son yıllarda, sadece en iyi tahminin değil aynı zamanda stokastik bakış
açısından potansiyel zarar beklentisinin de belirlenmesi konularına yoğunlaşmıştır.
Rezervlerdeki hatanın büyüklüğü iflas riskinin gerçekleşmesine kadar götürecek
sonuçlar doğuracaktır. Bu nedenle, problemi genellikle istatistiksel bakış açısıyla ele
alan aktüeryal literatürde, hasar rezervlerinin tahmini klasik bir konu halini almıştır.
Ayrılacak rezerv tahmini hesaplamaları için kullanılan yöntemler iki başlık altında
incelenebilir: ilki deterministik bakış açısını benimseyen klasik yöntemler, ikincisi ise
klasik yöntemlerden daha kapsamlı tahminler veren stokastik yöntemler olarak ele
alınabilir.
Literatürde yer alan yöntemler arasından en yaygın kullanılanı Chain Ladder yöntemidir
(Pinheiro vd. 2003). Bu durum esasında Chain Ladder yönteminin pratik bir yöntem
olmasından kaynaklanmaktadır. Fakat Boulter ve Grubbs (2000) tarafından yapılan
çalışmada da vurgulandığı gibi bu yöntem bazı sorunlara sahiptir. Belirtilen bu
sorunlardan en önemlisi; Chain Ladder yönteminde, gelişme faktörü olarak adlandırılan
bir değere göre kestirimlerin sadece kendisine en yakın periyottaki hasar tutarına bağlı
olmasıdır. Benjamin ve Eagles (1986) ise Chain Ladder yönteminin bir gelişimi olan ve
en küçük kareler regresyonunun kullanımına dayanan London Chain Ladder yöntemini
önermiştir.
127
Taylor (1977) tarafından önerilen geometrik ayırma yöntemi, hasar tutarlarından
enflasyon gibi dışsal etkenlerin etkisinin ayrılmasına dayanmaktadır. Bu yöntemle ilk
önce, geçmiş periyotlara ilişkin hasar tutarlarına, dışsal faktörlerin etkisi tahmin edilir.
Daha sonra, gelecek periyotlara ilişkin hasar tutarlarının kestirimi bir trend modeli
yardımıyla gerçekleştirilir.
Hasar rezervlerinin kestiriminde istatistiksel çözümlemelere dayalı birçok yöntem
geliştirilmiş olsa da uygulamada ortaya çıkan ve belirsizliği artıran faktörlerin varlığı,
istatistiksel yöntemlerin güvenilirliğinde dikkate değer kayıplara neden olmaktadır. Bu
nedenle, birçok aktüeryal ve finansal problemin doğasında var olan belirsizlik
durumunda; uygun ve güvenilir veriler elde olmadığı zaman daha gerçeğe yakın
sonuçlar elde etmek için bulanık küme teorisi etkili bir araç haline gelmektedir. Bundan
dolayı, Shapiro (2004)’nun sigortada bulanık mantık uygulamalarını incelediği
çalışmasında da belirtildiği üzere; bulanık mantık, risk sınıflandırma, sigortalama ve
yükümlülüklerin kestirimi gibi birçok sigorta problemine uygulanmaktadır. Sigorta
araştırmalarında bulanık küme teorisi uygulamalarına temel teşkil edecek bazı
çalışmalar; Ostaszewski (1993), Derrig ve Ostaszewski (1998), Yakoubov ve Haberman
(1998), Andrés ve Terceño (2003) tarafından yapılmıştır.
IBNR rezervlerinin hesaplanmasında bulanık küme teorisi ve bulanık regresyon
çözümlemesini ilk olarak Andrés ve Terceño (2003) kullanmıştır. Önerilen yaklaşımda,
Tanaka (1987) tarafından geliştirilen bulanık regresyon çözümlemesi, London Chain
Ladder yöntemi ile birleştirilmiştir. Andrés (2007) tarafından önerilen yaklaşımda ise
hasar rezerv hesaplamalarında geometrik ayırma yöntemi, Ishibuchi ve Nii (2001)
tarafından önerilen bulanık regresyon çözümlemesi ile geliştirilmiştir.
Bu bölümde, sigorta şirketinin tutması gereken hasar rezervinin kestiriminde, Taylor
(1977) tarafından geliştirilen geometrik ayırma yönteminin genişlemesi olarak
değerlendirilebilecek bir yaklaşım önerilmiştir. Bu yaklaşım, melez bulanık DVR
çözümlemesinin kullanımına dayanmaktadır. Böylece, hasar tutarları üçgeninden
sağlanan kısıtlı bilgiden daha etkili bir biçimde faydalanılması hedeflenmektedir.
128
6.1 Geometrik Ayırma Yöntemi
Hasar rezerv hesabı için Çizelge 6.1 ile verilen ve periyot izlenmesi açısından ayrıntılı
bilgi içeren hasar tutarları üçgeninden yararlanılır. Hasar tutarları üçgeninin kullanımı
ve buna göre ilk tahmin yönteminin geliştirilmesi Verbeek (1972)’in makalesine
dayanmaktadır.
Çizelge 6.1 ile verilen hasar tutarları üçgeninde 0, , c. (c ! 0, 1, … , ) periyotta (yılda)
meydana gelmiş hasarlara ilişkin , ( ! 0, 1, … , ) gelişme süreci sonunda belirlenmiş
hasar tutarını ifade etmektedir (Hossack vd. 1999). c. (c ! 0, 1, … , ) gerçekleşme
periyodu için çizelgenin üst üçgeni, sigorta şirketinin önceki yıllarda ödenen hasar
tutarlarını; alt üçgeni (boş kalan kısmı) ise gelecekte ( ! 7 c ‡ 1, 7 c ‡ 2, … , )
ödenmek üzere kestirilmesi gereken hasar tutarlarını verir.
Çizelge 6.1 Hasar tutarları üçgeni
Gerçekleşme Yılı
0
1
c
71
Gelişme Süreci (yıl)
0
1
0-,0-,#
0#,0#,#
0,0,#
0%‚#,- 0%‚#,#
0%,-
…
…
…
…
0-,
0#,
0,
…
…
…
71
0-,%‚#
0#,%‚#
0-,%
Aktüeryal literatürde, muallak hasar rezervi belirleme yöntemleri arasındaki farklılık,
verinin nasıl sunulduğundan değil de gelişme süreci içerisinde bilinmeyen hasar
tutarlarının kestiriminin nasıl yapılacağından kaynaklanmaktadır (Andrés 2006).
Ayırma yönteminde hasar tutarları, gelişme yıllarına göre belirli bir indeks ile
orantılıdır. Bu indeks, özellikle yüksek enflasyon gibi dışsal etkenlerin etkisini hasar
tutarlarına yansıtır. Burada, dışsal etkenler ile poliçe yıllarına göre risk grubunda işin
129
kapsamının değişmesi gibi etkenler kastedilmemektedir. Buna göre, veri üçgeni, ve
parametreleri ile Çizelge 6.2’de gösterildiği gibi modellenebilir (Taylor 1977). parametresi, enflasyon gibi dışsal etkenlere bağlı bir indeks; ise . gelişme yılında
kesinlik kazanan hasar tutarı biçiminde yorumlanabilir. Dolayısıyla, burada ve katsayılarının tahmin edilmesi gerekmektedir. Bunun için, Aritmetik Ayırma
Yönteminde ∑ ! 1; Geometrik Ayırma Yönteminde ise ∏ ! 1 varsayımı yapılır
(Goovaerts vd. 1990). Daha sonra parametreler regresyon çözümlemesi gibi bir
yöntemle tahmin edilir.
Çizelge 6.2 Ortalama hasar tutarları üçgeni
Gerçekleşme Yılı
0
1
c
71
Gelişme Süreci (yıl)
0
1
- # #
- #
# 6
- # #
- %‚# # %‚#
- %
…
…
…
…
#
…
…
…
71
%‚# %‚# % %
%‚# %
d , gerçekleşme yıllarına (c ! 0, 1, … , ) göre hasar sayılarını göstermek üzere hasar
tutarları üçgeninden faydalanarak ortalama hasar tutarları,
, !
o·,^
(6.1)
t·
ile hesaplanır.
Geometrik ayırma yöntemine göre , , ve parametrelerinin çarpımı ile belirlenir
ve buna göre model,
, ! (6.2)
130
biçiminde verilir (Taylor 1977). p, hata terimini göstermek üzere; eşitlik
(6.2)’nin, , K 0 için logaritması alındığında,
ln , ! ln ‡ ln ‡ p, , c ‡ S (6.3)
doğrusal modeline ulaşılır. Bu doğrusal model matris notasyonu ile
q ! Xr ‡ s
(6.4)
biçiminde gösterilir. Burada,
r ! iln - , … , ln % , ln - , … , ln % jè
q ! åln -,- , … , ln -,% , ln #,- , … , ln #,%‚# , … , ln %,- ç
s ! åp-,- , … , p-,% , p#,- , … , p#,%‚# , … , p%,- ç
è
è
(6.5)
(6.6)
(6.7)
dır. Ayrıca,  birim matrisi ve 0, tüm elemanları sıfırlardan oluşan bir matrisi göstermek
üzere; ‡ 1 ‡ 2⁄2 ì 2 ‡ 2 boyutlu tasarım matrisi,

v %#,%#
%,%
u
u
þ!u
%‚#,%‚#
u
u
#,#
t
0%,#
0%‚#,
0#,%
0%,#
0%‚#,
0#,%
%#,%#
y
%,%
x
x
%‚#,%‚# x
x
x
#,#
w
(6.8)
biçiminde oluşturulur. Goovaerts vd. (1990)’nin çalışmasında da belirtildiği üzere; (6.3)
ile verilen doğrusal modele klasik regresyon yönteminin uygulanması, çözüm tek
olmayacağından dolayı bazı problemlere yol açar. Ancak yine aynı çalışmada, bu
problemin, þ tasarım matrisinin ilk sütununun ve r vektörünün ilk elemanının
çıkarılarak þ ve r’nın yeniden düzenlenmesiyle aşılabileceği vurgulanmıştır.
131
6.2 Sigorta Hasar Rezervlerinin Kestirimi için Önerilen Algoritma
Bu kesimde, sigorta şirketinin tutması gereken hasar rezerv tutarının belirlenmesinde
Taylor (1977) tarafından geliştirilen geometrik ayırma yöntemine ilişkin algoritmada
melez bulanık DVR yönteminin kullanımı önerilmiştir. Önerilen yaklaşım beş adımdan
oluşmaktadır:
Adım 1. Veri üçgeninde mevcut hasar tutarları kullanılarak, (6.1) eşitliği yardımıyla
ortalama hasar tutarları üçgeni oluşturulur.
Adım 2. , değerlerinin logaritması hesaplanılır ve (6.3) ile verilen doğrusal regresyon
modelinde ln ̂ ve ln regresyon katsayıları, en küçük kareler yöntemi ile tahmin
edilir.
Adım 3. Regresyon Katsayılarının Bulanıklaştırılması
ln ̂ ve ln regresyon katsayılarının bulanıklaştırılması, istatistiksel güven aralığı
tanımı kullanılarak gerçekleştirilebilir (Buckley 2006). (6.3) modelindeki regresyon
parametreleri için güven aralığının oluşturulabilmesi amacıyla hataların birbirinden
bağımsız ve normal dağılıma uygun olduğu varsayımı yapılır. Buna göre,
˜™ ŝ ^ ‚˜™ s^
| }~ |[
{
^
ve
9 ·^ ‚˜™ ·^
˜™ 
| }~ €9
{
·^
nin dağılımı, 7 2 serbestlik derecesi ile q dağılımıdır (Ryan 1997). Dolayısıyla, ln ve ln regresyon parametreleri için 1 7 100% güven aralıkları sırasıyla
V [ln ̂ 7 q%‚6,ƒ⁄6 „,˜™ ŝ ^ S ln S ln ̂ ‡ q%‚6,ƒ⁄6 „,˜™ ŝ ^ \ ! 1 7 
V [ln 7 q%‚6,ƒ⁄6 „,˜™ 9·^ S ln S ln ‡ q%‚6,ƒ⁄6 „, ˜™ 9·^ \ ! 1 7 
132
(6.9a)
(6.9b)
olarak elde edilir. (6.9a) ve (6.9b)’de
1 7 : Güven düzeyi
7 2: Serbestlik derecesi
q%‚6,ƒ⁄6: q dağılımı tablo değeri
„,˜™ ŝ ^ : ln ̂ için standart hata
„, ˜™ 9·^ : ln için standart hata
dır. Bu bilginin kullanımıyla ln ve ln için sırasıyla ln ̃ ve ln üçgensel
bulanık sayıları oluşturulur. Böylece veri seti içerisinde barındırılan değişkenlik ölçüsü
(standart sapma), üçgensel bulanık sayılar aracılığıyla hasar rezervlerinin kestirimine
yansıtılmış olur. ln ̃ ve ln bulanıklaştırılmış regresyon katsayıları, ln ̃ !
[Ԙ™ ŝ^ , !˜™ ŝ ^ , ˜™ ŝ ^ \ ve ln ! [Ԙ™ 9·^ , !˜™ 9·^ , ˜™ 9·^ \ biçiminde üçgensel bulanık
sayılardır. Burada, Ԙ™ ŝ ^ ve Ԙ™ 9·^ merkez; !˜™ ŝ ^ , !˜™ 9·^ , ˜™ ŝ ^ , ˜™ 9·^ ise aynı
zamanda hata payı (margin of error) olarak da değerlendirilebilecek, bulanık sayılara
ilişkin genişliklerdir. Eşitlik (6.9a) ve (6.9b)’ye göre ln ̃ ve ln bulanıklaştırılmış
regresyon katsayılarının genişliklerini belirleyen hata payı sırasıyla,
!˜™ ŝ ^ ! ˜™ ŝ ^ ! q%‚6,ƒ⁄6 · „,˜™ ŝ ^
(6.10a)
!˜™ 9·^ ! ˜™ 9·^ ! q%‚6,ƒ⁄6 „, ˜™ 9·^
(6.10b)
biçiminde elde edilir.
Adım 4. Dışsal Etkenlerin Etkisinin Bulanık Trend Modeli ile Çözümlenmesi
Gelişme süreci içerisinde bilinmeyen hasar tutarlarının belirlenmesi amacıyla c ‡ !
‡ 1, ‡ 2, … , 2 periyotları için ln değerlerinin kestiriminin yapılması
gerekmektedir. Bunu gerçekleştirmek üzere; ln bulanık sayıları ile c ‡ S için
bulanık doğrusal trend denklemi,
133
ln ! R ‡ TG c ‡ , c ‡ S (6.11)
biçiminde oluşturulur. Önerilen yaklaşıma göre burada, R ve TG parametreleri, melez
bulanık DVR çözümlemesi ile tahmin edilir. Dolayısıyla, her bir kestirim değeri,
ln ! [Ԙ™ 9·^ , !˜™ 9·^ , ˜™ 9·^ \
! ÔF , !F , F ‡ Ô) , !) , ) c ‡ (6.12)
biçiminde üçgensel bulanık sayılar ile açıklanır.
Adım 5. Gelecek Hasar Tutarlarının Kestirimi
Bu aşamada, Çizelge 6.1’in, bilinmeyen hasar tutarlarından oluşan alt üçgenindeki
öğelerin kestirimi yapılır. İlk olarak, ! 7 c ‡ 1, 7 c ‡ 2, … , gelişme sürecinde c.
gerçekleşme yılı (c ! 1, 2, … , ) için ln , değerleri,
ln , ! [Ԙ™ ,·,^ , !˜™ ,·,^ , ˜™ ,·,^ \ ! ln ̃ ‡ ln ! [Ԙ™ ŝ ^ , !˜™ ŝ ^ , ˜™ ŝ ^ \ ‡ [Ԙ™ 9·^ , !˜™ 9·^ , ˜™ 9·^ \
(6.13)
biçiminde hesaplanır. Daha sonra, , değeri,
, ! p ˜™ ,·,^
(6.14)
ile elde edilir. Bunun için ise burada, Kesim 5.1.4’de verilen bulanık sayıların ağırlıklı
fonksiyonunun kullanımı önerilmektedir. Bu yaklaşımın sonucu olarak, her bir
gerçekleşme periyodu için gelecek hasar tutarları, bir kesin değer olarak elde edilmiş
olur. Böylece, esasında durulaştırma işlemi, eşitlik (5.36)’da olduğu gibi
134
, ! p
>}~ †9
·,^
4
=
}~ †
9
·,^ {
„
{}~
9
†
9 ‚#
}~ †
·,^
·,^
6‡h
=
[}~ †
9
i
·,^ ‚s
9 ‚#
}~ †
·,^
„
s}~
9
†
·,^
(6.15)
biçiminde gerçekleştirilir. Daha sonra, c ! 1, 2, … , ve Ž 7 c ‡ 1 için 0 , hasar
tutarları hesaplanır. Dolayısıyla burada, 0 , ! , d kesin sayıdır. Son olarak, c.
gerçekleşme periyoduna göre; bir kesin sayı olan toplam hasar rezerv miktarı,
& ! ∑%B%‚# 0 , , c ! 1, 2, … , (6.16)
biçiminde belirlenir.
6.3 Melez Bulanık DVR ile Sigorta Hasar Rezervlerinin Kestirimi
Sigorta hasar rezervi kestiriminde melez bulanık DVR yaklaşımını, Andrés (2007)
tarafından önerilen yöntem ile karşılaştırmaya da olanak vermek amacıyla; Andrés
(2007)’in çalışmasında kullanılan veriler bu kesimde tekrar ele alınmıştır. Hasar
tutarlarına ilişkin veri üçgeni Çizelge 6.3’de verilmiştir. Bir önceki kesimde önerilen
algoritma kullanılarak uygulama adım adım sunulacaktır.
Çizelge 6.3 Dört yıllık gelişme süreciyle hasar tutarları üçgeni
Gelişme Süreci (yıl)
Gerçekleşme Yılı
0
1
2
3
4
0
18040.00
8938.00 10455.00 11100.75
1
17894.40
8640.00 12326.40 10521.60
2
18857.00 11971.60
3
22154.40 11475.40
181
4
22572.00
165
9930.20
3198.00
Hasar Sayısı
d
205
192
173
Çizelge 6.3’de verilen hasar tutarları, ilgili yılda meydana gelen hasar sayıları ile
oranlanmasıyla, gerçekleşme yılı ve gelişme süreçlerine göre her bir ortalama hasar
135
tutarı Çizelge 6.4’de olduğu gibi elde edilir. Daha sonra, ortalama hasar tutarlarının
logaritması alınarak (ln , ), Çizelge 6.5 oluşturulur.
Çizelge 6.4 Uygulamaya ilişkin ortalama hasar tutarları (, ) üçgeni
Gelişme Süreci (yıl)
Gerçekleşme Yılı
0
1
2
3
4
0
88.00
43.60
51.00
54.15
15.60
1
93.20
45.00
64.20
54.80
2
109.00
69.20
57.40
3
122.40
63.40
4
136.80
Çizelge 6.5 ln , değerlerinden oluşan veri üçgeni
Gelişme Süreci (yıl)
Gerçekleşme Yılı
0
1
2
3
4
0
4.477
3.775
3.932
3.992
2.747
1
4.535
3.807
4.162
4.004
2
4.691
4.237
4.050
3
4.807
4.149
4
4.919
Geometrik ayırma yöntemine göre
ln , ! ln ‡ ln ‡ p, , c ‡ S 4
doğrusal regresyon modelinde, ln ve ln parametreleri en küçük kareler yöntemi
yardımıyla tahmin edilebilir. Burada, p, hata terimidir. Bu doğrusal model, matris
notasyonu ile q ! Xr ‡ s biçiminde gösterilir. Çizelge 6.5 ile sunulan değerler
kullanılarak çıktı değişkenine ilişkin gözlem vektörü,
q ! i4.477 3.775 … 2.747 4.535 … 4.004 … 4.919jè
136
biçiminde oluşturulur. Regresyon parametre vektörü ise
r ! iln # , ln 6 , ln Í , ln ’ , ln - , ln # , ln 6 , ln Í , ln ’ jè
dır. Son olarak, X tasarım matrisi,
0
v1
u0
u
0
u
u0
u0
u1
X ! u0
u0
u0
u1
u0
u0
u1
t0
0
0
1
0
0
0
0
1
0
0
0
1
0
0
0
0
0
0
1
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
1
0
0
1
0
0
0
0
0
0
0
0
1
0
0
0
1
0
0
1
0
1
0
0
0
0y
0x
x
0
x
1x
0x
0x
0x
1x
0x
0x
1x
0x
1x
1w
biçiminde belirlenir.
Çizelge 6.6 ln ’nin en küçük kareler tahmini ve bulanıklaştırılmış katsayılar
Katsayı Tahmini
Standart Hata
%95 Güven Aralığı
Hata Payı
Bulanıklaştırılmış Katsayı
c‡ ˆ‰
70.746
0.055
c‡ ˆŠ
70.760
0.061
c‡ ˆ‹
70.892
0.071
c‡ ˆŒ
72.133
0.094
i70.880, 70.612j i70.910, 70.610j i71.066, 70.717j i72.363, 71.902j
0.134
70.746, 0.134
0.150
70.760, 0.150
0.175
70.892, 0.175
0.230
72.133, 0.230
En küçük kareler yöntemine göre ln ( ! 0, 1, 2, 3, 4) ve ln (c ‡ ! 0, 1, 2, 3, 4)
parametrelerinin tahmini ve çeşitli istatistikler Çizelge 6.6 ve Çizelge 6.7 ile
sunulmuştur. Regresyon parametreleri için %95 güven düzeyinde aralık tahminlerini
kullanarak oluşturulan simetrik üçgensel bulanık sayılar da yine bu çizelgelerde
137
verilmiştir. Bu bulanıklaştırılmış katsayılarda merkez değerlerinin, parametrelerin en
küçük kareler tahminleri; genişliklerin ise her bir güven aralığı için belirlenen hata
payından elde edildiği kolayca görülmektedir.
Çizelge 6.7 ln ’nin en küçük kareler tahmini ve bulanıklaştırılmış katsayılar
c‡ ô
Katsayı Tahmini
%95 Güven Aralığı
Hata Payı
Bulanıklaştırılmış
Katsayı
c‡ Š
c‡ ‹
c‡ Œ
4.477
4.528
4.645
4.899
4.880
i4.288, 4.667j
i4.378, 4.678j
i4.509, 4.781j
i4.769, 5.029j
i4.750, 5.010j
4.477, 0.190
4.528, 0.150
4.645, 0.136
4.899, 0.130
4.880, 0.130
0.078
Standart Hata
c‡ ‰
0.190
0.061
0.150
0.056
0.136
0.053
0.130
0.053
0.130
Bu aşamada, c ‡ ! 0, 1, 2, 3, 4 periyotları için Çizelge 6.7’deki bulanık katsayılar
kullanılarak; c ‡ ! 5, 6, 7, 8 için dışsal etkenlerin etkisinin (ln ) kestirilmesi
gerekmektedir. Bunu gerçekleştirmek üzere, bulanık doğrusal trend denklemi,
ln ! R ‡ TG c ‡ ! ÔF , !F , F ‡ Ô) , !) , ) c ‡ ,
c‡ S4
biçiminde oluşturulur. Burada, R ve TG parametreleri, melez bulanık DVR çözümlemesi
ile tahmin edilir. ! 0.001 ve o ! 10 girdiler için melez bulanık DVR modeli,
ln ! 4.4768, 0.1486, 0.1460 ‡ 0.1006 c ‡ biçiminde elde edilir. Buradan, c ‡ ! 5, 6, 7, 8 için dışsal etkenlerin etkisinin (ln )
kestirimi, ln Û , ln Ü , ln Ý , ln Þ kolaylıkla hesaplanır.
Uygulamanın bu aşamasında, c ! 1, 2, 3, 4 gerçekleşme periyodu için ! 4 7 c ‡
1, 4 7 c ‡ 2, 4 7 c ‡ 3, 4 7 c ‡ 4 gelişme yıllarına bağlı hasar tutarlarının kestirimi
138
yapılır. İlk olarak, Çizelge 6.8 ile verilen, her biri üçgensel bulanık sayı olan ln ,
değerleri elde edilir. (6.15) eşitliğinde gösterilen ve bir durulaştırma aşaması olarak
bulanık sayıların ağırlıklı fonksiyon tanımının kullanımı ile , değerleri Çizelge 6.9’da
olduğu gibi hesaplanır. Son olarak, muallak hasar tutarları ve rezerv miktarı Çizelge
6.10’da gösterildiği biçimiyle belirlenir.
Çizelge 6.8 Hasar tutarlarına ilişkin kestirimler, ln ,
Gerçekleşme
Yılı
Gelişme Süreci (yıl)
1
2
3
1
4
2.847, 0.379, 0.376
4.088, 0.323, 0.321 2.948, 0.379, 0.376
2
4.220, 0.299, 0.296 4.189, 0.323, 0.321 3.049, 0.379, 0.376
3
4.234, 0.283, 0.280 4.320, 0.299, 0.296 4.289, 0.323, 0.321 3.149, 0.379, 0.376
4
Çizelge 6.9 Hasar tutarlarına ilişkin kestirimler, ,
Gelişme Süreci (yıl)
Gerçekleşme Yılı
1
2
3
1
17.440
2
3
4
4
69.417
Hasar Sayısı
d
192
60.125
19.286
173
68.495
66.490
21.328
181
75.746
73.529
23.585
165
Çizelge 6.10 Uygulamaya ilişkin muallak hasar tutarı
Gerçekleşme Yılı
1 (2001)
2 (2002)
3 (2003)
4 (2004)
Toplam
Muallak Hasar Rezervi
3348.42
10401.67 ‡ 3336.46 ! 13738.13
12397.64 ‡ 12034.74 ‡ 3860.29 ! 28292.67
11453.75 ‡ 12498.15 ‡ 12132.31 ‡ 3891.59 ! 39975.80
Ž‹. ôŠ
139
7. SONUÇ VE TARTIŞMA
Destek vektör makineleri (DVM) yöntemi, fonksiyon tahmini ve sınıflandırma
problemlerinin çözümü için önerilmiş olan bir istatistiksel öğrenme algoritmasıdır. Sinir
ağları, bulanık modeller ve sinir-bulanık ortak sistemleri gibi geleneksel öğrenme ve
sistem modelleme yöntemleriyle karşılaştırıldığında, DVM yüksek genelleme başarımı,
eniyileme kapasitesi ve yüksek boyutlu az sayıda veri üzerinde dahi çalışabilme gibi
özelliklere sahiptir.
Sistem modellemelerinde belirsizliğin artmasına izin vermek, karmaşıklığı azaltırken;
güvenilirliği arttırmaktadır. En uygun davranış tarzı her bir modelleme problemi için
optimum düzeyde belirsizliğe izin veren yöntemler geliştirmektir. Bulanık sistem
modelleme, belirsizlik içeren doğrusal veya özellikle doğrusal olmayan sistemlerin
davranışını tanımlamak üzere yararlanılan önemli araçlardan biridir. Çözümleme,
öngörü ve denetim gibi alanlarda farklı amaçlarla kullanılabilen bu yaklaşımların
dayanıklılık ve şeffaflık gibi özellikleri başlıca yararları arasındadır.
Bu çalışmada, doğrusal veya doğrusal olmayan bulanık regresyon modelleri için melez
bulanık destek vektör regresyon çözümlemesi olarak adlandırılan yeni bir yaklaşım
önerilmiştir. Bu yaklaşıma göre bulanık regresyon modelinde, her bir girdi bulanık
olarak tanımlanabileceği gibi birer kesin (crisp) değişken olarak da modelde yer
alabilirler. Önerilen yöntemin temel özelliği, melez bulanık destek vektör regresyon
algoritmasında, asimetrik (simetrik) üçgensel bulanık sayılar biçiminde tanımlanmış
girdi ve çıktılar arasındaki mevcut işlemlerin ağırlıklı bulanık aritmetik kullanılarak
gerçekleştirilmesidir. Aynı zamanda bir durulaştırma yöntemi olan ağırlıklı bulanık
aritmetiğin DVM regresyon algoritması ile bütünleştirilmesi, VC teorisine dayalı klasik
destek vektör regresyon yönteminin tüm avantajlarının korunmasını sağlamaktadır.
Böylece henüz gözlenmemiş veriler için iyi genelleme yeteneğine sahip ve sistemin
bulanık yapısının çözümlenmesinde de kullanışlı bir yöntem geliştirilmiştir.
Çalışmanın üçüncü bölümünde, sigorta toplam hasar miktarının kestiriminde, en küçük
kareler
regresyonu
gibi
klasik
yöntemler
140
yerine
destek
vektör
regresyon
çözümlemesinin kullanımının önemi üzerinde durulmuştur. Uygulamadan elde edilen
sonuçlara göre, DVM ile tahmin edilen doğrusal regresyon modelinde aykırı değerlerin
modele olan etkisinin sınırlandırıldığı görülmektedir. Ayrıca, çalışmada farklı çekirdek
fonksiyonlarına göre doğrusal olmayan destek vektör regresyon çözümlemesine ilişkin
bulgular da sunulmuştur. Buna göre, daha küçük hata kereler ortalamasına sahip model
tahminlerine ulaşılmıştır.
Dördüncü bölümde, otomobil maddi zarar sigortalama sürecinde Bulanık Regresyon
Fonksiyonları (BRF) yaklaşımından yararlanılmıştır. Risk sınıflandırma ve hasar tutarı
kestirimi aşamalarıyla birlikte BRF yönteminin kullanımı, problemin niteliği göz önüne
alındığında önemli faydalar sağlamıştır. Bulanık c-ortalama kümeleme algoritması
sonucunda elde edilen üyelik değerleri, lokal bulanık regresyon fonksiyonlarının
kestirim performansını artırmak amacıyla kullanılmıştır. Dağılımdan bağımsız, deneysel
bir yaklaşım olan DVM’den, her bir kümeye ilişkin regresyon modellerinde katsayı
tahmininde faydalanılmıştır.
Bu yöntem sayesinde
bulanıklıktan kaynaklanan
belirsizliğinde değerlendirilmesiyle; hasar riskini etkileyen her bir faktörün etkisini
doğru
ölçen,
birbirleri
ile
ilişkili veya
çelişen faktörlerin
birlikte
etkileri
değerlendirebilen bir model geliştirilmiştir.
Beşinci bölümde, melez bulanık destek vektör regresyon yöntemi, Hao ve Chiang
(2008), Hong ve Hwang (2003), Diamond (1988), Tanaka vd. (1982) tarafından yapılan
çalışmalarda
önerilen
bulanık
(destek
vektör)
regresyon
yöntemleri
ile
karşılaştırılmıştır. Uygulamalardan elde edilen bulgular da değerlendirildiğinde önemli
sonuçlar aşağıda özetlenmiştir.
•
Önerilen melez bulanık destek vektör regresyon yönteminin, karşılaştırılan diğer
bulanık regresyon yöntemlerine göre daha küçük hata kareler ortalamasına sahip
olduğu görülmüştür.
•
Literatürde yer alan bulanık destek vektör regresyon çözümlemelerinde ele
alınan modellerde, girdi ve çıktı değişkenlerinin aldığı değerler simetrik
üçgensel bulanık sayılara indirgenmiştir. Asimetrik üçgensel bulanık sayılar için
141
mevcut algoritmalar kullanışlı değildir. Bu eksiklik, bu çalışmada önerilen
yaklaşımda yoktur.
•
Literatürde mevcut diğer yöntemlerde rastlanan, bir optimizasyon problemi
çözümü sonucunda tahmin edilen bulanık regresyon katsayılarının genişliğinin
negatif çıkması sorunu melez bulanık regresyon yönteminde yoktur.
•
Melez bulanık DVR algoritmasında her bir girdi-çıktı birer kesin değişken
olarak tanımlandığında, klasik destek vektör regresyonu ile aynı sonuçlar elde
edilmektedir. Dolayısıyla klasik DVM ile regresyon çözümlemesindeki tüm
özellikler önerilen yöntemde de korunmaktadır.
Çalışmanın altıncı bölümünde, sigorta hasar rezervi kestiriminde melez bulanık destek
vektör regresyon çözümlemesinin kullanımına dayalı bir algoritma önerilmiştir. Böylece
sigorta ortamında ve hesaplamalarda belirsizliği artıracak yönde gelişen iç ve dış
faktörlerin etkisini değerlendirebilen bir model geliştirilmiştir. Başta enflasyon olmak
üzere ekonomik etkiler, sigorta şirketindeki üretimin niteliği ve kapasitesi, mevzuat,
sosyal ve politik etkenler, şirketin risk kabul politikaları, poliçe ve ürün özellikleri gibi
faktörlerin etkisi ile hasar rezerv hesaplamaları karmaşık ve uzmanlık düzeyinde analiz
gerektiren bir olgu haline gelmektedir. Bu nedenle, önemli ölçüde öznel yargılar
gerektiren, bilginin yetersiz ve belirsiz olduğu problemlerin modellenmesinde bulanık
teori uygun ve elverişli bir araçtır.
Sonuç olarak; bulanık sistem modelleme çalışmaları içerisinde değerlendirildiğinde,
Destek Vektör Makineleri ile BRF ve önerilen Melez Bulanık DVR çözümlemesinin,
sistem çıktısı ve model çıktısı arasındaki hatayı enküçükleyebilmesi açısından iyi
sonuçlar verdiği belirlenmiştir ancak her sistem modelleme yaklaşımında genel amaç,
incelenen sistem tipine bağlı olarak değişir. BRF ve Melez Bulanık DVR
yaklaşımlarında, ele alınan sistem girdi ve çıktı türleri farklılık göstermektedir. Bu iki
yöntemin, problemin türüne göre bulanık regresyon modellerinin kestirim performansını
artırmak üzere farklı amaçlarda kullanılması uygundur.
142
KAYNAKLAR
Andrés, J.de and Terceño, A. 2003. Applications of fuzzy regression in actuarial
analysis. Journal of Risk and Insurance, 70(4), 665–699.
Andrés, J.de, 2006. Calculating insurance claim reserves with fuzzy regression. Fuzzy
Sets and Systems, 157, 3091–3108.
Andrés, J.de, 2007. Claim reserving with fuzzy regression and Taylor's geometric
separation method. Insurance: Mathematics and Economics, 40, 145–163.
Apaydin, A. and Baser, F. 2010. Hybrid fuzzy least-squares regression analysis in
claims reserving with geometric separation method. Journal of Insurance:
Mathematics and Economics, 47(2), 113–122.
Babuška, R. and Verbruggen, H. B. 1997. Constructing Fuzzy Models by Product Space
Clustering. In: Hellendoorn, H., Driankov, D. (eds.) Fuzzy Model Identification:
Selected Approaches. Springer, pp. 53–90, Berlin.
Baykal, N. ve Beyan, T. 2004. Bulanık Mantık İlke ve Temelleri. Bıçaklar Kitabevi,
Ankara.
Bector, C. R. and Chandra, S. 2005. Fuzzy Mathematical Programming and Fuzzy
Matrix Games. Springer-Verlag, Berlin, Heidelberg.
Benjamin, S. and Eagles, L. M. 1986. Reserves in Lloyd’s and the London market.
Journal of the Institute of Actuaries, 113(2), 197–257.
Bezdek, J. C. 1981. Pattern Recognition with fuzzy objective function. Plenum press,
New York.
Boser, B., Guyon, I., Vapnik, V. 1992. A training algorithm for optimal margin
classifiers, Proceedings of the Fifth Annual Workshop on Computational
Learning Theory. ACM, pp. 144–152, Pittsburgh.
Boulter, A. and Grubbs, D., 2000. Late Claims Reserves in Reinsurance. Swiss Re
Press, pp. 5–16, Zurich.
143
Bousquet, O., Boucheron, S., Lugosi, G. 2003. Introduction to statistical learning
theory, In: Advanced Lectures on Machine Learning. Bousquet, O., Luxburg, U.,
Rätsch, G. (eds), Springer, pp. 169–207, Berlin.
Buckley, J., Feuring, T., Hayashi, Y. 1999. Multivariate non-linear fuzzy regression: An
evolutionary algorithm approach. Int. J. Uncertain., Fuzziness Knowl.-Based
Syst., 7, 83–98.
Buckley, J. and Feuring, T. 2000. Linear and non-linear fuzzy regression: Evolutionary
algorithm solutions. Fuzzy Sets Syst., 112, 381–394.
Buckley, J. J. 2006. Fuzzy Probability and Statistics. Springer-Verlag, pp. 171–175,
New York.
Burges, C. J. C. 1998. A tutorial on support vector machines for pattern recognition.
Data Mining and Knowledge Discovery, 2, 121–167.
Celmins, A. 1991. A practical approach to nonlinear fuzzy regression. SIAM J. Sci.
Statist. Comput., 12(3), 521–546.
Çelikyılmaz, A. and Türkşen, I. B. 2007. Fuzzy functions with support vector machines.
Information Sciences, 177, 5163–5177.
Celikyilmaz, A. and Turksen, I. B. 2008. Enhanced Fuzzy system models with
improved fuzzy clustering algorithm. IEEE Transactions on Fuzzy Systems,
16(3), 779–794.
Celikyilmaz A. and Türksen, I. B. 2009. Modeling Uncertainty with Fuzzy Logic: With
Recent Theory and Applications. Springer-Verlag, pp. 11–119, Berlin
Heidelberg.
Chang, Y.-H.O. 2001. Hybrid fuzzy least-squares regression analysis and its reliability
measures. Fuzzy Sets and Systems, 119(2), 225–246.
Chen, R. C. and Hsieh, C. H. 2006. Web page classification based on a support vector
machine using a weighted vote schema. Expert Systems with Applications,
31(2), 427–435.
Chen, X., Li, Y., Harrison, R., Zhang, Y.Q. 2008. Type-2 fuzzy logic-based classifier
fusion for support vector machines. Applied Soft Computing, 8(3), 1222–1231.
144
Cherkassky, V. and Mulier, F. 2007. Learning From Data: Concepts, Theory, and
Methods. John Wiley & Sons, New Jersey.
Chiu, D. Y. and Chen, P. J. 2009. Dynamically exploring internal mechanism of stock
market by fuzzy-based support vector machines with high dimension input space
and genetic algorithm. Expert Systems with Applications, 36(2), 1240–1248.
Cortes, C. and Vapnik, V. 1995. Support vector networks. Machine Learning, 20, 1-25.
Derrig, R. A. and Ostaszewski, K. 1998. Fuzzy sets methodologies in Actuarial Science.
In: Practical Applications of Fuzzy Technologies. Kluwer, pp. 531–556,
Heidelberg.
Diamond, P. 1988. Fuzzy least squares. Information Sciences, 46, 141–157.
Drucker, H., Burges, C. J. C., Kaufman, L., Smola, A. Vapnik, V. 1997. Support vector
regression machines. In: Advances in Neural Information Processing Systems 9,
Mozer, M., Jordan, M. and Petsche, T. (eds), MIT Press, Cambridge, MA.
Dong, H., Yang, S., Wu, D. 2007. Intelligent prediction method for small-batch
producing quality based on fuzzy least square SVM. Systems EngineeringTheory and Practice, 27(3), 98–104.
Dubois, D. and Prade, H. 1978. Operations on fuzzy number. Int. J. Syst. Sci., 9, 613–
626.
England, P. D. and Verrall, R. J. 2002. Stochastic claims reserving in general insurance.
Institute of Actuaries, London. Web Sitesi. http://www.actuaries.org.uk/system
/files/documents/pdf/sm0201.pdf Erişim Tarihi: 30.05.2013.
Goovaerts, M. J., Kaas, R., Heerwaarden, A. E., Bauwelinckx, T. 1990. Effective
Actuarial Methods. North-Holland, pp. 243–274, Amsterdam.
Hao, P.-Y. and Chiang, J.-H. 2008. Fuzzy regression analysis by support vector learning
approach. IEEE Trans. Fuzzy Syst., 16(2), 428–441.
Hong, D. H. and Hwang, C. 2003. Support vector fuzzy regression machines. Fuzzy
Sets Syst., 138, 271–281.
Hong, D. H. and Hwang, C. 2005. Interval regression analysis using quadratic loss
support vector machine. IEEE Trans. Fuzzy Syst., 13(4), 229–237.
145
Hossack, I. B., Pollard, J. H., Zehnwirth, B. 1999. Introductory Statistics with
Applications in General Insurance. Cambridge University Press, pp. 206–241,
USA.
Ishibuchi, H. and Nii, M. 2001. Fuzzy regression using asymmetric fuzzy coefficients
and fuzzified neural networks. Fuzzy Sets and Systems, 119, 273–290.
Jayadeva Khemchandani, R. and Chandra, S. 2004. Fast and robust learning through
fuzzy linear proximal support vector machines. Neurocomputing, 61, 401–411.
Jeng, J.-T., Chuang, C.-C., Su, S.-F. 2003. Support vector interval regression networks
for interval regression analysis. Fuzzy Sets Syst., 138, 283–300.
Kaufmann, A. and Gupta, M. M. 1991. Introduction to Fuzzy Arithmetic. Van Nostrand
Reinhold, New-York.
Kecman, V. 2001. Learning and Soft Computing: Support Vector Machines, Neural
Networks, and Fuzzy Logic Models. MIT Press, Cambridge, Massachusetts.
Keerthi, S. S., Shevade, S. K., Bhattacharyya, C., Murty, K. R. K. 2001. Improvements
to platt’s SMO algorithm for SVM classifier design. Neural Computation, 13,
637–649.
Khuri, A. I. 2003. Advanced Calculus with Applications in Statistics. Wiley
Interscience, Hoboken.
Krishnapuram, R. and Keller, J. M. 1993. A possibilistic approach to clustering. IEEE
Transactions on Fuzzy Systems, 1(2), 98–110.
Lai, Y. J. and Hwang, C. L. 1992. Fuzzy Mathematical Programming. Springer –
Verlag, Germany.
Luxburg, U. and Schölkopf, B. 2011. Statistical Learning Theory: Models, Concepts,
and Results, In: Handbook of the History of Logic Vol. 10: Inductive Logic.
Gabbay, D.M. (ed), Elsevier North Holland, pp. 651–706, Amsterdam,
Netherlands.
Mangasarian, O. L. 1965. Multi-surface method of pattern separation. Operations
Research, 13, 444–452.
146
Mendelson, S. 2003. A few notes on statistical learning theory. Advanced lectures in
machine learning, Springer, pp. 1–40, Newyork.
Min, R. and Cheng, H. D. 2009. Effective image retrieval using dominant color
descriptor and fuzzy support vector machine. Pattern Recognition, 42(1), 147–
157.
Mutlu, S. 2005. Hasar Karşılıkları ve IBNR. Sigorta Araştırmaları Dergisi, 1, 61–68.
Ostaszewski, K. 1993. An Investigation into Possible Applications of Fuzzy Sets
Methods in Actuarial Science. Society of Actuaries, Schaumburg, USA.
Pinheiro, P. J. R., Andrade e Silva, J. M., Centeno, M. L. 2003. Bootstrap methodology
in claim reserving. The Journal of Risk and Insurance, 70(4), 701–714.
Rousseeuw, P., Daniels, B., Leroy, A. 1984. Applying robust regression to insurance.
Insurance: Mathematics and Economics, 3, 67–72.
Ryan, T. P. 1997. Modern Regression Methods. John Wiley & Sons, pp. 13–20, New
York.
Schölkopf, B., Smola, A. J., Williamson, R. C., Bartlett, P. L. 2000. New support vector
algorithms. Neural Computation, 12, 1207–1245.
Schölkopf, B. and Smola, A. J. 2002. Learning with Kernels. MIT Press, Cambridge,
Massachusetts.
Shapiro, A. F. 2004. Fuzzy logic in insurance. Insurance: Mathematics and Economics,
35, 399–424.
Shieh, M. D. and Yang, C. C. 2008. Classification model for product form design using
fuzzy support vector machines. Computers and Industrial Engineering, 55(1),
150–164.
Smola, A. J. and Schölkopf, B. 1998. On a Kernel-Based Method for Pattern
Recognition, Regression, Approximation, and Operator Inversion. Algorithmica,
22, 211–231.
Smola, A. J. and Schölkopf, B. 2004. A tutorial on support vector regression. Statistics
and Computing, 14, 199–222.
147
Strang, G. 1986. Introduction to Applied Mathematics. Wellesley-Cambridge Press,
Wellesley.
Tanaka, H., Uejima, S., Asai, K. 1982. Linear regression analysis with fuzzy model.
IEEE Transactions on Systems, Man and Cybernetics, 12(6), 903–907.
Tanaka H. 1987. Fuzzy data analysis by possibilistic linear models. Fuzzy Sets and
Systems, 24, 363–375.
Tanaka, H. and Lee, H. 1998. Interval regression analysis by quadratic programming
approach. IEEE Transactions on Fuzzy Syst., 6(4), 473–481.
Taylor, G. C. 1977. Separation of inflation and other effects from the distribution of
non-life insurance claim delays. Astin Bulletin, 10(1), 219–230.
Tsujinishi, D. and Abe, S. 2003. Fuzzy least squares support vector machines for
multiclass problems. Neural Networks, 16(5–6), 785–792.
Turksen, I. B. 1999. Type-1 and Type-2 fuzzy system modeling. Fuzzy Sets and
Systems 106, 11–34.
Türkşen, I. B. and Celikyilmaz, A. 2006. Comparison of fuzzy functions with fuzzy rule
base approaches. International Journal of Fuzzy Systems, 8(3), 137–149.
Türkşen, I. B. 2008. Fuzzy functions with LSE. Applied Soft Computing, 8, 1178–1188.
Türkşen, I. B. 2009. Review of fuzzy system models with an emphasis on fuzzy
functions. Transactions of the Institute of Measurement and Control, 31(1), 7–
31.
Vapnik, V. and Lerner, A. 1963. Pattern recognition using generalized portrait method.
Automation and Remote Control, 24, 774–780.
Vapnik, V. and Chervonenkis, A. 1964. On one class of perceptron. Automation and
Remote Control, 25, 821–837.
Vapnik, V. and Chervonenkis, A. 1971. On the uniform convergence of relative
frequencies of events to their probabilities. Theory of Probability and its
Applications, 16, 264–280.
148
Vapnik, V. 1982. Estimation of Dependencies Based on Empirical Data. Springer,
Berlin.
Vapnik, V. and Chervonenkis, A. 1991. The necessary and sufficient conditions for the
consistency of the method of empirical risk minimization. Pattern Recognition
and Image Analysis, 1, 284–305.
Vapnik, V. 1995. The Nature of Statistical Learning Theory. Springer, Newyork.
Vapnik, V., Golowich S., Smola, A. 1997. Support Vector Method for Function
Approximation, Regression Estimation, and Signal Processing. In: Neural
Information Processing Systems 9, Mozer, M., Jordan, M., Petsche, T. (eds.),
MIT Press, Cambridge, MA.
Vapnik, V. 1998. Statistical Learning Theory. John Wiley & Sons, Newyork.
Vapnik, V. 1999. An overview of statistical learning theory. IEEE Transactions on
Neural Networks, 10(5), 988–999.
Verbeek, H. G. 1972. An approach to the analysis of claims experience in motor
liability excess of loss reassurance. Astin Bulletin, 6, 195–202.
Wu, Q. 2009. The forecasting model based on wavelet m-support vector machine.
Expert Systems with Applications, 36(4), 7604–7610.
Wu, Q. 2010. Regression application based on fuzzy -support vector machine in
symmetric triangular fuzzy space. Expert Systems with Applications, 37, 2808–
2814.
Yager, R. R. 1979. On solving fuzzy mathematical relationships. Information and
Control, 41(1), 29–55.
Yager, R. R. 1981. A procedure for ordering fuzzy subsets of the unit interval.
Information Sciences, 24, 143–161.
Yager, R. R. and Filev, D. P. 1998. On the instantiation of possibility distributions.
Technical Report # MII-1817. Machine Intelligence Institute, Iona College. New
Rochelle.
Yager, R. R. and Filev, D. P. 1999. On ranking fuzzy numbers using valuations.
International Journal of Intelligent Systems, 14, 1249–1268.
149
Yaman, C. 2005. Hasar Karşılıkları ve Karşılık Ayırma Yöntemleri. TSRŞB I. Ulusal
Sigorta Sempozyumu Kitabı, 539–554.
Yang, C. H., Jin, L. C., Chuang, L. Y. 2006. Fuzzy support vector machines for
adaptive Morse code recognition. Medical Engineering and Physics, 28(9), 925–
931.
Yakoubov, Y. H. and Haberman, S. 1998. Review of actuarial applications of fuzzy set
theory. Actuarial Research Paper n. 105. Department of Actuarial Science and
Statistics of the City University, London.
Zadeh, L. A. 1965. Fuzzy Sets. Information and Control, 8, 338–353.
Zadeh, L.A. 1975. The concept of linguistic variable and its application to approximate
reasoning–I. Information Sciences, 8(3), 199–249.
150
ÖZGEÇMİŞ
Adı Soyadı
: Furkan BAŞER
Doğum Yeri
: Ankara
Doğum Tarihi : 27.04.1982
Medeni Hali
: Evli
Yabancı Dili
: İngilizce
Eğitim Durumu
Lise
: Batıkent Yabancı Dil Ağırlıklı Lisesi – 2000
Lisans
: Ankara Üniversitesi, Fen Fakültesi, İstatistik Bölümü – 2004
Lisans
: Anadolu Üniversitesi, İktisat Fakültesi, İktisat Bölümü – 2008
Yüksek Lisans
: Ankara Üniversitesi, Fen Bilimleri Enstitüsü, İstatistik Anabilim
Dalı – 2007
Çalıştığı Kurumlar ve Yıl
Gazi Üniversitesi, İktisadi ve İdari Bilimler Fakültesi, Uluslararası Ticaret Bölümü,
2013 – …
Gazi Üniversitesi, Ticaret ve Turizm Eğitim Fakültesi, Bilgisayar Uygulamaları
Eğitimi Bölümü, 2006 – 2013
Yayınları
Uluslararası Hakemli Dergilerde Yayınlanan Makaleler
Apaydin, A. and Baser, F. 2010. Hybrid fuzzy least-squares regression analysis in
claims reserving with geometric separation method. Journal of Insurance:
Mathematics and Economics, 47(2), 113–122.
151
Başer, F. and Apaydın, A. 2010. Calculating insurance claim reserves with hybrid fuzzy
least squares regression analysis. G. U. Journal of Science, 23(2), 163–170.
Ulusal Hakemli Dergilerde Yayınlanan Makaleler
Başer, F. ve Başçı, A. 2012. İnanç Turizmi Kapsamında Aziz Pavlus Evinin Önemi ve
Tanıtım Faaliyetlerine İlişkin Ziyaretçi Görüşlerinin Değerlendirilmesi. MKÜ
Sosyal Bilimler Enstitüsü Dergisi, 9(19), 423–443.
Kurt, G., Okan, P., Başer, F. 2010. Muhasebe Meslek Mensubu Olabilecek Öğrencilerin
Meslek Etiği Konusundaki Algılama ve Eğilimlerinin Belirlenmesi. Muhasebe
ve Vergi Uygulamaları Dergisi, 3(1), 1–20.
Apaydın, A., Başer, F., Tosunoğlu, N. 2009. Hayat Sigortalarında Bulanık Risk
Sınıflandırma. S.Ü. Fen Fak. Fen Dergisi, 34, 79–91.
Uluslararası Bilimsel Toplantılarda Sunulan ve Bildiri Kitabında Yayınlanan
Bildiriler
Tosunoğlu, N., Başer, F., Apaydın, A. 2012. An Evaluation Model for Health Insurance
Rating Based on the Fuzzy Analytic Hierarchy Process. 8th International
Symposium of Statistics, Octaber 11–13, Eskişehir, Turkey.
Başer, F., Dalkılıç, T. E., Kula, K. Ş., Apaydın, A. 2010. An Approach of Adaptive
Network Based Fuzzy Inference System to Risk Classification in Life Insurance.
International Conference on Operations Research, September 01–03, Munich,
Germany.
Başer, F. and Apaydın, A. 2008. Hybrid Fuzzy Least-Squares Regression Analysis in
Claim Reserving with Geometric Separation Method. The 12th International
Congress on Insurance: Mathematics and Economics, July 16–18, Dalian, China.
152
Başer, F. and Apaydın, A. 2007. Hybrid Fuzzy Regression Approach to Claim
Reserving. First International Conference on Soft Computing Technologies in
Economy, November 19–21, Baku, Azerbaijan.
Ulusal Bilimsel Toplantılarda Sunulan ve Bildiri Kitabında Yayınlanan Bildiriler
Başer, F. ve Apaydın, A., 2013. Toplam Hasar Miktarının Belirlenmesinde Destek
Vektör Regresyon Çözümlemesi. 1. Ulusal Sigorta ve Aktüerya Kongresi,
Haziran 6–7, Ankara.
Çınar, H. ve Başer, F. 2009. Kamu Yönetici Davranışlarının Çalışanların Motivasyonu
Üzerindeki Etkisi. 8. Ulusal Büro Yönetimi ve Sekreterlik Kongresi, Ekim 14–
16, Ankara.
Apaydın, A., Başer, F., Tosunoğlu, N. 2009. Bulanık Risk Sınıflandırma. 6. İstatistik
Kongresi, Nisan 29–Mayıs 03, Antalya.
Başer, F. ve Apaydın, A. 2008. Sigortada Bulanık Mantık. Bilimde Modern Yöntemler
Sempozyumu, Ekim 15–17, Eskişehir.
Başer, F. ve Apaydın, A. 2007. Sigorta Hasar Karşılıkları Hesaplamalarına Bulanık
Regresyon Yaklaşımı. 5. İstatistik Kongresi, Mayıs 20–24, Antalya.
Alanında Yayınlarla İlgili Etkinlikler
-
Reviewer, Journal of Insurance: Mathematics and Economics (SCI Expanded,
SSCI), 2009 - ...
-
Reviewer, Journal of Computational and Applied Mathematics (SCI Expanded,
SCI), 2011 - ...
-
Reviewer, Annals of Operations Research (SCI), 2010 - ...
-
Editor, Gazi Üniversitesi Ticaret ve Turizm Eğitim Fakültesi Dergisi, 2009 –
2010
153
Ödüller
-
Yayın Ödülü, Gazi Üniversitesi Rektörlüğü, 2011
-
Uluslararası Bilimsel Yayınları Teşvik Ödülü, TÜBİTAK - Uluslararası Bilimsel
Yayınları Teşvik Programı, 2010
-
Yurt İçi Doktora Bursu, TÜBİTAK - Bilim İnsanı Destekleme Daire Başkanlığı,
2007
Alanında Yurtiçi Derneklere Üyelik
-
Türk İstatistik Derneği (Yönetim Kurulu Üyesi: 2012 - ...)
-
İstatistikçiler Derneği (Yönetim Kurulu Üyesi: 2006 - 2008; 2008 - 2010)
-
Türk Kooperatifçilik Kurumu
154
Download