BİLİMSEL MAKALELERİN METİN İŞLEME YÖNTEMLERİ İLE

advertisement
BİLİMSEL MAKALELERİN METİN İŞLEME YÖNTEMLERİ İLE
SINIFLANDIRILMASI
Samal KALİYEVA
YÜKSEK LİSANS TEZİ
BİLGİSAYAR MÜHENDİSLİĞİ
GAZİ ÜNİVERSİTESİ
FEN BİLİMLER ENSTİTÜSÜ
TEMMUZ 2013
ANKARA
Samal KALİYEVA tarafından hazırlanan “BİLİMSEL MAKALELERİN METİN
İŞLEME YÖNTEMLERİ İLE SINIFLANDIRILMASI” adlı bu tezin Yüksek Lisans
tezi olarak uygun olduğunu onaylarım.
Doç. Dr. Hasan Şakir BİLGE
….…………………….
Tez Danışmanı, Bilgisayar Mühendisliği Anabilim Dalı
Bu çalışma, jürimiz tarafından oy birliği ile Bilgisayar Mühendisliği Anabilim
Dalında Yüksek Lisans tezi olarak kabul edilmiştir.
Doç. Dr. Hasan OĞUL
….…………………….
Bilgisayar Mühendisliği Anabilim Dalı, B.Ü.
Doç. Dr. Hasan Şakir BİLGE
….…………………….
Bilgisayar Mühendisliği Anabilim Dalı, G.Ü.
Prof. Dr. M. Ali AKCAYOL
….…………………….
Bilgisayar Mühendisliği Anabilim Dalı, G.Ü.
Tez Savunma Tarihi: 22/07/2013
Bu tez ile G.Ü. Fen Bilimleri Enstitüsü Yönetim Kurulu Yüksek Lisans derecesini
onamıştır.
Prof. Dr. Şeref SAĞIROĞLU
Fen Bilimleri Enstitüsü Müdürü
….…………………….
TEZ BİLDİRİMİ
Tez içindeki bütün bilgilerin etik davranış ve akademik kurallar çerçevesinde elde
edilerek sunulduğunu, ayrıca tez yazım kurallarına uygun olarak hazırlanan bu
çalısmada bana ait olmayan her türlü kaynağa eksiksiz atıf yapıldığını bildiririm.
Samal KALİYEVA
iv
BİLİMSEL MAKALELERİN METİN İŞLEME YÖNTEMLERİ İLE
SINIFLANDIRILMASI
(Yüksek Lisans Tezi)
Samal KALİYEVA
GAZİ ÜNİVERSİTESİ
FEN BİLİMLER ENSTİTÜSÜ
Temmuz 2013
ÖZET
Günümüzdeki teknolojik gelişmeler ile, kağıt üzerindeki metinlerin sayısal
ortamlara aktarılması kolaylaşmıştır. Bu metinlere daha kolay erişilebilmesi
için metin sınıflandırma yapılması gerekmektedir. Çok sayıdaki doğal dil
metinlerini sınıflandırmadan önce metin işleme tekniklerinin uygulanması
gereklidir. Metin işleme; dokümanlarda bulunan ham verileri sınıflandırmak
için çeşitli teknikler ile analiz etme işlemidir.
Bu
çalışmada
Türkçe
bilimsel
makalelerden
bir
veri
kütüphanesi
oluşturulmuştur ve değişik metin işleme ve sınıflandırma yöntemleri ile en
yüksek başarı elde edilmeye çalışılmıştır. Bu amaçla sıra ile metin sınıflandırma
süreçleri (ön işleme, indeksleme, öznitelik seçme, sınıflandırma ve performans
değerlendirme) uygulanmıştır. Bu çalışmada metinleri ifade etmek için
kelimeler doğrudan alınarak kelime kökleri ile birlikte karakter 2-gram ve 3gram yöntemi kullanılmıştır. Bahsettiğimiz yöntemlerden elde ettiğimiz verileri
sayısallaştırmak için vektör uzayı modelinin TF, ikili ve en yaygın olarak
kullanılan
TF-IDF
ağırlıklandırma
yöntemleri
uygulanmıştır.
Nitelikli
özniteliklerin seçilip gereksiz olanlarının atılabilmesi için bilgi kazancı ve
korelasyon tabanlı öznitelik seçme yöntemleri kullanılmıştır. En bilinen
sınıflandırma yöntemleri olan K-NN, Naive Bayes, Multinominal Naive Bayes ve
v
DVM
Weka
programının
yardımı
ile
çalışmada
önerilen
yöntemin
performansını karşılaştırmak üzere kullanılmıştır.
Ayrıca diğer bir veri kümesi (internet üzerindeki Türkçe haberlerden
oluşturulan 1150 haber) kullanılarak karşılaştırma yapılmıştır.
Sonuç olarak kelime kökleri ile elde ettiğimiz öznitelik vektörleri için en iyi
sonucu ikili ağırlıklandırma yöntemi vermiştir. Karakter 2-gram ve 3-gram
yönteminde ise TF ağırlıklandırma yöntemi en yüksek başarı göstermiştir.
Korelasyon tabanlı öznitelik seçme yöntemine göre bilgi kazancı yöntemi iyi
sonuçlar vermiştir. Öznitelikler düzeyinde birleştirme işleminin performansı
daha da arttığı ve iyi etkilediği belirlenmiştir. Tekil olarak en iyi sonucu %99,44
başarı ile “kelime kökleri+bilgi kazancı+ikili+TF+TF-IDF” öznitelik vektörü
vermiştir.
Bu çalışmada açıklanan metin işleme yöntemlerini uygulayarak önceki
çalışmadan daha başarılı sonuçlar elde edilmiştir.
Bilim Kodu
Anahtar Kelimeler
Sayfa Adedi
Tez Yöneticisi
: 902.1.014
: Metin sınıflandırma, metin sınıflandırma süreçleri,
ağırlıklandırma yöntemleri, öznitelik seçme
yöntemleri
: 82
: Doç. Dr. Hasan Şakir BİLGE
vi
CLASSIFICATION OF SCIENTIFIC MANUSCRIPTS USING TEXT
PROCESSING METHODS
(M.Sc. Thesis)
Samal KALİYEVA
GAZİ UNIVERSITY
GRADUATE SCHOOL OF NATURAL AND APPLIED SCIENCES
July 2013
ABSTRACT
Transferring of paper-based texts to digital media has become easier with
today’s technological advances. Classification of texts should be made in order
to access information more easily. Before classification, text processing
techniques must be applied many natural language texts. Text processing is the
process of analyzing with variety of techniques in order to classify raw data in
documents.
In this study, a data set of scientific articles published in Turkish was built and
it is aimed to obtain high success by applying different text processing and
classification
methods.
With
this
aim
text
classification
procedures
(preprocessing, indexing, feature selection, classification and performance
evaluation) were performed step by step. We used character 2-gram and 3-gram
methods to choose the word stem in order to express the texts used in this study.
To quantintify the data obtained from abovementioned methods, we applied TF,
binary and most commonly used TF-IDF weighting methods of the vector space
model. We used information gain and correlation based feature selection
methods in order to choose the relevant features and remove the unnecessary
ones. We used the most famous classifications methods, namely K-NN, Naive
vii
Bayes, Multinominal Naive Bayes and SVM, on the Weka software to
benchmark the performance of the proposed method.
In advance, data set was compared to an other one (1150 news published in
Turkish in Internet).
In conclusion, the best results regarding the feature vectors obtained using word
stems were obtained from the double weighting method. For the character 2gram and 3-gram methods, the best results were obtained from TF weighting
method. The information gain method returned better results compared to the
correlation based feature selection method. It yielded better performance on the
fusion at feature level. The best result (99,44%) was obtained from the word
stems+information gain+binary+TF+TF-IDF feature vector.
By applying the text processing methods explained in this study, we obtained
better results compared to the previous study.
Science Code
Key Words
Page Number
Adviser
: 902.1.014
: Text classification, text classsification procedures,
weighting methods, feature selection methods
: 82
: Assoc. Prof. Dr. Hasan Şakir BİLGE
viii
TEŞEKKÜR
Hayatım boyunca bana yardımcı olan, manevi desteklerini her zaman hissettiğim
aileme ve benim Türkiye'de okumamı sağlayan Ahmet Yesevi Üniversitesi
çalışanlarına en içten teşekkürlerimi sunuyorum.
Ayrıca bu çalışma boyunca beni teşvik eden, bana rehberlik eden ve destek olan
danışmanım Doç. Dr. Hasan Şakir BİLGE’ye teşekkürlerimi borç bilirim.
Raporun hazırlanması sırasında dil bilgisi hataları konusunda desteğini eksik etmeyen
arkadaşım Fatma SOYLU’ya teşekkür ederim.
Son olarak bu çalışma boyunca her konuda beni destekleyenlere teşekkürlerimi
sunuyorum.
ix
İÇİNDEKİLER
Sayfa
ÖZET...........................................................................................................................iv
ABSTRACT................................................................................................................vi
TEŞEKKÜR..............................................................................................................viii
İÇİNDEKİLER............................................................................................................ix
ÇİZELGELERİN LİSTESİ..........................................................................................xi
ŞEKİLLERİN LİSTESİ.............................................................................................xiii
SİMGELER VE KISALTMALAR...........................................................................xiv
1. GİRİŞ.......................................................................................................................1
2. METİN İŞLEME SÜREÇLERİ...............................................................................3
2.1. Verilerin Toplanması........................................................................................3
2.2. Ön İşleme..........................................................................................................3
2.3. İndeksleme ve AğırlıklandırmaYöntemleri......................................................5
2.4. Öznitelik Seçimi................................................................................................9
2.5. Sınıflandırma...................................................................................................24
2.6. Performans Değerlendirme.............................................................................27
3. ÇALIŞMADA KULLANILAN YÖNTEM...........................................................29
3.1. Ön İşleme........................................................................................................29
3.2. İndeksleme ve Ağırlıklandırma Yöntemleri....................................................32
3.3. Öznitelik Seçimi..............................................................................................36
3.3.1. Bilgi kazancı.........................................................................................36
3.3.2. Korelasyon tabanlı özellik seçimi (KTÖS)..........................................37
3.3.3. Öznitelik seçme yönteminin uygulanması............................................39
x
Sayfa
3.4. Sınıflandırma ve Sınıflandırıcılar....................................................................41
3.4.1. K – en yakın komşu..............................................................................42
3.4.2. Naive bayes...........................................................................................44
3.4.3. Multinominal naive bayes....................................................................46
3.4.4. Destek vektör makinesi........................................................................47
3.4.5. Sınıflandırıcıların uygulanması............................................................48
4. DENEYSEL ÇALIŞMALAR................................................................................50
4.1. Veri Kümesi Bilgileri......................................................................................51
4.2. Kelime Köklerinden Oluşan Öznitelik Vektörlerinden Elde Edilen
Sonuçlar...........................................................................................................53
4.3. N-gram’dan Oluşan Öznitelik Vektörlerinden Elde Edilen Sonuçlar.............54
4.4. Öznitelik Seçme Sonucu Oluşan Öznitelik Vektörlerinden Elde Edilen
Sonuçlar...........................................................................................................57
4.5. Öznitelikler Düzeyinde Birleştirmede Oluşan Öznitelik Vektörlerinden Elde
Edilen Sonuçlar...............................................................................................61
4.6. Sınıflandırıcı Düzeyinde Birleştirmede Oluşan Öznitelik Vektörlerinden Elde
Edilen Sonuçlar...............................................................................................65
4.7. 1150 Haberler Veri Kümesi İle Karşılaştırma................................................67
5. SONUÇ..................................................................................................................70
KAYNAKLAR...........................................................................................................74
EKLER........................................................................................................................80
EK-1 Çalışmada kullanılan Türkçe durak kelimeleri.................................................81
ÖZGEÇMİŞ................................................................................................................82
xi
ÇİZELGELERİN LİSTESİ
Çizelge
Sayfa
Çizelge 2.1. Öznitelik seçme yöntemleri....................................................................13
Çizelge 3.1. text2arff yazılımı ile elde edilen öznitelik matrisinin yapısı..................30
Çizelge 3.2. Kelime köklerinden ve karakter n-gram’lardan oluşan öznitelik
vektörlerlerinin sayıları..........................................................................36
Çizelge 3.3. Öznitelik seçme yöntemleri ile elde edilen öznitelik vektörlerinin
sayıları....................................................................................................41
Çizelge 3.4. k’nın farklı değerlerinde alınan sonuçlar................................................49
Çizelge 4.1.Bil imsel makalelerden oluşan veri kütüphanesi ve makale sayısı..........52
Çizelge 4.2. 1150 haberden oluşan veri kütüphanesi ve doküman sayısı...................52
Çizelge 4.3. Kelime köklerinden oluşan öznitelik vektörleri ( Ön işleme
aşamasından önceki hali) ....................................................................53
Çizelge 4.4. Kelime köklerinden oluşan öznitelik vektörleri (Ön işleme
aşamasından sonraki hali) ..................................................................54
Çizelge 4.5. 2-gram’dan oluşan öznitelik vektörleri (Ön işleme aşamasından
önceki hali).............................................................................................55
Çizelge 4.6. 2-gram’dan oluşan öznitelik vektörleri (Ön işleme aşamasından
sonraki hali)...........................................................................................55
Çizelge 4.7. 3-gram’dan oluşan öznitelik vektörleri (Ön işleme aşamasından
önceki hali).............................................................................................56
Çizelge 4.8. 3-gram’dan oluşan öznitelik vektörleri (Ön işleme aşamasından
sonraki hali)...........................................................................................56
Çizelge 4.9. KTÖS yöntemi ile seçilen öznitelik vektörleri (Ön işleme
aşamasından önceki hali).......................................................................57
Çizelge 4.10. KTÖS yöntemi ile seçilen öznitelik vektörleri (Ön işleme
aşamasından sonraki hali)....................................................................58
Çizelge 4.11. Bilgi kazancı yöntemi ile seçilen öznitelik vektörleri (Ön işleme
aşamasından önceki hali).....................................................................59
xii
Çizelge
Sayfa
Çizelge 4.12. Bilgi kazancı yöntemi ile seçilen öznitelik vektörleri (Ön işleme
aşamasından sonraki hali).....................................................................60
Çizelge 4.13. Öznitelik birleştirme sonucunda oluşan öznitelik vektörleri (Ön
işleme aşamasından önceki hali)...........................................................61
Çizelge 4.14. Öznitelik seçme sonucunda elde edilen öznitelik vektörleri (Ön
işleme aşamasından önceki hali)...........................................................62
Çizelge 4.15. Öznitelik birleştirme sonucunda oluşan öznitelik vektörleri (Ön
işleme aşamasından sonraki hali...........................................................62
Çizelge 4.16. Öznitelik seçme sonucunda elde edilen öznitelik vektörleri (Ön
işleme aşamasından sonraki hali).........................................................63
Çizelge 4.17. Sınıflandırıcı düzeyinde birleştirmede oluşan öznitelik vektörleri.......66
Çizelge 4.18. 1150 haberler veri kümesinde her bir öznitelik grubunun en başarılı
olduğu sonuçlar....................................................................................68
Çizelge 4.19. 1150 haberinen oluşan veri kümesinden elde edilen sonuçlar..............69
xiii
ŞEKİLLERİN LİSTESİ
Şekil
Sayfa
Şekil 2.1. Metin sınıflandırma genel süreçleri.............................................................3
Şekil 2.2. Öznitelik seçme süreçleri...........................................................................11
Şekil 2.3. Cscore’un yanlış skorları üretmesi (a, b)...................................................19
Şekil 3.1. 10 defa çapraz doğrulamanın genel yapısı.................................................32
Şekil 3.2. TFyöntemine göre elde edilen öznitelik matrisi........................................35
Şekil 3.3. Weka’da öznitelik seçme sekmesinin arayüzü..........................................40
Şekil 3.4. K-en yakın komşu yöntemi, k=3...............................................................44
Şekil 3.5. DVM yönteminin düzlemlerin koordinat düzleminde görüntülenmesi.....48
Şekil 4.1. Veri kütüphanesinin oluşturulması............................................................51
Şekil 4.2. Kelime kökleri+bilgi kazancı + ikili + TF + TF - IDF öznitelik vektörü
hata matrisi (Multinominal Naive Bayes için)...........................................64
Şekil 4.3. Kelime kökleri+bilgi kazancı + ikili + TF + TF - IDF öznitelik vektörü
hata matrisi (DVM için).............................................................................64
xiv
SİMGELER VE KISALTMALAR
Bu çalışmada kullanılmış bazı kısaltmalar, açıklamaları ile birlikte aşağıda
sunulmuştur.
Kısaltmalar
Açıklamalar
AÖS
Ayırt edici Öznitelik Seçme (Distinguishing Feature Selector)
BT
En İyi Terimler (Best Terms)
C45
Karar Ağaçları
EKKF
Entropi Tabanlı Kategori Kapsam Farkı (Entropy based Category
Coverage Difference)
IG
Bilgi Kazancı (Information Gain)
KDE
Kernel Yoğunluğu Tahmini (Kernel Density Estimation)
KNN
K-En Yakın Komşuluk (k-Nearest Neighbors)
KTÖS
Korelasyon Tabanlı Öznitelik Seçme (Correlation-Based Feature
Selection)
LVQ
Ögrenmeli Vektör Kuantalama (Learning Vector Quantization)
MI
Karşılıklı Bilgi (Mutual Information)
MLP
Çok Katmanlı Algılayıcı (Multilayer Perceptron)
PCA
Temel Bileşenler Analizi (Principal Component Analysis)
RF
Rastgele Orman (Random Forest)
SVM
Destek Vektör Makinesi (Singular Vector Machine)
SFS
Sıralı İleri Seçme (Sequential Forward Selection)
TCDC
Terim-Kategoriye Bağlı Şartlar
TF-IDF
Terim Frekansı – Ters Doküman Frekansı (Term Frequency–Inverse
Document Frequency)
TS
Terim Gücü (Term Strength)
TP
Gerçek Pozitif (True Positive)
TN
Gerçek Negatif (True Negative)
FP
Yanlış Pozitif (False Positive)
FN
Yanlış Negatif (False Negative)
1
1. GİRİŞ
Değişen ve gelişen teknolojiler ışığında, kağıt üzerindeki metinlerin sayısal ortamlara
aktarılması (online metinlere, bilimsel makalelere, e-maillere, teknik raporlara vb)
kolaylaşmıştır ve erişebilirlik büyük oranda artmıştır.
Elektronik ortamdaki bilgilerin çoğalması, toplumun bu bilgilere daha düzenli, kolay
bir şekilde ulaşmaya ve aradığı bilgiyi daha çabuk bulmaya ihtiyacı artmıştır [1].
Doküman; herhangi bir aktivitenin yöntemlerini tanıtan yada okuyanı bir iş, bir
görevle ilgili yönlendiren elektronik ortamda veya kağıt ortamındaki yazılı
metinlerdir [2]. Bilgiye daha kolay erişmek için metinlerin sınıflandırılmasına ihtiyaç
duyulmaktadır. Metin sınıflandırma kullandığımız dokümanların hangi sınıfa ait
olduğunu belirleme işlemidir. Metin sınıflandırma 1960’lı yıllardan itibaren ortaya
çıkmıştır [3] ama tam olarak gelişememiş ve 1980’lerde uygun bilgi akışının artışı
nedeniyle bir ivme kazanmıştır [4].
Metni topladıktan sonraki aşama, sınıflandırmayı kolaylaştırmak için metnin
düzenlenmesi veya baştan yapılandırılmasına karar verilmesidir. Sonsuz sayıda giren
doğal dil metinlerini sınıflandırmadan önce metin işleme tekniklerinin uygulanması
gerekmektedir. Metin işleme; dokümanlarda bulunan ham verileri sınıflandırmak için
çeşitli teknikler yardımı ile analiz etme işlemidir. Bu çalışmada çeşitli metin işleme
yöntemleri kullanılmıştır.
Metin sınıflandırma işlemi giderek artan veri uzaylarıyla çalıştığı için sınıflandırma
performansı düşmektedir [3, 5]. Bunu önlemek için metin işleme adımlarından biri
olan öznitelik seçme yöntemine ihtiyaç duyulmaktadır. Bu çalışmada metin işleme
tekniğinin önemli bir aşaması olan öznitelik seçme konusuna odaklanılmıştır.
2
Öznitelik seçme yöntemleri iki amaç içermektedir: özellik kümesinin boyutunu
azaltmak ve sınıflandırma performansını en üst seviyeye çıkartmak için veride
bulunan gürültü miktarını azaltmak amacı ile kullanılmaktadır [6, 7].
Gün geçtikçe öznitelik seçmenin kullanım alanları çoğalmaktadır. Öznitelik
seçmenin ileri seçme ve geri seçme olmak üzere iki yaklaşımı vardır. Öznitelik
seçme üç geniş yönteme ayrılmaktadır: filtreleme yöntemi, sarmal (wrapper) yöntem
ve gömülü yöntemdir.
Bu çalışma için Türkçe bilimsel makaleleri içeren bir veri kümesi oluşturulmuştur.
Çalışmanın temel amacı bu veri kümesi üzerinde çeşitli metin işleme yöntemlerini
uygulayarak en uygun metin işleme yöntemlerini belirlemektir. Oluşturduğumuz veri
kümesinin etkinliğini kontrol etmek amacıyla
Amasyalı ve arkadaşlarının
çalışmasında kullanılan [8, 9] gazetelerdeki haber sayfalarından toplanmış 1150
haber metninden oluşan veri kümesi tercih edilmiştir.
Tezin ikinci bölümünde metin işleme aşamalarında kullanılan verilerin toplanması,
ön işleme, vektöre dönüştürme ve ağırlıklandırma yöntemleri, öznitelik seçimi,
sınıflandırma ve performans değerlendirme yöntemleri incelenmiştir.
Tezin üçüncü bölümünde ikinci bölümde anlatılan yöntemlerin çalışmaya uyarlanma
şekli, literatür taraması ve öznitelik seçme, sınıflandırma yöntemleri açıklanmıştır.
Tezin dördüncü bölümünde iki farklı veri kümesi üzerinden deneysel çalışmalardan
elde edilen sonuçlar açıklanmıştır.
Tezin sonuç kısmında ise uygulamadan elde edilen sonuçlar değerlendirilmiştir.
3
2. METİN İŞLEME SÜREÇLERİ
Korde tarafından yapılan çalışmada metin sınıflandırmasının ilk aşamaları üzerinde
durulup, metin sınıflandırma süreçlerinden bahsedilmiş, zaman karmaşıklığı ve
performans gibi kriterilere göre mevcut bazı sınıflandırıcıların karşılaştırılması
yapılmıştır. Metin işleme süreci genel olarak Şekil 2.1’deki gibi çalıştırılmaktadır
[10].
Şekil 2.1. Metin sınıflandırma genel süreçleri [10].
2.1. Verilerin Toplanması
İnternet üzerinde belgelerin toplanması sınıflandırma sürecinin ilk adımıdır [10]. Bu
çalışmada internetteki farklı konuda olan bilimsel makaleler ve tez çalışmaları
toplanarak bir veri kütüphanesi oluşturulmuştur sonrasında elde edilen veri kümesine
metin işleme teknikleri ve sınıflandırma yöntemleri uygulanmıştır.
Hazırlanan veri kütüphaneleri sisteme alınmış ve ön işleme sürecinden geçirilmiştir.
Bu noktada girdi objesinin iyi temsil edilmesi önem kazanmaktadır, çünkü öğrenilen
modelin doğruluğu güçlü bir şekilde girdi objesinin nasıl temsil edildiği hususuna
bağlıdır.
2.2. Ön İşleme
Geçmişte yapılan çalışmalar sonucunda ön işleme aşaması için harcanan sürenin,
4
sınıflandırma sürecinin %50 ile %80’ini alabileceği ispatlanmış [11], bu da metin
işleme sürecinde ön işleme aşamasının önemini kanıtlamaktadır [7].
Kaliteli bir sınıflandırma yapabilmek için verileri gereksiz olan verilerden ayıklamak
gerekmektedir. Ön işleme aşaması öznitelik temsili ve metin sınıflama algoritmaları
için ham metni gerekli formata dönüştüren veri kümesinin temel basamağıdır.
Fabrio’nun çalışmasında ön işleme aşaması özellik azaltma işlemleri olarak
açıklanmaktadır ve üç genel yaklaşımı kapsamaktadır; durak kelimeleri silme,
kelimelerin ortak köklerini kullanma ve istatistiksel filtreleme [12].
Metinler arındırılmış hale geldikten sonra vektörel uzayda öznitelikler olarak temsil
edilmesi
için atomik parçalara ayrılması gerekmektedir.
Atomik parçalar
uygulamanın tipine göre ayrılmaktadır (cümle, kelime kökü, n-gram, hece v.b) ve
bunlara kısaca belirtkeçler denmektedir [13]. Bu çalışmada metinleri ifade etmek için
kelimeler doğrudan alınarak kelime kökleri [14, 15] ile birlikte karakter n-gram
yöntemi kullanılmaktadır [16]. Bu çalışmada oluşturulan veri kütüphanesi Türkçe
bilimsel makalelerden derlenmektedir. Türkçede her bir kelime kök ve eklerinden
oluşmaktadır.
Pilavcılar’ın tez çalışmasında [17] kelimelerin kök ve eklerini ayırmak için joker
isimli bir yöntem kullanılmıştır. Joker kelime, aynı söz dizimi ile başlayan ve çeşitli
ekler almış ancak yakın anlamda olan sözcükleri tek bir gösterimle grup altında
toplayan
kelimelerdir.
Joker
kelime
gövdeleme
yöntemine
benzemektedir.
Gövdeleme bir kelimeye eklenmiş olan çekim eklerinin çıkarılması ile kelimenin
gövdesinin bulunması işlemine verilen isimdir [18]. Gövdelemede çekim ve yapım
eklerinden ayrılan kelimeler, ortak bir köke indirgenir. Ancak burada köke indirgeme
şartı yoktur. Kökün yanında ek de bulunabilir. Joker kelimeler kategoriyi
belirlememize yardımcı olan anahtar kelimelerden veya sık kullanılan kelimelerden
seçilir.
N-gram, bir karakter kümesinin n adet karakter dilimidir [16].
5
N-gram’lar sıklık bilgisine ek olarak terimlerin sırası ile de ilgilenmektedir. Sadece
terim sıklıkları ile ilgilenen bir yöntem için (örneğin bag-of-words) “Orta Anadolu”
veya “Anadolu Orta” aynı şey iken n-gram için bu ikisi birbirinden farklı şeylerdir.
Kelime torbası (bag-of-words) çözümlemesi bir metin içerisinde yer alan bütün
terimlerin sıklık bilgilerinin kullanılmasını ifade etmektedir [19].
2.3. İndeksleme ve Ağırlıklandırma Yöntemleri
İnsan beyninin karmaşık kavramları anlama ve ifade etme kapasitesi yüksektir.
Bilgisayar
kelimeleri
insanların
kavradığı
gibi
kavrayamaz,
fakat
metin
dokümanlarının uygun bir biçime aktarılmasına ihtiyaç duyarlar. Dokümanlar doğal
metinler içermektedir ve sayısal bir veri olmadığı için bilgisayar tarafından
tanınamamaktadır ve herhangi bir işlem yapılamamaktadır. Bu sebepten ön işleme
aşamasından sonra yapılması gereken işlem, sınıflandırmak istediğimiz dokümanı
vektörel uzayda ifade edebilmektir.
Metin sayısallaştırma işleminde üç geleneksel model mevcuttur: vektör uzayı modeli,
olasılıksal model, çıkarım ağı modeli. Bunların arasından yaygın olarak kullanılan
model 1975 yılında Salton ve arkadaşları tarafından önerilen vektör uzayı modelidir
[20]. Sözlük bir V - boyutlu vektörel uzay tanımlar ve böyle bir alanda dokümanlar
vektörler olarak temsil edilirler. j.vektörün i.bileşeninin değeri, j.dokümanın
i.kelimesinin ağırlığına denk gelmektedir. Metin dokümanlarını temsil etmenin bu
yolu "Kelime Torbası" (bag-of-words) olarak da bilinmektedir [21].
İndeksleme
aşamasında
dokümandaki tüm
kelimelerin
öznitelik
vektörleri
bulunacaktır yani her kelimenin ağırlığı hesaplanacaktır. Vektör uzayı modelinde,
öznitelik sayılar kullanılarak ağırlık olarak temsil edilmektedir ve sorgu ile belge
arasındaki benzerlik ölçüsü hesaplanmaktadır. Ağırlıklandırma ile ilgili çeşitli
teknikler geliştirilmiştir. Boolean ağırlıklandırma, frekans ağırlıklandırma, TF-IDF
(Term Frequency – Inverse Document Frequency) ağırlıklandırma, entropi
ağırlıklandırma gibi bazı bilinen ağırlıklandırma yöntemleri vardır [22].
6
Ağırlık değerlerinin belirlenmesinde kullanılan yöntemlerin hepsi iki önemli noktaya
dayanmaktadır [23]:

Bir terim, bir dokümanın içinde ne kadar çok sayıda geçerse, o dokümanın bir
kategoriye atanmasında o kadar etkili olur [24].

Bir terim ne kadar çok farklı dokümanda bulunursa, o terimin ayırt edici özelliği
o kadar azdır.
Vektör uzayında terimleri temsil etmeden önce indeksleme olarak adlandırılan
aşamada dokümanda yer alan tüm kelimeler seçilen bir yöntem yardımı ile
frekanslarına göre sıralanacaktır. Daha sonra her kelime bir ağırlık yöntemi
tarafından ağırlıklandırılarak, öznitelik vektörü oluşturulacaktır. Her öznitelik
vektörü bir kelimeye denk gelmektedir ve vektör uzayında kullanılmaktadır.
Bu tez çalışmasında vektör uzayı modelinin TF (Term Frequency) [22], ikili [25] ve
en
yaygın
olarak
kullanılan
TF-IDF
[22]
ağırlıklandırma
yöntemleri
uygulanmaktadır.
Vektör uzayı modeli, bazı yapısal sorunları barındırmaktadır. Vektör uzayı
modelindeki sorun yaklaşımın boyutunun yüksek olmasıdır, çünkü kısa metinler için
bile V boyutlarından oluşan bir vektör kullanılmaktadır. O yüzden terimlerin
öncelikle öznitelik seçme aşamasından geçirilmesi gerekmektedir.
Yıldız ve arkadaşlarının yaptığı bir çalışmada [14] Türkçe kelimelerin gövdeleri de
öznitelik olarak alınarak ağırlıklandırmaya dayalı yeni bir öznitelik çıkarma yöntemi
geliştirilmiştir. Geliştirilen öznitelik vektör oluşturma yöntemiyle geleneksel
yöntemlerle
karşılaştırmıştır.
Kelimelerin
metinlerdeki
ağırlıklarının
yerine,
sınıflardaki ağırlıkları kullanılmıştır ve metinde geçen kelimelerin sınıf ağırlıkları
toplanıp normalize edilerek metnin yeni öznitelik vektörü oluşturulmuştur. Öznitelik
vektörü bulunurken geleneksel yaklaşımdaki her bir kelimenin, her bir metindeki
7
ağırlığı yerine (Eşitlik 2.1 ve 2.2) her bir sınıftaki ağırlığı bulunurken Eşitlik 2.3, 2.4,
ve 2.5’de verilmiş olan 3 farklı metot denenmiştir.
=
(2.1)
= log
+ 0.5 ∗ log( ⁄
)
(2.2)
= log(
+ 0.5) ∗ log( ⁄
)
(2.3)
=
= log(
(2.4)
+ 0.5) ∗ log( ⁄
Burda, D – toplam metin sayısı,
i.sınıfta geçtiği metin sayısı,
kelimenin i.sınıfa göre ağırlığı,
)
(2.5)
- kelimenin geçtiği metin sayısı,
- kelimenin
- kelimenin i.sınıftaki metinlerde geçme sayısı,
- kelimenin j.metindeki ağırlığı,
-
- kelimenin
j.metindeki geçme sayısı.
Önerilen öznitelik vektörünün, metinleri ne ölçüde temsil edebildiğinin bulunması
için beş farklı sınıflandırma algoritması uygulanmıştır. Önerilen metotta metinler çok
daha az boyutta gösterilmiş olmalarına rağmen, geleneksel yaklaşımdan daha yüksek
bir sınıflandırma başarısı alınmış ve büyük boyutlarda çalıştırılamayan karışık
algoritmalar da kolaylıkla kullanılabilmiştir. En yüksek başarı Eşitlik 2.3’te % 96.25
ile Naive Bayes yönteminden alınmıştır.
Amasyalı ve Beken tarafından önerilen yaklaşımda ise öncelikle metinlerde geçen
kelimeler anlamsal bir uzayda belirlenmiştir. Bu çalışmada ise önceki çalışmalardan
farklı olarak, öncelikle metinlerin içinde geçen kelimelerin anlamsal benzerliklerine
uygun sayısal koordinatları bulunmuş ve daha sonra metinlerin sayısal koordinatları,
içinde geçen kelimelerin koordinatları kullanılarak bulunmuştur. Metinler vektörlerle
gösterildiğinde (metin sayısı * farklı kelime sayısı) boyutlu bir
matris
oluşturmaktadır. Bu matrisin elemanları 2 farklı şekilde elde edilmiştir:
=
(2.6)
8
= log
+ 0.5 ∗ log
(2.7)
Klasik metotlardaki iki kelime frekansında en başarılı sonuç Eşitlik 2.7 ile elde
edilmişken Eşitlik 2.6’nın ortalama başarısı Eşitlik 2.7’den daha yüksektir ve daha
güvenilir sonuçlar üretmektedir. Yeni yöntemi değerlendirmek için Türkçe haberlerin
üzerinden birkaç sınıflandırıcılar kullanılarak sonuçlar elde edilmiştir. Kelime
koordinatlarının bir uygulaması olarak gerçeklenen metin sınıflandırma işleminde
klasik yollarla (Naive Bayes, Terim Frekansı) sınıflandırmaya göre daha başarılı
sonuçlar (93.25%) elde edilmiştir [9].
Yine Amasyalı ve arkadaşları bir metnin hangi özniteliklerine bakılarak karar verilir
sorusuna cevap aramışlardır. Literatürde birçok sınıflandırma problemlerinden
bahsedilmiştir ve her problem için metin temsil yöntemleri ortaya konulmuştur. Bu
çalışmada, literatürdeki birçok yöntem ve önerilen 17 adet öznitelik grupları (metin
temsil yöntemleri), çeşitli veri kümeleri ile karşılaştırılmıştır. Kelime kökleri, kelime
türleri, n-gramlar, fonksiyonel kelimeler, kelime ekleri, kavram genelleştirme
öznitelik grupları için frekans hesaplamasında kullanılmak üzere TF, TF-IDF, ikili,
log, normalize1 ve normalize2 olmak üzere altı farklı yöntem kullanılmıştır. En
başarılı metin temsili yöntemlerine bakıldığında, harf n-gram’larının başarısı göze
çarpmaktadır. N-gram’ların ağırlıklandırılmasında oldukça popüler olan TF ve TFIDF yerine ikili, Log ve N1 ağırlıklandırma yöntemlerinin daha başarılı oldukları
görülmüştür .
Liu ile Yang gerçekleştirdiği çalışmalarında TF-IDF’in kusurları ile ilgili olarak sınıf
içi karakteristikleri temsil amacıyla TF-IDF-CF adlı yeni bir parametre oluşturmuştur
ve buna sınıf frekansı denilmiştir, bu parametre bir sınıf içindeki dokümanlarda yer
alan terim frekansını hesaplamaktadır. Bu yöntemin formülü Eşitlik 2.8’e
dayanmaktadır:
= log
+ 1.0 × log
.
×
(2.8)
9
Daha sonra 1000 öznitelik seçmek için ki-kare öznitelik seçme yöntemini
kullanmışlar ve yaygın olarak kullanılan bazı sınıflandırıcılar (Naive Bayes, Bayes
Ağları, K-NN, DVM) üzerinde ayrı ayrı TF-IDF, LTC, TFC ağırlandırma yöntemini
kullanarak karşılaştırmalar gerçekleştirmişlerdir. En yaygın kullanılan TF-IDF
yönteminin düşük performansa sahip olmasının nedeni, TF-IDF yönteminin farklı
sınıflara ayırtedici yeteneği vurgulaması fakat sınıf içi temsil yeteneğini
düşürmesidir. Terim bir sınıfta ne kadar çok geçerse sınıfı temsil etme şansı o kadar
yükselmektedir, o yüzden TF-IDF-CF ağırlık yöntemi diğer yöntemlere göre tüm
sınıflandırıcılarda yüksek başarı vermiştir. En yüksek başarısı DVM ile
sınıflandırıldığında %92,8’ye ulaşılmıştır [22].
2.4. Öznitelik Seçimi
Öznitelik seçimi, tüm öznitelikler arasından en iyi öznitelikleri seçme sürecidir;
çünkü tüm öznitelikler küme inşasında faydalı değillerdir: bazı öznitelikler gereksiz
ya da ilgisiz olabilirler ve bu nedenle de öğrenme sürecine katkıda bulunamazlar.
Öznitelik seçmenin önemli hedefi, orijinal verileri temsil edebilecek küçük boyuttaki
özniteliklerin kümesini seçmektir [26].
Öznitelik seçme birçok avantaja sahiptir [26]:
• Depolama isterlerini sınırlamak ve algoritma hızını arttırmak için öznitelik
alanının boyutsallığını azaltır.
• Gereksiz, ilgisiz ve gürültü verilerini ortadan kaldırır.
• Veri analiz görevlerini doğrudan etkiler, öğrenme algoritmalarının çalışma
süresini azaltır.
• Veri kalitesini arttırır.
• Sonuç alma modelinin kesinliğini arttırır.
• Kestirim kesinliğini arttırmak amacıyla performans kazanımı sağlar.
10
Tipik öznitelik seçme süreci (Şekil 2.2’de gösterilmektedir) dört temel adımdan
oluşmaktadır [27]:
•
alt küme oluşturma.
•
alt küme değerlendirme.
•
durdurma kriteri (ölçütü).
•
sonuç geçerliliği.
Süreçte öznitelik alt kümesini ortaya çıkarmak için belli arama stratejisini çalıştırarak
alt küme oluşturma ile işe başlanır. Sonra her basamakta alt küme belirli
değerlendirme kriterine göre değerlendirilmekte ve daha önceki iyi olanlarla
kıyaslanmaktadır. Eğer daha iyi ise, o zaman önceki en iyinin yerine atanmaktadır.
Alt küme oluşturma ve değerlendirme süreci verilmiş olarak kriteri sağlayana kadar
tekrarlanmaktadır. Son olarak, önceki bilgi ve bazı test verilerle seçilmiş en iyi
özellik alt kümesinin geçerliliği denetlenmektedir.
Yukarıda bahsettiğimiz gibi öznitelik seçme önemli özniteliklerden oluşan bir alt
küme oluşturur ve daha basit ve özlü bir veri temsili oluşturmak için ilintisiz ve
gürültülü öznitelikleri çıkartır.
Şekil 2.2. Öznitelik seçme süreçleri
11
Öznitelik seçmenin üç yaklaşımı vardır [27]:
•
İleri yönde seçme: Sıfır değişkenle başlayıp daha fazla ekleme yapmak hatada
anlamlı bir düşüşe neden olmayana kadar her adımda hatayı en çok
düşürenleri birer birer eklemektir.
• Geri yönde seçme (geri eleme): Bütün değişkenlerle başlayıp ve daha fazla
çıkarım yapmak hatada anlamlı bir artışa neden olmayana kadar her adımda
hatayı en çok düşürenleri (ya da sadece çok az arttıranları) birer birer
çıkartmaktır.
• Basamaklı çift yönlü seçme (bidirectional search) olarak adlandırılan alternatif
bir yaklaşım orta bir yerden başlar ve bu noktadan dışa doğru ilerleyerek hem
ekleme hem de çıkartmayı kullanır.
Diğer bir yaklaşım ise en iyi ilk [28]: Sistem geri iz sürmeye başlamadan önce kaç
tane ardışık kazanç sağlamayan düğümle karşılaşılması gerektiğini tanımlayabilir.
Boş bir özellik kümesinden başlayarak ileri doğru ve dolu bir kümeden başlayarak
geriye doğru arayabileceği gibi (bir özellik indisi tarafından belirlenen) aradaki bir
noktadan başlayarak olası bütün tekil öznitelik ekleme ve çıkarımlarını göz önünde
bulundurarak her iki yöne doğru da arayabilir. Değerlendirilen alt kümeler verimlilik
sağlamak için önbelleğe alınır; önbellek boyutu parametrelerden biridir. En iyi ilk
yaklaşımının öznitelik arama alanının tamamını araştırmasını önlemek için, bir
durma kriteri uygulanır. Eğer arka arkaya tamamıyla açılmış beş alt sette
hâlihazırdaki en iyi alt kümeye göre bir iyileşme görülmediği durumda arama
sonlandırılmaktadır.
John ve arkadaşlarına göre makine öğrenmesinde temel iki tür özellik seçme yöntem
mevcuttur: sarmal ve filtreler [29].
Çoğu çalışmada öznitelik seçme üç genel kategoriye ayrılmaktadır [26, 30, 31, 32] :
12

Filtreleme Yöntemleri: Filtreleme yaklaşımı öznitelik seçme problemi için
uzun zamandır en popüler ve hesaplama açısından hızlı bir yaklaşım olarak
kabul edilmektedir. Filtreleme tekniklerinin hesaplaması hızlı çalışır, ama
öznitelik bağımlılıklarını göz önüne almaz. Bu yöntemler, sınıflandırmadan
nispeten bağımsız olan ayrım kriterlerine dayalı olarak ve belirli bir eşik
değerinin üzerinde değer alan öznitelikleri seçerler. Çeşitli yöntemler, Fisher
ayrımı kriterine benzer basit korelasyon katsayıları kullanırlar. Diğerleri ise
karşılıklı bilgi ya da istatistiksel testleri (t testi, F testi) kullanırlar.

Sarmal (Wrapper) Yöntemleri: Sarmal teknikleri, öznitelik bağımlılıkları
dikkate alarak, öznitelik arama altkümesi ile öğrenme modelin seçme
arasındaki etkileşimi sağlamaktadır, ancak filtrelemeye göre hesaplama
açısından
pahalıdır. Sarmal yöntemi, öznitelik alt kümelerini kestirim
güçlerine dayalı olarak skorlamak için sınıflandırıcıdan bir kara kutu olarak
faydalanırlar. DVM’ye dayanan sarmal yöntemleri makine öğrenme
konusunda kapsamlı bir biçimde çalışılmıştır. Her bir yineleme adımında,
özellikleri nesnel fonksiyondaki indirgeme miktarına dayalı olarak
sıralamaktadır. Daha sonra en alt sıradaki öznitelikleri sonuçlardan
elemektedir. Çeşitli varyantlar da geri yönlü öznitelik eleme şeması ve
doğrusal çekirdek kullanmaktadır.

Gömülü Yöntemler: Gömülü yöntemler sınıflandırıcının eğitim fazında
öznitelik seçimini entegre etmektedir; bu nedenle, bu yöntemler kullanılan
öğrenme modeli için kendine özgüdür. Mantıksal bağlaçlar tetikleme
yöntemleri bu tür embedding (gömülü) için örnek teşkil etmektedir.
Aşağıdaki tabloda öznitelik seçme kategorilerine göre ayrılan yöntemlerin listesi
verilmektedir [33]:
13
Çizelge 2.1. Öznitelik seçme yöntemleri
Öznitelik Seçme Kriterleri
Uzaklık yöntemleri
Bilgilendirme yöntemleri
Filtreleme
Öznitelik Seçme Yöntemleri
Öklid uzaklık ölçüsü, Mantaras uzaklık ölçüsü
Entropi, bilgi kazancı, kazanç oranı, normalleştirilmiş kazanç
Bağımlılık yöntemleri
Korelasyon katsayısı
Tutarlılık yöntemleri
Min-özellikler sapması
Tek değişkenli
Ki-kare, t-testi
Çok değişkenli
Korelasyon Tabanlı Özellik Seçme, Markov paket filtresi, hızlı
korelasyon tabanlı özellik seçme
Fisher ölçüsü, Odd oranı, Denetimsiz İleri Seçme, Temel
Bileşenler Analizi (PCA),Shannon entropisi, Gini endeksi,
varyanslar oranı
Sarmal (Wrapper)
Deterministik
Sıralı İleri Seçme (SFS), Sıralı Geriye Eliminasyon (SBE), Artı L
eksi R, Genişlik Arama
Rastgele
Tavlama benzetimi, genetik algoritmalar, dağıtım algoritmaların
kestirimi
K-en Yakın Komşu (K-NN), Yasallaştırılan Bayesian Sinir Ağı
(BRNN), Karınca Sömürge Optimizasyonu (ACO), regresyon
katsayıları, açgözlü özellik altküme seçme sarıcı
Karar ağaçları, ağırlıklı naive Bayes, DVM ağırlık vektörünü
Gömülü
kullanarak özellik seçme, yapay sinir ağları
Hibrid
Puanlama ölçülerine dayanan Hibrid sarmalayıcı
Sarmal (wrapper) bir sınıflandırıcıyı, değerlendirilecek her bir öznitelik alt kümesi
için eğitilmesi gerektiğinden dolayı, özellikle öznitelik sayısı yüksek olduğunda çok
zaman almaktadırlar. Bu nedenle sarmal yöntem genellikle metin sınıflandırmaya
uygun değildir [5].
Bu tez çalışmasında yukarıda belirtilen nedenlerden dolayı sarmal yöntem yerine
filtreleme yöntemi tercih edilmiştir.
Literatürde çok sayıda yaklaşım bulunmasına rağmen, metin sınıflandırma ve
öznitelik seçimi hala devam eden bir araştırma konusudur. Araştırmacılar,
sınıflandırma hassasiyetinin daha iyi bir hale getirilmesi ve işlem süresinin
kısaltılabilmesi için, en iyi ayırt edici özellik seçimi için yeni teknikler
aramaktadırlar. Diğer dillerle karşılaştırılırsa, Türkçe’de metin sınıflandırma konusu
üzerinde çok durulmamıştır. Bu bölümde ilk Türkçe metinler için oluşturulmuş
14
çalışmalar açıklanacak diğer yandan yapılan çalışmalar sonucu başarılı sonuçlar
veren öznitelik seçme yöntemlerinden bazıları ele alınacaktır.
Amasyalı ile Yıldırım’ın yaptığı çalışmada beş tane sınıftan oluşan Türkçe haber
metinlerinin sınıflandırılması amacı ile yeni bir yöntem geliştirilmiştir. Bu yöntemde
kelimelerin yerine kelime gövdeleri kullanılarak eğitim verileri için bir sözlük
oluşturulmuş sonrasında o sözlükteki kelimelerin frekansları hesaplanmıştır.
Metinleri sayısal verilere dönüştürdükten sonra bilgi kazancı ve temel bileşenler
analizi (PCA) yardımı ile boyut azaltma işlemi gerçekleştirilmiştir. Sınıflandırıcı
olarak Naive Bayes ile Yapay Sinir Ağlarından olan MLP ve LVQ kullanılmıştır.
Boyut azaltma yöntemleri performansı çok etkilememiş ama işlem zamanını
düşürdüğü görülmüştür. En yüksek performansa Naive Bayes ve LVQ yöntemlerinde
varıldığı görülmüştür [15].
Yılmaz ve arkadaşları metin içerikli dokümanların sınıflandırılmasında yeni
yaklaşımlar geliştirmişlerdir. Yaptıkları bu çalışmada 75’er dokümandan oluşan
eğitim, otomobil, sağlık, spor ve teknoloji gibi 5 sınıf içeren veri kümesi elde
edilmiştir. İlk veriler ön işleme aşamasından geçirilerek temizlenmiştir. Sonra
sözcükler ve sözcüklerin frekansları hesaplanmıştır. Öznitelik vektörlerin elde
etmede belli bir eşik değeri kullanılmıştır. Öznitelik vektörleri için sözcük frekansları
kullanılmıştır. Fakat, bütün sözcükleri kullanmak doğru sonuç vermez çünkü çok
fazla sözcük bulunmaktadır. Bu nedenle her sınıf içindeki sözcüklerin frekansları
hesaplanmıştır. Ki-kare, doküman frekansı veya mutual information ile uygun
öznitelik sözcükleri tespit edilmiştir. Bir sınıfta çok yüksek olasılığa sahip olup, diğer
sınıflarda düşük olasılığa sahip olan sözcükler tespit edilmiştir, ve böylece
istenmeyen sözcüklerden kurtulmuştur. Bu durumda durak sözcükleri zaten elenmiş
olmuştur. Bu yüzden öznitelik vektör uzayı en iyi temsil edecek olan sözcüklerden ve
hecelerden oluşmuştur. Öznitelik vektör veri tabanındaki sözcükler ve heceler,
dokümanlardaki sözcükler ve hecelerle karşılaştırılarak hangi sınıfa ait olduğu
belirlenmiştir. Oluşturulan öznitelik vektör veri tabanına sınıflandırıcı olarak Yapay
15
Sinir ağlarından Çok Katmanlı Algılayıcı metodu kullanılmıştır ve sözcük tabanlı
sistemlerde %87 ve hece tabanlı sistemlerde %93 oranında başarı elde edilmiştir [3].
Doğan ve Diri Türkçe dokümanlar için n-gram’ları kullanarak Ng-ind yöntemi
geliştirmişlerdir. Bu yöntemin başarısını kontrol etmek için 2-gram, 3-gram ve 4gram’ları kullanmışlar (Canvar’ın yöntemi) ve K-NN, Naive Bayes, DVM ve
Rastgele Orman yöntemleri ile sınıflandırmışlardır. Canvar’ın yönteminde en yüksek
başarı %91,67 olurken geliştirilen yöntemin başarısı %93,75 olmuştur [16].
Unsalan ve Ercil sınıflandırıcının işini kolaylaştıran özniteliklerin bulunması ve
başarı değerlendirmesi için öznitelik seçme yöntemini önermişlerdir. Öznitelik seçme
yöntemleri için başarı kriterini değerlendirmek için Bayes sınıflandırıcı ile K-NN
sınıflandırıcıları kullanılmıştır. Entropi ölçütü, Fisher ölçütü, şekil benzerliği ile
seçme ve PCA gibi öznitelik seçme yöntemleri ile seçilerek dört tane veri kümesi
hazırlanmıştır. Kullanılan veri setleri için iki sınıflandırıcı da iyi sonuç verirse, bu
kümenin sınıflandırıcıdan bağımsız olduğu ya da sadece bir sınıflandırıcıda iyi sonuç
gösterse sınıflandırıcıya bağımlı olduğu kanıtlanmıştır. Bu koşullara göre başarı
kriteri hesaplanmıştır. Fisher ve şekil benzerliği öznitelik seçme yöntemleri yüksek
başarı dereceleri göstermişlerdir [34].
Yang ve Pedersen bilgi kazancı, ki-kare, belge frekansı, terim gücü (TS) ve karşılıklı
bilgi (MI) dahil beş öznitelik seçme yöntemlerini karşılaştırmışlardır. Onlar
karşılaştırılıan öznitelik seçme yöntemleri içinden bilgi kazancının en etkili yöntem
olduğunu raporlamışlardır [35].
Bu makalede, Entropi Tabanlı Kategori Kapsam Farkı (EKKF) olarak adlandırılan
bir özellik seçme yöntemi sunulmuştur. Bilgi kazancı, ki-kare, belge frekansı ve
karşılıklı bilgi gibi öznitelik seçme yöntemleri, kategoriler arası bir terimi içeren
belgelerin dağılımını düşünmektedir, fakat terimin kategoriler arasındaki görülme
sıklığı göz önünde bulundurmamaktadır. Ama bu çalışmadaki önerilen EKKF
yöntemi kategorilerde yer alan terimleri içeren dokümanların dağılımına dayanırken,
16
diğer yandan da, entropisini göz önünde bulundurulmaktadır. Ayrıca EKKF yöntemi
aynı zamanda yukarıda bahsedilen bilgi kazancı, ki-kare ve karşılıklı bilgi gibi
olağan özellik seçme yöntemiyle de büyük XML belgesi derlemeleri üzerinden
karşılaştırılmıştır.
Bu makalede, belgelerin daha etkili bir tanımını sağlayacak şekilde, T terimler
listesinden bir T’ (sınıflandırma için uygun olan set) alt kümesi seçmek amacıyla
EKKF yöntemi kullanılmıştır. EKKF sadece ilgili kategoriye ait belgeleri değil fakat
aynı zamanda diğer kategorilere ait
belgelerin sayısını da göz önünde
bulundurmaktadır.
Eğer
terimi sadece tek bir kategoride görülüyorsa, entropi en düşük değeri olan 0’a
eşittir. Bu terimin sınıflandırma işinde iyi bir ayırt edici gücü olduğu kabul
edilmektedir. Bunun aksine, eğer
değilse, mesela eğer
maksimum
dokümanları temsil etme açısından iyi bir özellik
tüm kategorilerde aynı sıklıkta görülüyorsa, entropi
değerde,
yani
Emax
−
| ̅
olmaktadır.
EKKF
aşağıdaki
formül
ile
tanımlanmaktadır:
,
=
|
×
(2.9)
Bu kapsamda, özellik seçme yöntemi sayesinde, T içinden T’nin kendisinden daha iyi
temsil niteliği olan bir T' alt kümesi oluşturulmuştur.
Bütün kriterler aynı biçimde kullanılmıştır: ilk olarak, her bir kategoriden seçilecek
kelimelere ait bir n sayısı belirlenmiştir. İkinci olarak, verilen kategoriye göre,
terimler özellik seçim kriteri değerlerine göre azalan sırada sıralanmışlardır, ilk n
kelimeleri seçilmiştir. Son olarak, her bir kategori için seçilen ilk n kelimenin
birleşiminden T' endeksi derlenmiştir.
Gerçekten de, terimlerin entropisini kullanarak farklı sınıflar içindeki terimlerin
görülme sayısını göz önünde bulundurmanın sınıflandırma başarısını kayda değer
oranda arttırdığı gözlemlenmiştir [36].
17
Rogati ve Yang yaptıkları çalışmada metin sınıflandırma için yüksek performanslı
öznitelik seçme yöntemi önermiştir. Önerilen yöntem daha büyük koleksiyonlar için
ölçeklenebildiği için filtreleme yaklaşımına odaklanmıştır. Sonra en iyi performans
gösteren yöntemler arasındaki korelasyon incelenmiştir. Bazı yöntemler arasında
(örneğin MultiClass sürümü olan bilgi kazanımı ve ki-kare MAX gibi) negatif
ilişkinin çok az olduğu bulunmuştur, bunlar birleştirildiğinde
potansiyel bir
performans artışı önerilmiştir. Tüm performansları iyi gösterenlerin içinden
sınıflandırıcıdan bağımsız en iyisi olan ki-kare bileşenidir; Düşük belge frekanslı
kelimelerin kaldırılması performansı arttırmıştır. Deneysel sonuçlar belge frekansı
veya I bilgi kazanımı ile birleşen ki-kare istatistiği ve nadir kelimeleri ortadan
kaldıran bir filtreleme yönteminin kullanılmasını önermişlerdir [37].
Uysal ve Günal’ın yaptığı çalışmada yeni bir filtre tabanlı olasılıklı öznitelik seçme
yöntemi önerilmiştir, bu yöntem metin sınıflandırma için ayırt edici öznitelik seçme
(AÖS) olarak adlandırılmıştır. Bu filtreleme teknikleri arasında, ki-kare, bilgi
kazancı, Gini indeksi, ve Poisson dağılımı sapmasının daha etkili oldukları
kanıtlanmıştır. Bu nedenle, AÖS’ün etkinliği bu dört başarılı yaklaşımlarla
değerlendirilmiştir. Sınıflarda geçen farklı terim sıklıklarına göre farklı puanlar
atanmıştır. AÖS yukarıda bahsedilen dört öznitelik seçme yöntemleriyle şu kriterler
üzerinde
kıyaslanmıştır:
terimlerin
özniteliklerinin
benzerliği,
sınıflandırma
doğruluğu, boyut küçültme oranı ve işlem süresi. AÖS diğer yöntemlere göre her bir
veri kümesi içinde benzer olarak farklı terimleri seçmektedir. Sonradan zaman
analizi elde edilmiş ve AÖS en hızlı çalışan yöntem olarak belirlenmiştir. Kapsamlı
bir deneysel analiz sonuçları AÖS doğruluğu, boyut küçültme oranı ve işlem süresi
açısından oldukça başarılı bir performans sunduğunu gösterilmiştir [31].
Seo ve Oh özniteliklerin netliğine (açıklığına) dayanan yeni bir öznitelik seçme
algoritmasını (CBFS) geliştirmişlerdir. Öznitelik netliği
sınıflar arasındaki bir
özniteliğin ayrılabilirliğini ifade etmektedir. CScore her özellik için bir netlik puan
ölçüsüdür ve özniteliğin sınıflarının ağırlık merkezinin kümelenmiş örneklerine
dayanmaktadır. CBFS algoritması filtreleme yöntemiyle sınıflandırılmıştır. CBFS,
18
hedef örnek ile her bir sınıfın ağırlık merkezi arasındaki mesafeyi hesaplar ve daha
sonra hedef örnek sınıfı ile en yakın ağırlık merkezinin sınıfını karşılaştırır.
CScore(fi), fi özelliği için özelliğin açıklığını ölçen bir skorlama (puanlama)
fonksiyonu aşağıdaki gibi hesaplanır:
( )= ∑
( , )
(2.10)
CScore (fi) aralığı [0, 1]’dir. Eğer CScore (fi) 1’e yakınsa, bu fi özniteliğindeki
sınıfların iyi kümelendiğini ve fi içindeki elemanların açık bir biçimde
sınıflandırılabileceğini göstermekdir. CBFS, CScore() işlevini kullanarak yüksek
puanlı özellikleri seçmektedir. CScore’un fi özelliği için sezgisel anlamı fi ‘deki
sınıfının ağırlık merkezine doğru bir şekilde kümelenen örnekler derecesidir. CBFS
bağlamında, her bir örnek sınıfının en yakın ağırlık merkezine kümelenmektedir.
Şekil 2.3 (a)’da, A sınıfı ile B sınıfı açıkça ayrılmıştır fakat B sınıfının noktalı daire
içindeki iki noktası A sınıfı olarak sınıflandırılır ve bu da CScore()’un değerini
düşürmektedir. Eğer iki sınıf Şekil 2.3 (b)’de gösterildiği gibi fazlasıyla üst üste
binmişlerse, kesişen alandaki pek çok nokta hatalı bir şekilde sınıflandırılabilir. Rdeğeri daha iyi bir skorlama fonksiyonudur çünkü R- değeri sınıfların ağırlık
merkezlerine olan mesafesi değil de en yakın komşu sayısını göz önüne almaktadır.
(a)
(b)
Şekil 2.3. Cscore’un yanlış skorları üretmesi (a, b)
Bu yüzden CBFS’nin kendisi öznitelik seçimi açısından yüksek bir performans
gösterse bile, kalitesini diğer skorlama şemalarıyla birleştirerek geliştirmişlerdir.
Birleşik algoritmaları ayırt etmek için, saf bir CBFS algoritmasını CBFSorg olarak
ifade edilmiştir. CBFS ile R- değerini birleşim yaklaşımını CBFS
ifade edişmiştir. Dolayısıyla, CBFS
intersection’u
intersection
olarak
tam m adet özellik çıkaracak şekilde
19
düzeltilmiştir. Bunu da CBFS
exact olarak
ifade etmişlerdir. FeaLect, FSDD ve Relief
öznitelik seçim algoritmaları önerilen CBFS
algoritmalarıyla karşılaştırılmıştır. CBFS
org
org,
CBFS
intersection
ve CBFS
exact
kanser veri kümesinde uygulandığında,
Fealect (yüksek performanslı sarmal yöntemi) yöntemine göre hem K-NN hem de
DVM’de iyi bir sınıflandırma hassasiyetini (%100) göstermiştir. CBFS, mikroçip gen
seçmesinde, metin sınıflandırma ve görüntü sınıflandırmada uygulanabilir sonucuna
varılmıştır [32].
Fragoudis ve arkadaşları tarafından, en iyi terimler (BT) denilen metin
sınıflandırması için etkili bir özellik seçme algoritması önerilmiştir. İlk olarak,
terimlerin olumlu ve olumsuz özniteliklerinin tanımları verilmiştir ve bu BT
algoritmasını tanımlamak için kullanılmıştır. Şu koşullara göre BT gerçekleşmiştir:
her sınıftaki dokümanların üst-puanlamalı olumlu özelliği seçilmesi gerekir. Her bir
sınıf dokümanının dışındaki, seçilen olumlu özniteliklerden en az birini içeren en iyi
puanlamalı olumsuz özniteliği seçilmesi gerekir. Sebastiani (2002) makalesinde
bulunan birçok filtreleme yaklaşımları ile önerilen yöntem karşılaştırılmıştır.
Deneysel sonuçlarda BT algoritması uygulandığında filtreleme yaklaşımına göre
doğruluğu iyileşmiştir. İki yaklaşım karşılaştığında BT algoritması, filtreleme
yaklaşımına göre çalışma süresinin önemli bir gelişmesine yol açmıştır sonradan ve
arkasından sınıflandırma yöntemleri (DVM ile Naive Bayes) uygulanmıştır. Çoğu
durumda, DVM eğitimi daha hızlı olmuştur [38].
Chen ve arkadaşlarının çalışmasında ilk olarak makul tüm öznitelik seçme
fonksiyonlarının karşılaması gereken üç şartı tanımlanmıştır, daha sonra bilgi
kazancı, belge frekansı, karşılıklı bilgi, CTD ve SCIW bazı popüler öznitelik seçme
yöntemlerinin bu şartları karşılayıp karşılamadıklarını kontrol edilmiştir.
Terim-Kategoriye Bağlı Şartlar (TCDCs) iki şart içermektedir. İlk şart şu sezgiye
dayanmaktadır: bir t teriminin varlığı ya da yokluğunun kategori dağılımı P(C) ile
hiçbir ilişkisi olmadığında, f(C,t) minimum değerini almalıdır.
20
TCDC1: f(C, t)’nin değeri ancak ve ancak T ve C bağımsız ise en küçük olmalıdır.
(genellikle
f(C,t)=0 alınmalı).
Aksine,
C değeri tamamıyla T
değerince
belirlendiğinde, f(C, t) maksimum değerini almalıdır. Bu şu şekilde tanımlanabilir:
TCDC2: f(C, t) değeri ancak ve ancak C değeri tamamıyla T değeri tarafından
belirlendiğinde en büyük olmalıdır.
Üçüncü şart ise Kategori Ayrımcılık Kısıtlama’dır. TF-IDF ağırlıklandırmasında her
bir dokumandaki kelimelerin frekansı rol oynamaktadır. ICF’ın de metin
sınıflandırma için yaralı olduğu söylenmiştir. Bu şart DF (ya da diğer faktörler) ile
ICF arasındaki etkileşimi düzenler ve ICF kullanımının skorlamadaki etkisini tam
olarak tanımlamaktadır. Terimlere yönelik sabit sayıda DF (ya da diğer faktör)
olması halinde, yüksek bir ICF değeri olan terimi tercih etmemizi garanti altına
almaktadır.
Üç şartın hepsini karşılayan öznitelik seçme fonksiyonlarını geliştirecek bir çerçeve
tanımlanmıştır. İlk şart göstermektedir ki DF ve ICF önemli bir faktörlerdir, böylece
bu çerçeveden geliştirilen fonksiyonları DFIC olarak adlandırılmıştır.
Deneysel sonuçlar göstermektedir ki, bir öznitelik seçme fonksiyonunun deneysel
performansı bu şartları ne kadar iyi karşıladığıyla sıkı bir şekilde ilişkilidir ve
incelenen öznitelik seçme fonksiyonlarından hiçbirisi bu üç şartı aynı anda
karşılayamamışlardır. Önerilen yeni DFICF öznitelik seçme fonksiyonu, mikro ya da
makro ortalamalı ölçütler kullanıldığında, bilgi kazancı ve belge frekansından daha
yüksek performans sergilemektedir. Belge frekansı) bilgisi, ICF bilgisi, kategori
dağılım bilgileri iyi bir sınıflandırma performansı sağlayabilecek önemli istatistiksel
bilgilerdir. Özellikle, istatistiksel ICF bilgisi, pek çok nadir kategorisi ya da farklı
kategorilerde çok büyük çeşitliliği olan, külliyatlar açısından faydalıdır [39].
Uguz çalışmasında ölçülebilir çok sayıda terimden müteşekkil bir öznitelik alanının
yüksek seviyedeki boyutsallığını indirgemek, öznitelik alanındaki gereksiz ve ilgisiz
öznitelikleri temizlemek ve böylece metin sınıflandırmada kullanılan makine
21
öğrenme algoritmalarının hesapsal karmaşıklığını azaltarak performansını arttırmak
amacıyla iki aşamalı bir öznitelik seçme ve öznitelik çıkartma yöntemi kullanmıştır.
İlk aşamada, belge içindeki her bir terim bilgi kazancı (IG) yöntemini kullanan
sınıflandırma açısından önemine bağlı olarak derecelendirilmiştir. İkinci aşamada,
önem sırası azalan biçimde olacak şekilde terimlere ayrı ayrı olarak GA ve PCA
uygulamıştır ve bir boyut indirgeme gerçekleştirilmiştir. Metin sınıflandırması için ken yakın komşu K-NN ve C4.5 karar ağacı algoritması kullanılarak denemeler icra
edilmiştir. Metin sınıflandırmadaki basitlikleri ve kesinlikleri nedeniyle C4.5 karar
ağacı ve K-NN yöntemleri kullanılmıştır. Sonuçlar göstermektedir ki, IG-PCA ve
IG-GA vasıtasıyla seçilen az sayıdaki özniteliği kullanan C4.5 karar ağacı ve K-NN
algoritmaları üzerinden gerçekleştirilen metin sınıflandırma başarısının bilgi kazancı
vasıtasıyla seçilen öznitelikler kullanılarak elde edilen başarıdan daha yüksek olduğu
ortaya çıkmıştır. İki aşamalı öznitelik seçme yöntemleri, metin sınıflandırma
performansını arttırabilir. Bu da şu anlama gelmektedir ki, bilgi kazancı vasıtasıyla
belirlenen en önemli öznitelikler işaretlenerek genetik algoritma ve temel bileşen
analizi üzerinden gerçekleştirilen boyut indirgeme metin sınıflandırma başarısını
arttırmıştır [6].
Xu makalesinde, TBM’e dayalı metin sınıflandırma için yeni ve açık bir kuramsal
öznitelik seçme yöntemi önermiştir. TBM sayısal inancı temsil etmek için
geliştirilmiş bir modeldir. İnancın iki yönünü birbirinden ayırt edebilmek amacıyla
iki seviyeli zihinsel modeller tanımlar, ağırlıklı fikir olarak inanç ve karar verme
amaçlı inanç. İki seviye, inançların avutulduğu (sakinleştiği), credel seviyesi ve
inançların karar almada kullanıldığı pignistic seviyedir.
Bu yaklaşımda, mevcut özellik seçim kriterleri delil kaynağı olarak kabul
edilmektedir. Bilgi kazancı, Odd oranı, ki kare gibi her bir öznitelik seçme kriteri
komşuluk olarak bilinen bir bağımsız kanıt kalemi Ei olarak alınan bir dizi özellik
öngörür. Bu kapsamda her bir komşuluk birkaç yüz özellik içermektedir ve bu
komşuluklar bazı özellikler tüm komşuluklarla kesişecek şekilde üst üste binebilir,
böylece belgenin temsil edilmesinde önemli bir rol oynayabilmektedir. Farklı
22
komşulukların kısmi desteklerini temsil eden bir kütle fonksiyonuna erişmek için bu
kanıt komşuluklarını bir araya getirilmektedir. Kanıtları bir araya getirirken, münferit
öznitelik ağırlığı (TF-IDF) dikkate alınmalıdır, sadece ağırlık anlamında ciddi bir
ilişkiselliği olan özniteliği kabul edilmelidir. Söz konusu metin sınıflandırma
algoritması olduğunda, DVM ve K-NN metin sınıflandırıcılarını seçmişlerdir.
Deneyin sonuçları göstermiştir ki, kesinlik hatırlamadan daha çok tercih edildiği
durumlarda yeni kuramsal öznitelik seçme yaklaşımı bilgi kazanımı, ki-kare ve Odd
oran’ı kullanan yaklaşımdan daha iyidir. Bu şu şekilde açıklanabilir; bilgi kazancı
olumlu özelliklere odaklanırken, önemli olumsuz özellikleri kaçırıyor olabilir. Yeni
kuramsal öznitelik seçme yönteminin başarısı mevcut yöntemlerden elde edilen hem
olumlu hem de olumsuz öznitelikleri seçerek verileri bir araya getirmesinde
yatmaktadır [40].
Yapılan bir başka çalışmada, Fisher ayırt edici oranına dayalı olarak, metindeki öznel
duyarlılık sınıflandırması için etkili bir öznitelik seçme yöntemi ortaya atılmıştır.
Metin duyarlılığı sınıflandırmasının amacı duyarlılığın oryantasyonunu, pozitif veya
negatif olduğunu otomatik olarak yargılamaktır ve bu açıdan, görüş, tutum, ruh hali
ve benzeri gibi, metinde öznel bilgileri analiz etmektir. Metin duyarlılığının
sınıflandırma probleminin önemli özelliği ya da zorluğu olarak metinler tanımlamak
için kullanılan özniteliklerin yüksek boyutluluğu olduğudur .
Öznitelik seçme süreci iki adımda gerçekleşmiştir:

Öznitelik
kümesinin
adayı.
Farklı
bölgelerden
gelen
özniteliklerin
sınıflandırılması etkilerini karşılaştırmak amacıyla yapılmıştır. Kelime
kümeleri iki türlü aday öznitelik setleri gibi tasarım yapılmıştır. Bunlardan
biri U metin kümesindeki tüm sözcükten oluşur. Başka aday özelliği I kümesi
pozitif ve negatif metinler hem de görünen tüm sözcükleri içerir.

Sınıflandırma modelinde kullanılan özellikler. Fisher ayırt edici oranı fikri
sınıflandırma problemi için öznitelikler bir önem ölçüsü olarak kullanılabilir
anlamına gelmektedir. Özniteliğin Fisher ayırt edici oranı değerinin büyük
23
olması, o kadar güçlü sınıflandırma yeteneğine sahip olacaktır. Her bir
öznitelik için Fisher ayırt edici oranı değerini hesaplamak ve azalan bir sırada
bunları sıralamak. Ve sonra belirli bir sayıda en iyi özniteliklerini seçmek.
Teklif edilen yöntemin geçerliliğini teyit etmek için, DVM sınıflandırıcı olarak
alınırken bilgi kazancına dayalı tipik yöntemle karşılaştırılmıştır. Deneyin sonuçları
göstermektedir ki en iyi sınıflandırma etkinliğini I + FF (I kümesi, FF(tk) = FB(tk))
elde etmektedir, hassasiyet derecesi Deneyi külliyatı 1’de %86.61 olarak
gerçekleşmiştir [41].
Diğer bir çalışmada, çeşitli özniteliklerin olasılık yoğunluk fonksiyonlarını
kullanarak orijinal öznitelik alanından gereksiz öznitelikleri temizleyen yeni bir
gözetimsiz öznitelik seçme yöntemi ortaya çıkarılmıştır. Bu makalede, filtre
yaklaşımlarının avantajlarına sahip yeni bir filtre gözetimsiz öznitelik seçme
algoritması tanıtılmıştır. Önerilen yaklaşım (pdf - Yoğunluk Fonksiyonunun
Olasılığı) ilişkilerine göre daha çok sayıda bilgilendirici öznitelik seçmektedir.
Önerilen şemanın ana fikri ilk olarak her özniteliğin pdf’ini gözetimsiz bir şekilde
tahmin etmek ve daha sonra da daha yüksek kapsama alanları olan pdf’leri rastgele
öznitelikler olarak bilinen diğer özniteliklerin pdf’leriyle değiştirmektedir.
Farklı özniteliklerin pdf’lerini karşılaştırmak amacıyla, tüm öznitelik değerleri [0, 1]
aralığında ölçeklendirilmiştir çünkü farklı özniteliklerin değer aralıkları farklı
olabilir. Daha sonra, her bir özniteliğin olasılık yoğunluk fonksiyonu KDE
yöntemlerine göre hesaplanmıştır. Her bir öznitelik için olasılık yoğunluk
fonksiyonlarını tahmin ettikten sonra, öznitelik çiftlerinin her biri arasındaki
benzerlik hesaplanır. Eğer pdf’lerinin Ortalama Karesel Hata (MSE)’ları kullanıcı
tarafından tanımlanan eşiğin altında ise iki özniteliğin benzer öznitelikler olduğu
kabul edilir. Benzer öznitelikler yaklaşık aynı bilgileri içeririler çünkü pdf’leri yeteri
kadar benzerdir. Bu kapsamda, ciddi bir veri kaybı olmaksızın benzer özniteliklerden
biri silinebilir. Deneme sonuçları göstermektedir ki önerilen yöntem can gözetimsiz
öznitelik seçme yöntemiyle karşılaştırıldığında daha fazla bilgilendirici niteliği olan
24
özellik alt kümesini tespit edebilmektedir. Ayrıca, sonuçları güdümlü öznitelik seçim
çerçevelerine de yakındır [42].
Yong ve arkadaşları tarafından yapılan çalışmada doküman frekansı, bilgi kazanımı,
karşılıklı bilgi, ki-kare istatistikleri gibi yaygın kullanılan öznitelik seçme
yöntemlerini karşılaştırmakta ve deneme sonuçları analiz edilmektedir. Denemeler
esnasında Xinjiang Normal Üniversitesinin Yayınevinin Külliyatı kullanılmıştır,
külliyat Sincan Daily, Urumçi Akşam Haberleri ve diğer başka gazetelerden
toplanmış siyasi, ekonomik, spor, hukuk v.b. gibi konuları içermekteydi. İlk başta,
belirli bir eşik seviyesinin altındaki frekansı düşük kelimeleri doküman frekansı ile
çıkartmıştır, daha sonra geri kalan girişlerdeki düşük kategori bilgisi olan gürültü
kelimelerin çıkartılması için bilgi kazancı, ki-kare ya da karşılıklı bilgi yöntemlerin
kullanmışlardır. Sonra da DVM ile sınıflandırmışlardır. Doküman frekansı ile en iyi
sınıflandırma hassasiyeti oranı %91,34 iken, ki-kare öznitelik çıkartım yöntemiyle
gerçekleştirilen ikinci denemede en iyi hassasiyet oranı %88,03 idi. Üçüncü deneme
DF+IG, DF+MI ve DF+CHI gibi farklı öznitelik seçim yöntemi kombinasyonlarını
kullanmakta ve sonuçlar gösterilmektedir ki DF+CHI öznitelik seçim yöntemiyle
elde edilen sınıflandırma hassasiyeti oranı %93.57’dir ki, bu bütün denemeler
arasında en iyi yöntem olduğunu göstermektedir. Külliyat küçük olduğu öznitelik
alanının boyutu nispeten küçük olduğu zaman, doküman frekansı öznitelik seçim
algoritmasının uygulanması sınıflandırma hassasiyetini arttırabileceği gibi eğitim
süresini de kısaltabilir. Külliyat büyük olduğunda, öznitelik alanının boyutu yüksek
olduğunda, ki-kare öznitelik seçim algoritmasının uygulanması sınıflandırma
hassasiyeti arttırabilir sonucuna varılmıştır [44].
2.5. Sınıflandırma
Bilgiye daha kolay erişmek için metinlerin sınıflandırılma yapılmasına ihtiyaç
duyulmaktadır. Metin sınıflandırılması önceden belirlenmiş kriterlere göre, doğal dil
metinlerinin kategorilere ayrılmasıdır [12, 45].
25
Sınıflandırma uygulamalarında örneklerin nasıl temsil edileceği performansa en çok
etki eden parametredir. Bunun doğal sonucu olarak uygun özniteliklerin seçimi
sınıflandırma performansını arttırmaktadır [8].
Metin sınıflandırma dosya düzenlemesi, metin filtreleme ve internet sayfalarının
hiyerarşik kategorilere ayırma gibi bir çok uygulama alanlarına sahiptir.
Metin sınıflandırma genellikle istenmeyen e-postaları yönetmek, büyük metin
denemelerinin
konularına
göre kategorilere göre sınıflandırılması,
bilginin
yönetilmesi ve ayrıca internet arama motormarına yardımcı olmak maksadıyla
kullanılmaktadır. Bu uygulama e-mail’e gelen mesajları spam veya spam
olmayanlara ayıracaktır.
Metin sınıflandırma makine öğrenmesi gibi alanlarda büyük bir rol oynamaktadır
[46].
Metin sınıflandırmada üç yaklaşım mevcuttur [47]:

El ile sınıflandırma – alana özgü kriterilere göre elle yapılan sınıflamadır.
Bilgisayar
ortamı
olmadığı
zaman
kütüphanelerde
tematik
değerlendirmelerde kitapları elle sınıflandırmada çok kullanılmıştır. Fakat
büyük boyuttaki dokümanlarla çalıştığında kullanışlı değildir.

Koşullu sınıflandırma – 80’lerdeki en popüler yaklaşımdır. Koşula ve koşulu
oluşturan kişiye bağlı bir sınıflandırmadır, koşulları mühendis ve o alana ait
uzmanın oluşturması gerekmektedir. Alana özgü koşullar oluşturulduktan
sonra giriş yapılan metinler otomatik olarak sınıflara ayrılmaktadır.
Örneğin;haber alanında oluşturulan koşullarda cumhurbaşkanın ismi değişirse
koşul içeriğinin tekrar değiştirilmesi gerekmektedir. Bu nedenle sürekli
uzman bakımı gerekmektedir [12].

Otomatik sınıflandırma – metinleri sınıflara atayan koşulları oluşturmak
uzmanların yerine makine yapmaktadır, başka bir deyişle eğitim verileri
26
üzerinde makine öğrenmesi işleminin gerçekleşmesidir. Eğitim verileri - her
sınıfta bulunan bazı iyi dokümanların toplamı olarak geçmektedir. Burada
amaç bir doküman sisteme verildiğinde bu dokümanın sınıfını, eğitim
dokümanlarına bakarak tahmin etmektir [48]. Otomatik sınıflandırma hem
performans açısından hem de doğruluk açısından iki yönteme göre daha
başarılıdır.
Yukarıda
anlatıldığı
gibi
bilgisayar
ortamı
olmadığı
zamanda
manuel
sınıflandırmayla kütüphanede aranılan kitaplara, makalelere kolayca ulaşılması
sağlanmıştır, şirketlerde, üniversitelerde devasa bilgiler yönetilmiştir. Çağımızda
bilgi ortamı değiştiği ve sınıflandırma yapılması kolay bir hale geldiği için bu
çalışmada otomatik sınıflandırma tekniklerinin ele alınması uygun görünmüştür.
Çok sayıda sınıfın olduğu bir kümede bu sınıflar için kuralları tetkik etmek zordur.
Bu nedenle uzmanlar elle yapılamayacak sınıflandırmaları makineler kullanılarak
kolay bir şekilde yapabilmektedir. Makine öğrenimi alanı, bilgisayarların
geçmişlerinden otomatik olarak “öğrenmelerini” sağlayacak algoritmalar ve
tekniklerin incelenmesiyle alakalıdır.. Makine öğrenimi aralarında bilgi kuramı,
yapay zekâ gibi pek çok alandan aldığı kavramlar ve teknikleri kullanmaktadır.
Makine öğrenme yöntemi “denetimli” ve “denetimsiz” olarak iki şekilde ele
alınmaktadır [27]:
Denetimli makine öğreniminde eğitim verisinin sınıf etiketleri önceden bellidir.
Denetimli öğrenimin işlevi yeni oluşan verinin türünü algılayabilecek durumda
eğitim verisi ve onların sınıfları arasında paralel manayı tahmin etmek için fonksiyon
bulmakdır. Denetimli öğrenim için Yapay Sinir Ağları, Karar ağaçları, K-NN, DVM
ve Rastgele Ormanlar gibi birçok yaklaşımlar ve algoritmalar öne sürülmektedir.
Denetimsiz öğrenim denetimli öğrenimden eğitim verilerinin sınıf etiketleri hazırda
bulunmaması gerçeği ile farklılılık göstermektedir. Denetimsiz öğrenim metotları
27
hangi objeler bir sınıf olarak gruplandırılması gerektiğine dair karar vermektedir. K
en yakın komşu, kendinden düzenlenen haritalar (SOM) ve veri kümeleme
algoritmaları.
2.6. Performans Değerlendirme
Genellikle bir sınıflandırıcının etkinliğini değerlendirmek için yani doğru
sınıflandırma kararlarını alınmasını sağlamak için performans değerlendirmeye
ihtiyacı vardır [26]. Metin sınıflandırma sistemlerinde kullanılan pek çok performans
ölçüsü vardır. Kesin tahminler elde etmek ve tüm kategori kümesine göre geri
çağırmak için iki farklı yöntem mikro-ortalama ve makro-ortalama kabul
edilmektedir. Başka da başabaş noktası, F-önlem, interpolasyon gibi önlemler
kullanılmaktadır.
F-skor genellikle ölçüm araması için bilgi erişimi, belge sınıflandırma ve sorgu
sınıflandırma başarımında kullanılmaktadır. İstatistikte, F1-skor (ayrıca F-skoru veya
F-önlemi), bir testin doğruluk ölçüsüdür.
F1 ilk olarak Van Rijsbergen tarafından [49] çıkartılmıştır ve metin sınıflandırmada
hem duyarlılık hem de kesinliği bir araya getiren ortak bir ölçüttür. Mikro ortalamalı
F1 (belgeler üzerinden ortalaması alınmış) çapraz yöntem karşılaştırmalarında
yaygın olarak kullanılırken, makro ortalamalı F1 (kategoriler üzerinden ortalaması
alınmış) bazı durumlarda kullanılmaktadır. Genel tanımda bahsedersek, mikro
ortalamalı
skorlar
ortak
kategorilerdeki
performans
tarafından
belirlenme
eğilimindeyken, makro ortalamalı skorlar nadir kategorilerdeki performanstan daha
çok etkilenir.
Kesinlik ve duyarlılık ölçütleri tek başına anlamlı bir karşılaştırma sonucu
çıkarmamız için yeterli değildir. Her iki ölçütü birlikte değerlendirmek daha doğru
sonuçlar verir. Bunun için F-ölçütü tanımlanmıştır. F-ölçütü, kesinlik ve duyarlılığın
28
harmonik ortalamasıdır uyumlu ortalamasına dayanan ikili sınıflandırma işlevleri
için bir performans ölçüsüdür [50].
Kesinlik doğru sınıflandırmadır fakat yanlış sınıflandırmalar sayısına göre
cezalandırılmaktadır.
=
Duyarlılıkta
(2.11)
doğru
sınıflandırma
sayısı
cevapsız
eleman
sayısına
göre
cezalandırılmaktadır.
ıı =
(2.12)
F1 önlemi türetilmiş bir etkinlik ölçüsüdür. Sonuç değeri kesinlik ve duyarlılığın
ağırlıklı ortalaması olarak yorumlanmaktadır. En iyi değeri 1'dir ve en kötüsü 0'dır.
− ö çü ü =
×
×
(2.13)
Metin sınıflandırmada TP (gerçek pozitif) kategoriye doğru yerleşen doküman
sayısını, TN (gerçek negatif) kategoriye doğru yerleşmeyen doküman sayısını, FP
(yanlış positif) kategoriye yanlış yerleşen doküman sayısını ve FN (yanlış negatif)
kategoriye ait olan ama bu kategoriye doğru yerleşmeyen doküman sayısını ifade
etmektedir.
Doğru sınıf oranı ile sınıf sonuçları elde edilmiştir.
29
3. ÇALIŞMADA KULLANILAN YÖNTEM
3.1. Ön İşleme
Veri kütüphanesini elde ettikten sonraki işimiz verileri ön işleme aşamasından
geçirmektir. Veri kütüphanesini nasıl elde ettiğimiz Bölüm 4.1’de anlatılmaktadır.
Öncelikle
tüm
dokümandaki
büyük
harfli
karakterler
küçük
harflere
dönüştürülmüştür. Ardından bütün ünlemler ve rakamlar silinmiştir. Doküman içinde
sıkça geçen ama bir anlamı olmayan durak kelimeleri silerken “durak kelimeler”
listesinden yararlanılmıştır. Böylece elimizdeki veri kütüphanesi, önümüzdeki
aşamalar için uygun hale getirilmiştir.
Bölüm 2.1’de açıklandığı üzere metinler temiz hale getirildikten sonra vektörel
uzayda öznitelikler gibi temsil edilmesi için atomik parçalara ayrılması gerektiği
belirtilmiştir. Bu çalışmada metinleri ifade etmek için kelime kökleri ile n-gram
özniteliklerini elde etmede text2arff yazılımı [51] kullanılmıştır. Bu yazılıma girdi
olarak büyük harfli karakterler küçük harflere dönüştürülen .txt uzantılı metin
dosyaları girilmiştir. Çünkü text2arff yazılımı aynı öznitelik olsa bile büyük harfli ve
küçük harfli karakterleri ayrı ayrı öznitelik olarak algılamaktadır.
Örneğin aşağıdaki çizelgede text2arff yazılımı ile elde edilen TF yöntemine göre
terimlerin dokümanda bulunma sıklıkları verilmiştir.
30
Çizelge 3.1. Text2arff yazılımı ile elde edilen öznitelik matrisinin yapısı
1.txt
...
30.txt
31.txt
...
60.txt
61.txt
...
90.txt
91.txt
...
120.txt
121.txt
...
150.txt
151.txt
...
180.txt
Terim 1
Terim 2
Terim 3
Terim 4
2
...
2
5
...
4
7
...
6
0
...
4
...
4
2
...
3
5
...
3
8
...
6
...
2
5
...
6
1
...
3
5
...
0
...
7
2
...
1
1
...
0
9
...
1
7
5
8
5
...
4
4
...
5
0
...
1
6
...
7
7
...
5
8
...
5
8
...
9
9
...
7
Sınıf
Anlamsal Ağlar
Anlamsal Ağlar
Anlamsal Ağlar
Görüntü İşleme
Görüntü İşleme
Görüntü İşleme
Kablosuz Ağlar
Kablosuz Ağlar
Kablosuz Ağlar
Metin Sınıfandırma
Metin Sınıfandırma
Metin
Sınıflandırma
Turizm
Turizm
Turizm
Uzaktan Eğitim
Uzaktan Eğitim
Uzaktan Eğitim
Çizelgede gördüğümüz gibi her bir sınıfta 30’ar tane toplam 180 tane metin dosyası
içermektedir. Sınıflar ise çizelgedeki gibi sırayla listelenmiştir. Örnekteki genel
matris tüm veri kümesindeki özniteliklerden oluşmaktadır. Kullandığımız örnek 4
adet öznitelik içermektedir. Bu öznitelikler 1.txt metninde toplam 12 kez
kullanılmıştır, bu dokümanda 1.terim 2 defa, 2.terim 4 defa, 3.terim 6 defa ve 4.terim
hiç kullanılmamıştır.
Türkçede her ek bir mana taşımakta ve eklendiği kelimenin anlamını o yönde
değiştirmekte, bu yüzden kökler yerine kelimeleri kullanmak bütün kelimelerin farklı
biçimde algılanmasına neden olabilmektedir. Örnek olarak “arkadaş”, “arkadaşın”,
“arkadaşa”, “arkadaştan” terimlerin doğrudan alırsak oluşturulan veri kümesinin
boyutu artabilir ve sınıflandırma başarısı düşürebilir. Bu durumda aynı anlama işaret
eden öznitelikleri birleştirmek için Zemberek kütüphanesi [52] kullanmak yardımcı
olabilmektedir. Text2arff yazılımı terimlerin köklerinin bulunmasında Zemberek
kütüphanesinden faydalanmaktadır. Bu yazılım ile karakter 2-gram ve 3-gram’lar da
ayrılmıştır. N-gram n boyutlu karakter çerçeveleridir ve sıra ile bir birinin arkasından
31
takip eden yöntemdir. Örneğin “arkadaş” kelimesinin 2-gram’nı bulalım: ar-rk-kaad-da-aş, 3-gram’ı ise: ark-rka-kad-ada-daş.
Öğrenme aşamasında kullanıcılar, ilgili kategorilere yönelik örnek dokümanlar
(eğitim örnekleri) vererek ilgilendikleri başlıkları belirtirler. Oluşturduğumuz veri
kütüphanesi 6 başlık altında 30 tane metin dosyası (.txt uzantılı) barındırmaktadır.
Otomatik
sınıflandırma
yapabilmek
için
öncelikle
sistemimizi
eğitmemiz
gerekmektedir. Bunun için sistemimize kategorisi belli olan dökümanlar eklememiz
gerekmektedir. Sistem bu eklediğimiz dökümanlardan eğitilecek ve daha sonra
sınıflandırması gereken bir döküman geldiğinde eğitim dökümanları ile kıyaslamalar
yaparak sınıflara karar verecektir [53].
Bu tez çalışmasında 10 defa çapraz doğrulama yöntemi eğitim ve test setlerini
ayırmada kullanılmıştır. Bu yöntem veri kütüphanesini rastgele 10 eşit bölüğe
ayırmaktadır. Burada 10 defa çapraz doğrulama yöntemini seçmemizin sebebi farklı
öğrenme teknikleriyle çeşitli veri setleri üzerinde yapılan kapsamlı testler sonucu, en
iyi hata tahminin elde etmek için doğru kat sayının 10 olmasıdır. Her zaman iyi bir
sonuç vermesede bile 10 defa çapraz doğrulama standartlaşmış bir hale gelmiştir.
[54].
n defa çapraz doğrulama (n Fold Cross Validation) tüm veriyi atadığı ilk grup ile test
etmekte ikinci n-1 grupla sistemi eğitmektedir [55]. Bizim kullandığımız 10 defa
çapraz doğrulama yönteminde ilk ayrılan grup test için kalan 9 grup sırası ile eğitim
için seçilmektedir. Aşağıdaki şekilde gösterildiği gibi her iterasyonda (tekrarlanan
her veri kümesi) farklı bir parça test için ayrılmaktadır ve bu süreç 10 defa tekrar
etmektedir. Bu iterasyondan çıkan n adet doğruluk oranının ortalaması alınmaktadır.
32
Şekil 3.1. 10 defa çapraz doğrulamanın genel yapısı [13].
3.2. İndeksleme ve Ağırlıklandırma Yöntemlerinin Kullanılması
Terimleri vektörel uzayda ifade etmek için öncelikle her birinin ağırlığı bulunması
gerekmektedir. Vektör uzayında terimleri temsil etmeden önce indeksleme olarak
adlandırılan aşamada dokümanda yer alan tüm kelimeler seçilen bir yöntem yardımı
ile frekanslarına göre sıralanacaktır. Başlangıç olarak veri kütüphanesindeki tüm
dokümanlardaki farklı kelimelerden oluşan bir sözlük yani bir öznitelik matrisi
oluşturulur. Sözlük, tüm dokümanlardan oluşan veri kütüphanesinde her terimin
hangi dokümanda görüldüğünü işaretler. Bu süreç sonunda ağırlıklandırma
yöntemlerininin yardımı ile öznitelikleri vektörel uzayda temsil edebilir. Bu
çalışmada terimlerin ağırlıklarının bulunması için text2arff yazılımında yer alan ikili,
TF
ve
TF-IDF
yöntemleri tercih
edilmiştir.
ağırlıklandırma yöntemleri aşağıda açıklanmıştır.
Çalışmamızda
kullandığımız
33
•
Ikili – her bir terimin dokümanda geçip geçmediğine bakan basit bir
ağırlıklandırma yöntemidir. Terim dokümanda bulunursa 1, bulunmazsa 0
ağırlığı atanmaktadır. Bit ağırlıklandırma [17], boolean ağırlıklandırma
yöntemleri olarak da geçmektedir. Aşağıda ikili yönteminin hesaplanması
gösterilmektedir.
= eğer i.terim j.dokümandan geçerse 1 geçmezse 0 değerini alır
•
(3.1)
TF (Terim Frekansı) - doküman içindeki her bir terimin toplam görülme
miktarını hesaplayan diğer bir basit ağırlıklandırma yöntemidir. Terim her bir
dokümanda kaç kere kullanıldı ise o kadar terim ağırlığı atanmaktadır.
=i.terimin, j.dokümanında geçme sayısıdır
(3.2)
• TF- IDF (Terim Frekansı – Ters Doküman Frekansı) - TF ve TF-IDF
ağırlıklandırmasında
her
bir
dokümandaki
kelimelerin
frekansı
rol
oynamaktadır. Böylece dokümanda daha fazla görülen kelimeler varsa (TF,
terim frekansı yüksek) o doküman için daha değerli olduğu anlaşılmaktadır.
Ayrıca IDF tüm dokumanlarda seyrek görülen kelimeler ile ilgili bir ölçü
vermektedir. TF-IDF ağırlıklandırma sadece belge içindeki terim sıklığını
hesaba katmaz bununla birlikte tüm belgelerde terimin sıklığını göz önünde
bulundurur. Bu yöntemle eğer kelime çok fazla dokümanda (durak kelimeler)
varsa onun dokümanda önemi oransal olarak düşürülmektedir. TF-IDF
yönteminin amacı bu tarz kelimelerin ağırlığını 0’a yaklaştırmaktır.
TF ve IDF çarpımı ise bir metinde çok bulunan ancak diğer metinlerde daha az
görülen bir terimin ağırlığının fazla olduğunu göstermektedir. Aşağıda TF-IDF
yönteminin hesaplanması gösterilmektedir.
Terim ağırlığı (TF-IDF):
34
=
×
(3.3)
Burda, D - tüm dokümanların sayısı,
– sadece i.kelimenin geçtiği (en azından bir
kere) tüm doküman sayısı, w - terim ağırlığı.
Yaptığımız çalışmadaki 1.dokümanda geçen “bir” terimini örnek olarak kullanalım.
Tüm doküman sayısı 180’e eşittir, “bir” teriminin tüm dokümandan geçme sayısı
116’ya eşittir ve terimin 1.dokümanda geçme sayısı 17’dir. TF-IDF yöntemine göre
hesapladığımızda
= 17 × log
=3,24 terim ağırlığını bu şekilde buluruz. Diğer
terimleri de bu şekilde hesaplarız.
Örneğin aşağıdaki şekilde kelime kökleri için TF ağırlıklandırma yöntemine göre
sırayla terimlerin dokümanda bulunma sıklıkları verilmiştir. Diğer iki yöntem için de
böyle
bir
öznitelik
hesaplanacaktır.
matrisi
Frekanslar
elde
edilecektir
hesaplandıktan
ve
özniteliklerin
ağırlıkları
sonra
terimlerin
ağırlıkları
hesaplanabilmektedir. Aşağıdaki tüm örnekler “anlam”, “bilgi”, “sistem” ve “m”
olarak kullanılan dört adet öznitelikten ve bir adet sınıftan oluşmaktadır. Sözlükten
bu öznitelikler bulunur ve 1.dokümanda kaç kere geçtiği hesaplanır. 1.metin dosyası
(1.txt) için her bir terimin geçme sıklığını hesaplarsak
43,
= 29 ve
= 1 ‘ye eşittir.
= 17,
=
35
Şekil 3.2. TF yöntemine göre elde edilen öznitelik matrisi
Öznitelik vektörü olarak kelimeleri kullanmamız için eklerinden ayırarak yalnızca
kök haline gelmesi ve karakter n-gram’ların elde edilmesi sağlanır. Aşağıda öznitelik
vektör türleri ve sayıları verilmiştir. Bölüm 4’te açıkladığımız gibi kullandığımız veri
setleri ön işleme aşamasını uygulamadan önceki ve sonraki hali olarak ele alınmıştır.
36
Çizelge 3.2. Kelime köklerinden ve karakter n-gram’lardan oluşan öznitelik
vektörleri
Ağırlıklandırma
yöntemi
Ikili
TF
TF-IDF
Ön işleme uygulamadan önceki
hali (original veri kümesi)
Kelime kökleri (3189 özn)
Ön işleme uygulamadan sonraki hali
(indirgenmiş veri kümesi)
Kelime kökleri (3071 özn)
Kelime kökleri (3189 özn)
Kelime kökleri (3071 özn)
Karakter 2-gram (3218 özn)
Karakter 2-gram (958 özn)
Karakter 3-gram (25483 özn)
Karakter 3-gram (11132 özn)
Kelime kökleri (3189 özn)
Kelime kökleri (3071 özn)
Karakter 2-gram (3218 özn)
Karakter 2-gram (958 özn)
Karakter 3-gram (25483 özn)
Karakter 3-gram (11132 özn)
3.3. Öznitelik Seçme
Filtreleme tekniklerinin içinde çoğunlukla ki-kare, bilgi kazancı, gini endeksi ve
belge frekansı yöntemlerinin daha etkili yöntemler oldukları kanıtlanmıştır [31, 56].
Bu çalışmada veri kümesinin yüksek boyut sorununu çözmek amacıyla ve en yaygın
olarak kullanılan öznitelik seçme yöntemlerinden [12] 2 adeti ele alınmıştır.
3.3.1. Bilgi kazancı
Bilgi kazancının temel fikri şudur: öznitelik başlığının doküman kategorisine olan
IG’si (bilgi kazancı) esas itibariyle öznitelik başlığının kategoride görülüp
görülmediği ya da eğer görülüyorsa hangi frekansta görüldüğüne bakılarak ölçülür.
Bilgi kazancı değeri daha önceden belirlenmiş değerden düşük olduğu durumda, t
öznitelik başlığı öznitelik derlemesinden çıkartılacaktır [43].
Bir terimin bir dokümanda olup olmadığına bağlı olarak sınıf belirleme için elde
edilen bilginin parça sayısını ölçen terime bilgi kazanc denir. Bilgi kazancı
özniteliğini verili ya da yok olması durumuna bağlı olarak entropideki azalışı ölçer.
37
Shannon 1948 entropisi kullanılarak ölçüldüğünde bilgisel entropi soyut olarak
belirli bir bilgi parçasını çözmek için gerekli olan veri parçası sayısıdır [10].
Bilgi kazancını hesaplamak için aşağıdaki Shannon’un geliştirdiği entropiyi
hesaplamamız gerekmektedir. Eğer örnekler (terimler) aynı sınıfa ait ise entropi 0’a,
eşit, örnekler (terimler) sınıflar arasında eşit dağılmışsa entropi 1’e eşittir. Burdan X
sınıfın iyi bir tanımı ise, o özelliğin her bir değerinın sınıf dağılımındaki entropi
oranı düşük olacaktır.
= −∑
log (
log ( ) =
( )= − ∑
( , )/| |)
(
( , )/| |) ×
(3.4)
Burda D’yi herhangi bir küme olarak kabul edersek, buna göre herhangi bir küme (D
ile gösterilmektedir) için o sınıftaki (S ile gösterilmektedir) değerlere göre frekansa
bakılır. Bundan sonra D kümesini herhangi bir X parçaya bölündükten sonra D’yi
sınıflandırmak için gerekli olan bilgi:
( )=∑
| |
×
(
)
(3.5)
Bir özniteliğin bilgi kazanımı entropideki düşüş olarak ölçülebilir. Bilgi kazanımı
veri kütüphanesindeki her doküman için hesaplanır ve belli bir değerin altındaki
kelimeler koleksiyondan çıkarılır. Bunun sonucunda en yüksek kazanım oranına
sahip öznitelik seçilir. X niteliğine göre bilgi kazanımı:
ı ( )=
( )−
( )
(3.6)
3.3.2. Korelasyon tabanlı öznitelik seçimi (KTÖS)
Korelasyon Tabanlı Öznitelik Seçimi (KTÖS), korelasyona dayalı bir sezgisel
değerlendirme fonksiyonuna göre öznitelik alt setlerini sıralandıran basit bir filtre
38
algoritmasıdır [28]. KTÖS, direk özellikler yerine özelliklerden oluşan bir alt kümesi
değerlendiren ilk yöntemdir. Değerlendirme fonksiyonunun eğilimi, kendi sınıflı ile
korelasyonu yüksek fakat sınıflar arası korale olmayan öznitelikleri içeren alt setlere
doğrudur. İlgisiz öznitelikler göz ardı edilmelidir, çünkü bunların sınıfla
korelasyonları düşüktür. Geriye kalan özniteliklerden biri ya da ikisiyle yüksek
korelasyonları olacaklarından dolayı rastsal öznitelikler taranmalıdır. Bir özniteliğin
kabul edilmesi, diğer öznitelikler tarafından çoktan belirlenmemiş kopya (instance)
alanındaki sınıfları belirleme derecesine bağlı olacaktır.
KTÖS fonksiyonunun ana hedefi hedef değişkenle yüksek değerli korelasyona sahip,
fakat birbirleri ile korelasyonu düşük olan niteliklerin seçimidir. Eğer özellikler
ilintisiz olursa, korelasyon katsayısı 0'dır. KTÖS özellikle birbirleri ile korelasyonu
düşük olan veri setlerinde daha başarılı sonuçlar üretmektedir [57].
KTÖS [16], konu ile ilgisiz, gereksiz ve gürültü niteliğine sahip özellikleri çabuk
teşhis eden ve onları eleyen bir yöntemdir. KTÖS genellikle özelliklerin yarısından
fazlasını eler ve böylece öğrenme yöntemlerinin başarı performansının arttırılmasını
sağlar.
KTÖS, özellikler arasındaki rastsallık derecesine bağlı olarak özellik alt setlerini
aramaktadır. KTÖS bir nitelikler alt kümesinin değerini, her bir özelliğin münferit
kestirim kabiliyetinin yanı sıra bunlar arasındaki rastsallık derecesini de göz önünde
bulundurarak değerlendirir. Nitelik ve sınıf alt setleri arasındaki korelasyonların yanı
sıra özellikler arasındaki karşılıklı korelasyonları da tahmin etmek için korelasyon
katsayıları kullanılır. Özellik gruplarının ilişkiselliği özellikler ve sınıflar arasındaki
korelasyonla birlikte artar ve artan inter-korelasyonla (birbirleri arasındaki
korelasyon) birlikte de azalır. KTÖS genellikle en iyi özellik alt kümesini belirler ve
genellikle ileri yönde seçim, geri yönlü eleme, çift taraflı arama, en iyi ilk arama ve
genetik arama gibi arama stratejileriyle eşleştirir. KTÖS denklemi şu şekildedir.
=
̅
(
)
(3.7)
39
Burda,
toplanan özellik alt setleri ile sınıf değişkeni arasında korelasyonu, k
özellik alt setlerinin sayısını, ̅
korelasyon ortalamasını ve
özellik alt setleri ile sınıf değişkeni arasındaki
özellik alt setleri niteliklerin birbirleri arasındaki
korelasyonların ortalamasını göstermektedir. Pay, bir öznitelik grubunun ne kadar
belirleyici olduğuna yönelik bir gösterge veriyor gibi görülebilir.
3.3.3. Öznitelik seçme yönteminin uygulanması
Metin sınıflandırma işlemi yüksek boyutlu veri uzaylarıyla çalıştığı için
sınıflandırma performansı düşüreceğini ve zaman alıcı olduğunu önceki bölümlerde
açıklamıştık. Bu yoldan giderek ağırlıkları hesaplanan her bir öznitelik vektörü
üzerinde öznitelik seçme yöntemleri uygulanmıştır. Nitelikli özniteliklerin seçilip
gereksiz
olanlarının
atılabilmesi
için
Weka
programı
içerisinde
bulunan
CfsSubsetEval ve InfoGainAttributeEval modelleri kullanılmıştır.
Özniteliklerin seçimi için Weka programındaki “Attribute Selection” sekmesi seçilir.
“Attribute Evaluator” bölümünden öznitelik seçme yöntemini seçilir, “Search
Method” bölümünden ise aramanın başlangıç noktası seçilir. İlk olarak seçtiğimiz
CfsSubsetEval yöntemi için başlangıç noktası olarak en iyi ilkin (best first) ileri
doğru seçme yaklaşımı tercih edilmiştir. En iyi ilk yaklaşımı sıfır öznitelikle ya da
tam öznitelik kümesiyle başlar. Detaylı olarak Bölüm 2.4’te açıklanmaktadır.
CfsSubsetEval öznitelik seçme yöntemi sınıfla korelasyonu yüksek fakat birbirleriyle
ilintili olmayan öznitelikleri içeren alt setleri seçer. Korelasyonu düşük öznitelikler
göz ardı edilmelidir, çünkü bunların sınıfla korelasyonları düşüktür.
Aşağıda Weka’da öznitelik seçme yönteminin arayüzü gösterilmektedir.
40
Şekil 3.3. Weka’da öznitelik seçme sekmesinin arayüzü
İkinci yöntemimiz olan InfoGainAttributeEval öznitelik seçme yöntemini seçerken
de aynı seçenekler seçilmiştir. InfoGainAttributeEval, özellikleri sınıflarına nispeten
bilgi kazanımlarını ölçerek değerlendirir. Bu yöntem için başlangıç noktası olarak
sıralı arama (ranker) yaklaşım tercih edilmiştir. Sıralı arama (RankSearch) bir tekil
öznitelik değerlendirici kullanarak özellikleri düzenler ve daha sonra bir özellik alt
kümesi değerlendirici kullanarak işe yarayan alt setleri sıraya dizer. Tekil öznitelik
değerlendiricisi olan öznitelikleri düzenleyerek başlar ve daha sonra da - en iyi
öznitelik, en iyi öznitelik artı en iyi ikincisi vb. gibi - en iyi alt kümesi bildiren alt set
değerlendiriciyi kullanarak boyutu artan alt setleri değerlendirir.
Bu yaklaşım sadece öznitelikler sıralamakla kalmaz aynı zamanda da sıralaması
düşük olanları eleyerek özellik seçimi de yapar. Altında kalan özelliklerin eleneceği
bir eşik değerini ya da kaç özellik kalması gerektiğini belirlenebilir. Bu çalışma için
41
eşik değeri 0 olarak belirlenmiştir ve sıralama değerleri sıfıra eşit ve küçük olan
öznitelikler böyle elenmiştir.
Ağırlıklandırma yöntemleri ile elde ettiğimiz öznitelik vektörlerinin yardımı ile
öznitelik seçme yöntemleri uygulanarak diğer öznitelik vektörleri elde edilmiştir.
Aşağıdaki çizelgede yeni elde edilen öznitelik vektörleri ile sayıları verilmiştir.
Çizelge 3.3. Öznitelik seçme yöntemleri ile elde edilen öznitelik vektörleri ile
sayıları
Öznitelik
seçme
yöntemleri
Ağırlıklandırma
yöntemi
İkili
TF
CFS
TF-IDF
İkili
TF
Bilgi kazancı
TF-IDF
Ön işleme uygulamadan
önceki hali (original veri
kümesi)
Kelime kökleri (65 özn)
Ön işleme uygulamadan
sonraki hali (indirgenmiş
veri kümesi)
Kelime kökleri (63 özn)
Kelime kökleri (66 özn)
Kelime kökleri (56 özn)
Karakter 2-gram (55 özn)
Karakter 2-gram (58 özn)
Karakter 3-gram (109 özn)
Karakter 3-gram (114 özn)
Kelime kökleri (66 özn)
Kelime kökleri (56 özn)
Karakter 2-gram (54 özn)
Karakter 2-gram (56 özn)
Karakter 3-gram (108 özn)
Karakter 3-gram (113 özn)
Kelime kökleri (334 özn)
Kelime kökleri (330 özn)
Kelime kökleri (335 özn)
Kelime kökleri (331 özn)
Karakter 2-gram (290 özn)
Karakter 2-gram (210 özn)
Karakter 3-gram (1455 özn)
Karakter 3-gram (1213 özn)
Kelime kökleri (335 özn)
Kelime kökleri (330 özn)
Karakter 2-gram (256 özn)
Karakter 2-gram (171 özn)
Karakter 3-gram (108 özn)
Karakter 3-gram (113 özn)
3.4. Sınıflandırma ve Sınıflandırıcılar
Metin sınıflandırmada, bir metin dokümanı kısmen birçok sınıfa karşılık gelebilir.
Burada dokümanın metni için en uygun sınıfı seçmek gerekmektedir.
42
Son on yıl içinde yaygın olarak kullanılan makine öğrenmesine dayanan
sınıflandırma yöntemleri Naive Bayes [58], Karar Ağaçları [59], K-NN [41, 60] ve
DVM [61] sayılabilir. Bu bölümün alt bölümlerinde, en bilinen ve bu çalışmada
kullanılan
doküman
sınıflandırma
yöntemleri
olan
K-NN,
Naive
Bayes,
Multinominal Naive Bayes ve DVM kısaca açıklanacaktır. Tanıtılacak olan
sınıflandırıcılar Weka programının yardımı ile aynı zamanda çalışmada önerilen
yöntemin performansını karşılaştırmak üzere de kullanılacaktır.
Colas ve Brazdil’in gerçekleştirdiği çalışmada [62], bazı çalışmaların öznitelik seçim
teknikleri ya da öznitelik alan dönüşümünü karşılaştırırken, diğer bazılarının ise
farklı algoritmaların performanslarını karşılaştırılması ele alınmıştır. Çeşitli
çalışmaların DVM’nin diğer sınıflandırma algoritmalarından daha iyi performans
gösterdiğini ortaya çıkartılmış olması, son dönemde DVM’e olan ilginin artmasını
sağlamıştır.
“Öyleyse diğer sınıflandırma algoritmalarıyla ilgilenmeyip, her zaman DVM’yi mi
tercih etmemiz gerekmektedir”?
sorusu akıllara gelmiş ve araştırılmaya karar
verilmiş ve DVM ikili sınıflandırma görevlerinde K-NN ve Naive Bayes ile
karşılaştırılmıştır.
Önemli
bir
konu
bu
algoritmaların
optimize
edilmiş
versiyonlarının karşılaştırılmasıdır; elde edilen sonuçlar göstermektedir ki çoğu
problemde
sınıflandırıcıların
tamamı
birbirlerine
yakın
performanslar
elde
etmişlerdir. Şaşırtıcı bir sonuç, geneldeki performansının oldukça iyi olmasına
rağmen DVM’nin açık ara birinci olamamış olmasıdır. Eğer K-NN ile uygun bir ön
işlem kullanılırsa, algoritma çok iyi sonuçlar elde etmeye devam etmekte ve
doküman sayısı arttıkça ölçeği büyümektedir ki, bu durum DVM için geçerli
değildir. Konu Naive Bayes’e geldiğinde, bu da iyi bir performans elde etmiştir.
3.4.1. K – En yakın komşu
K-en yakın komşu (K-NN) sınıflandırması, kendine ait basitliği ve doğruluğu
açısından metin sınıflandırmada yaygın olarak kullanılan yöntemlerden biridir [6].
43
K-NN
sınıflandırması,
istekli
olarak
da
adlandırılan
diğer
sınıflandırma
yöntemlerinden, bütün eğitim örneklerini n-boyutlu bir uzayda noktalar halinde
tutması ve etiketsiz bir örnek sınıflandırılmak isteninceye kadar bir sınıflandırıcı
oluşturmaması yönleri ile ayrılmaktadır [63]. Bu yöntem, sınama öncesinde bir kural
veya fonksiyonlar kümesi oluşturmadığı için eğitim zamanı açısından istekli
yöntemlerden daha etkin olmaktadır. Ancak sınama aşamasında her örnek için
yeniden hesaplama gerektirdiğinden daha yavaş işlem oluşturmaktadır. Bu yöntemin
bir diğer dezavantajı da her bir kategorideki doküman sayılarının birbirinden farklı
olmasına rağmen K-NN ile birbirine çok benzemeyen dokümanların da aynı sınıfa
dahil edecektir. İki belge arasındaki benzerlik Öklid uzaklığı ile ölçülmektedir [6].
X = ( ,...,
) ve Y = ( ,..., ) gibi iki veri noktası için Öklid uzaklığı şu şekilde
hesaplanmaktadır:
(
−
) +(
−
) +⋯+ (
−
) =
∑
(
−
)
(3.8)
Buradaki k, 1'den büyük ve genelde tek olarak seçilen bir tam sayıdır. k sayısı;
-
hatalı sınıflandırmayı azaltmak için büyük seçilmeli.
-
önceden sınıflandırılmış örnek sayısına göre küçük tutularak da yakın
komşuların etkileri artırılmalıdır.
Tüm eğitim dökümanları ve kategorisi belirlenecek olan doküman vektörel olarak
ifade edildikten sonra bu vektörler K-NN algoritması ile karşılaştırılırlar. Aşağıdaki
Şekil 3.4’te örnek verilmiştır. Bu örneğe göre k–en yakın komşu 3 seçildiğinde gelen
noktanın sınıfı B olarak belirlenmektedir çünkü k=3 olduğu zaman en yakın olan
komşuları B sınıfından olmuştur.
44
Şekil 3.4. K-En Yakın Komşu Yöntemi, k=3
Aşlıyan ve Günel’in çalışmasında, En Yakın Komşu ve K-En Yakın Komşu
metotları kullanılarak metin içerikli doküman sınıflandırılmasını gerçekleştiren bir
sistem geliştirilmiştir. Doküman sınıflandırma çalışmalarında kullanılan öznitelik
vektör uzayı sözcüklerin doküman üzerinde görüntülenme sıklıklarına göre ifade
edilmektedir. Yani her bir doküman içindeki sözcüklerin dokümanlardaki frekansları
hesaplanarak sözcük vektör uzayı oluşturulmaktadır. Bu çalışmada ise, sözcük
öznitelik vektörlerinin belirlenmesi iki yaklaşıma göre yapılmaktadır. Birincisi
eğitim derlemindeki her dokümanın öznitelik vektörleri ayrı ayrı hesaplanıp sınıf ve
sınıflardaki dokümanlara göre öznitelik vektör veri tabanı oluşturulmuştur. Daha
sonra da sınıflardaki bütün dokümanlar birleştirilerek her sınıf için bir tane sözcük
öznitelik vektörü oluşturulmuştur. Sonradan birincisi için En Yakın Komşu ve K-En
Yakın Komşu metodu; ikincisi için ise En Yakın Komşu metodu kullanılmıştır. En
Yakın Komşu metodu, K-En Yakın Komşu metoduna göre %88.4 oranında daha
başarılı olduğu görülmüştür [60].
3.4.2. Naive bayes
Uygulanabilirliği ve performansı ile ön plana çıkan özellikle metin dökümanlarının
sınıflandırılmasında yaygın olarak kullanılan sınıflandırma yöntemidir. Diğer bütün
sınıflandırıcılarla karşılaştırıldıklarında en düşük hata oranına sahiptirler [16]. Naive
bayes algoritması, veri madenciliği, örüntü tanıma, makine öğrenmesi gibi disiplinler
içinde yer alan bir sınıflandırma algoritmasıdır.
45
Naïve Bayes sınıflandırıcısı öznitelik seçme de kolay, verimli ve aşırı hasas
olduğundan dolayı öznitelik seçme araştırması için önemlidir [39]. Dezavantajı ise
çok boyutlu verilerde iyi sonuç verememesidir [64].
Elimizde n adet sınıf olduğunu farz edelim,
,
,…,
. Herhangi bir sınıfa ait
olmayan bir veri örneği A’nın, hangi sınıfa ait olduğu Naive Bayes sınıflandırıcısı
tarafından belirlenir. Veri örneği A, verilen sınıflara ait olma olasılığı en yüksek
değere sahip sınıfa atanır. Sonuç olarak, Naive Bayes sınıflandırıcı bilinmeyen örnek
A’yı,
=
sınıfına atar. Her veri örneği, m boyutlu öznitelik vektörleri ile gösterilir,
,
. Naive Bayes yönteminde özniteliklerin hepsi aynı derecede
,…,
önemlidir. Öznitelikler birbirinden bağımsızdır ve bir özniteliğin diğer başka bir
öznitelik hakkında bilgi içermemektedir. Bayes teoremi aşağıdaki denklemle ifade
edilir;
=
( | )=
,
örneğinin
,…,
sınıfında olma olasılığı
( | ) ( )
(3.9)
( )
P(A) bütün sınıflar için sabit ise, A örneğinin
sınıfında olma olasılığına,
( | ) ( ) ifadesi ile ulaşabiliriz. P( ), her bir sınıfın olasılığı olup aşağıdaki
formül ile hesaplanır.
( )=
ğ
ö
ö
(3.10)
Bu yöntemde bir dokümanın bir sınıfa ait olma olasılığı, dokümandaki her kelimenin
o sınıfa ait olma olasılıkların çarpımının o metin sınıfının olasılığına çarpılması
sonucunda bulunmaktadır.
( | )=∏
(
| )
Burada, P(A) ve P( ) - A ve
(3.11)
olaylarının ilksel olasılıklarıdır, P(A| ) -
olayı
gerçekleştiği durumda A olayının meydana gelme olasılığıdır, P( |A) - A olayı
46
gerçekleştiği durumda
olayının meydana gelme olasılığıdır. Diğer bir ifadeyle
örneğin P(A) henüz elde veri bulunmadan A olayı hakkında sahip olunan bilgidir.
Diğer taraftan P(
|A) son olarak hesaplanan olasılıktır çünkü veri toplandıktan
sonra, A olayının gerçekleşmiş olduğu durumlarda
olayının gerçekleşme ihtimali
hakkında bilgi verir.
3.4.3. Multinominal naïve bayes (Çok terimli naive bayes)
Metin sınıflandırma açısından çok terimli Naive Bayes modeli uygun görülmektedir
[65]. Çok terimli Naive Bayes modeli, bir olasılıksal öğrenim yöntemidir.
Dokümanlardaki her terimin sıklığı ile ilgilenmektedir. Bir d dokümanının c sınıfı
içinde olma olasılığı şuna göre hesaplanır:
( | ) ∝ ( )∏
( | )
(3.12)
burada P (tk|c), tk teriminin c sınıfındaki bir dokümanda görülme olasılığıdır.
P(tk|c)’yı, tk’nın c’nin doğru sınıf olduğuna ilişkin ne kadar ipucu sağladığının bir
ölçüsü olarak yorumlarız. P(c), c sınıfında karşılaşılan bir dokümanın ön olasılığıdır.
Eğer bir dokümanın terimleri diğer sınıfa yönelik açık bir ipucu sağlayamazlarsa,
daha yüksek ön olasılığı olanı seçilir. (t1, t2,..., tnd), d’de yer alan ve sınıflandırma için
kullandığımız sözlüğün birer parçası olan sembollerdir ve
d’deki bu tür
sembollerin sayısıdır.
Metin sınıflandırmada, amaç doküman için en iyi sınıfın bulunmasıdır. Naive Bayes
sınıflandırmadaki en iyi sınıf en olası olan ya da maksimum posteriori (MAP)
sınıftır.
=
max ∈
( | )=
max ∈
( )∏
( | )
(3.13)
- parametrelerin gerçek değerlerini bilinmediği için bu şekilde kullanılmış. Eşitlik
3.13’de, pek çok koşullu olasılık çarpılmıştır, 1 < k <
durumuna uygun her durum
47
için bir adettir. Dolayısıyla hesaplamanın, olasılıkları çarpmak yerine olasılıkların
logaritmalarının toplanarak yapılması daha iyi sonuçların elde edilmesini sağlar. En
yüksek log olasılığı olan sınıf hala olasılığı en yüksek olandır; log(xy) = log(x) +
log(y) ve logaritma fonksiyonu tekdüzedir. Bu kapsamda, çoğu Naive Bayes
uygulamasında yapılan maksimizasyonu şudur:
=
Her bir ( )+∑
max ∈
( | )
( | ) ağırlığı C için
Benzer şekilde,
(3.14)
göstergesinin ne kadar iyi olduğunu belirtir.
( ) c’nın göreli frekansını gösteren bir ağırlığıdır. Daha sık
sınıfların seyrek sınıflara göre doğru sınıf olma olasılığı yüksektir.
Veri kümesi büyük olduğunda bu modeller arasından en uygun olanı çok terimli
modeldir, fakat çok terimli modelin iki ciddi sorunu bulunmaktadır. İlki kaba
parametre kestirimi ve diğeri sadece birkaç eğitim dokümanı içeren az bulunan
sınıfın işlenmesinin yarattığı sorundur.
3.4.4. Destek vektör makinesi
Destek vektör makineleri (DVM) ayırt edici sınıflandırma yöntemlerinden biri olan
genellikle doğru sınıflandırıcı olarak kabul edilir [5].
Doğrusal (lineer) DVM’yi doğrusal olmayan sınıflandırma düzlemine taşımak
amacıyla Vapnik bir çekirdek (kernel) fonksiyonu kavramı önermiştir, buradaki
temel fikir şudur: girdi x vektörünün daha önceden belirlenmiş doğrusal olmayan
haritalama kullanılarak iki Hilbert alanını haritalanması ve daha sonra da Hilbert
alanında optimal bir sınıflandırma düzleminin oluşturulmasıdır. Dolayısıyla, farklı
çekirdek fonksiyonlarının kullanımı vasıtasıyla girdi alanındaki farklı türlerin
doğrusal
olmayan
gerçekleştirebilir [44].
karar
düzlemlerine
yönelik
bir
öğrenme
makinesini
48
DVM yönteminde ana fikir pozitif ve negatif örnekleri ayıran en uygun düzlemin
bulunmasıdır [66]. En uygun düzlemi bulabilmek için, her iki sınıfın en uygun
düzlemine en yakın veri noktalarından geçen ve birbirine paralel olan düzlemleri
çizmektir. Bu düzlemler arasındaki mesafe en uygun düzlemin kalitesini belirler.
DVM iki sınıf arasındaki sınırı ayırt etme yüzeyini belirlemekte, yani eğitim kümesi
ile
ayırt
etme
yüzeyine
en
yakın
noktaların
arasındaki
mesafeyi
maksimumlaştırmaktadır.
Şekil 3.5. DVM yönteminin düzlemlerin koordinat düzleminde görüntülenmesi
3.4.5. Sınıflandırıcıların uygulanması
Sınıflandırma yapmak için Weka program içerisinde olan Lazy, Bayes, Functions ve
Meta modelleri kullanılmıştır. Sınıflandırma algoritmaları ile ilgili test seçenekleri
için 3.1 bölümünde bilgi verilmiştir. Sırayla sınıflandırıcıların “Classify” sekmesinin
hangi alt bölümleri üzerinde gerçekleştiği gösterilmiştir:
•
K- En Yakın Komşu yöntemi için Classifier=>Lazy=>IBk
•
Naïve Bayes yöntemi için Classifier=>Bayes=>Naïve Bayes
•
Multinominal Naïve Bayes için Classifier=>Bayes=>Multinominal Naïve
Bayes
•
DVM yöntemi için Classifier=>Function=>SMO Sequential Minimal
Optimisation kelimelerinin baş harflerinden meydana gelen SMO, esas
itibariyle DVM’ni kullanan bir algoritmadır [67].
49
Örnek olarak K-En Yakın Komşu sınıflandırma algoritması seçilmiştir. Weka
programının “Classify” sekmesinden yer alan “Classifier” bölümündeki Lazy alt
bölümünen IBk modeli seçilmiştir. Sonradan kullanıcı kendisine göre k değerlerini
değiştirebilir, bu çalışmada ise k’nın 1,3,5,7 değerleri üzerinde test yapılmıştır.
Aşağıdaki çizelgede k’nın farklı değerleri ile elde edilen sonuçlar verilmiştir. Ön
işleme aşamasından önceki hali ve sonrak halinde de ortalama olarak k’nın en
yüksek değeri 1’e eşit olmuştur. Ön işleme aşaması uygulandıktan sonraki halinde
k’nın değerinin artışı görülmüştür. İlerideki çalışmalarda k’nın sadece en yüksek
başarı gösteren değerleri kullanılacaktır.
Çizelge 3.4. k’nın farklı değerlerinde alınan sonuçlar (% olarak verilmiştir)
Ön işleme aşamasından
önceki hali (k’nın
değerleri)
Öznitelik vektörleri
Kelime kökleri+TF
Kelime kökleri+CFS+TF
Kelime
kökleri+bilgi
kazancı+TF
Kelime kökleri+TF-IDF
Kelime kökleri+CFS+TFIDF
Kelime
kökleri+bilgi
kazancı+TF-IDF
Kelime kökleri+ikili
Kelime kökleri+CFS+ikili
Kelime
kökleri+bilgi
kazancı+ikili
2-gram+TF
2-gram+CFS+TF
2-gram+bilgi kazancı+TF
2-gram+TF-IDF
2-gram+CFS+TF-IDF
2-gram+bilgi kazancı+TFIDF
3-gram+TF
3-gram+CFS+TF
3-gram+bilgi kazancı+TF
3-gram+TF-IDF
3-gram+CFS+TF-IDF
2-gram+bilgi kazancı+TFIDF
Ön işleme aşamasından
sonraki hali (k’nın
değerleri)
k=1
k=3
k=5
k=7
k=1
k=3
k=5
k=7
52,22
85,56
42,22
40,56
41,11
42,78
37,22
38,33
86,67
88,33
88,33
48,89
83,33
86,11
87,22
81,67
80
82,78
76,67
82,22
80,56
88,89
78,89
52,78
85,56
41,67
40,56
41,67
37,78
40
88,33
88,33
49,44
83,33
42,22
86,67
86,11
88,89
87,22
81,67
80
82,78
82,78
82,22
81,11
79,44
75
78,89
75,56
72,22
75,56
75,56
73,89
95,56
96,11
96,11
80
96,11
80
97,78
93,89
96,67
96,11
93,33
95
94,44
91,67
97,22
93,89
95
93,89
55
54,44
90
47,22
50
75
77,22
88,33
77,78
88,33
73,89
90
88,33
88,33
90
90,56
66,11
88,89
88,89
87,78
70,56
70,56
88,33
90,56
90
76,67
88,33
49,44
84,44
91,11
87,78
51,67
44,44
42,22
89,44
90
80,56
88,89
88,33
71,67
89,44
85
83,89
89,44
88,89
90,56
86,67
47,78
89,44
45
40,56
39,44
60,56
58,89
92,22
91,67
81,67
76,11
87,22
92,22
86,67
91,67
83,89
92,22
76,67
70
91,67
68,89
91,67
86,67
85
47,22
88,33
41,11
37,22
34,44
65,56
58,89
57,78
91,67
91,67
92,22
81,11
75,56
83,89
84,44
95
83,89
91,67
85
93,89
75
67,78
92,22
87,22
87,78
83,33
50
4. DENEYSEL ÇALIŞMALAR
Çalışmada kullanılan yöntemler metin işleme sürecini takip ederek uygulanmıştır. Bu
denemeler (Türkçe bilimsel makalelerden oluşan veri kümesindeki çalışmalar) farklı
iki veri kümesini içermektedir: 1) ön işleme uygulamadan önceki ve 2) ön işleme
uygulandıktan sonraki veri setleri. Böylece ön işleme aşaması uygulandıktan sonra
sınıflandırma başarısında bir artış olup olmayacağı araştırılmıştır. Metin işleme
yöntemlerini kullanarak oluşturulan farklı öznitelik vektörlerini elde etmede bu iki
veri kümesi kullanılmıştır.
Daha sonra Weka [68] programının içerisinde yer alan öznitelik seçme yöntemleri ile
sınıflandırma yöntemleri kullanılarak çalışmadaki veri kütüphanesi için en uygun
metin işleme yöntemi bulunmaya çalışılmıştır. Bu çalışmanın başarısının sınanması
için Weka program içerisinde olan Lazy, Bayes, Functions ve Meta sınıflandırıcıları
kullanılmıştır. Lazy modelindeki k-En Yakın Komşu yöntemi çeşitli k değerleri
(k=1,3,5,7) üzerinde denenmiştir ve en yüksek performans gösteren k değeri
seçilmiştir.
birleştirilmeye
Sınıflandırma başarısını arttırmak amacıyla öznitelik vektörleri
çalışılmıştır.
Elde
edilen
tüm
sınıflandırma
yüzdeleri
karşılaştırılmıştır. Farklı ağırlıklandırma yöntemleri ile elde edilen öznitelik
vektörleri şunlardır; kelime köklerinden oluşan öznitelik vektörleri, n-gramlar’dan
oluşan öznitelik vektörleri, öznitelik seçme sonucu elde edilen öznitelik vektörleri ve
öznitelik düzeyinde birleştirme ile elde edilen öznitelik vektörleri. Sınıflandırıcının
performans ölçeklerin değerlendirmek için Weka programında elde edilen
karmaşıklık matrisi (confusion matrix) kullanarak F-ölçeği hesaplanmıştır. Aşağıda
metin
işleme
yöntemi aşamalarına
göre
elde
edilen
öznitelik
vektörleri
açıklanacaktır.
Weka programı her türlü dosyayı doğrudan okuyamamaktadır. Weka arff dosya
uzantısını desteklemektedir. Text2arff yazılımı ile veri kütüphanesindeki tüm
terimlere ait öznitelikleri çıkardıktan sonra elde edilen veriler kolay sınıflandırılması
için arff dosya formatına dönüştürülmüştür. Kemik Doğal Dil İşleme Grubu
51
tarafından yapılan text2arff [51] yazılımı metinleri belli yöntemlere göre
sayısallaştıran yani öznitelikleri çıkaran bir yazılımdır. Oluşturulan dosyalar, başka
işleme gerek duyulmadan Weka programında çalıştırılabilmektedir. Arff dosya
uzantısına kaydedilmesinin nedeni, birçok makine öğrenme yöntemlerini içeren
Weka yazılımının bu formatı doğrudan kullanabilmesidir.
text2arff yazılımının
ürettiği arff dosyasının sütun boyutu dokümandan geçen tüm terimlerin (en azından
bir kere) sayısı kadardır, satır boyutu ise toplam doküman sayısına eşittir.
4.1. Veri Kümesi Bilgileri
Çalışmada iki Türkçe veri kümesi kullanılmıştır. İlk elde ettiğimiz veri kütüphanesi
altı sınıf (anlamsal ağlar, görüntü işleme, kablosuz ağlar, metin sınıflandırma, turizm
ve uzaktan eğitim) içeren toplam 180 Türkçe metinden oluşmaktadır. Her sınıfta
30’ar doküman bulunmaktadır. İkinci veri kümesi ise karşılaştırma amacı ile
kullanılmaktadır.
Veri kütüphanesinin oluşum aşamaları aşağıdaki şekilde gösterilmektedir.
PDF dosyalarının toplanması
(bilimsel makaleler)
PDF dosya formatından metin
dosya formatına dönüştürme
Ön işleme
Şekil 4.1. Veri kütüphanesinin oluşturulması
52
Veri kütüphanesini elde etmek için internetteki farklı konuda olan Türkçe bilimsel
makaleler ve tez çalışmaları toplanarak bir veri kümesi oluşturulmuştur. Makalelerin
formatı doc ve çoğunlukla PDF formatında olduğundan dolayı metin dosya formatına
(.txt) göre değiştirilmiştir. Sonradan ön işleme aşamasından geçirilmiştir. Veri
kütüphanesi 3189 öznitelik vektörü içermektedir. Elde ettiğimiz bu veri kütüphanesi
hem eğitim hem de test için kullanılmıştır. Nasıl kullanıldığı Bölüm 3.1’de
açıklanmıştır.
Çizelge 4.1. Bilimsel makalelerden oluşan veri kütüphanesi ve makale sayısı
Sınıf
Sayısı
Sınıf Adı
Makale Sayısı
1
Anlamsal Ağlar
30
2
Görüntü İşleme
30
3
Kablosuz Ağlar
30
4
Metin Sınıflandırma
30
5
Turizm
30
6
Uzaktan Eğitim
30
Toplam
180
İkincisi [8, 9] çalışmalarında kullanılan gazetelerdeki haber sayfalarında 5 (ekonomi,
magazin, sağlık, siyasi, spor) konuda toplanmış veri kütüphanesidir. Her sınıf 230’ar
tane olmak üzere toplam 1150 haber metninden oluşmaktadır.
Çizelge 4.2. 1150 haberden oluşan veri kütüphanesi ve doküman sayısı
Sınıf
Sayısı
Sınıf Adı
Doküman
Sayısı
1
Ekonomi
230
2
Magazin
230
3
Sağlık
230
4
Siyasi
230
5
Spor
230
Toplam
1150
53
4.2. Kelime Köklerinden Oluşan Öznitelik Vektörlerinden Elde Edilen Sonuçlar
Türkçe bilimsel makalelerden meydana gelmiş veri kümesinde kelime köklerinden
oluşan öznitelik vektörlerinin ön işleme aşamasından önceki hali 3189 öznitelik
vektörü içermektedir, ön işleme aşamasından sonraki hali ise yani indirgenmiş veri
kümesi 3071 öznitelik vektörü içermektedir. Ön işleme aşamasında çıkarma, silme
gibi işlemleri gerçekleştirdiğimiz için öznitelik sayısı azalmıştır. Aşağıdaki çizelgede
kelime köklerinden oluşan farklı ağırlıklandırma yöntemleri kullanılarak elde edilen
öznitelik vektörleri 4 tane sınıflandırma yöntemine göre sınıflandırılmıştır.
Çizelge 4.3. Kelime köklerinden oluşan öznitelik vektörleri (Ön işleme aşamasından
önceki hali)
Öznitelik
vektörleri
KNN
N.Bayes
M.N.Bayes
DVM
Ortalama
Kelime kökleri+ikili
%78,89 k=1
%96,11
%95,56
%96,11
%91,66
Kelime kökleri+TF
Kelime kökleri+TFIDF
Ortalama
%52,22 k=1
%95,56
%98,33
%88,33
%83,61
%52,78 k=1
%96,11
%98,33
%88,33
%83,88
%61,22
%95,93
%97,54
%90,92
Çizelge 4.3’te görüldüğü üzere kelime köklerinden oluşan öznitelik vektörlerindeki
TF ve TF-IDF ağırlıklandırma yöntemleri ile elde edilen sonuçlar % 98,33’lik en
yüksek başarıya ulaşmıştır. Ortalama olarak kelime köklerinden oluşan öznitelik
vektörlerindeki ikili ağırlıklandırma yöntemi ile elde edilen sonuçlar en yüksek
başarıya ulaşmıştır. Bu öznitelik vektörünün tüm sınıflandırıcılar için gösterdiği
ortalama başarı yüzdesi %91,66 olmuştur. Bundan sonra sırası ile TF-IDF yöntemi
yer almış ve en düşük başarıya TF yöntemi sahip olmuştur. Tüm öznitelik vektörleri
için sınıflandırma yöntemlerinin içinde en yüksek ortalama başarı yüzdesi %97,54
Multinominal Naive Bayes yöntemi ile elde edilmiştir. K-En Yakın Komşu yöntemi
için en yüksek performansı k=1 değeri oluşturmuş ve sınıflandırıcılar arasında
ortalama olarak en düşük performans göstermiştir. K-En Yakın Komşu yönteminin
düşük başarı gösterme nedeni veri kümesi boyutunun büyük olduğundan dolayı
kaynaklandığı düşünülmektedir.
54
Çizelge 4.4. Kelime köklerinden oluşan öznitelik vektörleri (Ön işleme aşamasından
sonraki hali)
Öznitelik
vektörleri
KNN
N.Bayes
M.N.Bayes
DVM
Ortalama
Kelime kökleri+ikili
%80 k=1
%96,11
%96,11
%97,22
%92,36
Kelime kökleri+TF
Kelime kökleri+TFIDF
Ortalama
%48,89 k=1
%93,89
%98,33
%89,44
%82,63
%49,44 k=1
%94,44
%97,78
%89,44
%82,78
%59,44
%94,81
%97,41
%92,03
Çizelge 4.4 incelendiğinde kelime köklerinden oluşan öznitelik vektörlerindeki TF
ağırlıklandırma yöntemi ile elde edilen sonuç % 98,33’lik en yüksek başarıya
ulaşmıştır. Bu yöntem ön işleme aşamasından sonra sabit kalmıştır. İkili ağırlık
yöntemi ile elde edilen öznitelik vektöründe ön işleme aşamasından sonra tüm
sınıflandırıcıların başarı yüzdelerinin arttığı görülmektedir. “Kelime kökleri+TF” ve
“kelime kökleri+TF-IDF” öznitelik vektörleri ortalama sonuçlarının arasında çok az
bir fark (0,15) bulunmuştur. Bu da TF-IDF yönteminin başarılı bir yöntem olduğunu
kanıtlamıştır.
“Kelime
kökleri+TF-IDF”
öznitelik
vektörlerinin
ön
işleme
aşamasından sonra başarı yüzdesi (%97,78) düşüşü görülmüştür. Bu sonuçlara
bakılarak TF-IDF yöntemi için durak kelimelerin çıkarılmasının sınıflandırıcıların
kesinliklerini etkilemediği, fakat öznitelik alanının işleme zamanını azalttığı
görülmüştür. K-En Yakın Komşu yöntemi Naive Bayes ve DVM yöntemlerine göre
fazlaca düşüş gösterdiği görülmektedir. İncelediğimiz çizelgeye göre en başarılı
yöntem yine Multinominal Naive Bayes modeli olduğu görülmektedir.
Çizelge 4.3 ile Çizelge 4.4’e bakılacak olursa DVM yöntemi dışında kullanılan diğer
yöntemler ön işleme aşamasından sonra düşüş göstermiştir.
4.3. N-gram’dan Oluşan Öznitelik Vektörlerinden Elde Edilen Sonuçlar
2-gram’dan oluşan öznitelik vektörlerinin ön işleme aşamasından önceki hali 3218
öznitelik vektörü içermektedir, ön işleme aşamasından sonraki hali ise yani
indirgenmiş veri kümesi 958 öznitelik vektörü içermektedir.
55
Çizelge 4.5. 2-gram’dan oluşan öznitelik vektörleri (Ön işleme aşamasından önceki
hali)
Öznitelik
vektörleri
2-gram+TF
2-gram+TF-IDF
Ortalama
KNN
N.Bayes
M.N.Bayes
DVM
Ortalama
%55 k=1
%51,67 k=3
%53,34
%79,44
%81,67
%80,55
%96,67
%78,33
%87,5
%92,22
%90,56
%91,39
%80,83
%75,55
Çizelge 4.5 incelendiğinde 2-gram’dan oluşan öznitelik vektörlerindeki TF
ağırlıklandırma yöntemi ile elde edilen sonuçları TF-IDF yöntemine göre yüksek
başarı göstermiştir. Ama Naive Bayes yöntemi ile elde edilen sonuçlara bakılacak
olursa
TF-IDF
ağırlıklandırma
yönteminde
daha
başarılı
sonuç
verirken
Multinominal Naive Bayes yönteminde ciddi bir düşüş olduğu görünmektedir. TF
ağırlıklandırma yöntemi tüm sınıflandırıcı yöntemlere uygulandığında Multinominal
Naive Bayes yöntemi kullanarak %96,67 en yüksek başarı yüzdesinin alındığı
görülmektedir. Bu sınıflandırıcılar arasında ortalamalara bakılırsa DVM yönteminin
başarısı %91,39 iken diğer yöntemlerin ortalamaları daha düşüktür.
Çizelge 4.6. 2-gram’dan oluşan öznitelik vektörleri (Ön işleme aşamasından sonraki
hali)
Öznitelik
vektörleri
2-gram+TF
2-gram+TF-IDF
Ortalama
KNN
N.Bayes
M.N.Bayes
DVM
Ortalama
%77,78 k=3
%71,67 k=1
%74,72
%85,56
%84,44
%85
%97,78
%92,22
%95
%93,33
%91,11
%92,22
%88,61
%84,86
Çizelge 4.6’da ön işleme aşamasından sonra elde edilen öznitelik vektörleri
gösterilmiştir. Öznitelik vektörleinin tüm sınıflandırma yöntemlerinden alınan
sonuçların ortalamasına bakılacak olursa TF yöntemi TF-IDF yönteminden %88,61’e
daha başarılı olmuştur. Sınıflandırma başarısı en yüksek algoritmaya sahip olan
Multinominal Naive Bayes yöntemidir.
Çizelge 4.5 ile Çizelge 4.6 incelendiğinde tüm sınıflandırma yöntemlerinde
ön
işleme aşamasından sonra başarı yüzdeleri artmıştır. Bu sonuçlara bakılarak metin
işleme sürecinde ön işleme aşamasının etkili olduğu kanıtlanmıştır. 2-gram ile elde
56
edilen öznitelik vektörlerinde TF yöntemine göre TF-IDF yönteminin başarı oranı
daha düşük olduğu görülmektedir.
Kullandığımız veri kütüphanesindeki 3-gram’dan oluşan öznitelik vektörlerinin ön
işleme aşamasından önceki hali 25483 öznitelik vektörü içermektedir, ön işleme
aşamasından sonraki indirgenmiş veri kümesi 11132 öznitelik vektörü içermektedir.
Çizelge 4.7. 3-gram’dan oluşan öznitelik vektörleri (Ön işleme aşamasından önceki
hali)
Öznitelik
vektörleri
3-gram+TF
3-gram+TF-IDF
Ortalama
KNN
N.Bayes
M.N.Bayes
DVM
Ortalama
%47,78 k=1
%47,22 k=1
%47,5
%90,56
%91,67
%91,12
%97,78
%95
%96,39
%94,44
%94,44
%94,44
%82,64
%82,08
Çizelge 4.7 incelediğimizde en yüksek %97,78 başarı ile TF yöntemi olmuştur. İki
farklı ağırlıklandırma yöntemi kullanılarak elde edilen 3-gram’dan oluşan öznitelik
vektörlerinin sonuçlarında çok büyük fark görülmemiştir. Ortalamalarına bakılacak
olursa %0,56 oranı ile TF yöntemi başarılı olmuştur. Bu incelemede de Multinominal
Naive Bayes yöntemi ortalama olarak %96,39 oranı ile başarılı olduğu görülmüştür.
Çizelge 4.8. 3-gram’dan oluşan öznitelik vektörleri (Ön işleme aşamasından sonraki
hali)
Öznitelik
vektörleri
3-gram+TF
3-gram+TF-IDF
Ortalama
KNN
N.Bayes
M.N.Bayes
DVM
Ortalama
%70 k=1
%67,78 k=1
%68,89
%91,11
%90,56
%90,84
%97,78
%96,67
%97,23
%95
%95,56
%95,28
%88,47
%87,64
Çizelge 4.8’de TF ağırlıklandırma
yöntemi tüm sınıflandırıcı yöntemlere
uygulandığında en yüksek başarı yüzdesinin Multinominal Naive Bayes yöntemini
kullanarak alındığı görülmektedir. En yüksek %97,78 başarı ile TF yöntemi
olmuştur. Öznitelik vektörleri ile elde edilen sonuçların ön işleme aşamasından
geçirildikten sonraki farkına bakıldığında TF-IDF yöntemi sadece DVM yönteminde
57
artış gösterdiği görülmüştür. Buradan DVM ve Multinominal Naive Bayes
yönteminin beklenen sonucu gösterdiğini kanıtlamış olduk.
4.4. Öznitelik Seçme Sonucu Oluşan Öznitelik Vektörlerinden Elde Edilen
Sonuçlar
Türkçe bilimsel makalelerden oluşan veri kümesinde TF ve TF-IDF yöntemlerine
göre kelime köklerinden oluşan öznitelik vektörlerinin ön işleme aşamasından önceki
hali 66 öznitelik vektörü ve ikili yöntemine göre 65 öznitelik vektörü içermektedir,
TF ve TF-IDF yöntemlerine göre ön işleme aşamasından sonraki hali ise yani
indirgenmiş veri kümesi 56 öznitelik vektörü ve ikili yöntemine göre 63 öznitelik
vektörü içermektedir. Ön işleme aşamasında çıkarma, silme gibi işlemleri
gerçekleştirdiğimiz için öznitelik sayısı azalma göstermiştir.
Çizelge 4.9. KTÖS yöntemi ile seçilen öznitelik vektörleri (Ön işleme aşamasından
önceki hali)
Öznitelik vektörleri
KNN
N.Bayes
M.N.Bayes
DVM
Ort.
Kelime kökleri+ikili+CFS
%97,78 k=1
%97,78
%97,22
%97,78
%97,64
Kelime kökleri+TF+CFS
Kelime kökleri+TFIDF+CFS
2-gram+TF+CFS
2-gram+TF-IDF+CFS
3-gram+TF+CFS
3-gram+TF-IDF+CFS
Ortalama
%88,33 k=5
%93,33
%98,33
%91,11
%92,76
%88,33 k=5
%93,33
%97,22
%91,11
%92,05
%91,11 k=5
%90 k=3
%92,22 k=5
%93,89 k=7
%91,66
%89,44
%89,44
%96,11
%95,56
%93,57
%95,56
%95
%98,33
%98,33
%97,14
%93,89
%93,89
%96,67
%95,56
%94,29
%92,5
%92,08
%95,83
%95,83
KTÖS yöntemi ile seçilen öznitelik vektörlerinde ikili yöntemi ile ortalama
%97,64’lük başarı göstererek en başarılı olmuştur. Tekil öznitelik vektörü olarak
“kelime kökleri+TF”, “3-gram+TF+CFS” ve “3-gram+TF-IDF+CFS” ile %98,33
başarıyı elde edilmiştir. Tüm öznitelik vektörlerinde en yüksek algoritma başarısı
Multinominal Naive Bayes yöntemi ile elde edilmiştir. Öznitelik seçme yöntemi
uygulandıktan sonra tüm sınıflandırıcıların ortalama başarı yüzdesi artmıştır. Burdan
öznitelik
seçme
aşamsının
başarı
yözdesinin
olumlu
yönde
etkilediğinin
58
süyleyebiliriz. KTÖS yöntemi, ancak verileri kopya alanının küçük bir kısmına
yönelik belirleyici değeri olan öznitelikler ya da birbirleriyle etkileşimi çok olan
öznitelikler içerdiği zaman, ilgili öznitelikleri seçmekte başarısız olabilmektedir.
Çizelge 4.10. KTÖS yöntemi ile seçilen öznitelik vektörleri (Ön işleme aşamasından
sonraki hali)
Öznitelik vektörleri
Kelime kökleri+ikili+CFS
Kelime kökleri+TF+CFS
Kelime kökleri+TF-IDF+CFS
2-gram+TF+CFS
2-gram+TF-IDF+CFS
3-gram+TF+CFS
3-gram+TF-IDF+CFS
Ortalama
KNN
%97,22
k=3
%88,89
k=5
%88,89
k=5
%88,89
k=7
%90,56
k=5
%92,22
k=3
%95 k=5
%91,67
N.Bayes
M.N.Bayes
DVM
Ort.
%98,33
%98,33
%97,22
%97,76
%93,89
%97,22
%91,11
%92,78
%93,89
%96,67
%91,11
%92,64
%91,67
%95
%93,89
%92,36
%91,67
%95,56
%93,89
%92,92
%95
%93,33
%97,22
%94,44
%94,44
%94,13
%97,78
%96,27
%98,89
%94,76
%96,53
Çizelge 4.10’dan görüldüğü gibi ön işleme aşamasından geçirilen veri kümesini
kullandığımızda tüm sınıflandırıcı yöntemlerinde başarı yüzdesi artmıştır. %98,33
“kelime kökleri+ikili+CFS” öznitelik vektörü ile, %98,89 “3-gram+TF-IDF+CFS”
öznitelik vektörü ile en yüksek başarı elde edilmiştir. Sonuç olarak sınıflandırıcıların
ortalama yüzdesi arttığı için ön işleme aşamasının etkili olduğu kanıtlanmıştır. Bu
deney sonuçlarına göre ikili ağırlıklandırma yöntemi ile elde edilen öznitelik vektörü
%98,33 yüksek başarıya ulaşmıştır. Ortalama olarak TF-IDF yöntemi TF’e göre
başarılı olmuştur.
59
Çizelge 4.11. Bilgi kazancı yöntemi ile seçilen öznitelik vektörleri (Ön işleme
aşamasından önceki hali)
Öznitelik vektörleri
KNN
N.Bayes
M.N.Bayes
DVM
Ort.
Kelime kökleri+ikili+ bilgi kazancı
%95 k=5
% 97,78
% 97,78
% 97,78
%97,09
% 97,22
% 98,89
% 89,44
%92,08
% 97,22
% 99,44
% 90,56
%92,05
% 91,67
% 97,78
% 96,11
%93,47
% 91,11
% 93,89
% 96,11
%92,08
% 96,67
% 98,33
% 96,11
%93,75
% 96,67
%95,48
% 98,89
%97,86
% 96,11
%94,6
%94,17
Kelime kökleri+TF+bilgi kazancı
Kelime kökleri+TF-IDF+ bilgi
kazancı
2-gram+TF+ bilgi kazancı
2-gram+TF-IDF+ bilgi kazancı
3-gram+TF+ bilgi kazancı
3-gram+TF-IDF+ bilgi kazancı
Ortalama
% 82,78
k=5
% 82,78
k=5
% 88,33
k=1
% 87,22
k=1
% 83,89
k=1
% 85 k=1
%86,43
Çizelge 4.11’de bilgi kazancı yöntemi yardımı ile elde edilen öznitelik vektörlerinin
sonuçları incelendiğinde yine ikili yöntemi yüksek başarı göstermiştir. “Kelime
kökleri+TF+bilgi kazancı” ve “3-gram+TF-IDF+bilgi kazancı” öznitelik vektörleri
ile %98,89’luk en yüksek başarı elde edilmiştir. KTÖS yöntemi ve bilgi kazancı
yöntemi ile elde edilen sonuçların arasında çok fark olmamıştır ayrıntılı incelersek
KTÖS’e göre bilgi kazancı yönteminin başarılı olduğunu söyleyebiliriz. Çizelge
4.10’da K-NN yönteminde ciddi bir yükseliş olmuştur, bu çizelgede tam tersi K-NN
yönteminde düşüş görülürken diğer 3 adet sınıflandırıcıda yükselişi görmekteyiz. TF
ve TF-IDF yöntemleri arasında çok fark olmadığı ve 3-gram ile elde edilen öznitelik
vektörlerinde TF-IDF yönteminin daha başarılı olduğunu görülmektedir.
60
Çizelge 4.12. Bilgi kazancı yöntemi ile seçilen öznitelik vektörleri (Ön işleme
aşamasından sonraki hali)
Öznitelik vektörleri
Kelime kökleri+ikili+bilgi
kazancı
Kelime kökleri+TF+bilgi
kazancı
Kelime kökleri+TF-IDF+bilgi
kazancı
2-gram+TF+ bilgi kazancı
2-gram+TF-IDF+ bilgi kazancı
3-gram+TF+ bilgi kazancı
3-gram+TF-IDF+ bilgi kazancı
Ortalama
KNN
N.Bayes
M.N.Bayes
DVM
Ort.
%95 k=5
%97,78
%98,33
% 98,33
%97,36
% 96,67
% 98,89
% 91,11
%92,22
% 95,56
% 97,22
% 90,56
%91,39
% 88,89
% 97,78
% 96,67
%93,48
% 88,33
% 94,44
% 95,56
%91,94
% 96,67
% 98,33
% 97,22
%94,86
% 96,67
% 98,33
% 96,11
%93,89
%94,38
%97,62
%95,08
% 82,22
k=1
% 82,22
k=1
% 90,56
k=3
% 89,44
k=1
% 87,22
k=1
% 84,44
k=3
%87,3
Çizelge 4.12 incelendiğinde ikili yöntemi ile elde edilen öznitelik vektörleri ortalama
olarak yüksek başarıya sahip olduğu görülmektedir.
“Kelime kökleri+TF+bilgi
kazancı” öznitelik vektörü %98,89 yüzde ile en yüksek başarıya sahip olmuştur.
Ancak TF-IDF yönteminin TF yöntemine göre daha başarısız olduğu çizelgeye
bakarak söylenebilir. En başarılı sınıflandırıcı yöntemi yine Multinominal Naive
Bayes modeli olmuştur ve Naive Bayes yöntemi ile birlikte ön işleme aşamasından
geçirilen verilerde az bir düşüş göstermiştir.
Genel olarak bilgi kazancı yöntemi ile elde ettiğimiz öznitelik vektörlerinin
sonuçlarına bakıldığında (Çizelge 4.11 ve Çizelge 4.12) K-NN yönteminde düşüş
görülmektedir. Bölüm 3.3.3’e bakıldığında bilgi kazancı yöntemi ile elde edilen
öznitelik vektörlerinin sayısı KTÖS yöntemine göre fazla seçilmiştir. K-NN yöntemi
az bouytlu verilerle çalıştığında yüksek başarı göstermektedir. Öznitelik seçme
yöntemleri ile elde edilen öznitelik vektörlerini uyguladıktan sonraki sonuçlara
bakılacak olursa TF-IDF yönteminin TF yöntemine göre daha fazla etkilendiği
söylenebilir.
61
4.5. Öznitelikler Düzeyinde Birleştirmede Oluşan Öznitelik Vektörlerinden
Elde Edilen Sonuçlar
Kullandığımız 2 adet öznitelik seçme sonucu oluşan öznitelik vektörlerinin farklı
ağrlıklandırma yöntemleri ile birleşmesi ile başarının artabileceği düşüncesinden
çıkılarak yeni öznitelik vekörleri oluşturulmuştur.
İlk olarak kelime köklerinin ikili, TF, TF-IDF yöntemleri ile elde edilen öznitelik
vektörleri üzerinden KTÖS yöntemi uygulanan öznitelik vektörleri birleştirilmiştir.
KTÖS yönteminin etkisi test edilmek amacı ile kullanılmıştır. Etkisini kontrol etmek
için kelime köklerinden oluşan ikili+CFS, TF+CFS ve TF-IDF+CFS öznitelik
vektörleri, 2-gram’dan oluşan ikili+CFS, TF+CFS ve TF-IDF+CFS öznitelik
vektörleri ve 3-gram’dan oluşan ikili+CFS, TF+CFS ve TF-IDF+CFS öznitelik
vektörlerinin ortalaması alınarak sonuçlar karşılaştırılmıştır. Diğer yöntemde aynı
şekilde uygulanmıştır. Aşağıdaki Çizelge 4.13’te ön işleme aşamasından önceki veri
kümesinin uygulanması verilmiştir.
Çizelge 4.13. Öznitelikler düzeyinde birleştirmede oluşan öznitelik vektörleri (Ön
işleme aşamasından önceki hali)
Öznitelik vektörleri
KNN
N.Bayes
M.N.Bayes
DVM
Ort.
Kelime kökleri+
CFS+ikili+TF+TF-IDF
%97,22 k=1
%94,44
%97,78
%97,78
%96,81
Kelime kökleri+ bilgi
kazancı+ikili+TF+TF-IDF
%94,44 k=5
%97,22
%99,44
%98,33
%97,36
2-gram+CFS+TF+TFIDF
%90 k=1
%89,44
%96,11
%94,44
%92,5
%87,78 k=1
%92,22
%97,78
%95,56
%93,34
%93,33 k=7
%96,11
%98,33
%95,56
%95,83
%84,44 k=1
%96,67
%98,33
%95,56
%93,75
%91,2
%94,35
%97,1
%96,21
2-gram+bilgi
kazancı+TF+TFIDF
3-gram+CFS+TF+TFIDF
3-gram+bilgi
kazancı+TF+TFIDF
Ortalama
62
Öznitelik birleştirme sonucunda ortalama olarak en yüksek başarıya (%97,36) sahip
olan
kelime köklerinden oluşan bilgi kazancı+ikili+TF+TF-IDF öznitelik
vektörüdür. Tekil olarak %99,44 yüksek başarıya sahip olan “kelime kökleri+bilgi
kazancı+ikili+TF+TF-IDF” öznitelik vektörüdür. Tahmin edildiği gibi öznitelik
vektörlerinin birleştirilmesi sınıflandırıcı sonuçlarını çok fazla etkilemiştir.
Çizelge 4.14. Öznitelik seçme sonucunda elde edilen öznitelik vektörlerinin ortalama
değerleri (Ön işleme aşamasından önceki hali)
Öznitelik vektörleri
Kelime kökleri+
CFS+ikili+TF+TF-IDF (ort)
Kelime kökleri+ bilgi
kazancı+ikili+TF+TF-IDF (ort)
2-gram+CFS+TF+TFIDF (ort)
2-gram+ bilgi kazancı+TF+TFIDF
(ort)
3-gram+CFS+TF+TFIDF (ort)
3-gram+ bilgi kazancı+TF+TFIDF
(ort)
KNN
N.Bayes
M.N.Bayes
DVM
%91,48
%94,81
%97,59
%93,33
%86,85
%97,41
%98,7
%92,6
%90,55
%89,44
%95,28
%93,89
%87,75
%91,39
%95,84
%96,11
%93,05
%95,84
%98,33
%96,12
%84,44
%96,67
%98,61
%96,11
Çizelge 4.14’e bakıldığında öznitelik vektörlerinin ortalaması öznitelik birleştirme
sonucunda oluşan öznitelik vektörlere göre düşük olduğu görülmüştür.
Çizelge 4.15. Öznitelikler düzeyinde birleştirmede oluşan öznitelik vektörleri (Ön
işleme aşamasından sonraki hali)
Öznitelik vektörleri
Kelime kökleri+
CFS+ikili+TF+TF-IDF
Kelime kökleri+ bilgi
kazancı+ikili+TF+TF-IDF
2-gram+CFS+TF+TFIDF
2-gram+bilgi
kazancı+TF+TFIDF
3-gram+CFS+TF+TFIDF
3-gram+bilgi
kazancı+TF+TFIDF
Ortalama
KNN
N.Bayes
M.N.Bayes
DVM
Ort.
% 97,78 k=7
% 95
% 97,22
% 97,78
%96,95
% 82,22 k=1
% 96,11
% 99,44
% 91,11
%92,22
% 91,11 k=5
% 91,67
% 96,11
% 95
%93,47
% 89,44 k=3
% 88,89
% 97,78
% 96,11
%93,06
% 92,22 k=1
% 94,44
% 98,33
% 98,33
%95,83
% 86,67 k=1
% 96,67
% 98,33
% 96,11
%94,47
%89,91
%93,8
%97,87
%95,74
Ön işleme aşamasından geçirilen veri kümesinin başarısını sınamak amacı ile
oluşturulan aşağıdaki Çizelge 4.15’de sonuçlar verilmiştir. Ortalama olarak en
yüksek başarıya sahip olan (%96,95) kelime köklerinden oluşan CFS+ikili+TF+TF-
63
IDF öznitelik vektörü olmuştur. Ön işleme aşamasından önceki hali ile sonraki halini
karşılaştırdığımızda ön işlemeden sonraki
halinde sınıflandırıcıların ortalama
başarısı düşmüştür. Sonuç olarak ön işleme aşamasının etkisi olmamış çıkarımı
yapılabilmektedir.
Çizelge 4.16. Öznitelik seçme sonucunda elde edilen öznitelik vektörlerinin ortalama
değerleri (Ön işleme aşamasından sonraki hali)
Öznitelik vektörleri
Kelime kökleri+
CFS+ikili+TF+TF-IDF (ort)
Kelime kökleri+ bilgi
kazancı+ikili+TF+TF-IDF (ort)
2-gram+CFS+TF+TFIDF (ort)
2-gram+ bilgi kazancı+TF+TFIDF
(ort)
3-gram+CFS+TF+TFIDF (ort)
3-gram+ bilgi kazancı+TF+TFIDF
(ort)
KNN
N.Bayes
M.N.Bayes
DVM
%91,67
%95,37
%97,41
%93,15
%86,48
%96,67
%98,15
%93,33
%89,73
%91,67
%95,28
%93,89
%90
%88,61
%96,11
%96,12
%93,61
%94,72
%95,55
%98,05
% 85,83
%96,67
%98,33
%96,67
Çizelge 4.16’da listelenen öznitelik vektörlerinin ortalaması alınarak sonuçlar
Çizelge 4.15 ile karşılaştırıldığında DVM yönteminde çoğunlukla düşük başarıya
sahip olduğu görülmüştür. Diğer yöntemlerde ise yükseliş olmuştur. Genel olarak
bakıldığında öznitelik vektörlerini birleştirdikten sonraki sonuçlar daha iyi olmuştur.
Öznitelikler düzeyinde birleştirme yaptıktan sonra daha iyi sonuçlar alığımız
yukarıdaki tablolardan görmekteyiz. Çizelge 4.13’de yer alan “kelime kökleri+bilgi
kazancı+ikili+TF+TF-IDF” öznitelik
vektörü en
yüksek başarıyı (%99,44)
Multinominal Naive Bayes algoritması ile elde edilmiş ve aşağıda hata matrisi
(Confusion Matrix) gözterilmektedir.
64
Şekil 4.2. Kelime kökleri+bilgi kazancı+ikili+TF+TF-IDF öznitelik vektörü hata
matrisi (Multinominal Naive Bayes için)
Bu matrisin sütunları, terimin hangi dokümana ait olabileceğinin tahmininin
yapıldığı sınıfları, satırları ise gerçekte o terimin ait olduğu sınıfları yani
dokümanları göstermektedir. Bu matrisin sınıflandırma başarısı yüksek olduğu için
tahmin edilen sınıflar arasında daha fazla netlik olduğunu görmekteyiz. Hata
matrisinin son satırına baktığımızda bir adedinin c sınıfına yani Kablosuz Ağlar’a ait
olabileceği tahminler yapılmıştır. Bunun sebebini açıklarsak Uzaktan Eğitim ve
Kablosuz Ağlar’ın bir birine yakın sınıflar olduğu söylenebilmektedir.
Aynı öznitelik vektörünün DVM algoritması ile elde edilen yüksek başarısı %98,33
olmuştur ve hata matrisi diğer örnek ile farkı olup olmadığı için verilmektedir.
Şekil 4.3. Kelime kökleri+bilgi kazancı+ikili+TF+TF-IDF öznitelik vektörü hata
matrisi (DVM için)
Şekil 4.3.’teki hata matrisine bakıldığında da sınıflar arasında netlik olduğunu
görmekteyiz. Fakat ilk satıra baktığımızda bir adedi f sınıfına ve son satırındaki iki
adedi c sınıfına ait olarak tahmin edilmiştir. Anlamsal Ağlar, Kablosuz Ağlar ve
65
Uzaktan Eğitim sınıfları arasında ortak terimler kullanma ihtimali çok olduğu için
böyle bir sonuçlar alınmıştır.
Şekil 4.3’e göre Şekil 4.2 ile daha doğru tahminler elde edilmiştir.
4.6. Sınıflandırıcı Düzeyinde Birleştirmede Oluşan Öznitelik Vektörlerinden
Elde Edilen Sonuçlar
Öznitelik
vektörlerinin
sınıflandırıcı düzeyinde
birleştirilmesinin
avantajları
bulunmaktadır. Bu tekniklerin, tekil sınıflandırıcıların aksine sınıflandırma
görevlerinde hata oranını düşürdükleri gösterilmiştir. Ayrıca son kararın verilmesi
için farklı tekniklerin bir arada kullanımı da, her bir farklı sınıflandırıcının belirli veri
setlerinde yaşayabileceği zorluklar karşısından sistemin performansını daha güçlü
kılmaktadır [69]. Farklı veriler üzerinde uygulanan farklı yöntemler farklı hatalara
neden olmaktadır ve kullanılan yöntemlerin tümünün iyi bir performans gösterdiği
varsayıldığında, çok sayıda yöntemin kullanılması genel sınıflandırma hatasını
düşürmekte ve buna bağlı olarak da doğru çıktıları vurgulamaktadır [70].
Bu işlemi gerçekleştirmek için Weka aracındaki “Classify” sekmesinden yer alan
“Classifier” bölümündeki Meta=>Vote alt bölümü seçilerek çalışma boyunca
kullandığımız 4 adet sınıflandırıcılar eklenmiştir. Aşağıdaki çizelgede çalışma
boyunca elde edilen öznitelik vektörlerinin (21 çeşitli öznitelik vektörü) üzerinde
kullandığımız 4 adet sınıflandırıcının birleştirilmesi ile elde edilen sonuçlar
verilmiştir. Her sınıflandırıcı en yüksek oy olasılığına sahip örnek ve etiketi
sınıflandırır. Eğer birden fazla etiket aynı olasılığa sahipse o zaman tüm etiketlere
oylama yapılmaktadır. Tüm sınıflandırıcılar oylama yaptıktan sonra, en çok oya
sahip olan etiket test örneği için etiket olarak seçilir. Birden fazla etiketi aynı
miktardaki oy alırsa, o zaman bu etiketlerden biri rastgele seçilir.
Orijinal veri kümesi ile indirgenmiş veri kümesi arasında çok fazla fark olduğu
görülmemiş buna rağmen ön işleme uygulanan veri kümesi başarılı olmuştur.
66
Sonuçlara genel olarak bakılacak olursa sınıflandırma performansının yükseldiğini
söyleyebiliriz.
Çizelge 4.17. Sınıflandırıcı düzeyinde birleştirmede oluşan öznitelik vektörleri
Ön işleme
uygulamadan
önceki hali
(original veri
kümesi)
%97,27
Öznitelik vektörleri
Kelime kökleri+TF
Kelime kökleri +TF+CFS
Ön işleme
uygulamadan
sonraki hali
(indirgenmiş veri
kümesi)
%97,22
%96
%97,78
Kelime kökleri +TF+bilgi kazancı
%96,11
%94,44
Kelime kökleri +TF-IDF
%97,22
%97,78
%95
%94,44
%96,67
%97,22
%95,56
%96,67
Kelime kökleri +ikili+CFS
%97,78
%98,33
Kelime kökleri +ikili+bilgi kazancı
%97,78
%98,33
2gram+TF
%94,44
%96,67
2gram+TF+CFS
%96,11
%93,89
2gram+TF+bilgi kazancı
%96,67
%97,22
2gram+TF-IDF
%89,44
%93,89
2gram+TF-IDF+CFS
%96,11
%95,56
2gram+TF-IDF+bilgi kazancı
%95,56
%96,11
3gram+TF
%95,56
%97,78
3gram+TF+CFS
%98,33
%97,78
3gram+TF+bilgi kazancı
%98,33
%98,33
3gram+TF-IDF
%96,11
%97,22
3gram+TF-IDF+CFS
%97,78
%97,78
3gram+TF-IDF+bilgi kazancı
%98,33
%97,78
96,29
96,77
Kelime kökleri +TF-IDF+CFS
Kelime kökleri +TF-IDF+
kazancı
Kelime kökleri +ikili
Ortalama
bilgi
67
4.7. 1150 Haberler Veri Kümesi İle Karşılaştırma
Bu çalışma sonucunda elde edilen sonuçların etkinliğini kontrol etmek amacıyla
Amasyalı’nın çalışmasında kullanılan gazetelerdeki haber sayfalarında toplanmış
1150 haber metninden oluşan veri küme ile karşılaştırılmıştır [8].
Tüm değerler için eğitim ve test verilerini ayırmada 5 defa çapraz doğrulama
kullanılmıştır. Üretilen arff’lerin öznitelik sayısı 5000’den fazla olanların zaman ve
hafıza problemlerinden dolayı öznitelikler önce bilgi kazancı yöntemine göre
sıralanmış daha sonra en yüksek bilgi kazancına sahip 100 öznitelik seçilmiştir.
Aşağıdaki çizelgede bir haber metninin konusunu tahmin etme problemi üzerinde
yapılan denemeler verilmiştir. Haberin türünü tahmin etmede en başarılı metin temsil
yönteminin 2-gram ve kelime kökleri ile TF yöntemini metindeki toplam kelime
sayısıyla normalize edilerek ağırlıklandırılan öznitelik vektörü olduğu görülmüştür.
68
Çizelge 4.18. 1150 haberler veri kümesinde her bir öznitelik grubunun en başarılı
olduğu sonuçlar [8]
Öznitelik Grubu
Konfigü
rasyon
Öznitelik
Sayısı
Başarı
Yüzdesi
Sınıflan
dırıcı
Karakter 2-gram
N1
3698
94,54
SVM
Kelime kökleri
N1
864
92,63
RF
Kavram genelleştirme özel
isim tabanlı
Kavram genelleştirme isim
tabanlı
Log
719
91,13
RF
N1
724
90,85
RF
Karakter 3-gram
N1
101
90,47
RF
51
89,84
RF
Snf
6
87,51
RF
Snf
6
87,25
RF
mTFIDF
47
81,63
RF
11
73,48
RF
mTFIDF
51
73,44
RF
Log
120
68,02
SVM
TFIDF
101
65,84
RF
N1
534
62,61
RF
20
57,08
RF
Birlikte geçme matrisi
tabanlı anlamsal uzay
Kmeans ile kelime
kümeleme
Hiyerarşik kelime kümeleme
(en uzak elemanlarına göre)
SOM ile kelime kümeleme
Saklı Anlam İndeksleme
Hiyerarşik kelime kümeleme
(ortalamaya göre)
Kelime ekleri
Kelime 2 gramları
Fonksiyonel kelimeler
Sayılar Özellik Grubu
Kelime türleri
Log
16
56,21
SVM
Hiyerarşik kelime kümeleme
(en yakın elemanlarına göre)
Co
51
47,06
C45
Bu çalışmada kullanılan metin işleme yöntemlerinin aşamalarını 1150 haber veri
kümesine uygulanmıştır ve aşağıdaki çizelgede bu sonuçlar listelenmiştir.
Ortalama olarak en başarılı sonucu %86,14 yüzdesi ile “3gram+TF-IDF+CFS”
öznitelik vektörü ile oluşturmuştur. Tekil olarak en başarılı sonucu %96,95 yüzdesi
69
ile “3-gram’dan oluşan TF-IDF” ağırlıklandırma yöntemi ile elde edilen ve bilgi
kazancı öznitelik seçme yöntemi uygulanan öznitelik vektörü olmuştur. Orijinal veri
kümesi ve indirgenmiş veri kümesi için de Multinominal Naive Bayes yöntemi en
başarılı sınıflandırma yöntemi olmuştur. Ön işleme aşamasının etkinliğine
bakıldığında K-NN yönteminin dışında diğer sınıflandırma yöntemlerinde yükseliş
görülmektedir.
Çizelge 4.19. 1150 haberinden oluşan veri kümesinden elde edilen sonuçlar (%
olarak verilmiştir)
Öznitelik vektörleri
Kelime kökü+ikili
Kelime kökü+TF
Kelime kökü +TF-IDF
2-gram+TF
2-gram+ TFIDF
3-gram+TF
3-gram+TF-IDF
Kelime kökü
+ikili+CFS
Kelime kökü
+TF+CFS
Kelime kökü
+TF-IDF+CFS
2gram+TF+CFS
2gram+TF-IDF+CFS
3gram+TF+CFS
3gram+TF-IDF+CFS
Kelime kökü
+ikili+ bilgi kazancı
Kelime kökü
+TF+bilgi kazancı
Kelime kökü
+TF-IDF + bilgi kazancı
2gram+TF+bilgi kazancı
2gram+TF-IDF+bilgi kazancı
3gram+TF+ bilgi kazancı
3gram+TF-IDF+ bilgi kazancı
Ortalama
KNN
46,29
k=3
32,43
k=1
32,43
k=1
60,17
k=1
60,17
k=1
41,21
k=1
41,21
k=1
76,86
k=1
72,95
k=1
32,43
k=1
70,34
k=7
70,34
k=7
80,52
k=5
80,52
k=5
55,56
k=1
62,34
k=1
62,34
k=1
67,47
k=1
67,56
k=1
62,95
k=1
62,95
k=1
61,04
N.Bayes
44,26
k=1
33,39
k=1
33,39
k=1
65,04
k=7
64,78
k=7
51,04
k=1
51,04
k=1
80,17
k=1
75,39
k=3
33,39
k=1
70,09
k=3
70,09
k=3
81,65
k=3
81,65
k=3
53,91
k=1
60,60
k=1
60,60
k=1
68,34
k=1
68,52
k=1
66,52
k=1
66,52
k=1
62,97
M.N.Bayes
DVM
Ort.
87,47
89,21
92,78
92,52
87,56
87,73
78,48
78,86
80,09
93,04
92,95
85,21
83,13
72,39
78,69
79,91
91,73
91,65
85,30
83,13
72,03
68,43
61,39
92,86
91,39
86,95
86,52
76,6
68,34
61,39
90,34
86,09
87,13
86,43
75,58
82,26
79,73
95,47
94,26
90,86
90,34
78,15
82,34
79,65
95,65
92,78
90,86
90,34
77,98
85,73
86,26
82,69
83,21
83,30
84,09
82,79
77,47
78,09
84,26
83,3
75,13
74
77,57
77,56
78,17
84,09
83,13
75,04
74,09
67,24
70,78
64,95
77,65
78,34
68,86
72,09
71,64
70,78
65,04
78,95
73,56
68,86
72,09
71,21
84,52
82
91,30
92,62
87,65
87,82
86,01
84,52
82
92,6
92,43
87,73
87,65
86,14
89,73
89,73
93,3
93,21
88
87,03
81,31
82,52
82,6
93,3
93,73
88,17
87,65
81,36
82,26
83,24
93,91
94,17
88,09
87,65
81,53
68,78
61,65
92,52
90,34
89,04
85,91
78,01
68,86
61,56
89,91
86,34
89,04
85,85
77,21
85,21
82,95
95,73
94,86
93,47
91,73
84,18
85,13
82,95
96,95
94,69
93,47
91,73
84,3
79,11
76,79
90,43
89,31
85,22
85,11
70
5.
SONUÇ
Bu çalışmanın temel amacı çeşitli metin işleme yöntemlerini uygulayarak en başarılı
metin işleme yöntemlerini belirlemektir.
Bu çalışmada altı sınıfı içeren 180 adet bilimsel makalelerden oluşan Türkçe veri
kütüphanesi oluşturulmuştur. Bunun için deneysel çalışmalar sonucunda en uygun
metin işleme yöntemi seçilmeye çalışılmıştır. Metin sınıflandırma süreçleri teker
teker ele alınmış ve onun önemli aşaması olan öznitelik seçmenin amacı, avantajları
ve türlerinden bahsedilmiştir. Kullanılan öznitelik seçme yöntemleri üzerinde
durulmuş ve onların üzerinde literatür taraması yapılmıştır. Yapılan araştırmalar ve
edinilen bilgiler doğrultusunda metin sınıflandırmada öznitelik seçme yönteminin
önemli olduğu görünmüştür.
Oluşturduğumuz veri kümesi üzerinde metin işleme yöntemleri aşamalı olarak
uygulanmıştır. Ön işleme aşaması Matlab programı ile gerçekleştirilmiştir. Öznitelik
vektörlerini elde etmek için text2arff yazılımı kullanılmıştır. Öznitelik seçme ve
sınıflandırma yöntemleri Weka yazılımında uygulanmıştır.
Ön işleme aşamasını kontrol etmek amacı ile oluşturduğumuz veri kümesi iki durum
için kullanılmıştır. Bunlar
1) ön işleme uygulamadan önceki ve 2) ön işleme
uygulandıktan sonraki veri halidir. Böylece ön işleme aşaması uygulandıktan sonra
sınıflandırma başarısında bir artış olup olmadığı araştırılmıştır.
Bu çalışmada kelimeler doğrudan alınarak kelime kökleri ile birlikte karakter 2-gram
ve 3-gram yöntemi kullanılmıştır. Bahsettiğimiz yöntemlerden elde ettiğimiz verileri
sayısallaştırmak için vektör uzayı modelinin TF, ikili ve en yaygın olarak kullanılan
TF-IDF ağırlıklandırma yöntemleri uygulanmıştır.
Kelime köklerine göre elde ettiğimiz öznitelik vektörleri ön işleme aşamasından önce
ve ön işleme aşamasından sonra en iyi sonucu ikili ağırlıklandırma yöntemi
71
vermiştir. Ön işleme aşamasından önce ikili ağırlıklandırma yöntemin kullanılarak
tüm sınıflandırıcılar içinde ortalama olarak elde ettiğimiz başarılı sonuç %91,66
olmuş, ön işleme aşamasından sonra ortalama olarak elde ettiğimiz sonuç %92,36
olmuştur. Sadece DVM yöntemi ile ön işleme aşamasından sonra artış görünmüştür.
Kelime kökleri oluşturmada ön işleme aşamasının etkili olduğu kanıtlanmıştır.
Karakter 2-gram ve 3-gram’a göre tüm sınıflandırıcılar için (K-NN, Naive Bayes,
Multinominal Naive Bayes ve DVM) ön işleme aşamasından önce ve ön işleme
aşamasından sonraki sonuçlar karşılaştırılmış ve ön işleme aşamasından sonra başarı
yüzdesinin arttığı gözlenmiştir. 2-gram için ön işleme aşamasından önce TF
ağırlıklandırma yönteminin kullanılarak tüm sınıflandırıcılar içinde ortalama olarak
elde ettiğimiz başarılı sonuç %80,83 olmuş, ön işleme aşamasından sonra ortalama
olarak elde ettiğimiz sonuç %88,61 olmuştur. 3-gram için ön işleme aşamasından
önce TF ağırlıklandırma yöntemin kullanılarak tüm sınıflandırıcılar içinde ortalama
olarak elde ettiğimiz başarılı sonuç %82,64 olmuş, ön işleme aşamasından sonra
ortalama olarak elde ettiğimiz sonuç %88,47 olmuştur. 2-gram ve 3-gram
oluşturmada ön işleme aşamasının etkili olduğu kanıtlanmıştır.
Nitelikli öznitelikler ile sınıflandırma yapmak amacı ile öznitelik vektörlerine KTÖS
ve bilgi kazancı öznitelik seçme yöntemi uygulanması ile yeni öznitelik vektörleri
elde edilmiştir. En yüksek başarı kelime “kökleri+ikili+CFS” öznitelik seçme ile
sağlanmıştır. Ön işleme aşamasından önce tüm sınıflandırıcılar için ortalama olarak
elde ettiğimiz sonuç ortalaması %90,87 bulunmuş, ön işleme aşamasından sonra
ortalama olarak elde ettiğimiz sonuç %97,76 olarak bulunmuştur. Yüksek başarı
gösteren yöntemin
K-NN ve Multinominal Naive Bayes yöntemleri olduğu
görülmüştür.
Bilgi kazancı yöntemi ile en yüksek başarı kelime “kökleri+ikili+bilgi kazancı”
öznitelik seçme yöntemi ile olmuş, ön işleme aşamasından önce tüm sınıflandırıcılar
içinde ortalama olarak elde ettiğimiz sonuç ortalaması %97,09 bulunmuş, ön işleme
aşamasından sonra ortalama olarak elde ettiğimiz sonuç %97,36 olmuştur. Yüksek
72
başarı gösteren Multinominal Naive Bayes yöntemi olmuştur.
KTÖS yöntemlerini birlikte
Bilgi kazancı ve
kullandığımızda ön işleme aşamasından sonraki
yüzdelerin arttığını görmekteyiz, buna bağlı olarak ön işleme aşamasının
uygulanması etkili olduğu söylenebilmektedir.
Kullandığımız 2 adet öznitelik seçme yöntemi ile oluşturulan öznitelik vektörlerinin
farklı ağrlıklandırma yöntemleri ile birleşmesi sonucu başarının artabileceği
düşüncesinden yola çıkılarak yeni öznitelik vektörleri oluşturulmuştur. Öznitelikler
düzeyinde birleştirme etkisini kontrol etmek için kelime köklerinden oluşan
ikili+CFS, TF+CFS ve TF-IDF+CFS öznitelik vektörleri, 2-gram’dan oluşan
ikili+CFS, TF+CFS ve TF-IDF+CFS öznitelik vektörleri ve 3- gram’dan oluşan
ikili+CFS, TF+CFS ve TF-IDF+CFS öznitelik vektörlerinin ortalaması alınarak
sonuçlar karşılaştırılmıştır. Diğer yöntem için aynı işlemler uygulanmıştır. Sonuçlara
bakılırsa öznitelik vektörlerinin ortalaması ile elde edilen başarı yüzdesi %98,7 iken
birleştirme sonrası başarı yüzdesi %99,44 olmuştur. Birleştirme sonucunda en
başarılı ortalama yüzdesi %97,36 olan “kelime kökleri+ikili+TF+TF-IDF+bilgi
kazancı” öznitelik vektörü ile elde edilmiştir. Ön işleme aşaması uygulandıktan
sonraki sonuçlara bakılacak olursa öznitelik vektörlerinin ortalaması ile elde edilen
başarı yüzdesi %98,15 iken birleştirme sonrasında başarı yüzdesi %99,44 olmuştur.
Birleştirme sonucunda en başarılı ortalama yüzdesi %96,95 olan “kelime
kökleri+ikili+TF+TF-IDF+CFS” öznitelik vektörü ile elde edilmiştir.
Sınıflandırma yöntemleri düzeyinde birleştirme sonuçlarına bakıldığında orijinal veri
kümesi ile indirgenmiş veri kümesi arasında çok fazla fark olduğu görülmez iken, ön
işleme uygulanan veri kümesinde başarılı olunmuştur. Sonuçlara genel olarak
bakılacak olursa sınıflandırma performansının yükseldiği söylenebilir.
1150 haberden oluşan veri kümesinde ortalama olarak en başarılı sonuç %86,14
yüzdesi ile “3gram+TF-IDF+CFS” öznitelik vektöründen elde edilmiştir. Orijinal
veri kümesi ve indirgenmiş veri kümesi için de Multinominal Naive Bayes yöntemi
en başarılı sınıflandırma yöntemi olmuştur. Ön işleme aşamasının etkinliğine
73
bakıldığında K-NN yönteminin dışında diğer sınıflandırma yöntemlerinde yükseliş
görülmemiştir. Amasyalı’nın gerçekleştirdiği çalışmada [8] en başarılı tekil öznitelik
%94,54 oranı ile 2-gram yöntemini metindeki toplam kelime sayısıyla normalize
ederek ağırlıklandırılan öznitelik vektörü olduğu gösterilmiştir. En başarılı sonuç
tekil özniteliklere bakıldığında %96,95 oranı ile “3gram+TF-IDF+bilgi kazancı”
öznitelik vektörü ile elde edilmiştir. Bu çalışmada oluşturulan veri kümesi ile
karşılaştırırsak “kelime kökler+ikili+CFS” öznitelik vektörü %97,76 ortalama
yüzdesi ile en başarılı öznitelik yöntemi olduğu görülmüştür. Bu sonuçlara bakılarak
bizim çalışmamızda kullanılan metin işleme yöntemlerinin daha başarılı olduğu
söylenebilir. Öznitelik alanının azaltılması çoğu sınıflandırıcının sınıflandırma
kesinliğini kayda değer miktarda etkilemiş ve programın çalışma süresini
kısaltmıştır.
Bu çalışmada kelime kökleri için en başarılı ağırlıklandırma yöntemi ikili yöntemi
olmuştur. 2-gram ve 3-gram’larda TF yöntemi başarılı sonuçlar vermiştir. Aslında
TF-IDF yöntemi TF’e göre başarılı yöntemdir. Ama bizim çalışmamızda TF-IDF
yöntemi TF’e göre başarısız olmuştur. TF-IDF yönteminin amacı çok kullanılan
(durak kelimelerin) değerlerini 0’a yaklaştırmaktır ve yüksek bir başarıya sahip
olmasını sağlamaktır. Ama çalışmamızda en iyi sonucu TF-IDF yerine ikili vermiştir,
bunun nedeni veri kümesi alanının geniş olmasıdır. En başarılı ve hızlı çalışan
sınıflandırma yöntemi Mutinominal Naive Bayes yöntemi olmuştur. İkinci sırada
başarı gösteren DVM yöntemi ile çoğunlukla sabit sonuçlar alınmıştır.
Öznitelik seçme ve sınıflandırma yöntemine göre birleştirilen öznitelik vektörlerinin
daha başarılı sonuçlar verdiği gözlenmiştir.
Ön işleme aşamasından geçirilen veriler her denemede yüksek başarı göstermemiştir,
bunun nedeni veri kümesi alanının çok geniş olmasıdır. Gereksiz kelimelerin
çıkartılmasının sınıflandırıcıların kesinliklerini çok etkilemediği, fakat öznitelik
alanını azalttığı görülmüştür.
74
KAYNAKLAR
1.
Khan, A., Bahurdin, B.B., Khan, K., ”An Overview of E-Documents
Classification”, 2009 International Conference on Machine Learning and
Computing IPCSIT, 3, (2011).
2.
İnternet: ASB Uluslararası Bilgilendirme Kalite Çözüm Merkezi, ”Doküman
nedir?” http://www.asbcert.com/iso.php?kalite=dokumannedir (2012).
3.
Yılmaz, R., Aşlıyan, R., Günel, K., “Otomatik Doküman Sınıflandırma”,
Akademik Bilişim'12, (2012).
4.
Mahinovs, A., Tiwari, A., “Text Classification Method Review”, Decision
Engineering Report Series, Cranfield University, (2007).
5.
Khan, A., Bahurdin, B.B., Khan, K., Lee, L.H., “A Review of Machine Learning
Algorithms for Text-Documents Classification”, Journal of Advances in
Information Technology, 1(1): 4-20, (2010).
6.
Uguz, H., “A two-stage feature selection method for text categorization by using
information gain, principal component analysis and genetic algorithm”,
Knowledge-Based Systems, 24: 1024–1032, (2011).
7.
Srividhya, V., Anitha, R., “Evaluating Preprocessing Techniques in Text
Categorization”, International Journal of Computer Science and Application
Issue, (2010).
8.
Amasyalı, M.F., Balcı, S., Varlı, E.N., Mete, E., “Türkçe Metinlerin
Sınıflandırılmasında Metin Temsil Yöntemlerinin Performans Karşılaştırılması”,
EMO Bilimsel Dergi, 2(4): 95-104, (2012).
9.
Amasyalı, M.F., Beken, A., “Türkçe Kelimelerin Anlamsal Benzerliklerinin
Ölçülmesi ve Metin Sınıflandırmada Kullanılması”, SIU, Antalya, (2009).
10. Korde, V., “Text Classification and Classifiers: A Survey”, International
Journal of Artificial Intelligence& Applications (IJAIA), 3(2): 85, (2012).
11. Katharina, M.,Martin, S., “The Mining Mart Approach to Knowledge Discovery
in Databases”, Intelligent Technologies for Information Analysis, Springer, 4765, (2004).
12. Sebastiani, F., “Machine Learning in Automated Text Categorization”, ACM
Computing Surveys, 34(1): 1–47, (2002).
13. Biricik, G., “Metin Sınıflama İçin Yeni Bir Özellik Çıkarım Yöntemi”, Doktora
Tezi, Yıldız Teknik Üniversitesi, Fen Bilimleri Enst., İstanbul, (2011).
75
14. Yıldız, H.K., Gençta, M., Usta, N., Diri, B., Amasyalı, M.F., “Metin
Sınıflandırmada Yeni Özellik Çıkarımı", IEEE 15th Signal Processing and
Communication Applications Conference, Eskişehir, (2007).
15. Amasyalı, M.F., Yildirim, T., “Automatic Text Categorization of News
Articles”, Signal Processing and Communications Applications Conference
IEEE, 0-7803-83, 224-226 (2004).
16. Doğan, S., Diri, B., “Türkçe Dokümanlar için N-Gram Tabanlı Sınıflandırma:
Yazar, Tür ve Cinsiyet”, Yüksek Lisans Tezi, Yıldız Teknik Üniversitesi Fen
Bilimler Enst., İstanbul (2006).
17. Pilavcılar, İ.F., “Metin Madenciliği ile Metin Sınıflandırma”, Yüksek Lisans
Tezi, Yıldız Teknik Üniversitesi Fen Bilimler Enst., İstanbul (2007).
18. Kesgin, F., “Türkçe Metinler için Konu Belirleme Sistemi”, Yüksek Lisans Tezi,
İstanbul Teknik Üniversitesi Fen Bilimler Enst., İstanbul (2007).
19. Takcı, H., “Karakter Tabanlı Doküman Dili Tanıma Sistemi Tasarımı”, Doktora
Tezi, Gebze Yüksek Teknoloji Enstitüsü Mühendislik ve Fen Bilimleri Enst.,
Gebze (2005).
20. Salton, G., Wong, A., Yang, C.S., “A Vector Space Model for Automatic
Indexing,” Communications of the ACM, 18(11): 613-620 (1975).
21. Rigutini, L., “Automatic Text Processing: Machine Learning Techniques”,
Universit`a Degli Studi Di Siena Facolt`a Di Ingegneria, Anno Accademico,
(2003–2004).
22. Liu, M., Yang, J., “An improvement of TFIDF weighting in text categorization”
2012 International Conference on Computer Technology and Science, (2012).
23. Adsız, A., “Metin Madenciliği”, Dönem Projesi, A.Yesevi Üniversitesi Bilişim
Sistemleri ve Mühendislik Fakültesi, Ankara (2006).
24. Lahtinen, T., “Automatic indexing: an approach using an index term corpus and
combining linguistic and statistical methods”, University of Helsinki Faculty of
Arts, (2000).
25. Liao, C., Alpha, S., Dixon, P., “Feature Preparation in Text Categorization”,
Aritificial Intelligence White Papers, Oracle Corporation, (1997).
26. Ladha, L., Deepa, T., “Feature Selection Methods and Algorithms”,
International Journal on Computer Science and Engineering (IJCSE), 3(5):
(2011).
76
27. Tan, F., “Improving Feature Selection Techniques for Machine Learning”,
Degree of Doctor of Philosophy, Georgia Stage University College of Arts and
Sciences, (2007).
28. Hall, M. A., “Correlation-based Feature Selection for Machine Learning”,
Degree of Doctor of Philosophy, University of Waikato Department of
Computer Science, (1999).
29. John, G. H., Kohavi, R.Pfleger, K., “Irrelevant Features and the Subset Selection
Problem”, Proceedings of the 11th International Conference on Machine
Learning, San Francisco, 121–129 (1994).
30. Guyon, I., Elisseeff, A., “An Introduction to Variable and Feature Selection”,
Journal of Machine Learning Research, 3:1157-1182 (2003).
31. Uysal, A.K., Günal, S., “A novel probabilistic feature selection method for text
classification”, Knowledge-Based Systems, 36: 226–235 (2012).
32. Seo, M., Oh, S., “CBFS: High Performance Feature Selection Algorithm Based
on Feature Clearness”, PLoS ONE 7(7): e40419, (2012).
33. Goodarzi, M., Dejaegher, B., Heyden, Y.V,” Feature Selection Methods in
QSAR Studies”, Journal of AOA C International, 95(3): (2012).
34. Unsalan, C., Ercil, A., “Comparation of feature selection algorithms a new
performance criteria for feature selection”, Procedings of IEEE SIU’98,
Turkey, (1998).
35. Yang, Y., Pedersen, J.O., “A comparative study on feature selection in text
categorization”, Proceedings of the 14th International Conference on Machine
Learning, 412–420 (1997).
36. Largeron, C., Moulin, C., Géry, M., “Entropy based feature selection for text
categorization”, ACM Symposium on Applied Computing, Taiwan, Province Of
China, version 1-31, (2011).
37. Rogati, M., Yang, Y., “High-Performing Feature Selection for Text
Classification”, CIKM’02, 4–9, USA, (2002).
38. Fragoudis, D., Meretakis, D., Likothanassis, S., “Best terms: an efficient featureselection algorithm for text categorization”, Knowledge and Information
Systems, Springer-Verlag, (2005).
39. Chen, J., Huang, H., Tian, S., Qua, Y.,“Feature selection for text classification
with Naive Bayes”, Expert Systems with Applications, 36: 5432–5435 (2009).
40. Xu, Y., “A Data-drive Feature Selection Method in Text Categorization”,
Journal of Software, 6(4): 620-627, (2011).
77
41. Ali, U., Venkatesweran, J., “An Evident Theoretic Feature Selection Approach
for Text Categorization”, International Journal on Computer Science and
Engineering (IJCSE), 4(06): 1193-1198, (2012).
42. Wang, S., Li, D., Song, X., Wei, Y., Li, H., “A feature selection method based
on improved fisher’s discriminant ratio for text sentiment classification”, Expert
Systems with Applications, 38: 8696–8702 (2011).
43. Alibeigi, M., Hashemi, S., Hamzeh, A., “Unsupervised Feature Selection Using
Feature Density Functions”, International Journal of Electrical and
Electronics Engineering, 3:7, (2009).
44. Yong, Y., Jian, X.H., Hua, D.X., Xiao, L., “Comparative Study on Feature
Selection in Uighur Text Categorization”, Advances in information Sciences
and Service Sciences(AISS), 4(3): (2012).
45. Soucy, P., Mineau, G.W., "A simple K-NN algorithm for text categorization",
Proceeding of the first IEEE international conference on data mining
(ICDM_01), 28: 647–648 (2001).
46. Niharika, S., Latha, V.S., Lavanya, D.R., “A Survey on Text Categorization”,
International Journal of Computer Trends and Technology, 3, (2012).
47. İnternet: Wikipedia, The free encyclopedia, “Document Classification”
http://en.wikipedia.org/wiki/Document_classification (2013).
48. Cachopo, A.C., Oliveira, A.L., “Combining LSI with other Classifiers to
Improve Accuracy of Single – label Text Categorization”, INESC-ID Technical
Report, 1-2, (2007).
49. Van Rijsbergen, C.J., “Information Retrieval ", Book Information Retrieval
2nd, London, 208, (1979).
50. İnternet: Distributed Conscience, “Usefulness of Confusion Matrices”
http://khartig.wordpress.com/tag/f-measure/ (2013).
51. Amasyalı, M.F., Davletov, F., Torayew, A., Çiftçi, Ü., “text2arff: Türkçe
Metinler İçin Özellik Çıkarım Yazılımı”, SIU, Diyarbakır (2010).
52. İnternet:
Zemberek,
Zemberek
Doğal
http://code.google.com/p/zemberek/ (2013).
Dil
İşleme,
“Zemberek”
53. Pilászy, I., “Text Categorization and Support Vector Machines”, Budapest
University of Technology and Economics Department of Measurement and
Information Systems, (2005).
78
54. Witten, I. H., Frank, E., “Data Mining Practical Machine Learning Tools and
Techniques”, Second Edition, Morgan Kaufmann Publishers is an imprint of
Elsevier, San Francisco, 144-149, 420-423 (2005).
55. Gürcan, F., “Web İçerik Madenciliği Ve Konu Sınıflandırılması”, Yüksek Lisans
Tezi, Karadeniz Teknik Üniversitesi Fen Bilimler Enst., Trabzon (2009).
56. Yang, J., Liu, Y., Zhu, X., Liu, Z., Zhang, X.,” A new feature selection based on
comprehensive measurement both in inter-category and intra-category for text
categorization”, Information Processing and Management, 48: 741–754
(2012).
57. Çatak, F.Ö., “Korelasyon Tabanlı Nitelik Seçimi”, Doktora Programı, İstanbul
Üniversitesi Fen Bilimler Enst., İstanbul (2011).
58. Kim, S.B., Rim, H.C., Yook, D., Lim, H.S., "Effective methods for improving
Naive Bayes text classifiers", The 7th Pacific rim international conference on
artificial intelligence, 414–423, (2002).
59. Wu, M.C., Lin, S.Y., Lin, C.H., "An effective application of decision tree to
stock trading", Expert Syst Appl, 31(2): 270–274, (2006).
60. Aşlıyan, R., Günel, K., “Metin İçerikli Türkçe Dokümanların Sınıflandırılması”,
Akademik Bilişim’10 - XII. Akademik Bilişim Konferansı Bildirileri, Muğla
Üniversitesi, (2010).
61. Yang, Y., Liu, X., "A re-examination of text categorization methods",
Proceedings of SIGIR’99, 42–49, (1999).
62. Colas, F., Brazdil, P., “Comparison of SVM and Some OlderClassification
algorithms in Text Classification Tasks” ,IFIP International Federation for
Information Processing, Springer Boston Vol 217, Artificial Intelligence in
Theory and Practice, 169-178, (2006).
63. Güner, E.S., ”Türkçe için Derlem Tabanlı Bir Anafor Çözümleme Çalışması”,
Yüksek Lisans Tezi, Trakya Üniversitesi Fen Bilimler Ent., Edirne (2008).
64. Gupta, N.V., “Recent Trends in Text Classification Techniques”, International
Journal of Computer Applications (0975 – 8887),35(6), (2011).
65. Güran, A., Akyokuş, S., Bayazıt, N.G., Gürbüz, M.Z., “Turkish Text
Categorization Using N-Gram Words”, International Symposium on
Innovations in Intelligent Systems and Applicaitons, 978-1-905824-34-2: 1-11,
Trabzon (2009)
66. Kumar, M.A., Gopal, M., “Least squares twin support vector machines for
pattern classification”, Expert Systems with Applications, 36: 7535-7543
(2009).
79
67. İnternet:
Bilgisayar
Kavramları,
“WEKA
ile
SVM”
http://www.bilgisayarkavramlari.com/2011/09/19/weka-ile-svm/ (2013).
68. Kirkby,R., Frank,E., Reutemann,P., “WEKA Explorer User Guide for Version
3-5-5”, University of Waikato, (2007).
69. Moreno-Seco, F., I˜nesta, J.M., Ponce de Le´on, P.J., Mic´o, L., “Comparison of
classifier fusion methods for classification in pattern recognition tasks”, IAPR
international conference on Structural, Syntactic, and Statistical Pattern
Recognition, 705-713 (2006)
70. Ruta, D., Gabrys, B., “An Overview of Classifier Fusion Methods”, Computing
and Information Systems, 7: 1-10, (2000).
80
EKLER
81
EK – 1 Çalışmada kullanılan Türkçe durak kelimeleri
ama
buna
değil
henüz
neden
tek
ancak
birinci
dolayı
hiç
o
tüm
ayrıca
belli
dört
hiçbir
on
üç
aksine
birer
en
idi
ona
yirmi
bağlı
birebir
evet
iki
onu
yok
başka
birlikte
eğer
ila
onun
var
bazen
belirli
fakat
ikinci
oysa
ve
bazı
beri
gibi
ile
önce
veya
ben
bin
göre
ise
sonra
ya
beraber
biraz
gerek
ilk
peki
yada
bile
boyunca
hala
için
pek
yani
bir
çok
hangi
kadar
sadece
yine
birer
da
hani
kendi
sen
yoksa
biraz
dair
hatta
ki
siz
zira
birebir
dahi
hem
kim
son
zaten
biri
dahil
hep
kimse
sonra
vb
birçok
daha
hepsi
mi
şu
vs
birisi
diye
her
mı
ta
vd
biz
diğer
herbir
mu
tam
bu
de
herhangi
nasıl
tabi
bura
defa
hemen
ne
tamam
82
ÖZGEÇMİŞ
Kişisel Bilgiler
Soyadı, adı
: KALİYEVA, Samal
Uyruğu
: Kazakistan
Doğum tarihi ve yeri
: 25.02.1989, Türkistan
Medeni hali
: Bekar
Telefon
: 0 (507) 809 12 99
e-mail
: samalita@mail.ru
Eğitim
Derece
Eğitim Birimi
Yüksek lisans
Gazi Üniversitesi /
Mezuniyet tarihi
Bilgisayar Mühendisliği
Lisans
A.Yesevi Üniversitesi /
2010
Bilişim Sistemleri
Lise
Üstün Yetenekli Çocuklar için
“Darın” okulu
Yabancı Dil
Kazakça (ana dil)
Rusça
İngilizce (temel)
Türkçe
Hobiler
Bilgisayar teknolojileri, Yüzme, Örme
2006
Download