BİLİMSEL MAKALELERİN METİN İŞLEME YÖNTEMLERİ İLE SINIFLANDIRILMASI Samal KALİYEVA YÜKSEK LİSANS TEZİ BİLGİSAYAR MÜHENDİSLİĞİ GAZİ ÜNİVERSİTESİ FEN BİLİMLER ENSTİTÜSÜ TEMMUZ 2013 ANKARA Samal KALİYEVA tarafından hazırlanan “BİLİMSEL MAKALELERİN METİN İŞLEME YÖNTEMLERİ İLE SINIFLANDIRILMASI” adlı bu tezin Yüksek Lisans tezi olarak uygun olduğunu onaylarım. Doç. Dr. Hasan Şakir BİLGE ….……………………. Tez Danışmanı, Bilgisayar Mühendisliği Anabilim Dalı Bu çalışma, jürimiz tarafından oy birliği ile Bilgisayar Mühendisliği Anabilim Dalında Yüksek Lisans tezi olarak kabul edilmiştir. Doç. Dr. Hasan OĞUL ….……………………. Bilgisayar Mühendisliği Anabilim Dalı, B.Ü. Doç. Dr. Hasan Şakir BİLGE ….……………………. Bilgisayar Mühendisliği Anabilim Dalı, G.Ü. Prof. Dr. M. Ali AKCAYOL ….……………………. Bilgisayar Mühendisliği Anabilim Dalı, G.Ü. Tez Savunma Tarihi: 22/07/2013 Bu tez ile G.Ü. Fen Bilimleri Enstitüsü Yönetim Kurulu Yüksek Lisans derecesini onamıştır. Prof. Dr. Şeref SAĞIROĞLU Fen Bilimleri Enstitüsü Müdürü ….……………………. TEZ BİLDİRİMİ Tez içindeki bütün bilgilerin etik davranış ve akademik kurallar çerçevesinde elde edilerek sunulduğunu, ayrıca tez yazım kurallarına uygun olarak hazırlanan bu çalısmada bana ait olmayan her türlü kaynağa eksiksiz atıf yapıldığını bildiririm. Samal KALİYEVA iv BİLİMSEL MAKALELERİN METİN İŞLEME YÖNTEMLERİ İLE SINIFLANDIRILMASI (Yüksek Lisans Tezi) Samal KALİYEVA GAZİ ÜNİVERSİTESİ FEN BİLİMLER ENSTİTÜSÜ Temmuz 2013 ÖZET Günümüzdeki teknolojik gelişmeler ile, kağıt üzerindeki metinlerin sayısal ortamlara aktarılması kolaylaşmıştır. Bu metinlere daha kolay erişilebilmesi için metin sınıflandırma yapılması gerekmektedir. Çok sayıdaki doğal dil metinlerini sınıflandırmadan önce metin işleme tekniklerinin uygulanması gereklidir. Metin işleme; dokümanlarda bulunan ham verileri sınıflandırmak için çeşitli teknikler ile analiz etme işlemidir. Bu çalışmada Türkçe bilimsel makalelerden bir veri kütüphanesi oluşturulmuştur ve değişik metin işleme ve sınıflandırma yöntemleri ile en yüksek başarı elde edilmeye çalışılmıştır. Bu amaçla sıra ile metin sınıflandırma süreçleri (ön işleme, indeksleme, öznitelik seçme, sınıflandırma ve performans değerlendirme) uygulanmıştır. Bu çalışmada metinleri ifade etmek için kelimeler doğrudan alınarak kelime kökleri ile birlikte karakter 2-gram ve 3gram yöntemi kullanılmıştır. Bahsettiğimiz yöntemlerden elde ettiğimiz verileri sayısallaştırmak için vektör uzayı modelinin TF, ikili ve en yaygın olarak kullanılan TF-IDF ağırlıklandırma yöntemleri uygulanmıştır. Nitelikli özniteliklerin seçilip gereksiz olanlarının atılabilmesi için bilgi kazancı ve korelasyon tabanlı öznitelik seçme yöntemleri kullanılmıştır. En bilinen sınıflandırma yöntemleri olan K-NN, Naive Bayes, Multinominal Naive Bayes ve v DVM Weka programının yardımı ile çalışmada önerilen yöntemin performansını karşılaştırmak üzere kullanılmıştır. Ayrıca diğer bir veri kümesi (internet üzerindeki Türkçe haberlerden oluşturulan 1150 haber) kullanılarak karşılaştırma yapılmıştır. Sonuç olarak kelime kökleri ile elde ettiğimiz öznitelik vektörleri için en iyi sonucu ikili ağırlıklandırma yöntemi vermiştir. Karakter 2-gram ve 3-gram yönteminde ise TF ağırlıklandırma yöntemi en yüksek başarı göstermiştir. Korelasyon tabanlı öznitelik seçme yöntemine göre bilgi kazancı yöntemi iyi sonuçlar vermiştir. Öznitelikler düzeyinde birleştirme işleminin performansı daha da arttığı ve iyi etkilediği belirlenmiştir. Tekil olarak en iyi sonucu %99,44 başarı ile “kelime kökleri+bilgi kazancı+ikili+TF+TF-IDF” öznitelik vektörü vermiştir. Bu çalışmada açıklanan metin işleme yöntemlerini uygulayarak önceki çalışmadan daha başarılı sonuçlar elde edilmiştir. Bilim Kodu Anahtar Kelimeler Sayfa Adedi Tez Yöneticisi : 902.1.014 : Metin sınıflandırma, metin sınıflandırma süreçleri, ağırlıklandırma yöntemleri, öznitelik seçme yöntemleri : 82 : Doç. Dr. Hasan Şakir BİLGE vi CLASSIFICATION OF SCIENTIFIC MANUSCRIPTS USING TEXT PROCESSING METHODS (M.Sc. Thesis) Samal KALİYEVA GAZİ UNIVERSITY GRADUATE SCHOOL OF NATURAL AND APPLIED SCIENCES July 2013 ABSTRACT Transferring of paper-based texts to digital media has become easier with today’s technological advances. Classification of texts should be made in order to access information more easily. Before classification, text processing techniques must be applied many natural language texts. Text processing is the process of analyzing with variety of techniques in order to classify raw data in documents. In this study, a data set of scientific articles published in Turkish was built and it is aimed to obtain high success by applying different text processing and classification methods. With this aim text classification procedures (preprocessing, indexing, feature selection, classification and performance evaluation) were performed step by step. We used character 2-gram and 3-gram methods to choose the word stem in order to express the texts used in this study. To quantintify the data obtained from abovementioned methods, we applied TF, binary and most commonly used TF-IDF weighting methods of the vector space model. We used information gain and correlation based feature selection methods in order to choose the relevant features and remove the unnecessary ones. We used the most famous classifications methods, namely K-NN, Naive vii Bayes, Multinominal Naive Bayes and SVM, on the Weka software to benchmark the performance of the proposed method. In advance, data set was compared to an other one (1150 news published in Turkish in Internet). In conclusion, the best results regarding the feature vectors obtained using word stems were obtained from the double weighting method. For the character 2gram and 3-gram methods, the best results were obtained from TF weighting method. The information gain method returned better results compared to the correlation based feature selection method. It yielded better performance on the fusion at feature level. The best result (99,44%) was obtained from the word stems+information gain+binary+TF+TF-IDF feature vector. By applying the text processing methods explained in this study, we obtained better results compared to the previous study. Science Code Key Words Page Number Adviser : 902.1.014 : Text classification, text classsification procedures, weighting methods, feature selection methods : 82 : Assoc. Prof. Dr. Hasan Şakir BİLGE viii TEŞEKKÜR Hayatım boyunca bana yardımcı olan, manevi desteklerini her zaman hissettiğim aileme ve benim Türkiye'de okumamı sağlayan Ahmet Yesevi Üniversitesi çalışanlarına en içten teşekkürlerimi sunuyorum. Ayrıca bu çalışma boyunca beni teşvik eden, bana rehberlik eden ve destek olan danışmanım Doç. Dr. Hasan Şakir BİLGE’ye teşekkürlerimi borç bilirim. Raporun hazırlanması sırasında dil bilgisi hataları konusunda desteğini eksik etmeyen arkadaşım Fatma SOYLU’ya teşekkür ederim. Son olarak bu çalışma boyunca her konuda beni destekleyenlere teşekkürlerimi sunuyorum. ix İÇİNDEKİLER Sayfa ÖZET...........................................................................................................................iv ABSTRACT................................................................................................................vi TEŞEKKÜR..............................................................................................................viii İÇİNDEKİLER............................................................................................................ix ÇİZELGELERİN LİSTESİ..........................................................................................xi ŞEKİLLERİN LİSTESİ.............................................................................................xiii SİMGELER VE KISALTMALAR...........................................................................xiv 1. GİRİŞ.......................................................................................................................1 2. METİN İŞLEME SÜREÇLERİ...............................................................................3 2.1. Verilerin Toplanması........................................................................................3 2.2. Ön İşleme..........................................................................................................3 2.3. İndeksleme ve AğırlıklandırmaYöntemleri......................................................5 2.4. Öznitelik Seçimi................................................................................................9 2.5. Sınıflandırma...................................................................................................24 2.6. Performans Değerlendirme.............................................................................27 3. ÇALIŞMADA KULLANILAN YÖNTEM...........................................................29 3.1. Ön İşleme........................................................................................................29 3.2. İndeksleme ve Ağırlıklandırma Yöntemleri....................................................32 3.3. Öznitelik Seçimi..............................................................................................36 3.3.1. Bilgi kazancı.........................................................................................36 3.3.2. Korelasyon tabanlı özellik seçimi (KTÖS)..........................................37 3.3.3. Öznitelik seçme yönteminin uygulanması............................................39 x Sayfa 3.4. Sınıflandırma ve Sınıflandırıcılar....................................................................41 3.4.1. K – en yakın komşu..............................................................................42 3.4.2. Naive bayes...........................................................................................44 3.4.3. Multinominal naive bayes....................................................................46 3.4.4. Destek vektör makinesi........................................................................47 3.4.5. Sınıflandırıcıların uygulanması............................................................48 4. DENEYSEL ÇALIŞMALAR................................................................................50 4.1. Veri Kümesi Bilgileri......................................................................................51 4.2. Kelime Köklerinden Oluşan Öznitelik Vektörlerinden Elde Edilen Sonuçlar...........................................................................................................53 4.3. N-gram’dan Oluşan Öznitelik Vektörlerinden Elde Edilen Sonuçlar.............54 4.4. Öznitelik Seçme Sonucu Oluşan Öznitelik Vektörlerinden Elde Edilen Sonuçlar...........................................................................................................57 4.5. Öznitelikler Düzeyinde Birleştirmede Oluşan Öznitelik Vektörlerinden Elde Edilen Sonuçlar...............................................................................................61 4.6. Sınıflandırıcı Düzeyinde Birleştirmede Oluşan Öznitelik Vektörlerinden Elde Edilen Sonuçlar...............................................................................................65 4.7. 1150 Haberler Veri Kümesi İle Karşılaştırma................................................67 5. SONUÇ..................................................................................................................70 KAYNAKLAR...........................................................................................................74 EKLER........................................................................................................................80 EK-1 Çalışmada kullanılan Türkçe durak kelimeleri.................................................81 ÖZGEÇMİŞ................................................................................................................82 xi ÇİZELGELERİN LİSTESİ Çizelge Sayfa Çizelge 2.1. Öznitelik seçme yöntemleri....................................................................13 Çizelge 3.1. text2arff yazılımı ile elde edilen öznitelik matrisinin yapısı..................30 Çizelge 3.2. Kelime köklerinden ve karakter n-gram’lardan oluşan öznitelik vektörlerlerinin sayıları..........................................................................36 Çizelge 3.3. Öznitelik seçme yöntemleri ile elde edilen öznitelik vektörlerinin sayıları....................................................................................................41 Çizelge 3.4. k’nın farklı değerlerinde alınan sonuçlar................................................49 Çizelge 4.1.Bil imsel makalelerden oluşan veri kütüphanesi ve makale sayısı..........52 Çizelge 4.2. 1150 haberden oluşan veri kütüphanesi ve doküman sayısı...................52 Çizelge 4.3. Kelime köklerinden oluşan öznitelik vektörleri ( Ön işleme aşamasından önceki hali) ....................................................................53 Çizelge 4.4. Kelime köklerinden oluşan öznitelik vektörleri (Ön işleme aşamasından sonraki hali) ..................................................................54 Çizelge 4.5. 2-gram’dan oluşan öznitelik vektörleri (Ön işleme aşamasından önceki hali).............................................................................................55 Çizelge 4.6. 2-gram’dan oluşan öznitelik vektörleri (Ön işleme aşamasından sonraki hali)...........................................................................................55 Çizelge 4.7. 3-gram’dan oluşan öznitelik vektörleri (Ön işleme aşamasından önceki hali).............................................................................................56 Çizelge 4.8. 3-gram’dan oluşan öznitelik vektörleri (Ön işleme aşamasından sonraki hali)...........................................................................................56 Çizelge 4.9. KTÖS yöntemi ile seçilen öznitelik vektörleri (Ön işleme aşamasından önceki hali).......................................................................57 Çizelge 4.10. KTÖS yöntemi ile seçilen öznitelik vektörleri (Ön işleme aşamasından sonraki hali)....................................................................58 Çizelge 4.11. Bilgi kazancı yöntemi ile seçilen öznitelik vektörleri (Ön işleme aşamasından önceki hali).....................................................................59 xii Çizelge Sayfa Çizelge 4.12. Bilgi kazancı yöntemi ile seçilen öznitelik vektörleri (Ön işleme aşamasından sonraki hali).....................................................................60 Çizelge 4.13. Öznitelik birleştirme sonucunda oluşan öznitelik vektörleri (Ön işleme aşamasından önceki hali)...........................................................61 Çizelge 4.14. Öznitelik seçme sonucunda elde edilen öznitelik vektörleri (Ön işleme aşamasından önceki hali)...........................................................62 Çizelge 4.15. Öznitelik birleştirme sonucunda oluşan öznitelik vektörleri (Ön işleme aşamasından sonraki hali...........................................................62 Çizelge 4.16. Öznitelik seçme sonucunda elde edilen öznitelik vektörleri (Ön işleme aşamasından sonraki hali).........................................................63 Çizelge 4.17. Sınıflandırıcı düzeyinde birleştirmede oluşan öznitelik vektörleri.......66 Çizelge 4.18. 1150 haberler veri kümesinde her bir öznitelik grubunun en başarılı olduğu sonuçlar....................................................................................68 Çizelge 4.19. 1150 haberinen oluşan veri kümesinden elde edilen sonuçlar..............69 xiii ŞEKİLLERİN LİSTESİ Şekil Sayfa Şekil 2.1. Metin sınıflandırma genel süreçleri.............................................................3 Şekil 2.2. Öznitelik seçme süreçleri...........................................................................11 Şekil 2.3. Cscore’un yanlış skorları üretmesi (a, b)...................................................19 Şekil 3.1. 10 defa çapraz doğrulamanın genel yapısı.................................................32 Şekil 3.2. TFyöntemine göre elde edilen öznitelik matrisi........................................35 Şekil 3.3. Weka’da öznitelik seçme sekmesinin arayüzü..........................................40 Şekil 3.4. K-en yakın komşu yöntemi, k=3...............................................................44 Şekil 3.5. DVM yönteminin düzlemlerin koordinat düzleminde görüntülenmesi.....48 Şekil 4.1. Veri kütüphanesinin oluşturulması............................................................51 Şekil 4.2. Kelime kökleri+bilgi kazancı + ikili + TF + TF - IDF öznitelik vektörü hata matrisi (Multinominal Naive Bayes için)...........................................64 Şekil 4.3. Kelime kökleri+bilgi kazancı + ikili + TF + TF - IDF öznitelik vektörü hata matrisi (DVM için).............................................................................64 xiv SİMGELER VE KISALTMALAR Bu çalışmada kullanılmış bazı kısaltmalar, açıklamaları ile birlikte aşağıda sunulmuştur. Kısaltmalar Açıklamalar AÖS Ayırt edici Öznitelik Seçme (Distinguishing Feature Selector) BT En İyi Terimler (Best Terms) C45 Karar Ağaçları EKKF Entropi Tabanlı Kategori Kapsam Farkı (Entropy based Category Coverage Difference) IG Bilgi Kazancı (Information Gain) KDE Kernel Yoğunluğu Tahmini (Kernel Density Estimation) KNN K-En Yakın Komşuluk (k-Nearest Neighbors) KTÖS Korelasyon Tabanlı Öznitelik Seçme (Correlation-Based Feature Selection) LVQ Ögrenmeli Vektör Kuantalama (Learning Vector Quantization) MI Karşılıklı Bilgi (Mutual Information) MLP Çok Katmanlı Algılayıcı (Multilayer Perceptron) PCA Temel Bileşenler Analizi (Principal Component Analysis) RF Rastgele Orman (Random Forest) SVM Destek Vektör Makinesi (Singular Vector Machine) SFS Sıralı İleri Seçme (Sequential Forward Selection) TCDC Terim-Kategoriye Bağlı Şartlar TF-IDF Terim Frekansı – Ters Doküman Frekansı (Term Frequency–Inverse Document Frequency) TS Terim Gücü (Term Strength) TP Gerçek Pozitif (True Positive) TN Gerçek Negatif (True Negative) FP Yanlış Pozitif (False Positive) FN Yanlış Negatif (False Negative) 1 1. GİRİŞ Değişen ve gelişen teknolojiler ışığında, kağıt üzerindeki metinlerin sayısal ortamlara aktarılması (online metinlere, bilimsel makalelere, e-maillere, teknik raporlara vb) kolaylaşmıştır ve erişebilirlik büyük oranda artmıştır. Elektronik ortamdaki bilgilerin çoğalması, toplumun bu bilgilere daha düzenli, kolay bir şekilde ulaşmaya ve aradığı bilgiyi daha çabuk bulmaya ihtiyacı artmıştır [1]. Doküman; herhangi bir aktivitenin yöntemlerini tanıtan yada okuyanı bir iş, bir görevle ilgili yönlendiren elektronik ortamda veya kağıt ortamındaki yazılı metinlerdir [2]. Bilgiye daha kolay erişmek için metinlerin sınıflandırılmasına ihtiyaç duyulmaktadır. Metin sınıflandırma kullandığımız dokümanların hangi sınıfa ait olduğunu belirleme işlemidir. Metin sınıflandırma 1960’lı yıllardan itibaren ortaya çıkmıştır [3] ama tam olarak gelişememiş ve 1980’lerde uygun bilgi akışının artışı nedeniyle bir ivme kazanmıştır [4]. Metni topladıktan sonraki aşama, sınıflandırmayı kolaylaştırmak için metnin düzenlenmesi veya baştan yapılandırılmasına karar verilmesidir. Sonsuz sayıda giren doğal dil metinlerini sınıflandırmadan önce metin işleme tekniklerinin uygulanması gerekmektedir. Metin işleme; dokümanlarda bulunan ham verileri sınıflandırmak için çeşitli teknikler yardımı ile analiz etme işlemidir. Bu çalışmada çeşitli metin işleme yöntemleri kullanılmıştır. Metin sınıflandırma işlemi giderek artan veri uzaylarıyla çalıştığı için sınıflandırma performansı düşmektedir [3, 5]. Bunu önlemek için metin işleme adımlarından biri olan öznitelik seçme yöntemine ihtiyaç duyulmaktadır. Bu çalışmada metin işleme tekniğinin önemli bir aşaması olan öznitelik seçme konusuna odaklanılmıştır. 2 Öznitelik seçme yöntemleri iki amaç içermektedir: özellik kümesinin boyutunu azaltmak ve sınıflandırma performansını en üst seviyeye çıkartmak için veride bulunan gürültü miktarını azaltmak amacı ile kullanılmaktadır [6, 7]. Gün geçtikçe öznitelik seçmenin kullanım alanları çoğalmaktadır. Öznitelik seçmenin ileri seçme ve geri seçme olmak üzere iki yaklaşımı vardır. Öznitelik seçme üç geniş yönteme ayrılmaktadır: filtreleme yöntemi, sarmal (wrapper) yöntem ve gömülü yöntemdir. Bu çalışma için Türkçe bilimsel makaleleri içeren bir veri kümesi oluşturulmuştur. Çalışmanın temel amacı bu veri kümesi üzerinde çeşitli metin işleme yöntemlerini uygulayarak en uygun metin işleme yöntemlerini belirlemektir. Oluşturduğumuz veri kümesinin etkinliğini kontrol etmek amacıyla Amasyalı ve arkadaşlarının çalışmasında kullanılan [8, 9] gazetelerdeki haber sayfalarından toplanmış 1150 haber metninden oluşan veri kümesi tercih edilmiştir. Tezin ikinci bölümünde metin işleme aşamalarında kullanılan verilerin toplanması, ön işleme, vektöre dönüştürme ve ağırlıklandırma yöntemleri, öznitelik seçimi, sınıflandırma ve performans değerlendirme yöntemleri incelenmiştir. Tezin üçüncü bölümünde ikinci bölümde anlatılan yöntemlerin çalışmaya uyarlanma şekli, literatür taraması ve öznitelik seçme, sınıflandırma yöntemleri açıklanmıştır. Tezin dördüncü bölümünde iki farklı veri kümesi üzerinden deneysel çalışmalardan elde edilen sonuçlar açıklanmıştır. Tezin sonuç kısmında ise uygulamadan elde edilen sonuçlar değerlendirilmiştir. 3 2. METİN İŞLEME SÜREÇLERİ Korde tarafından yapılan çalışmada metin sınıflandırmasının ilk aşamaları üzerinde durulup, metin sınıflandırma süreçlerinden bahsedilmiş, zaman karmaşıklığı ve performans gibi kriterilere göre mevcut bazı sınıflandırıcıların karşılaştırılması yapılmıştır. Metin işleme süreci genel olarak Şekil 2.1’deki gibi çalıştırılmaktadır [10]. Şekil 2.1. Metin sınıflandırma genel süreçleri [10]. 2.1. Verilerin Toplanması İnternet üzerinde belgelerin toplanması sınıflandırma sürecinin ilk adımıdır [10]. Bu çalışmada internetteki farklı konuda olan bilimsel makaleler ve tez çalışmaları toplanarak bir veri kütüphanesi oluşturulmuştur sonrasında elde edilen veri kümesine metin işleme teknikleri ve sınıflandırma yöntemleri uygulanmıştır. Hazırlanan veri kütüphaneleri sisteme alınmış ve ön işleme sürecinden geçirilmiştir. Bu noktada girdi objesinin iyi temsil edilmesi önem kazanmaktadır, çünkü öğrenilen modelin doğruluğu güçlü bir şekilde girdi objesinin nasıl temsil edildiği hususuna bağlıdır. 2.2. Ön İşleme Geçmişte yapılan çalışmalar sonucunda ön işleme aşaması için harcanan sürenin, 4 sınıflandırma sürecinin %50 ile %80’ini alabileceği ispatlanmış [11], bu da metin işleme sürecinde ön işleme aşamasının önemini kanıtlamaktadır [7]. Kaliteli bir sınıflandırma yapabilmek için verileri gereksiz olan verilerden ayıklamak gerekmektedir. Ön işleme aşaması öznitelik temsili ve metin sınıflama algoritmaları için ham metni gerekli formata dönüştüren veri kümesinin temel basamağıdır. Fabrio’nun çalışmasında ön işleme aşaması özellik azaltma işlemleri olarak açıklanmaktadır ve üç genel yaklaşımı kapsamaktadır; durak kelimeleri silme, kelimelerin ortak köklerini kullanma ve istatistiksel filtreleme [12]. Metinler arındırılmış hale geldikten sonra vektörel uzayda öznitelikler olarak temsil edilmesi için atomik parçalara ayrılması gerekmektedir. Atomik parçalar uygulamanın tipine göre ayrılmaktadır (cümle, kelime kökü, n-gram, hece v.b) ve bunlara kısaca belirtkeçler denmektedir [13]. Bu çalışmada metinleri ifade etmek için kelimeler doğrudan alınarak kelime kökleri [14, 15] ile birlikte karakter n-gram yöntemi kullanılmaktadır [16]. Bu çalışmada oluşturulan veri kütüphanesi Türkçe bilimsel makalelerden derlenmektedir. Türkçede her bir kelime kök ve eklerinden oluşmaktadır. Pilavcılar’ın tez çalışmasında [17] kelimelerin kök ve eklerini ayırmak için joker isimli bir yöntem kullanılmıştır. Joker kelime, aynı söz dizimi ile başlayan ve çeşitli ekler almış ancak yakın anlamda olan sözcükleri tek bir gösterimle grup altında toplayan kelimelerdir. Joker kelime gövdeleme yöntemine benzemektedir. Gövdeleme bir kelimeye eklenmiş olan çekim eklerinin çıkarılması ile kelimenin gövdesinin bulunması işlemine verilen isimdir [18]. Gövdelemede çekim ve yapım eklerinden ayrılan kelimeler, ortak bir köke indirgenir. Ancak burada köke indirgeme şartı yoktur. Kökün yanında ek de bulunabilir. Joker kelimeler kategoriyi belirlememize yardımcı olan anahtar kelimelerden veya sık kullanılan kelimelerden seçilir. N-gram, bir karakter kümesinin n adet karakter dilimidir [16]. 5 N-gram’lar sıklık bilgisine ek olarak terimlerin sırası ile de ilgilenmektedir. Sadece terim sıklıkları ile ilgilenen bir yöntem için (örneğin bag-of-words) “Orta Anadolu” veya “Anadolu Orta” aynı şey iken n-gram için bu ikisi birbirinden farklı şeylerdir. Kelime torbası (bag-of-words) çözümlemesi bir metin içerisinde yer alan bütün terimlerin sıklık bilgilerinin kullanılmasını ifade etmektedir [19]. 2.3. İndeksleme ve Ağırlıklandırma Yöntemleri İnsan beyninin karmaşık kavramları anlama ve ifade etme kapasitesi yüksektir. Bilgisayar kelimeleri insanların kavradığı gibi kavrayamaz, fakat metin dokümanlarının uygun bir biçime aktarılmasına ihtiyaç duyarlar. Dokümanlar doğal metinler içermektedir ve sayısal bir veri olmadığı için bilgisayar tarafından tanınamamaktadır ve herhangi bir işlem yapılamamaktadır. Bu sebepten ön işleme aşamasından sonra yapılması gereken işlem, sınıflandırmak istediğimiz dokümanı vektörel uzayda ifade edebilmektir. Metin sayısallaştırma işleminde üç geleneksel model mevcuttur: vektör uzayı modeli, olasılıksal model, çıkarım ağı modeli. Bunların arasından yaygın olarak kullanılan model 1975 yılında Salton ve arkadaşları tarafından önerilen vektör uzayı modelidir [20]. Sözlük bir V - boyutlu vektörel uzay tanımlar ve böyle bir alanda dokümanlar vektörler olarak temsil edilirler. j.vektörün i.bileşeninin değeri, j.dokümanın i.kelimesinin ağırlığına denk gelmektedir. Metin dokümanlarını temsil etmenin bu yolu "Kelime Torbası" (bag-of-words) olarak da bilinmektedir [21]. İndeksleme aşamasında dokümandaki tüm kelimelerin öznitelik vektörleri bulunacaktır yani her kelimenin ağırlığı hesaplanacaktır. Vektör uzayı modelinde, öznitelik sayılar kullanılarak ağırlık olarak temsil edilmektedir ve sorgu ile belge arasındaki benzerlik ölçüsü hesaplanmaktadır. Ağırlıklandırma ile ilgili çeşitli teknikler geliştirilmiştir. Boolean ağırlıklandırma, frekans ağırlıklandırma, TF-IDF (Term Frequency – Inverse Document Frequency) ağırlıklandırma, entropi ağırlıklandırma gibi bazı bilinen ağırlıklandırma yöntemleri vardır [22]. 6 Ağırlık değerlerinin belirlenmesinde kullanılan yöntemlerin hepsi iki önemli noktaya dayanmaktadır [23]: Bir terim, bir dokümanın içinde ne kadar çok sayıda geçerse, o dokümanın bir kategoriye atanmasında o kadar etkili olur [24]. Bir terim ne kadar çok farklı dokümanda bulunursa, o terimin ayırt edici özelliği o kadar azdır. Vektör uzayında terimleri temsil etmeden önce indeksleme olarak adlandırılan aşamada dokümanda yer alan tüm kelimeler seçilen bir yöntem yardımı ile frekanslarına göre sıralanacaktır. Daha sonra her kelime bir ağırlık yöntemi tarafından ağırlıklandırılarak, öznitelik vektörü oluşturulacaktır. Her öznitelik vektörü bir kelimeye denk gelmektedir ve vektör uzayında kullanılmaktadır. Bu tez çalışmasında vektör uzayı modelinin TF (Term Frequency) [22], ikili [25] ve en yaygın olarak kullanılan TF-IDF [22] ağırlıklandırma yöntemleri uygulanmaktadır. Vektör uzayı modeli, bazı yapısal sorunları barındırmaktadır. Vektör uzayı modelindeki sorun yaklaşımın boyutunun yüksek olmasıdır, çünkü kısa metinler için bile V boyutlarından oluşan bir vektör kullanılmaktadır. O yüzden terimlerin öncelikle öznitelik seçme aşamasından geçirilmesi gerekmektedir. Yıldız ve arkadaşlarının yaptığı bir çalışmada [14] Türkçe kelimelerin gövdeleri de öznitelik olarak alınarak ağırlıklandırmaya dayalı yeni bir öznitelik çıkarma yöntemi geliştirilmiştir. Geliştirilen öznitelik vektör oluşturma yöntemiyle geleneksel yöntemlerle karşılaştırmıştır. Kelimelerin metinlerdeki ağırlıklarının yerine, sınıflardaki ağırlıkları kullanılmıştır ve metinde geçen kelimelerin sınıf ağırlıkları toplanıp normalize edilerek metnin yeni öznitelik vektörü oluşturulmuştur. Öznitelik vektörü bulunurken geleneksel yaklaşımdaki her bir kelimenin, her bir metindeki 7 ağırlığı yerine (Eşitlik 2.1 ve 2.2) her bir sınıftaki ağırlığı bulunurken Eşitlik 2.3, 2.4, ve 2.5’de verilmiş olan 3 farklı metot denenmiştir. = (2.1) = log + 0.5 ∗ log( ⁄ ) (2.2) = log( + 0.5) ∗ log( ⁄ ) (2.3) = = log( (2.4) + 0.5) ∗ log( ⁄ Burda, D – toplam metin sayısı, i.sınıfta geçtiği metin sayısı, kelimenin i.sınıfa göre ağırlığı, ) (2.5) - kelimenin geçtiği metin sayısı, - kelimenin - kelimenin i.sınıftaki metinlerde geçme sayısı, - kelimenin j.metindeki ağırlığı, - - kelimenin j.metindeki geçme sayısı. Önerilen öznitelik vektörünün, metinleri ne ölçüde temsil edebildiğinin bulunması için beş farklı sınıflandırma algoritması uygulanmıştır. Önerilen metotta metinler çok daha az boyutta gösterilmiş olmalarına rağmen, geleneksel yaklaşımdan daha yüksek bir sınıflandırma başarısı alınmış ve büyük boyutlarda çalıştırılamayan karışık algoritmalar da kolaylıkla kullanılabilmiştir. En yüksek başarı Eşitlik 2.3’te % 96.25 ile Naive Bayes yönteminden alınmıştır. Amasyalı ve Beken tarafından önerilen yaklaşımda ise öncelikle metinlerde geçen kelimeler anlamsal bir uzayda belirlenmiştir. Bu çalışmada ise önceki çalışmalardan farklı olarak, öncelikle metinlerin içinde geçen kelimelerin anlamsal benzerliklerine uygun sayısal koordinatları bulunmuş ve daha sonra metinlerin sayısal koordinatları, içinde geçen kelimelerin koordinatları kullanılarak bulunmuştur. Metinler vektörlerle gösterildiğinde (metin sayısı * farklı kelime sayısı) boyutlu bir matris oluşturmaktadır. Bu matrisin elemanları 2 farklı şekilde elde edilmiştir: = (2.6) 8 = log + 0.5 ∗ log (2.7) Klasik metotlardaki iki kelime frekansında en başarılı sonuç Eşitlik 2.7 ile elde edilmişken Eşitlik 2.6’nın ortalama başarısı Eşitlik 2.7’den daha yüksektir ve daha güvenilir sonuçlar üretmektedir. Yeni yöntemi değerlendirmek için Türkçe haberlerin üzerinden birkaç sınıflandırıcılar kullanılarak sonuçlar elde edilmiştir. Kelime koordinatlarının bir uygulaması olarak gerçeklenen metin sınıflandırma işleminde klasik yollarla (Naive Bayes, Terim Frekansı) sınıflandırmaya göre daha başarılı sonuçlar (93.25%) elde edilmiştir [9]. Yine Amasyalı ve arkadaşları bir metnin hangi özniteliklerine bakılarak karar verilir sorusuna cevap aramışlardır. Literatürde birçok sınıflandırma problemlerinden bahsedilmiştir ve her problem için metin temsil yöntemleri ortaya konulmuştur. Bu çalışmada, literatürdeki birçok yöntem ve önerilen 17 adet öznitelik grupları (metin temsil yöntemleri), çeşitli veri kümeleri ile karşılaştırılmıştır. Kelime kökleri, kelime türleri, n-gramlar, fonksiyonel kelimeler, kelime ekleri, kavram genelleştirme öznitelik grupları için frekans hesaplamasında kullanılmak üzere TF, TF-IDF, ikili, log, normalize1 ve normalize2 olmak üzere altı farklı yöntem kullanılmıştır. En başarılı metin temsili yöntemlerine bakıldığında, harf n-gram’larının başarısı göze çarpmaktadır. N-gram’ların ağırlıklandırılmasında oldukça popüler olan TF ve TFIDF yerine ikili, Log ve N1 ağırlıklandırma yöntemlerinin daha başarılı oldukları görülmüştür . Liu ile Yang gerçekleştirdiği çalışmalarında TF-IDF’in kusurları ile ilgili olarak sınıf içi karakteristikleri temsil amacıyla TF-IDF-CF adlı yeni bir parametre oluşturmuştur ve buna sınıf frekansı denilmiştir, bu parametre bir sınıf içindeki dokümanlarda yer alan terim frekansını hesaplamaktadır. Bu yöntemin formülü Eşitlik 2.8’e dayanmaktadır: = log + 1.0 × log . × (2.8) 9 Daha sonra 1000 öznitelik seçmek için ki-kare öznitelik seçme yöntemini kullanmışlar ve yaygın olarak kullanılan bazı sınıflandırıcılar (Naive Bayes, Bayes Ağları, K-NN, DVM) üzerinde ayrı ayrı TF-IDF, LTC, TFC ağırlandırma yöntemini kullanarak karşılaştırmalar gerçekleştirmişlerdir. En yaygın kullanılan TF-IDF yönteminin düşük performansa sahip olmasının nedeni, TF-IDF yönteminin farklı sınıflara ayırtedici yeteneği vurgulaması fakat sınıf içi temsil yeteneğini düşürmesidir. Terim bir sınıfta ne kadar çok geçerse sınıfı temsil etme şansı o kadar yükselmektedir, o yüzden TF-IDF-CF ağırlık yöntemi diğer yöntemlere göre tüm sınıflandırıcılarda yüksek başarı vermiştir. En yüksek başarısı DVM ile sınıflandırıldığında %92,8’ye ulaşılmıştır [22]. 2.4. Öznitelik Seçimi Öznitelik seçimi, tüm öznitelikler arasından en iyi öznitelikleri seçme sürecidir; çünkü tüm öznitelikler küme inşasında faydalı değillerdir: bazı öznitelikler gereksiz ya da ilgisiz olabilirler ve bu nedenle de öğrenme sürecine katkıda bulunamazlar. Öznitelik seçmenin önemli hedefi, orijinal verileri temsil edebilecek küçük boyuttaki özniteliklerin kümesini seçmektir [26]. Öznitelik seçme birçok avantaja sahiptir [26]: • Depolama isterlerini sınırlamak ve algoritma hızını arttırmak için öznitelik alanının boyutsallığını azaltır. • Gereksiz, ilgisiz ve gürültü verilerini ortadan kaldırır. • Veri analiz görevlerini doğrudan etkiler, öğrenme algoritmalarının çalışma süresini azaltır. • Veri kalitesini arttırır. • Sonuç alma modelinin kesinliğini arttırır. • Kestirim kesinliğini arttırmak amacıyla performans kazanımı sağlar. 10 Tipik öznitelik seçme süreci (Şekil 2.2’de gösterilmektedir) dört temel adımdan oluşmaktadır [27]: • alt küme oluşturma. • alt küme değerlendirme. • durdurma kriteri (ölçütü). • sonuç geçerliliği. Süreçte öznitelik alt kümesini ortaya çıkarmak için belli arama stratejisini çalıştırarak alt küme oluşturma ile işe başlanır. Sonra her basamakta alt küme belirli değerlendirme kriterine göre değerlendirilmekte ve daha önceki iyi olanlarla kıyaslanmaktadır. Eğer daha iyi ise, o zaman önceki en iyinin yerine atanmaktadır. Alt küme oluşturma ve değerlendirme süreci verilmiş olarak kriteri sağlayana kadar tekrarlanmaktadır. Son olarak, önceki bilgi ve bazı test verilerle seçilmiş en iyi özellik alt kümesinin geçerliliği denetlenmektedir. Yukarıda bahsettiğimiz gibi öznitelik seçme önemli özniteliklerden oluşan bir alt küme oluşturur ve daha basit ve özlü bir veri temsili oluşturmak için ilintisiz ve gürültülü öznitelikleri çıkartır. Şekil 2.2. Öznitelik seçme süreçleri 11 Öznitelik seçmenin üç yaklaşımı vardır [27]: • İleri yönde seçme: Sıfır değişkenle başlayıp daha fazla ekleme yapmak hatada anlamlı bir düşüşe neden olmayana kadar her adımda hatayı en çok düşürenleri birer birer eklemektir. • Geri yönde seçme (geri eleme): Bütün değişkenlerle başlayıp ve daha fazla çıkarım yapmak hatada anlamlı bir artışa neden olmayana kadar her adımda hatayı en çok düşürenleri (ya da sadece çok az arttıranları) birer birer çıkartmaktır. • Basamaklı çift yönlü seçme (bidirectional search) olarak adlandırılan alternatif bir yaklaşım orta bir yerden başlar ve bu noktadan dışa doğru ilerleyerek hem ekleme hem de çıkartmayı kullanır. Diğer bir yaklaşım ise en iyi ilk [28]: Sistem geri iz sürmeye başlamadan önce kaç tane ardışık kazanç sağlamayan düğümle karşılaşılması gerektiğini tanımlayabilir. Boş bir özellik kümesinden başlayarak ileri doğru ve dolu bir kümeden başlayarak geriye doğru arayabileceği gibi (bir özellik indisi tarafından belirlenen) aradaki bir noktadan başlayarak olası bütün tekil öznitelik ekleme ve çıkarımlarını göz önünde bulundurarak her iki yöne doğru da arayabilir. Değerlendirilen alt kümeler verimlilik sağlamak için önbelleğe alınır; önbellek boyutu parametrelerden biridir. En iyi ilk yaklaşımının öznitelik arama alanının tamamını araştırmasını önlemek için, bir durma kriteri uygulanır. Eğer arka arkaya tamamıyla açılmış beş alt sette hâlihazırdaki en iyi alt kümeye göre bir iyileşme görülmediği durumda arama sonlandırılmaktadır. John ve arkadaşlarına göre makine öğrenmesinde temel iki tür özellik seçme yöntem mevcuttur: sarmal ve filtreler [29]. Çoğu çalışmada öznitelik seçme üç genel kategoriye ayrılmaktadır [26, 30, 31, 32] : 12 Filtreleme Yöntemleri: Filtreleme yaklaşımı öznitelik seçme problemi için uzun zamandır en popüler ve hesaplama açısından hızlı bir yaklaşım olarak kabul edilmektedir. Filtreleme tekniklerinin hesaplaması hızlı çalışır, ama öznitelik bağımlılıklarını göz önüne almaz. Bu yöntemler, sınıflandırmadan nispeten bağımsız olan ayrım kriterlerine dayalı olarak ve belirli bir eşik değerinin üzerinde değer alan öznitelikleri seçerler. Çeşitli yöntemler, Fisher ayrımı kriterine benzer basit korelasyon katsayıları kullanırlar. Diğerleri ise karşılıklı bilgi ya da istatistiksel testleri (t testi, F testi) kullanırlar. Sarmal (Wrapper) Yöntemleri: Sarmal teknikleri, öznitelik bağımlılıkları dikkate alarak, öznitelik arama altkümesi ile öğrenme modelin seçme arasındaki etkileşimi sağlamaktadır, ancak filtrelemeye göre hesaplama açısından pahalıdır. Sarmal yöntemi, öznitelik alt kümelerini kestirim güçlerine dayalı olarak skorlamak için sınıflandırıcıdan bir kara kutu olarak faydalanırlar. DVM’ye dayanan sarmal yöntemleri makine öğrenme konusunda kapsamlı bir biçimde çalışılmıştır. Her bir yineleme adımında, özellikleri nesnel fonksiyondaki indirgeme miktarına dayalı olarak sıralamaktadır. Daha sonra en alt sıradaki öznitelikleri sonuçlardan elemektedir. Çeşitli varyantlar da geri yönlü öznitelik eleme şeması ve doğrusal çekirdek kullanmaktadır. Gömülü Yöntemler: Gömülü yöntemler sınıflandırıcının eğitim fazında öznitelik seçimini entegre etmektedir; bu nedenle, bu yöntemler kullanılan öğrenme modeli için kendine özgüdür. Mantıksal bağlaçlar tetikleme yöntemleri bu tür embedding (gömülü) için örnek teşkil etmektedir. Aşağıdaki tabloda öznitelik seçme kategorilerine göre ayrılan yöntemlerin listesi verilmektedir [33]: 13 Çizelge 2.1. Öznitelik seçme yöntemleri Öznitelik Seçme Kriterleri Uzaklık yöntemleri Bilgilendirme yöntemleri Filtreleme Öznitelik Seçme Yöntemleri Öklid uzaklık ölçüsü, Mantaras uzaklık ölçüsü Entropi, bilgi kazancı, kazanç oranı, normalleştirilmiş kazanç Bağımlılık yöntemleri Korelasyon katsayısı Tutarlılık yöntemleri Min-özellikler sapması Tek değişkenli Ki-kare, t-testi Çok değişkenli Korelasyon Tabanlı Özellik Seçme, Markov paket filtresi, hızlı korelasyon tabanlı özellik seçme Fisher ölçüsü, Odd oranı, Denetimsiz İleri Seçme, Temel Bileşenler Analizi (PCA),Shannon entropisi, Gini endeksi, varyanslar oranı Sarmal (Wrapper) Deterministik Sıralı İleri Seçme (SFS), Sıralı Geriye Eliminasyon (SBE), Artı L eksi R, Genişlik Arama Rastgele Tavlama benzetimi, genetik algoritmalar, dağıtım algoritmaların kestirimi K-en Yakın Komşu (K-NN), Yasallaştırılan Bayesian Sinir Ağı (BRNN), Karınca Sömürge Optimizasyonu (ACO), regresyon katsayıları, açgözlü özellik altküme seçme sarıcı Karar ağaçları, ağırlıklı naive Bayes, DVM ağırlık vektörünü Gömülü kullanarak özellik seçme, yapay sinir ağları Hibrid Puanlama ölçülerine dayanan Hibrid sarmalayıcı Sarmal (wrapper) bir sınıflandırıcıyı, değerlendirilecek her bir öznitelik alt kümesi için eğitilmesi gerektiğinden dolayı, özellikle öznitelik sayısı yüksek olduğunda çok zaman almaktadırlar. Bu nedenle sarmal yöntem genellikle metin sınıflandırmaya uygun değildir [5]. Bu tez çalışmasında yukarıda belirtilen nedenlerden dolayı sarmal yöntem yerine filtreleme yöntemi tercih edilmiştir. Literatürde çok sayıda yaklaşım bulunmasına rağmen, metin sınıflandırma ve öznitelik seçimi hala devam eden bir araştırma konusudur. Araştırmacılar, sınıflandırma hassasiyetinin daha iyi bir hale getirilmesi ve işlem süresinin kısaltılabilmesi için, en iyi ayırt edici özellik seçimi için yeni teknikler aramaktadırlar. Diğer dillerle karşılaştırılırsa, Türkçe’de metin sınıflandırma konusu üzerinde çok durulmamıştır. Bu bölümde ilk Türkçe metinler için oluşturulmuş 14 çalışmalar açıklanacak diğer yandan yapılan çalışmalar sonucu başarılı sonuçlar veren öznitelik seçme yöntemlerinden bazıları ele alınacaktır. Amasyalı ile Yıldırım’ın yaptığı çalışmada beş tane sınıftan oluşan Türkçe haber metinlerinin sınıflandırılması amacı ile yeni bir yöntem geliştirilmiştir. Bu yöntemde kelimelerin yerine kelime gövdeleri kullanılarak eğitim verileri için bir sözlük oluşturulmuş sonrasında o sözlükteki kelimelerin frekansları hesaplanmıştır. Metinleri sayısal verilere dönüştürdükten sonra bilgi kazancı ve temel bileşenler analizi (PCA) yardımı ile boyut azaltma işlemi gerçekleştirilmiştir. Sınıflandırıcı olarak Naive Bayes ile Yapay Sinir Ağlarından olan MLP ve LVQ kullanılmıştır. Boyut azaltma yöntemleri performansı çok etkilememiş ama işlem zamanını düşürdüğü görülmüştür. En yüksek performansa Naive Bayes ve LVQ yöntemlerinde varıldığı görülmüştür [15]. Yılmaz ve arkadaşları metin içerikli dokümanların sınıflandırılmasında yeni yaklaşımlar geliştirmişlerdir. Yaptıkları bu çalışmada 75’er dokümandan oluşan eğitim, otomobil, sağlık, spor ve teknoloji gibi 5 sınıf içeren veri kümesi elde edilmiştir. İlk veriler ön işleme aşamasından geçirilerek temizlenmiştir. Sonra sözcükler ve sözcüklerin frekansları hesaplanmıştır. Öznitelik vektörlerin elde etmede belli bir eşik değeri kullanılmıştır. Öznitelik vektörleri için sözcük frekansları kullanılmıştır. Fakat, bütün sözcükleri kullanmak doğru sonuç vermez çünkü çok fazla sözcük bulunmaktadır. Bu nedenle her sınıf içindeki sözcüklerin frekansları hesaplanmıştır. Ki-kare, doküman frekansı veya mutual information ile uygun öznitelik sözcükleri tespit edilmiştir. Bir sınıfta çok yüksek olasılığa sahip olup, diğer sınıflarda düşük olasılığa sahip olan sözcükler tespit edilmiştir, ve böylece istenmeyen sözcüklerden kurtulmuştur. Bu durumda durak sözcükleri zaten elenmiş olmuştur. Bu yüzden öznitelik vektör uzayı en iyi temsil edecek olan sözcüklerden ve hecelerden oluşmuştur. Öznitelik vektör veri tabanındaki sözcükler ve heceler, dokümanlardaki sözcükler ve hecelerle karşılaştırılarak hangi sınıfa ait olduğu belirlenmiştir. Oluşturulan öznitelik vektör veri tabanına sınıflandırıcı olarak Yapay 15 Sinir ağlarından Çok Katmanlı Algılayıcı metodu kullanılmıştır ve sözcük tabanlı sistemlerde %87 ve hece tabanlı sistemlerde %93 oranında başarı elde edilmiştir [3]. Doğan ve Diri Türkçe dokümanlar için n-gram’ları kullanarak Ng-ind yöntemi geliştirmişlerdir. Bu yöntemin başarısını kontrol etmek için 2-gram, 3-gram ve 4gram’ları kullanmışlar (Canvar’ın yöntemi) ve K-NN, Naive Bayes, DVM ve Rastgele Orman yöntemleri ile sınıflandırmışlardır. Canvar’ın yönteminde en yüksek başarı %91,67 olurken geliştirilen yöntemin başarısı %93,75 olmuştur [16]. Unsalan ve Ercil sınıflandırıcının işini kolaylaştıran özniteliklerin bulunması ve başarı değerlendirmesi için öznitelik seçme yöntemini önermişlerdir. Öznitelik seçme yöntemleri için başarı kriterini değerlendirmek için Bayes sınıflandırıcı ile K-NN sınıflandırıcıları kullanılmıştır. Entropi ölçütü, Fisher ölçütü, şekil benzerliği ile seçme ve PCA gibi öznitelik seçme yöntemleri ile seçilerek dört tane veri kümesi hazırlanmıştır. Kullanılan veri setleri için iki sınıflandırıcı da iyi sonuç verirse, bu kümenin sınıflandırıcıdan bağımsız olduğu ya da sadece bir sınıflandırıcıda iyi sonuç gösterse sınıflandırıcıya bağımlı olduğu kanıtlanmıştır. Bu koşullara göre başarı kriteri hesaplanmıştır. Fisher ve şekil benzerliği öznitelik seçme yöntemleri yüksek başarı dereceleri göstermişlerdir [34]. Yang ve Pedersen bilgi kazancı, ki-kare, belge frekansı, terim gücü (TS) ve karşılıklı bilgi (MI) dahil beş öznitelik seçme yöntemlerini karşılaştırmışlardır. Onlar karşılaştırılıan öznitelik seçme yöntemleri içinden bilgi kazancının en etkili yöntem olduğunu raporlamışlardır [35]. Bu makalede, Entropi Tabanlı Kategori Kapsam Farkı (EKKF) olarak adlandırılan bir özellik seçme yöntemi sunulmuştur. Bilgi kazancı, ki-kare, belge frekansı ve karşılıklı bilgi gibi öznitelik seçme yöntemleri, kategoriler arası bir terimi içeren belgelerin dağılımını düşünmektedir, fakat terimin kategoriler arasındaki görülme sıklığı göz önünde bulundurmamaktadır. Ama bu çalışmadaki önerilen EKKF yöntemi kategorilerde yer alan terimleri içeren dokümanların dağılımına dayanırken, 16 diğer yandan da, entropisini göz önünde bulundurulmaktadır. Ayrıca EKKF yöntemi aynı zamanda yukarıda bahsedilen bilgi kazancı, ki-kare ve karşılıklı bilgi gibi olağan özellik seçme yöntemiyle de büyük XML belgesi derlemeleri üzerinden karşılaştırılmıştır. Bu makalede, belgelerin daha etkili bir tanımını sağlayacak şekilde, T terimler listesinden bir T’ (sınıflandırma için uygun olan set) alt kümesi seçmek amacıyla EKKF yöntemi kullanılmıştır. EKKF sadece ilgili kategoriye ait belgeleri değil fakat aynı zamanda diğer kategorilere ait belgelerin sayısını da göz önünde bulundurmaktadır. Eğer terimi sadece tek bir kategoride görülüyorsa, entropi en düşük değeri olan 0’a eşittir. Bu terimin sınıflandırma işinde iyi bir ayırt edici gücü olduğu kabul edilmektedir. Bunun aksine, eğer değilse, mesela eğer maksimum dokümanları temsil etme açısından iyi bir özellik tüm kategorilerde aynı sıklıkta görülüyorsa, entropi değerde, yani Emax − | ̅ olmaktadır. EKKF aşağıdaki formül ile tanımlanmaktadır: , = | × (2.9) Bu kapsamda, özellik seçme yöntemi sayesinde, T içinden T’nin kendisinden daha iyi temsil niteliği olan bir T' alt kümesi oluşturulmuştur. Bütün kriterler aynı biçimde kullanılmıştır: ilk olarak, her bir kategoriden seçilecek kelimelere ait bir n sayısı belirlenmiştir. İkinci olarak, verilen kategoriye göre, terimler özellik seçim kriteri değerlerine göre azalan sırada sıralanmışlardır, ilk n kelimeleri seçilmiştir. Son olarak, her bir kategori için seçilen ilk n kelimenin birleşiminden T' endeksi derlenmiştir. Gerçekten de, terimlerin entropisini kullanarak farklı sınıflar içindeki terimlerin görülme sayısını göz önünde bulundurmanın sınıflandırma başarısını kayda değer oranda arttırdığı gözlemlenmiştir [36]. 17 Rogati ve Yang yaptıkları çalışmada metin sınıflandırma için yüksek performanslı öznitelik seçme yöntemi önermiştir. Önerilen yöntem daha büyük koleksiyonlar için ölçeklenebildiği için filtreleme yaklaşımına odaklanmıştır. Sonra en iyi performans gösteren yöntemler arasındaki korelasyon incelenmiştir. Bazı yöntemler arasında (örneğin MultiClass sürümü olan bilgi kazanımı ve ki-kare MAX gibi) negatif ilişkinin çok az olduğu bulunmuştur, bunlar birleştirildiğinde potansiyel bir performans artışı önerilmiştir. Tüm performansları iyi gösterenlerin içinden sınıflandırıcıdan bağımsız en iyisi olan ki-kare bileşenidir; Düşük belge frekanslı kelimelerin kaldırılması performansı arttırmıştır. Deneysel sonuçlar belge frekansı veya I bilgi kazanımı ile birleşen ki-kare istatistiği ve nadir kelimeleri ortadan kaldıran bir filtreleme yönteminin kullanılmasını önermişlerdir [37]. Uysal ve Günal’ın yaptığı çalışmada yeni bir filtre tabanlı olasılıklı öznitelik seçme yöntemi önerilmiştir, bu yöntem metin sınıflandırma için ayırt edici öznitelik seçme (AÖS) olarak adlandırılmıştır. Bu filtreleme teknikleri arasında, ki-kare, bilgi kazancı, Gini indeksi, ve Poisson dağılımı sapmasının daha etkili oldukları kanıtlanmıştır. Bu nedenle, AÖS’ün etkinliği bu dört başarılı yaklaşımlarla değerlendirilmiştir. Sınıflarda geçen farklı terim sıklıklarına göre farklı puanlar atanmıştır. AÖS yukarıda bahsedilen dört öznitelik seçme yöntemleriyle şu kriterler üzerinde kıyaslanmıştır: terimlerin özniteliklerinin benzerliği, sınıflandırma doğruluğu, boyut küçültme oranı ve işlem süresi. AÖS diğer yöntemlere göre her bir veri kümesi içinde benzer olarak farklı terimleri seçmektedir. Sonradan zaman analizi elde edilmiş ve AÖS en hızlı çalışan yöntem olarak belirlenmiştir. Kapsamlı bir deneysel analiz sonuçları AÖS doğruluğu, boyut küçültme oranı ve işlem süresi açısından oldukça başarılı bir performans sunduğunu gösterilmiştir [31]. Seo ve Oh özniteliklerin netliğine (açıklığına) dayanan yeni bir öznitelik seçme algoritmasını (CBFS) geliştirmişlerdir. Öznitelik netliği sınıflar arasındaki bir özniteliğin ayrılabilirliğini ifade etmektedir. CScore her özellik için bir netlik puan ölçüsüdür ve özniteliğin sınıflarının ağırlık merkezinin kümelenmiş örneklerine dayanmaktadır. CBFS algoritması filtreleme yöntemiyle sınıflandırılmıştır. CBFS, 18 hedef örnek ile her bir sınıfın ağırlık merkezi arasındaki mesafeyi hesaplar ve daha sonra hedef örnek sınıfı ile en yakın ağırlık merkezinin sınıfını karşılaştırır. CScore(fi), fi özelliği için özelliğin açıklığını ölçen bir skorlama (puanlama) fonksiyonu aşağıdaki gibi hesaplanır: ( )= ∑ ( , ) (2.10) CScore (fi) aralığı [0, 1]’dir. Eğer CScore (fi) 1’e yakınsa, bu fi özniteliğindeki sınıfların iyi kümelendiğini ve fi içindeki elemanların açık bir biçimde sınıflandırılabileceğini göstermekdir. CBFS, CScore() işlevini kullanarak yüksek puanlı özellikleri seçmektedir. CScore’un fi özelliği için sezgisel anlamı fi ‘deki sınıfının ağırlık merkezine doğru bir şekilde kümelenen örnekler derecesidir. CBFS bağlamında, her bir örnek sınıfının en yakın ağırlık merkezine kümelenmektedir. Şekil 2.3 (a)’da, A sınıfı ile B sınıfı açıkça ayrılmıştır fakat B sınıfının noktalı daire içindeki iki noktası A sınıfı olarak sınıflandırılır ve bu da CScore()’un değerini düşürmektedir. Eğer iki sınıf Şekil 2.3 (b)’de gösterildiği gibi fazlasıyla üst üste binmişlerse, kesişen alandaki pek çok nokta hatalı bir şekilde sınıflandırılabilir. Rdeğeri daha iyi bir skorlama fonksiyonudur çünkü R- değeri sınıfların ağırlık merkezlerine olan mesafesi değil de en yakın komşu sayısını göz önüne almaktadır. (a) (b) Şekil 2.3. Cscore’un yanlış skorları üretmesi (a, b) Bu yüzden CBFS’nin kendisi öznitelik seçimi açısından yüksek bir performans gösterse bile, kalitesini diğer skorlama şemalarıyla birleştirerek geliştirmişlerdir. Birleşik algoritmaları ayırt etmek için, saf bir CBFS algoritmasını CBFSorg olarak ifade edilmiştir. CBFS ile R- değerini birleşim yaklaşımını CBFS ifade edişmiştir. Dolayısıyla, CBFS intersection’u intersection olarak tam m adet özellik çıkaracak şekilde 19 düzeltilmiştir. Bunu da CBFS exact olarak ifade etmişlerdir. FeaLect, FSDD ve Relief öznitelik seçim algoritmaları önerilen CBFS algoritmalarıyla karşılaştırılmıştır. CBFS org org, CBFS intersection ve CBFS exact kanser veri kümesinde uygulandığında, Fealect (yüksek performanslı sarmal yöntemi) yöntemine göre hem K-NN hem de DVM’de iyi bir sınıflandırma hassasiyetini (%100) göstermiştir. CBFS, mikroçip gen seçmesinde, metin sınıflandırma ve görüntü sınıflandırmada uygulanabilir sonucuna varılmıştır [32]. Fragoudis ve arkadaşları tarafından, en iyi terimler (BT) denilen metin sınıflandırması için etkili bir özellik seçme algoritması önerilmiştir. İlk olarak, terimlerin olumlu ve olumsuz özniteliklerinin tanımları verilmiştir ve bu BT algoritmasını tanımlamak için kullanılmıştır. Şu koşullara göre BT gerçekleşmiştir: her sınıftaki dokümanların üst-puanlamalı olumlu özelliği seçilmesi gerekir. Her bir sınıf dokümanının dışındaki, seçilen olumlu özniteliklerden en az birini içeren en iyi puanlamalı olumsuz özniteliği seçilmesi gerekir. Sebastiani (2002) makalesinde bulunan birçok filtreleme yaklaşımları ile önerilen yöntem karşılaştırılmıştır. Deneysel sonuçlarda BT algoritması uygulandığında filtreleme yaklaşımına göre doğruluğu iyileşmiştir. İki yaklaşım karşılaştığında BT algoritması, filtreleme yaklaşımına göre çalışma süresinin önemli bir gelişmesine yol açmıştır sonradan ve arkasından sınıflandırma yöntemleri (DVM ile Naive Bayes) uygulanmıştır. Çoğu durumda, DVM eğitimi daha hızlı olmuştur [38]. Chen ve arkadaşlarının çalışmasında ilk olarak makul tüm öznitelik seçme fonksiyonlarının karşılaması gereken üç şartı tanımlanmıştır, daha sonra bilgi kazancı, belge frekansı, karşılıklı bilgi, CTD ve SCIW bazı popüler öznitelik seçme yöntemlerinin bu şartları karşılayıp karşılamadıklarını kontrol edilmiştir. Terim-Kategoriye Bağlı Şartlar (TCDCs) iki şart içermektedir. İlk şart şu sezgiye dayanmaktadır: bir t teriminin varlığı ya da yokluğunun kategori dağılımı P(C) ile hiçbir ilişkisi olmadığında, f(C,t) minimum değerini almalıdır. 20 TCDC1: f(C, t)’nin değeri ancak ve ancak T ve C bağımsız ise en küçük olmalıdır. (genellikle f(C,t)=0 alınmalı). Aksine, C değeri tamamıyla T değerince belirlendiğinde, f(C, t) maksimum değerini almalıdır. Bu şu şekilde tanımlanabilir: TCDC2: f(C, t) değeri ancak ve ancak C değeri tamamıyla T değeri tarafından belirlendiğinde en büyük olmalıdır. Üçüncü şart ise Kategori Ayrımcılık Kısıtlama’dır. TF-IDF ağırlıklandırmasında her bir dokumandaki kelimelerin frekansı rol oynamaktadır. ICF’ın de metin sınıflandırma için yaralı olduğu söylenmiştir. Bu şart DF (ya da diğer faktörler) ile ICF arasındaki etkileşimi düzenler ve ICF kullanımının skorlamadaki etkisini tam olarak tanımlamaktadır. Terimlere yönelik sabit sayıda DF (ya da diğer faktör) olması halinde, yüksek bir ICF değeri olan terimi tercih etmemizi garanti altına almaktadır. Üç şartın hepsini karşılayan öznitelik seçme fonksiyonlarını geliştirecek bir çerçeve tanımlanmıştır. İlk şart göstermektedir ki DF ve ICF önemli bir faktörlerdir, böylece bu çerçeveden geliştirilen fonksiyonları DFIC olarak adlandırılmıştır. Deneysel sonuçlar göstermektedir ki, bir öznitelik seçme fonksiyonunun deneysel performansı bu şartları ne kadar iyi karşıladığıyla sıkı bir şekilde ilişkilidir ve incelenen öznitelik seçme fonksiyonlarından hiçbirisi bu üç şartı aynı anda karşılayamamışlardır. Önerilen yeni DFICF öznitelik seçme fonksiyonu, mikro ya da makro ortalamalı ölçütler kullanıldığında, bilgi kazancı ve belge frekansından daha yüksek performans sergilemektedir. Belge frekansı) bilgisi, ICF bilgisi, kategori dağılım bilgileri iyi bir sınıflandırma performansı sağlayabilecek önemli istatistiksel bilgilerdir. Özellikle, istatistiksel ICF bilgisi, pek çok nadir kategorisi ya da farklı kategorilerde çok büyük çeşitliliği olan, külliyatlar açısından faydalıdır [39]. Uguz çalışmasında ölçülebilir çok sayıda terimden müteşekkil bir öznitelik alanının yüksek seviyedeki boyutsallığını indirgemek, öznitelik alanındaki gereksiz ve ilgisiz öznitelikleri temizlemek ve böylece metin sınıflandırmada kullanılan makine 21 öğrenme algoritmalarının hesapsal karmaşıklığını azaltarak performansını arttırmak amacıyla iki aşamalı bir öznitelik seçme ve öznitelik çıkartma yöntemi kullanmıştır. İlk aşamada, belge içindeki her bir terim bilgi kazancı (IG) yöntemini kullanan sınıflandırma açısından önemine bağlı olarak derecelendirilmiştir. İkinci aşamada, önem sırası azalan biçimde olacak şekilde terimlere ayrı ayrı olarak GA ve PCA uygulamıştır ve bir boyut indirgeme gerçekleştirilmiştir. Metin sınıflandırması için ken yakın komşu K-NN ve C4.5 karar ağacı algoritması kullanılarak denemeler icra edilmiştir. Metin sınıflandırmadaki basitlikleri ve kesinlikleri nedeniyle C4.5 karar ağacı ve K-NN yöntemleri kullanılmıştır. Sonuçlar göstermektedir ki, IG-PCA ve IG-GA vasıtasıyla seçilen az sayıdaki özniteliği kullanan C4.5 karar ağacı ve K-NN algoritmaları üzerinden gerçekleştirilen metin sınıflandırma başarısının bilgi kazancı vasıtasıyla seçilen öznitelikler kullanılarak elde edilen başarıdan daha yüksek olduğu ortaya çıkmıştır. İki aşamalı öznitelik seçme yöntemleri, metin sınıflandırma performansını arttırabilir. Bu da şu anlama gelmektedir ki, bilgi kazancı vasıtasıyla belirlenen en önemli öznitelikler işaretlenerek genetik algoritma ve temel bileşen analizi üzerinden gerçekleştirilen boyut indirgeme metin sınıflandırma başarısını arttırmıştır [6]. Xu makalesinde, TBM’e dayalı metin sınıflandırma için yeni ve açık bir kuramsal öznitelik seçme yöntemi önermiştir. TBM sayısal inancı temsil etmek için geliştirilmiş bir modeldir. İnancın iki yönünü birbirinden ayırt edebilmek amacıyla iki seviyeli zihinsel modeller tanımlar, ağırlıklı fikir olarak inanç ve karar verme amaçlı inanç. İki seviye, inançların avutulduğu (sakinleştiği), credel seviyesi ve inançların karar almada kullanıldığı pignistic seviyedir. Bu yaklaşımda, mevcut özellik seçim kriterleri delil kaynağı olarak kabul edilmektedir. Bilgi kazancı, Odd oranı, ki kare gibi her bir öznitelik seçme kriteri komşuluk olarak bilinen bir bağımsız kanıt kalemi Ei olarak alınan bir dizi özellik öngörür. Bu kapsamda her bir komşuluk birkaç yüz özellik içermektedir ve bu komşuluklar bazı özellikler tüm komşuluklarla kesişecek şekilde üst üste binebilir, böylece belgenin temsil edilmesinde önemli bir rol oynayabilmektedir. Farklı 22 komşulukların kısmi desteklerini temsil eden bir kütle fonksiyonuna erişmek için bu kanıt komşuluklarını bir araya getirilmektedir. Kanıtları bir araya getirirken, münferit öznitelik ağırlığı (TF-IDF) dikkate alınmalıdır, sadece ağırlık anlamında ciddi bir ilişkiselliği olan özniteliği kabul edilmelidir. Söz konusu metin sınıflandırma algoritması olduğunda, DVM ve K-NN metin sınıflandırıcılarını seçmişlerdir. Deneyin sonuçları göstermiştir ki, kesinlik hatırlamadan daha çok tercih edildiği durumlarda yeni kuramsal öznitelik seçme yaklaşımı bilgi kazanımı, ki-kare ve Odd oran’ı kullanan yaklaşımdan daha iyidir. Bu şu şekilde açıklanabilir; bilgi kazancı olumlu özelliklere odaklanırken, önemli olumsuz özellikleri kaçırıyor olabilir. Yeni kuramsal öznitelik seçme yönteminin başarısı mevcut yöntemlerden elde edilen hem olumlu hem de olumsuz öznitelikleri seçerek verileri bir araya getirmesinde yatmaktadır [40]. Yapılan bir başka çalışmada, Fisher ayırt edici oranına dayalı olarak, metindeki öznel duyarlılık sınıflandırması için etkili bir öznitelik seçme yöntemi ortaya atılmıştır. Metin duyarlılığı sınıflandırmasının amacı duyarlılığın oryantasyonunu, pozitif veya negatif olduğunu otomatik olarak yargılamaktır ve bu açıdan, görüş, tutum, ruh hali ve benzeri gibi, metinde öznel bilgileri analiz etmektir. Metin duyarlılığının sınıflandırma probleminin önemli özelliği ya da zorluğu olarak metinler tanımlamak için kullanılan özniteliklerin yüksek boyutluluğu olduğudur . Öznitelik seçme süreci iki adımda gerçekleşmiştir: Öznitelik kümesinin adayı. Farklı bölgelerden gelen özniteliklerin sınıflandırılması etkilerini karşılaştırmak amacıyla yapılmıştır. Kelime kümeleri iki türlü aday öznitelik setleri gibi tasarım yapılmıştır. Bunlardan biri U metin kümesindeki tüm sözcükten oluşur. Başka aday özelliği I kümesi pozitif ve negatif metinler hem de görünen tüm sözcükleri içerir. Sınıflandırma modelinde kullanılan özellikler. Fisher ayırt edici oranı fikri sınıflandırma problemi için öznitelikler bir önem ölçüsü olarak kullanılabilir anlamına gelmektedir. Özniteliğin Fisher ayırt edici oranı değerinin büyük 23 olması, o kadar güçlü sınıflandırma yeteneğine sahip olacaktır. Her bir öznitelik için Fisher ayırt edici oranı değerini hesaplamak ve azalan bir sırada bunları sıralamak. Ve sonra belirli bir sayıda en iyi özniteliklerini seçmek. Teklif edilen yöntemin geçerliliğini teyit etmek için, DVM sınıflandırıcı olarak alınırken bilgi kazancına dayalı tipik yöntemle karşılaştırılmıştır. Deneyin sonuçları göstermektedir ki en iyi sınıflandırma etkinliğini I + FF (I kümesi, FF(tk) = FB(tk)) elde etmektedir, hassasiyet derecesi Deneyi külliyatı 1’de %86.61 olarak gerçekleşmiştir [41]. Diğer bir çalışmada, çeşitli özniteliklerin olasılık yoğunluk fonksiyonlarını kullanarak orijinal öznitelik alanından gereksiz öznitelikleri temizleyen yeni bir gözetimsiz öznitelik seçme yöntemi ortaya çıkarılmıştır. Bu makalede, filtre yaklaşımlarının avantajlarına sahip yeni bir filtre gözetimsiz öznitelik seçme algoritması tanıtılmıştır. Önerilen yaklaşım (pdf - Yoğunluk Fonksiyonunun Olasılığı) ilişkilerine göre daha çok sayıda bilgilendirici öznitelik seçmektedir. Önerilen şemanın ana fikri ilk olarak her özniteliğin pdf’ini gözetimsiz bir şekilde tahmin etmek ve daha sonra da daha yüksek kapsama alanları olan pdf’leri rastgele öznitelikler olarak bilinen diğer özniteliklerin pdf’leriyle değiştirmektedir. Farklı özniteliklerin pdf’lerini karşılaştırmak amacıyla, tüm öznitelik değerleri [0, 1] aralığında ölçeklendirilmiştir çünkü farklı özniteliklerin değer aralıkları farklı olabilir. Daha sonra, her bir özniteliğin olasılık yoğunluk fonksiyonu KDE yöntemlerine göre hesaplanmıştır. Her bir öznitelik için olasılık yoğunluk fonksiyonlarını tahmin ettikten sonra, öznitelik çiftlerinin her biri arasındaki benzerlik hesaplanır. Eğer pdf’lerinin Ortalama Karesel Hata (MSE)’ları kullanıcı tarafından tanımlanan eşiğin altında ise iki özniteliğin benzer öznitelikler olduğu kabul edilir. Benzer öznitelikler yaklaşık aynı bilgileri içeririler çünkü pdf’leri yeteri kadar benzerdir. Bu kapsamda, ciddi bir veri kaybı olmaksızın benzer özniteliklerden biri silinebilir. Deneme sonuçları göstermektedir ki önerilen yöntem can gözetimsiz öznitelik seçme yöntemiyle karşılaştırıldığında daha fazla bilgilendirici niteliği olan 24 özellik alt kümesini tespit edebilmektedir. Ayrıca, sonuçları güdümlü öznitelik seçim çerçevelerine de yakındır [42]. Yong ve arkadaşları tarafından yapılan çalışmada doküman frekansı, bilgi kazanımı, karşılıklı bilgi, ki-kare istatistikleri gibi yaygın kullanılan öznitelik seçme yöntemlerini karşılaştırmakta ve deneme sonuçları analiz edilmektedir. Denemeler esnasında Xinjiang Normal Üniversitesinin Yayınevinin Külliyatı kullanılmıştır, külliyat Sincan Daily, Urumçi Akşam Haberleri ve diğer başka gazetelerden toplanmış siyasi, ekonomik, spor, hukuk v.b. gibi konuları içermekteydi. İlk başta, belirli bir eşik seviyesinin altındaki frekansı düşük kelimeleri doküman frekansı ile çıkartmıştır, daha sonra geri kalan girişlerdeki düşük kategori bilgisi olan gürültü kelimelerin çıkartılması için bilgi kazancı, ki-kare ya da karşılıklı bilgi yöntemlerin kullanmışlardır. Sonra da DVM ile sınıflandırmışlardır. Doküman frekansı ile en iyi sınıflandırma hassasiyeti oranı %91,34 iken, ki-kare öznitelik çıkartım yöntemiyle gerçekleştirilen ikinci denemede en iyi hassasiyet oranı %88,03 idi. Üçüncü deneme DF+IG, DF+MI ve DF+CHI gibi farklı öznitelik seçim yöntemi kombinasyonlarını kullanmakta ve sonuçlar gösterilmektedir ki DF+CHI öznitelik seçim yöntemiyle elde edilen sınıflandırma hassasiyeti oranı %93.57’dir ki, bu bütün denemeler arasında en iyi yöntem olduğunu göstermektedir. Külliyat küçük olduğu öznitelik alanının boyutu nispeten küçük olduğu zaman, doküman frekansı öznitelik seçim algoritmasının uygulanması sınıflandırma hassasiyetini arttırabileceği gibi eğitim süresini de kısaltabilir. Külliyat büyük olduğunda, öznitelik alanının boyutu yüksek olduğunda, ki-kare öznitelik seçim algoritmasının uygulanması sınıflandırma hassasiyeti arttırabilir sonucuna varılmıştır [44]. 2.5. Sınıflandırma Bilgiye daha kolay erişmek için metinlerin sınıflandırılma yapılmasına ihtiyaç duyulmaktadır. Metin sınıflandırılması önceden belirlenmiş kriterlere göre, doğal dil metinlerinin kategorilere ayrılmasıdır [12, 45]. 25 Sınıflandırma uygulamalarında örneklerin nasıl temsil edileceği performansa en çok etki eden parametredir. Bunun doğal sonucu olarak uygun özniteliklerin seçimi sınıflandırma performansını arttırmaktadır [8]. Metin sınıflandırma dosya düzenlemesi, metin filtreleme ve internet sayfalarının hiyerarşik kategorilere ayırma gibi bir çok uygulama alanlarına sahiptir. Metin sınıflandırma genellikle istenmeyen e-postaları yönetmek, büyük metin denemelerinin konularına göre kategorilere göre sınıflandırılması, bilginin yönetilmesi ve ayrıca internet arama motormarına yardımcı olmak maksadıyla kullanılmaktadır. Bu uygulama e-mail’e gelen mesajları spam veya spam olmayanlara ayıracaktır. Metin sınıflandırma makine öğrenmesi gibi alanlarda büyük bir rol oynamaktadır [46]. Metin sınıflandırmada üç yaklaşım mevcuttur [47]: El ile sınıflandırma – alana özgü kriterilere göre elle yapılan sınıflamadır. Bilgisayar ortamı olmadığı zaman kütüphanelerde tematik değerlendirmelerde kitapları elle sınıflandırmada çok kullanılmıştır. Fakat büyük boyuttaki dokümanlarla çalıştığında kullanışlı değildir. Koşullu sınıflandırma – 80’lerdeki en popüler yaklaşımdır. Koşula ve koşulu oluşturan kişiye bağlı bir sınıflandırmadır, koşulları mühendis ve o alana ait uzmanın oluşturması gerekmektedir. Alana özgü koşullar oluşturulduktan sonra giriş yapılan metinler otomatik olarak sınıflara ayrılmaktadır. Örneğin;haber alanında oluşturulan koşullarda cumhurbaşkanın ismi değişirse koşul içeriğinin tekrar değiştirilmesi gerekmektedir. Bu nedenle sürekli uzman bakımı gerekmektedir [12]. Otomatik sınıflandırma – metinleri sınıflara atayan koşulları oluşturmak uzmanların yerine makine yapmaktadır, başka bir deyişle eğitim verileri 26 üzerinde makine öğrenmesi işleminin gerçekleşmesidir. Eğitim verileri - her sınıfta bulunan bazı iyi dokümanların toplamı olarak geçmektedir. Burada amaç bir doküman sisteme verildiğinde bu dokümanın sınıfını, eğitim dokümanlarına bakarak tahmin etmektir [48]. Otomatik sınıflandırma hem performans açısından hem de doğruluk açısından iki yönteme göre daha başarılıdır. Yukarıda anlatıldığı gibi bilgisayar ortamı olmadığı zamanda manuel sınıflandırmayla kütüphanede aranılan kitaplara, makalelere kolayca ulaşılması sağlanmıştır, şirketlerde, üniversitelerde devasa bilgiler yönetilmiştir. Çağımızda bilgi ortamı değiştiği ve sınıflandırma yapılması kolay bir hale geldiği için bu çalışmada otomatik sınıflandırma tekniklerinin ele alınması uygun görünmüştür. Çok sayıda sınıfın olduğu bir kümede bu sınıflar için kuralları tetkik etmek zordur. Bu nedenle uzmanlar elle yapılamayacak sınıflandırmaları makineler kullanılarak kolay bir şekilde yapabilmektedir. Makine öğrenimi alanı, bilgisayarların geçmişlerinden otomatik olarak “öğrenmelerini” sağlayacak algoritmalar ve tekniklerin incelenmesiyle alakalıdır.. Makine öğrenimi aralarında bilgi kuramı, yapay zekâ gibi pek çok alandan aldığı kavramlar ve teknikleri kullanmaktadır. Makine öğrenme yöntemi “denetimli” ve “denetimsiz” olarak iki şekilde ele alınmaktadır [27]: Denetimli makine öğreniminde eğitim verisinin sınıf etiketleri önceden bellidir. Denetimli öğrenimin işlevi yeni oluşan verinin türünü algılayabilecek durumda eğitim verisi ve onların sınıfları arasında paralel manayı tahmin etmek için fonksiyon bulmakdır. Denetimli öğrenim için Yapay Sinir Ağları, Karar ağaçları, K-NN, DVM ve Rastgele Ormanlar gibi birçok yaklaşımlar ve algoritmalar öne sürülmektedir. Denetimsiz öğrenim denetimli öğrenimden eğitim verilerinin sınıf etiketleri hazırda bulunmaması gerçeği ile farklılılık göstermektedir. Denetimsiz öğrenim metotları 27 hangi objeler bir sınıf olarak gruplandırılması gerektiğine dair karar vermektedir. K en yakın komşu, kendinden düzenlenen haritalar (SOM) ve veri kümeleme algoritmaları. 2.6. Performans Değerlendirme Genellikle bir sınıflandırıcının etkinliğini değerlendirmek için yani doğru sınıflandırma kararlarını alınmasını sağlamak için performans değerlendirmeye ihtiyacı vardır [26]. Metin sınıflandırma sistemlerinde kullanılan pek çok performans ölçüsü vardır. Kesin tahminler elde etmek ve tüm kategori kümesine göre geri çağırmak için iki farklı yöntem mikro-ortalama ve makro-ortalama kabul edilmektedir. Başka da başabaş noktası, F-önlem, interpolasyon gibi önlemler kullanılmaktadır. F-skor genellikle ölçüm araması için bilgi erişimi, belge sınıflandırma ve sorgu sınıflandırma başarımında kullanılmaktadır. İstatistikte, F1-skor (ayrıca F-skoru veya F-önlemi), bir testin doğruluk ölçüsüdür. F1 ilk olarak Van Rijsbergen tarafından [49] çıkartılmıştır ve metin sınıflandırmada hem duyarlılık hem de kesinliği bir araya getiren ortak bir ölçüttür. Mikro ortalamalı F1 (belgeler üzerinden ortalaması alınmış) çapraz yöntem karşılaştırmalarında yaygın olarak kullanılırken, makro ortalamalı F1 (kategoriler üzerinden ortalaması alınmış) bazı durumlarda kullanılmaktadır. Genel tanımda bahsedersek, mikro ortalamalı skorlar ortak kategorilerdeki performans tarafından belirlenme eğilimindeyken, makro ortalamalı skorlar nadir kategorilerdeki performanstan daha çok etkilenir. Kesinlik ve duyarlılık ölçütleri tek başına anlamlı bir karşılaştırma sonucu çıkarmamız için yeterli değildir. Her iki ölçütü birlikte değerlendirmek daha doğru sonuçlar verir. Bunun için F-ölçütü tanımlanmıştır. F-ölçütü, kesinlik ve duyarlılığın 28 harmonik ortalamasıdır uyumlu ortalamasına dayanan ikili sınıflandırma işlevleri için bir performans ölçüsüdür [50]. Kesinlik doğru sınıflandırmadır fakat yanlış sınıflandırmalar sayısına göre cezalandırılmaktadır. = Duyarlılıkta (2.11) doğru sınıflandırma sayısı cevapsız eleman sayısına göre cezalandırılmaktadır. ıı = (2.12) F1 önlemi türetilmiş bir etkinlik ölçüsüdür. Sonuç değeri kesinlik ve duyarlılığın ağırlıklı ortalaması olarak yorumlanmaktadır. En iyi değeri 1'dir ve en kötüsü 0'dır. − ö çü ü = × × (2.13) Metin sınıflandırmada TP (gerçek pozitif) kategoriye doğru yerleşen doküman sayısını, TN (gerçek negatif) kategoriye doğru yerleşmeyen doküman sayısını, FP (yanlış positif) kategoriye yanlış yerleşen doküman sayısını ve FN (yanlış negatif) kategoriye ait olan ama bu kategoriye doğru yerleşmeyen doküman sayısını ifade etmektedir. Doğru sınıf oranı ile sınıf sonuçları elde edilmiştir. 29 3. ÇALIŞMADA KULLANILAN YÖNTEM 3.1. Ön İşleme Veri kütüphanesini elde ettikten sonraki işimiz verileri ön işleme aşamasından geçirmektir. Veri kütüphanesini nasıl elde ettiğimiz Bölüm 4.1’de anlatılmaktadır. Öncelikle tüm dokümandaki büyük harfli karakterler küçük harflere dönüştürülmüştür. Ardından bütün ünlemler ve rakamlar silinmiştir. Doküman içinde sıkça geçen ama bir anlamı olmayan durak kelimeleri silerken “durak kelimeler” listesinden yararlanılmıştır. Böylece elimizdeki veri kütüphanesi, önümüzdeki aşamalar için uygun hale getirilmiştir. Bölüm 2.1’de açıklandığı üzere metinler temiz hale getirildikten sonra vektörel uzayda öznitelikler gibi temsil edilmesi için atomik parçalara ayrılması gerektiği belirtilmiştir. Bu çalışmada metinleri ifade etmek için kelime kökleri ile n-gram özniteliklerini elde etmede text2arff yazılımı [51] kullanılmıştır. Bu yazılıma girdi olarak büyük harfli karakterler küçük harflere dönüştürülen .txt uzantılı metin dosyaları girilmiştir. Çünkü text2arff yazılımı aynı öznitelik olsa bile büyük harfli ve küçük harfli karakterleri ayrı ayrı öznitelik olarak algılamaktadır. Örneğin aşağıdaki çizelgede text2arff yazılımı ile elde edilen TF yöntemine göre terimlerin dokümanda bulunma sıklıkları verilmiştir. 30 Çizelge 3.1. Text2arff yazılımı ile elde edilen öznitelik matrisinin yapısı 1.txt ... 30.txt 31.txt ... 60.txt 61.txt ... 90.txt 91.txt ... 120.txt 121.txt ... 150.txt 151.txt ... 180.txt Terim 1 Terim 2 Terim 3 Terim 4 2 ... 2 5 ... 4 7 ... 6 0 ... 4 ... 4 2 ... 3 5 ... 3 8 ... 6 ... 2 5 ... 6 1 ... 3 5 ... 0 ... 7 2 ... 1 1 ... 0 9 ... 1 7 5 8 5 ... 4 4 ... 5 0 ... 1 6 ... 7 7 ... 5 8 ... 5 8 ... 9 9 ... 7 Sınıf Anlamsal Ağlar Anlamsal Ağlar Anlamsal Ağlar Görüntü İşleme Görüntü İşleme Görüntü İşleme Kablosuz Ağlar Kablosuz Ağlar Kablosuz Ağlar Metin Sınıfandırma Metin Sınıfandırma Metin Sınıflandırma Turizm Turizm Turizm Uzaktan Eğitim Uzaktan Eğitim Uzaktan Eğitim Çizelgede gördüğümüz gibi her bir sınıfta 30’ar tane toplam 180 tane metin dosyası içermektedir. Sınıflar ise çizelgedeki gibi sırayla listelenmiştir. Örnekteki genel matris tüm veri kümesindeki özniteliklerden oluşmaktadır. Kullandığımız örnek 4 adet öznitelik içermektedir. Bu öznitelikler 1.txt metninde toplam 12 kez kullanılmıştır, bu dokümanda 1.terim 2 defa, 2.terim 4 defa, 3.terim 6 defa ve 4.terim hiç kullanılmamıştır. Türkçede her ek bir mana taşımakta ve eklendiği kelimenin anlamını o yönde değiştirmekte, bu yüzden kökler yerine kelimeleri kullanmak bütün kelimelerin farklı biçimde algılanmasına neden olabilmektedir. Örnek olarak “arkadaş”, “arkadaşın”, “arkadaşa”, “arkadaştan” terimlerin doğrudan alırsak oluşturulan veri kümesinin boyutu artabilir ve sınıflandırma başarısı düşürebilir. Bu durumda aynı anlama işaret eden öznitelikleri birleştirmek için Zemberek kütüphanesi [52] kullanmak yardımcı olabilmektedir. Text2arff yazılımı terimlerin köklerinin bulunmasında Zemberek kütüphanesinden faydalanmaktadır. Bu yazılım ile karakter 2-gram ve 3-gram’lar da ayrılmıştır. N-gram n boyutlu karakter çerçeveleridir ve sıra ile bir birinin arkasından 31 takip eden yöntemdir. Örneğin “arkadaş” kelimesinin 2-gram’nı bulalım: ar-rk-kaad-da-aş, 3-gram’ı ise: ark-rka-kad-ada-daş. Öğrenme aşamasında kullanıcılar, ilgili kategorilere yönelik örnek dokümanlar (eğitim örnekleri) vererek ilgilendikleri başlıkları belirtirler. Oluşturduğumuz veri kütüphanesi 6 başlık altında 30 tane metin dosyası (.txt uzantılı) barındırmaktadır. Otomatik sınıflandırma yapabilmek için öncelikle sistemimizi eğitmemiz gerekmektedir. Bunun için sistemimize kategorisi belli olan dökümanlar eklememiz gerekmektedir. Sistem bu eklediğimiz dökümanlardan eğitilecek ve daha sonra sınıflandırması gereken bir döküman geldiğinde eğitim dökümanları ile kıyaslamalar yaparak sınıflara karar verecektir [53]. Bu tez çalışmasında 10 defa çapraz doğrulama yöntemi eğitim ve test setlerini ayırmada kullanılmıştır. Bu yöntem veri kütüphanesini rastgele 10 eşit bölüğe ayırmaktadır. Burada 10 defa çapraz doğrulama yöntemini seçmemizin sebebi farklı öğrenme teknikleriyle çeşitli veri setleri üzerinde yapılan kapsamlı testler sonucu, en iyi hata tahminin elde etmek için doğru kat sayının 10 olmasıdır. Her zaman iyi bir sonuç vermesede bile 10 defa çapraz doğrulama standartlaşmış bir hale gelmiştir. [54]. n defa çapraz doğrulama (n Fold Cross Validation) tüm veriyi atadığı ilk grup ile test etmekte ikinci n-1 grupla sistemi eğitmektedir [55]. Bizim kullandığımız 10 defa çapraz doğrulama yönteminde ilk ayrılan grup test için kalan 9 grup sırası ile eğitim için seçilmektedir. Aşağıdaki şekilde gösterildiği gibi her iterasyonda (tekrarlanan her veri kümesi) farklı bir parça test için ayrılmaktadır ve bu süreç 10 defa tekrar etmektedir. Bu iterasyondan çıkan n adet doğruluk oranının ortalaması alınmaktadır. 32 Şekil 3.1. 10 defa çapraz doğrulamanın genel yapısı [13]. 3.2. İndeksleme ve Ağırlıklandırma Yöntemlerinin Kullanılması Terimleri vektörel uzayda ifade etmek için öncelikle her birinin ağırlığı bulunması gerekmektedir. Vektör uzayında terimleri temsil etmeden önce indeksleme olarak adlandırılan aşamada dokümanda yer alan tüm kelimeler seçilen bir yöntem yardımı ile frekanslarına göre sıralanacaktır. Başlangıç olarak veri kütüphanesindeki tüm dokümanlardaki farklı kelimelerden oluşan bir sözlük yani bir öznitelik matrisi oluşturulur. Sözlük, tüm dokümanlardan oluşan veri kütüphanesinde her terimin hangi dokümanda görüldüğünü işaretler. Bu süreç sonunda ağırlıklandırma yöntemlerininin yardımı ile öznitelikleri vektörel uzayda temsil edebilir. Bu çalışmada terimlerin ağırlıklarının bulunması için text2arff yazılımında yer alan ikili, TF ve TF-IDF yöntemleri tercih edilmiştir. ağırlıklandırma yöntemleri aşağıda açıklanmıştır. Çalışmamızda kullandığımız 33 • Ikili – her bir terimin dokümanda geçip geçmediğine bakan basit bir ağırlıklandırma yöntemidir. Terim dokümanda bulunursa 1, bulunmazsa 0 ağırlığı atanmaktadır. Bit ağırlıklandırma [17], boolean ağırlıklandırma yöntemleri olarak da geçmektedir. Aşağıda ikili yönteminin hesaplanması gösterilmektedir. = eğer i.terim j.dokümandan geçerse 1 geçmezse 0 değerini alır • (3.1) TF (Terim Frekansı) - doküman içindeki her bir terimin toplam görülme miktarını hesaplayan diğer bir basit ağırlıklandırma yöntemidir. Terim her bir dokümanda kaç kere kullanıldı ise o kadar terim ağırlığı atanmaktadır. =i.terimin, j.dokümanında geçme sayısıdır (3.2) • TF- IDF (Terim Frekansı – Ters Doküman Frekansı) - TF ve TF-IDF ağırlıklandırmasında her bir dokümandaki kelimelerin frekansı rol oynamaktadır. Böylece dokümanda daha fazla görülen kelimeler varsa (TF, terim frekansı yüksek) o doküman için daha değerli olduğu anlaşılmaktadır. Ayrıca IDF tüm dokumanlarda seyrek görülen kelimeler ile ilgili bir ölçü vermektedir. TF-IDF ağırlıklandırma sadece belge içindeki terim sıklığını hesaba katmaz bununla birlikte tüm belgelerde terimin sıklığını göz önünde bulundurur. Bu yöntemle eğer kelime çok fazla dokümanda (durak kelimeler) varsa onun dokümanda önemi oransal olarak düşürülmektedir. TF-IDF yönteminin amacı bu tarz kelimelerin ağırlığını 0’a yaklaştırmaktır. TF ve IDF çarpımı ise bir metinde çok bulunan ancak diğer metinlerde daha az görülen bir terimin ağırlığının fazla olduğunu göstermektedir. Aşağıda TF-IDF yönteminin hesaplanması gösterilmektedir. Terim ağırlığı (TF-IDF): 34 = × (3.3) Burda, D - tüm dokümanların sayısı, – sadece i.kelimenin geçtiği (en azından bir kere) tüm doküman sayısı, w - terim ağırlığı. Yaptığımız çalışmadaki 1.dokümanda geçen “bir” terimini örnek olarak kullanalım. Tüm doküman sayısı 180’e eşittir, “bir” teriminin tüm dokümandan geçme sayısı 116’ya eşittir ve terimin 1.dokümanda geçme sayısı 17’dir. TF-IDF yöntemine göre hesapladığımızda = 17 × log =3,24 terim ağırlığını bu şekilde buluruz. Diğer terimleri de bu şekilde hesaplarız. Örneğin aşağıdaki şekilde kelime kökleri için TF ağırlıklandırma yöntemine göre sırayla terimlerin dokümanda bulunma sıklıkları verilmiştir. Diğer iki yöntem için de böyle bir öznitelik hesaplanacaktır. matrisi Frekanslar elde edilecektir hesaplandıktan ve özniteliklerin ağırlıkları sonra terimlerin ağırlıkları hesaplanabilmektedir. Aşağıdaki tüm örnekler “anlam”, “bilgi”, “sistem” ve “m” olarak kullanılan dört adet öznitelikten ve bir adet sınıftan oluşmaktadır. Sözlükten bu öznitelikler bulunur ve 1.dokümanda kaç kere geçtiği hesaplanır. 1.metin dosyası (1.txt) için her bir terimin geçme sıklığını hesaplarsak 43, = 29 ve = 1 ‘ye eşittir. = 17, = 35 Şekil 3.2. TF yöntemine göre elde edilen öznitelik matrisi Öznitelik vektörü olarak kelimeleri kullanmamız için eklerinden ayırarak yalnızca kök haline gelmesi ve karakter n-gram’ların elde edilmesi sağlanır. Aşağıda öznitelik vektör türleri ve sayıları verilmiştir. Bölüm 4’te açıkladığımız gibi kullandığımız veri setleri ön işleme aşamasını uygulamadan önceki ve sonraki hali olarak ele alınmıştır. 36 Çizelge 3.2. Kelime köklerinden ve karakter n-gram’lardan oluşan öznitelik vektörleri Ağırlıklandırma yöntemi Ikili TF TF-IDF Ön işleme uygulamadan önceki hali (original veri kümesi) Kelime kökleri (3189 özn) Ön işleme uygulamadan sonraki hali (indirgenmiş veri kümesi) Kelime kökleri (3071 özn) Kelime kökleri (3189 özn) Kelime kökleri (3071 özn) Karakter 2-gram (3218 özn) Karakter 2-gram (958 özn) Karakter 3-gram (25483 özn) Karakter 3-gram (11132 özn) Kelime kökleri (3189 özn) Kelime kökleri (3071 özn) Karakter 2-gram (3218 özn) Karakter 2-gram (958 özn) Karakter 3-gram (25483 özn) Karakter 3-gram (11132 özn) 3.3. Öznitelik Seçme Filtreleme tekniklerinin içinde çoğunlukla ki-kare, bilgi kazancı, gini endeksi ve belge frekansı yöntemlerinin daha etkili yöntemler oldukları kanıtlanmıştır [31, 56]. Bu çalışmada veri kümesinin yüksek boyut sorununu çözmek amacıyla ve en yaygın olarak kullanılan öznitelik seçme yöntemlerinden [12] 2 adeti ele alınmıştır. 3.3.1. Bilgi kazancı Bilgi kazancının temel fikri şudur: öznitelik başlığının doküman kategorisine olan IG’si (bilgi kazancı) esas itibariyle öznitelik başlığının kategoride görülüp görülmediği ya da eğer görülüyorsa hangi frekansta görüldüğüne bakılarak ölçülür. Bilgi kazancı değeri daha önceden belirlenmiş değerden düşük olduğu durumda, t öznitelik başlığı öznitelik derlemesinden çıkartılacaktır [43]. Bir terimin bir dokümanda olup olmadığına bağlı olarak sınıf belirleme için elde edilen bilginin parça sayısını ölçen terime bilgi kazanc denir. Bilgi kazancı özniteliğini verili ya da yok olması durumuna bağlı olarak entropideki azalışı ölçer. 37 Shannon 1948 entropisi kullanılarak ölçüldüğünde bilgisel entropi soyut olarak belirli bir bilgi parçasını çözmek için gerekli olan veri parçası sayısıdır [10]. Bilgi kazancını hesaplamak için aşağıdaki Shannon’un geliştirdiği entropiyi hesaplamamız gerekmektedir. Eğer örnekler (terimler) aynı sınıfa ait ise entropi 0’a, eşit, örnekler (terimler) sınıflar arasında eşit dağılmışsa entropi 1’e eşittir. Burdan X sınıfın iyi bir tanımı ise, o özelliğin her bir değerinın sınıf dağılımındaki entropi oranı düşük olacaktır. = −∑ log ( log ( ) = ( )= − ∑ ( , )/| |) ( ( , )/| |) × (3.4) Burda D’yi herhangi bir küme olarak kabul edersek, buna göre herhangi bir küme (D ile gösterilmektedir) için o sınıftaki (S ile gösterilmektedir) değerlere göre frekansa bakılır. Bundan sonra D kümesini herhangi bir X parçaya bölündükten sonra D’yi sınıflandırmak için gerekli olan bilgi: ( )=∑ | | × ( ) (3.5) Bir özniteliğin bilgi kazanımı entropideki düşüş olarak ölçülebilir. Bilgi kazanımı veri kütüphanesindeki her doküman için hesaplanır ve belli bir değerin altındaki kelimeler koleksiyondan çıkarılır. Bunun sonucunda en yüksek kazanım oranına sahip öznitelik seçilir. X niteliğine göre bilgi kazanımı: ı ( )= ( )− ( ) (3.6) 3.3.2. Korelasyon tabanlı öznitelik seçimi (KTÖS) Korelasyon Tabanlı Öznitelik Seçimi (KTÖS), korelasyona dayalı bir sezgisel değerlendirme fonksiyonuna göre öznitelik alt setlerini sıralandıran basit bir filtre 38 algoritmasıdır [28]. KTÖS, direk özellikler yerine özelliklerden oluşan bir alt kümesi değerlendiren ilk yöntemdir. Değerlendirme fonksiyonunun eğilimi, kendi sınıflı ile korelasyonu yüksek fakat sınıflar arası korale olmayan öznitelikleri içeren alt setlere doğrudur. İlgisiz öznitelikler göz ardı edilmelidir, çünkü bunların sınıfla korelasyonları düşüktür. Geriye kalan özniteliklerden biri ya da ikisiyle yüksek korelasyonları olacaklarından dolayı rastsal öznitelikler taranmalıdır. Bir özniteliğin kabul edilmesi, diğer öznitelikler tarafından çoktan belirlenmemiş kopya (instance) alanındaki sınıfları belirleme derecesine bağlı olacaktır. KTÖS fonksiyonunun ana hedefi hedef değişkenle yüksek değerli korelasyona sahip, fakat birbirleri ile korelasyonu düşük olan niteliklerin seçimidir. Eğer özellikler ilintisiz olursa, korelasyon katsayısı 0'dır. KTÖS özellikle birbirleri ile korelasyonu düşük olan veri setlerinde daha başarılı sonuçlar üretmektedir [57]. KTÖS [16], konu ile ilgisiz, gereksiz ve gürültü niteliğine sahip özellikleri çabuk teşhis eden ve onları eleyen bir yöntemdir. KTÖS genellikle özelliklerin yarısından fazlasını eler ve böylece öğrenme yöntemlerinin başarı performansının arttırılmasını sağlar. KTÖS, özellikler arasındaki rastsallık derecesine bağlı olarak özellik alt setlerini aramaktadır. KTÖS bir nitelikler alt kümesinin değerini, her bir özelliğin münferit kestirim kabiliyetinin yanı sıra bunlar arasındaki rastsallık derecesini de göz önünde bulundurarak değerlendirir. Nitelik ve sınıf alt setleri arasındaki korelasyonların yanı sıra özellikler arasındaki karşılıklı korelasyonları da tahmin etmek için korelasyon katsayıları kullanılır. Özellik gruplarının ilişkiselliği özellikler ve sınıflar arasındaki korelasyonla birlikte artar ve artan inter-korelasyonla (birbirleri arasındaki korelasyon) birlikte de azalır. KTÖS genellikle en iyi özellik alt kümesini belirler ve genellikle ileri yönde seçim, geri yönlü eleme, çift taraflı arama, en iyi ilk arama ve genetik arama gibi arama stratejileriyle eşleştirir. KTÖS denklemi şu şekildedir. = ̅ ( ) (3.7) 39 Burda, toplanan özellik alt setleri ile sınıf değişkeni arasında korelasyonu, k özellik alt setlerinin sayısını, ̅ korelasyon ortalamasını ve özellik alt setleri ile sınıf değişkeni arasındaki özellik alt setleri niteliklerin birbirleri arasındaki korelasyonların ortalamasını göstermektedir. Pay, bir öznitelik grubunun ne kadar belirleyici olduğuna yönelik bir gösterge veriyor gibi görülebilir. 3.3.3. Öznitelik seçme yönteminin uygulanması Metin sınıflandırma işlemi yüksek boyutlu veri uzaylarıyla çalıştığı için sınıflandırma performansı düşüreceğini ve zaman alıcı olduğunu önceki bölümlerde açıklamıştık. Bu yoldan giderek ağırlıkları hesaplanan her bir öznitelik vektörü üzerinde öznitelik seçme yöntemleri uygulanmıştır. Nitelikli özniteliklerin seçilip gereksiz olanlarının atılabilmesi için Weka programı içerisinde bulunan CfsSubsetEval ve InfoGainAttributeEval modelleri kullanılmıştır. Özniteliklerin seçimi için Weka programındaki “Attribute Selection” sekmesi seçilir. “Attribute Evaluator” bölümünden öznitelik seçme yöntemini seçilir, “Search Method” bölümünden ise aramanın başlangıç noktası seçilir. İlk olarak seçtiğimiz CfsSubsetEval yöntemi için başlangıç noktası olarak en iyi ilkin (best first) ileri doğru seçme yaklaşımı tercih edilmiştir. En iyi ilk yaklaşımı sıfır öznitelikle ya da tam öznitelik kümesiyle başlar. Detaylı olarak Bölüm 2.4’te açıklanmaktadır. CfsSubsetEval öznitelik seçme yöntemi sınıfla korelasyonu yüksek fakat birbirleriyle ilintili olmayan öznitelikleri içeren alt setleri seçer. Korelasyonu düşük öznitelikler göz ardı edilmelidir, çünkü bunların sınıfla korelasyonları düşüktür. Aşağıda Weka’da öznitelik seçme yönteminin arayüzü gösterilmektedir. 40 Şekil 3.3. Weka’da öznitelik seçme sekmesinin arayüzü İkinci yöntemimiz olan InfoGainAttributeEval öznitelik seçme yöntemini seçerken de aynı seçenekler seçilmiştir. InfoGainAttributeEval, özellikleri sınıflarına nispeten bilgi kazanımlarını ölçerek değerlendirir. Bu yöntem için başlangıç noktası olarak sıralı arama (ranker) yaklaşım tercih edilmiştir. Sıralı arama (RankSearch) bir tekil öznitelik değerlendirici kullanarak özellikleri düzenler ve daha sonra bir özellik alt kümesi değerlendirici kullanarak işe yarayan alt setleri sıraya dizer. Tekil öznitelik değerlendiricisi olan öznitelikleri düzenleyerek başlar ve daha sonra da - en iyi öznitelik, en iyi öznitelik artı en iyi ikincisi vb. gibi - en iyi alt kümesi bildiren alt set değerlendiriciyi kullanarak boyutu artan alt setleri değerlendirir. Bu yaklaşım sadece öznitelikler sıralamakla kalmaz aynı zamanda da sıralaması düşük olanları eleyerek özellik seçimi de yapar. Altında kalan özelliklerin eleneceği bir eşik değerini ya da kaç özellik kalması gerektiğini belirlenebilir. Bu çalışma için 41 eşik değeri 0 olarak belirlenmiştir ve sıralama değerleri sıfıra eşit ve küçük olan öznitelikler böyle elenmiştir. Ağırlıklandırma yöntemleri ile elde ettiğimiz öznitelik vektörlerinin yardımı ile öznitelik seçme yöntemleri uygulanarak diğer öznitelik vektörleri elde edilmiştir. Aşağıdaki çizelgede yeni elde edilen öznitelik vektörleri ile sayıları verilmiştir. Çizelge 3.3. Öznitelik seçme yöntemleri ile elde edilen öznitelik vektörleri ile sayıları Öznitelik seçme yöntemleri Ağırlıklandırma yöntemi İkili TF CFS TF-IDF İkili TF Bilgi kazancı TF-IDF Ön işleme uygulamadan önceki hali (original veri kümesi) Kelime kökleri (65 özn) Ön işleme uygulamadan sonraki hali (indirgenmiş veri kümesi) Kelime kökleri (63 özn) Kelime kökleri (66 özn) Kelime kökleri (56 özn) Karakter 2-gram (55 özn) Karakter 2-gram (58 özn) Karakter 3-gram (109 özn) Karakter 3-gram (114 özn) Kelime kökleri (66 özn) Kelime kökleri (56 özn) Karakter 2-gram (54 özn) Karakter 2-gram (56 özn) Karakter 3-gram (108 özn) Karakter 3-gram (113 özn) Kelime kökleri (334 özn) Kelime kökleri (330 özn) Kelime kökleri (335 özn) Kelime kökleri (331 özn) Karakter 2-gram (290 özn) Karakter 2-gram (210 özn) Karakter 3-gram (1455 özn) Karakter 3-gram (1213 özn) Kelime kökleri (335 özn) Kelime kökleri (330 özn) Karakter 2-gram (256 özn) Karakter 2-gram (171 özn) Karakter 3-gram (108 özn) Karakter 3-gram (113 özn) 3.4. Sınıflandırma ve Sınıflandırıcılar Metin sınıflandırmada, bir metin dokümanı kısmen birçok sınıfa karşılık gelebilir. Burada dokümanın metni için en uygun sınıfı seçmek gerekmektedir. 42 Son on yıl içinde yaygın olarak kullanılan makine öğrenmesine dayanan sınıflandırma yöntemleri Naive Bayes [58], Karar Ağaçları [59], K-NN [41, 60] ve DVM [61] sayılabilir. Bu bölümün alt bölümlerinde, en bilinen ve bu çalışmada kullanılan doküman sınıflandırma yöntemleri olan K-NN, Naive Bayes, Multinominal Naive Bayes ve DVM kısaca açıklanacaktır. Tanıtılacak olan sınıflandırıcılar Weka programının yardımı ile aynı zamanda çalışmada önerilen yöntemin performansını karşılaştırmak üzere de kullanılacaktır. Colas ve Brazdil’in gerçekleştirdiği çalışmada [62], bazı çalışmaların öznitelik seçim teknikleri ya da öznitelik alan dönüşümünü karşılaştırırken, diğer bazılarının ise farklı algoritmaların performanslarını karşılaştırılması ele alınmıştır. Çeşitli çalışmaların DVM’nin diğer sınıflandırma algoritmalarından daha iyi performans gösterdiğini ortaya çıkartılmış olması, son dönemde DVM’e olan ilginin artmasını sağlamıştır. “Öyleyse diğer sınıflandırma algoritmalarıyla ilgilenmeyip, her zaman DVM’yi mi tercih etmemiz gerekmektedir”? sorusu akıllara gelmiş ve araştırılmaya karar verilmiş ve DVM ikili sınıflandırma görevlerinde K-NN ve Naive Bayes ile karşılaştırılmıştır. Önemli bir konu bu algoritmaların optimize edilmiş versiyonlarının karşılaştırılmasıdır; elde edilen sonuçlar göstermektedir ki çoğu problemde sınıflandırıcıların tamamı birbirlerine yakın performanslar elde etmişlerdir. Şaşırtıcı bir sonuç, geneldeki performansının oldukça iyi olmasına rağmen DVM’nin açık ara birinci olamamış olmasıdır. Eğer K-NN ile uygun bir ön işlem kullanılırsa, algoritma çok iyi sonuçlar elde etmeye devam etmekte ve doküman sayısı arttıkça ölçeği büyümektedir ki, bu durum DVM için geçerli değildir. Konu Naive Bayes’e geldiğinde, bu da iyi bir performans elde etmiştir. 3.4.1. K – En yakın komşu K-en yakın komşu (K-NN) sınıflandırması, kendine ait basitliği ve doğruluğu açısından metin sınıflandırmada yaygın olarak kullanılan yöntemlerden biridir [6]. 43 K-NN sınıflandırması, istekli olarak da adlandırılan diğer sınıflandırma yöntemlerinden, bütün eğitim örneklerini n-boyutlu bir uzayda noktalar halinde tutması ve etiketsiz bir örnek sınıflandırılmak isteninceye kadar bir sınıflandırıcı oluşturmaması yönleri ile ayrılmaktadır [63]. Bu yöntem, sınama öncesinde bir kural veya fonksiyonlar kümesi oluşturmadığı için eğitim zamanı açısından istekli yöntemlerden daha etkin olmaktadır. Ancak sınama aşamasında her örnek için yeniden hesaplama gerektirdiğinden daha yavaş işlem oluşturmaktadır. Bu yöntemin bir diğer dezavantajı da her bir kategorideki doküman sayılarının birbirinden farklı olmasına rağmen K-NN ile birbirine çok benzemeyen dokümanların da aynı sınıfa dahil edecektir. İki belge arasındaki benzerlik Öklid uzaklığı ile ölçülmektedir [6]. X = ( ,..., ) ve Y = ( ,..., ) gibi iki veri noktası için Öklid uzaklığı şu şekilde hesaplanmaktadır: ( − ) +( − ) +⋯+ ( − ) = ∑ ( − ) (3.8) Buradaki k, 1'den büyük ve genelde tek olarak seçilen bir tam sayıdır. k sayısı; - hatalı sınıflandırmayı azaltmak için büyük seçilmeli. - önceden sınıflandırılmış örnek sayısına göre küçük tutularak da yakın komşuların etkileri artırılmalıdır. Tüm eğitim dökümanları ve kategorisi belirlenecek olan doküman vektörel olarak ifade edildikten sonra bu vektörler K-NN algoritması ile karşılaştırılırlar. Aşağıdaki Şekil 3.4’te örnek verilmiştır. Bu örneğe göre k–en yakın komşu 3 seçildiğinde gelen noktanın sınıfı B olarak belirlenmektedir çünkü k=3 olduğu zaman en yakın olan komşuları B sınıfından olmuştur. 44 Şekil 3.4. K-En Yakın Komşu Yöntemi, k=3 Aşlıyan ve Günel’in çalışmasında, En Yakın Komşu ve K-En Yakın Komşu metotları kullanılarak metin içerikli doküman sınıflandırılmasını gerçekleştiren bir sistem geliştirilmiştir. Doküman sınıflandırma çalışmalarında kullanılan öznitelik vektör uzayı sözcüklerin doküman üzerinde görüntülenme sıklıklarına göre ifade edilmektedir. Yani her bir doküman içindeki sözcüklerin dokümanlardaki frekansları hesaplanarak sözcük vektör uzayı oluşturulmaktadır. Bu çalışmada ise, sözcük öznitelik vektörlerinin belirlenmesi iki yaklaşıma göre yapılmaktadır. Birincisi eğitim derlemindeki her dokümanın öznitelik vektörleri ayrı ayrı hesaplanıp sınıf ve sınıflardaki dokümanlara göre öznitelik vektör veri tabanı oluşturulmuştur. Daha sonra da sınıflardaki bütün dokümanlar birleştirilerek her sınıf için bir tane sözcük öznitelik vektörü oluşturulmuştur. Sonradan birincisi için En Yakın Komşu ve K-En Yakın Komşu metodu; ikincisi için ise En Yakın Komşu metodu kullanılmıştır. En Yakın Komşu metodu, K-En Yakın Komşu metoduna göre %88.4 oranında daha başarılı olduğu görülmüştür [60]. 3.4.2. Naive bayes Uygulanabilirliği ve performansı ile ön plana çıkan özellikle metin dökümanlarının sınıflandırılmasında yaygın olarak kullanılan sınıflandırma yöntemidir. Diğer bütün sınıflandırıcılarla karşılaştırıldıklarında en düşük hata oranına sahiptirler [16]. Naive bayes algoritması, veri madenciliği, örüntü tanıma, makine öğrenmesi gibi disiplinler içinde yer alan bir sınıflandırma algoritmasıdır. 45 Naïve Bayes sınıflandırıcısı öznitelik seçme de kolay, verimli ve aşırı hasas olduğundan dolayı öznitelik seçme araştırması için önemlidir [39]. Dezavantajı ise çok boyutlu verilerde iyi sonuç verememesidir [64]. Elimizde n adet sınıf olduğunu farz edelim, , ,…, . Herhangi bir sınıfa ait olmayan bir veri örneği A’nın, hangi sınıfa ait olduğu Naive Bayes sınıflandırıcısı tarafından belirlenir. Veri örneği A, verilen sınıflara ait olma olasılığı en yüksek değere sahip sınıfa atanır. Sonuç olarak, Naive Bayes sınıflandırıcı bilinmeyen örnek A’yı, = sınıfına atar. Her veri örneği, m boyutlu öznitelik vektörleri ile gösterilir, , . Naive Bayes yönteminde özniteliklerin hepsi aynı derecede ,…, önemlidir. Öznitelikler birbirinden bağımsızdır ve bir özniteliğin diğer başka bir öznitelik hakkında bilgi içermemektedir. Bayes teoremi aşağıdaki denklemle ifade edilir; = ( | )= , örneğinin ,…, sınıfında olma olasılığı ( | ) ( ) (3.9) ( ) P(A) bütün sınıflar için sabit ise, A örneğinin sınıfında olma olasılığına, ( | ) ( ) ifadesi ile ulaşabiliriz. P( ), her bir sınıfın olasılığı olup aşağıdaki formül ile hesaplanır. ( )= ğ ö ö (3.10) Bu yöntemde bir dokümanın bir sınıfa ait olma olasılığı, dokümandaki her kelimenin o sınıfa ait olma olasılıkların çarpımının o metin sınıfının olasılığına çarpılması sonucunda bulunmaktadır. ( | )=∏ ( | ) Burada, P(A) ve P( ) - A ve (3.11) olaylarının ilksel olasılıklarıdır, P(A| ) - olayı gerçekleştiği durumda A olayının meydana gelme olasılığıdır, P( |A) - A olayı 46 gerçekleştiği durumda olayının meydana gelme olasılığıdır. Diğer bir ifadeyle örneğin P(A) henüz elde veri bulunmadan A olayı hakkında sahip olunan bilgidir. Diğer taraftan P( |A) son olarak hesaplanan olasılıktır çünkü veri toplandıktan sonra, A olayının gerçekleşmiş olduğu durumlarda olayının gerçekleşme ihtimali hakkında bilgi verir. 3.4.3. Multinominal naïve bayes (Çok terimli naive bayes) Metin sınıflandırma açısından çok terimli Naive Bayes modeli uygun görülmektedir [65]. Çok terimli Naive Bayes modeli, bir olasılıksal öğrenim yöntemidir. Dokümanlardaki her terimin sıklığı ile ilgilenmektedir. Bir d dokümanının c sınıfı içinde olma olasılığı şuna göre hesaplanır: ( | ) ∝ ( )∏ ( | ) (3.12) burada P (tk|c), tk teriminin c sınıfındaki bir dokümanda görülme olasılığıdır. P(tk|c)’yı, tk’nın c’nin doğru sınıf olduğuna ilişkin ne kadar ipucu sağladığının bir ölçüsü olarak yorumlarız. P(c), c sınıfında karşılaşılan bir dokümanın ön olasılığıdır. Eğer bir dokümanın terimleri diğer sınıfa yönelik açık bir ipucu sağlayamazlarsa, daha yüksek ön olasılığı olanı seçilir. (t1, t2,..., tnd), d’de yer alan ve sınıflandırma için kullandığımız sözlüğün birer parçası olan sembollerdir ve d’deki bu tür sembollerin sayısıdır. Metin sınıflandırmada, amaç doküman için en iyi sınıfın bulunmasıdır. Naive Bayes sınıflandırmadaki en iyi sınıf en olası olan ya da maksimum posteriori (MAP) sınıftır. = max ∈ ( | )= max ∈ ( )∏ ( | ) (3.13) - parametrelerin gerçek değerlerini bilinmediği için bu şekilde kullanılmış. Eşitlik 3.13’de, pek çok koşullu olasılık çarpılmıştır, 1 < k < durumuna uygun her durum 47 için bir adettir. Dolayısıyla hesaplamanın, olasılıkları çarpmak yerine olasılıkların logaritmalarının toplanarak yapılması daha iyi sonuçların elde edilmesini sağlar. En yüksek log olasılığı olan sınıf hala olasılığı en yüksek olandır; log(xy) = log(x) + log(y) ve logaritma fonksiyonu tekdüzedir. Bu kapsamda, çoğu Naive Bayes uygulamasında yapılan maksimizasyonu şudur: = Her bir ( )+∑ max ∈ ( | ) ( | ) ağırlığı C için Benzer şekilde, (3.14) göstergesinin ne kadar iyi olduğunu belirtir. ( ) c’nın göreli frekansını gösteren bir ağırlığıdır. Daha sık sınıfların seyrek sınıflara göre doğru sınıf olma olasılığı yüksektir. Veri kümesi büyük olduğunda bu modeller arasından en uygun olanı çok terimli modeldir, fakat çok terimli modelin iki ciddi sorunu bulunmaktadır. İlki kaba parametre kestirimi ve diğeri sadece birkaç eğitim dokümanı içeren az bulunan sınıfın işlenmesinin yarattığı sorundur. 3.4.4. Destek vektör makinesi Destek vektör makineleri (DVM) ayırt edici sınıflandırma yöntemlerinden biri olan genellikle doğru sınıflandırıcı olarak kabul edilir [5]. Doğrusal (lineer) DVM’yi doğrusal olmayan sınıflandırma düzlemine taşımak amacıyla Vapnik bir çekirdek (kernel) fonksiyonu kavramı önermiştir, buradaki temel fikir şudur: girdi x vektörünün daha önceden belirlenmiş doğrusal olmayan haritalama kullanılarak iki Hilbert alanını haritalanması ve daha sonra da Hilbert alanında optimal bir sınıflandırma düzleminin oluşturulmasıdır. Dolayısıyla, farklı çekirdek fonksiyonlarının kullanımı vasıtasıyla girdi alanındaki farklı türlerin doğrusal olmayan gerçekleştirebilir [44]. karar düzlemlerine yönelik bir öğrenme makinesini 48 DVM yönteminde ana fikir pozitif ve negatif örnekleri ayıran en uygun düzlemin bulunmasıdır [66]. En uygun düzlemi bulabilmek için, her iki sınıfın en uygun düzlemine en yakın veri noktalarından geçen ve birbirine paralel olan düzlemleri çizmektir. Bu düzlemler arasındaki mesafe en uygun düzlemin kalitesini belirler. DVM iki sınıf arasındaki sınırı ayırt etme yüzeyini belirlemekte, yani eğitim kümesi ile ayırt etme yüzeyine en yakın noktaların arasındaki mesafeyi maksimumlaştırmaktadır. Şekil 3.5. DVM yönteminin düzlemlerin koordinat düzleminde görüntülenmesi 3.4.5. Sınıflandırıcıların uygulanması Sınıflandırma yapmak için Weka program içerisinde olan Lazy, Bayes, Functions ve Meta modelleri kullanılmıştır. Sınıflandırma algoritmaları ile ilgili test seçenekleri için 3.1 bölümünde bilgi verilmiştir. Sırayla sınıflandırıcıların “Classify” sekmesinin hangi alt bölümleri üzerinde gerçekleştiği gösterilmiştir: • K- En Yakın Komşu yöntemi için Classifier=>Lazy=>IBk • Naïve Bayes yöntemi için Classifier=>Bayes=>Naïve Bayes • Multinominal Naïve Bayes için Classifier=>Bayes=>Multinominal Naïve Bayes • DVM yöntemi için Classifier=>Function=>SMO Sequential Minimal Optimisation kelimelerinin baş harflerinden meydana gelen SMO, esas itibariyle DVM’ni kullanan bir algoritmadır [67]. 49 Örnek olarak K-En Yakın Komşu sınıflandırma algoritması seçilmiştir. Weka programının “Classify” sekmesinden yer alan “Classifier” bölümündeki Lazy alt bölümünen IBk modeli seçilmiştir. Sonradan kullanıcı kendisine göre k değerlerini değiştirebilir, bu çalışmada ise k’nın 1,3,5,7 değerleri üzerinde test yapılmıştır. Aşağıdaki çizelgede k’nın farklı değerleri ile elde edilen sonuçlar verilmiştir. Ön işleme aşamasından önceki hali ve sonrak halinde de ortalama olarak k’nın en yüksek değeri 1’e eşit olmuştur. Ön işleme aşaması uygulandıktan sonraki halinde k’nın değerinin artışı görülmüştür. İlerideki çalışmalarda k’nın sadece en yüksek başarı gösteren değerleri kullanılacaktır. Çizelge 3.4. k’nın farklı değerlerinde alınan sonuçlar (% olarak verilmiştir) Ön işleme aşamasından önceki hali (k’nın değerleri) Öznitelik vektörleri Kelime kökleri+TF Kelime kökleri+CFS+TF Kelime kökleri+bilgi kazancı+TF Kelime kökleri+TF-IDF Kelime kökleri+CFS+TFIDF Kelime kökleri+bilgi kazancı+TF-IDF Kelime kökleri+ikili Kelime kökleri+CFS+ikili Kelime kökleri+bilgi kazancı+ikili 2-gram+TF 2-gram+CFS+TF 2-gram+bilgi kazancı+TF 2-gram+TF-IDF 2-gram+CFS+TF-IDF 2-gram+bilgi kazancı+TFIDF 3-gram+TF 3-gram+CFS+TF 3-gram+bilgi kazancı+TF 3-gram+TF-IDF 3-gram+CFS+TF-IDF 2-gram+bilgi kazancı+TFIDF Ön işleme aşamasından sonraki hali (k’nın değerleri) k=1 k=3 k=5 k=7 k=1 k=3 k=5 k=7 52,22 85,56 42,22 40,56 41,11 42,78 37,22 38,33 86,67 88,33 88,33 48,89 83,33 86,11 87,22 81,67 80 82,78 76,67 82,22 80,56 88,89 78,89 52,78 85,56 41,67 40,56 41,67 37,78 40 88,33 88,33 49,44 83,33 42,22 86,67 86,11 88,89 87,22 81,67 80 82,78 82,78 82,22 81,11 79,44 75 78,89 75,56 72,22 75,56 75,56 73,89 95,56 96,11 96,11 80 96,11 80 97,78 93,89 96,67 96,11 93,33 95 94,44 91,67 97,22 93,89 95 93,89 55 54,44 90 47,22 50 75 77,22 88,33 77,78 88,33 73,89 90 88,33 88,33 90 90,56 66,11 88,89 88,89 87,78 70,56 70,56 88,33 90,56 90 76,67 88,33 49,44 84,44 91,11 87,78 51,67 44,44 42,22 89,44 90 80,56 88,89 88,33 71,67 89,44 85 83,89 89,44 88,89 90,56 86,67 47,78 89,44 45 40,56 39,44 60,56 58,89 92,22 91,67 81,67 76,11 87,22 92,22 86,67 91,67 83,89 92,22 76,67 70 91,67 68,89 91,67 86,67 85 47,22 88,33 41,11 37,22 34,44 65,56 58,89 57,78 91,67 91,67 92,22 81,11 75,56 83,89 84,44 95 83,89 91,67 85 93,89 75 67,78 92,22 87,22 87,78 83,33 50 4. DENEYSEL ÇALIŞMALAR Çalışmada kullanılan yöntemler metin işleme sürecini takip ederek uygulanmıştır. Bu denemeler (Türkçe bilimsel makalelerden oluşan veri kümesindeki çalışmalar) farklı iki veri kümesini içermektedir: 1) ön işleme uygulamadan önceki ve 2) ön işleme uygulandıktan sonraki veri setleri. Böylece ön işleme aşaması uygulandıktan sonra sınıflandırma başarısında bir artış olup olmayacağı araştırılmıştır. Metin işleme yöntemlerini kullanarak oluşturulan farklı öznitelik vektörlerini elde etmede bu iki veri kümesi kullanılmıştır. Daha sonra Weka [68] programının içerisinde yer alan öznitelik seçme yöntemleri ile sınıflandırma yöntemleri kullanılarak çalışmadaki veri kütüphanesi için en uygun metin işleme yöntemi bulunmaya çalışılmıştır. Bu çalışmanın başarısının sınanması için Weka program içerisinde olan Lazy, Bayes, Functions ve Meta sınıflandırıcıları kullanılmıştır. Lazy modelindeki k-En Yakın Komşu yöntemi çeşitli k değerleri (k=1,3,5,7) üzerinde denenmiştir ve en yüksek performans gösteren k değeri seçilmiştir. birleştirilmeye Sınıflandırma başarısını arttırmak amacıyla öznitelik vektörleri çalışılmıştır. Elde edilen tüm sınıflandırma yüzdeleri karşılaştırılmıştır. Farklı ağırlıklandırma yöntemleri ile elde edilen öznitelik vektörleri şunlardır; kelime köklerinden oluşan öznitelik vektörleri, n-gramlar’dan oluşan öznitelik vektörleri, öznitelik seçme sonucu elde edilen öznitelik vektörleri ve öznitelik düzeyinde birleştirme ile elde edilen öznitelik vektörleri. Sınıflandırıcının performans ölçeklerin değerlendirmek için Weka programında elde edilen karmaşıklık matrisi (confusion matrix) kullanarak F-ölçeği hesaplanmıştır. Aşağıda metin işleme yöntemi aşamalarına göre elde edilen öznitelik vektörleri açıklanacaktır. Weka programı her türlü dosyayı doğrudan okuyamamaktadır. Weka arff dosya uzantısını desteklemektedir. Text2arff yazılımı ile veri kütüphanesindeki tüm terimlere ait öznitelikleri çıkardıktan sonra elde edilen veriler kolay sınıflandırılması için arff dosya formatına dönüştürülmüştür. Kemik Doğal Dil İşleme Grubu 51 tarafından yapılan text2arff [51] yazılımı metinleri belli yöntemlere göre sayısallaştıran yani öznitelikleri çıkaran bir yazılımdır. Oluşturulan dosyalar, başka işleme gerek duyulmadan Weka programında çalıştırılabilmektedir. Arff dosya uzantısına kaydedilmesinin nedeni, birçok makine öğrenme yöntemlerini içeren Weka yazılımının bu formatı doğrudan kullanabilmesidir. text2arff yazılımının ürettiği arff dosyasının sütun boyutu dokümandan geçen tüm terimlerin (en azından bir kere) sayısı kadardır, satır boyutu ise toplam doküman sayısına eşittir. 4.1. Veri Kümesi Bilgileri Çalışmada iki Türkçe veri kümesi kullanılmıştır. İlk elde ettiğimiz veri kütüphanesi altı sınıf (anlamsal ağlar, görüntü işleme, kablosuz ağlar, metin sınıflandırma, turizm ve uzaktan eğitim) içeren toplam 180 Türkçe metinden oluşmaktadır. Her sınıfta 30’ar doküman bulunmaktadır. İkinci veri kümesi ise karşılaştırma amacı ile kullanılmaktadır. Veri kütüphanesinin oluşum aşamaları aşağıdaki şekilde gösterilmektedir. PDF dosyalarının toplanması (bilimsel makaleler) PDF dosya formatından metin dosya formatına dönüştürme Ön işleme Şekil 4.1. Veri kütüphanesinin oluşturulması 52 Veri kütüphanesini elde etmek için internetteki farklı konuda olan Türkçe bilimsel makaleler ve tez çalışmaları toplanarak bir veri kümesi oluşturulmuştur. Makalelerin formatı doc ve çoğunlukla PDF formatında olduğundan dolayı metin dosya formatına (.txt) göre değiştirilmiştir. Sonradan ön işleme aşamasından geçirilmiştir. Veri kütüphanesi 3189 öznitelik vektörü içermektedir. Elde ettiğimiz bu veri kütüphanesi hem eğitim hem de test için kullanılmıştır. Nasıl kullanıldığı Bölüm 3.1’de açıklanmıştır. Çizelge 4.1. Bilimsel makalelerden oluşan veri kütüphanesi ve makale sayısı Sınıf Sayısı Sınıf Adı Makale Sayısı 1 Anlamsal Ağlar 30 2 Görüntü İşleme 30 3 Kablosuz Ağlar 30 4 Metin Sınıflandırma 30 5 Turizm 30 6 Uzaktan Eğitim 30 Toplam 180 İkincisi [8, 9] çalışmalarında kullanılan gazetelerdeki haber sayfalarında 5 (ekonomi, magazin, sağlık, siyasi, spor) konuda toplanmış veri kütüphanesidir. Her sınıf 230’ar tane olmak üzere toplam 1150 haber metninden oluşmaktadır. Çizelge 4.2. 1150 haberden oluşan veri kütüphanesi ve doküman sayısı Sınıf Sayısı Sınıf Adı Doküman Sayısı 1 Ekonomi 230 2 Magazin 230 3 Sağlık 230 4 Siyasi 230 5 Spor 230 Toplam 1150 53 4.2. Kelime Köklerinden Oluşan Öznitelik Vektörlerinden Elde Edilen Sonuçlar Türkçe bilimsel makalelerden meydana gelmiş veri kümesinde kelime köklerinden oluşan öznitelik vektörlerinin ön işleme aşamasından önceki hali 3189 öznitelik vektörü içermektedir, ön işleme aşamasından sonraki hali ise yani indirgenmiş veri kümesi 3071 öznitelik vektörü içermektedir. Ön işleme aşamasında çıkarma, silme gibi işlemleri gerçekleştirdiğimiz için öznitelik sayısı azalmıştır. Aşağıdaki çizelgede kelime köklerinden oluşan farklı ağırlıklandırma yöntemleri kullanılarak elde edilen öznitelik vektörleri 4 tane sınıflandırma yöntemine göre sınıflandırılmıştır. Çizelge 4.3. Kelime köklerinden oluşan öznitelik vektörleri (Ön işleme aşamasından önceki hali) Öznitelik vektörleri KNN N.Bayes M.N.Bayes DVM Ortalama Kelime kökleri+ikili %78,89 k=1 %96,11 %95,56 %96,11 %91,66 Kelime kökleri+TF Kelime kökleri+TFIDF Ortalama %52,22 k=1 %95,56 %98,33 %88,33 %83,61 %52,78 k=1 %96,11 %98,33 %88,33 %83,88 %61,22 %95,93 %97,54 %90,92 Çizelge 4.3’te görüldüğü üzere kelime köklerinden oluşan öznitelik vektörlerindeki TF ve TF-IDF ağırlıklandırma yöntemleri ile elde edilen sonuçlar % 98,33’lik en yüksek başarıya ulaşmıştır. Ortalama olarak kelime köklerinden oluşan öznitelik vektörlerindeki ikili ağırlıklandırma yöntemi ile elde edilen sonuçlar en yüksek başarıya ulaşmıştır. Bu öznitelik vektörünün tüm sınıflandırıcılar için gösterdiği ortalama başarı yüzdesi %91,66 olmuştur. Bundan sonra sırası ile TF-IDF yöntemi yer almış ve en düşük başarıya TF yöntemi sahip olmuştur. Tüm öznitelik vektörleri için sınıflandırma yöntemlerinin içinde en yüksek ortalama başarı yüzdesi %97,54 Multinominal Naive Bayes yöntemi ile elde edilmiştir. K-En Yakın Komşu yöntemi için en yüksek performansı k=1 değeri oluşturmuş ve sınıflandırıcılar arasında ortalama olarak en düşük performans göstermiştir. K-En Yakın Komşu yönteminin düşük başarı gösterme nedeni veri kümesi boyutunun büyük olduğundan dolayı kaynaklandığı düşünülmektedir. 54 Çizelge 4.4. Kelime köklerinden oluşan öznitelik vektörleri (Ön işleme aşamasından sonraki hali) Öznitelik vektörleri KNN N.Bayes M.N.Bayes DVM Ortalama Kelime kökleri+ikili %80 k=1 %96,11 %96,11 %97,22 %92,36 Kelime kökleri+TF Kelime kökleri+TFIDF Ortalama %48,89 k=1 %93,89 %98,33 %89,44 %82,63 %49,44 k=1 %94,44 %97,78 %89,44 %82,78 %59,44 %94,81 %97,41 %92,03 Çizelge 4.4 incelendiğinde kelime köklerinden oluşan öznitelik vektörlerindeki TF ağırlıklandırma yöntemi ile elde edilen sonuç % 98,33’lik en yüksek başarıya ulaşmıştır. Bu yöntem ön işleme aşamasından sonra sabit kalmıştır. İkili ağırlık yöntemi ile elde edilen öznitelik vektöründe ön işleme aşamasından sonra tüm sınıflandırıcıların başarı yüzdelerinin arttığı görülmektedir. “Kelime kökleri+TF” ve “kelime kökleri+TF-IDF” öznitelik vektörleri ortalama sonuçlarının arasında çok az bir fark (0,15) bulunmuştur. Bu da TF-IDF yönteminin başarılı bir yöntem olduğunu kanıtlamıştır. “Kelime kökleri+TF-IDF” öznitelik vektörlerinin ön işleme aşamasından sonra başarı yüzdesi (%97,78) düşüşü görülmüştür. Bu sonuçlara bakılarak TF-IDF yöntemi için durak kelimelerin çıkarılmasının sınıflandırıcıların kesinliklerini etkilemediği, fakat öznitelik alanının işleme zamanını azalttığı görülmüştür. K-En Yakın Komşu yöntemi Naive Bayes ve DVM yöntemlerine göre fazlaca düşüş gösterdiği görülmektedir. İncelediğimiz çizelgeye göre en başarılı yöntem yine Multinominal Naive Bayes modeli olduğu görülmektedir. Çizelge 4.3 ile Çizelge 4.4’e bakılacak olursa DVM yöntemi dışında kullanılan diğer yöntemler ön işleme aşamasından sonra düşüş göstermiştir. 4.3. N-gram’dan Oluşan Öznitelik Vektörlerinden Elde Edilen Sonuçlar 2-gram’dan oluşan öznitelik vektörlerinin ön işleme aşamasından önceki hali 3218 öznitelik vektörü içermektedir, ön işleme aşamasından sonraki hali ise yani indirgenmiş veri kümesi 958 öznitelik vektörü içermektedir. 55 Çizelge 4.5. 2-gram’dan oluşan öznitelik vektörleri (Ön işleme aşamasından önceki hali) Öznitelik vektörleri 2-gram+TF 2-gram+TF-IDF Ortalama KNN N.Bayes M.N.Bayes DVM Ortalama %55 k=1 %51,67 k=3 %53,34 %79,44 %81,67 %80,55 %96,67 %78,33 %87,5 %92,22 %90,56 %91,39 %80,83 %75,55 Çizelge 4.5 incelendiğinde 2-gram’dan oluşan öznitelik vektörlerindeki TF ağırlıklandırma yöntemi ile elde edilen sonuçları TF-IDF yöntemine göre yüksek başarı göstermiştir. Ama Naive Bayes yöntemi ile elde edilen sonuçlara bakılacak olursa TF-IDF ağırlıklandırma yönteminde daha başarılı sonuç verirken Multinominal Naive Bayes yönteminde ciddi bir düşüş olduğu görünmektedir. TF ağırlıklandırma yöntemi tüm sınıflandırıcı yöntemlere uygulandığında Multinominal Naive Bayes yöntemi kullanarak %96,67 en yüksek başarı yüzdesinin alındığı görülmektedir. Bu sınıflandırıcılar arasında ortalamalara bakılırsa DVM yönteminin başarısı %91,39 iken diğer yöntemlerin ortalamaları daha düşüktür. Çizelge 4.6. 2-gram’dan oluşan öznitelik vektörleri (Ön işleme aşamasından sonraki hali) Öznitelik vektörleri 2-gram+TF 2-gram+TF-IDF Ortalama KNN N.Bayes M.N.Bayes DVM Ortalama %77,78 k=3 %71,67 k=1 %74,72 %85,56 %84,44 %85 %97,78 %92,22 %95 %93,33 %91,11 %92,22 %88,61 %84,86 Çizelge 4.6’da ön işleme aşamasından sonra elde edilen öznitelik vektörleri gösterilmiştir. Öznitelik vektörleinin tüm sınıflandırma yöntemlerinden alınan sonuçların ortalamasına bakılacak olursa TF yöntemi TF-IDF yönteminden %88,61’e daha başarılı olmuştur. Sınıflandırma başarısı en yüksek algoritmaya sahip olan Multinominal Naive Bayes yöntemidir. Çizelge 4.5 ile Çizelge 4.6 incelendiğinde tüm sınıflandırma yöntemlerinde ön işleme aşamasından sonra başarı yüzdeleri artmıştır. Bu sonuçlara bakılarak metin işleme sürecinde ön işleme aşamasının etkili olduğu kanıtlanmıştır. 2-gram ile elde 56 edilen öznitelik vektörlerinde TF yöntemine göre TF-IDF yönteminin başarı oranı daha düşük olduğu görülmektedir. Kullandığımız veri kütüphanesindeki 3-gram’dan oluşan öznitelik vektörlerinin ön işleme aşamasından önceki hali 25483 öznitelik vektörü içermektedir, ön işleme aşamasından sonraki indirgenmiş veri kümesi 11132 öznitelik vektörü içermektedir. Çizelge 4.7. 3-gram’dan oluşan öznitelik vektörleri (Ön işleme aşamasından önceki hali) Öznitelik vektörleri 3-gram+TF 3-gram+TF-IDF Ortalama KNN N.Bayes M.N.Bayes DVM Ortalama %47,78 k=1 %47,22 k=1 %47,5 %90,56 %91,67 %91,12 %97,78 %95 %96,39 %94,44 %94,44 %94,44 %82,64 %82,08 Çizelge 4.7 incelediğimizde en yüksek %97,78 başarı ile TF yöntemi olmuştur. İki farklı ağırlıklandırma yöntemi kullanılarak elde edilen 3-gram’dan oluşan öznitelik vektörlerinin sonuçlarında çok büyük fark görülmemiştir. Ortalamalarına bakılacak olursa %0,56 oranı ile TF yöntemi başarılı olmuştur. Bu incelemede de Multinominal Naive Bayes yöntemi ortalama olarak %96,39 oranı ile başarılı olduğu görülmüştür. Çizelge 4.8. 3-gram’dan oluşan öznitelik vektörleri (Ön işleme aşamasından sonraki hali) Öznitelik vektörleri 3-gram+TF 3-gram+TF-IDF Ortalama KNN N.Bayes M.N.Bayes DVM Ortalama %70 k=1 %67,78 k=1 %68,89 %91,11 %90,56 %90,84 %97,78 %96,67 %97,23 %95 %95,56 %95,28 %88,47 %87,64 Çizelge 4.8’de TF ağırlıklandırma yöntemi tüm sınıflandırıcı yöntemlere uygulandığında en yüksek başarı yüzdesinin Multinominal Naive Bayes yöntemini kullanarak alındığı görülmektedir. En yüksek %97,78 başarı ile TF yöntemi olmuştur. Öznitelik vektörleri ile elde edilen sonuçların ön işleme aşamasından geçirildikten sonraki farkına bakıldığında TF-IDF yöntemi sadece DVM yönteminde 57 artış gösterdiği görülmüştür. Buradan DVM ve Multinominal Naive Bayes yönteminin beklenen sonucu gösterdiğini kanıtlamış olduk. 4.4. Öznitelik Seçme Sonucu Oluşan Öznitelik Vektörlerinden Elde Edilen Sonuçlar Türkçe bilimsel makalelerden oluşan veri kümesinde TF ve TF-IDF yöntemlerine göre kelime köklerinden oluşan öznitelik vektörlerinin ön işleme aşamasından önceki hali 66 öznitelik vektörü ve ikili yöntemine göre 65 öznitelik vektörü içermektedir, TF ve TF-IDF yöntemlerine göre ön işleme aşamasından sonraki hali ise yani indirgenmiş veri kümesi 56 öznitelik vektörü ve ikili yöntemine göre 63 öznitelik vektörü içermektedir. Ön işleme aşamasında çıkarma, silme gibi işlemleri gerçekleştirdiğimiz için öznitelik sayısı azalma göstermiştir. Çizelge 4.9. KTÖS yöntemi ile seçilen öznitelik vektörleri (Ön işleme aşamasından önceki hali) Öznitelik vektörleri KNN N.Bayes M.N.Bayes DVM Ort. Kelime kökleri+ikili+CFS %97,78 k=1 %97,78 %97,22 %97,78 %97,64 Kelime kökleri+TF+CFS Kelime kökleri+TFIDF+CFS 2-gram+TF+CFS 2-gram+TF-IDF+CFS 3-gram+TF+CFS 3-gram+TF-IDF+CFS Ortalama %88,33 k=5 %93,33 %98,33 %91,11 %92,76 %88,33 k=5 %93,33 %97,22 %91,11 %92,05 %91,11 k=5 %90 k=3 %92,22 k=5 %93,89 k=7 %91,66 %89,44 %89,44 %96,11 %95,56 %93,57 %95,56 %95 %98,33 %98,33 %97,14 %93,89 %93,89 %96,67 %95,56 %94,29 %92,5 %92,08 %95,83 %95,83 KTÖS yöntemi ile seçilen öznitelik vektörlerinde ikili yöntemi ile ortalama %97,64’lük başarı göstererek en başarılı olmuştur. Tekil öznitelik vektörü olarak “kelime kökleri+TF”, “3-gram+TF+CFS” ve “3-gram+TF-IDF+CFS” ile %98,33 başarıyı elde edilmiştir. Tüm öznitelik vektörlerinde en yüksek algoritma başarısı Multinominal Naive Bayes yöntemi ile elde edilmiştir. Öznitelik seçme yöntemi uygulandıktan sonra tüm sınıflandırıcıların ortalama başarı yüzdesi artmıştır. Burdan öznitelik seçme aşamsının başarı yözdesinin olumlu yönde etkilediğinin 58 süyleyebiliriz. KTÖS yöntemi, ancak verileri kopya alanının küçük bir kısmına yönelik belirleyici değeri olan öznitelikler ya da birbirleriyle etkileşimi çok olan öznitelikler içerdiği zaman, ilgili öznitelikleri seçmekte başarısız olabilmektedir. Çizelge 4.10. KTÖS yöntemi ile seçilen öznitelik vektörleri (Ön işleme aşamasından sonraki hali) Öznitelik vektörleri Kelime kökleri+ikili+CFS Kelime kökleri+TF+CFS Kelime kökleri+TF-IDF+CFS 2-gram+TF+CFS 2-gram+TF-IDF+CFS 3-gram+TF+CFS 3-gram+TF-IDF+CFS Ortalama KNN %97,22 k=3 %88,89 k=5 %88,89 k=5 %88,89 k=7 %90,56 k=5 %92,22 k=3 %95 k=5 %91,67 N.Bayes M.N.Bayes DVM Ort. %98,33 %98,33 %97,22 %97,76 %93,89 %97,22 %91,11 %92,78 %93,89 %96,67 %91,11 %92,64 %91,67 %95 %93,89 %92,36 %91,67 %95,56 %93,89 %92,92 %95 %93,33 %97,22 %94,44 %94,44 %94,13 %97,78 %96,27 %98,89 %94,76 %96,53 Çizelge 4.10’dan görüldüğü gibi ön işleme aşamasından geçirilen veri kümesini kullandığımızda tüm sınıflandırıcı yöntemlerinde başarı yüzdesi artmıştır. %98,33 “kelime kökleri+ikili+CFS” öznitelik vektörü ile, %98,89 “3-gram+TF-IDF+CFS” öznitelik vektörü ile en yüksek başarı elde edilmiştir. Sonuç olarak sınıflandırıcıların ortalama yüzdesi arttığı için ön işleme aşamasının etkili olduğu kanıtlanmıştır. Bu deney sonuçlarına göre ikili ağırlıklandırma yöntemi ile elde edilen öznitelik vektörü %98,33 yüksek başarıya ulaşmıştır. Ortalama olarak TF-IDF yöntemi TF’e göre başarılı olmuştur. 59 Çizelge 4.11. Bilgi kazancı yöntemi ile seçilen öznitelik vektörleri (Ön işleme aşamasından önceki hali) Öznitelik vektörleri KNN N.Bayes M.N.Bayes DVM Ort. Kelime kökleri+ikili+ bilgi kazancı %95 k=5 % 97,78 % 97,78 % 97,78 %97,09 % 97,22 % 98,89 % 89,44 %92,08 % 97,22 % 99,44 % 90,56 %92,05 % 91,67 % 97,78 % 96,11 %93,47 % 91,11 % 93,89 % 96,11 %92,08 % 96,67 % 98,33 % 96,11 %93,75 % 96,67 %95,48 % 98,89 %97,86 % 96,11 %94,6 %94,17 Kelime kökleri+TF+bilgi kazancı Kelime kökleri+TF-IDF+ bilgi kazancı 2-gram+TF+ bilgi kazancı 2-gram+TF-IDF+ bilgi kazancı 3-gram+TF+ bilgi kazancı 3-gram+TF-IDF+ bilgi kazancı Ortalama % 82,78 k=5 % 82,78 k=5 % 88,33 k=1 % 87,22 k=1 % 83,89 k=1 % 85 k=1 %86,43 Çizelge 4.11’de bilgi kazancı yöntemi yardımı ile elde edilen öznitelik vektörlerinin sonuçları incelendiğinde yine ikili yöntemi yüksek başarı göstermiştir. “Kelime kökleri+TF+bilgi kazancı” ve “3-gram+TF-IDF+bilgi kazancı” öznitelik vektörleri ile %98,89’luk en yüksek başarı elde edilmiştir. KTÖS yöntemi ve bilgi kazancı yöntemi ile elde edilen sonuçların arasında çok fark olmamıştır ayrıntılı incelersek KTÖS’e göre bilgi kazancı yönteminin başarılı olduğunu söyleyebiliriz. Çizelge 4.10’da K-NN yönteminde ciddi bir yükseliş olmuştur, bu çizelgede tam tersi K-NN yönteminde düşüş görülürken diğer 3 adet sınıflandırıcıda yükselişi görmekteyiz. TF ve TF-IDF yöntemleri arasında çok fark olmadığı ve 3-gram ile elde edilen öznitelik vektörlerinde TF-IDF yönteminin daha başarılı olduğunu görülmektedir. 60 Çizelge 4.12. Bilgi kazancı yöntemi ile seçilen öznitelik vektörleri (Ön işleme aşamasından sonraki hali) Öznitelik vektörleri Kelime kökleri+ikili+bilgi kazancı Kelime kökleri+TF+bilgi kazancı Kelime kökleri+TF-IDF+bilgi kazancı 2-gram+TF+ bilgi kazancı 2-gram+TF-IDF+ bilgi kazancı 3-gram+TF+ bilgi kazancı 3-gram+TF-IDF+ bilgi kazancı Ortalama KNN N.Bayes M.N.Bayes DVM Ort. %95 k=5 %97,78 %98,33 % 98,33 %97,36 % 96,67 % 98,89 % 91,11 %92,22 % 95,56 % 97,22 % 90,56 %91,39 % 88,89 % 97,78 % 96,67 %93,48 % 88,33 % 94,44 % 95,56 %91,94 % 96,67 % 98,33 % 97,22 %94,86 % 96,67 % 98,33 % 96,11 %93,89 %94,38 %97,62 %95,08 % 82,22 k=1 % 82,22 k=1 % 90,56 k=3 % 89,44 k=1 % 87,22 k=1 % 84,44 k=3 %87,3 Çizelge 4.12 incelendiğinde ikili yöntemi ile elde edilen öznitelik vektörleri ortalama olarak yüksek başarıya sahip olduğu görülmektedir. “Kelime kökleri+TF+bilgi kazancı” öznitelik vektörü %98,89 yüzde ile en yüksek başarıya sahip olmuştur. Ancak TF-IDF yönteminin TF yöntemine göre daha başarısız olduğu çizelgeye bakarak söylenebilir. En başarılı sınıflandırıcı yöntemi yine Multinominal Naive Bayes modeli olmuştur ve Naive Bayes yöntemi ile birlikte ön işleme aşamasından geçirilen verilerde az bir düşüş göstermiştir. Genel olarak bilgi kazancı yöntemi ile elde ettiğimiz öznitelik vektörlerinin sonuçlarına bakıldığında (Çizelge 4.11 ve Çizelge 4.12) K-NN yönteminde düşüş görülmektedir. Bölüm 3.3.3’e bakıldığında bilgi kazancı yöntemi ile elde edilen öznitelik vektörlerinin sayısı KTÖS yöntemine göre fazla seçilmiştir. K-NN yöntemi az bouytlu verilerle çalıştığında yüksek başarı göstermektedir. Öznitelik seçme yöntemleri ile elde edilen öznitelik vektörlerini uyguladıktan sonraki sonuçlara bakılacak olursa TF-IDF yönteminin TF yöntemine göre daha fazla etkilendiği söylenebilir. 61 4.5. Öznitelikler Düzeyinde Birleştirmede Oluşan Öznitelik Vektörlerinden Elde Edilen Sonuçlar Kullandığımız 2 adet öznitelik seçme sonucu oluşan öznitelik vektörlerinin farklı ağrlıklandırma yöntemleri ile birleşmesi ile başarının artabileceği düşüncesinden çıkılarak yeni öznitelik vekörleri oluşturulmuştur. İlk olarak kelime köklerinin ikili, TF, TF-IDF yöntemleri ile elde edilen öznitelik vektörleri üzerinden KTÖS yöntemi uygulanan öznitelik vektörleri birleştirilmiştir. KTÖS yönteminin etkisi test edilmek amacı ile kullanılmıştır. Etkisini kontrol etmek için kelime köklerinden oluşan ikili+CFS, TF+CFS ve TF-IDF+CFS öznitelik vektörleri, 2-gram’dan oluşan ikili+CFS, TF+CFS ve TF-IDF+CFS öznitelik vektörleri ve 3-gram’dan oluşan ikili+CFS, TF+CFS ve TF-IDF+CFS öznitelik vektörlerinin ortalaması alınarak sonuçlar karşılaştırılmıştır. Diğer yöntemde aynı şekilde uygulanmıştır. Aşağıdaki Çizelge 4.13’te ön işleme aşamasından önceki veri kümesinin uygulanması verilmiştir. Çizelge 4.13. Öznitelikler düzeyinde birleştirmede oluşan öznitelik vektörleri (Ön işleme aşamasından önceki hali) Öznitelik vektörleri KNN N.Bayes M.N.Bayes DVM Ort. Kelime kökleri+ CFS+ikili+TF+TF-IDF %97,22 k=1 %94,44 %97,78 %97,78 %96,81 Kelime kökleri+ bilgi kazancı+ikili+TF+TF-IDF %94,44 k=5 %97,22 %99,44 %98,33 %97,36 2-gram+CFS+TF+TFIDF %90 k=1 %89,44 %96,11 %94,44 %92,5 %87,78 k=1 %92,22 %97,78 %95,56 %93,34 %93,33 k=7 %96,11 %98,33 %95,56 %95,83 %84,44 k=1 %96,67 %98,33 %95,56 %93,75 %91,2 %94,35 %97,1 %96,21 2-gram+bilgi kazancı+TF+TFIDF 3-gram+CFS+TF+TFIDF 3-gram+bilgi kazancı+TF+TFIDF Ortalama 62 Öznitelik birleştirme sonucunda ortalama olarak en yüksek başarıya (%97,36) sahip olan kelime köklerinden oluşan bilgi kazancı+ikili+TF+TF-IDF öznitelik vektörüdür. Tekil olarak %99,44 yüksek başarıya sahip olan “kelime kökleri+bilgi kazancı+ikili+TF+TF-IDF” öznitelik vektörüdür. Tahmin edildiği gibi öznitelik vektörlerinin birleştirilmesi sınıflandırıcı sonuçlarını çok fazla etkilemiştir. Çizelge 4.14. Öznitelik seçme sonucunda elde edilen öznitelik vektörlerinin ortalama değerleri (Ön işleme aşamasından önceki hali) Öznitelik vektörleri Kelime kökleri+ CFS+ikili+TF+TF-IDF (ort) Kelime kökleri+ bilgi kazancı+ikili+TF+TF-IDF (ort) 2-gram+CFS+TF+TFIDF (ort) 2-gram+ bilgi kazancı+TF+TFIDF (ort) 3-gram+CFS+TF+TFIDF (ort) 3-gram+ bilgi kazancı+TF+TFIDF (ort) KNN N.Bayes M.N.Bayes DVM %91,48 %94,81 %97,59 %93,33 %86,85 %97,41 %98,7 %92,6 %90,55 %89,44 %95,28 %93,89 %87,75 %91,39 %95,84 %96,11 %93,05 %95,84 %98,33 %96,12 %84,44 %96,67 %98,61 %96,11 Çizelge 4.14’e bakıldığında öznitelik vektörlerinin ortalaması öznitelik birleştirme sonucunda oluşan öznitelik vektörlere göre düşük olduğu görülmüştür. Çizelge 4.15. Öznitelikler düzeyinde birleştirmede oluşan öznitelik vektörleri (Ön işleme aşamasından sonraki hali) Öznitelik vektörleri Kelime kökleri+ CFS+ikili+TF+TF-IDF Kelime kökleri+ bilgi kazancı+ikili+TF+TF-IDF 2-gram+CFS+TF+TFIDF 2-gram+bilgi kazancı+TF+TFIDF 3-gram+CFS+TF+TFIDF 3-gram+bilgi kazancı+TF+TFIDF Ortalama KNN N.Bayes M.N.Bayes DVM Ort. % 97,78 k=7 % 95 % 97,22 % 97,78 %96,95 % 82,22 k=1 % 96,11 % 99,44 % 91,11 %92,22 % 91,11 k=5 % 91,67 % 96,11 % 95 %93,47 % 89,44 k=3 % 88,89 % 97,78 % 96,11 %93,06 % 92,22 k=1 % 94,44 % 98,33 % 98,33 %95,83 % 86,67 k=1 % 96,67 % 98,33 % 96,11 %94,47 %89,91 %93,8 %97,87 %95,74 Ön işleme aşamasından geçirilen veri kümesinin başarısını sınamak amacı ile oluşturulan aşağıdaki Çizelge 4.15’de sonuçlar verilmiştir. Ortalama olarak en yüksek başarıya sahip olan (%96,95) kelime köklerinden oluşan CFS+ikili+TF+TF- 63 IDF öznitelik vektörü olmuştur. Ön işleme aşamasından önceki hali ile sonraki halini karşılaştırdığımızda ön işlemeden sonraki halinde sınıflandırıcıların ortalama başarısı düşmüştür. Sonuç olarak ön işleme aşamasının etkisi olmamış çıkarımı yapılabilmektedir. Çizelge 4.16. Öznitelik seçme sonucunda elde edilen öznitelik vektörlerinin ortalama değerleri (Ön işleme aşamasından sonraki hali) Öznitelik vektörleri Kelime kökleri+ CFS+ikili+TF+TF-IDF (ort) Kelime kökleri+ bilgi kazancı+ikili+TF+TF-IDF (ort) 2-gram+CFS+TF+TFIDF (ort) 2-gram+ bilgi kazancı+TF+TFIDF (ort) 3-gram+CFS+TF+TFIDF (ort) 3-gram+ bilgi kazancı+TF+TFIDF (ort) KNN N.Bayes M.N.Bayes DVM %91,67 %95,37 %97,41 %93,15 %86,48 %96,67 %98,15 %93,33 %89,73 %91,67 %95,28 %93,89 %90 %88,61 %96,11 %96,12 %93,61 %94,72 %95,55 %98,05 % 85,83 %96,67 %98,33 %96,67 Çizelge 4.16’da listelenen öznitelik vektörlerinin ortalaması alınarak sonuçlar Çizelge 4.15 ile karşılaştırıldığında DVM yönteminde çoğunlukla düşük başarıya sahip olduğu görülmüştür. Diğer yöntemlerde ise yükseliş olmuştur. Genel olarak bakıldığında öznitelik vektörlerini birleştirdikten sonraki sonuçlar daha iyi olmuştur. Öznitelikler düzeyinde birleştirme yaptıktan sonra daha iyi sonuçlar alığımız yukarıdaki tablolardan görmekteyiz. Çizelge 4.13’de yer alan “kelime kökleri+bilgi kazancı+ikili+TF+TF-IDF” öznitelik vektörü en yüksek başarıyı (%99,44) Multinominal Naive Bayes algoritması ile elde edilmiş ve aşağıda hata matrisi (Confusion Matrix) gözterilmektedir. 64 Şekil 4.2. Kelime kökleri+bilgi kazancı+ikili+TF+TF-IDF öznitelik vektörü hata matrisi (Multinominal Naive Bayes için) Bu matrisin sütunları, terimin hangi dokümana ait olabileceğinin tahmininin yapıldığı sınıfları, satırları ise gerçekte o terimin ait olduğu sınıfları yani dokümanları göstermektedir. Bu matrisin sınıflandırma başarısı yüksek olduğu için tahmin edilen sınıflar arasında daha fazla netlik olduğunu görmekteyiz. Hata matrisinin son satırına baktığımızda bir adedinin c sınıfına yani Kablosuz Ağlar’a ait olabileceği tahminler yapılmıştır. Bunun sebebini açıklarsak Uzaktan Eğitim ve Kablosuz Ağlar’ın bir birine yakın sınıflar olduğu söylenebilmektedir. Aynı öznitelik vektörünün DVM algoritması ile elde edilen yüksek başarısı %98,33 olmuştur ve hata matrisi diğer örnek ile farkı olup olmadığı için verilmektedir. Şekil 4.3. Kelime kökleri+bilgi kazancı+ikili+TF+TF-IDF öznitelik vektörü hata matrisi (DVM için) Şekil 4.3.’teki hata matrisine bakıldığında da sınıflar arasında netlik olduğunu görmekteyiz. Fakat ilk satıra baktığımızda bir adedi f sınıfına ve son satırındaki iki adedi c sınıfına ait olarak tahmin edilmiştir. Anlamsal Ağlar, Kablosuz Ağlar ve 65 Uzaktan Eğitim sınıfları arasında ortak terimler kullanma ihtimali çok olduğu için böyle bir sonuçlar alınmıştır. Şekil 4.3’e göre Şekil 4.2 ile daha doğru tahminler elde edilmiştir. 4.6. Sınıflandırıcı Düzeyinde Birleştirmede Oluşan Öznitelik Vektörlerinden Elde Edilen Sonuçlar Öznitelik vektörlerinin sınıflandırıcı düzeyinde birleştirilmesinin avantajları bulunmaktadır. Bu tekniklerin, tekil sınıflandırıcıların aksine sınıflandırma görevlerinde hata oranını düşürdükleri gösterilmiştir. Ayrıca son kararın verilmesi için farklı tekniklerin bir arada kullanımı da, her bir farklı sınıflandırıcının belirli veri setlerinde yaşayabileceği zorluklar karşısından sistemin performansını daha güçlü kılmaktadır [69]. Farklı veriler üzerinde uygulanan farklı yöntemler farklı hatalara neden olmaktadır ve kullanılan yöntemlerin tümünün iyi bir performans gösterdiği varsayıldığında, çok sayıda yöntemin kullanılması genel sınıflandırma hatasını düşürmekte ve buna bağlı olarak da doğru çıktıları vurgulamaktadır [70]. Bu işlemi gerçekleştirmek için Weka aracındaki “Classify” sekmesinden yer alan “Classifier” bölümündeki Meta=>Vote alt bölümü seçilerek çalışma boyunca kullandığımız 4 adet sınıflandırıcılar eklenmiştir. Aşağıdaki çizelgede çalışma boyunca elde edilen öznitelik vektörlerinin (21 çeşitli öznitelik vektörü) üzerinde kullandığımız 4 adet sınıflandırıcının birleştirilmesi ile elde edilen sonuçlar verilmiştir. Her sınıflandırıcı en yüksek oy olasılığına sahip örnek ve etiketi sınıflandırır. Eğer birden fazla etiket aynı olasılığa sahipse o zaman tüm etiketlere oylama yapılmaktadır. Tüm sınıflandırıcılar oylama yaptıktan sonra, en çok oya sahip olan etiket test örneği için etiket olarak seçilir. Birden fazla etiketi aynı miktardaki oy alırsa, o zaman bu etiketlerden biri rastgele seçilir. Orijinal veri kümesi ile indirgenmiş veri kümesi arasında çok fazla fark olduğu görülmemiş buna rağmen ön işleme uygulanan veri kümesi başarılı olmuştur. 66 Sonuçlara genel olarak bakılacak olursa sınıflandırma performansının yükseldiğini söyleyebiliriz. Çizelge 4.17. Sınıflandırıcı düzeyinde birleştirmede oluşan öznitelik vektörleri Ön işleme uygulamadan önceki hali (original veri kümesi) %97,27 Öznitelik vektörleri Kelime kökleri+TF Kelime kökleri +TF+CFS Ön işleme uygulamadan sonraki hali (indirgenmiş veri kümesi) %97,22 %96 %97,78 Kelime kökleri +TF+bilgi kazancı %96,11 %94,44 Kelime kökleri +TF-IDF %97,22 %97,78 %95 %94,44 %96,67 %97,22 %95,56 %96,67 Kelime kökleri +ikili+CFS %97,78 %98,33 Kelime kökleri +ikili+bilgi kazancı %97,78 %98,33 2gram+TF %94,44 %96,67 2gram+TF+CFS %96,11 %93,89 2gram+TF+bilgi kazancı %96,67 %97,22 2gram+TF-IDF %89,44 %93,89 2gram+TF-IDF+CFS %96,11 %95,56 2gram+TF-IDF+bilgi kazancı %95,56 %96,11 3gram+TF %95,56 %97,78 3gram+TF+CFS %98,33 %97,78 3gram+TF+bilgi kazancı %98,33 %98,33 3gram+TF-IDF %96,11 %97,22 3gram+TF-IDF+CFS %97,78 %97,78 3gram+TF-IDF+bilgi kazancı %98,33 %97,78 96,29 96,77 Kelime kökleri +TF-IDF+CFS Kelime kökleri +TF-IDF+ kazancı Kelime kökleri +ikili Ortalama bilgi 67 4.7. 1150 Haberler Veri Kümesi İle Karşılaştırma Bu çalışma sonucunda elde edilen sonuçların etkinliğini kontrol etmek amacıyla Amasyalı’nın çalışmasında kullanılan gazetelerdeki haber sayfalarında toplanmış 1150 haber metninden oluşan veri küme ile karşılaştırılmıştır [8]. Tüm değerler için eğitim ve test verilerini ayırmada 5 defa çapraz doğrulama kullanılmıştır. Üretilen arff’lerin öznitelik sayısı 5000’den fazla olanların zaman ve hafıza problemlerinden dolayı öznitelikler önce bilgi kazancı yöntemine göre sıralanmış daha sonra en yüksek bilgi kazancına sahip 100 öznitelik seçilmiştir. Aşağıdaki çizelgede bir haber metninin konusunu tahmin etme problemi üzerinde yapılan denemeler verilmiştir. Haberin türünü tahmin etmede en başarılı metin temsil yönteminin 2-gram ve kelime kökleri ile TF yöntemini metindeki toplam kelime sayısıyla normalize edilerek ağırlıklandırılan öznitelik vektörü olduğu görülmüştür. 68 Çizelge 4.18. 1150 haberler veri kümesinde her bir öznitelik grubunun en başarılı olduğu sonuçlar [8] Öznitelik Grubu Konfigü rasyon Öznitelik Sayısı Başarı Yüzdesi Sınıflan dırıcı Karakter 2-gram N1 3698 94,54 SVM Kelime kökleri N1 864 92,63 RF Kavram genelleştirme özel isim tabanlı Kavram genelleştirme isim tabanlı Log 719 91,13 RF N1 724 90,85 RF Karakter 3-gram N1 101 90,47 RF 51 89,84 RF Snf 6 87,51 RF Snf 6 87,25 RF mTFIDF 47 81,63 RF 11 73,48 RF mTFIDF 51 73,44 RF Log 120 68,02 SVM TFIDF 101 65,84 RF N1 534 62,61 RF 20 57,08 RF Birlikte geçme matrisi tabanlı anlamsal uzay Kmeans ile kelime kümeleme Hiyerarşik kelime kümeleme (en uzak elemanlarına göre) SOM ile kelime kümeleme Saklı Anlam İndeksleme Hiyerarşik kelime kümeleme (ortalamaya göre) Kelime ekleri Kelime 2 gramları Fonksiyonel kelimeler Sayılar Özellik Grubu Kelime türleri Log 16 56,21 SVM Hiyerarşik kelime kümeleme (en yakın elemanlarına göre) Co 51 47,06 C45 Bu çalışmada kullanılan metin işleme yöntemlerinin aşamalarını 1150 haber veri kümesine uygulanmıştır ve aşağıdaki çizelgede bu sonuçlar listelenmiştir. Ortalama olarak en başarılı sonucu %86,14 yüzdesi ile “3gram+TF-IDF+CFS” öznitelik vektörü ile oluşturmuştur. Tekil olarak en başarılı sonucu %96,95 yüzdesi 69 ile “3-gram’dan oluşan TF-IDF” ağırlıklandırma yöntemi ile elde edilen ve bilgi kazancı öznitelik seçme yöntemi uygulanan öznitelik vektörü olmuştur. Orijinal veri kümesi ve indirgenmiş veri kümesi için de Multinominal Naive Bayes yöntemi en başarılı sınıflandırma yöntemi olmuştur. Ön işleme aşamasının etkinliğine bakıldığında K-NN yönteminin dışında diğer sınıflandırma yöntemlerinde yükseliş görülmektedir. Çizelge 4.19. 1150 haberinden oluşan veri kümesinden elde edilen sonuçlar (% olarak verilmiştir) Öznitelik vektörleri Kelime kökü+ikili Kelime kökü+TF Kelime kökü +TF-IDF 2-gram+TF 2-gram+ TFIDF 3-gram+TF 3-gram+TF-IDF Kelime kökü +ikili+CFS Kelime kökü +TF+CFS Kelime kökü +TF-IDF+CFS 2gram+TF+CFS 2gram+TF-IDF+CFS 3gram+TF+CFS 3gram+TF-IDF+CFS Kelime kökü +ikili+ bilgi kazancı Kelime kökü +TF+bilgi kazancı Kelime kökü +TF-IDF + bilgi kazancı 2gram+TF+bilgi kazancı 2gram+TF-IDF+bilgi kazancı 3gram+TF+ bilgi kazancı 3gram+TF-IDF+ bilgi kazancı Ortalama KNN 46,29 k=3 32,43 k=1 32,43 k=1 60,17 k=1 60,17 k=1 41,21 k=1 41,21 k=1 76,86 k=1 72,95 k=1 32,43 k=1 70,34 k=7 70,34 k=7 80,52 k=5 80,52 k=5 55,56 k=1 62,34 k=1 62,34 k=1 67,47 k=1 67,56 k=1 62,95 k=1 62,95 k=1 61,04 N.Bayes 44,26 k=1 33,39 k=1 33,39 k=1 65,04 k=7 64,78 k=7 51,04 k=1 51,04 k=1 80,17 k=1 75,39 k=3 33,39 k=1 70,09 k=3 70,09 k=3 81,65 k=3 81,65 k=3 53,91 k=1 60,60 k=1 60,60 k=1 68,34 k=1 68,52 k=1 66,52 k=1 66,52 k=1 62,97 M.N.Bayes DVM Ort. 87,47 89,21 92,78 92,52 87,56 87,73 78,48 78,86 80,09 93,04 92,95 85,21 83,13 72,39 78,69 79,91 91,73 91,65 85,30 83,13 72,03 68,43 61,39 92,86 91,39 86,95 86,52 76,6 68,34 61,39 90,34 86,09 87,13 86,43 75,58 82,26 79,73 95,47 94,26 90,86 90,34 78,15 82,34 79,65 95,65 92,78 90,86 90,34 77,98 85,73 86,26 82,69 83,21 83,30 84,09 82,79 77,47 78,09 84,26 83,3 75,13 74 77,57 77,56 78,17 84,09 83,13 75,04 74,09 67,24 70,78 64,95 77,65 78,34 68,86 72,09 71,64 70,78 65,04 78,95 73,56 68,86 72,09 71,21 84,52 82 91,30 92,62 87,65 87,82 86,01 84,52 82 92,6 92,43 87,73 87,65 86,14 89,73 89,73 93,3 93,21 88 87,03 81,31 82,52 82,6 93,3 93,73 88,17 87,65 81,36 82,26 83,24 93,91 94,17 88,09 87,65 81,53 68,78 61,65 92,52 90,34 89,04 85,91 78,01 68,86 61,56 89,91 86,34 89,04 85,85 77,21 85,21 82,95 95,73 94,86 93,47 91,73 84,18 85,13 82,95 96,95 94,69 93,47 91,73 84,3 79,11 76,79 90,43 89,31 85,22 85,11 70 5. SONUÇ Bu çalışmanın temel amacı çeşitli metin işleme yöntemlerini uygulayarak en başarılı metin işleme yöntemlerini belirlemektir. Bu çalışmada altı sınıfı içeren 180 adet bilimsel makalelerden oluşan Türkçe veri kütüphanesi oluşturulmuştur. Bunun için deneysel çalışmalar sonucunda en uygun metin işleme yöntemi seçilmeye çalışılmıştır. Metin sınıflandırma süreçleri teker teker ele alınmış ve onun önemli aşaması olan öznitelik seçmenin amacı, avantajları ve türlerinden bahsedilmiştir. Kullanılan öznitelik seçme yöntemleri üzerinde durulmuş ve onların üzerinde literatür taraması yapılmıştır. Yapılan araştırmalar ve edinilen bilgiler doğrultusunda metin sınıflandırmada öznitelik seçme yönteminin önemli olduğu görünmüştür. Oluşturduğumuz veri kümesi üzerinde metin işleme yöntemleri aşamalı olarak uygulanmıştır. Ön işleme aşaması Matlab programı ile gerçekleştirilmiştir. Öznitelik vektörlerini elde etmek için text2arff yazılımı kullanılmıştır. Öznitelik seçme ve sınıflandırma yöntemleri Weka yazılımında uygulanmıştır. Ön işleme aşamasını kontrol etmek amacı ile oluşturduğumuz veri kümesi iki durum için kullanılmıştır. Bunlar 1) ön işleme uygulamadan önceki ve 2) ön işleme uygulandıktan sonraki veri halidir. Böylece ön işleme aşaması uygulandıktan sonra sınıflandırma başarısında bir artış olup olmadığı araştırılmıştır. Bu çalışmada kelimeler doğrudan alınarak kelime kökleri ile birlikte karakter 2-gram ve 3-gram yöntemi kullanılmıştır. Bahsettiğimiz yöntemlerden elde ettiğimiz verileri sayısallaştırmak için vektör uzayı modelinin TF, ikili ve en yaygın olarak kullanılan TF-IDF ağırlıklandırma yöntemleri uygulanmıştır. Kelime köklerine göre elde ettiğimiz öznitelik vektörleri ön işleme aşamasından önce ve ön işleme aşamasından sonra en iyi sonucu ikili ağırlıklandırma yöntemi 71 vermiştir. Ön işleme aşamasından önce ikili ağırlıklandırma yöntemin kullanılarak tüm sınıflandırıcılar içinde ortalama olarak elde ettiğimiz başarılı sonuç %91,66 olmuş, ön işleme aşamasından sonra ortalama olarak elde ettiğimiz sonuç %92,36 olmuştur. Sadece DVM yöntemi ile ön işleme aşamasından sonra artış görünmüştür. Kelime kökleri oluşturmada ön işleme aşamasının etkili olduğu kanıtlanmıştır. Karakter 2-gram ve 3-gram’a göre tüm sınıflandırıcılar için (K-NN, Naive Bayes, Multinominal Naive Bayes ve DVM) ön işleme aşamasından önce ve ön işleme aşamasından sonraki sonuçlar karşılaştırılmış ve ön işleme aşamasından sonra başarı yüzdesinin arttığı gözlenmiştir. 2-gram için ön işleme aşamasından önce TF ağırlıklandırma yönteminin kullanılarak tüm sınıflandırıcılar içinde ortalama olarak elde ettiğimiz başarılı sonuç %80,83 olmuş, ön işleme aşamasından sonra ortalama olarak elde ettiğimiz sonuç %88,61 olmuştur. 3-gram için ön işleme aşamasından önce TF ağırlıklandırma yöntemin kullanılarak tüm sınıflandırıcılar içinde ortalama olarak elde ettiğimiz başarılı sonuç %82,64 olmuş, ön işleme aşamasından sonra ortalama olarak elde ettiğimiz sonuç %88,47 olmuştur. 2-gram ve 3-gram oluşturmada ön işleme aşamasının etkili olduğu kanıtlanmıştır. Nitelikli öznitelikler ile sınıflandırma yapmak amacı ile öznitelik vektörlerine KTÖS ve bilgi kazancı öznitelik seçme yöntemi uygulanması ile yeni öznitelik vektörleri elde edilmiştir. En yüksek başarı kelime “kökleri+ikili+CFS” öznitelik seçme ile sağlanmıştır. Ön işleme aşamasından önce tüm sınıflandırıcılar için ortalama olarak elde ettiğimiz sonuç ortalaması %90,87 bulunmuş, ön işleme aşamasından sonra ortalama olarak elde ettiğimiz sonuç %97,76 olarak bulunmuştur. Yüksek başarı gösteren yöntemin K-NN ve Multinominal Naive Bayes yöntemleri olduğu görülmüştür. Bilgi kazancı yöntemi ile en yüksek başarı kelime “kökleri+ikili+bilgi kazancı” öznitelik seçme yöntemi ile olmuş, ön işleme aşamasından önce tüm sınıflandırıcılar içinde ortalama olarak elde ettiğimiz sonuç ortalaması %97,09 bulunmuş, ön işleme aşamasından sonra ortalama olarak elde ettiğimiz sonuç %97,36 olmuştur. Yüksek 72 başarı gösteren Multinominal Naive Bayes yöntemi olmuştur. KTÖS yöntemlerini birlikte Bilgi kazancı ve kullandığımızda ön işleme aşamasından sonraki yüzdelerin arttığını görmekteyiz, buna bağlı olarak ön işleme aşamasının uygulanması etkili olduğu söylenebilmektedir. Kullandığımız 2 adet öznitelik seçme yöntemi ile oluşturulan öznitelik vektörlerinin farklı ağrlıklandırma yöntemleri ile birleşmesi sonucu başarının artabileceği düşüncesinden yola çıkılarak yeni öznitelik vektörleri oluşturulmuştur. Öznitelikler düzeyinde birleştirme etkisini kontrol etmek için kelime köklerinden oluşan ikili+CFS, TF+CFS ve TF-IDF+CFS öznitelik vektörleri, 2-gram’dan oluşan ikili+CFS, TF+CFS ve TF-IDF+CFS öznitelik vektörleri ve 3- gram’dan oluşan ikili+CFS, TF+CFS ve TF-IDF+CFS öznitelik vektörlerinin ortalaması alınarak sonuçlar karşılaştırılmıştır. Diğer yöntem için aynı işlemler uygulanmıştır. Sonuçlara bakılırsa öznitelik vektörlerinin ortalaması ile elde edilen başarı yüzdesi %98,7 iken birleştirme sonrası başarı yüzdesi %99,44 olmuştur. Birleştirme sonucunda en başarılı ortalama yüzdesi %97,36 olan “kelime kökleri+ikili+TF+TF-IDF+bilgi kazancı” öznitelik vektörü ile elde edilmiştir. Ön işleme aşaması uygulandıktan sonraki sonuçlara bakılacak olursa öznitelik vektörlerinin ortalaması ile elde edilen başarı yüzdesi %98,15 iken birleştirme sonrasında başarı yüzdesi %99,44 olmuştur. Birleştirme sonucunda en başarılı ortalama yüzdesi %96,95 olan “kelime kökleri+ikili+TF+TF-IDF+CFS” öznitelik vektörü ile elde edilmiştir. Sınıflandırma yöntemleri düzeyinde birleştirme sonuçlarına bakıldığında orijinal veri kümesi ile indirgenmiş veri kümesi arasında çok fazla fark olduğu görülmez iken, ön işleme uygulanan veri kümesinde başarılı olunmuştur. Sonuçlara genel olarak bakılacak olursa sınıflandırma performansının yükseldiği söylenebilir. 1150 haberden oluşan veri kümesinde ortalama olarak en başarılı sonuç %86,14 yüzdesi ile “3gram+TF-IDF+CFS” öznitelik vektöründen elde edilmiştir. Orijinal veri kümesi ve indirgenmiş veri kümesi için de Multinominal Naive Bayes yöntemi en başarılı sınıflandırma yöntemi olmuştur. Ön işleme aşamasının etkinliğine 73 bakıldığında K-NN yönteminin dışında diğer sınıflandırma yöntemlerinde yükseliş görülmemiştir. Amasyalı’nın gerçekleştirdiği çalışmada [8] en başarılı tekil öznitelik %94,54 oranı ile 2-gram yöntemini metindeki toplam kelime sayısıyla normalize ederek ağırlıklandırılan öznitelik vektörü olduğu gösterilmiştir. En başarılı sonuç tekil özniteliklere bakıldığında %96,95 oranı ile “3gram+TF-IDF+bilgi kazancı” öznitelik vektörü ile elde edilmiştir. Bu çalışmada oluşturulan veri kümesi ile karşılaştırırsak “kelime kökler+ikili+CFS” öznitelik vektörü %97,76 ortalama yüzdesi ile en başarılı öznitelik yöntemi olduğu görülmüştür. Bu sonuçlara bakılarak bizim çalışmamızda kullanılan metin işleme yöntemlerinin daha başarılı olduğu söylenebilir. Öznitelik alanının azaltılması çoğu sınıflandırıcının sınıflandırma kesinliğini kayda değer miktarda etkilemiş ve programın çalışma süresini kısaltmıştır. Bu çalışmada kelime kökleri için en başarılı ağırlıklandırma yöntemi ikili yöntemi olmuştur. 2-gram ve 3-gram’larda TF yöntemi başarılı sonuçlar vermiştir. Aslında TF-IDF yöntemi TF’e göre başarılı yöntemdir. Ama bizim çalışmamızda TF-IDF yöntemi TF’e göre başarısız olmuştur. TF-IDF yönteminin amacı çok kullanılan (durak kelimelerin) değerlerini 0’a yaklaştırmaktır ve yüksek bir başarıya sahip olmasını sağlamaktır. Ama çalışmamızda en iyi sonucu TF-IDF yerine ikili vermiştir, bunun nedeni veri kümesi alanının geniş olmasıdır. En başarılı ve hızlı çalışan sınıflandırma yöntemi Mutinominal Naive Bayes yöntemi olmuştur. İkinci sırada başarı gösteren DVM yöntemi ile çoğunlukla sabit sonuçlar alınmıştır. Öznitelik seçme ve sınıflandırma yöntemine göre birleştirilen öznitelik vektörlerinin daha başarılı sonuçlar verdiği gözlenmiştir. Ön işleme aşamasından geçirilen veriler her denemede yüksek başarı göstermemiştir, bunun nedeni veri kümesi alanının çok geniş olmasıdır. Gereksiz kelimelerin çıkartılmasının sınıflandırıcıların kesinliklerini çok etkilemediği, fakat öznitelik alanını azalttığı görülmüştür. 74 KAYNAKLAR 1. Khan, A., Bahurdin, B.B., Khan, K., ”An Overview of E-Documents Classification”, 2009 International Conference on Machine Learning and Computing IPCSIT, 3, (2011). 2. İnternet: ASB Uluslararası Bilgilendirme Kalite Çözüm Merkezi, ”Doküman nedir?” http://www.asbcert.com/iso.php?kalite=dokumannedir (2012). 3. Yılmaz, R., Aşlıyan, R., Günel, K., “Otomatik Doküman Sınıflandırma”, Akademik Bilişim'12, (2012). 4. Mahinovs, A., Tiwari, A., “Text Classification Method Review”, Decision Engineering Report Series, Cranfield University, (2007). 5. Khan, A., Bahurdin, B.B., Khan, K., Lee, L.H., “A Review of Machine Learning Algorithms for Text-Documents Classification”, Journal of Advances in Information Technology, 1(1): 4-20, (2010). 6. Uguz, H., “A two-stage feature selection method for text categorization by using information gain, principal component analysis and genetic algorithm”, Knowledge-Based Systems, 24: 1024–1032, (2011). 7. Srividhya, V., Anitha, R., “Evaluating Preprocessing Techniques in Text Categorization”, International Journal of Computer Science and Application Issue, (2010). 8. Amasyalı, M.F., Balcı, S., Varlı, E.N., Mete, E., “Türkçe Metinlerin Sınıflandırılmasında Metin Temsil Yöntemlerinin Performans Karşılaştırılması”, EMO Bilimsel Dergi, 2(4): 95-104, (2012). 9. Amasyalı, M.F., Beken, A., “Türkçe Kelimelerin Anlamsal Benzerliklerinin Ölçülmesi ve Metin Sınıflandırmada Kullanılması”, SIU, Antalya, (2009). 10. Korde, V., “Text Classification and Classifiers: A Survey”, International Journal of Artificial Intelligence& Applications (IJAIA), 3(2): 85, (2012). 11. Katharina, M.,Martin, S., “The Mining Mart Approach to Knowledge Discovery in Databases”, Intelligent Technologies for Information Analysis, Springer, 4765, (2004). 12. Sebastiani, F., “Machine Learning in Automated Text Categorization”, ACM Computing Surveys, 34(1): 1–47, (2002). 13. Biricik, G., “Metin Sınıflama İçin Yeni Bir Özellik Çıkarım Yöntemi”, Doktora Tezi, Yıldız Teknik Üniversitesi, Fen Bilimleri Enst., İstanbul, (2011). 75 14. Yıldız, H.K., Gençta, M., Usta, N., Diri, B., Amasyalı, M.F., “Metin Sınıflandırmada Yeni Özellik Çıkarımı", IEEE 15th Signal Processing and Communication Applications Conference, Eskişehir, (2007). 15. Amasyalı, M.F., Yildirim, T., “Automatic Text Categorization of News Articles”, Signal Processing and Communications Applications Conference IEEE, 0-7803-83, 224-226 (2004). 16. Doğan, S., Diri, B., “Türkçe Dokümanlar için N-Gram Tabanlı Sınıflandırma: Yazar, Tür ve Cinsiyet”, Yüksek Lisans Tezi, Yıldız Teknik Üniversitesi Fen Bilimler Enst., İstanbul (2006). 17. Pilavcılar, İ.F., “Metin Madenciliği ile Metin Sınıflandırma”, Yüksek Lisans Tezi, Yıldız Teknik Üniversitesi Fen Bilimler Enst., İstanbul (2007). 18. Kesgin, F., “Türkçe Metinler için Konu Belirleme Sistemi”, Yüksek Lisans Tezi, İstanbul Teknik Üniversitesi Fen Bilimler Enst., İstanbul (2007). 19. Takcı, H., “Karakter Tabanlı Doküman Dili Tanıma Sistemi Tasarımı”, Doktora Tezi, Gebze Yüksek Teknoloji Enstitüsü Mühendislik ve Fen Bilimleri Enst., Gebze (2005). 20. Salton, G., Wong, A., Yang, C.S., “A Vector Space Model for Automatic Indexing,” Communications of the ACM, 18(11): 613-620 (1975). 21. Rigutini, L., “Automatic Text Processing: Machine Learning Techniques”, Universit`a Degli Studi Di Siena Facolt`a Di Ingegneria, Anno Accademico, (2003–2004). 22. Liu, M., Yang, J., “An improvement of TFIDF weighting in text categorization” 2012 International Conference on Computer Technology and Science, (2012). 23. Adsız, A., “Metin Madenciliği”, Dönem Projesi, A.Yesevi Üniversitesi Bilişim Sistemleri ve Mühendislik Fakültesi, Ankara (2006). 24. Lahtinen, T., “Automatic indexing: an approach using an index term corpus and combining linguistic and statistical methods”, University of Helsinki Faculty of Arts, (2000). 25. Liao, C., Alpha, S., Dixon, P., “Feature Preparation in Text Categorization”, Aritificial Intelligence White Papers, Oracle Corporation, (1997). 26. Ladha, L., Deepa, T., “Feature Selection Methods and Algorithms”, International Journal on Computer Science and Engineering (IJCSE), 3(5): (2011). 76 27. Tan, F., “Improving Feature Selection Techniques for Machine Learning”, Degree of Doctor of Philosophy, Georgia Stage University College of Arts and Sciences, (2007). 28. Hall, M. A., “Correlation-based Feature Selection for Machine Learning”, Degree of Doctor of Philosophy, University of Waikato Department of Computer Science, (1999). 29. John, G. H., Kohavi, R.Pfleger, K., “Irrelevant Features and the Subset Selection Problem”, Proceedings of the 11th International Conference on Machine Learning, San Francisco, 121–129 (1994). 30. Guyon, I., Elisseeff, A., “An Introduction to Variable and Feature Selection”, Journal of Machine Learning Research, 3:1157-1182 (2003). 31. Uysal, A.K., Günal, S., “A novel probabilistic feature selection method for text classification”, Knowledge-Based Systems, 36: 226–235 (2012). 32. Seo, M., Oh, S., “CBFS: High Performance Feature Selection Algorithm Based on Feature Clearness”, PLoS ONE 7(7): e40419, (2012). 33. Goodarzi, M., Dejaegher, B., Heyden, Y.V,” Feature Selection Methods in QSAR Studies”, Journal of AOA C International, 95(3): (2012). 34. Unsalan, C., Ercil, A., “Comparation of feature selection algorithms a new performance criteria for feature selection”, Procedings of IEEE SIU’98, Turkey, (1998). 35. Yang, Y., Pedersen, J.O., “A comparative study on feature selection in text categorization”, Proceedings of the 14th International Conference on Machine Learning, 412–420 (1997). 36. Largeron, C., Moulin, C., Géry, M., “Entropy based feature selection for text categorization”, ACM Symposium on Applied Computing, Taiwan, Province Of China, version 1-31, (2011). 37. Rogati, M., Yang, Y., “High-Performing Feature Selection for Text Classification”, CIKM’02, 4–9, USA, (2002). 38. Fragoudis, D., Meretakis, D., Likothanassis, S., “Best terms: an efficient featureselection algorithm for text categorization”, Knowledge and Information Systems, Springer-Verlag, (2005). 39. Chen, J., Huang, H., Tian, S., Qua, Y.,“Feature selection for text classification with Naive Bayes”, Expert Systems with Applications, 36: 5432–5435 (2009). 40. Xu, Y., “A Data-drive Feature Selection Method in Text Categorization”, Journal of Software, 6(4): 620-627, (2011). 77 41. Ali, U., Venkatesweran, J., “An Evident Theoretic Feature Selection Approach for Text Categorization”, International Journal on Computer Science and Engineering (IJCSE), 4(06): 1193-1198, (2012). 42. Wang, S., Li, D., Song, X., Wei, Y., Li, H., “A feature selection method based on improved fisher’s discriminant ratio for text sentiment classification”, Expert Systems with Applications, 38: 8696–8702 (2011). 43. Alibeigi, M., Hashemi, S., Hamzeh, A., “Unsupervised Feature Selection Using Feature Density Functions”, International Journal of Electrical and Electronics Engineering, 3:7, (2009). 44. Yong, Y., Jian, X.H., Hua, D.X., Xiao, L., “Comparative Study on Feature Selection in Uighur Text Categorization”, Advances in information Sciences and Service Sciences(AISS), 4(3): (2012). 45. Soucy, P., Mineau, G.W., "A simple K-NN algorithm for text categorization", Proceeding of the first IEEE international conference on data mining (ICDM_01), 28: 647–648 (2001). 46. Niharika, S., Latha, V.S., Lavanya, D.R., “A Survey on Text Categorization”, International Journal of Computer Trends and Technology, 3, (2012). 47. İnternet: Wikipedia, The free encyclopedia, “Document Classification” http://en.wikipedia.org/wiki/Document_classification (2013). 48. Cachopo, A.C., Oliveira, A.L., “Combining LSI with other Classifiers to Improve Accuracy of Single – label Text Categorization”, INESC-ID Technical Report, 1-2, (2007). 49. Van Rijsbergen, C.J., “Information Retrieval ", Book Information Retrieval 2nd, London, 208, (1979). 50. İnternet: Distributed Conscience, “Usefulness of Confusion Matrices” http://khartig.wordpress.com/tag/f-measure/ (2013). 51. Amasyalı, M.F., Davletov, F., Torayew, A., Çiftçi, Ü., “text2arff: Türkçe Metinler İçin Özellik Çıkarım Yazılımı”, SIU, Diyarbakır (2010). 52. İnternet: Zemberek, Zemberek Doğal http://code.google.com/p/zemberek/ (2013). Dil İşleme, “Zemberek” 53. Pilászy, I., “Text Categorization and Support Vector Machines”, Budapest University of Technology and Economics Department of Measurement and Information Systems, (2005). 78 54. Witten, I. H., Frank, E., “Data Mining Practical Machine Learning Tools and Techniques”, Second Edition, Morgan Kaufmann Publishers is an imprint of Elsevier, San Francisco, 144-149, 420-423 (2005). 55. Gürcan, F., “Web İçerik Madenciliği Ve Konu Sınıflandırılması”, Yüksek Lisans Tezi, Karadeniz Teknik Üniversitesi Fen Bilimler Enst., Trabzon (2009). 56. Yang, J., Liu, Y., Zhu, X., Liu, Z., Zhang, X.,” A new feature selection based on comprehensive measurement both in inter-category and intra-category for text categorization”, Information Processing and Management, 48: 741–754 (2012). 57. Çatak, F.Ö., “Korelasyon Tabanlı Nitelik Seçimi”, Doktora Programı, İstanbul Üniversitesi Fen Bilimler Enst., İstanbul (2011). 58. Kim, S.B., Rim, H.C., Yook, D., Lim, H.S., "Effective methods for improving Naive Bayes text classifiers", The 7th Pacific rim international conference on artificial intelligence, 414–423, (2002). 59. Wu, M.C., Lin, S.Y., Lin, C.H., "An effective application of decision tree to stock trading", Expert Syst Appl, 31(2): 270–274, (2006). 60. Aşlıyan, R., Günel, K., “Metin İçerikli Türkçe Dokümanların Sınıflandırılması”, Akademik Bilişim’10 - XII. Akademik Bilişim Konferansı Bildirileri, Muğla Üniversitesi, (2010). 61. Yang, Y., Liu, X., "A re-examination of text categorization methods", Proceedings of SIGIR’99, 42–49, (1999). 62. Colas, F., Brazdil, P., “Comparison of SVM and Some OlderClassification algorithms in Text Classification Tasks” ,IFIP International Federation for Information Processing, Springer Boston Vol 217, Artificial Intelligence in Theory and Practice, 169-178, (2006). 63. Güner, E.S., ”Türkçe için Derlem Tabanlı Bir Anafor Çözümleme Çalışması”, Yüksek Lisans Tezi, Trakya Üniversitesi Fen Bilimler Ent., Edirne (2008). 64. Gupta, N.V., “Recent Trends in Text Classification Techniques”, International Journal of Computer Applications (0975 – 8887),35(6), (2011). 65. Güran, A., Akyokuş, S., Bayazıt, N.G., Gürbüz, M.Z., “Turkish Text Categorization Using N-Gram Words”, International Symposium on Innovations in Intelligent Systems and Applicaitons, 978-1-905824-34-2: 1-11, Trabzon (2009) 66. Kumar, M.A., Gopal, M., “Least squares twin support vector machines for pattern classification”, Expert Systems with Applications, 36: 7535-7543 (2009). 79 67. İnternet: Bilgisayar Kavramları, “WEKA ile SVM” http://www.bilgisayarkavramlari.com/2011/09/19/weka-ile-svm/ (2013). 68. Kirkby,R., Frank,E., Reutemann,P., “WEKA Explorer User Guide for Version 3-5-5”, University of Waikato, (2007). 69. Moreno-Seco, F., I˜nesta, J.M., Ponce de Le´on, P.J., Mic´o, L., “Comparison of classifier fusion methods for classification in pattern recognition tasks”, IAPR international conference on Structural, Syntactic, and Statistical Pattern Recognition, 705-713 (2006) 70. Ruta, D., Gabrys, B., “An Overview of Classifier Fusion Methods”, Computing and Information Systems, 7: 1-10, (2000). 80 EKLER 81 EK – 1 Çalışmada kullanılan Türkçe durak kelimeleri ama buna değil henüz neden tek ancak birinci dolayı hiç o tüm ayrıca belli dört hiçbir on üç aksine birer en idi ona yirmi bağlı birebir evet iki onu yok başka birlikte eğer ila onun var bazen belirli fakat ikinci oysa ve bazı beri gibi ile önce veya ben bin göre ise sonra ya beraber biraz gerek ilk peki yada bile boyunca hala için pek yani bir çok hangi kadar sadece yine birer da hani kendi sen yoksa biraz dair hatta ki siz zira birebir dahi hem kim son zaten biri dahil hep kimse sonra vb birçok daha hepsi mi şu vs birisi diye her mı ta vd biz diğer herbir mu tam bu de herhangi nasıl tabi bura defa hemen ne tamam 82 ÖZGEÇMİŞ Kişisel Bilgiler Soyadı, adı : KALİYEVA, Samal Uyruğu : Kazakistan Doğum tarihi ve yeri : 25.02.1989, Türkistan Medeni hali : Bekar Telefon : 0 (507) 809 12 99 e-mail : samalita@mail.ru Eğitim Derece Eğitim Birimi Yüksek lisans Gazi Üniversitesi / Mezuniyet tarihi Bilgisayar Mühendisliği Lisans A.Yesevi Üniversitesi / 2010 Bilişim Sistemleri Lise Üstün Yetenekli Çocuklar için “Darın” okulu Yabancı Dil Kazakça (ana dil) Rusça İngilizce (temel) Türkçe Hobiler Bilgisayar teknolojileri, Yüzme, Örme 2006