DOKTORA TEZ - Hacettepe Üniversitesi

advertisement
EGE ÜN VERS TES FEN B L MLER ENST TÜSÜ
(DOKTORA TEZ )
TÜRKÇE Ç N STAT ST KSEL
B R B LG GER -GET R M S STEM
Bekir Taner D NÇER
Uluslararası Bilgisayar Anabilim Dalı
Bilim Dalı Kodu: 619.02.04
Sunu Tarihi: 17/Eylül/2004
Tez Danı manı: Prof. Dr. Bahar KARAO LAN
Bornova – ZM R
II
III
Sayın Bekir Taner D NÇER tarafından DOKTORA TEZ olarak
sunulan “Türkçe için statistiksel bir Bilgi Geri-Getirim Sistemi” adlı
bu çalı ma, “Lisansüstü E itim ve Ö retim Yönetmeli i”nin madde (c)
ve (d) bentleri ve Enstitü yönergesinin ilgili hükümleri dikkate alınarak
tarafımızdan de erlendirilmi olup yapılan sözlü savunma sınavında
aday oy ………….. ile ba arılı bulunmu tur. Bu nedenle Bekir Taner
Dinçer’in sundu u metnin doktora tezi olarak kabulüne oy ………….
ile karar verilmi tir.
…/………../2004
Jüri Ba kanı :............................................... imza ..........................
Raportör
:............................................... imza ..........................
Üye
: .............................................. imza..........................
Üye
: .............................................. imza ..........................
Üye
: .............................................. imza ..........................
IV
V
Sevgili e im Zeynep’e......
VI
VII
ÖZET
TÜRKÇE Ç N STAT ST KSEL
B R B LG GER -GET R M S STEM
D NÇER, Bekir Taner
Doktora Tezi, Uluslararası Bilgisayar Enstitüsü
Tez Yöneticisi: Prof. Dr. Bahar KARAO LAN
Eylül 2004, 379 sayfa
Bu tezde, Türkçe dilbilgisi özelliklerinin kullanımı ile BGG
(Bilgi Geri-Getirim) sistemlerinde ba arımın artırılması sa lanmı tır.
Sınanan dilbilgisi özellikleri, sözcük türleri (isim, sıfat, zamir v.b.),
cümle unsurları (fiil, fail/özne, nesne) ve kelime guruplarıdır. Sözcük
türlerinin ve cümle unsurlarının ba arımı anlamlı düzeyde arttırdı ı
bulunmu , kelime guruplarının ba arımı arttırdı ı konusunda bir delil
sa lanamamı tır. Hesaplamalı dilbilim sahası içine giren dört yöntem
geli tirilmi tir: 1-) Türkçe yazılı belgelerin tespiti 2-) Cümle sonlarının
tespiti 3-) Kelime gövdeleme 4-) Kelimelerin sözcük türü tespiti. lk üç
yöntemde, ba arı sa lanmı , ancak kelimelerin sözcük türü tespitinde,
kabul edilebilir bir ba arıma ula ılamamı tır. Sadece, kelimelerin
sözcük türü tespiti için, önerilen yöntemin rasgelelikten anlamlı
düzeyde farklı oldu unu söyleyebilecek delile ula ılmı tır. Türkçe
yazılı belgelerle olu turulan derlemlerde, Zipf ve Mandelbrot ifadeleri
için en iyi uyumun parametreleri belirlenmi tir.
Anahtar kelimeler: Bilgi geri-getirim, hesaplamalı dilbilim.
VIII
IX
ABSTRACT
A STATISTICAL INFORMATION RETRIEVAL SYSTEM
FOR TURKISH
D NÇER, Bekir Taner
PhD Thesis, International Computer Institute
Supervisor: Prof. Dr. Bahar KARAO LAN
September 2004, 379 pages
In this thesis, we have shown that an Information Retrival
system performance for Turkish can be enhanced by the use of
linguistic knowledge. The examined linguistic properties are part-ofspeeches (noun, adjective, etc.), syntactic functions ( verb, subject,
object etc.) and two-word phrases. An evidence of significant
contribution on the performance is found in the training corpus for the
part-of-speeches and syntactic functions. However, no such evidence is
found for the phrases. Additionaly, four methods which are considered
to be in the field of computational linguistics are developed. These are:
1-) Turkish texts recognizer, 2-) Sentence boundary detector, 3-) A
stemming algorithm and 4-) A statistical part-of-speech tagger.
Satisfactory (above 95%) results for first three methods are obtained,
however the last method, the part-of-speech tagger, did not show the
anticipated performance (85%). At this point, we can only say that the
proposed method of part-of-speech tagging shows an evidence of
significant difference from randomness. The best fit parameters of Zipf
and Mandelbrot functions are, also, experimantally evaluated for
selected Turkish corpora.
X
XI
TE EKKÜR
Bu tezin var olmasını sa layan, bilimde uzmanlı ını,
deneyimlerini ve be eri ili kiler konusundaki de erli fikirlerini özveri
ile bana aktaran tez yöneticim ve danı manım Bahar Karao lan’a
saygı, sevgi ve ba lılı ımı; aynı zamanda ahsıma dü en zorlukların
tamamında yanımda olan ve samimiyetle her türlü deste i benden
esirgemeyen sevgili e im Zeynep Koro lu Dinçer’e sonsuz
te ekkürlerimi ve a kımı sunarım. Özellikle beni var eden aileme ve
aralarına kabul eden kayın-aileme gösterdikleri sabır ve sevgiden
dolayı bu çalı ma vesilesi ile bir kere daha en içten te ekkürlerimi
sunarım.
Çalı malarda desteklerini esirgemeyen, Uluslararası Bilgisayar
Enstitüsünden sevgili hocalarım: Aydın Öztürk, Mehmet Emin Dalkılıç
ve Turhan Tunalı’ya; çalı ma arkada larım Ebru Çelikel, Cengiz
Güngör, lker Kocaba , Burak Aydın, Hasan Sait Erinç, Geylani Karda
ve Muhammed Cinsdikici’ye; di er tüm arkada larıma ve çalı anlara
ükranlarımı sunarım. Ayrıca, Mu la Üniversitesinden sayın hocalarım
Mübariz Eminov’a ve Mustafa Dilek’e yardımlarından dolayı, Ba kent
Üniversitesinden Hayri Sever’e katkılarından dolayı, Sabancı
Üniversitesinden Kemal Oflazer’e ve ayrıca Gökhan Tür’e derlemlerin
sa lanması ve yardımlarından dolayı te ekkürü bir borç bilirim
Bu tezi, Türkçe’ye ve Türkçe’nin geli mesine emek vermi olan
ba ta Gazi Mustafa Kemal Atatürk olmak üzere, bu yolda çalı mı , tüm
hayatını adamı ve dilimizi yüceltmi olan herkesin anısına; halen
çalı anların ve gelecekte çalı acak olanların onuruna ithaf ediyorum.
XII
XIII
Ç NDEK LER
Sayfa
ÖZET............................................................................................................................. VII
ABSTRACT.................................................................................................................... IX
TE EKKÜR ................................................................................................................... XI
1. G R .............................................................................................................................1
2. TÜRKÇE .................................................................................................................... 19
2.1.
TÜRKÇE HARFLER VE ALFABE ..................................................................... 21
2.2.
HECELER VE KEL MELER .............................................................................. 22
2.2.1. Türkçe Heceleme .................................................................................... 22
EK L YAPISI BAKIMINDAN KEL MELER ...................................................... 23
2.3.
2.3.1. Kökler ve Gövdeler................................................................................. 23
2.4.
ANLAM VEYA GÖREV BAKIMINDAN KEL MELER ....................................... 24
2.5.
KEL ME GURUPLARI..................................................................................... 26
2.5.1. Aynen Tekrarlar...................................................................................... 28
2.5.2. Ba lama Gurubu .................................................................................... 28
2.5.3. Sıfat Tamlaması ...................................................................................... 29
yelik Gurubu ve sim Tamlaması.......................................................... 30
2.5.4.
2.5.5. Aitlik Gurubu .......................................................................................... 31
2.5.6. Birle ik sim ve Birle ik Kelime............................................................. 31
2.5.7. Birle ik Fiil ............................................................................................. 32
2.5.8. Unvan Gurubu ........................................................................................ 32
2.5.9. Ünlem Gurubu ........................................................................................ 33
2.5.10.
Sayı Gurubu ....................................................................................... 33
2.5.11.
Edat Gurubu ...................................................................................... 34
2.5.12.
snat (yükleme) Gurubu..................................................................... 34
2.5.13.
Genetif Gurubu .................................................................................. 35
2.5.14.
Datif Gurubu...................................................................................... 35
2.5.15.
Lokatif Gurubu................................................................................... 36
2.5.16.
Ablatif Gurubu ................................................................................... 36
2.5.17.
Kısaltma Gurupları ........................................................................... 36
2.5.18.
Akuzatif Gurubu................................................................................. 37
2.6.
CÜMLE VE CÜMLE UNSURLARI ................................................................... 37
2.6.1. Fiil Unsuru.............................................................................................. 38
2.6.2. Fail Unsuru............................................................................................. 39
2.6.3. Nesne ....................................................................................................... 39
2.6.4. Yer Tamlayıcısı ....................................................................................... 40
2.6.5. Zarf .......................................................................................................... 40
2.6.6. Cümle Dı ı Unsurlar .............................................................................. 40
3. ENFORMASYON ..................................................................................................... 41
XIV
3.1.
ENFORMASYON B L M VE B LG GER -GET R M ......................................... 41
3.2.
ENFORMASYON TANIMI VE FARKLI YAKLA IMLAR ................................... 42
3.2.1. Enformasyon-i lem (Anlamsal-Enformasyon)...................................... 43
3.2.2. Çevre-bilimsel Yakla ım......................................................................... 47
3.2.3. Matematiksel Yakla ım........................................................................... 47
3.2.4. Enformasyon Yakla ımlarının Kar ıla tırması..................................... 49
3.3.
ENFORMASYONUN LET M – LET M ........................................................ 51
3.4.
VER , ENFORMASYON VE B LG TANIMLARI............................................... 54
3.5.
ENFORMASYON VE HABER .......................................................................... 55
4. ENFORMASYON KURAMI .................................................................................. 61
4.1.
DÜZENS ZL K (ENTROPY) ............................................................................ 62
4.2.
B RLE K DÜZENS ZL K VE KO ULLU DÜZENS ZL K .................................. 64
4.3.
KAR ILIKLI ENFORMASYON (MUTUAL INFORMAT ON) ............................. 66
4.4.
KO ULLU DÜZENS ZL K (COND T ONAL ENTROPY) ................................... 68
4.5.
ÇAPRAZ DÜZENS ZL K (CROSS ENTROPY)................................................... 70
ST KRARSIZLIK (PERPLEX TY) .................................................................... 75
4.6.
5. B LG GER -GET R M S STEMLER ............................................................... 77
5.1.
GENEL S STEM YAPILANMASI ..................................................................... 82
5.2.
GENEL LEY KURGUSU ( Ç YAPILANMA) ............................................... 84
5.3.
SAYISAL BELGE TEMS L ............................................................................. 86
6. GER -GET R M MODELLER ............................................................................ 97
6.1.
VEKTÖR UZAYI MODEL ............................................................................ 103
6.2.
G ZL ANLAM NDEKSLEME MODEL ........................................................ 107
7. NDEKSLEME VE NDEKS TER MLER ........................................................ 115
7.1.
ELLE NDEKSLEME ..................................................................................... 117
7.2.
DO AL B R D LDE, KEL MELER N DA ILIMI............................................ 120
7.2.1. Zipf Güç Kanunları .............................................................................. 124
7.3.
OTOMAT K NDEKSLEME............................................................................ 129
ndekslemenin Kapsamı ve Terim Öznelli i. ...................................... 134
7.3.1.
7.3.2. Kelime Gurupları ile ndeksleme......................................................... 135
7.4.
HESAPLAMALI D LB L M YÖNTEMLER ..................................................... 138
8. BA ARIM ÖLÇÜTLER ...................................................................................... 141
8.1.
ANMA VE DUYARLILIK ESASINDA ÖLÇÜT TÜRLER . ............................... 141
8.2.
ANMA VE DUYARLILIK ESASINDA B A ARIMIN ÖLÇÜMÜ. ....................... 148
8.3.
ANMA VE DUYARLILI I ESAS ALMAYAN BA ARIM ÖLÇÜTÜ.................. 157
9. TEZ KAPSAMINDA GEL T R LM YÖNTEMLER ................................ 163
9.1.
TÜRKÇE YAZILI BELGELER N TESP T ....................................................... 168
9.1.1. Önceki Çalı malar................................................................................ 169
9.1.2. Önerilen Yöntem ................................................................................... 175
9.1.3. Deneysel Sonuçlar ................................................................................ 175
9.2.
TÜRKÇE MET NLER N NORMALLE T R LMES .......................................... 176
9.2.1. Önceki Çalı malar................................................................................ 176
9.2.2. Önerilen Yöntem ................................................................................... 178
9.2.3. Deneysel Sonuçlar ................................................................................ 180
9.3.
GÖVDELEME ............................................................................................... 185
XV
9.3.1. Önceki Çalı malar................................................................................ 187
9.3.2. Önerilen Yöntem ................................................................................... 191
9.3.3. Deneysel Sonuçlar ................................................................................ 195
9.4.
SÖZCÜK TÜRÜ TESP T ............................................................................... 207
9.4.1. Önceki Çalı malar................................................................................ 208
9.4.2. Önerilen Yöntem ................................................................................... 210
9.4.3. Deneysel
................................................................................ 224
Sonuçlar
10. GENEL STAT ST KLER.................................................................................. 229
10.1.
TANIMLAYICI STAT ST KLER .................................................................... 233
10.2.
TÜRKÇE Ç N Z PF GÜÇ KANUNLARI NCELEMES .................................... 239
statistiksel ncelemeler için Alt Yapı............................................. 239
10.2.1.
10.2.2.
BilTD Derleminin Zipf Birinci Kanun ncelemesi......................... 242
10.2.3.
ODTÜ Derleminin Zipf Birinci Kanun ncelemesi........................ 249
10.2.4.
OSTAD Derleminin Zipf Birinci Kanun ncelemesi ...................... 251
10.2.5.
Birle ik Derlemlerin Zipf birinci kanun incelemesi ...................... 254
NG L ZCE Ç N Z PF B R NC KANUN NCELEMES .................................... 256
10.3.
10.4.
TÜRKÇE Ç N KEL ME DA ARCI I (KD) NCELEMES .............................. 260
10.4.1.
Kelime Da arcı ı Boyutları– Zipf Birinci Kanun ......................... 260
10.4.2.
Kelime Biçimleri – Zipf kinci Kanun ............................................ 265
lev ve çerik Kelimeler ( ndeks Terimler) ................................... 277
10.4.3.
11. NDEKS TER M SEÇ M ................................................................................... 285
11.1.
GENEL DA ILIMLAR .................................................................................. 291
11.1.1.
Sözcük Türleri .................................................................................. 291
11.1.2.
Cümle Unsurları.............................................................................. 299
11.1.3.
Sözcük Türü ve Cümle Unsuru Ortak De erlendirme .................. 305
11.1.4.
Kelime Gurupları............................................................................. 307
11.2.
BGG S STEM B A ARIMI ÜZER NE NCELEMELER. .................................... 311
11.2.1.
Türkçe için E ik Ba arım ................................................................ 314
ndeks Terim Seçimi ve A ırlıklandırma........................................ 317
11.2.2.
11.2.3.
Dilbilgisi Özelliklerinin Ba arıma Etkisi....................................... 321
12. SONUÇ.................................................................................................................... 333
13. GEL M NOKTALARI VE TARTI MA....................................................... 341
TÜRKÇE- NG L ZCE TER MLER SÖZLÜ Ü.................................................. 345
KAYNAKLAR............................................................................................................. 349
EKLER.......................................................................................................................... 367
ÖZGEÇM ................................................................................................................. 379
EK LLER
ekil
1.1
Sayfa
Enformasyon bilim ve hesaplamalı dilbilim sahalarının
etkile imleri.
10
3.1.1
Enformasyon bilimine katkıda bulunan di er bilimler
(Ingwersen, 1992).
41
3.2.1.1
Bireysel bilme eylemi (Soergel, 1985).
44
3.2.1.2
nsanlar arasında Mesaj/Haber letimi. Soergel’den (1985)
uyarlanmı tır. Enformasyonun veriye ve verinin tekrar
enformasyona dönü üm evrelerini betimler.
46
3.3.1
leti imin klasik modeli. (Shannon, 1949, uyarlama)
52
3.3.2
Anlamsal-enformasyonun yazı ile iletim modeli.
53
3.4.1
Veri, enformasyon ve bilgi arasındaki ili kilerin denklemleri.
54
4.3.1
Kar ılıklı-enformasyon, I ile düzensizlik, H arasındaki ili ki.
67
5.1
Bilgi Ke fi/Madencili i ve Belge/Metin Madencili i
u ra larına ait yapısal kurguların kar ıla tırması. “Veri’den
Bilgi Ke fi” ve “Belge Madencili i” sahalarındaki alt
süreçler, yapısal ve içerik benze imleri nispetinde kar ılıklı
e le tirilmi tir.
82
5.1.1
Bilgi geri-getirim sistemlerinin genel kurgusu.
83
5.1.2
Kullanıcı bakı açısından, BGG sistem hizmetleri.
84
5.2.1
Bilgi geri-getirim sistemlerinin iç yapılanma örne i.
85
5.3.1
Bilgi geri-getirim sistemlerinde alt süreçler esasında sayısal
belge temsil yordamı.
87
5.3.2
Sayısal belge temsili olu turulması adımlarına örnekler.
88
6.1
Bilgi geri-getirim modellerinin sınıflandırılması. (BaezaYates and Ribeiro-Neto, 1999, uyarlama).
98
ii
EK LLER (devam)
ekil
Sayfa
6.1.1
Bir bj belge vektörü ile, qi sorgu vektörünün, iki boyutlu
indeks terim uzayında çizgesel betimlemesi.
104
6.2.1
Örnek belge uzayı için, terim-belge matrisi.
108
6.2.2
Örnek derlem terim-belge matrisi için hesaplanmı , ESA
bile en matrisleri.
110
6.2.3
Belgeler arası kar ılıklı ili ki katsayı matrisleri.
113
7.2.1
Kelimelerin frekansları ile muhtemel enformasyonu temsile
katkı miktarı arasındaki ili kinin çizgesi (Luhn, 1958,
uyarlama).
122
8.1.1
Anma ve duyarlılık ölçümlerini betimleyen çizge.
141
8.1.2
Bir sistem için anma (A) ve duyarlılık (D) ölçütleri arasındaki 143
rekabetin temsili çizgesi.
9.2.1
Anma-duyarlılık e risinin iki örne i.
151
9.4.2.3.1
Örnek cümlenin 6 kelimesi için olası sözcük türleri (a) ve
kar ılık gelebilecek sözcük dizisi ihtimalleri (b).
219
9.4.2.3.2
Örnek cümlenin Markov süreci altında, sözcük türü tespit
kurgusu.
220
9.4.2.3.3
Sözcük türü tespitinin, Markov zinciri esasındaki kurgusunda, 223
önerilen kelime sonundan belirli sayıda harf birli inin
hesaplama birim olarak kullanılması.
9.4.3.1
Sözcük türü tespit, sınama sonuçları. 1. dereceden Markov
süreci kurgusu altında, tüm talim derlemi boyutları sondan
alınan harf birliklerinin tüm uzunlukları için.
225
9.4.3.2
Sözcük türü tespit, sınama sonuçları. 1. derece, geçmi e bir
adım Markov süreci kurgusu altında, tüm talim derlemi
boyutları ve sondan alınan harf birliklerinin tüm uzunlukları
için.
226
EK LLER (devam)
ekil
Sayfa
10.1
ODTÜ derlemindeki belge türleri.
230
10.2
OSTAD derlemindeki belge türleri.
230
10.1.1
BilTD, ODTÜ ve OSTAD derlemlerinde bulunan birlik
(harf), kelime ve gövde sayılarının toplam üzerinden göreceli
oranları.
231
10.1.2
Birle ik derleminin (BirTD), kelime esasında kelime
da arcı ını olu turan kaynak derlemler ve oransal katkıları.
233
BilTD ve OSTAD derlemlerinin, gövdeler esasındaki kelime
da arcı ına yaptıkları katkılar.
235
10.2.2.1.1
BilTD derleminin, kelime esasında Zipf ifadesi ile uyumu.
243
10.2.2.2.1
BilTD derleminin, gövde esasında, Zipf ifadesi ile uyum
çizgesi.
246
10.2.2.2.2
BilTD derleminin, gövde esasında, Mandelbrot ifadesi ile
W=1000 parametre de er için uyumu çizgesi.
247
10.2.3.1
ODTÜ derlemin, kelime esasında, Zipf ifadesi ile uyum
çizgesi.
248
10.2.4.1.1
OSTAD derlemin, kelime esasında, Zipf ifadesi ile uyum
çizgesi.
250
10.2.4.2.1
OSTAD derlemin, gövde esasında, Zipf ifadesi ile uyum
çizgesi.
251
10.2.4.2.2
OSTAD derleminin, gövdeler esasında, Mandelbrot (W=100)
ifadesi ile uyum çizgesi.
251
10.2.6.1
ngilizce birle ik derlemin, kelime esasında Zipf ifadesi ile
uyum çizgesi.
256
10.2.6.2
ngilizce birle ik derlemin, kelime esasında Mandelbrot
(W=100) ifadesi ile uyum çizgesi.
256
10.1.3
iv
EK LLER (devam)
ekil
10.3.2.1.1
Sayfa
Kelime esasında Türkçe birle ik derlem için, Zipf ikinci
kanun ifadesinin tahmin etti i kelime biçimi adedi ile
gözlemlenen kelime biçimi adedinin yayılım çizgesi.
267
10.3.2.1.2
Kelimeler (a) ve gövdeler (b) için kelime da arcıkları.
269
10.3.2.1.3
Gövde esasındaki Türkçe birle ik derlem için, Zipf ikinci
kanun ifadesinin tahmin etti i kelime biçimi sayıları ile
gözlemlenen kelime biçimi sayılarının yayılım çizgesi.
270
Gövde esasında Türkçe birle ik derlem için, Zipf birinci
kanun e im tahminlerinin yayılım çizgesi.
282
OSTAD derlemi, kelime (a) ve gövde (b) esasında kelime
da arcı ı içinde sözcük türü oranları.
293
11.1.1.2
OSTAD derlemi, derlem içinde gözlenme sıklı ına göre
sözcük türü oranları.
294
11.1.1.1.1
OSTAD derleminde sözcük türlerinin indeks terim
da ılımları.
295
10.4.3.1.1
11.1.1.1
11.1.1.1.2
ndeks terimlerin sözcük türü da ılımları.
296
11.1.2.1
OSTAD derlemi, cümle unsurlarının indeks terim da ılımları. 301
11.1.2.2
OSTAD derleminde indeks terimlerin cümle unsuru
da ılımları.
302
11.2.1.2
Geri-getirim yöntemlerinin, OSTAD derlemi üzerinde
315
deneysel olarak, üstel-puanlama yöntemi ile ba arım sınaması
sonuçları.
11.2.3.4.1
OSTAD derleminde, kelime guruplarının geri-getirim
ba arımı üzerine etki sınamasına ait üstel-puanlar.
330
Ç ZELGELER
Çizelge
Sayfa
3.2.4.1
Enformasyonun çe itli hallerini gruplayan Buckland Matrisi
(Buckland, 1991)
50
5.1
Veri geri-getirim ile Bilgi geri-getirim sistemlerinin i levsel
özellikleri.
79
5.3.1
Bir milyon ve on milyon kelimelik Türkçe derlemlerin
kelime da arcıkları (Hakkani-Tür et. al., 2002).
90
Bilgi geri-getirim modellerinin geri-getirim hizmeti ve
sayısal belge temsil ekli eksenlerinde sınıflandırılması.
100
6.1
7.2.1
Zipf birinci kanunun, Tom Sawyer romanı üzerinde deneysel 123
de erlendirmesi (Manning and Schütze, 2003, uyarlama).
Seçilmi (S) ve hedef (H) olasılık de i kenlerinin birle ik
da ılımının 2x2 olasılık tablosu olarak gösterimi.
142
1000 belgelik örnek bir belge uzayı için anma (A), duyarlılık
(D), F-ölçütü ve do ruluk (DO) oranı ölçüm listesi.
146
BGG sistemlerinin sıralama esasına dayalı de erlendirme
örne i. Sütunlarda belgelerin farklı üç sıralaması
bulunmaktadır.
148
9.1.1.1
Fransızca, spanyolca, ngilizce ve Portekizce için yazılı
metinden dil tespit sonuçları (Lins and Gonçalves, 2004).
170
9.1.3.1
Çok dilli belge derleminde Türkçe belgelerin tespitine ait
deneysel sonuçlar.
175
9.2.2.1
Cümle sonu yordamını tanımlamada kullanılan simge
sistemi.
178
9.2.3.1
Cümle sonu tespiti için kullanılan Türkçe derlemin belirli
özellikleri.
180
8.1.1
9.1.2
9.2.1
vi
Ç ZELGELER (devam)
Çizelge
Sayfa
9.2.3.2
Cümle sonu tespit yordamında kullanılan ve üçlü birlikle
temsil edilen durumlar için Türkçe derlemden çıkartılan
istatistikler.
181
9.2.3.3
Cümle sonu tespitinde, [W*W] durumu için, heceleme
önermesi ile meydana gelen hata oranları.
184
9.3.3.1
Gövdeleme yöntemi sınamalarında kullanılan Talim ve Test
derlemi özellikleri.
195
9.3.3.2
Önerilen gövdeleme yöntemi ile üretilmi gövdelere
örnekler.
199
9.4.2.3.1
Örnek cümlenin, her kelimesinin olası sözcük türleri.
218
10.1
228
BilTD, ODTÜ ve OSTAD derlemlerinin genel özellikleri.
“*” karakteri olan hücreler derlemlerin söz konusu özelli inin
belli olmadı ını gösterir.
10.1.1
BirTD için kelimelerin geldikleri derlemler üzerinden
istatistikleri.
233
10.1.2
Gövde esasında BirTD derlemi için tanımlayıcı istatistikler.
235
10.2.2.1.1
BilTD derlemi için, kelime esasında Zipf ve Mandelbrot
ifadeleri ile do rusal ili ki uyum sınamaları.
241
BilTD derlemi için, gövde esasında Zipf ve Mandelbrot
ifadeleri ile do rusal ili ki uyum sınamaları.
245
ODTÜ derleminin, kelime esasında, Zipf ve Mandelbrot
ifadesi ile do rusal ili ki uyum sınamaları.
248
OSTAD derleminin, kelime esasında Zipf ve Mandelbrot
ifadesi ile do rusal ili ki uyum sınamaları.
249
OSTAD derleminin, gövde esasında Zipf ve Mandelbrot
ifadesi ile, do rusal ili ki uyum sınamaları.
250
BirTD derleminin, kelime esasında, Zipf ve Mandelbrot
ifadesi ile do rusal ili ki uyum sınamaları.
252
10.2.2.2.1
10.2.3.1
10.2.4.1.1
10.2.4.2.1
10.2.5.1.1
Ç ZELGELER (devam)
Çizelge
10.2.5.2.1
Sayfa
BirTD derleminin, gövde esasında, Zipf ve Mandelbrot
ifadesi ile do rusal ili ki uyum sınamaları.
253
10.2.6.1
Time, Cranfield, Medlars ve birle ik derlemlerinin genel
özellikleri.
254
10.2.6.1
ngilizce birle ik derlemin, Zipf ve Mandelbrot ifadeleri ile,
kelime asasında uyum sınaması.
255
10.3.1.1
Türkçe birle ik derlemin kelime esasında incelenen her Zipf
modeli için, kelime da arcı ı büyüme katsayıları.
259
ngilizce birle ik derlemin kelime esasında incelenen her
Zipf modeli için, kelime da arcı ı büyüme katsayıları.
259
Türkçe birle ik derlemin gövde esasında incelenen her
modeli için, kelime da arcı ı büyüme katsayıları.
260
Kelime esasında Türkçe birle ik derlemin, tüm Zipf
modelleri üzerinden kelime da arcı ı boyut (KDB)
tahminleri.
260
Kelime esasında ngilizce birle ik derlemin, tüm Zipf
modelleri üzerinden kelime da arcı ı boyut tahminleri.
261
10.3.1.2
10.3.1.3
10.3.1.4
10.3.1.5
10.3.1.6
Gövde esasında Türkçe birle ik derlemin, tüm Zipf modelleri 261
üzerinden kelime da arcı ı boyut tahminleri.
10.3.2.1.1
Kelime esasında Türkçe birle ik derlemin, kelime
da arcı ındaki farklı kelime biçimleri, gözlenme sıklıkları ve
istatistikleri.
265
10.3.2.1.2
Kelime esasında Türkçe birle ik derlemin, Zipf ikinci kanun
ifadesine uyum sınamasının sonucu.
266
10.3.2.1.3
Gövde esasında Türkçe birle ik derlemin, kelime
da arcı ındaki farklı kelime biçimleri, gözlenme sıklıkları ve
istatistikleri.
268
Gövde esasında Türkçe birle ik derlemin, Zipf ikinci kanun
ifadesine uyum sınamasının sonuçları.
270
10.3.2.1.4
viii
Ç ZELGELER (devam)
Çizelge
10.3.2.2.1
Sayfa
Kelime esasında Türkçe birle ik derlemin, kelime
da arcı ındaki farklı kelime biçimlerinin gözlenme sıklıkları
ve tahmin edilen de erleri.
272
Gövde esasında Türkçe birle ik derlemin, kelime
da arcı ındaki farklı kelime biçimlerinin gözlenme sıklıkları
ve tahmin edilen de erleri.
273
Kelime esasında Türkçe birle ik derlem için Zipf birinci
kanun e im tahminleri.
278
Gövde esasında Türkçe birle ik derlem için Zipf birinci
kanun e im tahminleri.
281
11.1
OSTAD derleminde elle i aretlenmi belge istatistikleri.
284
11.2
BilTD ve OSTAD derlemlerinde yapılmı olan biçimbirimsel 287
i aretlemede temel sözcük türü kodları.
10.3.2.2.2
10.4.3.1.1
10.4.3.1.2
11.1.1.1
Kelime esasında sözcük türlerinin kelime da arcı ı içindeki
oransal da ılımları.
292
Gövde esasında sözcük türlerinin kelime da arcı ı içindeki
oransal da ılımları.
292
11.1.1.2
11.1.1.3
Sözcük türlerinin derlem içinde görülme sıklıklarının oransal 294
da ılımları.
11.1.1.1.1
OSTAD derleminde sözcük türlerinin indeks terim
da ılımları.
295
OSTAD derleminde, sözcük türü ve indeks terimlerin toplu
de erlendirmesi.
297
11.1.1.1.2
11.1.2.1
11.1.2.2
11.1.2.3
OSTAD derleminde cümle unsuru i aretlemesinde kullanılan 299
kodlar.
ndeks terimlerin cümle üzerindeki da ılımı.
OSTAD derlemi, cümle unsuru ve indeks terim için toplu
de erlendirme.
300
303
Ç ZELGELER (devam)
Çizelge
11.1.3.1
Sayfa
OSTAD derleminde, sözcük türü ve cümle unsuru birlikte
indeks terim da ılımı.
305
OSTAD derleminde, kelime guruplarının indeks terim
da ılımları.
307
OSTAD derleminde 2 kelimeden olu an kelime guruplarını,
sözcük türü kombinasyonlarının indeks terim da ılımları.
308
11.1.4.1
11.1.4.2
11.2.1.2
315
Geri-getirim yöntemlerinin, OSTAD derlemi üzerinde
deneysel olarak, üstel-puanlama yöntemi ile ba arım sınaması
sonuçları.
11.2.2.1
Örnek paragrafın TFxIDF a ılıkları.
318
11.2.2.2
Örnek paragrafın, TFxIDF a ırlıkları üzerinden duyarlılık
de erleri.
319
11.2.3.1.1
Örnek paragrafın, sözcük türü ile atanan a ırlıkları üzerinden 323
duyarlılık de erleri.
11.2.3.1.2
OSTAD derlemi içinde seçilmi belgeler üzerinde, TFxIDF
a ırlıklandırması ve sözcük türü a ırlıklandırması ile elde
edilen sıralamalar içinde, indeks terimlerin kümelendi i
yerlerin kar ıla tırma sonuçları.
324
Örnek paragrafın, cümle unsurları ile atanan a ırlıkları
üzerinden duyarlılık de erleri.
326
OSTAD derlemi içinde seçilmi belgeler üzerinde, TFxIDF
a ırlıklandırması ve cümle unsuru a ırlıklandırması ile elde
edilen sıralamalar içinde, indeks terimlerin kümelendi i
yerlerin kar ıla tırma sonuçları.
326
Örnek paragrafın, cümle unsuru ve sözcük türü ile birlikte
atanan a ırlıkları üzerinden duyarlılık de erleri.
327
OSTAD derlemi içinde seçilmi belgeler üzerinde, TFxIDF
ile sözcük türü ve cümle unsuru birlikte, yapılan
a ırlıklandırma ile elde edilen sıralamalar içinde, indeks
terimlerin kümelendi i yerlerin kar ıla tırma sonuçları.
328
11.2.3.2.1
11.2.3.2.2
11.2.3.3.1
11.2.3.3.2
x
YAYIN L STES
Dinçer, B., T. and Karao lan, B., 2004, “Sentence Boundary Detection in Turkish.”,
Proceedings of the 3rd International Symposium on Advances in Information
Sciences (ADVIS’04), To be published in the Lecture Notes in Computer
Sciences (LNCS), Springer-Verlag, 20-22 October, Izmir, Turkey.
Dinçer, B., T. and Karao lan, B., 2004, “Effect of part-of-speech tagging on IR
performance for Turkish.”, Proceedings of the 19th International Symposium
on Computer and Information Sciences (ISCIS’04), To be published in the
Lecture Notes in Computer Sciences (LNCS), Springer-Verlag, 27-29 October,
Kemer–Antalya, Turkey .
Celikel, E. and Dinçer B., T., 2004, "Improving the Compression Performance of
Turkish Texts with PoS Tags", International Conference on Information and
Knowledge Engineering (IKE’04), published by CSREA Press (ISBN: 1932415-27-0), Las Vegas, Nevada, USA, June 21-24.
Dinçer, B., T. and Karao lan, B., 2003, “Stemming in Agglutinative Languages: A
probabilistic stemmer for Turkish.”, Proceedings of the 18th International
Symposium on Computer and Information Sciences (ISCIS’03), Published in
the Lecture Notes in Computer Sciences (LNCS), Springer-Verlag, Vol: 2869,
3-5 November, Kemer–Antalya, Turkey, pp. 244-251.
Dinçer, B., T. ve Karao lan, B., 2003, “Bilginin Sosyal Uzantısı : Bili im”, Bilgi
Teknolojileri Sempozyumu, B LG -TEK’03, Bildiriler Kitabı (ISBN: 9756992-08-5), Pamukkale Üniversitesi, Denizli, Türkiye, 44-46.
xii
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
1
1. G R “Bilgi güç demektir.”
(Francis Bacon,1561-1626)
Bu tez bilgi geri-getirim veya eri im (BGG veya BE)
sistemlerinde birbirini destekleyen iki çalı mayı sunmaktadır: Türkçe
yazılı metinler için sayısal belge temsilini dil-bilim özelliklerine dayalı
istatistikler ile destekleme yöntemleri ve dil-bilim özellikleri ile
desteklenmi sayısal belge temsilinin geri-getirim ba arımı üzerindeki
etkilerinin ara tırma sonuçları. Geli tirilen yöntemlerin, Türkçe yazılı
metinlere uygulanabilmesi için gerekli, bir ön-i lem a aması olan
simgele tirme (Tokenization), cümle sonu tespitini de içerecek ekilde
geli tirilmi tir. Tez hedefinde, Türkçe yazılı metinler bulundu u için,
çok dilli bir belgeler toplulu u içinden (örne in Internet) Türkçe yazılı
metinlerin hızlı ve verimli bir ekilde ayırt edilmesine yönelik yeni bir
yordam da ayrıca olu turulmu tur. Bu bölümde öncelikle BGG
sahasının tanıtımı, sahadaki u ra ların genel hedefleri ve bu hedeflere
ula manın önünde mesele yaratan konular tanıtılacaktır. Tezin kapsamı
ve hedefleri genel tanıtımın ardından sunulacaktır. Tez kapsamımız
içinde cevapladı ımız ara tırma sorularının özetleri ve tezin genel
anlatım akı ı bölüm sonunda yer almaktadır.
Bilgi geri-getirimin veya eri imin tanımı en genel hali ile
öyledir:
“ nsanlar tarafından ihtiyaç duyulan muhtemel, yani potansiyel
enformasyonun temsilini, depolanmasını, aranmasını, bulunmasını ve
sunulmasını içine alan bir süreç. ...”
(Ingwersen, 1992)
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
2
Verilen tanımının sınırları içinde BGG, kullanıcıların belirtti i
enformasyon ihtiyaçları do rultusunda belirli bir belge toplulu undan
alakalı belgelerin kılavuzlarının (künyelerinin ve eri im bilgilerinin),
daha do rusu varlı ının tespit edilmesi i idir. Söz konusu, güncel
anlamda sorun olan hedef belge toplulu u Internet’tir. Internet’in
günlük ya amın içine girmesi ve yaygınla ması ile insanlık tarihinde
imdiye kadar kar ıla ılmamı miktarda ki isel, bölgesel, kurumsal,
bilimsel vb. enformasyon’un bir arada bulundu u bir ortam olu mu tur.
Dolayısı ile yönetilmesi, depolanması ve organize edilmesi gereken,
sayısı milyonlarla ifade edilen metin, resim ve görüntü vardır (Brin and
Page, 1998). Internet üzerindeki geli imin ne düzeylerde oldu u ve
gelecekte bizi ne tür bir enformasyon hacminin bekledi ine dair bir
izlenimi u istatistiklerden rahatlıkla elde edebiliriz1: 1998 yılı için,
sadece Amerika’daki tahmin edilen Web sayfası sayısı 320 milyon ve
Internet kullanıcısı sayısı 57 milyondur, 81 milyon e-posta kullanıcısı
arasında toplam 3,4 trilyon mesaj gönderilmi tir; ngiltere ile rlanda
arasındaki yıkıcı (spam) e-posta gönderimini engelleme i inin, 1998
yılı tahmini bedeli 8 milyon dolardır; 1997 yılının ikinci çeyre i itibari
ile Internet irketlerine yatırılan risk sermayesi miktarı 561 milyon
dolardır; Yahoo arama motorunda günlük görüntülenen sayfa sayısı
ortalama 38 milyondur;
Web kullanıcılarının %82’si Internet’i
vazgeçilmez olarak görmektedir ve “Home Corporation” 1999 yılında,
Excite arama motorunu 6.2 milyar dolara satın almı tır ( Aynı yıl Ford
motor irketi Volvo’nun araba üretim bölümünü 6.45 milyar dolara
satın almı tır !!!). Bu istatistikler elbette Internet ortamının tamamını
resmedenler de ildir, ancak u anki durumun ve geli imin ne yönde
olabilece i açısından bir fikir vermektedir. Fakat, enformasyon
zenginli i açısından geli en Internet’e paralel olarak kullanıcılar: çok
1
http://www.why-not.com/company/stats.htm
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
3
fazla enformasyonla kar ı kar ıya kalmaktadırlar. Bu enformasyonun
büyük ço unlu u ihtiyaç duydu umuz enformasyon de ildir. Söz
konusu durum, yani aradı ımız enformasyonun bulamayaca ımız kadar
çok alakasız enformasyon içinde kalması durumu, fazla enformasyon
yüklemesi (Information overload) olarak adlandırılır. Internet’teki fazla
enformasyon yüklemesi neredeyse önemli ve ciddi çalı malar için
Internet ortamının kullanılamaz hale gelmesine sebebiyet verecek
noktalara çıkmı tır. Bir ba ka söyleyi le, alakasız enformasyon miktarı,
alakalı enformasyonun
düzeylerdedir:
bulunmasını
imkansız
hale
getirecek
“Web üzerindeki fazla enformasyon yüklemesinin en önemli sebebi,
Web’in çift amaç ta ıyan bir ortam olmasıdır: aynı anda hem ki isel hem
kamusal enformasyonun, yayınlanması ve ileti imin sa lanması. Ki isel
olarak çok önemli olan konular, genelde kamusal anlamda önemli de ildir.
Web üzerinde oldu u gibi, e er bir ileti im ortamı üzerindeki arka-plan
gürültüsü lüzumlu içeriklerin daha geni kitlelere ula masını engelleyecek
düzeye çıkmı sa, o ileti im ortamı geçerlili ini yitirir.
..., Çok ükür ki, ki isel radyo endüstrisinde ya anan kendi kendini
yok etme durumuna gelme e ilimi siber-uzayın sayısal alt-yapısı ile
önlenebilir. Tabii ki, her yönden gelecek hesaplamaya dayalı yardımlar
ile.”
(Berghel, 1997)
Internet üzerindeki enformasyonun neredeyse tamamı yapısal
olmayan ve do al dilde yazılmı belgelerden olu tu u için (bu durum
ili kili veri-tabanlarındaki meselelerden farklıdır: Bölüm 6),
hesaplamalı dil-bilim (computational linguistics), yani do al dilin
(dillerin) hesaplamaya dayalı çözümlemesi fazla enformasyon
yüklemesi meselesi kar ısında, enformasyon bilimleri içerisindeki
u ra larda (bilgi geri-getirim sistemleri, enformasyon süzme sistemleri
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
4
(information filtering systems) vb. uygulamalar) önemini giderek
arttıran bir konu olacaktır2.
BGG sahasında genel anlamda ara tırmaya açık konular 6 ana
ba lık altında toplanabilir (van Rijsbergen, 1979).
1. Otomatik Sınıflandırma: Çok büyük sayısal belge topluluklarının,
yönetilebilir büyüklükte sınıflar altına bölümlenmesidir.
•
statistiksel bir yöntem olan clustering (kümeleme) çözüm
olarak uygulanmakta, fakat sayısal yordam olarak
hızlandırılmaya ihtiyaç duymaktadır.
2. Dosya Yapıları: ndeks terimlerin devrik dosya (inverted file)
eklinde tutulması yöntemi, küme kuramsal yöntemler için etkin
olmasına ra men; di er olasılık kuramsal ve cebirsel yöntemler için
çok etkin de ildir. Bu yöntemlerde etkin ekilde kullanılabilecek bir
dosya yapısına ihtiyaç vardır.
3. Arama Stratejileri: BGG hızını artırmak için yeni e le tirme/arama
yöntemlerinin geli tirilmesine ihtiyaç vardır.
4. Benzetim: Genel anlamda, bir belge toplulu unda, birbirleri ile
alakalı belgelerin da ılım simülasyonuna, yani örneksel
benzetimlere ihtiyaç vardır. Özelde ise, ara tırma için açık olan ana
meselelerden en önemlisi, belge topluluklarındaki anahtar kelime
da ılım simülasyonudur.
5. çerik Analizi: Belge içeriklerinin bilgisayar ortamında anahtar
kelimelerden veya indeks terimlerden ba ka ne ekilde sayısal
olarak temsil edilebilece inin belirlenmesi. Meseleye ba langıç
noktası olabilecek yakla ımlarsa;
2
Fazla enformasyon yüklemesi meselesi kar ısında, yapısal olmama durumunu
çözümlemek adına anlamsal web (semantic web) tasarımları da bir çıkar yol olarak
görülmekte ve geli tirilmektedir. http://www.w3.org/
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
•
5
Yapay zeka teknikleri kullanan bir bilgisayar yordamı ile do al
dilin anla ılması veya
•
Psiko-dilbilim, yani akıl-dilbilim veya anlam-dilbilim sahasında
insan beyninde, do al dilin anla ılması mekanizmalarının
incelenmesi ve örneklenmesi olabilir.
6. Metin Sıkı tırma: Sıkı tırma anlamında iki ihtiyaç vardır: birincisi
sahip olunan çok büyük miktardaki verinin etkin ve hızlı ekilde
sıkı tırılması ve açılmasıdır; ikincisi ise sıkı tırılmı verinin
açılmasına gerek duymadan i lem yapabilen yöntemlerin
geli tirilmesidir.
James ve arkada ları (2003) SIGIR3 kongresinde BGG u ra
sahasının kısa (1-5 yıllık) ve uzun (5-10 yıllık) vadeli ara tırma
hedeflerini ve ihtiyaçlarını özele indirgenmi ba lıklar halinde bildiri
olarak yayınlamı lardır. A a ıda bildirinin belirtti i ara tırma
sahalarına ait ana ba lıklar ve kısa açıklamaları vardır. Aslen, van
Rijsbergen (1979) tarafından ortaya konan ihtiyaçlarda yakla ık son 35
yılda çok fazla de i iklik olmadı ı görülmektedir. Sahanın kapsam ve
uygulama alanı güncel teknolojileri desteklemek/kullanmak için
geni lemi , hesaplamalı dil-bilim sahası ile etkile imin zorunlulu u bir
kez daha söz konusu geli imi kar ılamak amacıyla ortaya konmu tur.
James ve arkada ları (2003) tarafından belirtilen hedefler unlardır:
3
SIGIR, ngilizce “Special Interest Group on Information Retrieval” olan bilgi gerigetirim sahasında u ra veren uluslararası kurum ve kurulu ların düzenledikleri
senelik sempozyumunun kısaltmasıdır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
6
1. En genel anlamı ile uzun vadede BGG u ra sahasında iki büyük
meseleden bahsedilmi tir: Küresel enformasyon eri imi ve
ba lamsal geri-getirim. Küresel enformasyon eri imi olarak,
kullanıcının enformasyon ihtiyacını kar ılayacak, özellikle Web
esasına dayalı yapısallı ı olan ve genelde de yapısal olmayan tüm
belgeleri tahlil eden, kullanıcı ile do al ve etkin bir ileti im kuran
sistemler tarif edilmi tir. Ba lamsal geri-getirim olarak, “arama
stratejilerini”, “sorguları” ve “kullanıcılar hakkında eldeki bilgileri”
tek bir çatı altında birle tiren, kullanıcıya bu sayede daha etkin
ekilde cevap verebilecek sistemler tarif edilmi tir. Mobil ileti im
vb. teknolojiler, bilgi geri-getirimin kullanıcı odaklı ve ba lam
esasında kullanımı için uygulanabilir örnekler olarak ortaya
konmu tur.
2. Yeni geri-getirim yöntemlerinin ortaya konması konusunda uzun ve
kısa vadeli hedefler ve ihtiyaçlar belirlenmi tir. Genel olarak mevcut
sistemlerin 1960’ların kurgularına dayandı ı ve enformasyon
ihtiyaçlarının kar ıla ılan karma ıklı ı ile ba edemedi i belirtilmi ;
özellikle dil-bilim kuramlarının, modeller içerisinde sadece kelime,
kelime gurupları esasında ele alındı ı, bunun yeterli olmadı ı, dilbilim kuramlarına dayalı geri-getirim yöntemlerinin geli tirilmesi
gerekti i; kullanıcı bakı açısının mevcut kurgularda ya hiç olmadı ı
ya da yetersiz ekilde temsil edildi inden bahsedilmi tir. Bu
ihtiyaçları kar ılamak için tek bir modelin olamayaca ı gerçe inden
yola çıkarak, kapsamı daraltılmı , yani belirli sahalar için
özelle tirilmi modellerin geli tirilmesi ön görülmü tür.
3. Çok dilli bilgi geri-getirim (bir do al dilde yapılan sorgunun di er
do al dillerdeki belge uzaylarında da aranması) a ırlıklı konular
arasına girmi tir. Dilbilimin, bilgi geri-getirim sahasında
kullanılabilirli ini etkin hale getirecek yeni geri-getirim
yöntemlerinin ve sayısal belge temsillerinin (içerik analizi) önemine
çok dilli geri-getirim amacını etkin ekilde gerçekle tirebilmek adına
bir kere daha de inilmi tir. (Bugün dünya üzerinde yakla ık 7000 dil
konu ulmaktadır. Bu dillerden 320 tanesi yaygın dillerdir ve dünya
nüfusunun %80’ini tarafından konu ulur (Strassel et al, 2003; Oard,
1997)).
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
7
4. Internet üzerindeki enformasyonun geri-getirim etkinli inin
arttırılması için, arama stratejilerinin geli tirilmesine yönelik uzun
ve kısa vadeli hedefler ve ihtiyaçlar belirlenmi tir.
5. Kullanıcı modellerinin geri-getirim yöntem kurgularında a ırlıklı
ö e olarak ele alınması ve verilen kullanıcı hizmetlerinin daha
i levsel modellerinin olması gereklili i ortaya konmu tur. Bu yönde
ilerleyecek çalı maların kısa ve uzun vadeli hedefleri ve ihtiyaçları
belirlenmi tir.
6. Süzme (Filtering), konu tespiti (topic detection) ve sınıflandırma
(classification) gibi u ra larda mevcut sistemlerin genele
uygulanabilirli inin önünde engel te kil eden hesaplama
karma ıklıklarını halledebilmek için yeni tekniklerin ve çözümlerin
gereklili i ortaya konmu tur. Özetleme (Summarization) u ra ında
geli me kaydedebilmek için yine dilbilimsel yöntemlerin etkin
kullanımını ihtiyacı ortaya konmu tur. Aynı ekilde soru-cevaplama
(question answering), üstel-arama (MetaSearch), da ıtık gerigetirim (distributed retrieval), çoklu ortam geri-getirim (multimedia
retrieval) ve enformasyon özümseme (information extraction) u ra
sahalarında da benzer ihtiyaçlara de inilmi tir.
7. Önerilen geri-getirim örneklerinin denenmesi için sınanmı daha
büyük belge uzayına, yani külliyatlara/derlemlere ve sorgu
kümelerine olan ihtiyaç ortaya konmu tur. Mevcut olan 1000 kadar
sorgu için sınanmı deneysel derlemlerin yeterli olmadı ı, sorgu
sayısının 100,000 seviyelerine çıkarılması gereklili i ortaya
konmu tur. ngilizce dı ındaki di er diller için de sınanmı deneysel
belge topluluklarının acil ihtiyacına dikkat çekilmi tir (Gereksinim
olan diller için ve ne tür çözümlerin uygulanabilece ine dair geni
bilgi için ayrıca Strassel ve arkada ları (2003) çalı masına bakınız.).
Bu tezin kapsamı, van Rijsbergen (1979) sınıflandırması içinde
içerik analizi veya James ve arkada ları (2003) sınıflandırmasında yeni
geri-getirim yöntemleri, yani hesaplamalı dilbilim ile etkile imin
arttırıldı ı geri-getirim yöntemlerinin tasarlanması altına girer. ekil
1.1.’de BGG sahasının (Enformasyon bilimin bir alt u ra ı olarak) ve
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
8
hesaplamalı dilbilim sahasının kar ılıklı etkile imi, tez kapsamına giren
u ra ları ve ara tırma hedeflerini netle tirecek ekilde, bir çizge halinde
verilmi tir. ekilde, tezin ara tırma hedeflerinin ba arılmasında katkı
sa layacak temel konuların ba lıkları dolgulu kutular ile gösterilmi tir.
ekilde yer almayan, ancak tez kapsamını tamamlayan yan konular da
bulunmaktadır. Bu konuların ba lıkları sırasıyla: “Türkçe” (Bölüm 2),
“Kavram olarak Enformasyon ve leti im” (Bölüm 3) ve “Enformasyon
Kuramı ve Düzensizlik (Entropy)”dir (Bölüm 4).
Tezin hedefindeki ara tırma konusu en genel
ekli ile
öyle
tanımlanabilir:
Tanım 1.1: (Tezin ara tırma konusu) BGG sistemlerinde, yazılı
metinler (belgeler) için kullanılan sayısal belge temsil
yönteminin (içerik analizi) Türkçe dil-bilimsel
özellikler ile ta ınan enformasyonu içerecek ekilde,
Türkçe metinler için istatistiksel yöntemler yardımıyla
geli tirilmesi.
Tanım 1.1.’de verilen sayısal belge temsilinin geli tirilmesi için
tezde kullanılacak dilbilimsel özelliklerin ba lıkları, ekil 1.1.’den de
takip edilebilece i gibi sırasıyla unlardır: Sözcük türleri (isim, fiil
vb.), kelime gurupları (birden fazla kelimeden olu an anlamsal
birlikler) ve cümle unsurları (cümlenin fiili, faili, nesnesi vb.). ekil
1.1.’de bilgi geri-getirim sahası ve hesaplamalı dilbilim sahası iki ayrı
çalı ma alanı olduklarını niteleyecek ekilde ayrık sınırlar içine
alınmı tır. BGG, enformasyon bilim sahasının bir alt u ra ı olarak
di er alt u ra larla birlikte gözükmektedir. Hesaplamalı dilbilim
sahasının alt u ra ları da, yalın bir metinden anlamın çıkarılması için
kullanılan yöntemlerin dilbilimsel çözümleme seviyelerine göre silsile
eklinde olan sınıflandırması ile gösterilmi tir. Dilbilimsel çözümleme
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
9
seviyelerinin tez çalı mamız içine girenleri “Hedef” etiketi ile
gösterilen ve “kesikli çizgi” ile kesi enlerdir. BGG sahası ile
hesaplamalı dilbilim sahasının ili kisi geleneksel sistemler esas
alındı ında içerik analizi üzerinden olmaktadır. ekilde geleneksel
sistemlerde içerik analizi için kullanılan mevcut yöntemler koyu bir
çerçeve içine alınmı tır ( ekilde “Mevcut” etiketi ile i aret edilen).
çerik analizinde, bu tez hedefleri do rultusunda yapılacak katkının
ba lıklarıysa, “Hedef” etiketi ile i aret edilen kesikli çerçeve içinde
dolgulu olarak gösterilmi tir. Ayrıca hedeflere ula abilmek için tezin
her iki saha içinde kapsamına giren konuların ba lıkları da, dolgulu
olarak gösterilmi tir. ekilde dolgulu olmayan ba lıklar tez kapsamının
dı ındadır.
Her ne kadar, hesaplamalı dilbilim içinde a ırlı ı olan bir konu
olmasa da, yalın metinleri hesaplama birimlerine (kelimeler, sayılar,
noktalama i aretleri vb.) ayrılması meselesi, yani simgeleme
(tokenization) de tezin ara tırma kapsamına dahil edilmi tir. Ayrıca,
tezin hedefinde Türkçe metinler oldu u için, herhangi bir “çok dilli”
belge toplulu undan Türkçe metinlerin otomatik olarak ayrı tırılması
da ara tırma kapsamındadır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
10
Mevcut
Hesaplamalı Dilbilim
3
Enformasyon Bilim
Alt U ra lar
Enformasyon
Yönetimi
Sıkı tırma
E Anlam
Sınıflandırma
Geri-Get. Mod.
Kelime
Gurubu
Sözdizim
Cümle
Unsuru
6
Anlam
Enformasyon
Ölçütleri
Sözlük
Birlikte
Gözükme
Göz-Atma Hiz.
Enformasyon
Geri-Getirim
Etkile imi
Biçim
Sözcük
Türü
Durma Listesi
Simgeleme
Gövdeleme
Dilbilimsel analiz sıralaması
Simülasyon
Bilgi
Geri-Getirim
Alt U ra lar
Ara tırma Sah.
5
çerik Anal.
Söylev,
Pragmatic
Dosya Yap.
BGG Sistemi
( Çekirdek Bile enler )
5
7
çerik Analizi
HEDEF
Ba arı Ölçüm
8
ekil 1.1: Enformasyon bilim ve hesaplamalı dil-bilim sahalarının etkile imleri. Dolgulu ekiller tez kapsamını göstermektedir.
ekillerin sa üst kö esinde yıldız içindeki sayılar, konunun tez akı ında anlatıldı ı bölüm numarasıdır. Alt u ra lar
sadece hesaplamalı dil-bilim için, yalın bir metnin analiz sırasını verecek ekilde betimlenmi tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
11
Bu tezde, ara tırma konusu kapsamında yapılan çalı malar
maddeler halinde u ekilde sıralanabilir:
1. Türkçe yazılı metinlerin otomatik tespiti. Herhangi bir çok dilli yazılı
belge toplulu undan, Türkçe belgelerin otomatik olarak tespit
edilmesi.
2. Türkçe belgelerin simgele tirilmesi (tokenization). Yazılı Türkçe
belgelerin yalın halinden, hesaplamalı dil-bilim uygulamaları için
uygun olan hesaplama birimlerine (kelime, sayı, v.b.), yani
hesaplama simgelerine dönü türülmesi ve cümle sonlarının tespiti.
3. Sözcük-türü enformasyonunun sayısal belge temsili içinde
kullanılabilmesi, yazılı belgelerden elde edilen simgelerin, özellikle
kelimelerin dil-bilimsel temel türlerinin belirlenmesi ile elde edilen
enformasyonun sayısal belge temsilinde içerilmesidir. Tez
kapsamında ele alınan dokuz temel sözcük/kelime türü unlardır:
isim (noun), özel isim (proper noun), fiil (verb), sıfat (adjective),
zarf/belirteç (adverb), zamir/adıl (pronoun), ba laç/rabıt
(conjunction), soru (Question), edat/ilgeç (preposition). Temel
kelime türlerinin yanı sıra simge olarak ele alınan di er birlikler de
unlardır: rakamlar, kısaltmalar (abbreviations) ve noktalama
i aretleri (punctuations).
4. Türkçe için Gövdeleme Yöntemi (stemming): Türkçe yazılı
metinlerde, aynı anlamı ta ıyan ancak yazımda dilbilgisi kuralları
gere i çe itli i levsel ili kilerin kurulması için ek alarak farklı
ekillerde gözlenen kelimelerin, ortak bir biçim, yani ekil birli i
altında toplanması. Bu ekilsel birlik, genel olarak dilbilimde kelime
gövdesi olarak kabul edilir. Ancak, bilgi geri-getirim
uygulamalarında ortak eklin her zaman anla ılır bir kelime olması
artı olmadı ı da burada belirtilmesi gereken bir durumdur: örne in
n-gramlar cinsinden metinlerin indekslenmesi veya tüm kelimelerin
yazılı ekillerinin ba tan itibaren belirli sayıda bir harf uzunlu una
kadar alınması ve geri kalan kısmın atılması durumlarında, anlamlı
birlikleri söz konusu de ildir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
12
5. Kelime/Sözcük Türlerinin Tespiti (Part-of-Speech Tagging): Türkçe
metinlerde, her kelime için, o kelimenin olası kelime türleri içinden,
bir cümlenin söz-dizimsel akı ı içinde i levsel görevlerine uygun
olanının seçimi. Örne in, bir ismin bir ba ka ismi vasıflandırmak
için önüne geldi i durumlarda, isim görevi yerine sıfat görevi
gördü ünün belirlenmesi.
6. Kelime gurubu enformasyonunun sayısal belge temsili içinde
kullanılabilmesi. Kelime gurupları, yazılı belgelerde birden fazla
kelimeden olu an ve bütün halinde kar ılanan bir anlam birli ini
temsil eder. Yazılı Türkçe’de kelime guruplarının çe itleri oldukça
zengindir. Ancak bu tez kapsamında “kelimelerin gurup halinde dilbilimsel tutarlılık içinde bulunması” enformasyon olarak kabul
edilmekte, grubun dil-bilimsel açıdan alt tanımlamaları ayrı ımına
gidilmemektedir.
7. Cümle unsuru enformasyonunun sayısal belge temsili içinde
kullanılabilmesi. Türkçe’de cümle unsurları fiil, fail (özne), nesne,
yer tamlayıcısı ve zarftır. Fiil ve fail bir cümlenin esas unsurları,
nesne, zarf ve yer tamlayıcısı da cümlenin yardımcı unsurlarıdır.
Yazılı bir cümlede bu temel unsurlardan ba ka bir de edatlar
bulunabilir.
8. Genel statistikler: Bu çalı ma, 5., 6. ve 7. maddelerde öngörülen
dilbilgisi enformasyonun kullanımını mümkün hale getirecek alt
yapıyı hazırlamaktadır. Genel istatistikler aslen Zipf birinci ve ikinci
ilkesinin Mandelbrot yorumları ile birlikte, elimizdeki derlemler
üzerinden incelemesini içermektedir. nceleme iki ana bölümden
olu mu tur:
8.1. Zipf ve Mandelbrot
incelenmesi.
üzerinden
birinci
güç
kanunun
8.2. Zipf ikinci kanunu üzerinden, kelime da arcı ı incelemeleri ve
frekans esasında indeks terim seçimi.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
13
9. Deneysel Derlem hazırlama: Türkçe için bilgi geri-getirim
ba arımının ölçümünde kullanılacak, dilbilgisi özellikleri
i aretlenmi bir derlem bulunmamaktadır. Hesaplamalı dilbilim
sahası için Orta Do u Teknik Üniversitesi (ODTÜ) ve SABANCI
üniversitelerinin ortak çalı ması ile gerçekle tirilmi bir derlem,
sadece dilbilgisi özellikleri kodlanmı olarak mevcuttur. Kısaca
OSTAD olarak adlandırdı ımız bu derlemde: kelimelerin
biçimbirimsel analizi (morphology), dolayısı ile kelime türleri ve
ayrıca cümle unsurları i aretlenmi tir. Tez çalı mamızda
kullanılmak üzere, derlem içinde indeks terim olan kelimelerin
i aretlenmesi de, yazar tarafından “elle” yapılmı tır.
Tezde dilbilimsel özelliklerin sınanması amacı ile iki Türkçe
deneysel derlemden faydalanılmı tır. Birinci derlem, Bilkent
Üniversitesinde hesaplamalı dil-bilim çalı malarının “sonucu” olarak
otomatik ekilde i aretlenmi yakla ık 850,000 simge-birli i içerendir
(Hakkani-Tür et. al, 2002). Tez içinde bu derlem BilTD kısa adıyla
geçmektedir (Bilkent Türkçe Derlemi) kinci derlem ise hesaplamalı
dilbilim ara tırmalarını desteklemek amacına yönelik ODTÜ ve
Sabancı üniversitelerinin ortak çalı masıdır (Atalay et al., 2003;
Oflazer et al., 2003). Bu derlem tamamı elle i aretlenmi 7262
cümleden olu maktadır. Tez içinde derlem, OSTAD (ODTÜ Sabacı
Türkçe A aç Yapılı Derlemi) kısa adıyla geçmektedir. Genel
istatistikler ba lı ı altında kullanılan bir üçüncü derlem daha vardır:
ODTÜ derlemi. ODTÜ derlemi yakla ık 2.5 milyon birlikten
olu maktadır. Aslen OSTAD, bu derlemden seçilmi bazı paragraflarla
olu turulmu tur. Fakat, ODTÜ derleminde hiçbir dilbilgisi özelli i
i aretli de ildir. Bu yüzden sadece genel istatistiklerin alınması
a amalarında kullanılabilmektedir.
Bilgi geri-getirim uygulamalarının merkezinde bulunan konu,
sorgu ile belgeler arasında sistemin kurmak zorunda oldu u alakadır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
14
Alaka kavramı ise do asında öznellik ta ır (Baeza-Yates and RibeiroNeto, 1999). BGG sistemlerinin ana hedefi kullanıcının, yani ki ilerin
enformasyon ihtiyaçlarını kar ılamaktır. Bu yüzden bir ki inin kendi
ihtiyaçları ile alakalı buldu u enformasyon, bir ba ka ki i için pek o
kadar da alakalı olmayabilir. Dahası, ki iler sıklıkla verilen bir sorgu ile
geri-getirilen belgelerin alakalı oldukları konusunda anla mazlık
gösterirler (Hersh et al., 1995). Ki iler arasındaki anla mazlı ın ortaya
çıkması ihtimali, belgeler ile sorgular arasındaki alakanın mutlaklıktan,
bir derece alakalı olu a do ru gidi i yönünde artı gösterir. Ayrıca,
alaka sadece sorgu ve eldeki belge toplulu una ba lı da de ildir;
alakaya karar veren ki inin o anki istekleri, yani ihtiyaç ba lamı ile de
yakından ili kilidir. Belirtildi i gibi “BGG sistemlerinin hedefinde
insanların enformasyon ihtiyacını kar ılamak” oldu u için, söz konusu
öznellikten kurtulmanın bir yolu da yoktur. Bu yüzden bilgi geri
getirim sistemlerinin ba arımlarının ölçülmesi sorunlu bir durum te kil
eder.
BGG sistemlerinde kullanılan genel ba arım ölçütleri (Bölüm 8):
Anma (recall) ve duyarlıktır (precision). Anma ve duyarlılık ile ba arım
ölçümünde iki temel mesele kar ımıza çıkmaktadır:
1. Ölçütlerin kullanılabilmesi için, derlemdeki her belge ile ba arım
ölçümünde kullanılacak tüm sorgular arasındaki alaka kararının
önceden verilmesi gerekir; ancak bu kararı sadece insanlar
verebilmektedir.
2. Sorgular ve belgelerin alakalı olu ları ile ilgili insanlar tarafından
verilen kararlar ki iseldir; dolayısı ile bir BGG sisteminin ba arım
ölçümünün nesnel (objektif) olması için alaka kararını birden fazla
ki inin vermesi gerekir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
15
James ve arkada ları (2003) tarafından SIGIR kongresinde BGG
sistemlerinin
geli tirilmesi
için
daha
büyük
derlemlerin
olu turulmasının neden mesele olarak gündeme getirildi i de böylece
netli e kavu maktadır. BGG u ra ları için derlem hazırlamak, ba arım
ölçütleri anma ve duyarlılık oldu u sürece, çok maliyetli ve kalabalık
çalı ma guruplarının uzun zaman üzerinde u ra ması gereken bir konu
olarak kalacaktır. Türkçe için nesnelli ine güvenilebilecek, eri imi
serbest, standart olmu bir BGG sistem ba arım ölçüm derlemi, ne
yazık ki yoktur! Mesele aslında sadece Türkçe’nin de ildir, üzerinde az
u ra ılmı di er diller içinde geçerlidir (Çok çalı ılmı ngilizce ile
orta-Avrupa dillerini çıkardı ımızda, geriye kalan üzerinde az
çalı ılmı yakla ık 300 dil). Bir bakıma ba arım ölçütlerinin bu hali ile
kalmasının bir ekonomi yarattı ı da dikkat çeken bir gerçektir! Fakat
ekonomisi bir yana, BGG sistemlerinin ba arımlarını daha dü ük
maliyetlerle ve nesnel olarak ölçmek için bir yol daha vardır, o da
matematiksel/istatistiksel bir ölçüm yöntemi örne i geli tirmektir.
Bu tezde ba arım ölçütü olarak kullanaca ımız yöntem olan
üstel-puanlama (Meta-Scoring) matematiksel/istatistiksel yöntemler
sınıfına girmektedir ve ne yazık ki tektir (Jin, 2001). Carnegie Mellon
üniversitesinde, dilbilim teknolojileri enstitüsü ve bilgisayar bilimleri
bölümünün ortak çalı ması ile geli tirilen bu yöntem, anma ve
duyarlılık ölçütlerinin tüm olumsuz yönlerinden arındırılmı tır (Bölüm
7.3). Yöntem saklı-anlam-indeksleme (LSI-Latent Semantic Indexing,
Bölüm 5.2) geri-getirim yönteminin esas aldı ı matematiksel kurguya
göre biçimlendirilmi tir.
Tezin anlatım akı ı genel olarak iki parçaya ayrılmı tır: Parça-1
içinde kuramlar, yöntemler v.b. teze esas olu turan temel konular yer
almaktadır. Parça-2 içinde ara tırma konusu kapsamındaki çalı malar
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
16
ve sonuçları vardır. Okuyucu Parça-1’i atlayıp, Parça-2’ye geçebilir.
Parça-2’deki ara tırmaların akı ı içinde, Parça-1’e yapılan atıf
noktalarından geriye dönerek de Parça-1’den faydalanabilir. Bu durum,
anlatım akı ını bozmaz. Her iki parçayı olu turan bölümler ve içerikleri
a a ıdaki gibidir:
PARÇA-1
BÖLÜM-2 :
BÖLÜM-3 :
Türkçe: Türkçe’nin teze esas olan dilbilgisi
özelliklerinin tanıtımı.
Enformasyon: BGG sahasında ve
enformasyon bilim altında ele alınan di er
sahalarda, uygulamaların temelini olu turan
enformasyon fikrinin kavram olarak çok
yönlü tanımı.
Enformasyon Kuramı: Enformasyon fikrinin
matematiksel kuramı, enformasyon ileti im
modeli ve ili kili konular: düzensizlik
(entropy), istikrarsızlık (perplexity) v.b.
kavramlar.
BGG Sistemleri: BGG sahasının detaylı
kapsamı ve tanıtımı. BGG sistemlerinin
genel kurgusu ve yapı unsurlarının tanıtımı.
Geri-getirim Modelleri: BGG sistemlerinde
kullanılan geri-getirim modellerinin
sınıflandırması ve teze esas te kil eden gerigetirim yöntemlerinin detaylı tanıtımları.
ndeks terim a ırlıklandırma yöntemleri.
BGG sistemlerinde kullanılan “çıktı”
sıralama yöntemleri.
ndeksleme ve ndeks terimler:
Enformasyonun temsil yolu olarak
indeksleme u ra ının genel tanıtımı, elle
indeks terim seçimi ve BGG sahasında
otomatik indeks terim seçimi konuları,
kelimelerin kuramsal da ılımları ile ilgili
yakla ımlar ve ili kili olarak belge içeri ini
temsilde “önem” belirleme yöntemleri.
BGG sistemleri için sayısal belge temsili ve
olu turulmasında kullanılan alt süreçlerin
tanıtımı.
BÖLÜM-4 :
BÖLÜM-5 :
BÖLÜM-6 :
BÖLÜM-7 :
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
BÖLÜM-8 :
17
Ba arım Ölçütleri: BGG sistemlerinin
ba arım ölçümünde kullanılan anma ve
duyarlılık kavramlarının tanıtımı ve bu
kavramları esas alan ba arım ölçütleri.
Anma ve duyarlılık kavramını esas almayan
ve tezde ba arım ölçütü olarak kullanılan
üstel-puan (Meta-Score) yöntemi.
PARÇA-2
BÖLÜM-9:
Geli tirilmi Yöntemler: Tez konusu
kapsamında geli tirilmi genel amaçlı
yöntemlerin (Türkçe tespiti ve simgeleme)
ve hesaplamalı dilbilim yöntemlerinin
(gövdeleme ve sözcük türü tespiti) tanıtımı,
ba arım sonuçları.
Genel statistikler: Tezin ara tırma konusu
kapsamına giren u ra lara esas olu turacak
kavramlarla ilgili tüm istatistikler: Zipf ve
Mandelbrot denklemleri ile Türkçe
derlemlerin uyum sınamaları; Türkçe
derlemlerin kelime da arcı ının açık/kapalı
olu una dair kabullenmenin deneysel
sınamaları. Sözcük-türü, cümle unsuru ve
kelime guruplarının derlem içinde genel
da ılımsal istatistikleri.
ndeks Terim Seçimi: Sözcük türü, cümle
unsuru ve kelime gurupları ile ta ınan
enformasyonun, indeks terimler üzerindeki
olasılık da ılımları. Dilbilgisi özellikleri ile
sa lanan katkıların a ırlıklandırma için
kullanım yöntemleri.
Sonuç: Tez konusu kapsamında yapılan
ara tırmaların özet sonuçları.
Geli im Noktaları ve Tartı ma: Tez
kapsamında ele alınan konularda, geli im
için açık olan konular ve genel tartı malar.
BÖLÜM-10:
BÖLÜM-11:
BÖLÜM-12:
BÖLÜM-13
18
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
19
2. TÜRKÇE4
Dünya üzerinde konu ulan dillerin, aynı men eden gelenleri bir
gurup altında toplanır. Bu guruplama ile diller, birbirleri ile ili kili ve
yakın olanları bir aile kabul edilerek, bir dil aileleri sınıflandırması
te kil ederler. Dünya üzerinde konu ulan dillerin aileleri unlardır:
1. Hint – Avrupa dilleri ailesi: Bu dil ailesinin içine Macarca, Fince ve
di er bazı küçük ülkelerin dilleri dı ında kalan bütün Avrupa dilleri
ile Asya dillerinden Farsça ve Hindistan’da mevcut bir çok dil girer.
Adından da anla ılaca ı gibi Hint – Avrupa dilleri ailesi biri
Avrupa’da, di eri Asya’da olmak üzere iki büyük kola ayrılır.
1.1. Avrupa kolu: Germen dilleri, Roman dilleri ve slav dilleri
olmak üzere üç büyük kol vardır.
1.2. Germen dilleri kolu: Almanca, Felemenkçe,
skandinav dilleri girer.
ngilizce ve
1.3. Roman dilleri kolu: Ana dil Latince’dir. Bugün ya ayan ba lıca
diller ise Fransızca, spanyolca, Portekizce, talyanca ve
Rumence’dir.
1.4. slav dilleri kolu: Rusça, Bulgarca, Sırpça, Lehçe gibi diller.
1.5. Yunanca, Arnavutça, Keltçe, Litvanca ve Hititçe de Avrupa
koluna ait dillerdir.
1.6. Asya kolu: Hint dilleri, Sanskritçe, Farsça ve Ermenice bu kola
giren dillerdendir.
2. Sami dilleri ailesi: Akadca, branice, Arapça gibi diller bu aile içine
girer.
4
Bu bölümde yer alan tüm konular ve içerikleri, Muharrem Ergin (1999) tarafından
yazılmı olan “Türk Dil Bilgisi” kitabından alıntıdır. Alıntılarda, içerik tez kapsamına
uygun ekilde özetlenerek yazılmı tır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
20
3. Bantu dilleri ailesi:Afrika’daki en büyük dil ailesidir ve orta ve
güney Afrika’da konu ulan Bantu dilleri bu aileyi te kil eder.
4. Çin – Tibet dilleri ailesi: Çin ve Tibet dilleri.
Diller yapı bakımından da guruplara ayrılmaktadır. Dünya
üzerindeki diller yapı bakımından da üçe ayrılırlar:
1. Tek heceli diller : Bu guruptaki dillerde, her kelime tek heceden
olu ur. Kelimelerin çekimli halleri yoktur. Cümle bir çekimsiz ve
tek heceli kelimeler silsilesinden ibarettir. Cümlenin ifade etti i
mana genelde kelime sırasından anla ılır. Kelimelerin di er dillerde
çekimli halleri ile ifade edilen halleri ya hiç ifade edilmez veya ayrı
bir kelime ile ifade edilir. Çin – Tibet dilleri bu guruba girer.
2. Eklemeli diller : Eklemeli dillerde tek veya çok heceli kelime kökleri
ile ekler vardır. Kelimelerden yeni kelimeler veya kelimelerin
geçici halleri yapılırken köklere ekler getirilir. Bu ekleme sırasında
kökler de i mez, köklerle ekler açık ekilde belirlenebilir. Bu diller
ön-ekli veya son-ekli olabilir. Türkçe, Macarca gibi diller eklemeli
dillerdendir. Türkçe son ekli, eklemeli bir dildir.
3. Çekimli diller : Çekimli dillerde de tek veya çok heceli kökler ve bir
takım ekler vardır. Yeni kelimeler yaparken ve çekim sırasında
genellikle köklerde bir de i iklik olur. Hint – Avrupa dilleri böyle
dillerdir. Sami dilleri, örne in Arapça da bu guruba girmektedir.
Dünya dilleri arasında Türkçe’nin içine girdi i gurup Ural-Altay
dilleri gurubudur. Ural – Altay dilleri yukarıda bahsedilen dil aileleri
gibi sa lam bir aile özelli i göstermezler. Mesela Hint – Avrupa dilleri
arasındaki yakınlık bu dillerde yoktur. Ural – Altay dilleri arasındaki
yakınlık bir men e birli inden daha çok bir yapı birli idir. Onun için bu
diller bir dil ailesi olarak de il, bir dil gurubu olarak ele alınmaktadır.
Ural – Altay dilleri için bir aile olmak için gerekli olan men e birli i
kuvvetli bir ihtimal olmakla beraber, henüz kesinle mi de ildir. Ural –
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
21
Altay dilleri eklemeli dillerdir. Ayrıca, hepsinde aynı derece de olmasa
da, bir sesli uyumu vardır ve Hint – Avrupa dilleri etkisinde kalmamı
olanlar dı ındakilerde, kelime sırası genel olarak aynıdır. Ural – Altay
dilleri, Ural ve Altay olmak üzere iki kola ayrılır.
1. Ural kolu: Fin – Ugur ve Samoyed olmak üzere ikiye ayrılır.
1.1. Fin – Ugur kolunda: Fince, Macarca, Ugurca ve Permce vardır.
1.2. Samoyed kolunda ise çe itli kolları ile Samoyedce vardır.
2. Altay kolu: Mançuca, Mo olca ve Türkçe’dir.
Özetle Türkçe, Ural – Altay dil gurubunun Altay koluna ba lı,
sondan ekli, eklemeli bir dildir. Altay dilleri içinde Türkçe’ye en yakın
olan Mo olca’dır.
2.1. Türkçe harfler ve Alfabe
Türkçe alfabe toplam 29 harften olu mu tur ve genel sırası ile u
ekildedir: a b c ç d e f g h ı i j k l m n o ö p r s t u ü v y z. Bu harfler
ses özellikleri bakımından iki guruba ayrılırlar: sesliler/vokaller ve
sessizler/konsonantlar.
Türkçe alfabede bulunan harflerden 8 tanesi seslidir (vokal): a e ı
i o ö u ü. Geriye kalan 21 tanesi de sessizdir (konsonant): b c ç d f g
j k l m n p r s t v y z.
h
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
22
2.2. Heceler ve kelimeler
Dildeki sesler birbiri ardına gelerek anlamlı veya bir dilbilgisi
i levi görevinde kendilerinden daha büyük birlikler meydana getirirler.
Daha büyük birlikleri meydana getirmek üzere yan yana gelen seslerin
birle meleri, onların müstakil olarak, birbirlerinden ayrı arka arkaya
gelmeleri eklinde olmaz. Bir kenetlenme, bir silsile halinde ortaya
çıkarlar. Dilbilimsel birlikteki sesler, aralarında bo luklar olmayacak
ekilde ba lanırlar. Bu kayna ma ve zincirleme birle meler vokal
etrafında toplanır. Bir vokal ile birle en veya bir vokal etrafında
toplanan di er sesler sıkı bir ekilde birbirleri ile kayna ır. te böyle,
bir vokal etrafında meydana gelen ses birle melerine hece denir. Hece
tek vokalden meydana gelmedi i durumlarda, bir vokal ve bir veya
birden fazla konsonant tarafından meydana getirilir. Bir kelime e er bir
heceden olu muyorsa hecelerin arka arkaya gelmesi ile te kil edilir.
Fakat böyle daha büyük dilbilimsel birlikleri meydana getirmek için
birle en heceler içinde kayna ma sıkı; ancak heceler arasında daha
zayıftır. Heceler arasındaki bu eklenti, sa lam bir birle meden çok arka
arkaya bir söyleyi ten ibarettir. Bir benzetme ile anlatacak olursak;
“Heceler içinde sesler birbiri ile bir zincirin halkaları gibi, fakat heceler
birbiri ile bir tespihin taneleri gibi birle irler.”
2.2.1. Türkçe Heceleme
Türkçe’de bir hece içinde en az bir, en çok dört ses bulunur. Bir
ve dört sesli olarak birer tip, iki ve üç sesli olarak da iki er tip hece
vardır. Böylece, Türkçe’deki hece tiplerinin sayısı altıdır. “V” vokal
için, “K” konsonant için gösterim olarak kullanılacak olursa bu
hecelerin ekilleri öyledir; V, VK, KV, KVK, VKK, KVKK.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
23
Türkçe’nin de i ik heceleme desenleri için verilebilecek
örnekler: o, a (V); ol-, al- (VK); bu, u (KV); bal, kal- (KVK); art, erk
(VKK); kalk-, sarp (KVKK).
2.3.
ekil yapısı bakımından kelimeler
ekil yapısı bakımından ele alınınca kelimelerin bünyesinde,
anlamlı veya vazifeli bir takım ekiller vardır: göz-lük, gör-ü , aç-ı-k,
ev-i-m kelimelerinin parçaları gibi. Anlamlı ekiller tek ba larına
kullanılabilirler ve bir anlam ifade ederler. Vazifeli ekiller ise anlamlı
ekillerle birle erek kullanılan ve ancak o zaman anlam ile ilgili bir
vazife gören, fakat tek ba larına anlamı olmayan ve kullanılmayan
kelime parçalarıdır.
Kelime yapısında tek ba ına anlamlı olan sesbirimsel ekillere
kök adı verilir. Tek ba ına manası olmayan ve kullanılmayan, ancak
köklerle birle mek suretiyle mana ile ilgili bir vazife gören ekillere ise
ek denir. Kök, bir kelimenin anlamı ve yapısı bozulmadan
parçalanamayan ekli, manalı en küçük dil birli idir. Kökler tek
ba larına veya eklerle birle mek suretiyle kullanılır. Mesela göz-lük
kelimesinde göz kök, -lük ektir.
2.3.1. Kökler ve Gövdeler
Kökler anlamları bakımından ikiye ayrılırlar: isim kökleri ve fiil
kökleri. sim kökleri evrendeki canlı cansız varlıkları ve kavramları
kar ılayan köklerdir. Fiil kökleri ise, bu varlık ve kavramların
hareketlerini kar ılar. Nesneler kendi kendilerine var olan, ba ımsız
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
24
unsurlardır. Hareketler ise kendi kendilerine var olmayıp nesnelerden
do an, nesnelere ba lı bulunan, varlıkları nesnelerle kaim olan
unsurlardır.
sim ve fiil kökleri arasındaki bu mana farkı onların dildeki
kullanı larına da etki eder. sim kökleri tek ba larına kelime olarak
kullanılabilirler. Fiil kökleri ise, tek ba larına kullanılı sahasına
çıkamazlar. Mutlaka nesnelere, ahsa, zamana v.s. ‘ye ba lanarak
vazife görürler ki, bu ba lanı ta fiil köklerine bir takım ekler getirmek
suretiyle olur.
Dilde nesnelerin ve hareketlerin hepsi için ayrı kökler bulunmaz.
Birbiriyle ilgili bir gurup nesne veya hareket için bir kökten türemi bir
kelime ailesi bulunur. Kökler kendileri ile ilgili yakın nesne ve
hareketler için geni letilip, yeni kökler meydana getirirler. Köklerden
türeyen bu geni köklere kelime gövdesi adı verilir. Gövde de bir çe it
kök oldu u için, mana veya kullanı bakımından tamamı ile kök
gibidir. Yalnız ekil bakımından kökten farklı ve ondan büyük bir dil
birli idir. Gövdeler, hem isim köklerinden hem de fiil köklerinden
yapılabilirler. sim köklerinden hem isim gövdeleri, hem de fiil
gövdeleri, fiil köklerinden hem fiil hem de isim gövdesi olu turulabilir.
Yani, yapı bakımından dört çe it kelime gövdesi vardır: simden
yapılmı isim, isimden yapılmı fiil, fiilden yapılmı
yapılmı fiil.
isim, fiilden
2.4. Anlam veya Görev Bakımından Kelimeler
Türkçe’de anlam veya görev bakımından üç çe it kelime vardır:
isimler, fiiller ve edatlar. Türkçe’deki her kelime muhakkak bu üç
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
25
kelime çe idinden birine girer. Bunlardan isimler ve fiiller anlamları
olan, edatlar ise görevleri olan kelimelerdir.
simler,
nesneleri
kar ılayan
kelimelerdir.
Burada
nesne
kavramını, eylem dı ında kalan her ey için kullanıyoruz. Nesneler de
kendi içinde bir takım sınıflara ayrılırlar. Çe itli nesneler vardır. Bu
çe itli nesneleri kar ılamak için kullanılan isimler de kendi aralarında,
kar ıladıkları nesnelerin anlamlarına uygun olarak kelime çe itlerine
ayrılır. Varlıkların ve kavramların adı olarak nesneleri kar ılayan
isimlere dar anlamı ile isim, vasıflandırmak veya belirtmek suretiyle
nesneleri kar ılayan isimlere sıfat, temsil veya i aret etmek suretiyle
nesneleri kar ılayan isimlere zamir, hal ve durumları kar ılayan
isimlere zarf denir. Dolayısı ile geni anlamda isim adı altında
topladı ımız kelimeler, kendi içinde dörde ayrılır: isimler, sıfatlar,
zamirler ve zarflar.
Fiiller hareketleri kar ılayan kelimelerdir. Hareket kelimesini de
tabii geni anlamda kullanıyor ve nesnelerin zaman ve mekan içindeki
her türlü olu ve yapı ları veya olmayı ve yapmayı ları kar ılı ı olarak
alıyoruz. Evrende bir nesne, bir de eylemler, yani hareketler vardır.
Nesne dı ında kalan her ey harekettir.
Edatlar tek ba larına hiçbir eyi kar ılamayan kelimelerdir. Yani
edatların tek ba larına anlamları yoktur. Edatlar ancak isimler ve
fiillerle birlikte kullanılırken bir anlam kazanırlar. Edatlar anlamlı
kelimelerin, yani isimlerin ve fiillerin ili kileri sırasında onlara yardım
eden, dilbilgisi içinde görevleri olan kelimelerdir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
26
2.5. Kelime Gurupları
sim ve fiil cinsinden bütün kelimeler nesneleri ve hareketleri
kar ılayan, onların adları olan dil birlikleridir. Tek bir kelimenin
kar ıladı ı nesnenin ve hareketin çe itli vasıfları, özel durumları,
cepheleri, artları vardır. Nesneleri ve hareketleri bu çe itli yönleri ile
daha geni olarak ifade etmek için tek kelimeden daha geni dil
birliklerine ihtiyaç duyulur. Ayrıca tek kelimenin kar ıladı ı
nesnelerden ve hareketlerden daha büyük, daha geni nesneler ve
hareketler vardır ki onlar tek bir kelime ile kar ılanamazlar. Onların tek
kelime olarak kar ılıkları, adları yoktur; ancak tek kelimeden daha
geni dil birlikleri ile ifade edilebilir, adlandırılabilirler. te tek kelime
ile kar ılanan nesneleri ve hareketleri daha geni olarak ifade etmek
veya tek kelimenin kar ıladı ı nesnelerden ve hareketlerden daha geni
nesneleri ve hareketleri kar ılamak için, kelimeden daha geni dil
birlikleri olan kelime guruplarına ba vurulur.
Kelime gurubu birden fazla kelimeyi içine alan, yapısında ve
anlamında bir bütünlük bulunan, dilde bir bütün olarak i lem gören bir
dil birli idir. Kelime gurubu için birden fazla kelime bir takım
kurallarla belirli bir düzen içinde yan yana getirilir. Böylece, belirli bir
düzenle kuruldu u için, kelime gurubunun yapısında bir bütünlük olur.
Bütünlük, özellikle gurubun anlamında göze çarpar. Kelime gurubunun
kullanılı ında da bu bütünlük korunur. Kelime gurubu kelimelerle ve
di er kelime gurupları ile bir bütün halinde ili kiye geçer. Cümlelere
bir bütün halinde katılır. Kullanımında tek bir kelime gibi çekime tabi
tutulur, sona gelen i letme eki bütün gurubu ümulü içine alır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
27
Kelime gurupları nesneleri ve hareketleri daha geni olarak veya
geni nesneleri ve hareketleri belirtmek için kullanıldıklarına göre
bunlar birer belirtme gurupları’dır. Tek bir nesneyi veya hareketi
belirtmek için, bu guruplar içinde yan yana gelen, birbirine ba lanan
kelimeler, bir i birli i yapar, birbirine yardım eder, birbirlerini
tamamlarlar. Bir belirtme, bir yardım, bir tamamlama esası üzerine
kurulan kelime guruplarında genellikle belirten-belirtilen, tamamlayantamlanan, tabi olan-tabi olunan, asıl-yardımcı olmak üzere iki unsur
bulunur.
Türkçe’de kelime gurupları içinde yan yana gelen kelimelerin
sırasını tayin eden temel kanun udur: Türkçe’de yardımcı unsur asıl
unsurdan önce gelir. Türkçe söz-dizimin bütün yapısı bu ana kanun
üzerine kurulmu tur. Bütün kelime gurupları ve cümlede belirtilen,
tamlanan, tabi olunan, asıl unsur sonda; belirten, tamamlayan, tabi olan,
yardımcı unsur ba ta bulunur. Türkçe’de yalnız ki’li birle ik cümle bu
kuralın dı ında kalır. Çünkü ki’li birle ik cümle yabancı asıllıdır.
Türkçe’ye girmekle beraber, Türkçe söz-dizimine dahil sayılmaz.
Türkçe’nin bu ana kanuna dayanan kelime sırası ancak, o da kelime
guruplarının bir kısmı ile cümlelerde olmak üzere, nazımda ekil
bakımından geçici olarak yerlerini de i tirebilir. Vezin, kafiye ve
ahenk gere i, nazımda ekil bakımından geçici olarak yerlerini
de i tiren unsurlar, kelime gurupları ve cümlelerdeki asıl çekim
ekillerini ve asıl sıra içindeki anlam ve i levlerini yine de korurlar.
Hangi sırada olursa olsunlar, iir okurken yine asıl normal sıraları
içinde idrak edilirler. Çünkü, Türkçe dü ünme sisteminde kelime
sırasının temelini olu turan kanun de i mez. Dil dü üncenin aynasıdır.
Türkçe de, Türkçe dü ünü ün aynasıdır. Onun için kelime sırası geçici
olarak ne ekle girerse girsin, asıl normal sırası ile idrak edilir.
Dü ünme sırası ile kelime sırası birbirinden ayrılamaz.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
28
Türkçe’nin ekler sistemi de tamamen bu kelime sırasına uygun,
bu kelime sırasını destekler bir bünyeye sahiptir. Bu durum özellikle,
isimlerle fiillerin ili kisinde açıkça görülür. Türkçe’de ili ki ekleri, isim
i letme ekleri olan iyelik, hal ve soru ekleridir. Bu ekler bazen ismi
isme, fakat çok defa ismi fiile ba ladıklarına göre, isim-fiil
münasebetinde daima isim önce, fiil sonra gelir. Soru eki de hal ekleri
gibidir. Kelime guruplarının büyük bir kısmında kelime sırası
Türkçe’nin ekler sistemiyle de sıkı sıkıya ba lıdır.
Türkçe’de bulunan kelime gurupları a a ıdaki ba lıklar altında
toplanır.
2.5.1. Aynen Tekrarlar
Tekrarlar aynı cinsten iki kelimenin arka arkaya getirilmesi ile
meydana gelen kelime guruplarıdır. Türkçe’de hemen her çe it
kelimeden tekrar yapılabilir. Tekrarların ba lıca dört i levi vardır:
kuvvetlendirme, çokluk, devamlılık ve ortalama/beraberlik.
2.5.2. Ba lama Gurubu
Ba lama gurubu sıralama ba lama edatları ile yapılan kelime
gurubudur. Bugün sıralama edatları ve, ile ve bir de ara ( ...’den ...’e
kadar) ifade eden Arapça ila kelimeleridir. Bu edatlarla birbirine
ba lanan iki unsur hep beraber ba lama gurubu te kil eder. Edat iki
unsurun arasına girer. Unsurlardan her biri, bir kelime veya kelime
gurubu olur. Unsurlar eklen ve e it olarak birbirine ba lanır. Sıralanan
unsurlar ikiden fazla ise ba lama edatı son iki unsurun arasına girer. Bu
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
29
edat da ancak ve olabilir. Di erleri ancak sıralanan iki unsur arasında
olabilirler. Bunlardan ila, “kadar” anlamında oldu u için yalnız sayılar
arasına girer. le ve ila genellikle isim unsurlarını ba larlar. Araya
girerek iki unsuru birbirine ba layan ve edatı ise her çe it kelime ve
kelime guruplarını, bu arada çekimli fiilleri ve cümleleri de birbirine
ba lar. Leyla ile Mecnun, Alinin babası ile Ahmet bey, yetmi ila
seksen, bin yüz ila bin iki yüz, sen ve ben; su, hava, ate ve toprak,
geldi ve gitti, ancak ve ancak gibi.
2.5.3. Sıfat Tamlaması
Sıfat tamlaması bir sıfat unsuru ile bir isim unsurunun meydana
getirdi i kelime gurubudur. Sıfat unsuru isim unsurunu vasıflandırmak
veya belirtmek için getirilir. Sıfat tamlaması eksiz bir birle medir. Her
iki unsurda ek almadan yan yana gelirler. Sıfat bu birle mede daima
teklik halde bulunur, sıfatların çoklukları yapılmaz. Sıfat tamlamasında
sıfat isim ba ına gelir; yani sıfat önce, isim sonra gelir. Tamlamanın
sıfat unsuru bir sıfat veya sıfat olarak kullanılan bir kelime gurubudur.
sim unsuru ise bir isim veya isim vazifesi gören bir kelime gurubudur.
En basit halde bir sıfat ve bir isim sıfat tamlaması olu turur. Sıfat
tamlamasında gurubun vurgusu sıfat üzerinde kalır: güzel yazı, üç ki i,
canım stanbul, güzelim bahar rüzgarı, büyük bir i , çok i lek bir
cadde, bahçede oynayan kom u çocu u, bu gün Karadeniz’den gelecek
olan vapur, arkada ları ile gezmeye giderken bindi i trenden dü üp
kolu kırılan orta okul ö rencisi, demir kapı, dolma kalem, altın saat,
evin önündeki a aç gibi.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
30
2.5.4. yelik Gurubu ve sim Tamlaması
Bu gurup iki isim unsurunun meydana getirdi i bir kelime
gurubudur. Bir ismin anlamının iyelik sistemi içinde ba ka bir isimle
tamamlanması esasına dayanır. Bir nesnenin ba ka bir nesnenin parçası
oldu unu, bir nesnenin ba ka bir nesneye ait oldu unu veya bir
nesnenin ba ka bir nesne ile tamamlandı ını ifade etmek için bu kelime
gurubuna ba vurulur. Gurubu meydana getiren iki unsurdan biri
tamlayan, di eri tamamlanandır. Bu gurup ekli bir birle medir.
Tamamlanan unsur daima iyelik eki ta ır. Tamamlayan unsur ise daima
genetif (ismin ilgi hali) halinde bulunur, fakat bu genetif bazen ekli,
bazen eksiz olur: stanbul ehr-i, ta -ın üst-ü gibi. Özetle iyelik gurubu
iyelik ekli bir isim unsuru ile genetif ekli bir isim unsurunun meydana
getirdi i kelime gurubudur.
yelik gurubunun bu ekilde her iki unsurunun da isim oldu u
durumlara isim tamlaması adı verilir. sim tamlaması iyelik gurubunun
üçüncü ahıs ile yapılan eklidir. Tamlaması ekli olan isim tamlamasına
belirli isim tamlaması, tamlayanı eksiz olan isim tamlamasına da
belirsiz isim tamlaması denir.
Belirsiz tamlamanın birle ik isim hükmünde olması dolayısı ile
bir çok yer, makam, müessese, memuriyet, kitap, e ya v.s. nesne
isimleri bu tamlama eklindedir: stanbul ehri, ordu kumandanı,
çalı ma bakanı, Edebiyat Fakültesi, Saraço lu, ipek böce i,
kahverengi, çama ır makinesi gibi. Böyle isimler ekli tamlayanla
yapılamamaktadır. Demek ki ekli tamlayan bir isim tamlamasını bir
isim haline gelmekten alı koymaktadır. Bunun sebebi ise tamlayanın
belirli olmasıdır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
31
2.5.5. Aitlik Gurubu
Bu gurup aitlik ekine dayanan bir kelime gurubudur. –ki aitlik eki
ile ondan önceki bir kelime gurubunun yalın hali, genetif veya lokatif
hali ile kurulur: tarihten önceki, ya lı adamınki, Anakara ile stanbul
arasında sefer yapan otobüslerinki örneklerinde oldu u gibi. Son
kelimesinin yalın, genetif veya lokatif hali –ki’yi kabul eden her kelime
gurubundan aitlik gurubu yapılabilir ve bu gurup, yapıldı ı kelime
gurubuna göre her geni likte olabilir. Kelime gurubu olarak tek ba ına
zamir olan aitlik gurubu, di er kelime guruplarında veya cümlede
zamir veya sıfat vazifesi görür.
2.5.6. Birle ik sim ve Birle ik Kelime
Birle ik isim, bir nesnenin ismi olmak üzere yan yana gelen
birden fazla ismin meydana getirdi i kelime gurubudur. Bir nesnenin
çok defa adı olan isimler, aynı nesneyi kar ılama, aynı nesneye beraber
ad olmak için do rudan do ruya, eksiz olarak yan yana gelirler ve
birle ik isim yaparlar. Birle ik isimler, Türkçe’de hep özel isimlerdir.
Bazı yer adları ile ikili, üçlü bütün ahıs adları Türkçe’nin birle ik
isimlerini meydana getirir: Afyon Karahisar, Mehmet Kaplan, Ahmet
Hamdi Tanpınar, Halide Edip Adıvar, Orhan Veli, Faruk Nafiz
Çamlıbel, Ta demir, Timurta , Demitta örneklerinde oldu u gibi.
Örneklerde de görüldü ü gibi, cins isimlerden yapılan birle ik isimler
birle ik kelime durumuna geçmektedir. Zaten cins isimlerden birle ik
isim yapmak, Türkçe’de yok gibidir. Onlar da, ancak özel isim haline
geçmi cins isimlerden yapılanlardır. Birle ik isim, aynı zamanda
Türkçe’de yalnız özel isimlerden yapılan kelime gurubudur da
diyebiliriz.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
32
2.5.7. Birle ik Fiil
Birle ik fiil bir yardımcı fiille bir isim veya bir fiil eklinin
meydana getirdi i kelime gurubudur. sim veya fiil unsuru önce,
yardımcı fiil sonra gelir. sim unsuru ile birle erek, birle ik fiil
olu turulması: yok et-, alay et-, kabul et-, reddet-, mahvet-, telefon et-,
sabreyle- var eyle-, yok ol-, mahvol-, hasta ol-, dost ol-, banyo yap-,
spor yap-, almı ol-, müteessir bulun-, yapmı bulun-, olmu bulun-,
gitmi bulun-. Fiil unsuru ile birle erek, birle ik fiil olu turulması: gele
bil-, saklaya bil-, konu a bil-; alı ver-, kaybolu ver-, yakalayı ver-,
isteyi ver-; kullanıla gel-, süre gel-, ola gel-; dü meyi gör-, yalvarı gör
, isteyi gör-, istemeyi gör-; yapa dur-, gide dur-, oynaya dur-; baka kal, kala kal-, a a kal-; gide koy-, otura koy-, alı koy-; durup dur-, gezip
dur-, ko up dur-.
2.5.8. Unvan Gurubu
Unvan gurubu bir ahıs ismi ile bir unvan veya akrabalık
isminden meydana gelen kelime gurubudur. ahıs ismi önce, unvan
veya akrabalık ismi sonra gelir. Her iki unsur da hiç ek almaz : Ahmet
bey, Hasan efendi, Mustafa Kemal Pa a, Nuri Çavu , Bayındır Han,
Babür ah, Fatma nine gibi.
Türkçe’de bir de unvan ve akrabalık isimlerinin ba a getirilmesi
vardır. Bu takdirde birle ik isim meydana gelir. Unvan veya akrabalık
ismi ahısın bir ismi durumuna geçer: Ba bakan Rü tü Saraço lu, Vali
Fahrettin Kerim, General Kazım Karabekir, Profesör Ahmet
Cafero lu, Binba ı Seyfi, Dede Korkut, Hoca Nasreddin, Molla Kasım,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
33
Sultan Fatih, Kraliçe Elizabet, Katil
örneklerindeki gibi.
brahim, Hırsız Hüseyin
2.5.9. Ünlem Gurubu
Ünlem gurubu bir seslenme edatı ile bir isim unsurundan
meydana gelen kelime gurubudur. Seslenme edatı önce, isim sonra
gelir. Eksiz bir birle me olur. Edat tek kelime halinde, isim unsuru ise
bir isim veya isim yerine geçen bir kelime gurubu halinde bulunur: a
beyim, be birader, be adam, bre kız, ey karde , hey Allah’ın kulu, ya
Ali, ey bu topraklar için topra a dü mü asker örneklerinde oldu u
gibi.
2.5.10. Sayı Gurubu
Türkçe’de sayılar üç ekilde kar ılanmaktadır: 1. tek kelime ile,
2. sıfat tamlaması, 3. sayı gurubu. Tek kelime ile kar ılanan sayılar bir,
iki, üç, dört, be , altı, yedi, sekiz, dokuz, on, yirmi, otuz, kırk, elli,
altmı , yetmi , seksen, doksan, yüz, bin, milyon, milyar v.s.’dir. Sıfat
tamlaması ile kar ılanan sayılar iki yüz, üç yüz, iki bin, bir milyon, bir
milyar v.s.’dir. Burada dikkat edilecek tek ey yüz ve bin’in aksine
milyon ve milyar’ın tek ba ına kullanılamaması, tek milyon ve milyar
için de bir milyon ve bir milyar denilmesidir. Sayı gurubu ile kar ılanan
sayılar ise i te bu tek kelimelik sayıların ve on’dan sonrakilerinin ve
sıfat tamlaması halindeki sayıların ara yerlerindeki sayılardır: on bir,
yirmi iki, otuz dört, yetmi be , bir milyon dört yüz, bin altı yüz yirmi üç
gibi.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
34
2.5.11. Edat Gurubu
Edat gurubu bir isim unsuru ile bir son çekim edatının meydana
getirdi i kelime gurubudur. sim unsuru önce, son çekim edatı sonra
getirilir. sim unsuru zamir veya isim olmasına ve edatın cinsine göre
çe itli hallere girer ve çe itli ekler alır. Edat ise, gurubun eksiz,
de i mez unsurudur. Edat unsuru daima tek kelimedir. sim unsuru tek
kelime olabilece i gibi isim yerine kullanılan bir kelime gurubu da
olabilir. u örnekler edat gurubudur: benim için, senin gibi, ta için,
onun güzel hatırı için, eve do ru, ye il gözleri ile, Ankara’dan
bildirildi ine göre, sessiz akan bir su gibi, on be gün kalmak üzere,
bundan dolayı, dün geceye dair, ko up oynamaktan ba ka.
2.5.12. snat (yükleme) Gurubu
snat gurubu biri di erine isnat edilen, yani biri di erine
yüklenen, dayanan, bindirilen, yaslanan iki isim unsurundan meydana
gelir. snat edilen unsur isnat olunandan, kendisine isnat yapılandan
sonra gelir. Kendisine isnat yapılan unsur ya yalın halde bulunur veya
iyelik eki almı olur. Bu unsur tek bir isim olabilece i gibi isim yerine
geçen bir kelime gurubu da olabilir. snat unsuru ise bir sıfat veya sıfat
yerine kullanılan bir kelime gurubu olur. u örnekler isnat gurubudur:
ba açık, ayak yalın, göz kapalı, üst ba peri an, omuzlar dü ük, gözü
açık, karnı tok, sırtı pek, etrafı yıkık, ba rı yanık, saçı uzun, aklı kısa,
alnı açık, ekeri az, sütü bozuk, canı tez, bütün duvarları ya lı boya,
bahçesinin dört yanı tellerle çevrili, ba ı bo , eli açık, baldırı çıplak,
geli igüzel, karnıyarık.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
35
2.5.13. Genetif Gurubu
Genetif eki ile birbirine ba lanan iki isim unsurunun meydana
getirdi i kelime gurubudur. Genetif ekli unsur önce, onun ba landı ı
yalın isim sonra gelir. Gurubun anlamı genetif ekinin ilgi i levine
dayanır. Gurup iyelik eki dü mü bir iyelik gurubu gibidir: bizim kız,
senin ev, benim at, Ahmet dayının o lan, sizin av köpe i gibi. Genetif
gurubunun her iki unsuru da tek bir isim olabilece i gibi, isim yerini
tutan bir kelime gurubu da olabilir. Gurubun vurgusu ikinci unsur
üzerinde bulunur. Bir yandan iyelik gurubuna yakla an genetif gurubu,
bir yandan da sıfatı kli ele mi bir genetif olan bir sıfat tamlamasına
benzemektedir. Aynı tipte guruplar olan datif, ablatif ve lokatif
gurupları da bu ekilde sıfat tamlamasında benzemektedir. Hepsinin
ikinci unsurda bulunan vurguları da bunu göstermektedir. Yalnız bütün
bu gurupları kısaltma gurubu olarak da saymak mümkündür. Genetif
gurubu kısalmı bir iyelik gurubu, datif, lokatif ve ablatif gurupları ise
kısalmı , kli ele mi birer fiil gurubu gibidirler. Zaten datif, lokatif ve
ablatif gibi eklerin normal i levleri ismi fiile ba lamaktır ve
bulundukları yerde bir fiil yoksa bir fiil ifadesi muhakkak bulunur.
Özellikle ikinci unsuru fiilden yapılmı bir isim olanlarla, –ma, -me ekli
olanlar aynı zamanda birer fiil gurubu durumundadırlar.
2.5.14. Datif Gurubu
Datif halindeki bir unsur ile ondan sonra gelen bir isim unsurunun
meydana getirdi i kelime gurubudur. Datifli unsur da, unsurda ya tek
bir isim veya isim yerini tutan bir kelime gurubu olur: dile kolay, ba a
bela, cana yakın, ate pahasına bir ö len yeme i, aslına uygun, keyfine
dü kün, ba ına buyruk, ana babasına ba lı gibi.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
36
2.5.15. Lokatif Gurubu
Lokatif eki almı bir isim unsuru ile ondan sonra gelen bir isim
unsurunun meydana getirdi i kelime gurubudur. Her iki unsurda ya tek
bir isim ya da isim yerine geçen bir kelime gurubu olur: geçmi te
bugün, dam üstünde saksa an, elde bir, yükte hafif, pahada a ır, i inde
usta, i inde usta, i inde gücünde adam, üçte iki, dörtte bir, be te üç,
onda bir, yüzde be , binde bir örneklerinde oldu u gibi.
2.5.16.Ablatif Gurubu
Ablatif eki almı bir unsurdan sonra gelen bir isim unsurunun
meydana getirdi i kelime gurubudur. Her iki unsurda ya tek bir isim
veya isim yerine geçen bir kelime gurubu olur: kafadan kontak,
do u tan sakat, yandan çarklı, anadan do ma, sonradan görme,
sıradan adam, gözden uzak, a ızdan dolma, candan arkada , yalandan
dostluk, içinden pazarlıklı, kendisinden çok emin, bunlardan biri,
e lencesine dü kün olanlardan hiç biri, içlerinden ço u, gençlerden
üçü gibi. Bu son örneklerde ikinci unsurun iyelikli olması dolayısı ile
iyelik gurubu i levinde bir gurupla kar ıla ıldı ı görülmektedir.
Birbirine çok benzeyen, i levleri bir gibi olan (bunların biri, bunlardan
biri) bu iki gurubun birbirine karı tırılmaması gerekir.
2.5.17.Kısaltma Gurupları
Bunlar kelime gurupları ve cümlelerin kısalması, yıpranması
neticesinde ortaya çıkan kelime guruplarıdır. Her hangi bir kuralları
yoktur. Daha geni bir guruptan kısalmı ve kli ele mi guruplardır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
37
Sayıları pek fazla de ildir: gün aydın, güle güle, günden güne,
ba tanba a, o gün bugün, yan yana, sırt sırta, omuz omuza, ba ba a,
el ele, ha a huzur, git gide, ba a a ı, eller yukarı, ileri mar , sola
çark, ba üstüne gibi.
2.5.18.Akuzatif Gurubu
Akuzatif gurubu akuzatif halindeki bir isim ile onun arkasından
gelen bir isim unsurundan meydana gelir. kinci unsur isimle yapılan
bir birle ik fiilin isim kısmı olur ve dolayısı ile geçi li fiil ifadesi ta ır:
her eyi borçlu, seni istikbal, yapılanı tenkit, kitabı birine ithaf gibi.
Görülüyor ki akuzatif gurubu partisip gurubu veya fiil gurubunun
kısalmı , yardımcı fiili dü mü eklidir. Onun için akuzatif gurubu da
bir kısaltma gurubu sayılabilir. Bu yüzden birinci unsurdan sonra araya
yer tamlayıcısı ve zarf unsurları da gelebilir: seni istasyonda istikbal,
kitabı her gün orada birine hediye, her eyi olur olmaz tenkit gibi.
2.6. Cümle ve Cümle Unsurları
Cümle bir fikri, bir dü ünceyi, bir hareketi, bir duyguyu, bir
hadiseyi tam olarak bir hüküm halinde ifade eden kelime gurubudur.
Yukarıda bahsedilen kelime gurupları belirtme gurupları idi. Cümle ise
hüküm gurubu’dur. Cümlenin temel fonksiyonu “hüküm” ifade
etmektir. Onun için cümle en tam, en geni kelime gurubudur.
Cümlenin varlı ı için asgari art bir çekimli fiilin varlı ıdır.
Çekimli fiil cümlenin varlı ı için gerekli ve yeterdir. Demek ki, çekimli
fiil olmak artı ile tek kelime de cümle olmaktadır: Geliyorum.;
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
38
Güzeldir. gibi. Çekimli fiilde, eklerin ahıs da ifade etmesi dolayısı ile
fiilden ba ka fail ifadesi de vardır. Onun için çekimli fiilden ibaret tek
kelimelik bir cümlede de, biri kapalı olmak üzere, fiil ve fail olarak iki
unsur var demektir. Bu iki unsur zaten cümlenin temel unsurlarıdır.
Varlıkları tam bir cümlenin varlı ı için yeterlidir.
Hükmü daha geni , daha etraflı, çe itli artları ile daha belirli
olarak ifade etmek için, cümle birden fazla cümle unsurundan meydana
getirilir. Cümle unsurları fiil, fail, nesne, yer tamlayıcısı ve zarf’tır.
Yani cümlede fiil ile onun gerektirdi i unsurlar bulunur. Hükmün
geni li ine göre cümlede, cümle unsurlarından biri, bir kaçı veya hepsi
bulunur. Fiil ve fail cümlenin esas unsurları, nesne, zarf ve yer
tamlayıcısı da cümlenin yardımcı unsurlarıdır. Bir cümlede ancak bir
fiil unsuru bulunur. Di er unsurların ise cümlede aynı cinsten bir veya
birkaç tanesi bulunabilir. Yani bir cümlede birkaç fail, birkaç nesne,
birkaç yer tamlayıcısı ve birkaç zarf bulunabilir.
2.6.1. Fiil Unsuru
Cümlenin ana unsurudur. Cümlenin bütün yapısı onun üzerine
kurulur. Di er unsurların tamamı fiilin etrafında toplanan, onu
destekleyen, onu tamamlayan unsurlardır. Türkçe’de asıl unsurun,
yardımcı unsurdan sonra gelmesi ilkesi gere ince, esas unsur olan fiil
daima sonda bulunur. Kendisinden önce gelen unsurların kesin bir
sırası yoktur. Belirtilmek istenme derecelerine uygun olarak fiile
yakla tırılarak kullanılırlar. Genellikle fiile en yakın unsur, yani fiilden
önceki unsur en üzerinde durulan unsurdur. Cümlenin normal vurgusu
da fiilin önünde, bu unsur üzerinde bulunur. Fiil cümlede hareketi,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
39
olu u, yapı ı, olayı, hükmü kar ılayan unsurdur. Daima çekimli fiil
halinde bulunur.
2.6.2. Fail Unsuru
Cümlenin fiilden ba ka iki ana unsurundan biridir. Fail, fiili
yapan veya olan unsurdur. Fiile en yakın, fiilden ayrılmaz bir cümle
unsurudur. Ayrıca söylenmese bile fiilin içinde genel olarak ahıs
halinde ifade edilmek suretiyle, varlı ı cümlede daima hissedilir. Fail,
isim cinsinden bir kelime veya kelime gurubu olur. Daima yalın halde
bulunur. Cümlenin çekimsiz bir unsurudur. Fiile yalın halde, eksiz
ba lanır. Fail, yalnız meçhul fiilli cümlelerde bulunmaz. Yalnız teklik
üçüncü ahısları kullanılan meçhul fiiller fail istemezler. Gereklilik
kipinin teklik üçüncü ahısının ahıssız, genel kullanı ında da fail
bulunmaz: “Gitmeli.” ; “Yazmalı.” örneklerinde oldu u gibi.
2.6.3. Nesne
Fiilin etki etti i nesneyi, ahsı kar ılayan cümle unsurudur.
Fiillerin bir kısmı geçi li, bir kısmı geçi sizdir. Yani bir kısmı yapma,
bir kısmı olma ifade eder. Yapma ifade edenlerin hareketi fiilden ba ka
bir nesneye yönelir, ona etki eder. Olma ifade edenlerin hareketi ise
faile yönelir, onun üzerinde kalır. Dolayısı ile, geçi li fiiller etki edecek
bir nesne isterler. Bu durumu kar ılayan cümle unsuru nesnedir. O
halde nesne, yalnız fiili geçi li cümlelerde bulunur.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
40
2.6.4. Yer Tamlayıcısı
Fiilin mekanını ve yönünü gösteren cümle unsurudur. Her
hareketin zaman ve mekan içinde bir yeri ve bir yönü vardır. Yer
tamlayıcısı hareketin meydana geldi i bu yeri ve yönü ifade eder. Bu
unsur da, isim cinsinden bir kelime veya kelime gurubu olur.
2.6.5. Zarf
Fiilin çe itli artlarını ve zamanını gösteren cümle unsurudur.
Hareketin nasıl, niçin, ne ekilde, hangi vasıtalarla, hangi sebeple, yani
özetle hangi artlarla yapıldı ını veya oldu unu ve hangi zamanda
cereyan etti ini göstermek için zarf unsuru kullanılır. Bu unsur zarf
olarak kullanılan isim cinsinden bir kelime veya kelime gurubu olur.
Zarf da çekimsiz bir cümle unsurudur, fiile oldu u gibi, do rudan
do ruya ba lanır.
2.6.6. Cümle Dı ı Unsurlar
Cümlede bu unsurlardan ba ka bir de ba lama ve ünlem edatları
veya ünlem gurupları bulunabilir. Fakat bunlar esas hareketle, fiille
ilgili olmayan ve cümleye sadece ilave edilmi durumda bulunan
unsurlardır. Genellikle cümlelerin ba larında, sonlarında ve cümleler
arasında bulunurlar. Parantez eklinde cümle içine girdikleri de görülür.
Bunlara cümle dı ı unsurlar denir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
41
3. ENFORMASYON
3.1. Enformasyon Bilim ve Bilgi Geri-Getirim
Enformasyon bilim en genel anlamda, u ra ı alanı enformasyon
olan bir bilim dalı olarak tanımlanabilir. Enformasyon bilim aslen, çok
disiplinli bir u ra sahasıdır ve bir çok farklı bilim dalının katkı
sa ladı ı do al meseleleri incelemektedir. Enformasyon bilime katkı
sa layan di er bilim dalları ekil 3.1.1.’de çizge halinde gösterilmi tir.
leti im
(Communication)
Enformasyon
Teorisi
Yöntem-bilim
(Epistemology)
Bili sel Bilimler
(Cognitive Sciences)
Matematik
( statistik)
Bilgisayar
Bilimleri
Yapay
Zeka
Enformasyon
Bilimleri
Sosyoloji
SosyoDilbilim
Psikoloji
PsikoDilbilim
Dilbilim
ekil 3.1.1: Enformasyon bilimine katkıda bulunan di er bilimler (Ingwersen, 1992).
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
42
Ingwersen (1992) tarafından, enformasyon bilim içindeki u ra lar
4 ba lık altında sınıflandırılmı tır:
1. Enformasyon-ölçütleri (Informetrics): Enformasyon ileti iminin
nicel çalı maları. Örnek: Çapraz atıflar (co-citations).
2. Enformasyon Yönetimi (Information Management): Metin ve di er
medya içerikli Bilgi geri-getirim dizgelerinin de erlendirilmesini ve
kalite kriterlerini belirlemeyi de kapsayacak ekilde enformasyon
yönetimi.
3. Enformasyon (geri-getirim) sistemleri kurgusu (Information
(Retrieval) Systems Design). Bir Bilgi geri-getirim sistemi veya
sadece Bilgi sistemi tasarlama, altyapısını kurgulama çalı maları.
4. Enformasyon geri-getirim etkile imi (Information Retrieval
Interaction): Bilgi geri-getirim dizgeleri ile kullanıcı (esas ki iler,
vekil yazılımlar veya di er Enformasyon geri-getirim dizgeleri)
arasında gerçekle en etkile imi yönetme ve faydalanma çalı maları.
Örnek olarak Bilgi geri-getirim dizgelerinin uygulamada
kullanacakları ara-yüz tasarımları, kullanıcıların yaptıkları
sorguların kayıtlarının tutulup tarihsel olarak kullanıcı profillerini
çıkartmak ve geri-getirim ba arımlarını kullanıcı esasına dayalı
olarak iyile tirmek gibi u ra lar.
Tez çalı mamız Ingwersen’in yaptı ı enformasyon bilim u ra
sahaları sınıflandırması içinde Enformasyon (geri-getirim) sistemleri
kurgusu ba lı ı altına girmektedir.
3.2. Enformasyon Tanımı ve Farklı Yakla ımlar
Enformasyon kavram olarak en geni anlamda, insanlar
arasındaki ileti imin her hacminde (asgaride iki insan genelde ikiden
fazla ki i arasında) ve her eklinde (yazılı, sesli, görüntülü, e zamanlı
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
43
veya farklı zamanlı) taraflar arasında nakledildi i dü ünülen olguyu
kar ılar. Thagard (1990) enformasyon kavramının tanımına yönelik
matematik, bili sel psikoloji ve felsefe bilimleri kökenli 3 farklı
yakla ımın oldu unu bildirmi tir:
1. Enformasyon-i lem yakla ımı (Information-processing).
2. Çevrebilimsel yakla ım (Ecological).
3. Matematiksel yakla ım (Mathematical).
3.2.1. Enformasyon-i lem (Anlamsal-Enformasyon)
Enformasyon-i lem yakla ımı bili sel psikoloji (cognitive
phychology – bilme veya kavrama psikolojisi, anlambilim) için genel
bakı açısıdır. Bili sel psikoloji’de enformasyon soyut bir kavramdır ve
ancak insan zihninde bilme eyleminin5 idrak, yani anlayabilme alt
süreci içinde var olur ve anlamsal-enformasyon’dur (veya
anlambilimsel-enformasyon). Psikoloji’de, enformasyon fikri sadece
bilgi kavramı ile, yani ayrıca belirtilmeden içine dahil edilmi
tanımlanır. Enformasyon-i lem yakla ımda, enformasyon
ekilde
zihnin
tasvirine ait bir mesele olarak, daha do rusu dü ünen ki inin
zekasında/aklında hesaplama ile ilgili yapılar olarak ele alınır. Soergel
(1985) anlamsal-enformasyonun bir ki inin bilme eylemi içindeki var
olu noktasını ekil 3.2.1.1’de oldu u gibi, dı dünyadaki veriden
ba layarak davranı a kadar ki zihinsel süreçler içinde resmetmi tir.
5
Bilme eylemi algı, idrak (anlama, kavrayı ) ve karar verme olarak 3 alt süreçten
meydana gelir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
44
Veri,
enformasyon’a
Dönü ür
Veri
Algılama
Bilgi
Mevcut
Durum
stenilen
Durum
leme ve Yorumlama
Karar Verme
Davranı ın Planlanması
Davranı
ekil 3.2.1.1: Bireysel bilme eylemi (Soergel, 1985).
Soergel’in anlamsal-enformasyon tasviri bili sel psikoloji bakı
açısını tam olarak yansıtmaktadır. Bu genel enformasyon betimlemesi,
özelde disiplinler arasında küçük farklar olmasına ra men insanın
bilme eylemi ile u ra an tüm bilim dallarında da geçerlidir. Ancak
enformasyon her ne kadar ki inin bilgi edinme süreci içinde var
olabilen bir olgu olsa da; bilgi ile enformasyon arasındaki farkı
uygulamalı sahalarda belirleme ihtiyacı vardır. Böyle belirleyici bir
anlamsal-enformasyon tanımı da ancak enformasyon, bilgi ve veri
kavramları üzerinden “i levsel tanımlar ve ili kiler” kapsamında ortaya
konabilir.
Bili sel psikoloji bakı açısından veri, bilgi ve enformasyon
kavramlarının tanımları Fosket (1996) tarafından u ekilde verilmi tir:
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
45
“Veri (Data) do rudan, hiçbir aracı olmaksızın gözlemlenen her
türlü gerçek veya gerçekler; Bilgi (Knowledge) benim bildi im ey, yani
ki i olarak bildi imiz ey veya eyler; Enformasyon (Information) ise bizim
bildi imiz eyler, yani payla ılmı bilgidir.”
(Fosket, 1996)
Fosket’in tanımlarında belirleyicilik adına altı çizilmesi gereken
husus: sadece enformasyonun insanlar arasında nakledilebildi i ve
bilginin insana has oldu udur. Bilgisayar bilimleri için daha belirleyici
ve i levsel veri, bilgi ve enformasyon kavramları, bili sel psikoloji
bakı açısından sapmadan Creaven (2002) tarafından u ekilde
uyarlanmı tır:
“Veri (Data), insanlar veya bilgisayarlar tarafından alınabilen,
depolanabilen, i lenebilen ve iletilebilen her türlü sayı, harf ve harf
dizileri, resimler ve benzeri eyler; Bilgi (Knowledge) ise algı, ö renme ve
usa vurmanın psikolojik sonucudur. …; Enformasyon (Information) ise
alan ki inin belirsizli ini azaltan, alınabilen ve anlanabilen bir mesajdır.”
(Creaven, 2002)
Creaven’ın tanımlarında da, Fosket’inkinde oldu u gibi bilgi
insana ait bir olgu olarak tanımlanmı ; ancak enformasyonun payla ım
özelli i farklı olarak soyut bırakılmamı , alınabilen ve anlanabilen bir
mesaj olarak nesnele tirilmi tir. Mesaj veya ileti ise, sözle veya yazılı
olarak insanlar arasında gönderilen haber olarak tanımlanır.
Enformasyon fikrinin bu tanımı, aslen bili sel psikoloji bakı açısından
enformasyonun var olu noktasını de i tirmez, yine insanın bilme
eyleminin soyut bir parçasıdır. Ancak, enformasyon olgusunun
tasvirini, bilmeye kaynak te kil eden somut, yani nesnel olgulardan
ba langıçla, insana do ru, yani bili eyleminin gerçekle mesine do ru
yapar. Bir ba ka söyleyi le, öncelikle somut bir nesne ile, daha do rusu
veri ile temsil edilmi bir mesaj vardır (ki bu mesajın da kayna ı aslen
yine bir ba ka insandır!). E er bu mesaj bir ki i tarafından alınabiliyor,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
46
anla ılıyor ve o ki inin belirsizli ini gideriyor, yani bir durum hakkında
o ki inin kararsızlı ını ortadan kaldıran bir bilgiyi olu turuyorsa
enformasyondur. Ki iler arası mesaj iletimini olu turan alt süreçler
ekil 3.2.1.2.’de resmedilmi tir.
Bilgi
leme ve Yorumlama
Mesaj Olu turma
A Ki isi
Enformasyon
Veri’ye
leti im Ortamı
Mesaj ≅Enformasyon
Veri
Veri,
enformasyon’a
Algıma
B Ki isi
Bilgi
leme ve Yorumlama
ekil 3.2.1.2 : nsanlar arasında Mesaj/Haber letimi. Soergel’den (1985)
uyarlanmı tır. Enformasyonun veriye ve verinin tekrar enformasyona
dönü üm evrelerini betimler.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
47
3.2.2. Çevre-bilimsel Yakla ım
Çevrebilimsel yakla ım enformasyonun dünyada hazır bulunu u,
daha do rusu varlık fikrine dayanır. Çevrebilimsel yakla ım içinde
enformasyon gerçek olguların veya mahallerin özellikleridir.
3.2.3. Matematiksel Yakla ım
Matematiksel yakla ım, enformasyon fikrinin tanımına yönelik
olarak Thagard’ın verdi i son yakla ımdır. lk defa Shannon6 (1949)
tarafından ortaya konmu tur. Aynı yakla ım literatürde ileti im-teorik
ve enformasyon-teorik olarak da anılır. Bu yakla ım açısından
enformasyon bir kaynak ve hedef arasında kurulmu herhangi bir
ileti im hattı üzerinden gönderilen veya alınan sinyale ait bir özelliktir,
yani sinyal-enformasyon’dur (veya öz-enformasyon). Sinyal ile
enformasyon arasındaki ili ki istatistik esaslıdır, daha do rusu ileti im
ekli içinde söz konusu sinyalin gözlenme olasılı ına dayanır. En çok
enformasyon içeren sinyal en az olasılı a sahip olandır ve aralarında
Denklem 3.2.3.1.’de verildi i gibi ters orantı vardır.
I ( s ) = log 2
1
veya I(s) = − log 2 P( s)
P( s )
(3.2.3.1)
Denklem 3.2.3.1.’de; bir sinyal üzerinden ta ınan sinyal
enformasyon miktarı I(s), söz konusu sinyalin s, gözlenme olasılı ının
P(s), -1. dereceden kuvvetinin 2 tabanına göre logaritması alınarak elde
6
Claude Elwood Shannon, 1916-2001 yılları arasında ya amı Amerikalı bir bilim adamıdır. 1940 yılında
MIT’den matematik dalında doktorasını almı ve 1941 yılında AT&T adına çalı maya ba lamı tır. 1948
yılında enformasyonun nicel olarak nasıl ölçülebilece ine dair kuramını yayınlamı tır. Enformasyon teorisi,
sayısal mantık ve matematiksel ileti im modeli için kuramsal alt yapıyı olu turan ki idir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
48
edilen sayısal de erdir. Denklem’den elde edilen sayısal de er sinyalenformasyon miktarını nicel ekilde “ikili sayıları” (binary digits)
cinsinden ifade eder, daha do rusu ikilleri (bits) birim alarak
ölçeklendirmektedir.
Bili sel psikoloji bakı
açısına dayalı anlamsal-enformasyon
fikrinin bir özelli i olan anlam, yani idrak edebilen bir zihin tarafından
anla ılma özelli i sinyal-enformasyon fikrinde yoktur (Weaver, 1949).
Sinyal-enformasyonun nicel olarak ölçülebilmesinin kökeninde, Türkçe
kar ılı ı düzensizlik olan, ngilizce entropy kavramı vardır. Düzensizlik
kavramı fikir olarak termodinamikten gelmektedir ve tanımı öyledir:
“E er verilen bir durum son derecede organize bir haldeyse, yüksek
dereceli rasgele olu larla veya seçeneklerle nitelenemez, yani söz konusu
durumda enformasyon az miktarda bulunmaktadır.”
(Weaver, 1949)
Aslen, Denklem 3.2.3.1.’den belirli bir sinyal için elde edilen
sayısal ifade, hem sistem içinde gözlemlenebilecek farklı durumlar
nispetinde olu an toplam düzensizli in bu sinyale ait kısmını, hem de
sinyalin söz konusu sistemdeki sinyal-enformasyon de erini ikil adedi
cinsinden nicel olarak temsil eder. Örne in, belirli bir sinyalin
gözlenme olasılı ı “1” ise bu sinyalin hem sinyal-enformasyon de eri
hem de sistemde yarattı ı düzensizlik miktarı ikil adedi cinsinden 0
(sıfır) olur. Bir ba ka söyleyi le, e er kayna ın hedefe iletebilece i tüm
mesajların farklı olanlarının her birini temsil için tek bir sinyale ihtiyaç
oldu u kabul edilirse: Gönderilecek tek bir mesaj oldu u durumda,
zamanın herhangi bir kesitinde iletim hattı üzerinde gözlemlenecek
sinyal hep aynı kalacak, yani tam bir düzen olacaktır. Dolayısı ile hat
üstünde gözlemlenebilecek farklı durumları kodlamak için gerekecek
asgari ikil sayısı ve söz konusu sinyalin sinyal-enformasyon de eri 0
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
49
olacaktır; Ancak nakledilmek istenen mesaj sayısı 2 olursa, zamanın
herhangi bir kesitinde sistem içinde farklı iki sinyalden herhangi birisi
gözlemlenebilir. Dolayısı ile hat üstünde gözlemlenebilecek farklı
durumları kodlamak için gerekecek asgari ikil sayısı ve söz konusu
sinyallerden her birinin sinyal-enformasyon de eri 1 olacaktır; Aynı
ekilde 3 mesaj için, 3 farklı durumu kodlamak gerekecek dolayısı ile
gözlemlenebilecek farklı durumları kodlamak için gerekecek asgari ikil
sayısı ve sinyal-enformasyon de eri 2 olacaktır. Genellersek, n farklı
durum için log2(n) ikil gerekecektir.
3.2.4. Enformasyon Yakla ımlarının Kar ıla tırması
Lyons (1977) terminoloji açısından sinyal-enformasyon ile
anlamsal-enformasyon arasında karma ık bir ili ki oldu una da dikkat
çekmi tir. Lyons bu iki farklı enformasyon kavramı arasında, duyusal
olarak beklenmedik olma, yani
a kınlık yaratma ölçüsünde bir
ba lantı oldu undan bahseder. Bu ba lantı, bir sinyalin gözlenme
olasılı ı arttıkça ta ıdı ı sinyal-enformasyon azalır ilkesi üzerinden
kurulur. Örne in “Adam köpe i ısırdı.” cümlesi “Köpek adamı ısırdı.”
cümlesinden duyusal olarak a kınlık yaratma ölçüsünde bir bakıma
daha büyük anlamsal-enformasyon de eri ta ır denebilir. Bu ba lamda
söz konusu iki cümlenin duyusal olarak a kınlık yaratma miktarı
sinyal-enformasyon de erleri olarak da dü ünülebilir: Duyusal olarak
a kınlık yaratma miktarı yüksek olan “Adam köpe i ısırdı” cümlesi
beklenmedik bir durumdur, yani gözlenme olasılı ı dü üktür dolayısı
ile sinyal-enformasyon de eri yüksektir; Benzer ekilde bir sinyalin
gözlenmesi olasılı ı e er “1” ise, bu sinyal hiç sinyal-enformasyon
ta ımaz. Yani, e er bir ki i tamamen tahmin edilebilir bir ey
söylüyorsa, “Köpek adamı ısırdı” cümlesi gibi duyusal açıdan a kınlık
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
50
yaratma ölçüsünde söyledi i eyin hiçbir anlamsal-enformasyon de eri
yoktur denebilir.
Anlamsal-enformasyonun verilen tanımından da anla ılaca ı
gibi enformasyon, ba langıç olarak veri ile temsilinden dü ünen bir
zihinde bilgiye dönü mesine kadar geçen süreçte, tekbir halde
bulunmaz. Çizelge 3.2.4.1.’de enformasyonun, içinde bulundu u
süreçler açısından hangi hallerde oldu u verilmi tir.
Çizelge 3.2.4.1: Enformasyonun çe itli hallerini gruplayan Buckland
Matrisi (Buckland, 1991)
Soyut (Intangible)
Somut (Tangible)
Varlık
(Entity)
Bilgi-olarak-Enformasyon:
Ki isel, bireysel bilgi
Nesne-olarak-Enformasyon:
Kayıtlı her türlü veri: belge vb.
Süreç
(Process)
Süreç-olarak-Enformasyon:
Edinilmi enformasyon.
lem içindeki enformasyon:
Veri i leme, belge i leme v.b.
Buckland (1991) enformasyonun söz konusu hallerini kavramsal
(soyut veya somut) ve nesnel (varlık veya süreç) olmak üzere iki boyut
üzerinden 4 gruba ayırır ve söz konusu sınıflandırma Buckland Matrisi
olarak anılır:
1. Bilgi olarak enformasyon: “Soyut varlık” olarak enformasyon sadece
insanda bulunur ve ki isel, daha do rusu bireye ait bilgidir.
2. Bir ey olarak enformasyon: “Somut varlık” olarak enformasyon
gündelik hayatta kar ıla ılan ve nesnel olan her türlü veridir: belge,
ses, görüntü v.b. eyler.
3. Süreç olarak enformasyon: “Soyut süreç” olarak enformasyon
bili sel olarak verinin dü ünen bir zihinde enformasyona dönü mü
hali, yani edinilmi enformasyondur.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
51
4. Enformasyonu i leme: “Somut süreç” olarak enformasyon, yani
i lemin hedefinde bulunan nesnel enformasyon; mekanik olarak
semboller (yazılı belgelerdeki alfabe, sayılar vb. ) veya ba ka
eklindeki gösterimler üzerinde i lem yapmak, örnek olarak veri
i leme (data processing), belge i leme (document processing) ve
bilgi mühendisli i (Knowledge engineering).
Tez kapsamında yaptı ımız çalı malar anlamsal enformasyonun
somut hallerini esas almaktadır.
3.3. Enformasyonun letimi – leti im
Enformasyon
fikrine
Thagard
(1990)
tarafından
verilen
yakla ımların içinde anılan önemli bir di er husus da, enformasyonun
nakledilmesi, daha do rusu genel adı ile ileti im, haberle medir. Aslen
Shannon (1949) tarafından sinyal-enformasyon fikrinin ortaya atıldı ı
çalı mada, sadece sinyal-enformasyon iletimi için tasarlanmı olan
ekil 3.3.1.’deki ileti im modeli, insanlar arasındaki anlamsalenformasyon nakli içinde kullanılabildi inden, literatürde ileti imin
klasik modeli olarak anılır ve her iki enformasyon fikri kapsamındaki
uygulamalarda genel-geçer model kabul edilir.
ekil’de, kaynak, daha do rusu enformasyonun kayna ı telefonda
konu mayı yapan ki idir. Verici sesi elektrik sinyaline çeviren birimdir.
ekilde etiketsiz olarak bulunan kutu ise sinyal gönderip alınabilen
herhangi bir iletim ortamıdır (örne in telefon hattı). Alıcı, iletim
ortamından aldı ı sinyali tekrar sese çeviren birimdir. Hedef ise
telefonun kar ı tarafında konu mayı dinleyen ki idir. Gürültü kayna ı
bu ileti imi bozacak her türlü ek uyarımdır (örne in telefon hatlarında
yo unluk).
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
52
Anlamsal-enformasyon
Sinyal-enformasyon
Kaynak
Verici
Mesaj
Alıcı
Sinyal
Hedef
Mesaj
Alınan
Sinyal
Gürültü
Kayna ı
ekil 3.3.1: leti imin klasik modeli. (Shannon, 1949, uyarlama)
Shannon’un, enformasyonun iletimi için verdi i modelle ilgili altı
çizilmesi gereken en önemli husus: kaynak ile hedef arasında anlamsalenformasyon naklinin; alıcı ve verici arasında sinyal-enformasyon
gönderiminin söz konusu olmasıdır. Çünkü, ileti im fikri, daha do rusu
anlamsal-enformasyonun nakli sadece iki insan arasında var
olmaktadır. leti imin klasik modelinde, genel olarak anlamsalenformasyon naklinin her ekli için bir betimleme verilmi tir, özelde
tez kapsamı içinde ele aldı ımız yazılı metinlere uyarlanmı ileti im
modeli de ekil 3.3.2.’deki gibidir.
Anlamsal-enformasyonun genelde her eklinde, özelde de yazı ile
naklinde enformasyonun muhtemelli i (potansiyel) söz konusudur.
Yazı ile ileti imde, anlamsal-enformasyon simgesel göstergeler ile
temsil edilen anlamlar silsilesi halinde metne dönü türülür. Söz konusu
iletilmek istenen anlamsal-enformasyonun tekrar elde edilebilir olması
adına kullanılan simgesel göstergelerin “dü ünen bir zihin tarafından
idrak edilebilme, yani anla ılabilir” olma özelli ini ta ıması gerekir.
Temsil edilen anlamlar, bütün halde kaynak ile hedef arasında
nakledilmek istenen mesaj içeri ini, yani muhtemel enformasyonu
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
53
olu turur. Muhtemellik ise ileti imin hacim özelli i ile izah edilir, yani
hedef durumunda mesajı okuyan herhangi bir ki i, enformasyonu
edinebilirken, herhangi bir ba ka ki i edinemeyebilir, yani
nakledilmeye çalı ılan enformasyonu anlamayabilir. Enformasyonun
muhtemelli i ba lamında, ifrelenmi metinlerin herkes için; hedef
ki inin bilmedi i bir do al dilde yazılmı metinlerin sadece söz konusu
ki i için, “enformasyon” olu turmayaca ı örnek olarak verilebilir.
Anlamsal-enformasyonun muhtemellik özelli ini, yazılı metinler için
genellersek, tanım öyle olur: Yazılı bir metinde, anlamlar bütünü ile
temsil edilen muhtemel bir enformasyon vardır; bir ki i söz konusu
metni okur ve idrak ederse, bu muhtemel enformasyon sadece o ki i
için anlamsal-enformasyona dönü ür.
=
leti im
anlamsal enformasyonun nakli
Mesaj içeri i (anlamlar bütünü)
Muhtemel Enformasyon
Enformasyon Kayna ı
Bilgi Olu ur
Anlamlar silsilesi
okurken
yazarken
metin
Yazan
Enformasyonu Nakleder
Kaynak
Anlamlar ile ifade
eder
Anlamları algılar
Enformasyonu
edinir
ekil 3.3.2: Anlamsal-enformasyonun yazı ile iletim modeli.
Okuyan
Hedef
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
54
3.4. Veri, Enformasyon ve Bilgi Tanımları
Tez kapsamında geçerli veri, enformasyon ve bilgi tanımları
anlamsal-enformasyon yakla ımı esasına göre öyledir:
Tanım 4.4.1: Veri, insanlar veya bilgisayarlar tarafından alınabilen,
depolanabilen, i lenebilen ve iletilebilen her türlü sayı,
harf ve harf dizileri, resimler ve benzeri olgulardır;
Tanım 4.4.2: Enformasyon, alınabilecek ve anla ılabilecek bir
mesajın içeri ini te kil eden verilerin temsil edebilece i
her muhtemel anlam ile olu turulabilecek “anlam
bütünleri” toplulu undan, dü ünen bir zihin tarafından
idrak edilebilir özellikteki her “anlam bütünü”;
Tanım 4.4.3: Bilgi genel anlamda algı, ö renme ve usa vurmanın
psikolojik sonucunda (her tür edinilmi enformasyon
yorumlanarak), özelde ise deneyim, ya anmı lık,
tecrübe etme (ki inin a ina oldu u, malum olmu
eylere ait bilgi) veya tanımlama, tasvir, betimleme
(ki inin okuyarak veya olgular üzerinden edindi i bilgi)
sonucunda olu ur ve sadece ki inin zihninde soyut
olarak var olur.
Tanımlanan veri, enformasyon ve bilgi arasındaki ili kiler de
ekil 3.4.1.’de özetlenmi tir.
Enformasyon = Veri + Anlam
Bilgi = Enformasyon + lem
ekil 3.4.1: Veri, enformasyon ve bilgi arasındaki ili kilerin denklemleri.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
55
3.5. Enformasyon ve Haber
Bu bölümde, ngilizce information terimi için Türkçe kar ılık
olarak haber kelimesinin kullanılması ve bilgi kelimesinin sadece
ngilizce knowledge terimi ile kar ılanan anlamı içerecek ekilde
daraltılması hususu tartı ılmaktadır. Türkçe kaynaklarda (TBD 2004;
TDK 2004a) hem knowledge hem de information terimi için bilgi
kar ılı ı verilmektedir. Tartı malı ve mesele olan konu udur: Türkçe
bilgi kelimesi ile, kökeninde kavramsal tanımları farklı olan iki
olgunun birden, yani ngilizce information ve knowledge kavramlarının
kar ılanmaya çalı ılması, dolayısı ile enformasyon bilim adına: bir,
“Türkçe” için yapılacak çalı malarda hedeflerin belirlenmesi; iki,
ara tırmalardan elde edilen sonuç ve ürünlerin yerinde kullanılması; ve
son olarak geni kitlelere özü bozulmadan aktarılması gibi esasa dayalı
üç hususta disiplinler arası birikimsel katkıyı kısmen engellemektedir.
Bu sebeple, Türkçe’de bilgi kelimesi, sadece ngilizce knowledge
kavramını kar ılamak için kullanılmalıdır. Information terimi ile
kar ılanan kavram içinse, uygun olan farklı bir Türkçe kelime
olmalıdır. Bizim önerimiz, bili im’deki anlamıyla enformasyon
kavramını kar ılamak için haber kelimesinin kullanılmasıdır. Türkiye
Bili im Derne i (TBD) Terimler Sözlü ünün (2004) ve Türk Dil
Kurumu (TDK) Bilgisayar Terimleri Kar ılılar Kılavuzunun (2004a)
sayısal uyarlamaları information terimini, Türkçe’ye bilgi olarak
aktarmı tır. Bilgi kelimesinin Türkçe’de kar ıladı ı kavramlar ise,
bili im için verilen kar ılık hariç, Fosket (1996) ve Creaven (2002)
tarafından ngilizce knowledge kavramı için verilen tanımla örtü ürken
(TDK, 2004b); bili im için verilen tanımda, information kavramına
verilen tanımla örtü mektedir:
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
56
“ Bilgi: 1-) nsan aklının erebilece i olgu, gerçek ve ilkelerin
bütününe verilen ad, malûmat. … 3-) nsan zekâsının çalı ması sonucu
ortaya çıkan dü ünce ürünü, malûmat, vukuf. … 6-) (bili imde)
Kurallardan yararlanarak ki inin veriye yöneltti i anlam.”
(TDK, 2004b)
Yine Türk Dil Kurumu güncel Türkçe Sözlü ün sayısal
uyarlamasında (2004b), haber kelimesi için u tanımlar verilmektedir:
“1-) Bir olay, bir olgu üzerine edinilen bilgi, salık. 2-) leti im veya
yayın organlarıyla verilen bilgi. 3-) Bilgi. 4-) (eskimi , gramer ) Yüklem.”
(TDK, 2004b)
Haber kelimesinin kar ıladı ı Türkçe kavramları detaylı
inceledi imizde, ilk dikkati çeken husus, Creaven’ın enformasyon
tanımı için yaptı ımız tespitin, yani “...enformasyonun var olu
noktasını de i tirmez, yine insanın bilme eyleminin bir parçasıdır;
ancak olgunun tasvirini bilmeye kaynak te kil eden somut olgulardan
ba langıçla, insana do ru yapar.” hükmünün haber olgusu içinde
geçerli oldu udur. Bu ba lamda haber, alan ki inin belirsizli ini
azaltan, alınabilen ve anlanabilen bir mesajdır, yani somut halde
simgesel gösterimler ile temsil edilen bir anlamlar bütünüdür. Haber’i
içeren mesaj bir ki iye ula ınca, o ki i tarafından simgeler algılanır,
anlamlar tekrar yüklenir ve olu an anlamlar bütününden haber idrak
edilir (bir anlamda geri-getirilir). Bu noktadan itibaren haber
yorumlanarak edinilmi bilgiye dönü mü tür, yani artık söz konusu
olgu, gerçek veya mekan’a ait mevcut durum, o insana mal olmu tur, o
insan için malum durumdadır. Bu bakı açısı, somut nesnellikten, insan
zihnindeki soyut varlı a, yani bilgiye do ru enformasyon tarifidir ve
somut nesnellik içinde haber enformasyonun kar ılı ıdır. Ancak bir de
insan cephesinden, yani bilgi olgusundan ba layarak enformasyon
tasvir edilebilir. Bu ekilde yapılan bir tanımda, enformasyon olgusu:
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
57
algı, ö renme ve usa vuruma (idrak) ile insana mal olabilecek her türlü
soyut veya somut nesnelere ait özellikleri ta ıyan malumat olarak da
tanımlanabilir. Bir ba ka söyleyi le, soyut veya somut nesnelere ait
özellikler ile temsil edilen belirli bir durumun, bir insan için malum bir
durum olmasına, bilinmesine sebebiyet veren olgudur. Her iki bakı
açısından yapılan tasvirler kullanım sahalarına göre geçerli olabilirler.
Anacak söz konusu bili im, yani “enformasyon bilim” ise insan kökenli
tanım pek i levsel de ildir; somut nesnellik ba lamında bir tanım
u ra lar açısından i levsel olacaktır.
lk anda haber ile information kelimesinin kavramsal olarak
örtü medi i dü ünülebilir. Bunun sebebi haber kelimesinin, Türkçe’de
yaygın olarak ngilizce news kelimesi için kullanılması, daha do rusu
bu anlamının di er anlamlarını bastıracak kadar yaygın kullanılmasıdır.
Aslen, news terimi ile ngilizce’de kar ılanan olgu da, Türkçe’deki
haber’dir, fakat güncel, yani “yeni” olan information anlamında
kullanılır. Bir ba ka söyleyi le, information kavramının, news terimi ile
kar ılanan halinde, duyusal olarak beklenmedik olma, enformasyonu
alan ki ide bir a kınlık yaratma durumu söz konusudur. Türkçe’de bu
ekilde bir ayrım yoktur, daha do rusu haberin “eskisi” ve “yenisi”
diye ayrı kavramlar olu turulmamı , farklı terimlerle kar ılanmamı tır.
Bu yüzden bili imde bir kar ılık aranırken, information olgusu için en
uygun terimin, bilgi oldu u dü ünülmü olmalıdır. Fakat, haber
kelimesi, information kelimesinin bili im için kavramsal çeviri
açısından e , yani köken olarak aynı, ancak Türkçe güncel kullanımda
daraltılmı kar ılı ıdır. Önerimizin temelinde, bilgi kelimesi ile
Türkçe’de kar ılanan soyut kavramın sınırları bozularak, ngilizce
information kavramı ile kar ılanan bir bakıma somut olguyu da içine
alacak hale getirilmesi yerine, daha do rusu insan dı ındaki nesneleri
de içine almaya zorlanması yerine, haber kelimesi ile kar ılanan
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
58
kavramın güncel dar anlamından geni letilmesi yatmaktadır. Bu
yakla ımın enformasyon bilim göz önüne alındı ında, i levsel
tanımlara ula ma hedefini daha rahat kar ıladı ı da söylenebilir.
Önerimizi güçlendirmek adına, son olarak dilbilim’de e anlamlı iki
kelimeyi do rulamak amacı ile kullanılan yöntemi information ve
haber için uygulayarak tartı mamızı bitiriyoruz. Dilbilimde “E er
farklı biçimlere sahip iki kelime aynı cümlede birbiri yerine kullanılır
ve cümlenin anlamı de i mezse, söz konusu iki kelime e anlamlıdır.”
önermesi, biçimsel olarak farklı ekillere sahip kelimelerin e
anlamlılı ının sınanması için kullanılan, geçerli bir yöntemdir. Haber
kelimesini Fosket (1996) ve Creaven (2002) tarafından verilen
enformasyon tanımlarında kullanarak e anlamlılıklarını sorgulayalım.
“… Bilgi (Knowledge) benim bildi im ey, yani ki i olarak
bildi imiz ey veya eyler; Haber (Information) bizim bildi imiz eyler,
yani payla ılmı bilgidir.”
(Fosket, 1996)
“…Bilgi (Knowledge) ise algı, ö renme ve usa vurmanın psikolojik
sonucudur. …Haber (Information) ise alan ki inin belirsizli ini azaltan,
alınabilen ve anlanabilen bir mesajdır.”
(Creaven, 2002)
Görüldü ü gibi aynı cümlede haber kelimesinin enformasyon
kelimesi ile de i tirilmesi; Türkçe anlam birli inin bozulması bir yana,
verilen tanımları daha belirleyici kılmı , algılanmasını ve anla ılmasını
kolayla tırmı tır. Ancak alınan bu müspet sonucun aksine, tezde bilgi
geri-getirim terimi Türkçe literatürle bütünlü ü bozmamak amacı ile
biçimsel olarak aynen kullanılacaktır. Fakat okuyucu, yukarıda izah
edildi i gibi aslen haber geri-getirim terimi ile kar ılanması gereken
kavramsal sınırları anlamalıdır. Ek olarak, süre geldi i ekilde,
ngilizce information ve knowledge kavramları arasındaki farkı
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
59
belirtebilmek için information terimi yerine enformasyon kelimesi
kullanımı, knowledge terimi yerine de bilgi kelimesi kullanımı devam
edecektir.
60
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
61
4. ENFORMASYON KURAMI
Enformasyon kuramı Shannon (1949) tarafından ortaya konmu
olan sinyal-enformasyon fikrini esas alır (Aynı yakla ım literatürde
ileti im-teorik ve enformasyon-teorik olarak da anılır). Sinyal
enformasyon bir kaynak ve hedef arasında kurulmu herhangi bir
ileti im hattı üzerinden gönderilen veya alınan sinyale ait bir özelliktir,
yani öz-enformasyon’dur. Shannon aslen, mükemmel olmayan bir
ileti im hattı üzerinden, örne in gürültülü bir telefon hattı üzerinden
gönderilecek enformasyonun, miktarını en yüksek seviyeye çekme
amacındaydı. Shannon, bu amaç do rultusunda, herhangi bir
enformasyon kayna ı ve ileti im hattı için iki etmenin kuramsal en
yüksek de erlerini tespit etmi tir: 1-) düzensizlik, H de eri ile elde
edilen veri sıkı tırma miktarı, 2-) letim hızı, yani ileti im kanalı
kapasitesi, C ile verilen de er. Shannon’a gelinceye kadar, iletilmek
istenen mesajın hızı ne kadar arttırılırsa, mesajın iletimindeki hatanın
da o kadar artaca ı dü ünülüyordu. Ancak Shannon, mesaj ile ta ınmak
istenen enformasyonun, kanal kapasitesinden daha küçük bir hızla
iletilmesi durumunda, mesajın iletiminde hata olması olasılı ının
istendi i kadar küçültülebilece ini ispatlamı tır. Shannon’un ortaya
koydu u kuramda, mesaj iletiminde kullanılan sinyal ile enformasyon
arasındaki ili ki istatistik esaslıdır, daha do rusu ileti im ekli içinde
söz konusu sinyalin gözlenme olasılı ına dayanır. Sinyal
enformasyonun nicel olarak ölçülebilmesinin kökeninde ise olasılık
kuramını esas alan düzensizlik (entropy) kavramı vardır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
62
4.1. Düzensizlik (Entropy)
E er X olasılık de i keninin, bir ayrık simgesel de erler kümesi
A (örne in alfabe) üzerinden tanımlanan
fonksiyonunun, p(x) oldu unu kabul edilirse:
p( x) = P( X = x),
olasılık
x∈ A
yo unluk
(4.1.1)
Örne in, iki demir parayı havaya atıp yere dü tüklerinde gelen
turaları sayarsak, p(0) = ¼, p(1) = ½ ve p(2) = ¼ olasılıklarına sahip
bir olasılık de i keni tanımlamı oluruz.
Bir olasılık de i keninin düzensizli i (Entropy), yani özenformasyonu sahip oldu u ortalama belirsizliktir:
H ( p) = H ( X ) = −
p( x) log 2 p ( x )
x∈A
1
p( x) log 2
=
p ( x)
x∈A
(4.1.2)
Düzensizlik, bir olasılık de i kenindeki enformasyon miktarıdır.
Denklem 4.1.2.’de verilen e itlik, yalın bir ekilde p ( x) log(1 / p ( x))
de erleri
için
toplamı
olarak
x∈A
p( x) , ∀x terimi bir kalıptır ve her x ∈ A
de eri için log(1 / p( x)) de erinin, yani sinyal-enformasyon miktarının
de erlerinin
tüm
yorumlanmamalıdır.
toplam üzerindeki etkisini a ırlıklandırır. Ayrıca, p(x) tanımı gere i
p( x) = 1 , ∀x . statistiksel olarak
p( x) , ∀x kalıbı bir olasılık
de i keni için beklen de er, yani tahmini de er tanımlar. Örne in bir
olasılık de i keni Z ve olasılık yo unluk fonksiyonu p(z) olsun. Z
olasılık de i keninin beklenen de eri E(Z):
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
E(Z ) =
∀z
63
p( z) ⋅ z = z
(4.1.3)
E(Z) beklenen de eri, Z olasılık de i keninin tanım kümesinin
ortalamasının µ z , tahmini, yani z de erine e ittir. Beklenen de er
tanımı kullanılarak, Denklem 4.1.2.’de verilen düzensizlik e itli i
Denklem 4.1.4.’deki biçimde yazılabilir.
H ( X ) = E log 2
Denklem
1
1
= p( x) log 2
p ( x)
p ( x)
∀x
(4.1.4)
4.1.4.’ün
Denklem
4.1.3.’den
elde
edili inde
belirtilmesi gereken bir nokta vardır. Denklem 4.1.3.’e göre gerçekte
düzensizlik
p(log (1 / p ( x) )) log(1 / p ( x) ), ∀x olmalıdır. Bir ba ka
söyleyi le, log(1 / p( x)) ile betimlenen olasılık de i kenine ait olasılık
yo unluk fonksiyonunun de erleri ile a ırlıklandırmak gerekmektedir.
Ancak,
p(log(1 / p ( x)) ) = p( x) = 1, ∀x ve log fonksiyonunun bir
do rusal ta ıma olmasından ötürü X ile
log(1 / p( x)) olasılık
de i kenlerinin olasılık yo unluk fonksiyonları özde , yani p(x)
olacaktır.
Düzensizli in 3 (üç) temel özelli i vardır;
1. H ( X ) ≥ 0 ; ∀x
⇔ X ~ p( x) .
2. H ( X ) = 0 ; ∀x ⇔ X = c . Yani X olasılık de i keni sabit bir c
de erine e itse, bir olasılık da ılımına göre de er almıyorsa.
3. Düzensizlik mesaj uzunlu u ile orantılı olarak artar.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
64
4.2. Birle ik Düzensizlik ve Ko ullu Düzensizlik
Ayrık iki olasılık de i keni X,Y ~ p(x,y) çiftinin birle ik
düzensizli i, ikisinin de erini birlikte belirtmek için gereken ortalama
enformasyon miktarıdır.
H (X ,Y ) = −
∀x ∀y
p ( x, y ) log 2 p( x, y )
(4.2.1)
Bir ayrık Y olasılık de i keninin, X olasılık de i keni
verilmi ken ko ullu düzensizli i (X,Y ~ p(x,y)), kar ı taraf X’i bilirken
Y’yi iletmek için sa lamak gereken, fazladan ortalama enformasyon
miktarını verir.
H (Y X ) =
p ( x) H (Y X = x)
p ( x) − p ( y x) log p ( y x) ∀x
∀y
=−
p ( x, y ) log p( y x)
=
∀x
(4.2.2)
∀x ∀y
Olasılık kuramında oldu u gibi, düzensizlik için de bir
zincirleme kuralı vardır.
H ( X , Y ) = H ( X ) + H (Y X )
H ( X1,
, X n ) = H ( X1) + H ( X 2 X1) +
+ H ( X n X1,
(4.2.3)
X n−1 )
Olasılık kuramı içindeki zincirleme kuralında, olasılıkların
çarpımları, düzensizlikte log fonksiyonu sebebi ile toplam olmu tur.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
65
H ( X , Y ) = − E p ( x , y ) (log p ( x, y ) )
= − E p ( x , y ) (log ( p( x) p( y x) ))
= − E p ( x , y ) (log p( x) + log p( y x) )
(4.2.4)
= − E p ( x ) (log p ( x) ) − E p ( x , y ) (log p ( y x) )
= H ( X ) + H (Y X )
Bir mesaj içinde bulunan enformasyon miktarı, mesajın
boyutuna ba ımlı oldu u için, genellikle bir harf için veya bir kelime
için düzensizlikten bahsedilir. Bir mesajın, n uzunlu unda olması
durumunda düzensizlik hızı (entropy rate) olarak da bilinen bir
harf/kelime
hesaplanır.
için düzensizlik
H rate =
verildi i
Denklem 4.2.5.’de
1
1
H ( X 1n ) = −
p ( x1n ) log p( x1n )
n
n x1n
gibi
(4.2.5)
Denklem 4.2.5.’de, X1n simgesi, genel hali X ij = ( X i ,
olan gösterimin, özelidir ve ( X 1 ,
,X j)
, X n ) olasılık de i kenlerinin sıralı
silsilesini temsil eder.
E er do al bir dili, simgelerin sıralı diziliminin olu turdu u bir
silsile süreci (stochastic process) olarak kabul edersek, L=(Xi), örne in
bir haber kanalından gönderilen her haber yazısının meydana getirdi i
bir derlem olabilir, do al dilin L, düzensizli ini söz konusu silsile
sürecinin düzensizlik hızı olarak tanımlayabiliriz.
1
H ( X 1, X 2 ,
n →∞ n
H rate ( L) = lim
, Xn)
(4.2.6)
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
66
Denklem 4.2.6. ile do al bir dilin, yani aktif kullanımı olan ve
iç-devinimli olarak de i en bir dilin düzensizli ini hesapladı ımız için,
elimizdeki örnek derlem boyutu sonsuza giderken düzensizlik hızını
hesaplamamız gerekmektedir. Denklemde bu yüzden limit i levi
kullanılmı tır.
4.3. Kar ılıklı Enformasyon (Mutual Information)
Düzensizli in zincirleme kuralına göre, iki ayrık olasılık
de i keninin X,Y ~ p(x,y) birle ik düzensizli i H(X,Y), Denklem
4.3.1.’de gösterildi i biçimde hesaplanabilmektedir.
H ( X , Y ) = H ( X ) + H (Y X ) = H (Y ) + H ( X Y )
(4.3.1)
Denklem 4.3.1.’den de, Denklem 4.3.2.’de bulunan e itlik elde
edilmektedir.
H ( X ) − H ( X Y ) = H (Y ) − H (Y X )
(4.3.2)
Denklem 4.3.2.’de verilen düzensizlikler arasındaki fark
kar ılıklı-enformasyon olarak adlandırılmaktadır. Sözle ifadesi edecek
olursak: bir olasılık de i kenini (Y) bilmekle bir di er olasılık
de i keninin (X) düzensizli indeki azalı miktarıdır. Bir ba ka
söyleyi le, bir olasılık de i keninin (Y), di er bir olasılık de i keni (X)
hakkında içerdi i enformasyon miktarıdır. Kar ılıklı-enformasyon ve
düzensizlik arasındaki ili kinin çizge olarak ifadesi
verilmi tir (Cover and Thomas, 1991).
ekil 4.3.1.’de
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
67
H(X,Y)
H(X|Y)
H(Y|X)
I(X;Y)
H(X)
H(Y)
ekil 4.3.1: Kar ılıklı-enformasyon, I ile düzensizlik, H arasındaki ili ki.
Kar ılıklı-enformasyon, iki de i ken tarafından içerilen ortak
enformasyon miktarının simetrik ve pozitif nicel de eridir. Kar ılıklı
enformasyon iki de i kenin ba ımsızlık ölçütüdür ve u özelliklere
sahiptir:
1. Kar ılıklı-enformasyon, iki de i ken ba ımsızken 0 (sıfırdır).
2. ki ba ımlı de i ken için, kar ılıklı-enformasyon miktarı sadece
ba ımlılı ın derecesi oranında artmaz, aynı zamanda de i kenlerin
düzensizli i nispetinde de artar.
Kar ılıklı-enformasyon için biçimsel tanımlama Denklem
4.3.3.’de verilmi tir. Denklem, hem düzensizli in neden öz
enformasyon (self-information) olarak adlandırıldı ını, hem de
tamamen ba ımlı iki de i kenin kar ılıklı-enformasyonunun neden
sabit olmayıp, de i kenlerin düzensizli ine ba lı oldu unu da
açıklamaktadır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
68
I ( X ; Y ) = H ( X ) − H (Y X )
=
∀x
+
=
1
1
+ p ( y ) log
p ( x) ∀y
p( y )
p( x) log
(4.3.3)
p ( x, y ) log p( x, y )
∀x , y
∀x , y
p( x, y ) log
p ( x, y)
p ( x) p ( y )
Denklem 4.3.4.’de ko ullu kar ılıklı-enformasyon ve Denklem
4.3.5.’de de zincirleme kuralı verilmi tir.
I ( X ; Y Z ) = I (( X ; Y ) Z ) = H ( X Z ) − H ( X Y , Z )
I ( X 1n ; Y ) = I ( X 1 ; Y ) +
=
+ I ( X n ;Y X1,
(4.3.4)
, X n−1 )
n
i =1
I ( X i ;Y X1 ,
(4.3.5)
, X i −1 )
4.4. Ko ullu Düzensizlik (Conditional Entropy)
ki olasılık yo unluk fonksiyonu p(x) ve q(x) için göreceli
düzensizlik Denklem 4.4.1.’de verilmi tir.
D( p q ) =
∀x
p ( x) log
p ( x)
q( x)
(4.4.1)
Denklem 4.4.1.’de 0 ⋅ log( 0 / q ) = 0 olarak, p ⋅ log( p / 0) = ∞
olarak kabul edilmektedir. Aynı zamanda Kullback-Leibner (KL)
ıraksaklı ı (Kullback-Leibner divergence) olarak da anılan göreceli
düzensizlik, aynı örneklem uzayında tanımlı iki olasılık da ılımının ne
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
69
kadar farklı oldu unu gösterir. Beklenen de er olarak tanımlaması
Denklem 4.4.2.’de verilmi tir:
D( p q ) = E p
p ( x)
log
q( x)
(4.4.2)
Dolayısı ile, p ve q arasındaki KL yakınsaklı ı, p da ılımdaki
olayları, q da ılımını esas alan kodlarla kodlanması ile fazladan ortaya
çıkan ortalama düzensizlik miktarını, bir ba ka söyleyi le kodlama için
fazladan harcanan ikil (bit) sayısını verir.
Göreceli düzensizlik miktarı daima pozitif bir sayıdır ve 0 (sıfır)
olması ancak q da ılımın, p da ılımına e it olması ile gerçekle ir.
Göreceli düzensizlik matematiksel anlamda bir ölçüt de ildir, yani p ve
q için simetrik de ildir ve saç aya ı e itsizli ini7 (triangle inequality)
sa lamaz.
Kar ılıklı-enformasyon
aslında,
bir
birle ik
da ılımın
ba ımsızlıktan ne kadar uzak oldu unun da bir ölçütüdür ve Denklem
4.4.3.’de verildi i ekli ile betimlenir.
I ( X ; Y ) = D ( p ( x, y ) p ( x ) ⋅ p ( y ) )
(4.4.3)
Ko ullu göreceli düzensizlik, Denklem 4.4.4.’de ve göreceli
düzensizlik için zincirleme kuralı da Denklem 4.4.5.’de verilmi tir.
7
Herhangi üç nokta X, Y ve Z için saç aya ı e itsizli i (triangle inequality) udur:
d(x,y) <= d(x,z) + d(z,y). (d(x,y) iki nokta arasındaki mesafedir)
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
70
(
)
D p ( y x) q ( y x) =
∀x
p ( x)
∀y
p ( y x) log
(
p ( y x)
(4.4.4)
q( y x)
D( p ( x, y ) q ( x, y ) ) = D( p( x) q ( x) ) + D p ( y x) q ( y x)
)
(4.4.5)
4.5. Çapraz düzensizlik (Cross Entropy)
Düzensizlik (entropy) bir de i kenin alaca ı de erlerdeki
belirsizli i nicel olarak ölçer. Bir ey hakkında daha çok ey bildikçe,
düzensizlik dü ecektir, çünkü yapılacak bir denemenin sonucu bizi
a ırtmayacaktır. Öyleyse, düzensizli i ne kadar a ıraca ımızın bir
ölçüsü olarak da dü ünebiliriz. Örne in, yazılı bir metinde cümle içinde
bir sonraki kelimenin ne oldu unu tahmin etmeye çalı tı ımızı
dü ünelim. Bu durumda cümlenin ba ından itibaren okudu umuz, yani
bildi imiz kelimelerden h, bir sonraki kelimenin w, ne olaca ının
tahmin edilmesi P(w | h) biçiminde, ekilsel olarak gösterilebilir.
Dolayısıyla, ne kadar a ıraca ımızın bir ölçüsü olarak, söz konusu dile
ait geli tirilmi bir model, m ile bir sonraki kelimeye, w’ye atanan
ko ullu olasılı ı alabiliriz. a ırma, noktasal düzensizlik (pointwise
entropy) olarak adlandırılan H ( w | h) = − log 2 m(w | h) denklemi ile
ölçülebilir. E er tahmin edici, verilmi bir, h ile ifade edilen
kelimelerin akı tarihini, w kelimesinin izleyece inden eminse ve bu da
do ruysa, tahmin edicinin w kelimesini görmesi ile w kelimesinden
elde edece i enformasyon miktarı − log 2 1 = 0 olacaktır. Bir ba ka
söyleyi le, tahmin edici w kelimesini gördü ünde hiç a ırmayacaktır.
Ancak di er taraftan, model w kelimesinin verilen, h tarihini
izlemeyece ini öngörüyorsa, dolayısı ile m( w | h) = 0 olacaktır ve
tahmin edicinin, w kelimesini görmesi ile elde edece i enformasyon
miktarı − log 2 0 = ∞ olacaktır. Son durum, kullandı ımız dil modelinin
m, sonsuz derecede a ırması demek olur, bu da model için çok kötü bir
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
71
eydir. Genelde dil modelleri, her olay için söz konusu iki uç noktaya
kar ılık gelen aralık içinde, yani [0,1] kapalı aralı ında bir olasılık
üretirler, böylece bir sonraki kelime w, belli oldu unda bir miktar
enformasyon kazanırlar, yani bir miktar a ırırlar. Amaç bu a ırma
düzeyini, mümkün oldu unca dü ük seviyede tutmaktır. Tahmin edici
modelin, tüm kelimeler üzerinden a ırma miktarlarının toplamı, bize
modelin toplam a ırma miktarını verir:
H toplam = −
n
log 2 m( w j | w1 , w2 ,
j =1
= − log 2 m( w1 , w2 ,
, w j −1 )
(4.5.1)
, wn )
Denklem 4.5.1.’de, e itli in son satırdaki hali, zincirleme kuralı
kullanarak çıkartılır. Genelde bu ölçüt metnin uzunlu una ba ımlı
olmaması için normalle tirilir. Ölçütün normalle mi hali, bir kelime
için ortalama a ırma miktarını vermektedir.
Düzensizli in, a ırmanın bir ölçüsü olarak verildi i yukarıdaki
tanımı biçimsel bir halde verecek olursak, çapraz düzensizli in
tanımına kolayca ula ılacaktır. Do al dili, gerçek bir olgu olarak
modellemeye çalı tı ımızı farz edelim. Ayrıca do al dilde yapılan bir
konu ma içindeki her bir sözü (yazıdaki kar ılı ı kelime), modellemeye
çalı tı ımız do al dilin hesaplama birimleri olarak alalım. Sözler
kümesini, gerçek sayılar kümesine ta ıyan bir olasılık de i keni X,
tanımlarsak, X de i keninin sözler kümesi üzerinde tanımlı bir da ılımı
olacaktır, yani X ~ p(x). Fakat, ne yazık ki bu gün gerçek bir olgu
olarak, hiçbir dil için p(.) da ılımının ne oldu u bilinmemektedir.
Ancak, örneklere bakarak, belirli konu maları kapsayan bir sözler
derlemi olu turup, de erlendirme altındaki do al dilin, söz konusu p(.)
da ılımının neye benzedi ini deneysel olarak bulmaya çalı abiliriz. Bir
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
72
ba ka söyleyi le, gerçek da ılımın bir modelini m, elimizdeki en iyi
tahminleri kullanarak olu turabiliriz. Bu modeli olu tururken, yanlı sız
bir olasılık da ılımı elde etme amacımıza ula mak için gerçek
da ılımla, model arasındaki göreceli enformasyon D( p m) mümkün
oldu unca küçük olmalıdır. Ne yazık ki, yine bu göreceli enformasyon
da gerçek da ılımın p(.) ne oldu u bilinmedi i için hesaplanamaz.
Ancak, bununla ili kili bir ba ka nicelik daha vardır, o da çapraz
enformasyondur.
Bir olasılık de i kenine X, ait gerçek olasılık da ılımı, p ve bir
ba ka olasılık da ılımı, q (genelde modelimizi temsil eder) arasındaki
çapraz enformasyon, Denklem 4.5.2.’de verildi i gibi hesaplanır.
H ( X , q ) = H ( X ) + D( p q)
=−
∀x
p ( x) log q( x)
(4.5.2)
= E p log
Denklem
4.5.2.’de,
1
q( x)
do al
bir
dil
için
düzensizli i
tanımladı ımız gibi, do al bir dil L(Xi) ~ p(x) için geli tirilmi bir
model m üzerinden çapraz düzensizlikte, Denklem 4.5.3.’de oldu u
gibi tanımlanabilir.
1
p ( x1n ) log m( x1n )
n →∞ n x1n
H ( L, m) = − lim
(4.5.3)
Denklemde, do al dile ait gerçek olasılık da ılımı, p(.) halen
yer almaktadır. Dolayısı ile, bu durumda da do al dile ait çapraz
düzensizlik hesaplanamaz. Ancak, do al dille ilgi bazı basitle tirici
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
kabullenmeler yapacak olursak,
hesaplanabilir haline getirebiliriz.
Denklem
73
4.5.4.’de
1
log m( x1n )
n→∞ n
H ( L, m) = − lim
verilen
(4.5.4)
Çapraz düzensizli in verilen bu biçiminde, sadece kendi
olu turdu umuz model m, ve yeterince büyük bir söz kümesi ile
hesaplama yapmamız mümkündür. Yani, gerçekte söz sayısının sınırı
sonsuza giderken hesaplama yapmak yerine, yeterince büyük olan bir
miktar söz kümesi ile hesaplama yapabilmek mümkün olmaktadır:
H ( L, m) ≈
1
log m( x1n )
n
(4.5.5)
Bu ölçüt, sadece ortalama a ırmayı vermektedir. Amaç bu
sayıyı mümkün oldu unca küçük tutmaktır. E er H(X) sabitse (yani
bilinmiyorsa), ölçüt göreceli düzensizli i küçültme e e de er
olmaktadır, yani modelimizdeki olasılık da ılımının gerçek olasılık
da ılımından farklılı ının mümkün olan en küçük de ere çekilmesi ile
e olmaktadır. Bu noktadan sonra, geriye kalan tek gereksinim modeli
sınamak için kullanaca ımız deney metninin ba ımsız olmasıdır, yani
modelin parametrelerini tahmin etmek için kullandı ımız talim derlemi,
deney metnin bir parçası olmamalıdır. Çapraz düzensizlik, modelin
deney metnindeki kelimelere atadı ı ortalama olasılık ile ters
orantılıdır. Genellikle, dü ük çapraz düzensizlik de erlerine sahip dil
modelleri, uygulamada daha iyi sonuçlara sebep olur, ancak her zaman
böyle olması gerekmez. Örne in, çapraz düzensizli in dü mesine sebep
olacak ekilde, modelin kelimelere atadı ı olasılıkların büyümesi fakat
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
74
kelimelerin göreceli olarak sıralanmasına atanan olasılıkların aynı
kalması, dil modelinin uygulamada ba arımını arttırmaz.
Denklem 4.5.4.’den Denklem 4.5.5.’e geçi i sa layan sebep,
çapraz düzensizlik denklemi içinde olan beklenti fikridir:
1
1
H ( L, m) = lim E log
n→∞ n
m( x1n )
(4.5.6)
Beklenti tüm olası sıralamalar üzerinden elde edilen a ırlıklı
ortalamadır. Ancak, Denklem 4.5.6.’da sınır de erlerde hesaplama
yapılmaktadır, yani söz konusu a ırlıklı ortalamanın do al dilde
olu turulabilecek en uzun sıralamaya bakarak olu turulması
gerekmektedir. Denklem 4.5.5.’e geçi te kullanılan fikir, yeterince
büyük uzunlukta bir sıralamaya bakarak hesaplanacak a ırlıklı
ortalamanın çok fazla de i meyece idir. Yani, “dilde olu turulabilecek
tüm sıralamalara bakmak gerekmez, yeterince uzun bir sıralamadan
genel a ırlıklı ortalamanın ne oldu u tahmin edilebilir” fikrini esas
almaktadır.
Sebeplenmenin biçimsel tanımı ise öyle yapılabilir: E er do al
dilin L(Xi) ~ p(x), dura an (stationary) ergodik bir süreç oldu u kabul
edilirse, Kuram 4.5.1.’e (Cover and Thomas, 1991) göre Denklem
4.5.4., Denklem 4.5.5.’e e it olur.
Kuram 4.5.1: (Shannon-McMillian-Breiman Kuramı) E er Hrate ,
sonlu sayıda de ere sahip dura an ergodik bir sürecin
(Xn) düzensizlik hızıysa,
1
P − log p ( X 1 , , X n ) → H = 1 .
n
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
75
Ergodik süreçler, alt süreçlerinden biri içinde sonsuz döngüye
girmeyen süreçlerdir. Dura an süreçler, sürecin bir adımından, di er
bir adıma geçi i için atadı ı olasılı ın, sürecin ayrık zaman noktaları ile
indekslenmi akı ı içerisinde, iki farklı zaman indeksinde de i iklik
göstermemesidir, yani P(wi|wi-1) = P(w2|w1), i = 1,2, ...n olmasıdır.
4.6.
stikrarsızlık (Perplexity)
Düzensizlik kuramı ile ili kili olarak bahsedece imiz son konu
istikrarsızlık’tır. Bu kavram, düzensizlik ile sıkı sıkıya ba ılıdır.
Hesaplamalı dilbilim sahasında düzensizlik yerine bu ifade için elde
edilen de erler dil modellerinin kıyaslaması için kullanılır. Bir olasılık
silsile sürecinde Xn, her adımda tercih edilebilecek e it olasılı a sahip
ortalama seçenek sayısı, söz konusu sürecin istikrarsızlı ı olarak
tanımlanır ve Denklem 4.6.1.’deki ifade ile düzensizlik üzerinden
hesaplanır.
Per ( x1n , m) = 2
H ( x1n ,m )
= m( x1n )
−
1
n
(4.6.1)
76
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
77
5. B LG GER -GET R M S STEMLER
21. yüz yılın ortalarından itibaren bilimsel, sanatsal, siyasal,
ekonomik, güncel vb. i sahalarında yapılan birikimli çalı malar bizleri
yönetilmesi, depolanması ve geri-getirilmesi gereken külliyetli bir
potansiyel enformasyon yı ını ile kar ı kar ıya bırakmı tır. Bilgisayar
dünyasındaki geli melere paralel olarak bu ihtiyaçlardan yönetim ve
depolama sayısal kütüphanelerde örnekleri gözlemlendi i ekilde
kataloglama ve indeksleme açısından kısmen de olsa çözümlere
kavu turulmu tur. Fakat ihtiyaçlardan biri olan geri-getirim, daha
do rusu bir ki inin ihtiyaç duydu u bilgi ile ili kili/alakalı olan
belgelerin geri getirimi ara tırma için açık olan bir konudur. Bilgi gerigetirim i i bir sorgu veya konu ba lı ı talebine kar ılık tanımlı bir
yapıya sahip olmayan alakalı kayıtların özellikle metin içerikli
belgelerin geri getirimi ile ilgilenen bir disiplin olarak tanımlanabilir.
Söz konusu talebin nasıl yapılaca ına dair önceden tanımlı bir yapı
olabilir veya olmayabilir, örne in do al dilde yazılmı olan bir soru
cümlesi de olabilir veya boole8 ifadesi eklinde yapısal bir biçimde de
sorgu olu turulabilir. Günümüzde bilgi geri-getirim dizgeleri yalnızca
yazılı metinler için kurgulanmazlar, yapısal tanımlamaya sahip
olmayan di er verilerde kullanılabilir: Foto raflar, ses, görüntü vb.
Ancak bu tez kapsamında Bilgi geri-getirim (BGG) yalnızca yapısal
olmayan Türkçe yazılı metinler hedef alınaca ından tez kapsamını
belirlemek amacı ile verilebilecek en iyi tanım bilgi geri-getirim
disiplini öncülerinin, isim verecek olursak Cleverdon, Salton, Sparck
Jones ve di erlerinin çizgisini özetleyen Lancaster’ın (1968) tanımı
olacaktır:
8
TBD, Bili im Terimleri Sözlü ü
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
78
“… Bir bilgi geri-getirim sistemi ki iyi aramakta oldu u konu
hakkında bilgilendirmez (veya ki inin aramakta oldu u konu ile ilgili
bildiklerini de i tirmez). Ki iyi sadece aramakta oldu u konu ile alakalı
belgelerin var olup olmadı ı ve nerelerde bulunabilece i hakkında
bilgilendir.”
(Lancaster, 1968)
BGG tanımının en genel halini ise Kochen (1983)
yapmı tır:
öyle
“Bilgi geri-getirim enformasyon bilimin bir alt disiplinidir.
Enformasyon bilimi ise geni tanımı ile enformasyon, bilgi ve anlama ile,
yani yazılı metinlerde (belgeler) gömülü ve idrak eden bir zihin tarafından
algılanan anlam ile u ra ır.”
(Kochen, 1983)
BGG sistemleri için Ingwersen (1992) tarafından verilen,
bilgisayar bilimleri içindeki u ra ların hedeflerini belirleyen tanım da
öyledir:
“ nsanlar tarafından ihtiyaç duyulan muhtemel, yani potansiyel
enformasyonun temsilini, depolanmasını, aranmasını, bulunmasını ve
sunulmasını içine alan bir süreç. Muhtemel enformasyon ancak bir ki i
tarafından anla ılırsa, yani idrak edilirse o ki i için enformasyon olur.
Muhtemel enformasyon e er bir ki i tarafından anla ılmıyorsa, yani idrak
edilemiyorsa o ki i için veri olarak kalmaya devam eder.”
(Ingwersen, 1992)
Ingwersen’in BGG sistemleri için verdi i tanımda “... e er bir
ki i tarafından anla ılmıyorsa, o ki i için veri olarak kalmaya devam
eder.” hükmünden, BGG sistemlerinin veri ile u ra an bir sistem
oldu u sonucuna varılmamalıdır. BGG sistemleri ile veri geri-getirim
(VGG) sistemleri, örne in ili kilendirilmi veri-tabanı uygulamaları
(relational database applications) arasında ciddi farklar vardır. VGG ve
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
79
BGG sistemlerinin i levsel özellikleri kar ıla tırmalı olarak Çizelge
5.1.’de özetlenmi tir.
Çizelge 5.1: Veri geri-getirim ile Bilgi geri-getirim sistemlerinin
i levsel özellikleri.
Veri geri-getirim
Bilgi geri-getirim
Tam e le tirme Kısmi/en iyi e le tirme
Tümden-gelim
Tüme-varım
Belirli
Olasılıklı
Tek-hal
Çok-hal
Yapay
Do al (dil)
Tam
Eksik
E le tirme
Alakalı
Duyarlı
Duyarsız
E le tirme
Çıkarsama
Model
Sınıflandırma
Sorgu Dili
Sorgu Belirtme
Aranan Kalemler
Hataya Tepki
Aslen herhangi bir ki i, Çizelge 5.1.’de i levsel özellikleri verilen
iki geri-getirim ekli arasındaki sınırların pek de net olmadı ını
dü ünebilir. Zaten genel anlamda da öyledir; ancak söz konusu iki geri
getirim ekline ait uygulamada kar ıla ılan güçlüklerin belirlenmesi,
sınırları e olsa dahi u ra sahalarının birbirinden çok farklı oldu unu
ortaya koyacaktır. Bu yüzden listelenen belirli i levleri biraz detaya
inerek tanımlayaca ız.
VGG’de e le tirme tamdır, yani aranan bir kalemin belirli bir
sayısal dosyada var olup olmadı ına bakılır. BGG’de bazı durumlarda
aynı ey söz konusu olabilir, fakat genelde aranan kalemle kısmi olarak
e le enler belirlenir ve ardından bunların arasından en iyileri seçilmeye
çalı ılır.
Çıkarsama veri geri-getirimde en basit halindedir, yani A ile B
ili kili ve B ile C de ili kili ise A ve C ili kilidir sonucuna varılır.
BGG’de bu ekilde bir tümdengelim yakla ımının kullanımı genel
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
80
içinde çok nadir bir durum bile de ildir; BGG içinde ili kiler ancak bir
derecede kesinlik veya belirsizlik içerir, dolayısı ile yapılan
çıkarsamaların güvenilirli i de i kendir. Söz konusu durum, VGG’in
belirli (deterministic), BGG’in ihtimalli (probabilistic) olmasına sebep
olur. Bu yüzden BGG’de sıklıkla Bayes9 karar kuramına ba vurulur,
fakat VGG’deki i lemlerin içinde ihtimal (olasılık) yoktur.
Sınıflandırma da, iki geri-getirim ekli arasındaki farklılı ı ortaya
koyan bir ba ka niteliksel örnektir. VGG’de sınıflandırma tek-hal’dir,
yani bir sınıfa, i lemdeki bir nesnenin dahil olabilmesi için gerek ve
yeter art nesnenin süreç içinde tanımlanmı özellikleridir ve bu
özellikler süreç içinde de i mez. Fakat BGG’de, bu tür bir
sınıflandırma genel anlamda pek kullanı lı de ildir. BGG için çokhal’li bir sınıflandırma daha do rudur. Bir ba ka söyleyi le, bir sınıf
içindeki her nesne, söz konusu sınıfın di er nesnelerinde bulunan
özelliklerin bütünü ile olu an toplam özelliklerinden bir kısmını ta ır.
Dolayısı ile, bir sınıfa dahil olmak için, nesnelerin hiçbir özelli i ne
gerekli, ne de yeterlidir.
Sorgu dili VGG’de yapaydır, yani kısıtlanmı bir söz-dizim kural
kümesine ve kelime da arcı ına sahiptir (örne in SQL, yani yapısal
ili kili veri tabanı sorgu dili). Ancak BGG’de, belirtilmesi gereken
istisnalar olması bir yana, genelde do al dil tercih edilmektedir.
VGG’de sorgular genellikle isteneni tam belirtir özelliktedir; BGG’de
ise her zaman eksiktir. Bu bahsetti imiz eksik olma durumu, BGG
sorgularında belirtilen istek kalemi ile alakalı nesnelerin (örne in
belgelerin),
VGG’de
ise
tam
e le enlerin
aranmasından
9
Thomas Bayes (1702-1761) Bayes kuramına ismini veren ngiliz matematikçi.
Bayes tarafından ortaya konan olasılı a dayalı sebeplenme prensibi karar kuramının
temelini olu turmu tur.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
81
kaynaklanmaktadır. Bir ba ka söyleyi le, BGG’de arama süreci “sorgu
ile alakalı olma” ihtimalini ta ıyan belgelerin bulunması eklinde
tanımlanabilir. VGG’de yapılan bir aramada, hata olması durumunda
istenenleri getirmez, yani bir “toplam hata” söz konusudur. Ancak
BGG’de, e le tirmede meydana gelen küçük hatalar, sistemin toplam
ba arımına o kadar önemli etkilerde bulunmaz.
VGG
ve
BGG
arasındaki
farklılık,
aslında
uygulama
sahalarında da net bir ekilde de gözükmektedir. ekil 5.1.’de Veri’den
Bilgi Ke fi/Madencili i (VBK – Knowledge Discovery from Data,
KDD) ve
belge uzayından Belge/Metin Madencili i (BM –
Document/Text Mining, DM) u ra sahaları için, yapısal kurgular alt
süreçleri esasında e le tirmeli olarak gösterilmi tir. Son ürünlerin,
VBK’da bilgi, BM’de enformasyon olmasının sebebi, VBK’da verinin
yapısal, BM’de ise do al dil olmasıdır. VBK sahasında son süreç olan
de erlendirme ile ( ekilde “4” ile gösterilmekte) veri’den bilgi elde
etmektir. BM sahasında ise, kar ılık olan yorumlama süreci ile
enformasyon elde edilmektedir.
Bu tezin ara tırma konusu olan BGG sistemleri, belge
madencili i u ra sahasının ilk, yani giri seviyesini olu turan alt
süreçtir. Bu yüzden, BGG sistemlerinin ba arımı, BM sahasının hedefi
olan “enformasyon’un ortaya çıkartılması” i inin ba arımında, en
belirleyici etmendir. Yani, belge uzayından alakalı belgelerin yüksek
bir ba arı ile elde edilmesi, di er süreçlerin ba arımlarını, dolayısı ile
toplam sistem ba arımını do rudan etkiler.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
82
Veri’den Bilgi Ke fi/Madencili i (VBK)
Belge/Metin Madencili i (BM)
Bilgi
Enformasyon
De erlendirme
Yorumlama
Desenler
4
Desenler
Enformasyon
Madencili i
Veri Madencili i
Dönü türülmü
Belgeler
Dönü türülmü Veri
3
Enformasyon
Çıkarımı
Dönü türüm
Alakalı
Belgeler
Veri
Ön-i lemden
geçmi veri
2
Veri
Veri
Belge
Veritabanı
Bilgi
Geri-Getirim
Seçim
&
Ön-i lem
Belge
Uzayı
Veri
1
ekil 5.1: Bilgi Ke fi/Madencili i ve Belge/Metin Madencili i u ra larına ait yapısal
kurguların kar ıla tırması. “Veri’den Bilgi Ke fi” ve “Belge Madencili i”
sahalarındaki alt süreçler, yapısal ve içerik benze imleri nispetinde
kar ılıklı e le tirilmi tir.
5.1. Genel Sistem Yapılanması
BGG sistemlerinin kullanım sahasında, sistem dı ı etmenlerle
etkile imleri en genel hali ile ekil 5.1.1.’de çizge olarak tasvir
edilmi tir. Herhangi bir BGG sisteminin etkile imde oldu u dı
etmenlerden iki girdi unsurudur: sorgu ve belge uzayı. Sistem sorgu ile
uzaydaki belgeler arasında bir alaka/ili ki kurarak, en yüksek alaka
de erine sahip olan belgelere ait kılavuzları çıktı olarak verir (alakalı
belge adresleri). Verilen çıktı’nın, talebi kar ılama ba arımı, her zaman
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
83
geçerli olmasa da talepte bulunan kullanıcı nezdinde sorgu inceltme
(query refinement) amacı ile geri-besleme olarak sisteme girdi
yapılabilir.
Geri-Besleme
Sorgu
BGG
Sistemi
Çıktı
Belge
Uzayı
ekil 5.1.1: Bilgi geri-getirim sistemlerinin genel kurgusu.
Tüm BGG sistemlerinin hedefinde “kullanıcının enformasyon
ihtiyacını kar ılamak amacı ile alakalı belgelerin etkin ekilde geri
getirimi” vardır. Sistem içinde söz konusu etkin geri-getirim ise,
birbirinden ba ımsız üç sürecin ortaklı ı ile gerçeklenir:
1. Kullanıcı hizmetleri,
2. Belgelerin ve sorguların sayısal temsil ekli ve
3. Geri-getirim yöntemi.
BGG sistemleri, kullanıcı için iki temel hizmeti sa larlar.
Bunlardan birincisi, kullanıcının bilgi ihtiyacını kar ılamak üzere geri
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
84
getirim hizmeti; ikincisi de geri-getirim sistemi ile elde edilmi alakalı
belgelerin kullanıcı tarafından incelenmesini sa layacak ara-yüz, daha
do rusu sonuçlara göz-atma (browsing) i lemi için gerekli ortamın
sa lanmasıdır. Kullanıcı bakı ı açısından, bir BGG sistemi tarafından
verilen hizmetler ve birbirleri ile ili kileri çizge olarak ekil 5.1.2.’de
verilmi tir.
gu
So r
Geri-Getirim
Geri
Besleme
Çıktı
Kullanıcı
Belge
Uzayı
Göz-atma
ekil 5.1.2: Kullanıcı bakı açısından, BGG sistem hizmetleri.
Bu tez kapsamına, BGG sistemlerinin kullanıcı bakı açısından
sadece geri-getirim hizmeti girmektedir; göz-atma (Browsing) hizmeti
kapsam dı ındadır.
5.2. Genel leyi Kurgusu ( ç Yapılanma)
BGG sistemlerinde kullanıcının enformasyon ihtiyacını belirten
sorgu ile belge uzayındaki alakalı belgelerin e le tirilerek, sistemin
genel çıktısının olu masını sa layan iç yapılanma örne i ekil 5.2.1.’de
betimlenmi tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
Belge Uzayı
85
Sorgu
Sayısal Temsil
Yordamı
Belge
Kelime/Cümle
ndeks
Terimler
ndeks
Terimler
Sayısal
Temsil
(Belge)
E le tirme
Sayısal
Temsil
(Sorgu)
Alakalı
Geri-Getirim Sistemi
Çıktı
(Alakalı Belgeler)
ekil 5.2.1: Bilgi geri-getirim sistemlerinin iç yapılanma örne i.
BGG sistemlerinin, genel i leyi kurgusu içerisinde, yani iç
yapılanmasında iki temel süreç bulunmaktadır: sayısal temsil yordamı
ve e le tirme yöntemi. Sayısal temsil yordamı, sistem girdisi olan
metinlerin ve sorgunun, hesaplanabilir yapılara dönü türülmesinden
sorumlu olan yordamdır. Aslen e le tirme sürecinde kullanılan, metin
ve sorgunun hesaplanabilir yapıları, kullanılan geri-getirim yönteminin
nitelikleri do rultusunda bir takım i lemlerle elde edilmektedir (örne in
vektör uzayı modeli geri-getirim yöntemi ise, metinler ve sorgu
vektörler halinde temsil edilir). Ancak, buradaki anlamı ile, metinlerin
ve sorgunun, bir dizi ön süreçten geçirilerek, tüm geri-getirim
yöntemlerinin matematiksel alt yapılarında ortak hesaplama birimi
olarak kullanılan haline, yani ortak bir sayısal temsile dönü türmektir
(indeks terimler). E le tirme, yani sorgu ile ifade edilen ve aranan
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
86
enformasyonun, belgeler içinde bulunması ise, geri-getirim yönteminin
esas aldı ı matematiksel alt yapı ile belirlidir. Örne in, vektör uzayını
esas alan bir geri-getirim yönteminde, belgelerin ve sorgunun sayısal
temsilleri üzerinden vektörleri olu turulur ve iki vektör arasındaki
açısal uzaklık “alaka” için bir ölçüt olarak kullanılır. Açısal uzaklı ı en
az olan belge, sorgu ile en alakalı olarak kabul edilir.
5.3. Sayısal Belge Temsili
BGG sistemlerinde yaygın ekilde kullanılan sayısal temsil
yordamı ve onu olu turan alt süreçler ekil 5.3.1.’de çizge olarak
gösterilmi tir. Sayısal temsil yordamını olu turan alt süreçler, “do al
dilde yazılı bir belgeden” ba layan ve nihayetinde “indeks terimler
eklinde temsil” ile son bulan bir dönü türme zincirinde art arda
uygulanırlar.
Bir belgenin en asgari düzeyde temsili, tam metin eklinde
olabilmektedir; yani belgeden noktalama i aretleri, bo luklar vb.
anlamsal-enformasyon açısından önemsiz simgeler arındırıldıktan sonra
geriye kalan kelimeler, isimler, yerler, sayılar v.b. simgelerin listesidir
( ekil 5.3.1.’de 0 –sıfır- numara ile etiketlenmi tir). Bu i lem metin
normalle tirme (text normalization) yada simgele tirme (tokenization)
olarak adlandırılır. Tam metin sayısal belge temsili, yordamın çıktısı
olarak elde edilebilecek temsillerin en ilkel eklidir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
87
Belge
0
Metin
Kelime
Gurupları
Gövdeleme
1
2
3
Elle/
Otomatik
ndeksleme
4
Yapısal
Algılama
Metin+Yapı
Durmakelimeleri
Noktalama,
bo luk vb.
ndeks
Terimler
Tam Metin
Belge Temsilinin Çe itli Halleri
ekil 5.3.1: Bilgi geri-getirim sistemlerinde alt süreçler esasında sayısal belge temsil yordamı. ekilde kesikli oklar seçimlik; kesiksiz
oklarsa zaruri alt süreç i lemlerine, yordam akı ını yönlendirmektedir. Seçimlik i lemler 1, 2, 3 ve 4. i lemlerdir. “0.” i lem,
yani Noktalama, bo luk vb. ile etiketli olan genel geçerdir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
88
Aslen, simgele tirme veya metin normalle tirme belge ve sorgu
temsili olu turma süreçlerinde kullanılacak simgelerin, yani silsiledeki
di er süreçler için temel hesaplama birliklerinin tespit edildi i adımdır.
Di er adımların tamamında bu adımda olu turulan simgeler bir
hesaplama birimi olarak ele alınır. En basit hali ile simgele tirme
kelimelerin ve kelime aralarında kullanılan di er yazım sembollerinin
belirlenmesi olarak tanımlanabilir. ekil 5.3.2.-(a)’da örnek bir yazılı
yalın Türkçe metin ve (b)’de de bu metnin normalle tirilmi hali
gösterilmi tir. Örnek metnin içinde aynı zamanda biçimlendirme de
iptal edilmi tir (Büyük/küçük harf, kalın, yatık vb. yazım biçimleri).
(a)
(b)
Dervi 'e Ekonomi Bakanlı ı
yetmez!
Sakın yanlı anlamayın
ba lıktaki tespit bize ait de il.
Devlet Bakanı Kemal Dervi 'in
çok eski ve yakın dostu Bülent
Eczacıba ı böyle dü ünüyor:
dervi 'e ekonomi bakanlı ı
yetmez sakın yanlı anlamayın
ba lıktaki tespit bize ait de il
devlet bakanı kemal dervi 'in
çok eski ve yakın dostu bülent
eczacıba ı böyle dü ünüyor
(d)
(c)
dervi ekonomi bakan yetmez
sakın yanlı anla ba lık tespit
devlet bakan kemal dervi eski
dost bülent eczacıba ı dü
dervi 'e ekonomi bakanlı ı
yetmez sakın yanlı anlamayın
ba lıktaki tespit devlet bakanı
kemal dervi 'in eski dostu
bülent eczacıba ı dü ünüyor
ekil 5.3.2: Sayısal belge temsili olu turulması adımlarına örnekler. (a) metnin aslı;
(b) metnin simgele tirilmi /normalle tirilmi
hali; (c) durma
kelimelerinden arındırılmı hali; (d) metnin biçimbirim (morphologic)
normal veya gövdelenmi halidir.
Durma kelimeleri (stop words) metin içeri inde ta ınan
enformasyon ile çok alakalı olmayan kelimelerdir. Bu kelimeler,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
89
metinin içinden ayıklanırlar. Ta ınan enformasyon ile alakalı olmama,
yani kelimelerin metin içinde ya gramer yada i levsel olarak (örne in
zamirler) kullanılması anlamına gelir. Do al dilde bu kelimelerin sayısı
200-300 kelimeyi a maz, ancak toplam kelime sıklı ının yarısından
fazlasını olu turabilir. Bu tip, gramer veya dilbilgisi yazım kuralları
gibi i levleri olan kelimelerin metinden ayıklanması geleneksel
yöntemler içinde yaygın ekilde görülen bir durumdur. ekil 5.3.2.(c)’de normalle tirilmi metinden, bu kelimelerin ayıklanması ile elde
edilen örnek metin gösterilmektedir.
Biçimbirimsel normalle tirme, yani gövdeleme, yapılan sorguyu
olu turan kelimelerin farklı biçimlerini de içeren belgelerin, geri
getiriminin sa lanması için kullanılır. Ancak sondan eklemeli, çekimli
diller, örne in Türkçe için bu amacın yanında ba ka bir amaca daha
hizmet eder: indeks terim listesinin yönetilebilir boyutlarda tutulması.
ekil 5.3.2.-(d)’de örnek metnin, gövdelenmi hali gösterilmi tir.
Analitik diller, yani bir kelimenin biçimbirimsel ekilleri kısıtlı
olan dillerde, BGG sistemleri için biçimbirimsel normalle tirme
nispeten basit yöntemlerle yapılabilmektedir. Örnek olarak, “Porter’s
Stemmer” otomatik gövdeleme yordamı, ngilizce’deki tüm kelimelerin
yazımda kullanılan farklı biçimsel hallerini, sadece 120 kurala dayalı
olarak, gövdelerine indirgeyebilmektedir (Porter, 1980). Bu tür
yordamlarda, aslen dilbilimsel olarak gerçek köklere inildi i
söylenemez. Dilbilimsel olarak gerçek kökün bulunması için kullanılan
yöntemse, sözlükten bakmadır. Daha do rusu, tüm kelime köklerinin
bir liste halinde tutulması ve bu köklerden gövde türetme kuralları ile
kar ıla ılan kelimenin türetilerek bulunmasıdır. Ancak bu tür
yordamlarında gerçek kökün ne oldu una dair belirsizli e dü tü ü
durumlara sıkça rastlanmaktadır. Örne in, ngilizce “saw” kelimesi,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
90
“see”, yani görmek fiilinin düzensiz ikinci hali midir? Yoksa “saw”,
yani testere anlamında kullanılan bir isim midir? Böyle bir yordamla
ayırt edilemez. Belirsizli in giderilebilmesi için, kelimenin kullanıldı ı
yerdeki sözcük türünün (part-of-speech) iki ihtimalinden, yani isim ve
fiil halinden, hangisinin oldu unun belirlemesi gerekir. Sözcük
türlerinin bulunması meselesi ise bu i için geli tirilmi bir ba ka
yöntemle bulunabilmektedir (Brill, 1995; Church, 1988; DeRose,
1988). Gövdeleme ile belgelerin ortak bir dilbilimsel biçime
indirgenmesi gibi dilbilim sahasının u ra alanında olan bir yöntem
yerine, kullanıcının sorgusundaki kelimelerin olası tüm biçimlere
ço altılması da, ngilizce gibi analitik diller için kullanılan bir di er
alternatiftir (Hiemstra and de Jong, 2001).
Analitik diller için yukarıda anlatılan yöntemler etkin bir ekilde
kullanılabilmektedir, ancak Türkçe gibi, sadece bir fiilden
olu turulabilecek, yazım ekli de i ik biçimlerin sayısı, milyon
seviyelerine çıkabilen diller için söz konusu yöntemler etkinli ini
yitirmektedir (Jurafsky and Martin, 2000). Örnek olarak Çizelge
5.3.1.’de 1 milyon ve 10 milyon kelimelik iki derlemin sözcük
da arcıklarının sayıları verilmi tir (Hakkani-Tür, Oflazer and Tür,
2002).
Çizelge 5.3.1: Bir milyon ve on milyon kelimelik Türkçe derlemlerin
kelime da arcıkları (Hakkani-Tür et. al., 2002).
Derlem boyutu
Kelime da arcı ı
1M kelime
106,547
10M kelime
417,775
Kelime da arcı ındaki bu biçimsel de i ikli in zenginli inden
kaynaklı büyüklük, sondan eklemeli, ekli diller için farklı yöntemlerin
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
91
geli tirilmesi zorunlulu unu do urmu tur. En uzun e le me, Kut ve
arkada ları (1995) tarafından Türkçe için gerçekle tirilen ilk gövdeleme
yöntemidir. Yöntemde, bir sözlük içine dahil edilmi kelimeler ve olası
türetilmi gövdeleri bulunmaktadır. ndeks terimleri olu turulacak
belgedeki kelimeler, bu sözlükten aranmakta ve en uzun e le en kelime
gövdesi seçilmektedir. Türkçe için geli tirilmi bir di er yordamda
Solak ve arkada ları (1994) tarafından gövdeleme i leminin gerigetirim ba arımı üzerindeki etkilerinin ara tırılması esnasında ortaya
konmu tur. A-F yordamı olarak adlandırdıkları bu çalı mada, bir
sözlükte güncel Türkçe kelimelerin gövdelerini ve her gövdenin yapım
ve çekim eklerini alı esaslarını belirten 64 özellik tutulmu tur.
Belgelerde rastlanan kelimelerin, bu verilerin ı ı ı altında
de erlendirilerek, olası tüm gövdeleri üretilmektedir. Sever ve
arkada larının ortaya koydu u gövde-bul (FINDSTEM) gövdeleme
yordamı, BGG sistemlerinin etkinli ini esas alan ve sözünü etti imiz
iki yöntemle de deneysel olarak kar ıla tırılan bir çalı madır (Sever ve
Bitirim, 2003). Söz konusu gövdeleme yordamı, yazım ekilleri farklı
olan kelime biçimlerini, dilbilimsel gövdelerine indirgemektedir.
Yöntemde, kelime gövdeleri ile kelime kökleri birbirlerinde özellikle
ayrı tutulmaktadır ve kelimelerin kökleri de il gövdeleri tespit
edilmektedir. Çalı mada, di er kar ıla tırılan iki yöntemin hataları
içinde gövde yerine, kelimenin kökünü seçmeleri gösterilmi tir. Sever
ve Bitirim’in çalı masında, örne in “gözlü üm” ve “gözlüklüyü”
kelimeleri “göz” köküne de il “gözlük” gövdesine indirgenmektedir.
Di er yöntemlerden, gövde olarak “göz” seçiminin ortaya çıktı ı
durumlar oldu u tespit edilmi tir. Kelimenin gerçek gövdesinin
bulunması, dilbilimsel açıdan, yani anlamsal olarak Türkçe için önemli
bir husustur, çünkü kelime gövdeleri, kök kelimeye yapım eki
getirilmesi ile meydana getirilir ve ço unlukla kökten farklı anlamlar
ta ırlar. Türkçe için, kelime gövdesine indirgemeyi esas almayan, daha
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
92
do rusu gövdeleme gibi bir meselenin, kullanılan geri-getirim kurgusu
içinde var olmadı ı bir di er yöntem de, Ekmekçio lu’nun (1996) ngram modeli ile yaptı ı çalı mada ortaya çıkmaktadır. Bu çalı mada,
geri-getirim kelimeler veya gövdeler esasında uygulanmamaktadır.
Tüm belgelerdeki metinler ve sorguyu olu turan kelimeler, harf
esasında n-gram birlikleri esas alınarak e le tirme yapılmaktadır.
Dolayısı ile, bu bakı açısı içerisinde ne kelime, ne de gövdesi mesele
olarak ortaya çıkmaktadır. Ancak Türkçe’nin yine dilbilimsel
özellikleri sebebiyle, sayısal belge temsilinin n-gram örne inde seyrek
veri (sparse data) sorunu, analitik dillere kıyasla daha ciddi boyutlarda
mesele yaratmaktadır.
Gerçek bir dilbilimsel gövdeleme yapılabilmesi için, tam bir
biçimbirimsel ve söz-dizimsel analizin yapılmasına gerek vardır.
Türkçe için geli tirilmi ve halen kullanılan tek biçimbirimsel analiz
yordamı, Oflazer (1993) tarafından gerçekle tirmi olandır. Söz konusu
yordam, tam bir dilbilimsel biçimbirim analizi yapmaktadır ve Türkçe
kelimelerin olası tüm kök ve gövdelerini bulabilmektedir. Oflazer, bu
biçimbirimsel analiz yöntemi için yordam geli tirirken, Türkçe’nin
biçimbirim kural kümelerini, Koskenniemi (1983) tarafından ortaya
konulan iki-seviyeli dil tanımlamasını esas alarak yapmı tır. Fakat, ikiseviyeli dil modellemesi, teorik olarak girdinin büyüklü ü ile do rusal
bir hesap zamanına sahip de ildir, daha do rusu hesaplanabilme
açısından NP-Complete bir mesele oldu u Barton (1986) tarafından
ispatlanmı tır. Bu yüzden geri-getirim uygulamalarında kullanımı,
Sever’in de (2003) çalı masında belirtti i gibi, uygun de ildir.
Kelime guruplarının tespiti, BGG sistemlerinde sayısal belge
temsilinde kullanılan yöntemlerden bir di eridir. Yazılı metinlerde
kelime guruplarının tespiti üç yolla yapılmaktadır: 1-) Elle önceden
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
93
sisteme tanıtılması (Robertson and Walker, 2000). 2-) statistiksel
olarak kelimelerin birlikte gözlenme sıklı ına göre olu turulması (Mitra
et al., 1997) ve 3-) Söz-dizimsel cümle çözümlemesi ile belirleme
(Strzalkowski, 1995). statistiksel yöntemler, durma kelimeleri
haricinde yan yana belirlenmi bir e ik de erden daha fazla belgede
gözlemlenen birliklerin kelime gurubu olarak alınması gibi basit bir
mantı a dayanmaktadır. Söz-dizimsel cümle çözümlemesinde ise,
ngilizce için “Information Retrieval” (Bilgi geri-getirim) ile “Retrieval
of Information” (Bilginin geri-getirimi) gibi aslen anlamları aynı fakat
dizilimleri farklı tümceler tespit edilerek tek bir sıralamaya konurlar.
Türkçe cümlelerin sözdizimsel çözümlemesi için de pek çok çalı ma,
hesaplamalı
dilbilim
uygulamalarında
kullanılmak
üzere
gerçekle tirilmi tir (Demir, 1993; Güngördü, 1993; Oflazer and
Kuruöz, 1994; Hakkani, 1996; Korkmaz, 1996; Birtürk 1998).
E
anlamlı kelimelerin bulunması da, sayısal belge temsili
olu turulmasında ba vurulan bir yöntemdir. Ancak, özellikle sorguların
i lenmesinde daha yaygın kullanılmaktadır. Kullanıcının bilgi ihtiyacını
kar ılamak üzere, do al dilde biçimlendirdi i sorguyu olu turan
kelimelerin, e anlamlıları da geri-getirim sürecine dahil edilerek,
alakalı belgeler kümesinin geni letilmesine (anma iyile tirme) yönelik
bir yöntemdir. Belge temsili içinde kullanımı ise gövdeleme benzeri bir
i levselli e sahiptir. Farklı ekillere sahip, fakat aynı anlama gelen
kelime biçimleri, bu sayede tek bir indeks terimle temsil edilirler. Bu
yönde Türkçe için, Orgun (1985) ve Sezer (1999) tarafından yapılan
çalı malar örnek verilebilir.
Hesaplamalı dilbilim sahasına ait u ra lar olan gövdeleme, kelime
guruplarını belirlenmesi ve sözcük türlerinin tespiti, aslen BGG
sistemlerinde kullanımı, geri-getirim ba arımına olan katkı açısından
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
94
tartı malı bir durum yaratmaktadır. Yukarıda tanımlanan sayısal belge
temsil yordamı, geleneksel BGG sistemlerinin yaygın olarak
benimsedikleri alt süreçleri içermektedir. Görüldü ü gibi, sözcük türü
tespiti bu yordamın alt süreçleri içinde en azından seçimlik olarak dahi
gözükmemektedir.
Gövdeleme yapmanın, analitik diller için, BGG sistemlerinin
geri-getirim ba arımı üzerinde etkisinin olmadı ına dair genel bir görü
hakimdir. Bu yönde menfi sonuçlu ara tırmalar (Harman, 1991; Kraaij
and Pohlmann, 1996) oldu u gibi, müspet sonuçların alındı ı
çalı malar da mevcuttur: ngilizce için Krovetz (1993), Hull (1996);
talyanca için Sheridan ve Balerini (1996); Slovence için Popovic ve
Willet (1992). Ancak, çalı maların geneli üzerinden olu an kanı,
gövdeleme yapmanın anlamlı olmadı ı yönündedir. Analitik dillerde
olu an bu kanının aksine, Türkçe için yapılan çalı maların tümünde,
geri-getirim ba arımının arttı ı tutarlı bir ekilde belirtilmi tir (Solak,
1994; Ekmekçio lu, 1996; Sever, 2003).
Kelime guruplarının tespiti de, analitik dillerde yapılan
çalı maların sonucunda, gövdeleme ile aynı akıbeti payla mı tır. Croft
ve arkada ları (1991), Lewis (1992), Kupiec (1993), Jacqemin ve
Royaute (1994), Riloff (1995) ve Lewis ve arkada ları (1996)
hesaplamalı dilbilim ve istatistiksel yöntemler kullanımı ile geri-getirim
ba arımının arttı ını belirtirken, Mitra (1997) ngilizce için, Kraaij and
Pohlmann (1996) Almanca için kelime guruplarının belirlenerek ve
belirlenmeden yapılmı olan geri-getirim uygulamalarının ba arımları
arasında kayda de er bir fark olmadı ını belirtmi lerdir. Ancak,
bilgimiz dahilinde kelime guruplarını belirlemenin Türkçe yazılı
metinlerde bilgi geri-getirim ba arımına etkisinin olup olmadı ına dair
bir ara tırma yapılmamı tır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
95
Tez hedefimiz içinde bulunan di er dilbilgisi özelli inin, yani
cümle unsurlarının sayısal belge temsilinde kullanılması ve Türkçe için
bir BGG sisteminin geri-getirim ba arımı üzerindeki etkileri de, yine
bilgimiz dahilinde imdiye kadar yapılmamı bir çalı madır.
96
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
97
6. GER -GET R M MODELLER
Bilgi
geri-getirim
sistemleri,
kullanıcı
tarafından
kendi
enformasyon ihtiyacını kar ılamak üzere, sisteme yönlendirdi i sorgu
ile belgeler arasında anlamsal açıdan bir alaka kurmaya çalı ırlar. Bu
anlamsal alakayı kurma i i, BGG sistemlerinin en önemli görevidir.
BGG sistemlerinde, belgelerin anlamsal olarak modellenmesi, bir birini
tamamlayan iki süreç ile gerçeklenir. Söz konusu süreçler, birbirinden
ba ımsızdır. Ancak birinin çıktısı, di erinin girdisi olma esasında
belgelerin sayısal temsilini birlikte tamamlarlar. Önce, sayısal temsil
yordamı ile belge toplulu u için indeks terimler olu turulur, sonrasında,
belirlenen indeks terimler için, kullanılan “geri-getirim modelinin”
gerektirdi i ekilde indeks terimlerin her birine, her belge için bir
a ırlık hesaplanır. Her indeks terime, her belge için atanan bu
a ırlıklar, söz konusu indeks terimin belgede ta ınan “içeri e”
yaptıkları katkının öneminin bir ölçüsüdür ve ne ekilde hesaplanaca ı
geri-getirim modeli tarafından belirlenir. Böylece, bir BGG sistem
uygulaması için gerekli olan sayısal belge temsili de tamamlanmı olur.
Geri-getirim modelleri, bir de BGG sistemlerinin iç yapılanmasında
bulunan “e le tirme” yöntemi için bir yordam tarif ederler. Bu
“e le tirme” yordamı, indeks terimlere atanan a ırlıkların hesaplama
yordamı ile aynı ölçekte ve kurgusal olarak geri-getirim modelinin esas
aldı ı kuramsal alt yapının do al bir parçası olmak zorundadır.
Dolayısı ile, bir geri-getirim modeli, BGG sisteminin iki i levsel
yapısının olu turulması için, yani belgelerin anlamsal olarak
modellenmesi ve “e le tirme” için, bir kuramsal alt yapı tarifidir.
Geri-getirim modelleri, esas aldıkları kuramlar açısından
birbirlerinden ayrılırlar. Dolayısı ile, belgelerin anlamsal olarak
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
98
modellenmesi ve e le tirme için farklı yöntemler kullanırlar. Yaygın
olarak, BGG sistemlerinde kullanılan geri-getirim modellerinin
sınıflandırması ekil 6.1.’de çizge eklinde verilmi tir. ekilde
sınıflandırma BGG sistemlerinin “genel yapılanması” esas alınarak
verilmi tir. Dolayısı ile, verdikleri kullanıcı hizmetleri, kök olmak
üzere, alt dallanmalar biçiminde guruplara ayrılmı , dallanmanın a a ı
kısımlarında ise, esas
sınıflandırılmı lardır.
aldıkları
matematiksel
kuramlara
göre
Kullanıcı Hizmeti
Göz-atma
Flat
Structure Guided
Hypertext
Geri-Getirim
Adhoc
Fitering
Yapısal Modeller
Küme Kuramsal
Fuzzy
Extended Boolean
Cebirsel
Generalized Vector
Latent Semantic Index
Neural Networks
Klasik Modeller
- kil Sayılar
-Vektör
-Olasılık
Non-Overlapping Lists
Proximal Nodes
Olasılık Kuramsal
Inference Network
Belief Network
ekil 6.1: Bilgi geri-getirim modellerinin sınıflandırılması. (Baeza-Yates and RibeiroNeto, 1999, uyarlama).
ekilde, öncelikle bir BGG sistemi, genel yapılanması esasında,
yani kullanıcıya verdikleri hizmetler açısından iki alt kola ayrılmı tır:
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
99
göz-atma (browsing) ve geri-getirim. Tez kapsamımızda, kullanıcı
hizmeti olarak geri-getirim ele almaktadır. Dolayısı ile, bu bölümde
sadece bu alt dalın detayları incelenmektedir.
Bir BGG sistemi, kullanıcıya sa layaca ı geri-getirim hizmetini
Adhoc (anlık “sorgu”) ve Filtering (süzme, yani sabit “sorgu”) olmak
üzere iki ekilde gerçekle tirebilir. Adhoc eklinde BGG sisteminin
hedefindeki belge toplulu u sabit, kullanıcının sisteme yöneltti i
sorgu(lar) de i ken’dir; Filtering eklinde BGG sisteminin hedefindeki
belge toplulu u de i ken (toplulu a yeni belgeler eklenir ve bazı
belgeler çıkar), kullanıcının sisteme yöneltti i sorgu(lar) nispeten
sabit’dir. Tez kapsamımız içerisinde ele aldı ımız BGG sistemleri,
kullanıcıya Adhoc eklinde hizmet verenlerdir.
Geri-getirim hizmet ekillerinin her ikisinde de, aynı modeller
kullanılabilir. Söz konusu modellerse, belge temsil esasında klasik
modeller ve yapısal modeller ba lıkları altında iki guruba ayrılır. Klasik
modellerde, belge içeri inden sadece “indeks terimler” ile sayısal
temsil olu turulur; yapısal modellerde ise, sayısal temsilde belge
içeri i, “indeks terimler” ve belgenin yapısal özellikleri ile olu turulur.
Klasik modeller, kuramsal temelde kendi içinde de üç gruba
ayrılır: ikil sayılar (boolean), vektör uzayı (vector space) ve olasılık
(probability). kil sayılar esasında, yani küme kuramsal ba lı ı altında
toplanan modellerde, belgeler ve sorgular “indeks terim kümeleri”
eklinde betimlenirler. Vektör uzayı esasında, yani cebirsel ba lı ı
altında toplanan modellerde, belgeler ve sorgular “t-boyutlu uzayda
vektör” eklinde betimlenirler. Olasılık esasında, yani olasılık kuramsal
ba lı ı altında toplanan modellerde, belgeler ve sorgular
kuramı” gereklerine göre betimlenirler.
“olasılık
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
100
Yapısal modeller de, kendi içinde belge yapısını temsil
noktasında ikiye ayrılırlar: Non-overlapping Lists (örtü meyen
bölümler listesi) ve Proximal Nodes (yakınsaklık dü ümleri, yani
bölümlerin birbirleri arasındaki mesafeler). Tez kapsamımız içerisinde
ele aldı ımız BGG sistemleri, klasik modeller gurubunda yer alan gerigetirim modellerini esas almaktadır. Dolayısı ile, yapısal modeller ve
gerektirdi i sayısal belge temsil ekli tez kapsamının dı ındadır ve bu
bölümde tanıtımları yapılmayacaktır.
Çizelge 6.1’de geri-getirim hizmeti ve sayısal belge temsil ekli
eksenlerinde, BGG sistemlerinde hangi yöntemlerin kullanılabilir
oldu u listelenmi tir.
Çizelge 6.1: Bilgi geri-getirim modellerinin geri-getirim hizmeti ve
sayısal belge temsil ekli eksenlerinde sınıflandırılması.
Sayısal Belge Temsil ekli
Tam Metin
ndeks Terimler Tam Metin+Yapı
Küme Kuramsal Küme Kuramsal
Geri-getirim
Yapısal
Cebirsel
Cebirsel
Olasılık Kuramsal Olasılık Kuramsal
Tez kapsamımız içerisinde yaptı ımız çalı malar genel anlamda,
vektör uzayı modelini esas almaktadır. BGG sistemlerinin ba arım
ölçümünü yaptı ımız üstel-puanlama ölçütü de vektör uzayına kar ı bir
seçenek olan gizli anlam indeksleme modelini (latent semantic
indexing) kurgusal olarak esas almaktadır. Dolayısı ile, bu bölümde söz
konusu iki model, yani vektör uzayı ve gizli anlam indeksleme
modelleri tanıtılacaktır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
101
Söz konusu iki geri-getirim modelini tanıtmadan önce, her klasik
geri-getirim modeli için kullanılan, ortak simge sisteminin
tanıtılmasında fayda vardır.
Her hangi bir geri-getirim modeli olu turan unsurlar, dört i levsel
guruba ayrılabilir ve [B, Q, M, R(qi, bj)] gibi bir dörtlü simge sistemi ile
tanımlanabilir. Bu dörtlüyü olu turan her simge ise model içinde u
i levlere kar ılık gelirler:
1. B simgesi, belge uzayındaki belgelerin sayısal/mantıksal
temsillerinin toplulu undan olu mu kümeyi temsil eder.
2. Q simgesi,
kullanıcılar tarafından enformasyon ihtiyaçlarını
kar ılamak amacı ile sisteme yönlendirilmi
“sorgu”ların
sayısal/mantıksal temsillerinin toplulu undan olu mu kümeyi
temsil eder.
3. M simgesi, belgelerin, sorguların sayısal temsillerinin olu turulması
ve aralarındaki alakanın (e le tirme) ölçümü için kuramsal alt
yapıyı, yani modeli temsil eder.
4. R(qi,bj) simgesi, her qi ∈ Q sorgusu ve b j ∈ B belgesi için bir
gerçek sayı ile ili ki de eri belirleyen “sıralama i levi”’ni temsil
eder. Bu ekildeki bir sıralama i levi, her qi sorgusu için, belgeler
üzerinde “alaka” ile do ru orantılı bir sıralama tanımlar. Bir ba ka
söyleyi le, örne in belirli bir qi sorgusu ile en “alakalı” olan, yani
ili ki de eri en büyük olan belge, birinci sırada, de er olarak bir
küçük olan belge ikinci sırada v.b. olacak ekilde bir belge sırası
tanımlar.
Her geri-getirim yöntemi, esas aldı ı kuramsal alt yapı (M)
üzerinden, söz konusu dörtlüyü olu turan simgelerin kar ılık geldi i
i levsellik için, di er i levsel unsurların (B, Q, R(qi,bj)) nasıl
gerçekle tirilece ine dair yöntemleri veya yordamları tanımlar.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
102
Tez kapsamımız dahilinde bu bölümde tanıtımını yapaca ımız
geri-getirim modelleri, klasik modeller oldu undan, bu yöntemlerin
ortak paydasında bulunan, genel kavramların ve kabullenmelerin de
anlatım içerisinde kullanılan ekli ile, liste halinde verilmesinde fayda
vardır:
1. Modeller içerisinde, her belgenin sayısal/mantıksal temsili “indeks
terimlerin” toplulu u olarak ele alınmaktadır. Ayrıca, bir belgenin
sayısal temsilinde kullanılan indeks terimlerin de, birbirlerinden,
olasılık/istatistik ba lamında matematiksel esasta (yani da ılımsal
olarak), ba ımsız oldu u kabul edilmektedir.
2. E er, bir belge toplulu unda t adet farklı indeks terim oldu u ve ki
simgesinin bu indeks terimlerden belirli birini temsili etti i kabul
edilirse; K = {k1, k2, ..., kt} tüm indeks terimlerin kümesi olacaktır.
3. Belge toplulu undaki her belge, b j ∈ B ile, her indeks terim,
k i ∈ K terim arasında, yani her (ki, bj) ikilisi için a ırlık olarak
adlandırılan, atanmı bir gerçek de er vardır. Bu a ırlık wi,j simgesi
ile temsil edilir ve her zaman sıfıra e it veya büyük bir gerçek sayı
de erine sahiptir ( ∀ wi , j ≥ 0 ).
4. Belge toplulu undaki her belge, b j ∈ B , model içinde kar ılık gelen
bir indeks terim vektörü ile temsil edilir, bi = ( k1, j , k 2, j ,
vardır.
, kt , j )
5. Belge toplulu undaki her belgenin model içindeki temsili olan
vektörler, b j üzerinde i lem yapan ve k i ∈ K indeks terimi için
a ırlık de erini veren bir g i (b j ) = wi , j i levi tanımlıdır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
103
6.1. Vektör Uzayı Modeli
Vektör uzayı modeli, BGG sahasında en yaygın
ekilde
kullanılan geri-getirim modelidir. Bunun sebebi, modelin basitli i ve
içerdi i süreçlerin takip edilebilir olmasıdır. Sorgu ile belge arasında
kurulaması gereken anlamsal “alaka” yakınlı ını, vektörlerin çok
boyutlu uzaydaki yakınlı ı ile temsili olarak tanımlar.
Vektör uzayı modelinde sorgular da indeks terim vektörleri ile
temsil edilirler. Yani, her sorgu, qi ∈ Q için, belgelerde oldu u gibi
kar ılık gelen bir indeks terim vektörü, qi = (k1,i , k 2,i ,
, k t ,i ) vardır.
Modelde, belgeler ile sorgular arasında anlamsal olarak belirlenmesi,
nicel olarak ölçülmesi gereken “alaka”,
temsili olarak
qi = ( k1,i , k 2,i , , k t ,i ) indeks terim vektörü ile, bi = ( k1, j , k 2, j , , k t , j )
indeks terim vektörü arasındaki açısal mesafe ile hesaplanır. Dolayısı
ile anlamsal ba lamda oldukça karma ık ili kilerin de erlendirilmesi
ile karar verilebilecek “alaka”, t boyutlu bir uzayda, iki vektör
arasındaki açısal mesafenin ölçülmesi gibi, matematiksel olarak
modellenmi , çok basit bir meseleye indirgenmi olur. Bu model ile
belgelerin “alaka” de eri en yüksek olanı olarak, sorgu vektörü ile en
küçük açısal mesafeye sahip olan belge vektörü kabul edilmektedir.
Model gere i, en alakasız belge, daha do rusu mutlak alakasız belge,
sorgu vektörü ile dik açı (radyan ölçe inde 90o) yapan vektör ile temsil
edilendir.
Vektör uzayı modelinde, vektörler ile temsil edilen sorgu ve
belgeler arasındaki açısal mesafe benzerlik ölçütü olarak kullanılır ve
kosinüs farkı (cosine difference) veya normalle tirilmi kar ılıklı-ili ki
katsayısı (normalized correlation coefficient) ile ölçülür. Dolayısı ile,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
104
vektör uzayı modelinde, bir sorgu ile belirli bir belge arasındaki
benzerlik Denklem 6.1.1.’de verildi i gibi hesaplanır.
benzerlik ( qi , b j ) =
qi • b j
qi ⋅ b j
t
k =1 wk ,i
=
2
t
k =1 wk ,i
⋅
⋅ wk , j
(6.1.1)
2
t
k =1 wk , j
Denklem 6.1.1.’de verilen ifadenin, indeks terimler uzayında
temsili betimlemesi ekil 6.1.1.’de verilmi tir.
k1
bj
qi
k2
ekil 6.1.1: Bir bj belge vektörü ile, qi sorgu vektörünün, iki boyutlu indeks terim
uzayında çizgesel betimlemesi.
ekilde, belge vektörü ve sorgu vektörü, iki boyutlu terim
uzayında aralarında, θ açısı olacak ekilde gösterilmi tir. Denklem
6.1.1. ile verilen benzerlik ölçüsü, bu gösterim üzerinden öyle elde
edilmektedir. Vektör uzayında iki vektörün, örne in qi ve
b j vektörlerinin nokta çarpımı (dot product) Denklem 6.1.2.’de verilen
ifade üzerinden hesaplanır.
qi • b j = k1,i ⋅ k1, j + k2 ,i ⋅ k2 , j +
+ k t ,i ⋅ k t , j
(6.1.2)
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
105
Denklem 6.1.2.’de verilen nokta çarpımının bir takım cebirsel ve
yüzey-ölçüt (geometri) özellikleri vardır. Sorgu ile belge vektörü
arasındaki benzerli in ölçülmesini sa layan Denklem 6.1.1.’deki
ifadenin elde edili i için bu özelliklerden incelenecek olan Denklem
6.1.3.’de verilmi tir.
qi • b j = qi ⋅ b j ⋅ cosθ
(6.1.3)
Denklem 6.1.3.’de verilen geometrik özelik, iki vektörün nokta
çarpımının üçgen-ölçüt (trigonometri) ifadesidir: qi ve b j terimleri,
vektörlerin,
örne in
qi = k12,i + k 22,i +
sorgu
+ k t2,i
vektörü
olan
qi
için,
ifadesi ile hesaplanan uzunluklarıdır.
cos θ ifadesi, radyan ölçe inde θ açısının, kosinüs i levinden elde
edilen de eridir.
Denklem 6.1.2.’de ve Denklem 6.1.3.’de verilen, nokta çarpım
ifadeleri e itlenip, cos θ için yeniden düzenlenirse, Denklem
6.1.4.’deki ifade elde edilir.
benzerlik ( qi , b j ) = cosθ =
qi • b j
qi ⋅ b j
(6.1.4)
Denklemden de anla ıldı ı gibi, benzerli in çok boyutlu uzayda
neden açısal bir ölçüt oldu u çok açıktır.
Bir vektörün normalle tirilmi olması demek, uzunlu unun bire
e it olması demektir. Dolayısı ile, bir vektörün normal hali, vektörü
olu turan her elemanının, vektörün uzunlu una bölünmesi demektir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
106
Denklem 6.1.1. veya Denklem 6.1.4.’de verilen benzerlik ifadelerinde
de görüldü ü gibi, e er sorgu ve belge vektörleri, önceden
normalle tirilmi olursa, benzerlik Denklem 6.1.2.’de hesap ekli
verilen basit bir nokta çarpımı haline gelecektir. Vektör uzayı geri
getirim modelini esas alan BGG sistemlerinde yaygın olarak
uygulanan, belge ve sorgu vektörlerinin normalle tirilerek
kullanılmasıdır.
Vektör uzayı modelinde, indeks terimlerle belgeler arasındaki
a ırlık hesabı da Denklem 6.1.6.’da verilen ekilde yapılır.
wi , j = g i (b j ) = tf i , j × idf i
(6.1.6)
Denklem 6.1.6.’da, tf i , j terimi, e er f i , j , b j belgesinde k i
indeks terimine ait gözlenme sıklı ı ve max f j , b j belgesindeki her
hangi bir indeks terime ait olabilecek en yüksek gözlenme sıklı ı olarak
kabul edilirse, f i , j / max f j (normalle tirilmi gözlenme sıklı ı olarak
da adlandırılır) i leminden elde edilen sayısal de erdir; idf i terimi,
e er N belge toplulu undaki toplam belge sayısı ve ni, k i indeks
teriminin gözlendi i belge sayısı olarak kabul edilirse, log10 ( N / ni )
i leminden elde edilen sayısal de erdir. Bu a ırlık hesaplama yöntemi
çok yaygın olarak kullanılır ve TFxIDF olarak adlandırılır. Aslen bu
adlandırma, kökü Denklem 6.1.6.’da verilen a ılık hesabı ifadesinden
türetilmi , bir a ırlıklandırma denklemleri ailesinin genel adı olarak
kabul edilebilir (Salton, 1971).
Sorgu cümlesinden, sorguya ait vektörün olu turulması için
yapılması gereken a ırlıklandırma, belgelerde oldu undan farklıdır.
Sorgularda uygulanması önerilen a ırlıklandırma Denklem 6.1.7.’de
verilmi tir (Salton and Buckley, 1988).
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
wi ,q = 0.5 +
0.5 ⋅ f i ,q
max f q
107
⋅ log( N / ni )
(6.1.6)
Vektör uzayı modelinin bazı olumlu ve olumsuz yönleri vardır.
Bu özellikleri maddeler halinde listeleyecek olursak:
Olumlu yönleri;
•
Uygulamada basit ve hızlıdır.
•
Kosinüs farklı ile benzerlik hesaplanması, sorgu için belgeler
kümesi üzerinde belirlenmesi gereken R(qi,dj) i levini de aynı
anda yapmı olur.
Olumsuz yönü;
•
ndeks terimlerin da ılım esasında ba ımsız kabul edilmesi.
6.2. Gizli Anlam ndeksleme Modeli
Vektör uzayı modelinde, indeks terimlerin bireysel gözlenme
sıklıkları ile a ırlıklarının belirlendi ini söylenmi ti. Dolayısı ile,
vektör uzayı modeli içerisindeki a ırlıklandırma ekli, belge içerisinde
indeks
terimlerin
birlikte
gözükme
durumlarını
göz
önüne
almamaktadır. Gizli anlam indeksleme (latent semantic indexing - LSI)
modelinin kurgusu ile, birlikte gözükme durumunun ne ekilde ele
alındı ını takip edebilmek için, anlatıma bir örnek üzerinden devam
edece iz.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
108
Klasik modeller içerisinde her belgeye, b j ∈ B , kar ılık gelen bir
indeks terim vektörü, bi = (k1, j , k 2, j ,
, kt , j )
ile temsil edildi i
belirtilmi ti. Dolayısı ile, belirli bir belge toplulu u, satırları indeks
terimler k i ∈ K , sütunları belgeler b j ∈ B ve elemanları wi,j, yani (ki,
bj) indeks terim-belge ikilisi için atanmı a ırlıklardan olu an bir terimbelge matrisi, Atxb olarak temsil edilebilir (t, terim sayısı, b belge
sayısı). Hayali dört belgeden ve üç indeks terimden olu an, örnek belge
toplulu umuz, terim-belge matrisi olarak ekil 6.2.1.’de verilmi tir.
b1 b 2 b3 b4
bilgisayar(k1)
0
1
1
1
a (k2)
1
1
0
0
televizyon(k3)
1
0
0
0
ekil 6.2.1: Örnek belge uzayı için, terim-belge matrisi.
ekilde verilen örnek belge toplulu unun, terim-belge matrisinde
dört belge sütunlardadır (b1, b2, b3 ve b4), satırlarda ise üç indeks terim
görülmektedir (k1=bilgisayar, k2=a , k3=televizyon). Belgelerden, b1 ve
b2 , k2=a
indeks terimini ortak
ekilde içermekte; b3 ve b4
içermemektedir. Bu yüzden, b1 ve b2 için bir a ırlık de eri, w2,1=w2,1=1
atanmı ; ancak, b3 ve b4 belgeleri indeks terimi içermedikleri için
kar ılık gelen a ırlık de erleri, sıfır olarak, w2,3 = w2,4=0, atanmı tır. Bir
ba ka söyleyi le, terim-belge matrisinde, a ırlık de eri sıfır olan
hücrenin
sütununda
gözlenmemi demektir.
bulunan
belgede,
satırdaki
indeks
terim
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
109
Gizli anlam indeksleme yöntemi, sorgu ve belgeleri, terimlerin
birlikte gözlenmesine dayalı olarak, eksenleri “gizli” anlamlar olan bir
uzaya yansıtır. Birlikte gözlenen terimler aynı eksenlere yansıtılırken,
birlikte gözlenmeyenler farklı eksenlere yansıtılırlar. Gizli anlam
uzayında, bir sorgu ve belge, aynı biçime sahip terimleri içermeseler
bile, e er anlamsal benzerlikleri, birlikte gözlenme ile belirlenebildi i
oranda, yüksek seviyelerde kosinüs benzerli ine sahip olabilirler.
Gizli anlam uzayının boyutları, belge uzayının boyutlarından
daha azdır. Belge uzayının boyutları indeks terimlerin sayısı kadar
olabilir. Ancak, gizli anlam uzayının boyutları, belge uzayında
anlamsal olarak benzer olan boyutların birle imi ile olu ur. Bu yönden
açıklandı ında, gizli anlam indeksleme bir “boyut indirgeme”
yöntemidir. Bir boyut indirgeme yönteminin yaptı ı ey, çok boyutlu
bir uzayda temsil edilen nesneleri, daha küçük boyutlu bir uzaydaki,
örne in iki boyutlu bir uzaydaki temsile yansıtmaktır. Gizli anlam
indeksleme modelinde kullanılan boyut indirgeme i lemi, e siz sayılara
ayrı tırma-ESA (singular value decomposition - SVD) yöntemi ile
gerçekle tirilir. ESA yöntemi, aslen temel bile en analizi – TBA
(principle component analysis) yöntemi ile aynı i i görür. Ancak, TBA
sadece kare matrislerle çalı abilirken, ESA, mxn boyutlu tüm
matrislerle çalı abilir. ESA yöntemi ile, çok boyutlu uzaydaki bir
nokta, daha küçük boyutlu bir uzaydaki “en iyi” kar ılı ına yansıtılır.
Buradaki “en iyi”, çok boyutlu uzaydaki noktanın, kendisinden küçük
boyutlu uzayda yansıtılabilecek tüm olası seçeneklerden, mesafe olarak
en yakını demektir.
Gizli anlam indeksleme modelinin, geri-getirim yöntemi olarak
terim-belge matrisi üzerinde kullanılı ından önce, esas aldı ı ESA
yönteminin matematiksel tanımını yapmak gerekmektedir. Bir Atxb
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
110
matrisinin, ESA yöntemi ile olu turulan kar ılı ı Denklem 6.2.1.’de
verilen ifadedeki gibi üç matrisin çarpımı eklindedir (n sayısı, t ve b
sayılarının en küçü üne e ittir).
T
Atxb = Ttxt S txb Bbxb
(6.2.1)
ekil 6.2.1.’de verdi imiz örnek derlemin terim-belge matrisi için
ESA yöntemi ile elde edilen Ttxt , S txb ve Bbxb matrisleri ekil
6.2.2.’de verilmi tir.
(T matrisi)
k1
k2
k3
boyut-1 boyut-2 boyut-3
-0.789
0.577 0.211
-0.577 -0.577 -0.577
-0.211 -0.577 0.789
(S Matrisi)
boyut1 boyut2 boyut3 boyut4
0.000
0.000 0.000
boy-1 1.932
1.414
0.000 0.000
boy-2 0.000
0.000
0.518 0.000
boy-3 0.000
(B Matrisi)
b1
b2
b3
b4
boyut-1 boyut-2 boyut-3 boyut-4
-0.408 -0.817
0.408 0.000
-0.707
0.000 -0.707 0.000
-0.408
0.408
0.408 -0.707
-0.408
0.408
0.408 0.707
ekil 6.2.2: Örnek derlem terim-belge matrisi için hesaplanmı , ESA bile en
matrisleri.
ESA yöntemi ile
ekil 6.2.2.’de görüldü ü gibi olu turulan
bile en matrislerinden, T ve B matrislerinin, sütunları dik-cepheli birim
vektörlerdir (orthonormal). Yani, her sütün ile temsil edilen vektörlerin
boyu bire e ittir; aynı zamanda vektörlerin birbirleri arasındaki açı dik
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
111
T ⋅ T −1 = B ⋅ B −1 = I e itli ine sahiptir (I,
açıdır (900). Dolayısı ile,
birim matrisdir).
ESA yöntemi, n-boyutlu bir uzayın döndürülmesi olarak
tanımlanabilir. Bu döndürme i i, ilk eksenin, belgeler üzerinden elde
edilmi olan en yüksek de i im yönünde, ikinci eksenin bir sonraki en
büyük de i im yönünde, v.b.
ekilde tüm uzayın aynı
ekilde
de i imler yönünde döndürülmesi ile sonlanır. T ve B matrisleri
döndürme sonrasında elde edilen yeni uzayın, indeks terim ve
belgelerini temsil ederler.
Kö egen S matrisiyse, A matrisinin e siz sayılarını azalan sırada
içermektedir. S matrisinin kö egenindeki, örne in 2. de er, yani s2
de eri, 2. eksende, özgün uzaydan, yeni uzaya dönü için ne kadar
de i im oldu unu belirtmektedir. Söz konusu Atxb matrisi ile ifade
edilen uzayın, k boyuta indirgenmi olan ( e er n, t ve b sayılarının en
küçü üne e it olarak kabul edilirse; k < n olacaktır) “en iyi”
yakınsaması, T, S ve B matrislerinin ilk k sütunu ile olu turulacak olan
matrisle elde edilecektir. Örne in, k=2 olarak alındı ında, Atxb
matrisini, 2 boyutta “en iyi” ifade edilebilecek bile enler, Ttx 2 , S 2 x 2 ve
B2 xb olacaktır. Örne imiz için bu bile enler ve olu turdu u yakınsak
matris öyle olacaktır:
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
112
− 0.798 0.577
1.932
0
= − 0.577 − 0.577 ×
0
1.414
− 0.211 − 0.577
T3 x 2 ⋅ S 2 x 2 ⋅ B4Tx 2
− 0.408 − 0.707 − 0.408 − 0.408
×
− 0.817
0
0.408
0.408
− 0.04 1.08
= 1.12
0.83
0.96
0.96
0.79 0.12
0.12
0.29 − 0.17 − 0.17
ESA ile bulunan yakınsama, tektir, biriciktir. Bu yakınsamanın
yapılması sırasında, benzer birlikte gözlenme desenleri gösteren
terimler aynı eksene yansıtılır, yani birbiri üzerine bindirilir. Dolayısı
ile, benzerlik için kullanılan ölçüt, anlamsal olarak benzer olan sorgu
ve belgeleri, yazıda farklı kelime biçimleri ile kar ılansalar bile benzer
olarak belirleyecektir. Gizli anlam indekslemenin temelinde bu
kabullenme, böyle bir beklenti vardır. T matrisinin sadece iki boyutu
alınmı eklini inceleyecek olursak, “bilgisayar”, “a ” ve “televizyon”
terimlerinin birlikte gözükme açısından aynı (de er olarak aynı) ancak,
anlamca farklı oldukları (pozitif ve negatif) gözükmektedir. Aslen,
anlamca farklı olu un ortaya çıkmasının sebebi, “bilgisayar” teriminin
d3 ve d4 belgelerinde yalnız ba ına kullanılıyor olması etkisiyle, yani
birlikte gözlenme olmaması sebebiyle ortaya çıkmı tır. Tahmin
edilece i gibi, bazı durumlarda birlikte gözükme ile, aynı konu
ba lı ına sahip terimlerin belirlenmesinde mesele çıkabilir. Fakat, ço u
zaman aynı konu ba lı ına sahip terimler tespit edilebilmektedir.
Bu terim benzerliklerinin belge benzerliklerine farklı bir etkisi
vardır. ekil 6.2.3.’de özgün A3x 4 örnek matrisinin kar ılıklı ili ki
katsayıları, matris halinde verilmi tir ( A3x 4 örnek matrisi, sütunları,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
113
yani belgeleri temsil eden vektörleri, uzunluk ile normalle tirilmi
durumdadır. Çünkü, kar ılıklı ili ki matrisi, E = AT ⋅ A ile elde
edilmektedir). ESA ile k=2 için, A matrisinin yakınsaması üzerinden
elde edilen kar ılıklı ili ki katsayı matrisi için, D = S 2 x 2 ⋅ B2 x 4
eklinde, B matrisinin yeni uzay için ölçeklendirilmi hali
kullanılmaktadır, yani E = D T ⋅ D (aynı ekilde D matrisi de, sütunları
normalle tirilmi olarak i leme alınır).
(a)
b1
b2
b3
b4
b1
1.000
0.500
0.000
0.000
b1
b2
b3
b4
b1
1.000
0.564
-0.033
-0.033
b2
1.000
0.707
0.707
b3
1.000
1.000
b4
1.000
(b)
b2
1.000
0.807
0.807
b3
1.000
1.000
b4
1.000
ekil 6.2.3: Belgeler arası kar ılıklı ili ki katsayı matrisleri. (a) Özgün örne in terimbelge matrisi ile olu turulan (ATA) ve (b) k=2 için ESA yakınsaması ile
olu turulan yeni uzayda ölçeklendirilmi belge matrisinden olu turulan
(DTD) kar ılıklı ili ki katsayıları matrisleri.
ekil 6.2.3-(b).’de verilen, yeni uzay için ölçeklendirilmi belge
matrisi için hesaplanan kar ılıklı ili ki katsayılarında b1 ile b3 ve b4
arasında bir ili ki oldu u gözükmektedir (-0.033). Özgün belgeler için
hesaplananda, yani ekil 6.2.3-(a).’da böyle bir benzerlik yoktur.
Dikkat edilmesi gereken noktalardan bir tanesi de udur: Özgün A
matrisine ait kar ılıklı ili ki katsayıları ile, ESA yöntemi ile elde edilen
S ve B matrisleri oldu u gibi kullanılarak hesaplanacak kar ılıklı ili ki
katsayıları birbirine e it olur. Yani, aslen boyutsal bir indirgeme
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
114
yapılmadı ı takdirde, belgeler arasındaki kar ılıklı ili kilerde bir
de i iklik olmaz. Boyutsal indirgeme yapıldı ında, birlikte gözlenme
desenlerinden elde edilen enformasyon, belgeler arasındaki benzerlik
için kullanılmaya ba lar.
Gizli anlam indeksleme ile sorguların ne ekilde yeni uzayda
temsil edilece i de tanımlanınca, bu model uygulamada kullanılır hale
gelmektedir. Bir kez sorgu, yeni uzaydaki belgelerle aynı ölçe e
alındı ında, vektör uzayı modelindeki benzerlik ölçütü sorgu ile
belgeler arasındaki alakanın ölçümü için kullanılacaktır. Denklem
6.2.2.’de özgün terim-belge matrisinin, yeni uzaydaki yansıması
Denklem 6.2.1.’den türetilmi tir. Sorgu da, belgelerle aynı ölçekte
olacak ekilde, yeni uzaya yansıtılmaktadır.
A =T ⋅S ⋅B
⇔ T T ⋅ A = T T ⋅ T ⋅ S ⋅ BT
(6.2.2)
⇔ T T ⋅ A = S ⋅ BT
∴ TTq
Olumlu yönleri;
•
Terimler arası birlikte gözlenme enformasyonundan
faydalanır. E anlamlı, ancak farklı biçimli kelimeleri
benze tirir.
Olumsuz yönü;
•
ESA yönteminin hesaplama karma ıklı ı çok yüksektir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
115
7. NDEKSLEME VE NDEKS TER MLER
Amerikan Ulusal Standartlar Enstitüsünün 1968 yılında (ANSI
1968) ndeks kavramı için verdi i tanım:
“Bir ö eler toplulu unun içindeki bireysel ö eler veya bu ö elerden
türetilmi kavramlar için olu turulmu sistemli bir kılavuz. Bu ö eler veya
türetilmi kavramların kılavuz içindeki temsilcileri ise bilinen veya verilen,
örne in alfabetik, tarihsel veya sayısal bir sıralama içindedirler.”
ndeksleme için verilen tanım:
“ ndeksleme: Bilgi kayıtlarından enformasyon muhteviyatını analiz
etme; ve indeksleme sistemi’nin dili ile bu enformasyon muhteviyatını
beyan etme i lemidir. Bu i lem sırasıyla: bir belgede indekslenebilir
muhteviyatın seçilmesi ve indeksleme sisteminin dili ile bu muhteviyatın
beyanının sıralı bir liste haline getirilmesi adımlarından olu ur.”
Bir indeksleme sistemi için verilen tanım:
“Geri-getirim veya da ıtım, yani yayma amacıyla bilgi kayıtlarının
muhteviyatını organize eden (elle veya otomatik) nizam koyucu
yöntemler/yordamlar kümesi.”
Bir indeks terim ise, yukarıda verilen tanımların ı ı ı altında, bir
metnin içeri inde bulunan enformasyonun (veya üst –metaenformasyonun) kayda de er bir kısmını içeren ifadedir. Örne in bir
kitap indeks’i, o kitabın muhteviyatında bulunan önemli içerikleri, daha
do rusu kavramları temsil eden terim’lerden olu ur: konular, ki iler,
yerler gibi.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
116
BGG sistemlerinde indeksleme dili, belge ve sorguları tasvir
eden, sistem içinde, içsel temsilini sa layan dildir; söz konusu dilin
yapı ta ları ise indeks terim’lerdir, bir ba ka adla anahtar kelimelerdir.
ndeksleme, insanlar tarafından elle veya bilgisayarlar tarafından
otomatik olarak yapılabilir. ndeks terimler, aslen olu turuldukları
metnin veya belgenin içindeki kelimelerin yazım biçimlerinden
ba ımsızdırlar. Bu açıdan indeks terimler, olu turuldukları metnin
yüzeysel bir özeti gibi dü ünülebilir. Ancak, indeks terimlerin asıl
amaçları kullanıcıyı metnin içeri inde ne oldu u konusunda haberdar
etmektir. Bu sebeple söz konusu özet, metnin içeri ini olu turmada
kullanılan konuları, kavramları içerir, içeri in bizzat kendisi de ildir.
Tüm indeksleme i lerinin kökeninde, kullanıcılara ihtiyaç
duydukları enformasyona ula maları için kılavuzluk etme amacı vardır.
Ancak indeksler, bir çok tür ve detay seviyelerde olu turulabilirler.
Farklı tür ve seviyeler ile olu turulabilecek indeksler, a a ıdaki
guruplar altında sınıflandırılabilir (Cleveland and Cleveland, 1983).
1. Kelime ve isim indeksleri: Bu tür indekslerde indeks terimleri,
kelimelerin metnin içinde görüldükleri ekillerinden olu ur ve bir
kelime hazinesi sınırları yoktur.
2. Kitap indeksleri: Terimler genellikle elle olu turulur ve metnin
içinde görüldükleri yazılı ekillerinden farklıdır. Örne in bir indeks
terimi “Dinozorlar, bkz. Dinozor” eklinde metnin içinde geçti i
eklini, indeks terim olan ekline yönlendirebilir.
3. Periyodik (süreli yayın) indeksleri: Periyodik indeksler,
kapsamlarının daha geni olmalarının haricinde, tamamen kitap
indekslerinin yapısal özelliklerine sahiptirler. Periyodik indeksleme
projeleri ucu açık projelerdir, hiçbir zaman sonlanmazlar.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
117
4. Bilgi geri-getirim sistem indeksleri: Bu indeksleme türünün amacı,
içerik belirticileri i aretleyerek, alakalı belgelerin etkin ekilde gerigetirimini sa lamaktır.
Tez kapsamımızda, indeks sınıfı olarak bilgi geri-getirim sistem
indeksleri ele alınmaktadır.
BGG sistemlerinde, sayısal belge temsili için indeks terimlerin
seçimi iki yoldan yapılabilmektedir: elle veya otomatik. Elle indeks
terim seçiminde, metnin içeri ini temsil eden terimler, bir veya birkaç
ki i tarafından i aretlenir ve listelenir. kinci yöntemde ise, yani
otomatik olarak indeks terimlerin seçiminde, metnin içeri ini temsil
eden terimlerin, bir bilgisayar yordamı ile otomatik olarak bulunması,
dolayısı ile indeks terim listesinin otomatik olu turulması söz
konusudur. te, hangi kelimelerin veya kelime guruplarının metnin
içeri ini temsil etti ini, bilgisayar yordamları ile bulma i ine otomatik
indeks terim seçimi denir.
7.1. Elle ndeksleme
Bir belge toplulu una, yeni bir belge katıldı ı zaman,
indekslemeyi yapacak ki i veya ki ilerin cevaplamak zorunda oldukları
bir takım sorular vardır (Lancaster, 1991):
1. Belge ne hakkında?
2. Neden, belge toplulu una eklenmek zorunda?
3. Kullanıcıları ilgilendiren yönleri nelerdir?
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
118
ndekslerin, özellikleri ve kalitesi çok geni bir yelpazede
de i iklik gösterir. Elle indeksleme için, indeksleme yapan ki iye yol
göstermesi açısından yordamlar ve talimatlar olu turulabilir. Ancak, bir
indeksleme i lemi çok çe itli u ra lardan meydana gelmektedir
(Cleveland and Cleveland, 1983):
1. çerik analizi,
2. çerik belirticilerin i aretlenmesi,
3. Yer, pozisyon belirticilerin i aretlenmesi,
4. Sonuçta olu an kılavuzların elden geçirilmesi,
5. Son indeks eklinin nasıl gösterilece inin belirlenmesi.
çerik belirticilerin tespiti, çok dikkatli bir içerik analizi
gerektirmektedir. Bu i lem içinde, metinde geçen ba lıklar, alt ba lıklar
ve özet iyi birer içerik belirtecidir. Belge incelenip, içerdi i metinlerin
konuları belirlendikten sonra, yapılması gereken, indeksleme dilinin
kontrollü kelime da arcı ı içinden konuların bulunmasıdır. Daha sonra,
bu kontrollü kelime da arcı ından elde edilmi , terimlerin standart bir
e anlamlılar sözlü ünden kontrol edilerek son halini alması sa lanır.
E anlamlılar sözlü üne bakılmasının sebebi, terimin tam kar ılı ının,
e anlamlısının, dar anlamlısının, daha geni anlamlısının veya ili kili
terimlerin de tespit edilmesidir. ndeksleme i lemi için konulmu
kuralların ço unun amacı, indekslerin kalitesini arttırmaktır. Fakat söz
konusu kurallar evrensel de ildir. Hatta, bazı indeksleme kılavuzlarında
bulunan kurallar birbirleri ile çeli kili bile olabilir. Bu kuralların neler
olabilece ini a a ıda verilen örne i inceleyerek çıkarabiliriz (Cleveland
and Cleveland, 1983):
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
119
1. Tekil terimleri, ço ul olanlarına yönlendir: örne in “kitap, bkz.
kitaplar.” gibi.
2. Terimin de i ik anlamlarını ifade etmek için, kullanıcının kastedilen
anlamı kavrayabilmesi için, bir tümcede kullan: örne in
“matematik, ö retiminde bilgisayarın kullanımı” veya “bilgisayar,
matematik ö retiminde kullanımı” gibi.
3. Yazarları, ilk adlarını dahil ederek kullan: “Dinçer, B.T.” gibi.
4. Yazar tarafından vurgulanmak, açıklanmak istenen kadar özele
indirgenmi ekilde indeks terimler seç (E er yazarın seçti i terim,
konu içerisinde kabul edilebilir bir seviyeye denk geliyorsa, daha
üst genel hali ile indeksleme). Örne in, yazar “F-16” uçaklarından
bahsediyorsa, “F-16” olarak indeksle, daha üst genel konu ba lı ı
olan “uça ı” kullanma.
ndekslemeyi yapan ki i ayrıca, indeksin derinli ini de, yani
kapsamı da iyi ayarlamalıdır. Bir ba ka söyleyi le, belge içerisinde
bahsedilen konu ba lıkları en iyi ekilde kapsanmalıdır. E er, kapsam
çok yüzeysel olursa, kullanıcıların kaçırdı ı kavramlar olabilir. E er
çok fazla detay olursa, kullanıcı alakasız metinleri okumak zorunda
kalabilir. Özetle, kapsamı en iyi ekilde belirleyebilmek oldukça güç ve
ciddi bir i tir.
Bir çok kitap, isim indeksleri ile içerik indekslerini birbirinden
ayırır. sim indeksleri metin içerisinde geçen özel isimlerin bir
listesinden olu turulurken, içerik indeksleri metin içerisindeki konuları
kar ılayan terimlerden olu turulur. Borko ve Bernier (1978), daha
detaylı bir ayrım tarif etmi lerdir:
1. Konu indeksleri: Konular, yapılan i in bütünü ile hedef alınan eydir,
yani yazarın dikkatinin ve u ra ının yönlendi i ana temadır. Bunlar,
yapılan i in özelliklerine ait çe itli yönleri ortaya koyan özgün
fikirler, açıklamalar veya tanımlamalardır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
120
2. Kavram indeksleri: konular bazen di er bazı kavramların
tanıtılmasına, içinde geçen fikirlerin açıklanmasına ve örneklerle
izah edilmeye ihtiyaç duyabilir. Bu tür kalemler, kavram olarak
tanımlanır. Kullanılmalarındaki amaç, ana “konu”nun anla ılmasını
sa lamaktır, ancak kendileri “konu” de illerdir, dolayısı ile konu
indekslerinde de il, bu ekilde kavram olarak indekslenmeleri
gerekir.
3. Ba lık indeksleri: Ço u metin ba lıklara bölünmü tür, sıklıkla da alt
ba lıkları vardır. Bu ba lıkları veya alt ba lıklarını indekslemek,
ba lıklar için bir indeks olu turacaktır. Bazı durumlarda bu
ba lıklar, “konu” olabilir, bu durumda konu indeksleri içerisinde
yer almalıdır. Genellikle, konu indeksleri için çok geni kapsamlı
olurla; bazen de hedef alınan konunun tanıtımı, do rulaması, ispatı
amacı ile kullanılan kavramlardır.
4. Kelime indeksleri: kitap içerisinde geçen tüm kelimelerin birli idir,
veya kelime indeksidir. Bir konu indeksi de ildir.
En kalabalık olan indeks kelime indeksidir. Bir sonraki kalabalık
indeks, kavram indeksi; ba lık indeksi bir sonraki; en seyrek olan
indeks de konu indeksidir. Tez kapsamında, ele alınan indeks terimler,
kavram indeksleri’dir. Aslen, otomatik indeksleme konusunda da
açıklanaca ı gibi, indeks terimler, kelime indeksleri ile kavram
indeksleri arasında bir yo unlu a sahiptir. Sayısal belge temsili ile elde
edilen, kelime indeksleridir; otomatik indeksleme yordamından
beklenense, bu kelime indeksini mümkün oldu unca kavram indeksine
do ru götürmesidir.
7.2. Do al Bir Dilde, Kelimelerin Da ılımı.
Yazılı metinlerde bulunan simge veya simge birlikleri,
kelimeler, sayılar, çizimler v.b. insanlar tarafından anlam yüklenmi
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
121
her türlü harf, sayı, i aret ve bunların olu turdu u birliklerdir. Bir metni
olu turan içerik, bu simge veya simge birlikleri ile kar ılanan
anlamların bütününden olu ur. Ancak, anlamsal-enformasyonun yazı
ile iletiminde metni olu turan her simge veya simge birli inin temsil
etti i anlam, metnin içeri ine, yani anlamlar bütününe her durumda e it
a ırlıkta, yani aynı önemde katkıda bulunmaz veya bazıları hiç katkıda
bulunmaz. Anlamsal-enformasyon bakı açısından, “yazılı bir metinde
kelimelerin gözlenme sıklıkları” ile “bu kelimelerin kar ıladıkları
anlamların muhtemel enformasyonu olu turan anlamlar bütünü içindeki
önem dereceleri” arasındaki ili ki Luhn10 (1958) tarafından ekil
7.2.1’deki gibi betimlenmi tir. Luhn, yazılı metinlerde orta frekanslı
kelimelerin önemli, dü ük ve yüksek frekanslı kelimelerin önemsiz
olduklarını söylemi tir. Ta ınan enformasyona katkıları açısından,
önemsiz kelimeler, dilin yazım kuralları, yani dilbilgisi içinde görevli
olan ve yüksek sıklıkta gözlenen kelimeler ile metin içinde çok az
görülen kelimeler dahil edilir. Bu tür önemsiz kelimeler i levsel olarak
görevli veya i lev terimler olarak adlandırılır, yani yazım veya anlatım
içinde i levleri vardır ancak nakledilen enformasyon ile ilgili
de illerdir.
10
Hans Peter Luhn (1896-1964). Alman uyruklu bir mühendistir. Bilgi geri-getirim’in
fikir babası olarak bilinir. lk otomatik anahtar kelime indeksleme yöntemi olan
(KWIC) ve enformasyonun seçici da ıtımı (SDI- Selective Dissemination of
Information) sistemlerini ortaya atan ki idir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
Kelimenin önemi
122
Önemli
orta frekanslılar
Önemsiz
dü ük frekanslar
Önemsiz
yüksek frekanslar
Kelime frekansı
ekil 7.2.1: Kelimelerin frekansları ile muhtemel enformasyonu temsile katkı miktarı
arasındaki ili kinin çizgesi (Luhn, 1958, uyarlama).
Luhn
çalı masında
kelimelerin ta ıdı ı
anlamsal
önemin
uygulama sahası konusunda unları söylemi tir:
“... Burada, kelimelerin bir makale içinde görülme sıklıklarının
kelime öneminin ölçülmesi için kullanı lı bir alt yapı hazırlayaca ı
önerildi. Ayrıca bir de önem de eri atanmı kelimelerin cümle içinde
göreceli yerleri, cümlelerin öneminin belirlenmesinde kullanı lı bir alt yapı
hazırlar; Dolayısı ile bir cümlenin önem etmeni, bu iki ölçümün birle imini
esas alabilir. ...”
(Luhn, 1958)
Sinyal-enformasyon bakı açısından (Bölüm 3.2.3), enformasyon
ile sinyal arasındaki ili ki, anlamsal-enformasyon bakı açısından
(Bölüm 3.2.1), enformasyon ile anlam arasındaki ili kiden, köken
olarak farklıdır. Sinyal-enformasyon bakı açısı içinde, gözlenme
olasılı ı en dü ük olan sinyal en yüksek enformasyona sahipken;
anlamsal-enformasyon bakı açısından, Luhn tarafından tanıtılan kuram
gere i, orta sıklıkta görülme olasılı ına sahip kelimeler en yüksek
enformasyon de erine sahip olmaktadır. Örne in bir ba lık altında
belirli bir konudan bahsederken nakledilmek istenen enformasyonu
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
123
temsil eden ve temsile yardımcı olan simge birlikleri sıkça geçer, yani
görülme olasılı ı artar. Bu durum, söz konusu simge birliklerinin
sinyal-enformasyon de erinin azalmasına sebep olurken; Luhn kuramı
gere ince, belirli bir e ik de erinden sonra ve bir üst sınırdan önceki
aralıkta gözlenme sıklı ına sahip olanların, anlamsal-enformasyon
de erinin, aralı ın dı ında kalanlardan daha fazla olmasına sebep olur.
Luhn tarafından ortaya konan kelimelerin bir metin içindeki
gözlenme sıklıkları ile ta ınan enformasyona katkı açısından önemleri
arasındaki ili ki, aslında Zipf (1929; 1949) tarafından ortaya atılan ve
Asgari Gayret (Least Effort) ilkesi içerisinde geçen “birinci kanunu”
esas almaktadır (Manning and Schütze, 2003). Zipf birinci kanunu: bir
belge içindeki kelimelerin gözlenme sıklıkları büyükten küçü e
sıralandı ında, gözlenme sıklıkları (f) ile sıra numaraları (r) çarpılarak
elde edilecek sayısal de erin (c), yakla ık olarak sabit kalması olarak
tanımlanır (Çizelge 7.2.1; Denklem 7.2.1).
Çizelge 7.2.1: Zipf birinci kanunun, Tom Sawyer romanı üzerinde
deneysel de erlendirmesi (Manning and Schütze,
2003, uyarlama).
Kelime
Sık ( f )
Sıra (r )
f xr
Kelime
Sık ( f )
Sıra (r )
f xr
the
3332
1
3332
comes
16
500
8000
and
2972
2
5944
group
13
600
7800
a
1775
3
5235
lead
11
700
7700
he
877
10
8770
friends
10
800
8000
but
410
20
8820
begin
9
900
8100
be
294
30
8820
family
8
1000
8000
there
222
40
8880
brushed
4
2000
8000
one
172
50
8600
sins
2
3000
6000
about
158
60
9480
could
2
4000
8000
more
138
70
9660
applausive
1
8000
8000
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
124
f × r ≈ sabit
veya
f ∝
(7.2.1)
1
r
Mandelbrot (Manning and Schütze, 2003) daha büyük derlemler
ile yaptı ı çalı malarda, Zipf tarafından verilen genellemenin aslında
detayları belirleyicilik noktasında, çok kötü oldu unu ortaya
koymu tur. Mandelbrot sıra ile sıklık arasındaki genel ili kiyi
kelimelerin deneysel da ılımına daha uygun olacak ekildeki Denklem
7.2.2’de oldu u ekilde de i tirmi tir.
f = P • ( r + ρ )− B veya logf = log P − B log( r + ρ )
(7.2.2)
Denklem 7.2.2.’de P, B ve ρ metne ait parametrelerdir ve hep
birlikte metinde kullanılan kelime da arcı ının zenginli ini ortaya
koyarlar. Zipf tarafından verilen özgün ili kideki hiperbolik da ılım
(Denklem 7.2.1), Denklem 7.2.2. için de geçerlidir. Denklem 7.2.2.
verilen ifade, logaritma ölçekli eksenler kullanılarak çizgeye
dönü türüldü ünde, sıralamanın (r) en yüksek de eri için e imi –B
olan bir do ruya çok az hata ile uyum gösterir. E er denklemde, B=1
ve ρ=0 alınırsa aslen, Zipf birinci kanunu için Denklem 7.2.1.’de
verilen ifadeye e it oldu u görülür. Mandelbrot tarafından, ifadede P =
105.4, B=1.15 ve ρ=100 parametre de erleri için Brown külliyatı ile en
iyi uyumun yakalandı ı belirtilmi tir.
7.2.1. Zipf Güç Kanunları
Günümüzde, geleneksel BGG sistemlerinin, e er hepsi de ilse,
büyük bir kısmında, bir kelimenin metin içinde gözlenme sıklı ı, bu
kelimenin metnin içeri ini temsildeki önemini belirlemede en temel
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
125
özellik olarak kullanılmaktadır. Ayrıca, görülme sıklı ı ile metin
içeri ini temsildeki önem arasında ili kiye ait, Luhn tarafından ortaya
atılan model de, en baskın olan, daha do rusu tek modeldir. Bu
modelin kuramsal alt yapısı Zipf (1929; 1949) tarafından ortaya atılan
birinci güç kanunudur. Zipf birinci kanunu, Denklem 7.2.1.1.’de bir
do ru denklemi eklinde betimlenmi tir.
log( f r ) = H N − B N log( r )
(7.2.1.1)
Denklem 7.2.1.1.’de fr kelimenin gözlenme sıklı ını (bazı
makalelerde fr göreceli frekans, yani kelimenin gözlenme olasılı ı
olarak da yorumlanmaktadır. Bu anlamda iki yorum arasında ilke
açısından bir farklılık olmaz.), r sıra numarasını, HN ise bir sayısal
sabiti temsil etmektedir. HN derlem büyüklü üne (N) ba ımlı, ancak
sıra numarasından (r) ba ımsız bir sabittir. Ayrıca, büyüklü ü artarak
sonsuza giden bir derlem için, bu do ru uydurulmaya çalı ılırsa, BN
de eri de derlem büyüklü üne ba ımlı olacaktır. Denklemden de
anla ıldı ı gibi, Zipf, kelimelerin gözlenme sıklıklarının logaritması ile
bu kelimelerin gözlenme sıklıkları sıralandı ı zaman ortaya çıkan sıra
numaralarının logaritmaları arasında do rusal ili ki oldu unu belirtir.
Bu do rusal ili ki, negatif bir e imine, -BN sahiptir, yani sıklık ile sıra
numarası arasında ters orantı vardır. Aslen Zipf, bu kanunları ortaya
koyarken, kelimelerin kar ıladı ı anlamların görüldükleri metnin
içeri ini olu turmada önemleri konusuna, do rudan model olduklarını
belirtmemi tir. Bu konu Luhn (1958; 1960) tarafından, Zipf
kanunlarının bir uzantısı olarak ortaya konmu tur. Luhn, içeri i
olu turan kelimelerin sıklıklarının, metnin içinde orta seviyeli
oldu unu, çok yüksek ve çok dü ük frekanslara sahip kelimelerin içerik
için önemli olmadı ını söylemi tir. Bu iddia, halen BGG sahasında
geçerlidir ve yaygın ekilde de kullanılır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
126
Zipf tarafından ortaya atılan kuram üzerinde çok tartı ılan bir
konu olmu tur (Herdan, 1960; Mandelbrot 1952, 1959; Simon, 1955)
ve halen tartı ılmaktadır (Baayen 1996, 2001; Kornai, 2002; Powers,
1998; Samuelsson, 1996; Turner, 1997). Bazı yazarlar “Zipf kanunu”
kelimesini sadece Denklem 7.2.1.1.’deki ili kide e imin bir oldu u,
yani BN=1 oldu u durum için kullanmaktadırlar. Çünkü, e imin birden
büyük olması (B >1), derlem için, açık kelime da arcı ı; e imin birden
küçük olması (B < 1) ise kapalı kelime da arcı ı anlamına gelmektedir.
Zipf tarafından ortaya konan ilk kanun ile yakından alakalı, bir
ikinci Zipf kanunu daha vardır ve Zipf ikinci kanunu olarak adlandırılır.
E er V(i,N), i kere rastlanan farklı kelime ekli/biçimi sayısı olarak
kabul edilirse, i kere rastlanan farklı kelime ekli sayısı ile sıra
numaraları arasındaki ili kiyi betimleyen, Zipf ikinci kanunu Denklem
7.2.1.2.’de verildi i gibi olacaktır. Denklemde verilen Zipf ikinci
kanunu ile birinci kanununun yorumlanması benzer ekildedir.
log(i ) = K N − D N log(V (i, N ))
Hesaplamalı
dilbilim
sahasında
Zipf
(7.2.1.2)
kanunlarına
atıfta
bulunuldu unda, genellikle inceledi imiz birinci ve nadiren de ikinci
kanun kastedilir. Ancak, Zipf “en az gayret ilkesi” çerçevesinde ba ka
kanunlarda ortaya atmı tır. Bunlardan biri, kelimelerin anlamlarının,
gözlenme sıklıkları ile ili kili oldu udur. Bir ba ka söyleyi le, Zipf, bir
konu macının anlatmak istedi ini, tüm anlamları kar ılayan tek bir
kelime ile yapmayı tercih edece ini; ancak, dinleyicinin her anlam için
tek bir kelime duymak isteyece ini belirtmi tir. Bu öyküde, tarafların
e it etkilerinin oldu u kabul edilince, Zipf, bir kelimenin farklı anlam
sayısının ϖ , frekansının karekökü ile do ru orantılı oldu unu, dolayısı
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
127
ile bir kelimenin farklı anlam sayısının, sıra numarası ile ters orantılı
olup, ϖ = 1 / r denkleminden elde edilece ini söylemi tir.
Zipf tarafından verilen bir di er kanun da, içeri i olu turan
kelimeleri, metin içinde bazı yerlerde yı ılım gösterece idir. E er bir
derlemde, her kelimenin metin içinde gözlendi i yerlerin araları satır
veya sayfa sayıları cinsinden sıklık, F olarak ölçülürse; Zipf, belirli bir
uzunlu un, I’nın derlem içinde gözlenme sıklı ı ile ters orantılı
oldu unu belirtmi tir: Fα I − p (Zipf ngilizce için gözlenme sıklı ı en
fazla 24 olan kelimeler için 260,000 kelimelik bir derlemde yaptı ı
çalı mada p de erinin 1 ile 1.3 arasında de i ti i saptanmı tır). Bir
ba ka söyleyi le, Zipf içerik kelimelerin metin içinde gözlemlendi i
yerin ço unlukla bir di er gözlemlendi i yerle yakın oldu unu
belirtmektedir. Bu olay, bilgi geri-getirim sahasında ta ma (burstness)
olarak adlandırılır. çerik kelimelerin belirlenmesinde kullanılan bir
özelliktir. Uygulama sahasında, çe itli yöntemlerle icra edilmektedir.
Zaten, geleneksel geri-getirim yöntemleri içinde en yaygın olan,
TFxIDF yöntemindeki IDF (Inverse Document Frequency – Devrik
Belge Frekansı) etmeninin esas aldı ı kuramsal fikir de budur: bir
kelime, bir belge toplulu u içinde ne kadar az belgede gözleniyorsa, o
belge toplulu unda o kadar içerik kelime olma özelli i ta ıyor
demektir.
Mandelbrot (1952), klasik “maymun ve daktilograf” öyküsü
üzerinden, Zipf birinci kanunu sınamı tır. Söz konusu öyküde
kelimeler, daktilonun tu larındaki sembollerden birisi kelime sınırı
olacak ekilde, elde edilecek en uzun sembol birli i olarak kabul
edilmektedir. Mandelbrot, e er bu öyküde, yeni sembollerin rastsal
olarak üretildi i kabul edilirse, Zipf birinci kanunu ifadesine ait e imin
birden büyük oldu u durumda, (B > 1) uyumun sa lanabildi ini
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
128
ispatlamı tır. Ayrıca, Zipf birinci kanunun, derlemdeki detayları çok iyi
modelleyemedi ini, sıra numarasının küçük de erleri için yukarıda, sıra
numarasının büyük de erleri için de a a ıda kaldı ını belirterek, bu
özellikleri daha iyi temsil eden, Zipf birinci kanunun bir türevi olan bir
ba ka denklem ortaya koymu tur (Denklem 7.2.1.3.).
log( f r ) = log( B − 1) + ( B − 1) log(W ) − B log( r + W )
(7.2.1.3)
Mandelbrot, Zipf birinci kanununa yeni bir W>0 parametresi
katmı tır. Bu parametrenin amacı, e imin birden büyük olması
durumunda (B>1), göreceli frekansların toplamının bire e it olmasını
sa layarak, gerçek bir olasılık da ılımını korumaktır (Aslen bu
denklem, B>1 kabullenmesi ile geçerli olmaktadır). Bu düzeltme ile,
kelimelere atanacak göreceli frekansların toplamı Denklem 7.2.1.4.’de
verildi i ekilde bire e itlenmektedir.
∞
r =0 f r
∞
≈ ( B − 1)W ( B −1) x − B dx = 1
(7.2.1.4)
W
Denklem 7.2.1.3.’de W parametresi sabit olarak alınsa dahi,
do runun r > V (N ) oldu u alan üzerine, N (1− B ) / B kadar bir olasılık
yo unlu u da ıtılacaktır. Ancak bu hata, derlem büyüklü ü (N)
sonsuza giderken sıfıra e it olaca ından, büyük derlemler üzerinde
yapılan
çalı malarda
W
parametresi
belirli
sabit
olarak
alınabilmektedir. Dolayısı ile, Mandelbrot denkleminin uygulamaya
daha yatkın bir biçimi, Denklem 7.2.1.5.’de verildi i
ekilde
tanımlanabilir.
log( f r ) = log( PN ) − B N log(r + W )
(7.2.1.5)
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
129
7.3. Otomatik ndeksleme
Bir indeks terimin anlamla ili kili iki i levi vardır: temsil ve ayırt
etme. Temsil i levi ile, indeks terimin belge içeri ini olu turan
muhtemel enformasyonu kar ılaması zorunlulu u eklinde tarif edilir
(anma i levi). Ayırt etme i levi de, belge uzayındaki belgelerin
birbirlerinden ayırt edilebilmesini mümkün kılmasıdır (duyarlılık
i levi).
Temsil ile ayırt etme arasında bir rekabet söz konusudur. Bir
ba ka söyleyi le, e er bir terimin ayırt edicilik de eri dü ükse, belge
toplulu undan çok sayıda belge sonuç olarak döndürülecektir, dolayısı
ile sorgu ile alakalı belge veya belgeler alakasız belgelerin kalabalı ına
gömülecektir. Aynı, ekilde e er bir indeks terimin ayırt edicili i çok
yüksekse, sorgu ile direk alakalı olmayıp, ancak çok yakın ili kide olan
belgeler sonuç kümesinde yer almayacaktır. Uygulamada, otomatik
indeksleme ile amaçlanan bu iki i levin, yani temsil ve ayırt etmenin,
rekabeti içindeki en yüksek de erlere ula maktır. Temsil ve ayırt etme
de erlerini, rekabet içerisinde söz konusu en uygun de erlere çekmeyi
hedefleyen
pek
çok
indeks
terim
a ırlıklandırma
yöntemi
geli tirilmi tir (Manning and Schütze, 2003).
Temsil i levi için, a ırlıklandırma yöntemlerinde yaygın olarak
esas alınan indeks terim özelli i, indeks terimin gözlenme sıklı ıdır,
yani frekanstır. Ayırt etme için çe itli yöntemler önerilmi tir: ters belge
frekansı (inverse document frequency-idf), sinyal-gürültü oranı (signalnoise ratio) ve terim ayırt etme de eri (term discrimination value) bu
yöntemlere verilebilecek yaygın kullanımı olan örneklerdir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
130
Ters belge frekansı (idf) ile belge ayırt etme i levinin
a ırlıklandırma için kullanımı, Bölüm 6.1.’de, yani vektör uzayı geri
getirim modeli incelenirken gösterilmi ti. Bu ayırt etme yönteminin
esas aldı ı fikir: bir terimin, derlem içinde gözlendi i belge sayısı
azaldıkça, gözlendi i belgeler açısından ayırt edicili inin artaca ı
eklindedir. Bir indeks terim, k için, ters belge frekansı de erinin
hesaplanmasına yönelik Sparck Jones (1972) tarafından önerilen ifade,
Denklem 7.3.1.’de gösterilmi tir.
idf k = 1 + log 2
n
= 1 + log 2 n − log 2 nk
nk
(7.3.1)
“idf” için verilen denklemde n, derlemdeki toplam belge sayısı,
nk ise, k indeks teriminin gözlendi i belge sayısıdır. Ters belge frekansı
ölçü olarak bir indeks terimin tüm a ırlı ı olarak kullanılmaz. Bunun
sebebi, örne in belge sayısı olarak sıklıkları aynı olan terimlerin
tamamı, idf de eri olarak e itlenir. Ancak, terimlerin her biri, her
belgede aynı sıklıkta gözlenmezler. Dolayısı ile, terimlerin belge içinde
gözlenme sıklılıkları ile ters belge frekansları birlikte kullanılır. Bu
birlikte kullanım TFxIDF olarak adlandırılır ve Denklem 7.3.2.’de
verilmi tir.
wi ,k = tf i ,k × [1 + log 2 n − log 2 nk ] = TF × IDF
(7.3.2)
Robertson ve Sparck Jones (1997), TFxIDF a ırlıklandırma
emasında belgelerin uzunluklarını da hesaba katan bir geli tirme
önermi leridir. Bu a ırlıklandırma emasında, üç enformasyon kayna ı
kullanılmı tır: derlem frekansı (IDF), terim frekansı (TF) ve belge
uzunlu u. Bu indeks terim a ırlıklandırma emasında, farklı olarak
belge uzunlu unu kullanımının arkasındaki fikir, uzun ve kısa belgeler
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
131
arasında, terimlerin gözlenme frekansları arasındaki farkın, terimin
“önem” ba lamına etkisinin olmadı ı, dolayısı ile uzun belgelerle, kısa
belgeler arasında bir aynı ölçekte ölçüm alınması için frekansların
normalle tirilmesidir. Belge uzunlukları, içerdikleri terim sayısı
cinsinden ölçülmektedir. Dolayısı ile, i belgesindeki toplam terim
sayısı, BUi ile temsil edildi inde, bu i belgesi için normalle tirilmi
belge uzunlu u, “NBUi = BUi / (ortalama belge uzunlu u)” eklinde
hesaplanmaktadır. Normalle tirilmi
katıldı ı a ırlıklandırma
eması,
belge uzunlu unun da hesaba
k terimi için, Denklem 7.3.3.’de
verilmi tir.
wi ,k =
tf i ,k ⋅ idf k ⋅ ( K1 + 1)
(7.3.3)
K1 ⋅ (1 − b + b ⋅ ( NBU i )) + tf i ,k
Denklemde, K1 ve b uyarlama sabitleridir. K1 sabiti ile terim
frekansının etkisi geni letilir. Bu sabitin, en iyi de eri belirlenmi bir
derlem üzerinde yapılan denemelerle tespit edilir. TREC (Text
Retrieval Conferences) çalı maları sırasında, K1=2 de erinin etkin bir
de er oldu u tespit edilmi tir. Uyarlama sabitlerinden ikincisi olan b
ise, belge uzunlu unun etkisini ayarlamaktadır. Bu sabit 0 ile 1
arasında de i mektedir. E er, b=0 olursa, belgelerin birden fazla konu
ba lı ı içermesi dolayısı uzun oldu u kabul edilir. E er, b=1 olursa,
belgelerin tekrarlar yüzünden uzun oldu u kabul edilmi olur. TREC
çalı malarında b=0,75, en uygun de er olarak saptanmı tır.
Buckley (1996) ve arkada ları tarafından, TREC-4 çalı malarında
tanıtılan bir di er indeks terim a ırlıklandırma yöntemi de ltu emasıdır
(Denklem 7.3.4.).
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
132
wi ,k =
(log(tf i,k ) + 1) ⋅ idf k
(7.3.4)
0.8 + 0.2 ⋅ NBU i
Bir di er TFxIDF türevi a ırlıklandırma eması da, Okapi olarak
adlandırılandır (Robertson and Walker, 2000). Okapi, kuram olarak
Poisson da ılımını esas almaktadır, daha do rusu 2-Poisson olarak
adlandırılan terim da ılım yakla ımına dayanmaktadır (Van Rijsbergen,
1979). Okapi a ırlıklandırma eması ile, bir terimin bir belge için
a ırlı ı Denklem 7.3.5.’de verilmi tir.
wi ,k
tf i ,k
0.5 + 1.5 ⋅ NBU i + tf i ,k
log(
N − idf k + 0.5
)
idf k + 0.5
(7.3.5)
Sinyal-gürültü oranı, sinyal-enformasyon kuramını esas alır
(Bölüm 3.2.3). Sinyal-enformasyon fikrinde, bir kelimenin gözlenmesi
olasılı ı arttıkça, ta ıdı ı, yani kar ıladı ı enformasyon de eri dü er.
Sinyal-enformasyon fikri ile benzer ekilde, bir terime k, ait gürültü de
hesaplanabilir (Denklem 7.3.4).
Gürültük =
n
tf i ,k
i =1
Fk
log 2
Fk
tf i ,k
(7.3.4)
Denklem 7.3.4.’deki ifadede, Fk, k teriminin derlem içindeki
toplam gözlenme sıklı ı, tfi,k ise i belgesinde k teriminin gözlenme
sıklı ıdır. Derlemdeki toplam belge sayısı n ile temsil edilmi tir. Bir
içeri i temsil etmeyen, yani i levsel olan kelimeler derlem içerisinde
daha yaygın gözlenece i için, sahip oldukları gürültü de eri de yüksek
olacaktır. Dolayısı ile bir k terimin sinyal de eri hesaplanırken,
gürültünün tersi, yani tamlayanı kullanılabilir (Denklem 7.3.5.).
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
Sinyalk = log 2 Fk − Gürültük
133
(7.3.5)
E er, bir belgenin indeks terimlerine ait sinyal de erleri büyükten
küçü e sıralanırsa, belge uzayında çok az belgede gözlenen ve sıralama
yapılan belgeyi ayırt edenlerinin çok yüksek sinyal de erlerine sahip
oldu u görülür. Temsil ile ayırt etmenin enformasyonunu birlikte
kullanmak için sinyal de eri, terimin frekansı ile çarpılır (Denklem
7.3.6.).
wi,k = tfi,kxSinyalk
(7.3.6)
Terim ayırt etme de eri, belirli bir terimin, bir belgeyi di erinden
ayırt etmek için ne kadar enformasyon sa ladı ının bir ölçüsüdür. Bir
terimin k, ayırt etme de eri, ADk, iki belgenin benzerli ini içerdikleri
terimler üzerinden hesaplanması ile elde edilen benzerlik de eri, BD
ile, k terimi belgelerden çıkarıldıktan sonra hesaplanan benzerlik
de eri, BDk, kar ıla tırılarak hesaplanabilir (Denklem 7.3.7.).
ADk = BDk - BD
(7.3.7)
Ayırt etme de erleri hesaplanan terimler, daha sonra üç gurup
altında toplanır:
1. Ayırt edicilik de eri pozitif olan terimler. Bu terimler, güçlü indeks
terimlerdir.
2. Ayırt edicilik de eri sıfır olan terimler. Bu terimlerin indeks terimler
listesinden çıkartılması veya bırakılması belgeler arası benzerli i
etkilemez.
3. Ayırt edicilik de eri negatif olan terimler. Bu terimler, zayıf indeks
terimlerdir ve çıkartılmaları belgelerin benzerli ine katkıda
bulunmaktadır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
134
Terim ayırt etme de eri de, öncekilerde oldu u gibi yine
terimlerin frekansı ile çarpılarak indeks terim a ılı ı olarak
kullanılabilir (Denklem 7.3.8.).
wi,k = tfi,k x ADk
(7.3.8)
7.3.1. ndekslemenin Kapsamı ve Terim Öznelli i.
Geleneksel olarak, bir indeksleme sisteminin ba arımının iki
etmene ba lı oldu u dü ünülür: indekslemenin kapsamı ve terim
öznelli i. Kapsamlı bir indeks, çok sayıda indeks terim içerir, fakat
kapsamı dar olan bir indeks, sadece en önemli konuları, kavramları
kar ılayan indeks terimleri içerir. Daha kapsamlı bir indeks demek,
daha fazla belgenin geri-getirilece i anlamına gelir ve anma de eri
yükselir. Aynı zamanda, geri-getirilen belgeler arasındaki alakasız
belgelerin oranı da artar, dolayısı ile duyarlılık azalır. Anma ve
duyarlılık arasındaki rekabet bu ba lamda ortaya çıkar.
Di er taraftan, terim öznelli i, indeks terimlerin konu ve
ba lıkları kesinlik içerisinde kar ılayabilmeleri ile alakalıdır. E er
indeks terimler çok yüksek de erlerde öznelli e sahiplerse, bu
duyarlılı ı arttırabilir, yani çok az sayıda belge geri-getirilece i için
ço u sorgu ile alakalı olacaktır. Geni anlam içeren terimler, dar anlam
kar ılayan terimlerde oldu u ekilde alakalı dokümanlarla, alakasızlar
birbirinden ayırt etmekte kullanılamazlar. Dar ve öznel terimlerin
kullanılması anmaya etki eder, bunun sebebi ise, alakasız belgelerle
birlikte bir çok alakalı belgenin de geri-getirilmemesidir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
135
Ayırt edicilik de eri sıfıra yakın, dü ük frekanslı, dar anlamlı
kelimeleri, e anlamlı kelimeler sözlü ü kullanarak daha geni bir
gurup altında toplamak mümkündür. Aynı ekilde, ayırt edicilik de eri
negatif olan, yüksek frekanslı, geni terimleri de, bir araya getirerek,
yani kelime gurubu olarak de erlendirerek kullanmak mümkündür.
Örne in, “i ” ve “güç” kelimelerini tek ba larına dü ündü ümüzde,
kavram olarak çok geni tirler. Ancak “i gücü” eklinde ele
alındı ında, ekonomide kullanılan bir kavramı kar ılarlar ve tekil
oldukları durumdan daha dar bir terimsel anlam kar ılarlar.
7.3.2. Kelime Gurupları ile ndeksleme
Tek kelimeden ibaret indeks terimler yerine, iki veya daha fazla
kelimeden olu mu , kelime gurupları ile indeks terim olu turmak, gerigetirim duyarlılı ını artırıcı bir etki yaratır. Tekil kelimelerden indeks
terimler yaratmak iki çe it meseleyi gündeme getirmektedir (Zhai et al.,
1997):
1. Tek kelimeden olu an indeks terimler yanıltıcı olabilir. Sözcüksel
atom11 ba lamında, örne in “hot dog” (sosisli sandviç), kelime
gurubunu olu turan bireysel kelimeler birlikte kar ıladıkları anlamı
ta ımamaktadır ve bireysel olarak indeks terim olarak
kullanılırlarsa, çok yanıltıcı olurlar.
11
Zhai ve Evans, “sözcüksel atom” terimini, anlamca tutarlı kelime gurubu olarak
tanımlamaktadır. Sözcüksel atomlar, özel isimlerde, deyimlerde ve bir çok isim
tamlamasında bulunabilmektedir. Sözcüksel atomu olu turan kelimelerin, tekil
anlamları ile, birlikte ifade ettikleri anlam arasında bir ili ki yoktur.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
136
2. Çok genel olabilirler. Örne in, bireysel kelime olarak “junior”
(çömez) ve “college” (yüksekokul) kelimeleri, “college junior”
(yüksekokul çömezi, yani yüksekokulda yeni olan, tecrübesiz)
kelime gurubunu, “junior college” (yüksekokul, yani üniversitenin
ilk iki yıllık e itimini veren yer) kelime gurubundan ayırt etmek
için çok genel kalmaktadır.
Zhai ve arkada ları, yukarıdaki tespitlerin ardından, iki hipotez
öne sürmü lerdir:
1. Sözcüksel atom ba lamındaki kelime guruplarının, onları olu turan
bireysel kelimeleri yerine indekslenmesi, hem duyarlılı ı hem de
anmayı arttırır.
2. Bireysel kelimeleri desteklemek için, sözdizimsel kelime guruplarını
kullanmak, örne in “junior college”, anmaya bir ters etkide
ekildeki kelime
bulunmadan, duyarlılı ı arttıracaktır. Bu
guruplarının sayısını arttırmak,
duyarlılıktaki ilerlemeyi
arttıracaktır.
Bu hipotezler, TREC-5 çalı malarının do al dil i leme aya ında,
Zhai ve arkada ları tarafından test edilmi tir (CLARITTM takımı12).
Sonuçlar göstermi tir ki, bireysel kelimeler yerine sözcüksel atomların
kullanılması, ortalama duyarlılıkta az da olsa tutarlı bir artı ın oldu unu
göstermi tir. Di er taraftan, bireysel kelimelerin, sözdizimsel kelime
gurupları ile desteklemesi, geri-getirim ba arımında tutarlı ve anlamlı
bir artı ortaya koymu tur. Ancak, kelime guruplarının eklenmesi bazı
sorguların lehine olurken, bazı sorguların aleyhine sonuçlar vermi tir.
Kelime guruplarının faydasının en yüksek oldu u durumlar, aynı
12
CLARIT, CLARITECH firmasının kayıtlı ticari markasıdır ve ComputationalLinguistic Approaches to Retrieval and Indexing of Text için akronomidir. Bu sistem
Carnegie Mellon Üniversitesinde geli tirilmi tir (Laboratory of Computational
Linguistics, CMU Pittsburgh).
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
137
kelime gurubunun hem sorguda hem de belgede gözlendi i zamanlar
olmu tur.
Bilgi geri-getirim sistemlerinin ço u tekil kelimeleri indeksleme
için kullanır. Ancak, sıklıkla indekslere, basit istatistiksel yöntemlerle
tespit edilmi kelime gurupları da destek olmak amacıyla alınır.
Dilbilimsel yöntemlerle tespit edilecek kelime guruplarının, gerigetirim ba arımı üzerinde daha etkili sonuçlar verece i dü ünülebilir.
Fakat, TREC çalı malarında, dilbilimsel yöntemler, istatistiksel
yöntemlerden anlamlı ekilde farklılık yaratamamı tır.
Basit ve klasik kelime gurubu olu turma yöntemlerinden biri,
SMART sistemi içinde kullanılan yöntem olan, gövdelenmi
kelimelerin yan yana getirilmesidir. ndeksleme için kullanılacak olan
kelime gurupları, gözlenme sıklı ı yüksek olanlardan seçilmekte ve
daha sonra, bireysel kelimelerin, indeks terim olarak a ırlıklandırılması
ile aynı ekilde a ırlık hesaplanmaktadır (Buckley et al., 1995). Xerox
takımı bu basit SMART yöntemi ile hafif ayrı tırma (light parsing)
yöntemini TREC-5 çalı masında kar ıla tırmı tır. Sonuç olarak,
öni lem a amasında çok zaman harcama pahasına, hafif ayrı tırmanın,
basit SMART yöntemine göre nispeten daha iyi oldu u bulunmu tur.
Hull ve arkada ları (1997) u sonuçlara varmı lardır:
“Her eye ra men, bir çok sebepten ötürü, bu yakla ımın uzun
vadede kullanı lı olaca ı konusunda iyimseriz: 1-) ngilizce dı ındaki bir
çok dilde, Bilgi geri-getirim sahasından daha yo un bir ekilde, dilbilim
sahasında çalı malar yapılmaktadır. Bu diller için geli tirilen
biçimbirimsel analiz yordamları, basit gövdeleme yordamlarını, ngilizce
için geli tirilmi gövdeleme yordamları kadar ya lanınca, ba arım olarak
geçeceklerdir. 2-) Bilgisayarlar daha güçlü hale geldikçe, i lem zamanları
dü meye devam edecek, dolayısı ile karma ık metin analizlerini ekonomik
olarak mümkün hale getirecektir.”
(Hull et al., 1997)
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
138
7.4. Hesaplamalı Dilbilim Yöntemleri.
Son yıllarda, çok farklı bilgi geri-getirim teknikleri, TREC (Text
REtrieval Conferences) çalı maları içerisinde sınandı ve kar ıla tırıldı.
Örne in, 1997 yılında düzenlenen TREC-6 çalı masına, 12 ülke ve 21
firmadan 51 ki i katılmı tır (Voorhees and Harman, 1998). Tüm
katılımda bulunan takımlar, aynı talim ve test malzemelerini
kullanmı lardır. Böylece, sonuçlar birbiri ile kar ıla tırılabilmi tir.
Sparck Jones (1995), a a ıdaki noktalara de inerek TREC
deneylerinin sonuçlarını vermi tir:
1. Model ile ilgili sorular.
1.1. Dilbilimsel esasa dayalı modeller, istatistik esasındaki
modellerden daha iyi midir? CMU’nun çalı ması (CLARIT),
dilbilimsel yöntemlerinde iyi ba arım de erlerine ula tı ını
göstermi tir, ancak istatistiksel yöntemlerden daha iyi de ildir.
1.2. Dilbilimsel esasa dayalı kelime gurupları, e le tirme ile
olu turulanlardan daha de erli midir? Dilbilimsel esasa dayalı
kelime guruplarının kullanımı, yan yana olma ile belirlenen
kelime guruplarının kar ısında bir kazanç sa lamamı tır
2. Kelime da arcı ı ile ilgili sorular.
2.1. Bireysel kelimelerle indeks terim olu turma kar ısında,
kelimeleri de i ik biçimlerde indeksleme fayda getirir mi? Bazı
çalı malarda az da olsa ba arım artırımı sa lanmı tır, ancak
bireysel kelime indekslemeden anlamlı ekilde farklılık ortaya
konmamı tır.
2.2. Dilbilimsel bilginin artırımı gerekli midir? Elle olu turulan e
anlamlılar
sözlü ü,
anlamlı
bir
ba arım
artırımı
sa layamamı tır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
139
3. Tanımlama ile ilgili sorular.
3.1. Dilbilgisine dayalı indeksleme yöntemleri, istatistik esaslı
indeksleme yöntemleri kar ısında daha etkili midir? Belge
terimlerinin seçiminde kullanılan yöntem içinde, dilbilgisi
özellikleri açık bir kazanç sa lamamı tır.
3.2. statistiksel veya dilbilimsel kelime gurupları, bireysel
kelimelere göre daha iyi midir? Bireysel kelimelere nazaran,
kelime guruplarının kullanımı az da olsa lehte sonuçlar
vermi tir.
Strzalkowski ve arkada ları (1998), do al dil bilgi geri-getirim
için düzenlenen TREC-6 çalı masının sonuçlarını öyle özetlemektedir:
“Çalı malardan edindi imiz temel tespit, do al dil i leme
tekniklerinin, daha iyi indeksleme, sorgulara ait terimlerin daha iyi temsil
edilmesi gibi beklentilerimizin çok uza ında sonuçlar vermemi oldu udur.
Dilbilimsel birliklerin kullanılması, örne in kelime gurupları, ba -niteleyen
çiftleri ve isimler geri-getirim duyarlı ının geli tirilmesine yardımcı
olmu tur, ancak kazanım çok az düzeylerdedir.”
(Strzalkowski et al., 1998)
Yukarıdaki alıntılar, do al dil i leme veya di er adıyla
hesaplamalı dilbilim yöntemlerinin, bilgi geri-getirim içerisindeki
durumunu özetlemektedir. TREC ba lamındaki çalı malardan elde
edilen sonuçlar, hesaplamalı dilbilim yöntemlerinin etkileri konusunda
sonuçsuz kalmaktadır. Ancak, bu durum hesaplamalı dilbilim esasında
bilgi geri-getirim çalı malarının faydasız veya nafile u ra lar oldu u
anlamına gelmemektedir. TREC içerisindeki en iyi sistem bile,
öngörülen ula ılabilir ba arım seviyesine varmamı tır. Dolayısı ile,
geri-getirim tekniklerinin geli tirilmesine olan ihtiyaç ilk zamanlardaki
kadar kuvvetlidir.
140
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
8. BA ARIM ÖLÇÜTLER
141
Bilgi geri-getirim sistemlerinin ana hedefi kullanıcının, yani
insanların enformasyon ihtiyaçlarını kar ılamaktır. Bir insanın kendi
ihtiyaçları ile alakalı buldu u enformasyon, bir ba ka kullanıcı için pek
o kadar da alakalı olmayabilir. Hatta, insanlar sıklıkla verilen bir sorgu
ile geri-getirilen belgelerin alakalı oldukları konusunda anla mazlık
gösterirler (Hersh et al., 1995). nsanlar arasındaki anla mazlı ın ortaya
çıkması ihtimali, belgeler ile sorgular arasındaki alakanın mutlaklıktan,
bir derece alakalı olu a do ru gidi i yönünde artı gösterir. Ayrıca,
alaka sadece sorgu ve eldeki belge toplulu una ba lı da de ildir,
alakaya karar veren ki inin o anki istekleri, yani ihtiyaç ba lamı ile de
yakından ili kilidir. Belirtildi i gibi, “BGG sistemlerinin hedefinde
insanların enformasyon ihtiyacını kar ılamak” oldu u için, öznellikten
kurtulmanın bir yolu da yoktur. Bu yüzden, bilgi geri-getirim
sistemlerinin ba arımlarının ölçülmesi kendi do asında içinde, sorunlu
bir durum te kil eder.
8.1. Anma ve Duyarlılık Esasında Ölçüt Türleri.
BGG sistemlerinin, ba arımlarının de erlendirilmesinde yaygın
olarak kullanılan yöntemler, anma (recall) ve duyarlılık (precision)
fikrini esas almaktadır (Baeza-Yates and Ribeiro-Neto, 1999). Bu
yüzden, BGG sistemlerinin ba arım ölçütlerini vermeden önce, anma
ve duyarlılık fikrinin tanıtılmaya ihtiyacı vardır. BGG u ra sahasında
geri-getirim meselesi, u ekilde kurgulanabilir: bir sorgu kar ısında,
eldeki belge uzayı içinde alakalı olan belgeler toplulu unu hedef
kümesi olarak; sistemin, belge toplulu undan seçerek kullanıcıya
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
142
döndürdü ü belge toplulu unu da, seçim kümesi olarak
adlandırdı ımızı kabul edelim. Söz konusu durum, ekil 8.1.1.’de
gösterildi i gibi çizge olarak betimlenebilir. Belge toplulu u içindeki
her belge için, sistem tarafından seçilmi “olma” ve “olmama” ile sorgu
ile alaka açısından, hedefte “olma” (alakalılar) ve “olmama”
(alakasızlar) durumları birbirinden ba ımsız olarak geçerlidir. E er
seçim (S) ve hedef (H) ile yapılan sınıflandırmayı iki olasılık de i keni
olarak tanımlarsak, bu iki olasılık de i keninin, belge uzayı üzerindeki
birle ik da ılımları bir 2x2 ihtimal tablosu
(Çizelge 8.1.1.).
Seçilen Belge
Toplulu u
eklinde özetlenebilir
Hedef Belge
Toplulu u
yp
dp
yn
dn
Belge Uzayı (B)
ekil 8.1.1. Anma ve duyarlılık ölçümlerini betimleyen çizge. Seçilen = yp + dp;
Hedef = dp + yn; dn = B - (Seçilen+Hedef).
Seçim, S de i keni belge uzayını seçilmi ve seçilmemi olmak
üzere iki parçaya ayırır. Hedef, H de i keni de, belge uzayını, gerçekte
sorgu ile alakalı olanlar ve olmayanlar diye iki parçaya ayırır. Dolayısı
ile, belgelerin her biri için seçilmi olma/olmama ve hedefte
olma/olmama eklinde ikili bir sınıflandırma, yani dört guruptan birine
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
143
ait olma durumu söz konusu olur. Bu guruplar: seçilmi ancak gerçekte
alakasız olan belgeler, yani yanlı -pozitifler (yp); seçilmi ve gerçekte
de alakalı olan belgeler, yani do ru-pozitifler (dp); seçilmemi ancak
gerçekte alakalı olan belgeler, yani yanlı -negatifler (yn); seçilmemi
ve gerçekte de alakasız olan belgeler, yani do ru-negatiflerdir (dn).
Çizelge 8.1.1: Seçilmi (S) ve hedef (H) olasılık de i kenlerinin birle ik
da ılımının 2x2 olasılık tablosu olarak gösterimi.
Gerçek
Sistem
Alakalı (h)
Alakasız (~h)
Toplam
Seçilmi
dp
yn
dp+yn
yp
dn
yp+dn
dp+yp
yn+dn
Seçilmemi
Toplam
Duyarlılık (D), bir sistemin seçti i, gerçekte alakalı belge
sayısının (dp ), toplam seçilmi belge sayısına (dp+yp) oranı eklinde
tanımlanır:
D=
dp
dp + yp
(8.1.1)
Anma (A), bir sistemin seçti i, gerçekte alakalı belge sayısının
(dp), toplam hedef belge sayısına, yani gerçekte alakalı olan toplam
belge sayısına (dp+yn) oranı eklinde tanımlanır:
A=
dp
dp + yn
(8.1.2)
Sistemlerin ba arımı, anma ve duyarlılık ile de erlendirilirken,
genellikle iki ölçüt birbiri ile rekabet içinde kullanılır, yani bir sistemde
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
144
her ölçütünde en iyi de erleri yakalanmaya çalı ılır (Belge uzayındaki
tüm belgeleri geri-getiren (seçen) bir sistem çok yüksek bir anma
de erine sahip olur, ama çok dü ük bir duyarlılı ı olacaktır.). Bir
sistem için iki ölçütün söz konusu rekabeti, temsili olarak ekil
8.1.2.’de betimlenen çizgeye benzer ekilde olacaktır.
1
D
0
1
A
ekil 8.1.2. Bir sistem için anma (A) ve duyarlılık (D) ölçütleri arasındaki rekabetin
temsili çizgesi.
Anma ve duyarlılık ölçülerini, iki ayrı ölçüt olarak ele alıp, bir
sistemin ba arımını aralarındaki rekabet ile izah etmenin yanında, iki
ölçütü birle ik olarak, yani tek bir ölçüt eklinde tanımlamak ve
kullanmak mümkündür. Bunun bir yolu, van Rijsbergen (1979)
tarafından tanıtılan E-ölçüsünden türetilmi F-ölçüsünü ( F = 1 – E )
kullanmaktır:
F=
1
α
1
1
+ (1 − α )
D
A
(8.1.3)
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
145
Denklem 8.1.3’de, α ile gösterilen de er, anma (A) ve duyarlılık
(D) ölçütlerinin, F-ölçütüne katkılarının a ırlı ıdır. A ırlı ın, yani α
de erinin 0.5 seçilmesinin anlamı A ve D ölçütlerinin katkısını
e itlemek demektir. A ırlıkları e itlenmi , A ve D ölçütleri ile Fölçütü’nün sadele tirilmi hali 2 AN /( A + N ) biçiminde olur.
Yukarıda bahsi geçen ölçütlerin dı ında, ekil 9.1.1. ile
betimlenen anma ve duyarlılık çizgesinden, ba ka ba arım ölçütleri
türetmek de mümkündür. Do ruluk (accuracy) ve hata (error) oranları
türetilebilecek ölçütlerden ikisidir. Do ruluk oranı (DO), belirli bir
sistemin, toplam do ru seçiminin (dp+dn), belge uzayındaki toplam
belge sayısına (B) oranıdır:
DO =
dp + dn
dp + dn + yp + yn
(8.1.4)
Hata oranı (H), söz konusu sistemin toplam yanlı seçiminin (yp
+ yn), belge uzayındaki toplam belge sayısına oranıdır:
HO =
yp + yn
dp + dn + yp + yn
(8.1.5)
Ancak do ruluk ve hata oranlarının, ba arım ölçüsü olarak
kullanılmasında sakıncalar vardır. Söz konusu ölçütlerde, dn içindeki
belge sayısının, yani hem seçim kümesinde, hem de hedef kümesinde
yer almayan belgelerin sayısının, di er de erlere nazaran çok büyük
olması, ölçütün sonuç de erlerinin çok küçük olmasına sebep olur.
Anma ve duyarlılık ölçütlerinin, do ruluk ve hata ölçütleri yerine BGG
sistemlerinin ba arım ölçüsü olarak kullanılmasının faydaları öyledir:
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
146
•
BGG sistemleri açısından önemli olan dp, yp ve yn de erleri
sayısal olarak küçüktür; Do ruluk oranı, küçük sayısal de er
de i imlerine çok fazla duyarlı de ildir, fakat duyarlılık ve
anma bu konuda hassastır.
•
Di er durumlar e itken, F-ölçütü daha çok do ru seçilmi
gerçekte alakalı, yani pozitif hedef belgesi oldu u durumları
gözetir. Buna kar ın, do ruluk oranı sadece hatalara kar ı
hassasiyet gösterir. Ancak, BGG sistemlerinde amaçlanan
sorgu ile alakasız belgelerin seçim kümesine alınmı olması
pahasına, alakalı belgelerin seçim kümesinde olmasıdır. Bir
ba ka söyleyi le, seçim kümesine hiçbir belgeyi almayan bir
BGG sisteminin, do ruluk oranı %100 olacaktır, ancak hiçbir
belgenin seçilmemesi istenen bir durum de ildir.
•
Duyarlılık ve anma ölçütlerinin kullanımı, BGG sistemlerinin
de erlendirilmesinde, seçilmemi alakalı belgelerin de
maliyet cinsinden de erlendirmeye katılabilmesine imkan
tanımaktadır.
Çizelge 9.1.2.’de anma (A), duyarlılık (D), F-ölçütü (α=0.5) ve
do ruluk (DO) oranının 1000 belgelik örnek bir belge uzayı için
hesaplamaları listelenmi tir (Manning and Schütze, 2003).
Anma ve duyarlılık fikrini esas alan, ancak nadir kullanılan bir
sistem ba arım ölçütü de, seçilenlerden gerçekte alakasız olan
belgelerin sayısının (yp), tüm alakalı, yani hedef kümesinde olan
belgelerin sayısına (yp+dn) oranı ile hesaplanan yanlı a dü me (Y:
fallout) ölçütüdür:
Y=
yp
dn + yp
(8.1.6)
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
147
Çizelge 9.1.2: 1000 belgelik örnek bir belge uzayı için anma (A),
duyarlılık (D), F-ölçütü ( α=0.5) ve do ruluk (DO)
oranı ölçüm listesi. Üstteki, (a) listede artan F-ölçütü
kar ısında dü en do ruluk oranı, alttaki, (b) listesinde
e it do ruluk oranı varken artan F-ölçütü verilmi tir.
F-ölçütü “seçilmi
alakalı belgelerin”, (dp)
ço almasına duyarlı iken, do ruluk oranının, sadece
sınıflandırma hatasına duyarlılık göstermektedir.
dp
yp
25
0
D
yn dn
A
F
DO
125 850 1.000 0.167 0.286 0.875
50 100 100 750 0.333 0.333 0.333 0.800
(a)
75 150 75 700 0.333 0.500 0.400 0.775
125 225 25 625 0.357 0.833 0.500 0.750
150 275 0 575 0.353 1.000 0.522 0.700
dp
yp
D
yn dn
A
50 0 100 850 1.000 0.333
75 25 75 825 0.750 0.500
100 50 50 800 0.667 0.667
150 100 0 750 0.600 1.000
(b)
F
DO
0.500
0.600
0.667
0.750
0.900
0.900
0.900
0.900
Yanlı a dü me (Y) ölçütü, bazı durumlarda, seçilmi
ancak
gerçekte alakasız belge sayısı küçük, yani yp de eri dü ük olan bir
sistemin, gerçekle tirilmesinin ne kadar güç oldu unu göstermek için
de kullanılır. E er, hedef kümesinde yer almayan belgelerin sayısı
(dn+yp) çok büyükse, yn de erinin dü üklü ünden, yani seçilmemi
ancak alakalı olan belge sayısının azlı ından kaynaklanan, dü ük anma
de eri kaçınılmaz olur. Bir ba ka söyleyi le, arka plandaki, hedef küme
dı ında kalan belge yı ının çok büyük olması sebebiyle, bazı belgelerin
yanlı sınıflandırılması kaçınılmaz olur.
Anma (A) ve duyarlılık (D) ölçütleri rekabetine benzer ekilde,
yanlı a dü me (Y) ve anma (A) ölçütlerinin de rekabeti ile sistem
ba arımlarını de erlendirmek mümkündür. Söz konusu ölçütlerle
yapılan de erlendirme, de i ik yanlı a dü me (Y) de erlerinin, anma
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
148
(A) de eri üzerindeki etkisini ortaya koyacaktır. Bu durum, öncül
etmenlere (örne in öncül sarsıntılar, vb.), duyarlılı ı sabitlenebilen bir
deprem tahmin edicisi üzerinden örneklenebilir. Belirli bir öncül etmen
duyarlılık ayarında, verilen bir yanlı a dü me (Y) de erine kar ılık
gelen anma (A) de eri, deprem tahmin edicisinin tespit etmesi
beklenen ortalama do ru deprem sayısını, oran olarak temsil eder.
Yani, belirli bir öncül etmen duyarlılık ayarında, yanlı a dü me de eri
100 deprem alarmında 1 tane olan bir deprem tahmin edicisi için,
herhangi bir ki i, kar ılık gelen anma de erine göre, örne in 0.05
olsun, alarmlardan %95’inin gerçek deprem alarmı, %5’inin yanlı
deprem alarmı olmasını bekleyecektir. Yanlı a dü me (Y) ölçütü bir
sistemin hedef kümesi dı ındaki belgeleri, reddetmede ne kadar ba arılı
oldu unun bir ölçütü olarak da yorumlanabilir (Blair, 1990).
8.2. Anma ve Duyarlılık Esasında Ba arımın Ölçümü.
BGG sistemlerinin ba arımı, geri-getirilen (seçim kümesi)
belgeler kümesinin, kullanıcıya sıralı bir liste eklinde çıktı olarak
sunulması a amasında, sorgu ile alakalı belgelerin alakasız belgelerden
ne kadar önce sıralamaya alındı ı esasına dayalı olarak ölçülür. Bir
ba ka söyleyi le, BGG sistemlerinin ba arımı, geri-getirilen belgeler
kümesindeki belgelerin kendi içlerinde ne ekilde sıralandı ı esasına
dayanan ölçütlerle de erlendirilir, yani sıralama esaslı ölçütlerdir.
Çizelge 9.2.1.’de BGG sistemleri için sıralamanın neden önemli oldu u
ba arım ölçümleri üzerinden örneklenmi tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
149
Çizelge 9.2.1: BGG sistemlerinin sıralama esasına dayalı de erlendirme
örne i. Sütunlarda belgelerin farklı üç sıralaması
bulunmaktadır: √ simgesi belgenin alakalı oldu unu,
× simgesi alakasız oldu unu göstermektedir.
Sıra_1
d1: √
d2: √
d3: √
d4: √
d5: √
d6: ×
d7: ×
d8: ×
d9: ×
De erlendirme Ölçütü
d10: ×
5 belgede duyarlılık
1
10 belgede duyarlılık
0.5
ara-de er-tahminsiz
1
ortalama duyarlılık
ara-de er-tahminli
1
ort. duyar. (11-nokta)
e it-ölçek sıralaması
1
Sıra_2
d10: ×
d9: ×
d8: ×
d7: ×
d6: ×
d1: √
d2: √
d3: √
d4: √
d5: √
0
0.5
Sıra_3
d6: ×
d1: √
d2: √
d10: ×
d9: ×
d3: √
d5: √
d4: √
d7: ×
d8: ×
0.4
0.5
0.3544
0.5726
0.5
0.644
0
0.56
Çizelge
9.2.1.’de
sıralamalar
5
ayrı
ölçüte
göre
de erlendirilmi tir: 5 belge de duyarlılık, 10 belgede duyarlılık, ara
de er-tahminsiz ortalama duyarlılık, ara-de er-tahminli ortalama
duyarlılık (11-nokta) ve e it-ölçek sıralaması. Örnek verilen 10 belgeyi
sadece yalın duyarlılık (%50) ile ölçtü ümüzde, geri-getirim
kümesinde (seçim) 5 alakalı ve 5 alakasız belge oldu undan, üç
sıralama da birbirinden farksız çıkıyor. Ancak, geri-getirilen belgelerin
sonuç listesi oldu u dü ünüldü ünde, sıralanı ları ile paralel olarak
yukarıdan a a ıya do ru göz-atan bir kullanıcı için, 1. sıralamanın, 2.
sıralamadan daha iyi oldu u çok açıktır. Bu durum, herhangi bir
kullanıcının, örne in Web sayfalarını tararken sıklıkla yaptı ı göz-atma
eklidir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
150
BGG sistemlerinin ba arım ölçümü için tanıtaca ımız ölçütlerden
ilki, belirli bir kesme (cutoff) de erine kadar olan belgeler üzerinden
duyarlılık hesaplanmasıdır. Çizelge 9.2.1.’de 5 ve 10 kesme de erleri
için duyarlılık hesaplanmı tır (di er kullanımı yaygın kesme de erleri
20 ve 100 belgedir.). Bu ölçütle, bir sistemin geri-getirim sonuç
kümesinde yaptı ı sıralamanın, birçok farklı uzunluktaki ba langıç
parçasına bakarak, sistemin alakalı belgeleri alakasız belgelerden önce
ne derece bir ba arımla sıraladı ı konusunda fikir sahibi olunur.
Ara-de er-tahminsiz ortalama duyarlılık (uninterpolated average
precision), bir çok duyarlılık de erini tek bir sınama de erine
kümelemektedir: sıralamanın ba ından itibaren, her alakalı belgenin
oldu u nokta için duyarlılık hesaplanarak, bu de erlerin ortalaması
bulunur. Örnek olarak, Çizelge 9.2.1’deki 1. sıralama için duyarlılık
de eri 1.0’dır. Çünkü, son alakalı belge olan d5’dir ve bu belgeye
gelene kadar gözüken d1, d2, d3 ve d4 belgelerinin tamamı alakalıdır.
Dolayısı ile, ortamla duyarlılık 1.0’dır. Ancak, örne in 3. sıralamada,
alakalı belgeler için hesaplanan duyarlılık de erleri öyledir: 1/2 (d1),
2/3 (d2), 3/6 (d3), 4/7 (d5) ve 5/8 (d4); dolayısı ile ara-de er-tahminsiz
ortalama duyarlılık de eri, be duyarlılık de erinin ortalaması olan
0.5726’dır. E er, geri-getirilen belgeler içinde, ba ka alakalı belgelerde
varsa, hesaplama söz konusu belgelere do ru geni letilmelidir. Ara
de er-tahminsiz ortalama duyarlılık hesabında, alakalı olup, gerigetirilen seçim kümesinde olmayan belgelerin duyarlılı ı 0 (sıfır)
olarak kabul edilir. Bu yüzden söz konusu ortalama duyarlılık, dolaylı
olarak anma’yı da hesaplar, yani geri-getirilen sonuç kümesinde alakalı
olan belgelerin yüzdesidir (bu durum, seçim kümesinde yer almayan
hedef belgelerin, yani gerçekte alakalı olup seçilmemi belgelerin (yn)
duyarlılı ının 0 olarak, ortalama duyarlılık hesabına katıldı ı fikrinden
kaynaklanır.).
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
151
Ara-de er-tahminli ortalama duyarlılık (interpolated average
precision) ölçütü anma ölçümünü esas alır. Duyarlılık de erleri, çe itli
anma de er seviyelerinde hesaplanır; örne in 11-nokta ortalama
duyarlılık hesabında %0, %10, %20, %30, %40, %50, %60, %70, %80,
%90 ve %100 anma de er seviyeleri için duyarlılık hesaplanarak
bulunur (bu en yaygın kullanılan eklidir). Anma’nın α de eri için,
duyarlılı ın sayısal de eri olan β, sıralanmı listedeki alakalı belge
oranının, α de erine e it oldu u noktada hesaplanır. Listede a a ı
do ru inerken, bir α de erine kar ılık gelen belgeye kadar hesaplanan
duyarlılık de erinde artı varsa, artı boyunca belgeler için hesaplanan
en yüksek duyarlılık de eri söz konusu anma düzeyinin duyarlılık
de eri olarak alınır. Örne in, 3. sıralamada %60 anma düzeyinde,
hesaplanan ara-de er-tahminli duyarlılık 4/7 de ildir (yani d5
belgesindeki duyarlılık de eri), çünkü %60 anma de erine son belgede,
yani d8 belgesinde ula ılır (geri-getirilen 5 alakalı belgenin belge
uzayındaki tüm alakalı belgeler oldu u kabul edilerek). Bu noktadaki
duyarlılık de eri 5/8 oldu undan ve 4/7 de eri bu de erden küçük
oldu u için, %60 anma de erine kar ılık gelen ara-de er-tahminli
ortalama duyarlılık 5/8 olacaktır. Buradaki bakı açısı, kullanıcının
duyarlılık arttıkça, listeden a a ı do ru göz atmayı sürdürece i
varsayımını esas almaktadır. ekil 9.2.1’de, 3. sıralama için verilen iki
grafik sırasıyla, ara-de er-tahminsiz ve 11-nokta ara-de er-tahminli,
anma-duyarlılık e rilerini göstermektedir (precision-recall curves).
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
152
1
1
D
D
0
1
A
0
1
A
(a)
(b)
ekil 9.2.1: Anma-duyarlılık e risinin iki örne i. ki örnek de, Çizelge 9.2.1’de
verilen 3. sıralamaya aittir: (a) ara-de er-tahminsiz; (b) ara-de ertahminli.
BGG sistemlerinin ba arım de erlendirmesi için, Çizelge
9.2.1.’de verilen e it-ölçekli sıralama ( R norm ), de erlendirme altındaki
sıralamaları birbirleri ile nicel olarak kar ıla tırılmasını sa lar, yani 0
(sıfır) ile 1 (bir) arasında bir gerçek sayıya indirger (Yao, 1995):
+
1
R −R
= 1+
+
2
Rmax
Rnorm
−
(8.2.1)
Denklem 8.2.1.’de verilen e it-ölçek sıralama denkleminde: R +
simgesi ile, sıralama içinde alakalı olan her belgeden sonra gelen
alakasız belge sayıları toplamı; R − simgesi ile, sıralama içindeki her
+
alakasız belgeden sonra gelen alakalı belge sayıları toplamı; Rmax
simgesi ile R + ’ın ve R − ’in alabilece i en büyük de er ifade
+
edilmektedir ( Rmax
Örne in Çizelge
= max{ R + } = max{ R − } ).
9.2.1.’deki 3. sıralama için, R + de eri: 4 alakasız (d1), 4 alakasız (d2),
2 alakasız (d3), 2 alakasız (d5), ve 2 alakasız (d4) belge sayılarının,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
153
+
toplamı olan 14’tür. R max
de eri ise, e er geri-getirim kümesinin belge
sayısını en çok 10 olarak kabul edersek, 5 alakalı ve 5 alakasız belgenin
1. sıralamada oldu u gibi dizilmesi ile elde edilen, 25’e e it olacaktır.
BGG sistemlerinin ba arımlarının ölçülmesinde, kapsam (K) ve
özgünlük (Ö) olarak tanımlanan, iki ölçüt de kullanılmaktadır
(Korfhage, 1997). Bu ölçütlere ait e itlikler biçimsel olarak Denklem
8.2.2. ve 8.2.3.’de verilmi tir.
K = Rk / U
Ö=
(8.2.2)
Ru
(8.2.3)
Ru + Rk
Denklem 8.2.2. ve 8.2.3.’de, U kullanıcı tarafından daha önceden
belge uzayında oldu u bilinen alakalı belgeler kümesidir. Denklemde
R k simgesi ile, sistemin sonuç, yani geri-getirim kümesinde,
kullanıcının daha önceden alakalı oldu unu bildi i belgelerden olu an
kısmı; Ru simgesi ile de, daha önceden alakalı oldu unu bilmedi i
belgelerden olu an kısım temsil edilmektedir.
Yukarıda açıklanan, anma ve duyarlılık fikri esasına dayalı
ölçütlerden her biri, BGG sistemlerinin ba arımını ölçmek için
kullanılabilir. Farklı kurgulara sahip, birden fazla sistemin
kar ıla tırılmasında kabul gören yakla ımlardan bir tanesi, sistemleri
aynı derlem ve sorgu kümesi ile çalı tırmak, kullanılan ba arım
ölçütünün, tüm sorgular için elde edilen ölçümlerinin ortalamasını
almaktır. E er kar ıla tırılan sistemlerden, örne in 1. sistemin
ortalaması, 2. sistemin ortalamasından iyi ise, bu durum 1. sistemin
ba arımının 2. sistemin ba arımına göre daha iyi oldu una delil olarak
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
154
kabul edilir. Belirli bir sistemin, birden fazla sorgu için geri-getirim
ba arım ortalamasının bulunması ile ilgili iki yakla ım söz konusu
olabilir: mikro ve makro ortalamalar. Bir sistem için, iki yakla ımın,
yani mikro ve makro ortalamaların farklı de erlere sahip olması
durumuna, söz konusu sistemin sorgular kar ısında geri-getirim
kümesini olu turan belge sayılarının farklı olması sebep olur. Herhangi
bir sistemin ortalama ba arımı: Makro yakla ımda, tüm sorgular için
geri-getirilen toplam alakalı belge sayısının, her sorgu için gerigetirilmi belge kümelerinin toplam eleman sayısına bölünmesi ile
bulunur; Mikro yakla ımda ise, önce her sorgu için geri-getirilmi
alakalı belge sayısı, sorgunun kendi geri-getirim kümesinin eleman
sayısına bölünerek ara ortalama de erleri hesaplanır, daha sonra bu ara
ortalama de erleri toplanarak, toplam sorgu sayısına bölür ve sistemin
ortalama ba arım de eri elde edilir. Makro ortalama yakla ımı sistemin
ba arımını belge esasına dayalı olarak ölçerken, mikro ortalama
yakla ımı sorguları esas alan bir ölçüm ortaya koyar.
BGG sistemlerinin sonuç kümesindeki belgelerin, bir sıralama
ile kullanıcıya sunulması, kullanıcının anma ve duyarlılık ölçütlerinin
rekabetini istekleri do rultusunda kullanmasına imkan tanır. Örne in,
e er sıralı sonuç listesinin ilk sayfasında, anma dü ük ve istenen
enformasyon bulunamamı sa, kullanıcı bir sonraki sayfaya
yönlenecektir (ço u durumda sonraki sayfalarda anma yükselecektir).
te bu kullanıcı davranı ı, Olasılık sıralama ilkesi (probability ranking
principle) ile izah edilmekte ve BGG sistemlerinin sıralama esasına
dayalı kurgularının altındaki kabullenmeleri açık bir ekilde ortaya
koymaktadır (van Rijsbergen, 1979).
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
155
Tanım 8.2.1: Olasılık Sıralama (OS) lkesi (Probability Ranking
Principle): Belgeleri, alakalı olma olasılıklarına göre
büyükten küçü e do ru sıralamak, sistemin sonuç
kümesi için en iyi listeleme eklidir.
Tanımdaki ana fikir, geri-getirim i inin bir arama i lemi olarak
dü ünülmesi ve sistemin, zamanın istenen her hangi bir anında, sürecin
ilerledi i noktaya kadar olan kısım içindeki en yüksek alaka “de erine”
sahip belgeyi belirleyebilmesidir. Söz konusu aramada, zamanın
herhangi bir anında en yüksek “de ere” sahip olacak bir d belgesi,
sürecin ilerledi i noktaya kadar olan kısımdaki belgeler içinde,
beklenen alakalı olma ihtimali en yüksek belge olacaktır, yani P ( R d )
olasılık de eri en yüksek olan olacaktır (daha tüm belgelerin
de erlendirmeye girmedi ini dü ünüyoruz). Aynı ekilde, silsile
halinde birden çok zaman kesiti için, en yüksek “de ere” sahip olan
belgelerin belirlenmesi ile elde edilecek bir liste, aynı zamanda tanımda
verilen alakalı olmanın dü en olasılık de erlerine göre sıralanmı belge
listesi de olacaktır.
BGG sistemlerinin ço u OS ilkesini esas alırlar. O yüzden, bu
ile, hangi kabullenmelerin yapıldı ının tanımlanması da
ilke
gerekmektedir:
1. lk kabullenme, belgelerin ba ımsız oldu udur. Bu kabullenmenin
en açık
ekilde ihlali, aynı belgenin belge uzayında
tekrarlanmasıdır. E er bir belgeden iki tane varsa, örne in d1 ve d2
olsun, d1 belgesi listelendikten sonra d2 belgesine ait tahmini alaka
ihtimali de i meyecektir. Fakat d2 belgesi kullanıcıya yeni bir
enformasyon sunmayacaktır. Açıkçası, iyi bir kurgu içinde, böyle
çift belgelerden sadece birinin listeye alınması gerekir, fakat bu
durum, aynı zamanda OS ilkesinin ihlali de demektir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
156
2. Kullanıcı tarafından, sisteme yönlendirilmi enformasyon ihtiyacı bir
bütündür. Ancak, OS ilkesini esas alarak olu turulan bir sonuç
listesinde, söz konusu ihtiyaç, küçük ve yalıtılmı sorgucuklar
eklinde ele alınır ve bu sorgucukların her biri için en yüksek
“de ere” sahip belgelerin tespiti yapılır. Fakat, belge uzayındaki her
hangi bir belge, kullanıcının sisteme yönlendirdi i, enformasyon
ihtiyaç bütünü ile çok alakalı olmasına ra men, OS ilkesi gere i
yapılan arama sürecinin ara adımlarında, en yüksek “de ere” sahip
olarak belirlenmeyebilir. Örne in, bir kullanıcının Murat kelimesini
sorgu olarak yönlendirmesi halinde, ideal bir BGG sisteminin,
kelimenin araba adı, ki i adı ve istek/dilek anlamlarından hangisine
ihtiyaç duyuldu unu belirlemesi gerekir. Fakat OS ilkesini esas
almı bir sistem, eldeki belge uzayı içinde, en yüksek alaka gösteren
bu anlamlardan ilk bulunana göre, sonuç listesini sıralayacaktır.
3. OS ilkesi esasına göre hesaplanan, alakalı olmanın olasılı ı sadece
tahminidir. Bir BGG sisteminin kurgusu içinde, bir çok basitle tirici
tanımın kabul edilmesinden dolayı, yapılan olasılık tahminleri de
tamamen güvenilir olmayacaktır. Söz konusu durumun en büyük
yan etkisi udur: BGG sistemleri kar ıla tırılırken, alakalı olmanın
olasılık tahminleri arasındaki de i ime (variance) bakılmaktadır;
dolayısı ile olasılık tahminlerinin güvenilir olmaması,
kar ıla tırmaların da güvenilir olmaması sonucunu do uracaktır.
Daha önce bahsedildi i gibi, BGG sistemlerinin ba arımlarının
ölçülmesi için kurgulanmı , sorgulardan elde edilen sonuçların
ortalamasına dayalı bu deneysel düzenek, aslen bir çok tartı malı
mesele içermektedir. Ortalamalar arasındaki fark, ans eseri de olu mu
olabilir. Örne in, 1. sistemde, sadece tek bir sorgunun, 2. sistemdeki
sorgulardan çok büyük bir farkla iyi olması neticesinde (di er
sorguların ba arımları e it olacak ekilde) ortalama farklı da çıkmı
olabilir. Aslen, sistemler arasında anlamlı bir farklılık olup olmadı ına
bakılması için, böyle basit tanımlayıcı istatistikler yerine, uygun ekilde
geli tirilecek istatistiksel yöntemlerin kullanımı, daha güvenilir bir yol
olacaktır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
157
8.3. Anma ve Duyarlılı ı Esas Almayan Ba arım Ölçütü.
Bu tezde, ba arım ölçütü olarak kullanaca ımız yöntem olan
üstel-puanlama (meta-scoring), matematiksel/istatistiksel yöntemler
sınıfına girmektedir (Jin, 2001). Carnegie Mellon üniversitesinde, dilbilim teknolojileri enstitüsü ve bilgisayar bilimleri bölümünün ortak
çalı ması ile geli tirilen bu yöntem, anma ve duyarlılık ölçütlerinin tüm
olumsuz yönlerinden arındırılmı tır. Yöntem gizli anlam indeksleme
(Bölüm 6.2.) geri-getirim modelinin esas aldı ı, matematiksel kurguya
göre biçimlendirilmi tir. Yöntemde, belgeler ve sorgular bazı yönlerden
de i ik, bazı yönlerden gizli anlam indeksleme ile benzer ekilde
yorumlanmaktadır. Belgeler, bir vektör olarak kabul edilir. Bu vektörün
elemanları, bir geri-getirim yöntemi ile hesaplanmı sayısal
a ırlıklardır. Belge uzayındaki belgelerde bulunan, tüm içerikler, yani
konular bir içerik toplulu u olarak kabul edilir (Buraya kadar tüm
vektör uzayı modelini esas alan yöntemler, aynı ekilde yorumlara
sahiptir). Yöntemde, belge vektörlerini içine alan çok boyutlu uzayın
öz-vektörleri (eigen-vectors), gerçek belge içeriklerini olu turan,
birbirinden ba ımsız, birim “içerik”ler toplulu u olarak kabul edilir.
Böylece her belge, bu ba ımsız “içerik”lerin bir kümesi ile ifade
edilebilir olmaktadır. Belirli bir geri-getirim yöntemi ile, bir belge için
sayısal belge temsili olu turuldu unu kabul edersek (yani belge
vektörü), bu sayısal belge temsilinde, birim “içerik”lerden ne miktarda
bulundu u, belge vektörünün “içeri ini” olu turan öz-vektörler
üzerindeki iz-dü ümü ile ölçülecektir. Dolayısı ile, asıl belgelerin
içerikleri, öz-vektörler ile temsil edilen bir nevi a ırlıklandırılmı
“içerik” toplulu u olacaktır. Yöntemde, bir de temsili “belge içeri i”
vardır. Bu temsili “belge içeri i”, öz-vektörler kümesinden herhangi bir
elemana e it olabilir. Ancak, tüm öz-vektörler “belge içeri i” olma
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
158
açısından e it ihtimale sahip de ildir. Bir öz-vektörün, temsili “belge
içeri i” olma ihtimali, öz-vektöre kar ılık gelen öz-de er (eigen-values)
ile do ru orantılı olarak hesaplanmaktadır.
Bir geri-getirim yönteminin üstel-puanı, temsili “belge içeri i” ile
asıl belge için olu turulmu a ırlık vektörü arasındaki kar ılıklı
enformasyon (mutual information) miktarına e ittir (Bölüm 4.3). E er
iki geri-getirim yöntemi birbiri ile kıyaslanacaksa, her ikisi için de
üstel-puan hesaplanır ve de er olarak büyük olanı daha iyidir denir. Jin
ve arkada ları (2001), yöntem ile hesapladıkları üstel-puanın, derlemin
ortalama-duyarlılı ı ile tutarlı oldu unu, yani do ru orantılı oldu unu
bildirmi lerdir. Dolayısı ile, tezin sonuçlarındaki üstel-puanlar, orantılı
ortalama-duyarlılık eklinde de yorumlanabilir.
ki olasılık de i keni, D ve C için kar ılıklı-enformasyon’un
I(C;D), biçimsel ifadesi, Denklem 8.3.1.’de verilmi tir.
I (C; D) = H (C ) − H (C D)
Denklem
8.3.1.’de
verilen
(8.3.1)
kar ılıklı-enformasyon,
I(C;D)
e itli indeki H(C) simgesi ile, C olasılık de i keninin düzensizli i, yani
sinyal-enformasyon de eri temsil edilmektedir; H(C|D) simgesi ile,
aynı C olasılık de i keninin, D olasılık de i keninin de eri bilinirken
hesaplanan düzensizlik de eridir. Dolayısı ile, C ve D olasılık
de i kenlerine ait kar ılıklı-enformasyon de eri, D olasılık de i kenine
ait de erin bilinmesinden kaynaklı, C olasılık de i keninin
düzensizli inde olu an de i im miktarı olarak sözle ifade edilebilir. Bir
ba ka söyleyi le, kar ılıklı-enformasyon iki olasılık de i keninin
birlikte ta ıdı ı, ortak sinyal-enformasyon miktarıdır. Söz konusu iki
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
159
olasılık de i keni ba ımsızsa, ta ıdıkları kar ılıklı-enformasyon miktarı
da 0 (sıfır) olacaktır.
Üstel-puan ölçütünün, kar ılıklı-enformasyon I(C;D), esasında
tanımlanmasında, C olasılık de i keninin örneklem kümesini, “belge
içerik”leri kümesidir; D olasılık de i keninin örneklem kümesi de,
indeks terimler ve bir belge için hesaplanan a ırlıklarından olu an
çiftler toplulu udur. Böylece, H(C) de eri, “belge içerik”lerinin yalın
olarak ta ıdı ı sinyal-enformasyon miktarını; H(C|D) de eri de, D
belgesinin “içerik” vektörü bilinirken “belge içerik”lerinin ta ıdı ı
ba ıl sinyal-enformasyon miktarını temsil eder. Dolayısı ile, kar ılıklıenformasyon miktarı, iki sinyal-enformasyon de erinin farkından, yani
“belge içerik”lerinin yalın olarak ta ıdı ı sinyal-enformasyon
de erinden H(C), “içerik” vektörü D verilmi ken “belge içerik”lerinin
ta ıdı ı ba ıl sinyal-enformasyon de erinin H(C|D), çıkartılması ile
elde edilir.
BGG sistemlerinin hedefinde bulunan belge uzayı, belge-terim
matrisi M, olarak temsil edilebilir. Olu turulan söz konusu matrisin
satırlarında belgeler, sütunlarında terimler ve Mij hücresinde, ise söz
konusu yöntemin j. terime, i. belge için atadı ı hesaplanmı a ırlık
de eri bulunmaktadır. Gizli anlam indeksleme modelinde, M matrisinin
belge vektörlerini içine alan uzayının öz-vektörleri (eigen-vectors), yani
dikey birim vektörleri (eksenleri), birbirinden ba ımsız “içerik”ler
olarak kabul edilir. Her belge, bir “içerik” vektörü olarak temsil
edildi i için, herhangi bir belgede, bir “içeri in” önemi, “içeri i” temsil
eden öz-vektör üzerine, söz konusu belge vektörünün iz dü ümü ile
ölçülür. Üstel-puan ölçütündeki olasılık de i keni, C için, örneklem
kümesi, e er bir “içerik” toplulu u olarak dü ünülürse, gizli anlam
indeksleme yönteminde öz-vektörler ile olu turulan “içerik” uzayı, C
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
160
ile temsil edilen “belge içeri i” kavramı için kullanılabilir. Jin ve
arkada ları (2001), C olasılık de i kene ait olasılık da ılımının
hesaplanabilmesi için, M matrisinin öz-vektörleri ile e le en özde erlerin (eigen-values), bu öz-vektörlerin önemini betimledi ini,
dolayısı ile “içerik”lerin öneminin, söz konusu öz-de erlerin genli i
(miktarı) ile orantılı oldu unu öne sürmü lerdir.
Bir BGG sisteminin hedef belge uzayındaki, belge sayısı n olarak
kabul edilirse: terim uzayındaki belge vektörleri b1 , b2 , , bn olacaktır.
Terim uzayındaki belge vektörleri, M belge-terim matrisini de
olu tururlar. Üstel-puan ölçütünün, bir geri-getirim yöntemi için
kullanılmasında, belge-belge matrisine ihtiyaç vardır. Belge-belge
matrisine D dersek,
M belge-terim matrisi kullanılarak u ekilde
olu turulur:
T
D n×n = M n×t ⋅ M t×n
(8.3.2)
Denklem 8.3.2. ile elde edilen belge-belge, kısaca D belge
matrisine ait, λ1 , λ 2 , , λn öz-de erler (eigen-values) ve v1 , v2 , , vn
öz-vektörler (eigen-vectors) için, tanım gere i, u ko ul sa lanır:
D • v j = λ jv j ; 1 ≤ j ≤ n
(8.3.3)
C olasılık de i keni, yani “belge içerik”leri, bir “içerik” toplulu u
olarak kabul edildi i ve her “içerik” de, D matrisinin bir öz-vektörüne
kar ılık geldi i için, C olasılık de i keninin örneklem kümesi, yani
alabilece i de erler kümesi, öz-vektörler toplulu u {v1 , v2 , , v n } olur.
Jin ve arkada larının (2001) kabullenmesinde, her v j öz-vektörünün
önemi, bu vektöre kar ılık gelen öz-de erle λ j , ölçülmektedir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
Dolayısı ile, C olasılık de i keninin,
161
v j öz-vektörüne e it olması
olasılı ı P(C = v j ) , λ j öz-de eri ile orantılı olacaktır:
λj
P(C = v j ) =
n
1≤ j ≤ n
;
λk
(8.3.4)
k =1
Olasılık de i keni D, belge vektörlerini temsil etmektedir. D
olasılık de i keninin, alabilece i de erler kümesi, belge vektörleri
toplulu u, yani {b1 , b2 , , bn } olacaktır. BGG sisteminin hedefindeki
belge uzayında, her belge e it önemdedir. Dolayısı ile, D olasılık
de i keninin herhangi bir bi belge vektörüne e it olması olasılı ı,
P( D = bi ) sabittir:
1
; 1≤ i ≤ n
n
P ( D = bi ) =
D
olasılık de i kenin de eri,
(8.3.5)
bi belge vektörü olarak
verilmi ken, C olasılık de i keninin herhangi bir, v j öz-vektörüne e it
olmasının,
ko ullu
P(C = v j D = bi )
olasılı ı,
ise,
vektörünün,
vj
öz-vektörü üzerindeki iz-dü ümünün,
bi
belge
bi
belge
vektörünün, tüm öz-vektörler vk , 1 ≤ k ≤ n üzerindeki iz-dü ümleri
toplamı içindeki a ırlı ı ile orantılı olacaktır:
bi T • v j
P(C = v j D = bi ) =
n
k =1
bi • v k
T
; 1≤ k ≤ n
(8.3.6)
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
162
Denklem 8.3.6.’da, bi belge vektörünün, v j öz-vektörü üzerine
iz-dü üm de eri d iT • v j , mutlak olarak alınmı tır. Bunun sebebi, iz
dü üm de erlerinin, negatif olabilmesidir; ancak olasılık de erleri
negatif olamazlar.
Bu ekilde hesaplanarak, BGG sistemlerinin ba arımlarının
kar ıla tırılmasında kullanılabilecek üstel-puan yöntemi, aslen kendi
türünün içinde, yani anma ve duyarlılık ölçütleri dı ındaki ba arım
ölçütlerine tek örnektir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
163
9. TEZ KAPSAMINDA GEL T R LM YÖNTEMLER
Bu tez, bilgi geri-getirim sistemlerinin, yazılı Türkçe’nin
dilbilgisi kullanılarak, Türkçe için ba arımlarının arttırılmasını hedef
almaktadır. Dolayısı ile, yazılı Türkçe belgelerin çok dilli bir belge
toplulu undan, örne in nternet ortamından tespit edilmesi gibi bir
meseleyi de içermektedir. Son yıllarda çok dilli uygulamalar, daha
do rusu çok dilli bilgi geri-getirim, nternet ortamının do al bir sonucu
olarak u ra sahası haline de gelmi tir. Ancak, tez kapsamımızda,
hedef aldı ımız asıl mesele, yazılı metnin hangi dilde oldu undan çok,
Türkçe olan metnin otomatik olarak tespit edilmesidir. Tez içerisinde
geli tirilen di er yöntemlerin uygulanabilirli i için, asgari ve yeter art
budur.
Hesaplamalı dilbilim sahasında, bilgi geri-getirim sahasında ve
bir çok yazılı dil hedefli, hesaplamaya dayalı u ra lar içerisinde
geli tirilen yöntemler, öncelikle yazılı metnin belirli biçime
getirilmesine ihtiyaç duyarlar. Bu ortak biçime getirme, yazılı metni
hesaplanabilir birimlerine ayrı tırma i ine, genel adıyla metin
normalle tirme denir. Aslen, bilgi geri-getirim sahasında ihtiyaç
duyulan nitelikleri ile metin normalle tirme, sayısal belge temsil
yordamının (Bölüm 5.3.) ilk alt sürecinde belirtildi i ekli ile yer
almaktadır ve en basit halindedir. Kelime sınırlarının belirlenmesi ve
kelime dı ı unsurların metinden ayıklanması, bilgi geri-getirim
sistemleri için yeterli metin normalle tirme nitelikleridir. Ancak,
hesaplamalı dilbilim sahasında, metin normalle tirme, bilgi geri-getirim
sahasında oldu u gibi, asgari nitelikler ta ımaz. Metin içindeki
kelimelerin belirlenmesi gerekir, ancak kelime dı ındaki unsurların
ayıklanması de il, ne olduklarının i aretlenmesi, yani o unsurların da
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
164
belirlenmesi söz konusudur. Ayrıca, hesaplamalı dil bilim sahasında,
dilbilgisi özelliklerinin tespit edilmesi hedefindeki yöntemlerin hemen
hepsi, cümle sonu ve ba ının belirli olmasını da ön art olarak
istemektedirler. Cümle sonlarının belirlenmesi meselesi, her ne kadar
hesaplamalı dilbilim içerisinde önemsenen bir konu olarak belirtilmese
de, mesele yaratan bir durumdur. Cümle sonu belirlemede en büyük
sorun, “nokta”nın, her zaman cümle sonu belirlemiyor olmasıdır.
Nokta, bazen cümle sonu, bazen bir kısaltmanın sonu veya bazen her
ikisi de olabilir. Tez hedefimizde, bilgi geri-getirim sahasında, dilbilgisi
özelliklerinin kullanılması söz konusu oldu u için, cümle sonun
belirlenmesi meselesine, yani nokta üzerindeki
kaldırılmasına dönük bir çözüm de geli tirilmi tir.
belirsizli in
Hesaplamalı dilbilim sahasında, yazılı metinlerdeki dilbilgisi
özelliklerinin belirlenmesine dönük geli tirilmi yöntemler, temelde iki
gurupta toplanmaktadır: kural tabanlı yöntemler ve istatisti i/olasılı ı
esas alan yöntemler. Her iki guruptaki yöntemler de, kurguları
açısından çok büyük farklara sahip de illerdir; temel birkaç ortak
unsuru yapı ta ı olarak kullanırlar. Aralarındaki fark, olasılık
kuramından ibarettir. Kural tabanlılar, kuralları, olasılık kuramı yerine
kullanırlar. Fakat, her iki gurubun melezi olan, yani hem kural tabanlı
hem de olasılık kuramını kullanan yöntemler de vardır. E er n-gram dil
modelleri tartı manın dı ında tutulacak olursa, yani hesaplama birimi
olarak kelimenin esas alındı ı di er yöntemlerin tamamı için, ortak
yapı ta ı, dile ait kelimelerin ve kelimelere ait çe itli kapsam ve
derinlikte özelliklerin içerildi i bir sözlük’tür. Yöntemlerin
kurgularında yer alan bu sözlükler, yazı içinde geçen kelimeleri
e le tirme ile belirlemek ve daha önceden kaydedilmi olan
özelliklerine eri mek için kullanılır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
165
Sözlük kullanımının mümkün olması için kuramsal bir
kabullenme de yapılmaktadır. Bu kabullenme, dillerin kapalı kelime
da arcı ına (yazımda farklı ekle sahip harf birli i, kelime biçimleri
toplulu u) sahip oldu udur. Kabullenmenin do ru olup olmadı ı, daha
do rusu hangi artlar altında geçerli oldu u, tüm diller için halen sıcak
bir tartı ma konusudur. Kuramsal olarak, bir dilde yazılabilecek, olası
tüm metinlerin toplulu una ula tı ımızda, kelime da arcı ı, bütün
metinler elimizde oldu u için, kapalı olacaktır, yani farklı ekilde
söylenebilecek her ey söylenmi , yazılabilecek her ey yazılmı
olacaktır. Uygulamada, bu ideal durum yakalanamadı ı için,
kar ıla ılmı ve kar ıla ılacak metinler eklinde iki durum söz konusu
olmaktadır. Kar ıla ılmı metinlerden, farklı kelime biçimleri tespit
edilmekte ve kelime da arcı ı bu kelime biçimleri toplulu u ile
olu turulmaktadır. Mesele, bu kelime da arcı ının, kar ıla ılacak
metinlerde yer alan kelime biçimlerinin tamamını, her zaman kapsayıp
kapsamayaca ıdır. Kapalı kelime da arcı ı kabullenmesi, telafi
edilebilir büyüklükte, belirli bir hata payı ile her zaman kapsanaca ını;
açık kelime da arcı ı ise, bu hata payının her zaman çok büyük
olaca ını ve kelime da arcı ının oransal olarak telafi edilemez
boyutlarında gerçekle ece ini öngörmektedir. Türkçe için kelime
da arcı ının açık ve kapalı olu u meselesi, Bölüm 10.’da Zipf
kanunları çerçevesinde istatistiksel olarak, deneysel derlemler
üzerinden tartı ılmı tır.
Hesaplamalı dilbilim yöntemlerin kurgularında sözlük
kullanılması, bu günün teknolojisi açısından, hesaplama karma ıklı ını
arttırıcı bir unsurdur. Dolayısı ile, geleneksel bilgi geri-getirim
sistemlerinin ön i lem a amalarında, ba arıma olan katkısı anlamlı dahi
olsa, maliyetleri sebebi ile kullanımlarından ço unlukla kaçınılır.
Yapılan ara tırmaların sonuçlarından da, anlamlı bir ba arım artı ının
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
166
tutarlı ekilde elde edilememesi, kullanılmalarıyla
ba arımdan feragat edilir hale gelmelerine sebep olur.
kazanılacak
Hesaplamalı dilbilim yöntemlerinin, özellikle kural tabanlı
olanlarında, hesaplama karma ıklı ını arttırıcı tek etken de, sözlük
kullanımı de ildir. Kural tabanlı sistemler, örne in gövdeleme için
Türkçe gibi sondan ekli, eklemeli dillerde, sonlu durum makinelerini
esas alırlar ve hesaplama karma ıklıkları, günümüz bilgisayar
teknolojisi ile do rusal zamanda, çözümü bulunamaz bir hale gelebilir
(NP-Complete). Pratikte, durum bu kadar içinden çıkılmaz halde
de ildir, ancak do rusal olmaktan da çok uzaktır (Bölüm 5.3). Dolayısı
ile, bilgi geri-getirim sahasında kullanılacakları zaman, hesaplamalı
dilbilim yöntemleri oldu u gibi alınmazlar, uygun ekilde hesaplama
açısından hafifletilmi uyarlamaları tercih edilir.
Hesaplamalı dilbilim sahasında, istatistik/olasılık esasına dayanan
yöntemlerde, hesaplama karma ıklı ı açısından kural tabanlı
e leniklerinden pek farklı de illerdir. Aslen, her iki gurubun da
hesaplama karma ıklı ının kökeninde olan ey, dilin anlamsal
çözümlemesinin, günümüz bilgisayar teknolojisinin mümkün kıldı ı
hesaplama yöntemlerinin bakı açısından, çok hacimli, detaylı ve derin
bir mesele haline gelmesidir. nsanlar, ana dillerini, kurallarına ve
yapılarına özel bir dikkat sarf etmeden kullanmaktadırlar, zaten di er
halde, anlatılmak istenen duygu veya dü ünceye odaklanmak zor bir
hale gelirdi. Bu ba lamda belirtilmesi gereken di er bir mesele de, dili
ileti im için kullanmakla, onu nasıl kullandı ımızı, tekrar edilebilir
ekilde tarif etme (bilimsel) arasında, zorluk açısından büyük bir fark
oldu u gerçe idir. statistik/olasılık esasında yöntemler de kendi içinde
kullandıkları dil modelleri açısından üçe ayrılabilir: n-gram dil modeli,
gizli Markov zinciri dil modeli ve en-yüksek düzensizlik (maximum
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
167
entropy) modeli. Bu dil modelleri ise, kelime esasında hesaplama
yapıyorlarsa, sözlük kullanırlar. Hesaplama birimi olarak, kelimenin
alternatifini, n-gramlar te kil eder. Di er modeller, n-gramları
hesaplama birimi olarak da kullanmaktadır; n-gramlar tek ba larına
kullanıldıklarında, olasılık kuramı esas alınmaktadır. Aslen,
hesaplamalı dilbilim içinde çözümleme düzeyi olarak, biçimbirimsel
seviyenin (sözlük, söz-dizim, anlam, v.b.) üzerindeki düzeylerde,
yaygın ekilde kullanılan model gizli Markov zinciri dil modelidir.
Biçimbirimsel seviyede de, kural tabanlı yöntemler a ırlıklı olarak
kullanılmaktadır.
Tez kapsamı içersinde, hesaplamalı dilbilimde iki çözümleme
seviyesi için, bilgi geri-getirim sistemlerinde kullanılmak üzere
uyarlanmı iki yöntem geli tirilmi tir: gövdeleme (biçimbirimsel
seviye) ve sözcük türü tespiti (sözlük seviyesi). Her iki yöntem de,
sözlük kullanmamaktadır, istatistik/olasılık esaslıdır ve hesaplama
birimi olarak kelime yerine n-gram kullanmaktadır. Dilbilim özelli inin
çözümlenmesi için esas aldıkları fikirler açısından, yani gövdeleme ve
sözcük türü tespiti için, kelimeden gerekli enformasyonun elde edili i
açısından, yöntemler özgündür.
Özetle, bu bölümde tanıtılacak, tez kapsamında geli tirilmi dört
özgün yöntem bulunmaktadır. Yöntemler, tanıtım sırasıyla öyledir:
Türkçe yazılı belgelerin tespiti; Türkçe metinlerin, cümle sonu
tespitleri, yani normalle tirilmesi; Türkçe için istatistik/olasılık
esasında gövdeleme; Türkçe kelimelerin, istatistik/olasılık esasında
sözcük türü tespiti.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
168
9.1. Türkçe Yazılı Belgelerin Tespiti
Genel anlamda, yazılı metinlerde dilin tespiti, nternet üzerinde
arama motorlarının, kullanıcıların enformasyon ihtiyaçlarını kar ılamak
için, dil tespitine gereksinim duyması ile giderek artan bir ihtiyaç
olmaktadır. Bu gereksinimin ötesinde, otomatik çeviri programları,
uygulama olarak kullanılmaya da ba lamı tır. Dolayısı ile, çok dilli
ortamlarda, yazılı metnin hangi dilde yazılmı oldu u giderek artan bir
ihtiyaç halini almaktadır (Lins and Gonçalves, 2004).
Web, Internet üzerinde en büyük yazılı belge kayna ını olu turan
servis olarak, çok dilli derlem kapsamında kar ımıza çıkmaktadır. Web
servisi sa layan sunucularda, dil olarak ngilizce a ırlıklı olmasına
ra men, Babel13 tarafından, Web ortamındaki çok dillilik üzerine
yapılan ara tırma, 1997 haziran’ı itibari ile 14 farklı dile yayılmı ,
63,000 ngilizce dı ında, sunucu oldu u tahmin edilmi tir. Ayrıca,
Babel tarafından yapılan ara tırmanın dı ında kalmı , Katalanca, Çince,
Macarca, zlandaca ve Arapça dilinde sunucuların da sayısı artmaktadır
(Resnik, 1999). Çok dilli in yanında, Web ortamı, dinamik içeri e de
sahiptir. Bu özelli i, kelime da arcı ı konusu ile, çok yakından
alakalıdır. Diekema ve arkada ları, TREC-7 çalı malarında, WordNet
1.5., kelime a ına dayalı olan çalı malarının ba arımının, “BosniaBosnie”, gibi çok yüksek düzeyde konu ile alakalı kelimelerde olu an
sözlüksel gediklerden, çok fazla yara aldı ını belirtmi lerdir (Voorhees
and Harman, 1998b). Yine TREC-7 çalı malarında, çeviri esasına
dayalı çapraz-dil bilgi geri-getirimi üzerine ara tırma yürüten Gey ve
arkada ları, “acupuncture-Akupunktur” kelimesi ile örneklendirdikleri,
13
http://www.isoc.org
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
169
sözlüksel gedi in, bireysel sorgular esasında, ba arımı, duyarlılık
ölçüsünde 0,08 ile 0,83 arasında de i tirdi ini belirtmi lerdir!
Aslen, çok dilli belge uzayı olarak Web ortamında dil tespiti,
bahsedilen boyutları dı ında, ayrıca yazılı metnin sayısal ortama alını ı
ba lamında (elle yazılarak, fiziksel ortamlardan taranarak) ve dil
tespitinin kuramsal alt yapısı içinde karma ıklık derecesi gibi
meseleleri de vardır. Kuramsal ba lamda, hem karma ıklık kuramı
(complexity theory) hem de özyineleme kuramı (recursion theory)
içerisinde, indirgeme temeline dayanan bir inceleme için, Jain ve
Sharma (1994) tarafından yapılan çalı ma güzel bir örnektir. Yazılı
metnin, sayısal ortama alını ı açısından, Web ortamında elle
yazılmanın dı ında, ço u belgenin özgün fiziksel ortamından (ka ıt
v.b.) taranarak sayısal ortama alınması da söz konusudur. Bu yöntemle,
sayısal ortama alınan belgelerde, ek olarak yazılı karakterin tanınması
(character recognition) a amasında meydana gelen, ek hatalarla da
u ra mak gerekmektedir (Sibun and Spitz, 1994). Sibun ve Spitz, resim
olarak taranan yazılı belgelerden, karakter ve kelimelerin, hesaplamalı
dilbilim için yeterli oldu unu dü ündükleri simgesel kar ılıklara
atanması eklinde bir yöntem önermi lerdir.
9.1.1. Önceki Çalı malar
Çok dilli belge uzayında, belgelerin hangi dillerde yazılmı
oldu unun tespitine yönelik yöntemler, a ılıklı olarak istatistik/olasılık
kuramını esas alırlar. Olasılık esasındaki yöntemlerin, kural tabanlı en
iyi sistemle e it veya ondan daha ba arılı olaca ı, Jain ve Sharma
(1993)
tarafından
do rulandıktan
sonra,
tüm
çalı malar
istatistik/olasılık esasında do al olarak yo unla mı tır. Olasılık
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
170
esasında yöntemlere yönelimde, dilbilimsel yöntemlerin geli tirildikleri
dile has kalmaları da önemli rol oynamaktadır.
Lins and Gonçalves (2004), Fransızca, spanyolca, ngilizce ve
Portekizce dillerinde yazılmı , Web ortamındaki belgeleri birbirinden
ayırt etmeye çalı mı lardır. Yöntemlerinde, zarf, tanımlık (articles),
ba laç, ünlem, sayı (kelime), edat ve özel isim sözcük türlerine giren
kelimeler üzerinden bir kurgu yapmı lardır. Bu sözcük türlerindeki
kelimelerin, de i imlerinin ya olmadı ını veya di er sözcük türlerine
nazaran de i imlerinin ihmal edilebilir düzeylerde olmasında ötürü,
kapalı kelime da arcı ı ihtiyacını kar ıladı ını belirtmi lerdir. Di er
sözcük türlerine ait kelimelerin ayrıca, zaman ve depolama
karma ıklı ının yüksek oldu unu, bunun sebebinin, dillerin kullanımı
ve geli imi içerisinde söz konusu sözcük türlerine ait kelime
da arcıklarının çok hızlı büyüdü ünü, dolayısı ile de erlendirmeden
çıkarttıklarını
kaydetmi lerdir.
Kar ıla tırdıkları
diller
için,
kullandıkları her sözcük türüne ait kelimeleri, incelenen metnin
içerisinde arayarak, dili tespit etmeye çalı mı lardır. Çizelge 9.1.1.1.’de
ara tırmanın sonucu, kullandıkları sözcük türlerinin, belirli dillerde
yazıldı ı bilinen metinlerde, ortak olarak içerilmesi durumları eklinde,
verilmi tir. Önerilen yöntem ile, sonuç olarak Web için %80 do ruluk,
düz metinler için %90 do ruluk elde edildi i belirtilmi tir.
Tanıtaca ımız ikinci yöntem, n-gram dil modelini esas almaktadır
(Suzuki et al, 2002). Yöntem, Web sayfalarının yazıldı ı dil, yazı ekli
(script) ve çözümleme eması (encoding scheme) olmak üzere üç
özelli ini belirlemek üzere tasarlanmı tır. Yazar, ngilizce’nin sayısal
dünyada standartla mı olması dolayısı ile, baskınlı ından bahsetmekte
ve anadili veya yabancı dili olarak, 10 milyonun üzerinde ki i
tarafından konu ulan 82 farklı dil oldu undan bahsederek, bu dillerin
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
171
sayısal dünyada temsil edilmemesi ile ortaya çıkan, “sayısal
bölünmenin” (digital divide), olumsuz sonuçlarını ortaya da koymu tur.
Çizelge 9.1.1.1: Fransızca, spanyolca, ngilizce ve Portekizce için
yazılı metinden dil tespit sonuçları (Lins and
Gonçalves, 2004).
spanyolca Fransızca
ngilizce Portekizce Almanca
talyanca
#
%
#
%
#
%
#
%
#
%
#
%
Yok
1 0.11 0 0.00 0 0.00 1 0.18 3 1.89 2 1.92
Bilinmiyor 61 6.64 31 4.78 12 1.93 27 4.73 141 88.68 85 81.73
Portekizce 27 2.94 0 0.00 2 0.32 539 94.40 0 0.00 0 0.00
ngilizce
13 1.42 5 0.78 609 97.75 2 0.35 14 8.81 9 8.65
spanyolca 815 88.78 1 0.16 0 0.00 2 0.35 0 0.00 8 7.69
Fransızca
1 0.11 600 94.19 0 0.00 0 0.00 1 0.63 0 0.00
Suzuki ve arkada ları (2002) tarafından geli tirilen yöntem, di er
n-gram dil modeli esasındaki yöntemlerden ayrılmaktadır. Yöntemde,
Web sayfasının de erlendirmesi için hesaplama birimi olarak, bayt
(sekiz ikil) kullanılmakta, bilgisayar ortamında son yıllarda tüm yaygın
dilleri içine alan Unicode (UCS, ISO/IEC10646) standardı da
hesaplama içinde de erlendirilmektedir. Dolayısı ile, karakter esaslı
olmayan Asya dilleri de, tespit edilmekte ve birbirlerinden
ayrılabilmektedir. Di er yöntemlerde ise, karakter veya kelime esasında
çalı ılmaktadır. Ancak, bu yöntemin taranmı belgeler üzerinde, di er
karakter esasındaki n-gram yöntemleriyle aynı akıbeti payla tı ı da
unutulmamalıdır. Yöntemde, özgün metne ait bayt akı ı, 3 bayt
uzunlu unda ve “shift-codon” (“codon” terimi genetik sahasından
gelmektedir ve DNA zincirini olu turan genetik kodun temel birimidir)
olarak adlandırılan hesaplama birliklerine çevrilmektedir. Daha sonra,
yazılı metinlerin bayt akı ı içinde, bu hesaplama birliklerinin, n-gram
olarak istatistikleri çıkartılarak, diller birbirinden ayırt edilmeye
çalı ılmaktadır. Örne in, 184 KB büyüklü ünde, Almanca yazılı bir
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
172
metinden, çıkartılan farklı “shift codon” sayısı 10,422 olarak; 177 KB
büyüklü ünde ngilizce bir metinden çıkartılan farklı “shift codon”
sayısının 8,897 oldu u belirtilmi tir (Bilgimiz dahilinde, Türkçe için
“shift codon” sayısının belirlendi i bir çalı ma yoktur). Çalı mada,
spanyolca, Portekizce, Almanca, Romanca ve ngilizce için belirleme
yapılmı , sadece Portekizce için az bir kayıp ya andı ı, di er dillerin
tam do rulukla tespit edildi i belirtilmi tir. Yöntemin aleyhte yönü
olarak, bir arama motoruna çevrim-içi olacak ekilde yüklenememesi
gösterilmi tir. Sebep olarak da, yöntem de kullanılan “shift codon”
sayısının çok büyük boyutlarda olması verilmi tir.
Dil tespiti üzerine, n-gram dil modelini esas alan tanıtaca ımız
çalı ma, Cavnar ve Trenkle (1994) tarafından önerilen yöntemdir.
Yöntemde, n-gram dil modeli, yazılı dildeki harfleri hesaplama birimi
olarak kullanılmaktadır. Ancak, n-gram olarak çıkartılan harf birlikleri
kelime sınırları içerinde kalmakta, kelimeden kelimeye atlamamaktadır.
Dolayısı ile, bu yöntem için yazılı metnin önce simgele tirilmesi, yani
normalle tirilmesi yapılmaktadır. Daha sonra, bir alı tırma derleminden
en yüksek gözlenme sıklı ına sahip, n-gramlar belirlenmektedir.
De erlendirme altındaki tüm diller için, aynı ekilde n-gram
istatistikleri çıkartılmaktadır. Çalı mada ele alınan altı dil için (Datca
(Hollanda’da konu ulan Almanca’nın türevi bir dil), Fransızca,
Almanca, talyanca, Lehçe/Polca , Portekizce ve spanyolca), metin
büyüklü ünün, 22KB ile 150KB arasında de i en büyüklerinde rapor
edilen sonuçlara göre, söz konusu dilleri tam do rulukla ayırt
etmektedir. Metin büyüklü ü açısından alt sınır olarak, ngilizce ile
spanyolca arasında yakalanmı olan 4 Kbayt (yakla ık 700 kelime)
verilmi tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
173
Olasılık/ statistiksel yöntemlere son örne imiz, gizli Markov
zincirleri dil modelini esas alan ve Dunning (1994) tarafından önerilen
yöntemdir. Yöntemde, yine harfler hesaplama birimi olarak alınmı (ngram), ancak, kelimeler arası geçi mümkün kılınmı tır, daha do rusu,
yazılı metinden, harf dı ında tüm simgeler atılmı ve metin uzun bir
harf dizisi haline getirilmi tir. Dolayısı ile, kelime sınırları ortadan
kalkmı tır. Olasılık/ statistik modeli olarak birinci dereceden, gizli
Markov zinciri kullanılmı tır. Çalı manın sonucu olarak, 50KB
alı tırma derlemi ile, 20 bayt uzunlu undaki deneme metinlerde %92
do rulu a ula ıldı ı; deneme metni, 500 bayt oldu unda %99
do rulu a ula ıldı ı; deneme metni, 500 bayt iken, alı tırma derlemi,
5KB oldu unda %97 do rulu a ula ıldı ı rapor edilmi tir. statistiksel
anlamlılık ba lamında, deneme metni 100 bayt ve üzeri, alı tırma
derlemi de 50KB ve üzerinde oldu u durumlarda, do rulu un %99’dan
büyük olması ihtimali %90 olarak verilmi tir.
Yazılı belgelerden, Türkçe’nin tespitine yönelik çalı malara,
bilgimiz dahilinde verebilece imiz tek çalı ma Dalkılıç ve Dalkılıç
(2002) tarafında, yazılı Türkçe’nin n-gram istatistikleri ile ilgili
yaptıkları çalı mada ortaya konan önerilerdir. Önerilerden ilki,
ngilizce ve Türkçe ayrımı için, kelime uzunluklarının enformasyon
olarak kullanılabilece idir. Bu önermenin temelinde, Türkçe ve
ngilizce’de de i ik kelime uzunlukları için, metinlerde görülme sıklı ı
oranlarının, yani kelime uzunlu u da ılımlarının farkıdır. kinci öneri,
kelime sonundaki harfin sesli veya sessiz olu una göre karar
verilebilece idir: ngilizce’de sadece kelimelerin %28’i sesli harfle
biterken, Türkçe’de kelimelerin yakla ık %50’si sesli ile bitmektedir.
Son öneri, Türkçe kelimelerin ba langıcında ve biti inde iki sessiz
harfin yan yana gelmedi idir. ngilizce’de ise, bu durum, 26 en çok
gözlenen desen içinde 6 desende gözlenmi tir. Önerilerinde, örne in
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
174
100 kelime içerisinde %5’in üzerinde ba langıcı veya biti i iki sessiz
harf olan varsa, metnin yüksek olasılıkla ngilizce olaca ıdır.
Dalkılıç ve Dalkılıç tarafından yapılan çalı mada yer alan
önermeler, mevcut kurgular içinde n-gram esasına dayanan
çalı maların içeri i ile örtü mektedir. Zaten, özgün çalı manın
hedefindeki konu da, Türkçe’nin n-gram istatistiklerini çıkarmaktır.
Ancak, mevcut yöntemlerle birlikte de erlendirildi inde, özellikle
Cavnar ve Trenkle (1994) tarafından yapılan çalı mada kelime
sınırlarında kalınması durumu hakkında, Dunning (1994) tarafından
yapılan çalı mada, ortaya konan ele tirinin ne kadar haklı oldu u
ortaya çıkmaktadır. Dunning, çalı masında kelime sınırında
kalınmasının, çok ciddi enformasyon kaybı meydana getirmesi
ihtimalinden bahsetmektedir. Kelimelerin dizili inin de, enformasyon
ta ıyaca ı konusuna de inmektedir. Dalkılıç ve Dalkılıç’ın ikinci
önerisine bakıldı ında, yani Türkçe kelimelerin ilk ve son harfleri
arasındaki gözlenme sıklı ı ile, dil ayrımı yapılabilece i önerisine
bakılınca, kelimeden kelimeye geçi in önemi daha da netle mektedir.
Son öneride de, not edilmesi gereken bir nokta vardır. Türkçe’de en çok
gözlenen 26 sesli-sessiz harf desenleri içinde, kelime sonunda iki sessiz
bulunmayabilir, ancak, Türkçe’nin altı hecesinden biri olan, sessizsesli-sessiz-sessiz deseni, öneriyi varlı ı ile zayıflattı ı da bir gerçektir.
Dolayısı ile, bu önerme uygulamada kullanılırken söz konusu durumun
göz önünde bulundurulması gerekir. Aslen, önermenin ilk kısmını
olu turan, kelime ba ında sessiz-sessiz deseni bulunmaması, bu tür bir
ihlali içermedi inden, tek ba ına kullanılmasının dü ünülmesinde fayda
vardır: Tabii, ba langıçta ve sonda gözlenmemenin, hangi oranda aynı
kelimelere denk geldi i ile paralel büyüklükte güçlenerek. E er,
ba langıçta ve sonda gözlenmeme, tamamen farklı kelimelerde
meydana geliyorsa, her iki öneri de birlikte kullanılmalıdır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
175
9.1.2. Önerilen Yöntem
Türkçe yazılı metinlerin, çok dilli bir belge uzayından
belirlenmesi amacıyla, bu tez ile önerilen Türkçe hecelemenin (Bölüm
2) ayrımda belirleyici olaca ıdır. Önermenin biçimsel hali öyledir:
Önerme 9.1.2.1: Çok dilli bir belge uzayında, içerdi i kelimeleri
belirli bir oranın üzerinde, Türkçe alfabe ile yazılmı ve
belirlenen kurallar çerçevesinde (sesbilim özellikleri de
dahil) hecelenebilen metinler Türkçe’dir.
9.1.3. Deneysel Sonuçlar
Önermemizi, elimizde olan ngilizce üç farklı derlem ve bir
Türkçe derlem üzerinden sınadık. Derlemler, özellikleri ile birlikte,
Çizelge 9.1.3.1.’de verilmi tir.
Çizelge 9.1.3.1: Türkçe belgelerin tespitine ait deneysel sonuçlar.
Derlem
Time
Cranfield
Medalars
Türkçe
Kelime
249,493
249,824
155,411
635,158
Farklı
20,856
8,189
12,609
88,375
Hece
102,776
94,322
61,450
610,717
~Hece
146,717
155,502
93,961
24,441
Oran
0.412
0.378
0.395
0.962
Çizelgede verilen sonuçlarda, “Oran” sütunu, toplan kelimelerden
hecelenebilenlerin sayısını oran olarak göstermektedir. “Kelime”
sütunundaki sıklık de erleri sadece harf birlikleri içindir; rakamlar,
noktalama i aretleri dahil de ildir. “Farklı” sütununda ise, kelime
da arcı ının büyüklü ü, yani farklı biçime sahip kelime, harf birli i
sayısı verilmi tir. “Hece” sütununda, hecelenebilmi kelime sayısı,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
176
“~Hece” sütununda da, hecelenemeyen kelime sayısı verilmi tir.
Görüldü ü gibi, ngilizce derlemlerin üçü de yakla ık %40’ın altında
bir heceleme oranına sahipken, Türkçe derlemdeki hecelenebilme oranı
%96’dır.
Uygulamada, örne in bir metinde %70 hecelemenin üzerine
çıkılmı sa, o metin Türkçe olarak kabul edilmektedir.
9.2. Türkçe Metinlerin Normalle tirilmesi
9.2.1. Önceki Çalı malar
Hesaplamalı
dilbilim
sahasında,
genel
anlamda
metin
normalle tirme, özelde cümle sonlarının tespiti, meselesi için
geli tirilen çözümler, esas aldıkları yakla ımlar açısından iki ba lık
altında toplanabilir: kural tabanlı ve makine ö renimi (machine
learning). Kural tabanlı bir cümle sonu tespit yordamının iki yapısal
unsuru bulunmaktadır. Birinci unsur, genellikle düzenli deyim dilbilgisi
(regular expression grammar) eklinde kodlanan, elle olu turulmu
veya bir talim derleminden özümsenerek elde edilmi kurallardır. kinci
unsursa, tasarlanmı yordamın ihtiyaçlarına göre ekillendirilmi , bir
listedir. Listede, kelimeler, kısaltmalar v.b. anlamsal birlikler ve bu
anlamsal birliklere ait yordamın ihtiyaç duydu u özellikler kümesi
bulunur. Örne in, Aberdeen ve arkada ları (1995), Alembic çalı ması
için altyapı hazırlarken, 100 düzenli deyim kuralından olu mu bir
yöntem kurgulamı ve uygulamı tır. Aslen, kural tabanlı sistemlerin iki
açmazı vardır. Birincisi, düzenli deyimler eklinde en iyi kural
kümesini olu turma i i belirsizdir. Kuralları tanımlamak için bir
standart yoktur. kincisi, yordamı için olu turulan tasarımların, talim
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
177
için kullanılan derleme çok fazla ba ımlı olması, dolayısı ile, di er
derlemlere genellenememesi.
Cümle sonu tespiti için, makine ö renimi esasında geli tirilmi
pek çok yöntem bulunmaktadır. Bu çalı malara verilebilecek örnekler:
Reynar and Ratnaparki (1997) tarafından, en yüksek düzensizlik
yakla ımı esasında geli tirilmi olan; Riley (1989) tarafından, karar
a acı ile sınıflandırma esasında geli tirilmi olan; Palmer and Hearst
(1997) tarafında, yapay sinir a ları esasında geli tirilmi olandır.
Ayrıca, iki yakla ımında melezi olan, Mikheev (1997) tarafından
geli tirilmi olan yöntemin örnek verilebilece i çalı malarda vardır.
Mikheev çalı masında, önce gizli Markov zinciri dil modelini esas alan
bir yordamla sözcük türlerini tespit etmi . Sonrasında bu sözcük türü
enformasyonunu da kullanarak, en yüksek düzensizlik esasında cümle
sonu tespiti yapmı tır.
Türkçe tarafında cümle sonu tespiti çalı maları için verilebilecek
ilk örnek Tür (2000) tarafından, doktora çalı masında geli tirdi i
yöntemdir. Yöntem için, %95,66 do ruluk de eri rapor edilmi tir. Tür,
çalı masında hesaplama birimi olarak kelimeleri esas alan bir gizli
Markov zinciri dil modeli kullanmı tır. Ayrıca, kelimelere ait biçimsel
çözümlemeler, do rusal interpolasyon ile modelin olasılık da ılımına
katılmı tır. Dolayısı ile, önerilen yöntem, bir sözlük kullanmaktadır ve
biçimbirimsel analiz yapılmamı
bir derlem için yöntem
kullanılamamaktadır. Kullanılan biçimbirimsel analiz yöntemi, Oflazer
(1993) tarafından geli tirilmi olandır.
Di er çalı malar, Oflazer ve arkada ları (2003) tarafından
yapılmı olan ve Ziegenhain ve arkada ları (2003) tarafından Siemens
firması deste inde yürütülmü LC-STAR adlı bir ticari çalı mada,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
178
Türkçe için de kullanılan kural tabanlı yöntemdir (Bu projenin Türkçe
konusundaki çalı maları, Kemal Oflazer tarafından yapılmı tır.).
9.2.2. Önerilen Yöntem
Türkçe cümle sonu tespiti için, bu tezde önerilen yöntem,
“Türkçe yazılı belgelerin tespiti” için önerilen yöntemdir, yani
hecelemedir. Kullanılan yordam için, yazılı metindeki birliklerin
tespitine, yani simgele tirmeye ve birliklere ait bazı biçimsel özelliklere
(büyük/küçük harf, rakam, noktalama i areti) ihtiyaç vardır.
Önerme 9.2.2.1: Türkçe yazılmı metinde, “nokta”dan önce gelen
harf birli i heceleniyorsa, söz konusu “nokta”nın cümle
sonu olması ihtimali, cümle sonu olmaması
ihtimalinden yüksektir.
Önerme 9.2.2.1.’de verilen karar verme ekli, yöntem içinde
belirli bir yordam, olu turulmu bir kurgu içinde belirsizli in en yüksek
düzeyinde kullanılmaktadır. Dolayısı ile, önermemiz her “nokta”
gözlenen yerde kullanılarak cümle sonu tespitine gidilmemi tir. Ayrıca
geli tirilmi olan bir cümle sonu tespit yordamı içinde, belirsizli in
yüksek oldu u bir durumu çözümleme a amasında kullanılmı tır. Söz
konusu cümle sonu tespit yordamını tanımlamak için bir simge sistemi
olu turulmu tur. Öncelikle bu simge sisteminin tanıtılmaya ihtiyacı
vardır. Sonrasında, yordam simge sistemi kullanılarak verilecektir.
Cümle sonu tespit için, tez kapsamımızda kullandı ımız simge
sistemi Çizelge 9.2.2.1.’de liste halinde verilmi tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
179
Çizelge 9.2.2.1: Cümle sonu yordamını tanımlamada kullanılan simge
sistemi.
Simge
Anlamı
w
Ba langıcında küçük harf bulunan tüm harf birlikleri.
W
#
Ba langıcında büyük harf bulunan tüm harf birlikleri.
Tüm rakam birlikleri. (Gerçek sayı, tam sayılar rakamla veya yazı
ile, tarih, saat, telefon numaraları, v.b.)
T
Kesme/Tırnak (‘)
TT
Çift tırmak (“)
K
Tire (-)
V
Virgül (,)
(
Parantez açma i areti
)
Parantez kapama i areti
:
ki nokta üst üste
;
Noktalı virgül
P
Tüm noktalama i aretleri ve di er simgeler ( %, &, $, v.b.)
EOS
Cümle sonu
~EOS
Cümle sonu de il
Tanımlanabilecek tüm yazım birlikleri (w, W, #, T, TT, K, V, “(“,
“)”, P)
∞
Çizelge 9.2.2.1.’de verilen simge sistemi ile, cümle sonu tespit
yordamında kullandı ımız hesaplama birimi, bir üçlü eklinde
tanımlanabilmektedir. Yordamda kullanılan hesaplama birimi, “nokta”
ve etrafındaki iki birliktir. Örne in, [w * W] eklinde, noktadan önce
ba langıcı küçük olan bir harf birli i, noktayı (* i aret nokta için
kullanılmakta) ve noktadan sonra ba langıcında büyük harf olan bir
harf birli i, üçlü olarak temsil edilmektedir. Cümle sonu tespit
yordamının karar verme a amalarında, talim derleminde kar ıla ılan
her durum, bu biçimde üçlü eklinde cümle sonu olma veya olmama
açısından de erlendirilmektedir.
Cümle sonu tespiti için kullandı ımız yordam, simge sistemi
üzerinden tanımlanan tüm durumlar için alınabilecek üç karardan
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
180
olu maktadır, yani her durum için “cümle sonu”, “cümle sonu de il” ve
“belirsiz” eklinde bir karar vermektedir:
•
E er üçlü ile temsil edilen durum listelenenlerden biriyse,
“nokta”yı, “cümle sonu” olarak i aretle: [w*W], [w* #],
[w*P], [W*#], [W*TT], [W* ( ], [W* )], [W* K], [P*∞].
•
E er üçlü ile temsil edilen durum listelenenlerden biriyse,
“nokta”yı, “cümle sonu de il” olarak i aretle: [W*w],
[W*V], [#* w], [#*W], [#*#]
•
Di er durumlarda “belirsiz” olarak i aretle ve detaylı
incelemeye al.
Yordam ile “belirsiz” olarak i aretlenen durumlar çalı mamızın
ve önermemizin hedefinde bulunmaktadır. Dolayısı ile, deneysel
çalı ma ile önermemiz bu “belirsiz” durumlar için sınamayı
içermektedir.
9.2.3. Deneysel Sonuçlar
Tanımlanan yordamın, karar verme a amalarında kullanılan üçlü
birliklerin her durumu için Çizelge 9.2.3.1.’de özellikleri verilen
deneysel bir derlem kullanılmı tır. Aslen, bu deneysel derlem BilTD
derleminde seçilmi bir bölümdür ve cümle sonları kontrol edilmi ve
bulunan hatalar elle düzeltilmi tir.
Çizelge 9.2.3.1: Cümle sonu tespiti için kullanılan Türkçe derlemin
belirli özellikleri.
Nokta sayısı
Birlik ~EOS EOS Toplam
168,375 674 12,026 12,700
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
181
Deneysel derlemde, her nokta cümle sonu olup, olmaması
açısından belirlenmi ve noktanın önündeki ve ardındaki birlikler
belirlenerek karar vermede kullanılacak her bir durum tespit edilmi tir.
Yapılan çalı manın sonuçları Çizelge 9.2.3.2.’de tablo halinde
verilmi tir. Çizelgeden [P * ∞] üçlüsü çıkarılmı tır. Bunun sebebi, bu
üçlü birli i tüm durumlarının, yani gözlenen 495 durumun hepsinin
cümle sonu olmasıdır.
Deneysel derlemden çıkartılan durumları, belirsizli i en yüksek
olandan dü ü e do ru inceleyerek, cümle sonu tespiti yordamımızda,
“belirsiz” olarak i aretlenecek üçlü birlikleri listelemi olaca ız.
Sonrasında, her belirsiz durumun çözümü verilerek yordamın
tanımlaması tamamlanacaktır.
Çizelge 9.2.3.2: Cümle sonu tespit yordamında kullanılan ve üçlü
birlikle temsil edilen durumlar için Türkçe derlemden
çıkartılan istatistikler.
Durum
EOS
~EOS
Durum
EOS ~EOS
Durum
EOS ~EOS
[w * w]
8
10
[W * w]
0
10
[# * w]
0
267
[w * W]
9395
1
[W * W]
739
183
[# * W]
36
106
[w * #]
320
2
[W * #]
44
1
[# * #]
1
27
[w * T]
41
1
[W * T]
3
5
[# * T]
0
1
[w * TT]
601
0
[W * TT]
41
1
[# * TT]
0
16
[w * ( ]
57
0
[W * ( ]
9
0
[# * ( ]
0
1
[w * ) ]
19
0
[W * ) ]
3
0
[# * ) ]
1
3
[w * K]
174
0
[W * K ]
38
0
[# * K]
0
8
[ w*/]
1
0
[W * V]
0
3
[# * V]
0
28
Toplam
10616
14
877
203
38
457
Deneysel derlemde kar ıla ılan durumların, cümle sonu olu
açısından belirsizli i en yüksek olandan, en dü ük olana do ru
sıralanmı
eklideki öyledir:
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
182
1. [w*w]: ba langıcında küçük harf olan bir harf birli i, nokta ve
ba langıcından yine küçük harf olan bir harf birli i. Bu sınıftaki
durumlar, gözlenme sıklı ı açısından az olmasına ra men,
derlemimizde oransal olarak en büyük belirsizli e sahip olandır. Bu
durumun tamamını ~EOS, yani “cümle sonu de il” olarak
i aretlemek en uygun karar olacaktır. Çünkü, kar ıla ılmı 10 EOS
durumunun tamamı, :“… yapıldı. c-) Ba kanlıklar ….” biçiminde
madde imleridir. Ayrıca, madde imi belirleme meselesi, rahatlıkla
simgele tirmeye dahil edilip halledilebilecek bir konudur. Dolayısı
ile, bu belirsizlik cümle sonu tespit a amasına da dahil
olmayacaktır.
2. [W*W]: ba langıcında büyük harf olan bir harf birli i, nokta ve
ba langıcından yine büyük harf olan bir harf birli i. Bu sınıftaki
durumlar, gözlenme sıklı ı açısında, belirsiz durumlar içerisinde en
yüksek de ere sahip olandır. Bu durum genellikle unvan (“Prof.
Dr. Mustafa …”) ve özel isim kısaltmaları (“ … küçük A. H. yalnız
…”) gibi yazım biçimleri içinde gözlenmektedir.
3. [#*W]: noktadan önce bir rakam birli i, nokta ve sonrasında
ba langıcı büyük harf olan bir harf birli i. Bu sınıftaki durumlar da,
yüksek gözlenme sıklı ına sahiptir, ancak ~EOS, yani cümle sonu
olmama, EOS, yani cümle sonu olmasına göre daha baskındır.
Cümle sonu olmadı ı durumlar, genellikle “… 2. Tümen ...” gibi
“inci” anlamında, sıralama amacıyla kullanılmaktadır. Cümle sonu
oldu u durumlar da, “… ölenlerin sayısı en az 28. Fransa’da 10
…” örne inde oldu u gibi sayısal de er belirtmektedir.
4. [#*P]: noktadan önce bir rakam birli i, nokta ve sonrasında bir
noktalama i areti. Bu durumun baskın ekli, “… 2.’lik için
mücadele …” örne inde oldu u gibi, ~EOS, yani cümle sonu
olmamadır. Ancak, “… (…kitabı sf. 27.). …” örne inde oldu u
gibi, EOS, yani cümle sonu olması da söz konusudur. Aslen, cümle
sonu olu durumu, toplam 50 durum içinde, 1 kere gözlenmektedir.
Dolayısı ile, bu durumun tamamını, “cümle sonu de il” eklinde
kabul etmek, hesaplama açısında daha avantajlıdır. Derlem
açısından, bu kararın toplamda ortaya çıkardı ı hata, 1/12700 gibi
çok küçük bir de erdir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
183
5. [W * TT] and [w * TT]: noktandan önce ba langıcı küçük harf veya
büyük harf olan bir harf birli i, nokta ve sonrasında çift tırnak. Bu
duruma uygun örneklerin, derlemde baskın olan gözlem ekil EOS,
yani cümle sonu olmadır. Bilindi i gibi, çift tırnak, genellikler
yazıyı hazırlayan yazarın, ba ka yazarlardan alıntıların ve
konu maların aktarılması için kullanılır. Ancak, günümüz yazım
eklinde, özellikle gazete ve dergi haberlerinde, çift tırna ın “…
yerine “Gelme”nin …” örne indeki gibi, kesme i aretini de kar ılar
halde kullanıldı ı görülmektedir. Bu durum, ayrıca dikkat edilmesi
gerek bir meseledir. Çünkü, kural de il, istisnanın
yaygınla masıdır.
Derlemden tespit edilen ve yukarıda listelenen belirsiz durumlar,
toplam 310 belirsiz durumun, 303’ünü kapsar.
Cümle sonu tespit yordamını ve önermemizi de erlendirirken,
yordam tarafından “belirsiz” olarak i aretlenmi olan 310 durumu da,
EOS, yani cümle sonu olarak kabul edersek, yalın olarak ba arım
%94,69 do ruluk de erine sahip olur. Bu de er, yalın olarak yordam
kullanıldı ında elde edilecek e ik do ruluk de eridir. Amacımız,
heceleme esasına dayanan önermemizle, do rulu u ne kadar
arttırabilece imizi tespit etmektir. Çözümlerimizle ula tı ımız en
yüksek ba arım de eri %96,24’dir.
[W * W] belirsizli inin çözümü. E er bu durum için gözlenen
739 örnek, e ik de erin kabullenmesindeki gibi EOS, yani cümle sonu
olarak kabul edilirse, geriye kalan 183 ~EOS gözlemi hata olacaktır.
Dolayısı ile, durumun kendi içinde %19,84 (183/922) de erinde bir
hata, derlem genelinde de %1,44 (183/12700) de erinde hata meydana
gelecektir. Yani, derlem genelinde, e ik ba arımın ötesini olu turan
%5,31 de erindeki hatanın, 1,44’ü
kaynaklanmaktadır. Derlemde yapılan
sadece bu durumdan
incelemede, gözlemlerin
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
184
genellikle, kısaltmalar v.b. örneklerden olu tu unu belirtmi tik.
Heceleme esasındaki önermemiz ile bu durumda meydana getirdi imiz
iyile tirme, Çizelge 9.2.3.3.’de tablo biçiminde verilmi tir. lk
de erlendirmede, heceleme ile bu durum için toplam hata oranı, kendi
içinde %6,8 de erine inmi tir (27+36/922), dolayısı ile özgün de er
olan %19,84 de erinden, yakla ık %65 indirgemeye kar ılık
gelmektedir. Söz konusu ba arım artı ı ile, derleme yansıyan hata
oranında, yani %1,44 de erinde da, %0,5 bir indirgeme meydana
gelmektedir. Ayrıca, heceleme ile olu mu olan “yanlı alarm”
durumları detaylı olarak incelendi inde, 27 yanlı alarmdan, 18
tanesinin tek sesli harften olu an heceler oldu u tespit edilmi tir.
Ancak, Türkçe’de tek sesli harften olu an kelime sadece, “o” ve
nadiren “a” (ünlem edatı) kelimeleridir. Dolayısı ile, yanlı alarmlardan
18 tanesi de kontrol altına alındı ında, kendi içinde hata oranı %4,8
de erine inmekte, derlem genelinde yaratılan toplam hata de erinden,
yakla ık %0,35 dü ü meydana gelmektedir. Özetle, heceleme
esasındaki önermemizle, toplam e ik ba arım de eri, %94,69’den
%95,78’e çıkmaktadır (94,69 + 1,09).
Çizelge 9.2.3.3: Cümle sonu tespitinde, [W*W] durumu için, heceleme
önermesi ile meydana gelen hata oranları.
EOS
~EOS
Hece
~Hece
Toplam
703
36 (hata)
739
27 (yanlı alarm)
156
183
[# * W] belirsizli inin çözümü. E er bu durum için gözlenen 36
örnek, e ik de erin kabullenmesindeki gibi EOS, yani cümle sonu
olarak kabul edilirse, geriye kalan 106 ~EOS gözlemi hata olacaktır.
Derleme yansıyan toplam 5,31 puanlık hatanın, 0,83 (106/12700) puanı
bu durumdan kaynaklanır. Dolayısı ilk yapılacak ey, durumu ~EOS
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
185
olarak almaktır. Böylece, derleme yansıyan hata, puan olarak 0,28’e
inecektir. Genel ba arım, %95,78’den, %96,06’ya çıkacaktır (0,830,28). Bu 36 hatadan 5’i, “… 3.’lük Aydın, …” örne indeki gibi, içinde
kesme ile ayrılmı
harf birli i içerenlerdir. Kullandı ımız
simgele tirme yönteminde, “3.’lük” gibi karma birlikler rakam birli i
olarak belirlenmektedir. Cümle sonu tespitinde kullanılan yordam da,
noktayı aramaktadır. Nokta birinci birlik içinde kalmaktadır ancak, hem
bu durum hem de [#*T] durumu tetiklenmektedir. Bu hata,
simgele tirme yordamının genele hitap etmesinden, cümle sonu tespiti
için uyarlanmamasından kaynaklanır. Sadece cümle sonu tespitinde
kullanılacak bir simgele tirme tasarlanarak hata olu madan da
önlenebilir. Ayrıca 5’i de, “… suare 18:30. Harbiye …” örne indeki
gibi, içinde iki nokta üst üste i areti bulunduranlardır. Geriye kalan 26
hata ise, “… Zafer yılı : 1996. Fenerbahçe …” ve “… kazanan ilk üç
numara 7 4 6. …” gibi örnekleri olanlarla, “ Tel: 0312 555 55 55. …”
örne indeki gibi telefon numarası içeren durumlardan meydana
gelmektedir. lk 10 hata yaratan EOS, aslen içerdikleri enformasyon ile,
belirsizli e yol açmadan EOS olarak belirlenebilir. Dolayısı ile,
toplamda geriye hata olan ve belirsiz olarak i aretlenmi 26 durum
kalır. Ancak, bu durumlarda detaylı incelendi inde, 13 durumun
tamamında, sayı, numara, rakam, yıl, sene, tarih kelimelerinden biri
kullanılmı tır . Dolayısı ile, geriye ~EOS olarak belirlenmi 23, belirsiz
olan 13 durum kalır. Özetle, genel ba arım %94,69’dan %96,24’e çıkar
(0,28 – 0,18).
9.3. Gövdeleme
Gövdeleme i leminin tanımı öyledir:
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
186
“Aynı gövdeye sahip tüm kelimelerin, genel olarak, yapım ve çekim
eklerinin atılması ile, ortak bir biçime getirilmesi için kullanılan bir
yordamdır.”
(Lovins, 1968)
Bilgi geri-getirim sahasında ve hesaplamalı dilbilim sahasında
ngilizce a ırlıklı olmak üzere, analitik diller için pek çok gövdeleme
yöntemi geli tirilmi tir. Analitik diller, biçimbirimsel üretkenlik
açısından, Türkçe gibi biti ken dillere nazaran daha takip edilebilir
niteliktedir. Ek sistemleri, örne in Türkçe’de oldu u gibi, kelimelere
ait dilbilgisi özelliklerinin tamamını kar ılamak üzere kullanılmaz.
Sadece belirli ve basit dilbilgisi özellikleri için kullanılır (bazı
kelimeler için ön-ek ile olumlu olumsuz hal üretme, kelimelerin ço ul
hallerini yapma v.b.). Dolayısı ile, gövdeleme i lemi, nispeten kolay bir
i tir. Tüm gövdeleri tespit edebilmek için sadece 1200 biçimbirimsel
de i ikli i üretebilen bir düzenli deyim sistemi kullanımı bile
yetebilmektedir (Porter, 1980).
Türkçe gibi biti ken dillerde, kelime üretimi ve kelimelerin
dilbilgisi özellikleri ek sistemi kullanılarak sa lanır. Türkçe’de yapım
ve çekim eklerinin kurallarına ba lı kalarak kullanımı ile, üretilebilecek
anlamlı gövde sayısı, sadece tek bir kelime için dahi milyonun üzerinde
olabilmektedir (Hankamer, 1984). Dolayısı ile, hesaplamalı dilbilim
sahasında kullanılacak, Türkçe için bir gövdeleme yordamı, analitik
dillerde oldu u kadar basit ekilde kurgulanamaz. Ancak, bilgi gerigetirim sahasında, gövdeleme yordamından beklenen, hesaplamalı
dilbilim sahasındaki ile bire bir örtü mez.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
187
9.3.1. Önceki Çalı malar
Bilgi geri-getirim sahasında, ngilizce gibi analitik diller ve
Fransızca, Almaca gibi orta-Avrupa dilleri için kullanılan gövdeleme
yöntemleri 4 ba lık altında toplanabilir: tablodan arama (table lookup),
takibin de i imi (successor variety), n-gram ve ek-atma.
Tablodan bakma yöntemlerinde, adından da anla ılaca ı gibi,
kelimelerin yazım biçimleri ve yazım biçimlerine ait gövdeler bir tablo
halinde tutulur. Yazımda kar ıla ılan harf birli i bu tabloda yazım
biçimleri içinden aranır, bulunursa, kar ılık gelen gövde seçilir. Ancak,
pratikte ne analitik diller için, ne de biti ken diller için böyle genel bir
tablo yoktur. Sadece, kısıtlı konu ba lıkları için böyle bir tablo
olu turulabilir. Ayrıca, depolama da mesele yaratan bir konudur.
Takibin de i imi yönteminde, kelime veya biçimbirim
sınırlarının tespiti için, sesbirimlerinin (Türkçe için harfler olmakta)
büyük derlemlerden elde edilen deneysel da ılımlarından yararlanılır.
Belirli bir kelime için, takibin de i imi kelime ba ından sonuna do ru
uygulanır, yani Türkçe’de ba tan sonu do ru her seferinde bir harf
ilerlenir. Bir kelime için takibin de i iminin de eri, hesaba daha fazla
harf katıldıkça, yani ba tan sona ilerlendikçe azalır.
Bir n-gram esaslı gövdeleme yönteminde, sorgu ve belge
birlikleri arasındaki benzerlik ölçülür. Boyu m karakterden olu an bir
birlikten, m-n+1 adet n-gram çıkar. Benzerli i ölçülecek bir birlik çifti
için Dice katsayısı (Dice’s coefficient : Denklem 9.3.1.1.) hesaplanır ve
n-gramların kar ılıklı de erleri bir matris haline getirilir. Daha sonra,
her birlik çifti için olu turulan matrisler kullanılarak, terimler tekil-ba
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
188
kümeleme yöntemi kullanılarak öbekler haline getirilirler, dolayısı ile
her öbek bir gövde, yöntemde bir anlamda gövdeleme olur.
S = 2C /( A + B )
(9.3.1.1)
Denklem 9.3.1.1.’de, C terimi, iki birlik tarafından ortak olarak
içerilen farklı n-gram sayısını temsil eder. A ve B terimleri de,
kar ıla tırılan iki birlikten her birinde içerilen farklı n-gram sayılarını
temsil eder.
Ek atma yöntemleri, yine adında da anla ılaca ı gibi, kelimelerin
yazıda geçen biçimlerinden, ön-eklerin ve son-eklerin atılması ile
kelime gövdesini olu tururlar. Porter (1980) tarafından kural tabanlı
olarak geli tirilen yordam, bu sınıftaki gövdeleme yöntemlerine güzel
bir örnektir.
Türkçe için geli tirilmi
olan birkaç gövdeleme yöntemi
bulunmaktadır ve gövdeleme hem hesaplamalı dilbilim hem de bilgi
geri-getirim sahasında çalı ılmı bir konu olarak, kelime dilbilgisi
özelikleri içerisinde en çok incelenen konu olmu tur. Bunun haklı
sebepleri vardır. Gövdeleme bilgi geri-getirim sahasında bir çok
çalı ma ile geri-getirim ba arımını tutarlı ekilde arttırıcı bir unsur
olarak rapor edilmi tir. Ayrıca, bilgisayar ortamında kelimelerin yazım
ekillerinin do rudan depolanması da, yer açısından oldukça maliyetli
bir durum meydana getirmektedir.
Türkçe için geli tirilmi
olan ilk gövdeleme yöntemi, L-M
(Longest Match) veya en uzun e le me adıyla Kut ve arkada ları
(1995) tarafından yapılan çalı mada ortaya konmu tur. Yöntemde,
kelime gövdelerinin ve olası biçimlerinin yer aldı ı bir sözlük
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
189
bulunmaktadır. Belge ve sorgulardaki birlikler bu sözlükte yer alan
kelimelerle harf esasında ba tan itibaren e le tirilmekte ve en uzun
e le menin yakalandı ı kelime, birli in gövdesi olarak alınmaktadır.
kinci yöntem, Solak ve Can (1994) tarafından, gövdeleme
yapmanın, bilgi geri-getirimi üzerindeki ba arım etkilerinin
ölçülmesine dair bir çalı mada ortaya konandır. A-F adıyla anılan
yöntemde, güncel kullanımda olan Türkçe gövdelerin ve her gövde
için, gövde üretme yordamını destekleyen 64 özelli in içerildi i bir
sözlük kullanılmı tır. Belge ve sorgudaki bir birlik için, her seferinde
ba tan bir harf hesaba katılarak sa a do ru ilerlerken, sözlükten
e le tirme yapılmaktadır. E er e le en bir kelime kökü bulunursa, olası
gövdeleri türetilmekte ve birlikle tam örtü en bir türeyi olması
halinde, söz konusu türetim, birlik için olası bir gövde olarak
belirlenmektedir. Bu yöntemle, bir birlik için olası birkaç gövde
belirlenebilmektedir. Çalı mada, bir Türkçe birli in, yani bir kelimenin
yazımdaki biçimi için ortalama 1,2 adet gövde oldu u bildirilmi tir
(90.912 farklı birlik için, 111.092 gövde üretilmi tir). Solak ve Can
tarafından geli tirilen bu gövdeleme yöntemi, aslen Oflazer (1993)
tarafından geli tirilmi olan biçimbirimsel analiz yordamının, bilgi
geri-getirim sahasında kullanılabilecek bir uyarlamasıdır. Aynı kural
kümesi, iki-seviyeli dil modeli yerine, daha hızlı çalı acak ekilde
tasarlanmı tır.
Türkçe için verece imiz son yöntem, Sever ve Bitirim (2003),
tarafından geli tirilmi olan FindStem adlı gövdeleme yordamıdır. Bu
yöntem üç alt yordamdan meydana getirilmi tir: Kökün bulunması,
biçimbirimsel analiz ve gövdenin belirlenmesi. Yordamlara destek
olarak, güncel Türkçe kelime kökleri, kelime köklerine ait
biçimbirimsel analizde kullanılacak özelikler, kelimenin olası sözcük
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
190
türleri ve kelime türetme için gerekli dizim kurallarının içerildi i bir
sözlük de olu turulmu tur.
FindStem
yönteminin,
kökün
bulunması
alt
yordamında,
incelenen birlik için olası tüm kelime kökleri tespit edilmektedir. Olası
kelime kökleri bulunurken, sözlükte kodlanmı olan biçimbirimsel
özellikler de (son harf de i imi “ara-arıyor”; sondaki sedasız sessizin
sedalıla ması “kitap-kitabı”; orta hece seslisinin dü mesi “o ul
o lum”) hesaba katılarak kökler belirlenmektedir. Biçimbirimsel analiz
alt yordamında, yapım ekleri ve çekim ekleri ayrı olarak ele alınmakta
ve incelenmektedir. Yapım ekleri kendi içinde, fiil kökünden türemi
isim gövdeleri ve isim kökünden türemi isim gövdeleri ayrımı
gözetilerek atılmaktadır. Gövdenin tespiti alt yordamında, e er önceki
iki alt yordam tarafından tespit edilebilmi bir gövde veya kelime kökü
yoksa, bu a amada birlik oldu u gibi bırakılmakta ve bir kayıt
dosyasına konmaktadır. Çalı mada bu kayıt dosyasına atılmı olan
kelime daha sonra incelenip, sözlü e eklendi i belirtilmektedir. Kayıt
dosyasına atılan birliklerin ço unlu unun, yabancı kelimeler oldu u ve
Türkçe’ye uyarlanarak alındı ı belirtilmi tir.
Sever ve Bitirim (2003), FindStem yöntemini hem L-M hem de
A-F yöntemi ile kar ıla tırmı lardır. Yöntem, gövdeleme olarak da,
bilgi geri-getirim ba arımına etki olarak iki yöntemden üstün sonuçlar
vermi tir. Yazarların çalı malarında belirttikleri husus, Türkçe gibi
biti ken dillerde, biçimbirimsel analiz yapılmadan gövdeleme
yapmanın hatalara sebep oldu udur. Örnek olarak “edebilecek”
birli inin, olası kelime gövdelerinin “edebi”, “edep” ve “ede” eklinde
oldu u, biçimbirimsel analiz yapılmadan, en uzun e le me fikri
esasında gerçek gövdenin tespit edilemeyece i belirtilmi tir. Ayrıca,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
191
sözlük kullanmanın da gereklili i, lehte fikirler sunularak üzerinde
durulmu bir meseledir.
9.3.2. Önerilen Yöntem
Bilgi geri-getirim için uyarlanacak her dilbilimsel yöntem için
olması gerekti ini söyledi imiz artlar, yani sözlüksüz çalı ma ve
hesaplama karma ıklı ının dü ürülmesi, önerdi imiz gövdeleme
yöntemi için de geçerlidir. Yöntem kurgusal olarak, istatistik/olasılık
esasına dayanmaktadır. Yöntemi vermeden önce, kullanılacak simge
sisteminin tanıtılmaya ihtiyacı vardır. Dolayısı ile, tanıtımımız simge
sistemi ile ba lamaktadır.
9.3.2.1 Simge Sistemi
Belge veya sorgudaki, yazım biçimi olarak belirli bir birlik,
yöntem anlatımı içinde, s n = h1h2 hn eklinde bir harf silsilesi olarak
temsil edilmektedir. Temsilde, her harfi belirten hi ( i = 1,2, , n )
simgesi, tanımlanmı olan bir Türkçe alfabenin (A) elemanıdır ve n
indisi kelimenin harf olarak uzunlu unun sayısal de erine e ittir.
Yöntemde kullanılmak üzere tanımlanmı Türkçe alfabe, geçerli
alfabenin 29 harfi ve ek olarak bir de “_” (alt tire, kelime sonunu
belirtmek için, yani bo luk yerine kullanılmaktadır) simgesini
içermektedir:
A = {a, b, c, ç, d , e, f , g , , h, ı, i , j , k , l , m, n, o, ö, p, r , s, , t , u , ü, v, y, z, ' _'}
(9.3.2.1.1)
Birlik temsili için kullandı ımız, s n harf silsilesinin, herhangi bir
kısmi harf silsilesi de, ( 1 ≤ i ≤ j ≤ n ), s n [i : j ] = hi hi +1 h j ,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
192
s n [: j ] = h1 h2
h j ve s n [i :] = hi
hn
ekilde üç biçimde temsil
edilebilmektedir. Bu kısmi harf silsileleri içerisinde, s n [i : i + 1] = hi hi +1
ile temsil edilen ve iki harften olu an çift (2-gram) hesaplama birimi
olarak kullanıldı ından dolayı, ( h1 , h2 ) i eklinde özel bir biçimsel
temsile daha sahiptir ( i = 1,2,..., n ). Kullanılan indis, i,
h1 = hi , h2 = hi +1 ∈ A olacak ekilde, çifte ait ilk harfin gerçek silsile
içindeki sıra numarasıdır. i = n durumunda, çiftin son harfi için sıra
numarası, görüldü ü gibi birli in boyunu a maktadır. Bu durumda, çift,
ilk harfi silsilenin son harfi ve ikinci harfi “_” olarak alınıp,
( hn , ' _' ) i = n eklinde meydana getirilmektedir.
Belirli bir harf çifti için, ( h1 , h2 ) j (1 ≤ j ≤ n max , n max simgesi
Türkçe kelimelerin olası en uzun harf sayısıdır14.) bu çiftin verilen bir
birlik temsili içinde bulundu unu, yani bu iki harfi aynı sıralama ile
içerdi ini belirtmek üzere, (h1 , h2 ) j ∈ s n ifadesi kullanılacaktır. Bu
ifade, (h1 , h2 ) i çifti ile belirtilen ve s n birlik temsilinde, i
pozisyonunda bulunan belirli bir çift için, ( h1 , h2 ) i = (h1 , h2 ) j
durumunu ancak i=j ise sa lanacaktır. Yani, hem harfler e le ecek hem
de j indisi silsile içindeki yeri de belirtecek. Harfler silsile içinde
e le iyor olsa bile, j indisi ile belirtilen yerde de illerse, ( h1 , h2 ) j çifti
sn birlik temsilinin elemanı olarak sayılmayacaktır ( (h1 , h2 ) j ∉ s n ).
Son olarak, g m = s n [: m] ve em+1 = sn [m + 1 :] eklinde iki temsil
daha tanımlayarak simge sistemimizi belirlemi oluyoruz ( 1 ≤ m ≤ n ).
Bu iki kısmi temsil ile, belirli bir birli i, ardı ık iki parçadan olu an bir
harf silsileleri çifti eklinde, yani s nm = ( g m , em +1 ) biçiminde de temsil
edebilmek için tanımlıyoruz.
14
Deneysel derlemimizde, rastlanan en uzun birlik 23 harften olu maktadır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
193
9.3.2.2 Sıralı Çiftler ve Örneklem Kümesi
E er L kümesini, i = 1,2,..., n max olacak ekilde, Türkçe yazılı
birliklerde gözlemlenebilecek tüm olası (h1 , h2 ) i sıralı çiftlerinin
toplulu u olarak tanımlarsak; L kümesi, ( h1 , h2 ) i sıralı çiftleri için
örneklem kümesi olur ve Denklem 9.3.2.2.1.’de verildi i
biçimsel olarak temsil edilebilir.
L = { (h1 , h2 )i h1 , h2 ∈
ekilde
∧ 1 ≤ i ≤ nmax }
Ayrıca, Gk , E k , Tk ⊂ L olacak ekilde, Gk , E k ve Tk
kümelerini, (h1 , h2 ) i çiftleri için olay kümesi olarak kabul edersek
( 1 ≤ k ≤ n max ).
Gk = { (h1 , h2 ) i
i = k ∧ (h1 , h2 )i ∈ g m ∧ 1 ≤ m ≤ nmax }
Ek = {(h1 , h2 ) i i = k ∧ (h1 , h2 ) i ∈ em ∧ 1 ≤ m ≤ nmax }
i = k = m;
Tk = (h1 , h2 ) i h1 = g m [m : m] ∧ h2 = em+1[m + 1 : m + 1] ;
1 ≤ i ≤ nmax
G k olay kümesi, gövde içinde gözlenen çiftleri; E k olay kümesi,
ek silsilesi içerisinde gözlenen çiftleri; Tk olay kümesi de, bir birlik
içerisinde, gövde ve ek birle iminde yer alan çiftleri, yani birinci harfi
gövde kısmının sonunda kalan harfi, ikinci harfi de ek kısmının
ba langıcında olan çiftleri içermektedir.
Tanımlanan, L örneklem kümesi ve G k , E k ve Tk olay kümeleri
sayesinde, verilen bir s n = h1 h2
hn birlik temsilinde, i = 1,2,..., n
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
194
sırasındaki herhangi bir ( h1 , h2 ) i çift için, gövdenin bir parçası olma
olasılı ı, ek sisteminin bir parçası olma olasılı ı ve gövde ile ek
sisteminin geçi inde olma olasılı ı hesaplanabilir.
Pr (s n [i : i + 1]∈ Gi ) = Pr (( h1 , h2 ) i ∈ Gi ) = PG (( h1 , h2 ) i )
Pr(s n [i : i + 1]∈ E i ) = Pr ((h1 , h2 ) i ∈ Ei ) = PE ((h1 , h2 ) i )
Pr (s n [i : i + 1] ∈ Ti ) = Pr ((h1 , h2 ) i ∈ Ti ) = PT (( h1 , h2 ) i )
(9.3.2.2.1)
(9.3.2.2.2)
(9.3.2.2.3)
9.3.2.3 Talim Derleminden Olasılıkların Tespiti
Denklem 9.3.2.2.1, .2, ve 3.’de belirtilen olasılıkların deneysel
de erlerinin bulunabilmesi için kullanılacak hesaplama yöntemleri,
sırasıyla, Denklem 9.3.2.3.1, .2, ve 3.’de verilmi tir.
PG (( h1 , h2 ) i ) = f g ,i * w g ,i / N
(9.3.2.3.1)
PE ((h1 , h2 ) i ) = f e,i * we,i / N
(9.3.2.3.2)
PT ((h1 , h2 ) i ) = f t ,i * wt ,i / N
Hesaplama için verilen denklemlerde,
(9.3.2.3.3)
f g ,i ,
f e,i , ve
f t ,i
simgeleri sırasıyla, (h1 , h2 ) i çiftinin i sırasında, gövde içinde görülme
sıklı ı, ek silsilesi içinde görülme sıklı ı ve gövde-ek birle iminde
görülmesi sıklı ıdır. w g ,i , we,i , and wt ,i simgeleri ise, i sırası için
f g ,i , f e,i , ve f t ,i görülme sıklıklarına verilecek, 0 ile 1 arasında
a ırlık de erleridir. A ırlık de erleri, her (h1 , h2 ) i çifti için, toplamı 1
edecek ekilde tespit edilmektedir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
195
9.3.2.4 Olasılık Esasında Gövdeleme Yordamı
Denklem 9.3.2.2.1, .2, ve 3. ile, verilen bir s n = h1h2
hn birlik
temsili için olası kelime gövdeleri Önerme 9.3.2.3.1.’de verildi i ekli
ile tespit edilebilir.
Önerme 9.3.2.3.1: E er, verilen bir s n = h1h2 hn , birlik temsili
için, 1 ≤ m ≤ n sırasında, belirli bir 0 ≤ α ≤ 1 sabiti için,
PE ((h1 , h2 ) m ) > PG ((h1 , h2 ) m ) ve PT ((h1 , h2 ) m −1 ) ≥ α
s nm −1 = ( g m −1 , em )
ardı ık silsile çifti temsili içindeki, g m −1 kısmi harf
birli i, s n = h1h2 hn birli inin, seçilen α sabit
de erindeki olası gövdesi olacaktır.
artı sa lanıyorsa; aynı birli in
Önerme, 0 ≤ α ≤ 1 parametresi ile ayarlanabilir, bir ba ka
söyleyi le uyum sa layabilir (adaptive) bir gövdeleme yöntemi tarif
etmektedir. Örne in, belirli bir bilgi geri-getirim sisteminin hedef aldı ı
belge uzayı için, en uygun 0 ≤ α ≤ 1 parametre de eri, ba arımın en
yüksek oldu u noktanın talimle elde edilmesi ile belirlenebilir. Ayrıca,
sorgu geri-beslemesinde kullanıcının alaka ile ilgili ba arım geribildirimlerine göre de i en bir parametre de eri saptamasına da
gidilebilir.
9.3.3. Deneysel Sonuçlar
Gövdeleme için önerdi imiz kurgunun deneysel sınamalarında,
talim ve test derlemleri için BilTD derleminden farklı iki parça
alınmı tır. BilTD derleminden alınan talim ve test derlemlerinin
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
196
özellikleri, ve yöntemin genel ba arımı Çizelge 9.3.3.1.’de tablo
halinde gösterilmektedir.
Çizelge 9.3.3.1: Gövdeleme yöntemi sınamalarında kullanılan Talim ve
Test derlemi özellikleri.
Derlem
Talim
Birlik
149,189
Farklı Bir.
36,902
Gövde
10,568
Bilinmeyen
*
Üretilen
*
Çift Say.
5,648
Ba arım(%)
*
Test
148,486
36,563
10,253
4,102
9828
*
95.8
Çizelgeden de görülebilece i gibi, talim derleminin boyutu
149.189 harf birli i, test derleminin boyutu da 148.486 harf birli idir.
“Farklı Bir.” sütununda, farklı yazım biçimine sahip harf birli i sayısı;
“Gövde” sütununda, derlem içinde gözlenen farklı yazım biçimlerine
sahip gövde sayıları; “Bilinmeyen” sütununda, test derleminde bulunan,
fakat talim derleminde olmayan farklı gövde sayısı; “Üretilen”
sütununda, test derleminin gövdelerinden, önerilen yöntem ile
üretilebilmi lerin sayısı; “Çift Say.” sütununda, talim derlemindeki harf
birliklerinden elde edilen, farklı biçim ve de i ik sıralı, harf çiftleri
sayısı; “Ba arım” sütununda da, önerilen yöntemin gövdeleri
üretebilme do rulu u, yani yordamın ba arımı oransal olarak
verilmi tir (%95,8).
Derlemlerde, BilTD derlemi biçimbirim ve söz-dizim analizine
sahip oldu u için gövdeleri bellidir. Ancak, BilTD derlemi otomatik
olarak üretildi i için, gövde ve eklerde görülen hatalar elle
düzeltilmi tir. Test derlemindeki 36.563 birlik, 10.253 farklı gövdeden
türetilmi tir. Dolayısı ile, gövdeleme ile bu derlem üzerinde
yakalanabilecek sıkı tırma oranı %71’dir. Bunun anlamı, bir Türkçe,
bilgi geri-getirim sistemi için indeks terim listesinin %71 oranında
küçültülmesidir. Söz konusu sıkı tırma oranı, gövdeleme ile test
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
197
derlemi için ula ılabilecek üst sınır de erdir. Önerilen yöntemle, 10.253
gövdeden, 9.828 tanesi do ru ekilde üretilebilmi , 1.154 birlik için
üretilen gövdelerden hiçbiri gerçek gövde ile e le memi tir, yani 425
gövde bulunamamı tır. Dolayısı ile, önerilen yöntemin sıkı tırma oranı
%69 de erinde kalmı tır ((9828+1154)/36563).
Önerilen yöntemde, uyum sabiti α , 0 ile 1 aralı ında bir gerçek
sayıdır. Bir sıralı harf çiftinin, gövde ile ek geçi inde olma olasılı ı için
alt sınır de er belirlemek için kullanılmaktadır. Dolayısı ile, geçi
olasılı ının en yüksek de erine e itlenirse, tüm birlikler hiçbir
bölünmeye u ramadan, bütün halde gövde olarak üretilirler. E er, en
dü ük geçi olasılı ının altında bir de ere, örne in sıfıra (0) e itlenirse,
her birlik için, önermenin ilk artının da sa landı ı olası tüm geçi ler,
gövde olma için yeterli görülüp, en yüksek derecede bölümleme ile
üretim yapacaktır. Bu iki uç nokta arasında, yöntemin bir harf birli i
için üretebilece i olası tüm gövdeler, α sabitinin sıfıra e itlendi i
durumdaki üretimi ile kapsanmaktadır. Fakat, birlik ba ına üretilen
ortalama gövde sayısının da en yüksek de erine sahiptir. Sabit
büyüdükçe, ortalama dü mekte, sabitin, geçi olasılı ının en yüksek
de erine e itlenmesi ile, ortalama üretilen gövde sayısı bire (1) e it
olmaktadır, yani birli i aynen gövde olarak vermektedir.
Sınama için, α
derlemindeki
birlikler
sabiti sıfıra e itlenmi
için
üretebilece i
ve yöntemin, test
tüm
olası
gövdeler
de erlendirmeye alınmı tır. Yöntem, test derleminde bulunan 36.563
harf birli i için, 72.967 olası gövde üretmi tir, yani her birlik için
ortalama 2 gövde üretilmi tir. Türkçe için, ek terkip sabiti 2,86 (index
of synthesis) olarak verilmi tir (Sever ve Bitirim, 2003). Ek terkibi, bir
dilde, kelimelere getirilen ortalama ek sayısıdır. Yöntemin bu de erden
daha az sayıda olası gövde üretmesi de, kelimedeki eklerin yalın
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
198
ekilde belirlenip gövdelere ayrılması eklinde tanımlanabilecek
tamamen rastlantısal bir yöntem olmadı ını, aksine önermenin ekle me
da ılımını temsil edebildi ini göstermektedir. Bir ba ka söyleyi le,
önerilen istatistiksel kurgu ile, ekle menin oldu u noktalar da ılım
olarak belirlenebilmektedir. Daha önceleri de, bu tip ekle me
noktalarını tespite yönelik, olasılı a dayalı yöntemler denenmi tir,
ancak pozisyon bilgisi bu yöntemlerde kullanılmamı tır. Önceki
önermelerin ba arısızlıklarının temelinde, pozisyon enformasyonunun
kullanılmamasının önemli bir etmen oldu u dü ünülmektedir.
Talim derleminden, toplam 5.648 farklı biçimde, de i ik sırada
harf çifti elde edilmi tir. E er bu harf çiftleri, yöntemin kelime
da arcı ı olarak kabul edilirse, kelime da arcı ı kapalıdır. Bu harf
çiftlerinden, 2.845 çift sadece gövdede, 1.048 çift sadece ekte ve 322
çift sadece gövde-ek geçi inde gözlenmi tir. Bu üç ayrık, harf
çiftlerinin toplamı 4.215’dir. Geriye kalan 1.433 ortak çiftin, 1.397
tanesi gövde ve ek kümesi ortaklı ı içindedir. Yöntemin karar vermesi
gereken harf çifti, yani önerimin birinci artının kullanıldı ı harf çifti
sayısı da budur. Oran olarak, harf çiftlerinin yakla ık %50’si gövdede,
%18’u ekte ve sadece %24’ü gövde ile ek ortaklı ında gözlenmektedir.
Önerimin neden %95 düzeylerinde ba arım sa ladı ının, cevabı da bu
oranlardan açıkça görülmektedir.
Test derlemindeki birlikler için, üretilen gövdenin do ru kabul
edildi i hal, üretilen herhangi bir gövde ile test derlemindeki birlik için
belirlenmi olan gövdenin harf esasında tam olarak e le mesidir. Aslen,
birlikler için üretilmi olası gövdeler, tamamen anlamsız kelimeler
de ildir, ancak hataların yanında, örne in “seviyor” birli i için üretilen
“sev-iyor” ve “sevi-yor” gövdelerinde oldu u gibi, “-i-yor” ek
terkibinin iki parçasının da belirlenmesinden kaynaklanmaktadır. te
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
199
α sabiti en uygun de er için, talim edilmesi gereklili inin altında yatan
sebep budur. Hatalarsa, genellikle yabancı kelimeler, kısaltmalar v.b.
durumlardan kaynaklanmaktadır. Bu hataların büyük kısmı, pekala
simgele tirme a amasında tespit edilebilir niteliktedir. Mesela,
simgele tirme a amasında, gövdeleme i lemine tabi tutulması gereken
kelimeler veya gövdeleme i leminden muaf tutulması gereken
kelimeler önceden belirlenerek, gövdeleme esnasında bu hataların
olu turulması önlenebilir.
Önerilen yöntemle, örnek 3 birlik için üretilmi gövdeler Çizelge
9.3.3.2.’de gösterilmi tir. Sever ve Bitirim (2003) tarafından, Türkçe
gövdeleme yordamları arasında kar ıla tırmaların yapıldı ı çalı mada
örnek olarak kullanılan “edebilecek” ve “göz...” birlikleri ile, “abartılı”
birli i incelenmi tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
200
Çizelge 9.3.3.2: Önerilen gövdeleme yöntemi ile üretilmi gövdelere
örnekler.
h1 h2
gm
i
em
PG(.)
PE(.)
PT(.)
Gövde
1
a
b
1
a
bartılı
0.002776
0.000000
0.000000
2
b
a
2
ab
artılı
0.000466
0.000000
0.000000
3
a
r
3
aba
rtılı
0.002364
0.000706
0.000003
4
r
t
4
abar
tılı
0.000175
0.000002
0.000025
5
t
ı
5
abart
ılı
0.000123
0.000255
0.001478 abar
6
ı
l
6
abartı
lı
0.000004
0.002519
0.000103 abart
7
l
ı
7
abartıl
ı
0.000088
0.002748
0.000016 abartı
8
ı
_
8
abartılı
0.000000
0.009593
0.000289 abartıl
9
e
d
1
e
debilecek
0.008549
0.000000
0.000000
10
d
e
2
ed
ebilecek
0.000457
0.000000
0.002373
11
e
b
3
ede
bilecek
0.000022
0.000186
0.000000 ed
12
b
i
4
edeb
ilecek
0.000998
0.000685
0.000021
13
i
l
5
edebi
lecek
0.000994
0.000644
0.001985
14
l
e
6
edebil
ecek
0.001457
0.016941
0.000006 edebi
15
e
c
7
edebile
cek
0.000002
0.001278
0.000001 edebil
16
c
e
8
edebilec
ek
0.000036
0.001523
0.000000 edebile
17
e
k
9
edebilece
k
0.000002
0.002951
0.000000
18
k
_
10 edebilecek
0.000000
0.004037
0.000240
19
g
ö
1
g
özetmeden
0.017605
0.000000
0.000000
20
ö
z
2
gö
zetmeden
0.007050
0.000000
0.000000
21
z
e
3
göz
etmeden
0.005962
0.000000
0.000228
22
e
t
4
göze
tmeden
0.010047
0.000000
0.000163
23
t
m
5
gözet
meden
0.000296
0.000174
0.000416
24 m
e
6
gözetm
eden
0.000602
0.005776
0.000029 gözet
25
e
d
7
gözetme
den
0.000007
0.000198
0.001506 gözetm
26
d
e
8
gözetmed
en
0.000037
0.006912
0.000000 gözetme
27
e
n
9
gözetmede
n
0.000034
0.003872
0.000007
28
n
_
10 gözetmeden
0.000000
0.021110
0.000283 gözetmede
Çizelgede, “h1” ve “h2” sütunlarında verilmi harflerin, birlik
içinde “i” sırasındaki sıralı çift için, “PE(.)” olasılı ı, yani ek içinde
olma olasılı ı, “PG(.)” olasılı ından, yani
gövde içinde olma
olasılı ından büyük olup da, varsa bir önceki çift için “PT(.)” olasılı ı,
yani bir gövde-ek geçi inde bulunma olasılı ı sıfırdan büyük olanlar
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
201
renkli dolgu ile belirlenmi tir. Bir ba ka söyleyi le, önermeyi sa layan
sıralı çiftler i aretlenmi tir.
Verilen ilk örnek, “abartılı” birli idir. Bu birlik içinde, “ab
isim”, “abar-fiil”, “abartı-isim” ve “abartılı-isim(sıfat)” gövdeleri
vardır. Sıfat olarak kullanılan “abartılı” isim gövdesi, “abartı” isim
gövdesinden, “-lı” isimden isim yapma eki ile türetilmi tir. “abartı”
ismi, “abar” fiilinden “-tı” fiilden isim yapma eki ile türetilmi tir.
“abar” fiili, “ab” isminden anlamca çok farklılık gösterdi i için, “-ar”
isimden fiil yapma eki ile mi türetilmi tir bilemiyoruz. Fakat analizi
sadece biçimbirimsel olarak yaptı ımız, anlamı ise, i e katmadı ımızı
dü ünürsek, “abar” fiili, “ab” isminden “-ar” isimden fiil yapma eki ile
türetilmi tir diyebiliriz. Aslen bu gövde türetimleri arasında, “abaisim”, “abart-fiil” ve “abartıl-fiil” gövdeleri de vardır. “aba” isim
gövdesi, “-a” isimden isim yapma eki ile “ab” isim kökünden türetilmi
olabilece i söylenebilir. Fakat, “ab”, yani “su” anlamını kar ılayan bir
isim kökünden, “aba”, yani “abla, anne” veya “yünden, dövülerek
yapılan kalın ve kaba kuma ” anlamını kar ılayan bir gövde türetilmi
olabilir mi, sorusunun cevabını vermek bu tez kapsamını oldukça a ar.
Devam edersek, “abart” fiil gövdesi, “abar” fiil gövdesinden, “-t”
fiilden ettirgen fiil yapma eki ile türetilmi , bir gövde olarak kabul
edilebilir. Aynı ekilde, “abartıl” edilgen fiil gövdesinin, yine “abar”
fiil gövdesinden, “-l” fiilden ettirgen fiil yapma eki ile türetildi i
dü ünülebilir. Çünkü, “-ı” harfi, Türkçe’de kayna tırma harfi olarak da
kullanılır. Bu kadar zengin ba ka örneklerin sayısı nedir, u an için bir
bilgimiz yok, ancak tek bir birlik içinde, kök olan “ab” kelimesinden
di er gövdelerin biçimbirimsel türetili leri incelendi inde, rahatlıkla
görülmektedir ki, söz konusu gövdelerden hangisinin yazımda
kullanılan anlamı verdi inin tespiti, öyle kolayca halledilebilecek bir
mesele de ildir. Bu noktada, Sever ve Bitirim (2003) tarafından yapılan
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
202
“biçimbirimsel analiz olmaksızın, bir birli e ait olası gövdenin ne
oldu unu belirlemek mümkün de ildir” hükmüne katılıyoruz. Burada
kastedilen biçimbirimsel analizin, anlamların da hesaba katıldı ı bir
analiz olması gerekti ini vurgulamak da istiyoruz. Ayrıca, “a” harfinin
ünlem edatı olması sebebi ile, bir kelime kökü oldu u da dü ünülünce,
8 harflik tek bir birlikten, toplam 8 gövde türetebilece i gibi bir
gerçekle de kar ı kar ıya kalıyoruz.
Önerdi imiz yöntemle, “abartılı” birli i için Çizelge 9.3.3.2.’de
“Gövde” sütununda yer alan, üretilmi üç seçenek gösterilmi tir:
“abar”, “abart”, “abartı” ve “abartıl”. Çizelgede gösterilemeyen, ancak
her birlik için önermenin do ru oldu u, son sıralı çiftler için de, birli in
kendisi, gövde olarak üretilmektedir. Dolayısı ile, “abartılı” gövdesi de
üretilenler arasındadır. Ayrıca, önerme hiçbir sıralı ikili için geçerli
olamamı sa, birli in yine kendisi, gövde olarak üretilmektedir.
Yukarıda, “abartılı” birli i için verilen dilbilimsel çözümlemenin
ı ı ında, be seçenekten, yani “abar”, “abart”, “abartı”, “abartıl” ve
“abartılı” seçeneklerinden hangisinin gerçek gövde olarak alınması
gerekti i belirsizdir. Çünkü, hepsi anlamca aynı olan ve “abar” fiil
kökünden türetilmi isim ve fiil gövdeleridir. “abar” fiil kökünü almak
ta yanlı de ildir, “abartılı” isim (sıfat) gövdesini almak da; hatta
aradaki türetimlerden birini de gövde olarak almak, aslen hata de ildir.
Çizelgede
verilen
ikinci
örnek
çözümleme,
“edebilecek”
birli idir. Bu birlik için önerilen yöntemle, her ey dahil, dört olası
gövde üretilmi tir: “ed” (yani “et-fiil”), “edebi”, “edebil” ve “edebile”.
Çizelgeden takip edilebilece i gibi, “et” fiil kökünden itibaren, birli e
eklenen harflerin ekte bulunma olasılıkları “PE(.)” çok yüksek
seyretmi tir, aynı zamanda gövdede bulunma olasılı ı da “edebil” fiil
gövdesinden itibaren çok küçük de erlerde kalmı tır. Sever ve Bitirim
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
203
(2003) tarafından verilen “edebilecek” birli i, aslen bir birle ik fiildir.
“et-” fiili ile “bil-” fiilinin birle mesinden meydana gelmi tir. Ba ka
fiillerle, birle ik fiil yapabilen, “bil-” fiilinin i levi, birle ti i fiile
iktidar anlamı katmaktır. “bil-” fiilinin önüne gelen fiil, genellikle isim
fiil (gerund) halindedir: yap-a bil, ed-e bil, gel-e bil gibi. Birle ik
fiillerde, yardımcı fiil olarak kullanılan fiil, asıl anlamının dı ında
kullanılır. O yüzden, bu birlikte sanki, “-ebil, -abil” gibi bir ek varmı
hissi do abilir. Fakat, Türkçe’de “-ebil”, “-abil” diye bir ek yoktur (Bu
tür detaylara girmemek için olsa gerek, Kemal Oflazer15, tüm yardımcı
fiil olarak kullanılan fiilleri “bil”, “ver”, “gel”, “gör”, “dur”, kal”, “yaz”
ve “koy”, Türkçe’de yapım eki olarak tanımlamı tır.). Dolayısı ile, bu
birli in gövdesi, esas fiil olarak “et” fiili, birle ik fiil olarak “edebil”
fiilidir. “ede” isim-fiil’dir, geçici bir yapıdadır, “et-“ fiilinin “-a, -e”
çekim eki ile yapılan isim-fiil halidir, yani çekim ekiyle olu turulan bir
kipidir. sim-fiiller aslen, bir hareket hali kar ılarlar, daha do rusu bir
hareketin, ne eklinde yapıldı ını ifade ederler. Bu açıdan, zarf olarak
da kullanım alanında görülebilirler. “edebil-” birle ik fiili, en son
olarak da “-acak, -ecek” fiil çekim eki alarak, sıfat-fiil (participle)
haline gelmektedir. Sıfat-fiiller aslında nesneleri, isimleri ile de il de,
hareketleri ile kar ılamak için kullanılırlar. Vasıflandırma ile nesneleri
kar ıladıklarından dolayı, sıfat olarak kullanılmaya yatkındırlar: “yapacak” ki i, “dü -ecek” adam örneklerinde oldu u gibi. Ek aslen, fiil
çekim ekidir, ancak, isim-fiilde oldu una benzer bir ekilde, çekim
ekli inden çok, geçici olarak nesneleri hareketleri ile kar ıladıklarından
dolayı, isim gövdesi gibi yorumlanabilir, ancak tabii, fiilin yine çekim
eki ile meydana getirilen bir kipidir. Bu yüzden, iki çekim ekinin de,
yapım ekli ine çok yakın bir i lev gördü ü söylenebilir, ancak bu
durum çekim eki oldukları gerçe ini de i tirmez. “edep” ve “edebi”
15
Kemal Oflazer, Elvan Göçmen ve Cem Boz ahin tarafından yazılan “An Outline of
Turkish Morphology” kitap bölümünde, fiil çekimleri kısmında.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
204
isim gövdelerine gelince, zaten yukarıdaki verdi imiz açıklamadan da
anla ılaca ı gibi, “edebilecek” birli i ile hiçbir anlamsal alakaları
kisi de, müstakil anlamlar ta ırlar. Özetle, “edebilecek”
yoktur.
birli ine bir gövde seçilmesi gerekiyorsa, tek bir seçenek vardır, o da
“edebil” birle ik fiilidir. “et-” fiilini gövde olarak seçmek, birli in
bütün halinde kar ıladı ı iktidar anlamını yok edece i için, anlamsal
açıdan yanlı tır. Bu tür birle ik fiillerin, gövdeleri aslen biçimbirimsel
analiz olmadan tespit edilemez. Ancak, Oflazer (1993) tarafından
geli tirilmi , Türkçe’nin yegane biçimbirim analiz yordamına da, bu
yardımcı fiilleri yapım eki olarak belirledi i ve daha birkaç mesele
sebebiyle, bir çekince koymak istiyoruz. Örne in, “edebilecek” birli i
için, biçimbirimsel analizler unlardır:
et+Verb+Pos^DB+Verb+Able^DB+Adj+FutPart+Pnon
(Çöz.1)
et+Verb+Pos^DB+Verb+Able+Fut+A3sg
(Çöz.2)
Analizlerde, “^DB” bir yapım eki kullanıldı ını belirtir. Örne in,
1. çözümlemede, ilk önce “et-” kelimesinin fiil (Verb) kökü ve olumlu
(Pos) oldu u vardır. Ardından “-ebil” yapım eki geldi i (^DB), yapım
eki ile “et” fiilinin, tekrar fiil (Verb) oldu u ve birle tirme kipinde16
bulundu u (Able17) belirtilmi tir. En son “-ecek” yapım eki alarak sıfat
oldu u (Adj) ve istisna-i sıfat çekim eki aldı ı (FutPart), bu çekim
ekinin de eylemin öznesi ile uyum göstermek için iyelik eki aldı ı,
ancak bu birli in iyeliksiz oldu u (Pnon) kodlanmı tır. Neden istisna-i
sıfat eki deniyor, alıntı yaparak veriyoruz:
16
OSTAD kullanım kılavuzunda verildi i ekli budur. ngilizcesi “compoundingmodality” olarak belirtilmi tir.
17
OSTAD kullanım kılavuzundaki açıklamasında, “yapabilir” olarak tanımlanmı tır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
205
“Sıfatların Çekim Ekleri: Sözlüksel veya türetilmi sıfatlar çekim
eki almazlar. stisnalar vardır: +Adj+PastPart ve +Adj+FutPar eylemin
öznesi ile uyumu göstermek için iyelik uyum eki (+Pxxx) alırlar. Sıfatlara
yapılan di er tüm bükümler ada dönü türme (type-raising) içerir ve tüm
bükümler bo biçimbirim türetmesinden sonra ad üzerinde gösterilir.”
OSTAD derleminin kullanım kılavuzunda, “FutPart” gelecek
zaman ortacı (sıfat-fiil) olarak tanımlanmı tır. kinci çözümleme ise,
“et” kelimesinin yine fiil ve olumlu oldu unu, “-ebil” yapım eki ile
tekrar fiil ve birle tirme kipinde oldu unu, gelecek zamanın üçüncü
tekil ahıs (A3sg) çekiminde (-ecek) bulundu unu kodlanmı tır. lk
verilen, “... konuyu izleyenleri tatmin edebilecek bir rapor de il, ...”
gibi bir tümcedeki birlik için çözümleme, ikinci ise “...ne demek
istedi ini ifade edebilecek ...” gibi bir tümcedeki birlik için
çözümlemedir.
Bu çözümlemelerden de, gövdenin elde edilebilece i açıkça
görülmektedir. Ancak, “birle tirme kipi (Able) ile kodlanan yapım eki
de dahil, ba tan itibaren tüm harf silsilesi gövde sayılabilir” gibi bir
kural konularak gövde, yani “edebil” çıkarılabilir. Aslında, analizin
kodlamasında, birle tirme kipi denmez de, birle ik fiil denerek “bil”
fiilinin yardımcı fiil oldu u enformasyonu da yoluna koyulabilir, yani
“-ebil” diye bir ek olmadı ı (Able), onun bir yardımcı fiil oldu u da
belirli hale getirilebilir. Hatta, “FutPart” ile verilen “-ecek” ekinin,
aslen bir yapım eki olmadı ı, fiilin i letme eki, yani çekim eki oldu u,
yalnızca bu ekle yapılan vasıf kipinin, nesneleri hareketleri ile
kar ıladı ı için, sıfat biçiminde kullanılabildi i, dolayısı ile bir nevi
isim oldu u enformasyonu da, tekrar kodlanarak kazanılabilir. Öyleyse
çekince nerededir? Çekincemiz noktamız udur: Türkçe biçimbirim
analizi yaptı ı iddia edilen bir yordamda, bir Türkçe gövdeleme
kurgusu için gerekli olan, Türkçe’nin kendine has basit kurallarını
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
206
belirleyebilmek için, bu denli tadilata gidilmesi gereklili idir.
Türkçe’nin neden, Türkçe’de olmayan kurallar ve bakı açısından
çözümlenmeye çalı ıldı ı da, çekincemiz için bir ba ka sebeptir. Belki
de, “edebilecek” birli inin, Türkçe’nin gerektirdi i çözüm olan birle ik
fiilin vasıf kipi olarak basit bir belirlenme yapmak yerine, önce bir tane
fiilden fiil yapma eki üretilmesi (-ebil), sonra fiillerin i letme ekininin
(-ecek) yapım eki olarak kabul edilmesi ile do rudan fiilden sıfat
yapılması ve Türkçe’nin do ası içerisinde çok derin ayrıntıya
inilmedi i takdirde, hiçbir istisna yokken, istisna-i durum yaratılması,
Türkçe’de bu yordamla hesaplamalı dilbilim çalı an ki iler tarafından,
uygulamada veya kuramsal esasta haklı sebeplere dayalı olarak, daha
i levsel bulunuyor olabilir. Ancak, bilgimiz dahilinde böyle bir
açıklamaya rastlamadı ımız için, bu noktayı da yeri gelmi ken
belirtmek istedik.
Açıklayaca ımız, üçüncü ve son örnek de, “gözetmeden”
birli idir. Önerilen yöntemimiz, “gözet”, “gözetm” , “gözetme”,
“gözetmede” ve “gözetmeden” olmak üzere 5 farklı gövde türetmi tir.
Birlik içinde, “göz” isim kökü, “-e” isimden fiil yapma eki ile, “göze”
fiil gövdesine, bu fiil gövdesi de “-t” fiilden fiil yapma eki ile tekrar
“gözet” fiil gövdesine çevrilmi tir. “-me” eki hem fiilden isim yapma
eki olarak, hem de fiillerin olumsuz hallerini olu turmak için fiil çekim
eki eklinde kullanılabilir. Ancak, “-den” eki sadece isim i letme eki,
yani hal eki olarak vardır. Dolayısı ile, “gözet” fiil gövdesi, “-me”
fiilden isim yapma eki ile, “gözetme” isim gövdesine çevrilmekte, en
son olarak da, “-den” i letme eki alarak, ismin uzakla ma hali
(ablative) bildiren ekline yani “gözetmeden” biçimine girmi tir.
Dolayısı ile, birli in gövdesi “gözetme” kelimesidir. “gözetmede”
biçiminin gövde olarak üretilmesinin sebebi, “-de” eklinde bir isimden
fiil yapma eki olmasıdır. “gözetmeden” biçiminin gövde olarak
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
207
üretilmesinin sebebi ise, “-n” eklinde fiilden fiil yapma eki olmasıdır.
Ancak, bu iki biçime yordam tarafından ba lanan olasılıklar açısından,
gövdede yer alma için hep 0.0001’den küçük ve çekim eki olma için de
hep 0.001’den büyük oldu u, altı çizilmesi gereken bir durumdur.
Yordam ile sıralı çiftlere ba lanan olasılıklar incelendi inde
görüldü ü gibi, aslında önerilen gövdeleme kurgusu, düzenlenebilecek
birkaç kurgudan sadece birisidir. Ancak yeterli olan hedef ba arılmı ,
yani yapılan çalı ma ile, istatistik/olasılık esasında, önerilen veya daha
ba ka bir kurgu ile biçimbirimsel analiz veya kelime da arcı ı
olmaksızın da, Türkçe’de gövdeleme yapılabilece i gösterilmi tir.
9.4. Sözcük Türü Tespiti
Sözcük türü tespit i i, kelimelerin söz-dizim içerisinde, hangi
dilbilgisi i levde kullanıldı ının belirlenmesidir. Dilbilimsel olarak,
kelimelerin söz-dizim içerisinde di er kelimelerle olan ili kileri, aynı
zamanda kelimelerin sınıflandırmasını meydana getirir. Türkçe’de
kelimeler: : isim (noun), özel isim (proper noun), fiil (verb), sıfat
(adjective), zarf/belirteç (adverb), zamir/adıl (pronoun), ba laç/rabıt
(conjunction), soru (Question) ve edat/ilgeç (preposition) temel sözcük
türlerinde sınıflandırılır. Ayrıca, rakam, kısaltma (abbreviations) ve
noktalama i aretleri (punctuations) olarak adlandırılan ve yazımda
kullanılan simgeler veya simge birlikleri de mevcuttur. Bu simge veya
simge birlikleri de (noktalama i aretleri hariç), yazımda kullanılırken,
söz-dizim içindeki söz konusu temel sözcük türlerinden birine girerler,
daha do rusu temel i levselliklerden birisini yerine getirirler. E er, özel
isimler, isim türünde de erlendirilirse, Türkçe’de 8 temel sözcük türü
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
208
vardır. Temel sözcük türleri, ayrıca kendi içlerinde i levsel veya
anlamsal farklılıklara dayalı olarak alt guruplara da ayrılır.
9.4.1. Önceki Çalı malar
Hesaplamalı dilbilim sahasında, bir cümle içinde, bir kelimenin,
daha do rusu bir birli in dilbilgisi i levinin ne oldu unun tespitine
yönelik bir çok çalı ma vardır. Sahanın iki öncü çalı ması, Klein ve
Simpson (1963) tarafından yapılanla, Garside ve arkada ları (1987a;
1987b) tarafından yapılandır. Bu çalı malar, kuramsal açıdan sahayı da
ikiye ayırmı tır: kural tabanlı ve istatistiksel. Klein ve Simpson
tarafından kural tabanlı bir sistem geli tirilmi tir. Sistemde, elle
olu turulmu çok büyük bir kural tabanı ile, istisnaları halletmek için
küçük bir sözlükten olu maktadır. Aynı esasta, Greene and Rubin
(1971), TAGGIT adlı sistemi geli tirmi lerdir. TAGGIT, daha sonra
ngilizce için bilinen ilk derlem olan, Brown derleminin ön sözcük türü
tespiti için kullanılmı tır. TAGGIT, öncelikle verilen kelime için
atanabilecek sözcük türlerini belirlemektedir, daha sonra, kelimenin bir
öncesinde ve sonrasındaki kelimelerin biçimbirimsel analizleri
üzerinden hiçbir belirsizlik ile kar ıla mıyorsa, uygun sözcük türünü
atamaktadır. Daha sonra, bu sistemin yaptı ı atamalar elle kontrol
edilip, düzeltilmektedir. Kural tabanlı sistemlere, Brill (1995a; 1995b)
tarafından geli tirilen sözcük türü tespit yordamları da güzel
örneklerdir.
statistik esasına dayanan ilk çalı ma, Stolz ve arkada ları (1965)
tarafından geli tirilendir. Bu sistem önce bilinen birliklere sözcük
türlerini bir sözlük yardımıyla atamaktadır, daha sonra bilinmeyen
birliklerin sözcük türlerini, sözcük türü akı ı temelinde artlı olasılıkları
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
209
kullanarak belirlemektedir. statistik esasına dayanan çalı maların
ço unlu u, gizli Markov zinciri dil modeline dayanır. Markov zinciri
dil modeline dayanan ilk çalı ma, Lancaster üniversitesinde Garside ve
Leech (1987b) tarafından yürütülen, LOB (Lancaster-Oslo-Bergen)
derleminin sözcük türü tespit u ra ıdır. Ancak, Markov modelinin, hem
kelimeler hem de sözcük türü geçi olasılıklarının kullanımı eklinde
temel kullanım biçimi, Church (1988) ve DeRose (1988) tarafından
yapılan çalı malarda ortaya çıkmı tır. Bu çalı malar aslında, Chomsky
(1957) tarafından, istatistiksel yordamlarla dilbilimsel özelliklerin
belirlenmesi u ra ının uygunsuzlu u konusunda, yapılan ele tirilerin
ardından, istatisti in hesaplamalı dilbilim sahasında tekrar dirili ini
sa lamı lardır. Fakat, Markov dil modelini esas alan çalı malar çok
önceden ba lamı durumdaydı: Baker (1975), Jelenik (1985),
Derouault, and Merialdo (1986). Gizli Markov dil modeli esasında,
Mercer (1993) tarafından yapılan çalı ma, yordamın en uygun ve en
verimli ekilde çalı tırılması için hesaplama açısından ele alındı ı güzel
bir çalı madır.
Sözcük türü tespit yöntemleri artık çok yaygındır ve ngilizce
dı ındaki diller için de geli tirilmi tir: Baskça (Aduriz, 1995), Çekçe
(Haji ve Hladká, 1998), Hollandaca, talyanca, Yunanca (Dermatas
and Kokkinakis, 1995), Fransızca (Chanod and Tapanainen, 1995),
Almanca (Feldweg, 1995), branice (Levinger et al, 1995), Bulgarca
(Megyesi, 1999), Slovence (Cussens et al, 1999), spanyolca (Sánchez
León and Nieto Serrano, 1995), and sveççe (Brants and Samuelsson,
1995). Ek olarak, belirtilmesi gereken di er çalı maların içinde, Brant
(2000) tarafından tasarlanan TNT sisteminin sözcük türü tespit
yordamında kullanılan olasılık yumu atma yöntemi açısından; Peskin
ve Savova (2004) tarafından tasarlanan gizli Markov zinciri dil modeli
esasındaki kurguda kullanılan hafıza de i keni ve sözlük açısından;
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
210
Schmid (1994) tarafından geli tirilen sistem, yapay sinir a larının
kullanılması açısından; Kupiec (1992) tarafından tasarlanan sistem,
gizli Markov zinciri dil modeli esasındaki sözcük türü tespiti u ra ında
tutarlılık meselesi açısından; Ratnaparki (1996) tarafından yapılan
çalı ma en yüksek düzensizlik (maximum entropy) esasında sözcük
türü tespit kurgusu açısından; Tautonava ve Manning (2000) tarafından
yapılan çalı ma da, en yüksek düzensizlik esasında kurgulanacak
sözcük türü tespit yordamlarında hangi özelliklerin hesaba katılması
gerekti i açısından incelemeye de erdir. Ayrıca, 7 farklı dil için
geli tirilmi sözcük türü tespit yöntemlerinin, Dermatas and
Kokkinakis (1995) tarafından yapılmı
kayda de er bir çalı madır.
detaylı kar ıla tırmaları da,
Türkçe için sözcük türü tespitinde, kural tabanı esasında yapılmı
çalı malara örnekler, Oflazer ve Kuruöz (1994) tarafından yapılan bir
çalı mayla, Oflazer ve Tür (1996;1997) tarafından yürütülen iki
çalı madır. statistik sahasında, bilgimiz dahilinde bir çalı ma vardır:
Hakkani-Tür ve arkada ları (2002).
9.4.2. Önerilen Yöntem
Kural tabanlı olsun, istatistiksel esasta olsun, sözcük türü tespiti
ba arımları, yakla ık olarak %90-%96 bandında seyretmektedir.
Yaygın ekilde, tatminkar olarak kabul gören ba arım de eri %95’tir
denebilir. Sözcük türü tespitinin, ba arımın yanında, ciddi iki zorlu u
daha vardır: sözlük ve hesaplama karma ıklı ı. Sözlük meselesi, daha
önce de bahsedildi i gibi, aslen kelime da arcı ının kapalı oldu u
kabullenmesinden do maktadır. Ayrıca, biçimbirimsel üretkenli i
zengin diller için, örne in Türkçe için, kelimelerin yazımda
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
211
kullanımları sırasında çok de i ik biçimlere sahip olması, ek yük
getirmektedir (Bu durum, kelime da arcı ının hızlı ekilde hacim
kazanmasına sebep oldu u için, depolamaya ve arama karma ıklı ına
ek yük getirir).
Hesaplama
karma ıklı ı,
kelime
da arcı ının
hacminden
etkilenmektedir, ancak asıl kaynak kullanılan gizli Markov zinciri dil
modelidir. Sözcük türü tespitinde kullanılan en yaygın gizli Markov
zinciri dil modeli, 1.dereceden, geçmi e bir adım cinsidir, dolayısı ile
e er Viterbi yöntemi ile çözümlenirse, O(L*|Q|3) zaman karma ıklı ına
sahiptir (L : cümle uzunlu u, Q: farklı sözcük türü sayısıdır).
Önerdi imiz yöntem de gizli Markov zinciri dil modelini esas
almaktadır. Ancak, kullanılan sözlü ün kapalı olu u garanti altındadır.
Gizli Markov zinciri dil modeli, önerimizin kuramsal alt yapısını
olu turdu u için öncelikle onu tanıtmak gerekmektedir.
9.4.2.1 Gizli Markov Zinciri
Markov zinciri için kullanılan gizli sıfatı, onun istatistik içindeki
genel kullanımı olan görünür18 halinden ayırt etmek içindir. Bir silsile
sürecinin (stochastic process), görünür Markov zinciri kurgusunda,
durum uzayı (state space) ve çıktı uzayı (output space) görünürdür. Bir
ba ka söyleyi le, silsile halindeki çıktı uzayı elemanlarının, silsile
içindeki belirli dizili ine kar ılık gelen durumlar birebir ekilde
e le mi tir. Gizli Markov zincirinde, silsile halindeki çıktı uzayı
elemanları yine görünürdür, durum uzayı elemanları da belirlidir; ancak
çıktı uzayındaki elemanların silsile içindeki belirli olan dizili lerine
18
Görünür Markov zinciri, ayrıca vanilla (vanilya) olarak da anlılır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
212
kar ılık gelen durumların hangisi birebir e tir, belli de ildir. Zaten,
gizli Markov zinciri kurgusu ile amaçlanan, hangi durumun
e le tirilece inin belirlenmesidir. Sözcük türü tespit meselesi üzerinden
örneklersek, çıktı uzayını kelimeler, durum uzayını sözcük türleri
olu turur. Silsile sürecine cümle kar ılık gelir. Yani, kelimelerin cümle
içindeki dizili leri ile bir kelime silsilesi olu ur. Görünür halde iken,
cümle içindeki yerinde bir kelimenin hangi dilbilgisi i levinde
oldu unun belirli oldu u durum kastedilir. Gizli halde iken, elimizde
bir cümle vardır, sözcük türleri de bellidir; ancak cümle içindeki hangi
kelimenin, hangi dilbilgisi i levinde oldu u, yani sözcük türü
belirsizdir. Aslen, kelimelerin sözcük türleri i aretli olan bir talim
derleminde e itilen Markov dil modeli, görünür olurken; sözcük türleri
tespit edilmeye çalı ılan kelimelerle olu turulmu test derlemine
uygulandı ı zaman, aynı Markov dil modeli, gizli olur.
Bir silsile süreci, X t olasılık de i kenlerinin bir toplulu undan
meydana gelir. Alt indis, t ise uygun bir indeks kümesinden sıralı
ekilde de erler olan bir parametredir. Genel olarak, indeks kümesinin
elemanları, zamanın ayrık birimlerini kar ılar ve indeks kümesi
T = {0,1,2,...}, sayma sayıları toplulu undan meydana gelir. ndeks
kümesi, gerçek sayıların toplulu undan da meydana gelebilir. Sayma
sayılarının, indeks kümesi oldu u silsile sürecine, ayrık silsile süreci
(discrete time stochastic process); gerçek sayıların indeks kümesi
oldu u silsile sürecine, sürekli silsile süreci
(continuous time
stochastic process) denir.
Bir Markov süreci veya zinciri, yani {X t } , bazı özelliklere sahip
bir silsile sürecidir. Bir silsile sürecinin, Markov süreci olmasını
sa layan bu özellikler, iki tanedir: kısıtlı ufuk (limited horizon) ve
zaman içinde de i meme (time invariance).
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
213
Kısıtlı ufuk özelli i, de eri verilen bir X m olasılık de i keni
varken, s > m
artını sa layan bir X s olasılık de i keninin
de erlerinin, k < m artı altındaki hiçbir X k olasılık de i keninin
de erinden etkilenmemesidir. Biçimsel olarak, Denklem 9.4.2.1.1.’de
gösterildi i ekilde ifade edilir.
Pr ( X n = k X 0 = l 0
X n −1 = l n −1 ) = Pr (X n = k X n −1 = l n −1 ) (9.4.2.1.1)
Denklem 9.4.2.1.1.’de, olasılık de i kenlerine atanan k , l 0 ,
l n−1
de erleri, olasılık de i kenlerinin örneklem kümesinin elemanlarıdır ve
Markov süreci içinde her bir de er, durum olarak adlandırılır. Dolayısı
ile, bu olasılık de i kenlerinin alabilece i olası tüm de erlerinin
toplulu u olan örneklem kümesi, Markov süreci içinde, durum uzayı
olarak anılır. Ayrıca, kısıtlı ufuk özelli i, bir Markov zinciri
isimlendirilirken, derece terimi ile kar ılanır.
verilen ekilde, kısıtlı ufuk özelli ine sahip bir
dereceden Markov zinciri denir ve X n olasılık
kendisinden bir önceki, yani X n −1 olasılık de
Örne in, denklemde
Markov zincirine, 1.
de i keninin, sadece
i keninin de erinden
etkilendi i, daha önceki olasılık de i kenlerinin
etkilenmedi i, bu ekilde belirli hale getirilir.
de erlerinden
Zaman içinde de i meme özelli i ise, kısıtlı ufuk özelli inin
zamana ba lı olmadan, zamanın herhangi bir de eri için geçerli
oldu unu belirtmek için kullanılır. Bir ba ka söyleyi le, kısıtlı ufuk
özelli inin, zaman indisi, n’nin, indeks kümesindeki her hangi bir
elemana e itken de geçerli oldu unu belirtir.
Pr ( X n = k X n −1 = l n −1 ) = Pr ( X 1 = k X 0 = l 0 )
(9.4.2.1.2)
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
214
Bir Markov sürecinde, X n −1 olasılık de i keninin de eri, mesela
i iken, X n olasılık de i keninin de erinin, örne in j olması olasılı ına,
bir-adım geçi olasılı ı (one-step transition probability) ismi verilir ve
Pin, j−1,n simgesi ile temsil edilir ve Pin, j−1,n = Pr( X n = j X n −1 = i ) ifadesi
ile hesaplanır. Simgesel gösterimde, geçi olasılı ının durumlara
ba ımlılı ı dı ında zamana ba ımlılı ı da betimlenmi tir ( n − 1, n ).
E er, zaman içinde de i meme özelli i sa lanıyorsa, geçi olasılıkları,
dura an geçi olasılıkları (stationary transition probabilities) biçiminde
adlandırılır. Dolayısı ile, Pin, j−1,n = Pi , j = Pr( X n = j X n −1 = i ) olur.
Bir Markov sürecinde, X n olasılık de i keninin de erinin,
örne in j olması, e er X n−2 olasılık de i keninin de erine, mesela i
olsun, ba lı ise, bu Markov sürecinin derecesi19, 2 olur. E er durum
uzayının eleman sayısının, s > 0 artını sa layan bir sabit ile temsil
edildi i kabul edilirse, biçimsel olarak Denklem 9.4.2.1.3.’de verildi i
ekilde ifade edilir.
Pr ( X n = k X 0 = l0
=
X n −1 = l n −1 ) = Pr ( X n = k X n−2 = l n−2 )
s −1
Pr ( X n = k X n−2 = l n−2 , X n−1 = i ) =
i =0
s −1
i =0
(9.4.2.1.3)
Pln −2 ,i ⋅ Pi ,k
Herhangi bir Markov sürecinin, n=0 zamanında, X 0 olasılık
de i keninin, durum uzayından herhangi bir de ere, mesela i olsun, e it
olması olasılı ına, yani π i = P( X 0 = i) , süreci olu turan X olasılık
de i kenlerinin ba langıç olasılı ı (initial probabilities) adı verilir. Bir
19
Yeri gelmi ken bir yanlı kullanımında altını çizmek gerekir. Sıfır (0) derece
Markov süreci, bazen 1-gram kar ılı ı olarak dü ünülmektedir, ancak bir silsile
süreci, kısıtlı ufuk özelli i ta ımıyorsa, Markov süreci olarak adlandırılmaz. Dolayısı
ile, kavramsal açıdan, sıfır derece Markov zinciri tanımsız bir niteleme ve yanlı bir
adlandırma olmaktadır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
215
ba ka söyleyi le, Markov sürecinin ilk ba ında, sürecin herhangi bir
durumdan ba laması ihtimalidir.
Bir silsile sürecinde, bir sn durumunun herhangi bir n zamanında,
kendisinden önceki, sn-1 ve sn-2 durumlarına ba ımlı olsun:
Pr ( X n = s n X n −2 = s n −2 , X n −1 = s n −1 )
(9.4.2.1.4)
Denklem 9.4.2.1.4.’de verilen ifade, bir Markov zincirine
çevrilebilir. Söz konusu çevrim, 1. dereceden bir Markov sürecinde,
X n −1 olasılık de i keninin de eri, (sn-1, sn-2) sıralı çifti olarak alınarak
halledilir. Aslen bu durum, 1. dereceden bir Markov sürecinde, durum
uzayında geçmi e do ru bir adımın daha, X n olasılık de i keninin
de erinde etki etti i anlamına gelir, daha do rusu durum uzayında
geçmi in tanımlanması söz konusudur. Dolayısı ile, söz konusu
Markov süreci, 1. dereceden, geçmi e bir adım Markov süreci eklinde
adlandırılır.
9.4.2.2 Sözcük Türü Tespitinin Markov Süreci Olarak Tanımı
Verilmi olan n tane kelimenin belirli bir silsilesi, w1 ,
, wn için,
hangi dilbilgisi i levini kar ıladıkları, yani sözcük türlerinin, t1 ,
, tn
ne oldu unun tespiti meselesi, Denklem 9.4.2.2.1.’de verildi i biçimde,
bir olasılık modeli ile tanımlanabilir.
argmax t1
(
t n P t1
tn w1
wn )
(9.4.2.2.1)
Denklemdeki olasılık modeli, verilen bir w1 , , wn kelime dizisi
için, kar ılık gelebilecek tüm, t1 , , t n sözcük türü dizilimleri içinden,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
216
olasılı ı en yüksek olan sözcük türü dizisinin seçilmesi anlamına
gelmektedir. Bu ifade de, Bayes olasılık dönü türümü uygulanırsa,
Denklem 9.4.2.2.2.’deki hale gelir.
argmax t1
P(w1
tn
wn t1
tn ) ⋅ P(t1
P(w1
wn )
tn )
(9.4.2.2.2)
Denklem 9.4.2.2.2.’de verilen ifade de, olasılı ın en yüksek
de eri aranırken, t1 , , t n sözcük türü dizisini esas aldı ı ve tüm
sözcük dizisi ihtimalleri için verilen kelime silsilesi de i medi i için,
P(w1 wn ) olasılı ı sabittir. Dolayısı ile, P(w1 wn ) olasılı ı
hesaplamalardan çıkartılarak, sözcük türü tespit meselesinin olasılık
modeli, Denklem 9.4.2.2.3.’de verilen sade ekli ile ifade edilebilir.
argmax P (w1
wn t1
t n ) ⋅ P(t1
tn )
(9.4.2.2.3)
t1 tn
Sözcük türü tespiti meselesinin, Markov süreci biçimine
getirilmesi için, zaman içinde de i meme kabul edilip, yani dizide iki
farklı yerde olan, aynı kelimenin olası sözcük türlerinden birini alması
olasılı ının e it oldu u kabul edilip, kısıtlı ufuk özelli inin
uygulanması gerekir. Sözcük türü tespitinin 1. dereceden Markov
süreci olarak ifadesi Denklem 9.4.2.2.4.’de verilmi tir.
argmax ∏ P (wi t i ) ⋅ P (t i t i −1 )
n
t1 tn
i =1
(9.4.2.2.3)
Aynı ekilde, sözcük türü tespit meselesi için, 1. dereceden,
geçmi e bir adım Markov süreci modeli de, Denklem 9.4.2.2.4.’de
verildi i ifade edilecektir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
217
argmax ∏ P (wi t i ) ⋅ P(t i t i − 2 , t i −1 )
n
t1 tn
(9.4.2.2.4)
i =1
Markov süreci denklemlerinde verilen artlı olasılıkların
tahminleri, bir talim derlemi üzerinden elde edilecek f (ti − 2 , ti −1, ti ) ,
f (ti − 2 , ti −1) , f (t i ) ve f (ti , wi ) gözlenme sıklıkları ile hesaplanır.
∧
P(wi ti ) =
∧
P(ti ti − 2 , ti −1 ) =
f (ti , wi )
f (ti )
(9.4.2.2.5)
f (ti − 2 , ti −1, ti )
f (ti − 2 , ti −1 )
(9.4.2.2.6)
Sözcük türü tespitinin, Markov süreci olarak tanımlanması ile, en
uygun sözcük türü dizisinin bulunması meselesi bir dinamik
programlama meselesi haline getirilmi olur. Bu tür dinamik
programlama meseleleri için, hesaplama karma ıklı ı en dü ük yordam
da, Viterbi (1967) tarafından geli tirilmi
anılandır.
olan ve kendi adıyla
Sözcük türlerinin, Markov süreci modeli esasında tespitinde, iki
sorunun çözümlenmesi gerekmektedir. Bu sorunlar, talim derleminde
görülmemi , kelime-sözcük türü çiftleri ve sözcük dizilimleri için, bir
olasılık atanması zorunlulu udur. Denklem 9.4.2.2.3.’de verilen 1.
dereceden Markov süreci ifadesinde de görüldü ü gibi, silsilede her
∧
hangi kelime-sözcük türü çiftinin ( P ( wi ti ) = 0 ) veya sözcük türü
∧
dizisinin ( P(t i t i −1 ) = 0 ) sıfır olasılı a sahip olması durumundan, o
kelime-sözcük türü çiftini veya sözcük türü dizini içine alan dizilim
ihtimallerinin, toplam olasılı ı, di er olasılıkların ne oldu unun bir
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
218
∧
önemi
olmaksızın
sıfır
olmaktadır
∧
( P( wi t i ) ⋅ P(t i t i −1 ) = 0 ).
Hesaplamalı dilbilimde, kapalı kelime da arcı ı kabullenmesi yapan
tüm dil modelleri için söz konusu çıkmaz geçerlidir.
Bu tür sıfır olasılıkların önlenmesi için, talim derleminde
gözlenmemi olanlar için, sıfır yerine, yine sıfıra yakın ancak sıfırdan
büyük bir de er atanarak, dizilim ihtimalinin toplam olasılı ının sıfır
olmasının önüne geçilir. Olasılık yumu atma yöntemi olarak
adlandırılan yordamlar, söz konusu amaç için kullanılırlar. Olasılık
yumu atma için geli tirilmi pek çok yöntem mevcuttur: Lidstone
(1920), Good (1923), Jelenik ve Mercer (1980), Katz (1987), Witten
and Bell (1991), Ney ve arkada ları (1994), Kneser ve Ney (1995).
Harvard üniversitesinde, Chen ve Goodman (1998) tarafından, bahsi
geçen tüm olasılık yumu atma yöntemleri, çok çe itli içeriklerde ve
de i ik büyüklüklerde derlemler üzerinde de erlendirilip, derin
incelemeler yapılmı ve teknik rapor halinde sunulmu tur. Raporun
sonucunda, Kneser and Ney (1995) olasılık yumu atma yönteminin,
di er yöntemlerden her zaman anlamlı düzeyde ba arılı oldu u
belirtilmi tir. Dolayısı ile, Kneser ve Ney yöntemi, kısaca KN olarak
adlandıraca ımız olasılık yumu atma yöntemi, bu tezde de,
kullanılacak yöntem olarak seçilmi tir.
9.4.2.3 Önerilen Yöntemin Kurgusu
Önerilen yöntem, aslen genel Markov sürecinin, çıktı uzayının
tanımında, daha do rusu kelime silsilesinin tanımında yapılan basit bir
de i ikliktir. Genel kurgu içerisinde, Markov sürecinin hesaplama
birimi kelimelerdir. Biz, kelimeler yerine, kelimelerin sonlarından
alınacak belirli sayıda harften olu an hesaplama birimi ile de,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
219
Türkçe’de sözcük türü tespit meselesinin halledilebilece ini iddia
ediyoruz. Sözcük türlerinin, yani kelimelerin cümle içindeki di er
kelime veya kelimelerle olan ili kilerinin, Türkçe yazımda kelimelerin
sonlarına çekim ekleri getirilerek kar ılanması, önermemize do rudan
dayanak te kil etmektedir. Önce genel kurgu, yani kelimenin
hesaplama birimi olarak kullanılması tanıtılacak, ardından önerimiz,
sadece farkı ile ortaya konarak tanımlanacaktır.
Genel Markov zinciri kurgusunu vermek için örnek bir cümle
kullanaca ız: “ ten döner dönmez evimizin yakınında bulunan derin
gölde yüzerek gev emek en büyük zevkimdir.”. Bu örnek cümlenin, her
kelimesinin alabilece i olası sözcük türleri, Çizelge 9.4.2.3.1.’de tablo
halinde verilmi tir.
Çizelge 9.4.2.3.1 : Örnek cümlenin, her kelimesinin olası sözcük türleri.
Kelime
Sözcük Türü
i ten
sim ( )
döner
, Fiil (F), Sıfat (S)
dönmez
F, S
evimizin
yakınında S
bulunan S
derin
, S, F
Kelime
gölde
yüzerek
gev emek
en
büyük
zevkimdir
Sözcük Türü
, Zarf (Zr)
Zr
F
, Zr
S
F
Örnek cümlenin ba tan 6 kelimesi için olası sözcük türleri ve
kelime silsilesine kar ılık gelebilecek sözcük türü dizileri,
9.4.2.3.1.’de çizge olarak betimlenmi tir.
ekil
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
220
(a)
i ten
döner
dönmez
derin
gölde
S
F
yüzerek
...
S
S
F
Zr
Zr
F
(b)
Zr
S
F
...
F
F
Zr
S
S
Olası Diziler = 1x3x2x3x2x1 = 36
ekil 9.4.2.3.1: Örnek cümlenin 6 kelimesi için olası sözcük türleri (a) ve kar ılık
gelebilecek sözcük dizisi ihtimalleri (b).
Cümle, Markov süreci kurgusuna alındı ı zaman, kelimeler çıktı
uzayını, sözcük türleri durum uzayını olu turmaktadır. Markov süreci
kurgusu içindeyken, olası sözcük türü dizileri, kelimelerin olabilece i
sözcük türlerinin seçilmesi eklinde bir daraltma söz konusu de ildir.
Bir ba ka söyleyi le, durum uzayında tanımlı olan tüm sözcük türleri,
çıktı uzayındaki her kelimeye atanması ihtimali vardır. Türkçe için
dü ünecek olursak, toplam 8 temel sözcük türü mevcuttur. Dolayısı ile,
örnek cümledeki 6 kelime için, olası sözcük türü dizilerinin toplam
sayısı, 6x8, yani 48 adet olacaktır. Söz konusu 48 sözcük türü dizisi
ihtimalinden en yüksek olasılı a sahip olan, verilmi cümle için
atanacaktır. Markov süreci kurgusu içinde, yöntemin tüm unsurlarının
çizge olarak betimlenmi hali, ekil 9.4.2.3.2.’de verilmi tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
221
Zaman Ekseni
sm
sm
sm
sm
sm
...
n
...
A
A
4
s2
s1
s2
s1
s2
s1
k1
k2
k3
k4
i ten
döner
dönmez
evimizin
e1
e2
e3
e4
s2
s1
π1
3
...
b π2
a2n
2
a11
n+1
ann+1
...
πn
...
Sözcük Türleri
(Durum Uzayı)
1
s2
s1
...
...
0
...
A
a2n+1
~b
a1n+1
b (k )
<bos>
A
A
Sözcük Türü
Dizisi A
kn
kn+1
zevkimdir
<eos>
en
en+1
...
Kelime Silsilesi
(Çıktı Uzayı)
ij n
ekil 9.4.2.3.2: Örnek cümlenin Markov süreci altında, sözcük türü tespit kurgusu.
ekilde çizge olarak betimlenen Markov zinciri kurgusunda,
cümledeki kelimelerle (kn), yani çıktı uzayı elemanları ile, sözcük
türleri (s m), yani durum uzayı elemanları arasında ili kiyi kuran, bij(kn)
olasılıkları; sürecin, belirli bir i. sözcük türünden ba lama ihtimali, yani
sürecin si durumundan ba laması ihtimali ( π i ); sözcük türlerinin
birinden di erine geçi olasılıkları (aij) tanımlanmı tır. Ayrıca, cümleye
kar ılık gelebilecek belirli bir sözcük türü dizisi de, e1 , , en olasılık
de i kenleri silsilesi olarak temsil edilmi tir. Bu dizideki de i kenin, e
olarak adlandırılmasının sebebi, Markov sürecinin her kelimeye etiket
yapı tıran bir i lem olarak dü ünülebilmesindendir ( ngilizce’sinde de
Tag, yani etiket kelimesi aynen kullanılıyor). Etiketlerin üzerlerinde de,
kelime için kar ılık gelen sözcük türü yazılı diye dü ünülebilir.
Dolayısı ile, her etiketin üzerine, durum uzayını olu turan s1 , , s m
sözcük türlerinden birisi yazılabilir. Mesele, hangi etiketin üzerinde
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
222
hangi sözcük türünün yazılaca ını bulmaktır. Özetle, kurgu açısından
simge sisteminde yaptı ımız de i iklikler unlardır: kelime dizisindeki
kelimeler, özgün kurguda w (word) ile gösterilirken, de i iklikle k
(kelime) olarak; etiketler özgün kurguda t (tag) ile gösterilirken,
de i iklikle e olarak temsil edilmektedir. Dolayısı ile, sözcük türü tespit
meselesinin, olasılık kurgusu, Denklem 9.4.2.3.1.’de verildi i ekilde
ifade edilmektedir.
argmax e1
(
en P e1
en k1
kn )
(9.4.2.3.1)
Kurguda verilen olasılıklar, Markov süreci için tanımladı ımız
olasılıklara kar ılık gelmektedir. Çizgede betimlenen olasılıklardan, aij
olasılıkları Pi , j = Pr( X n = j | X n−1 = i ) dura an geçi olasılıklarına,
yani sözcük türü tespit meselesinin Markov kurgusunda
P(t i | t i −1 ) = P(ei | ei −1 )
artlı olasılı ına;
bij(kn) olasılıkları,
P( wi | t i −1 , t i ) artlı olasılı ına veya yeni simgeleri ile, P(k i | ei −1 , ei )
artlı olasılı ına e ittir. Kurgu içinde, cümlenin ba ına <bos> ve
sonuna <eos> simgeleri konmu tur. Bu simgeler, n=1 oldu u yerde,
yani sürecin ba langıcında, ba langıç olasılıklarının, π i = Pr( X 0 = i) ,
artlı olasılıklar, π i = Pr( X 0 = i |< bos >) olarak ele alınmasını
sa lamak amacıyla konmaktadır. Ayrıca, yumu atma yöntemlerinde
olasılık da ılımlarının, bire toplanabilmesi için de gereklidir. Sondaki
<eos> simgesi de, sözcük türünün cümle sonunda olma olasılı ının
artlı olasılık eklinde, yani Pr(< eos >| en ) olasılıkları biçiminde
hesaplamada ele alınabilmesi için konmu tur. Böylece, Markov
kurgusundaki, tüm olasılıklar
artlı olasılık
eklinde ifade
edilebilmekte, hesaplamalar tek bir düzen üzerinden yapılabilmektedir.
Yukarıda Markov süreci esasında sözcük türü tespiti için genel
kurgu tanımlanmı tır. Sözcük türü tespiti için, yine Markov süreci
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
223
esasında bu tezde önerdi imiz yöntem ise, Önerme 9.4.2.3.1.’de
biçimsel olarak tasvir edilmi tir.
Önerme 9.4.2.3.1: Türkçe sözcük türü tespiti için, genel Markov
sürecini esas alan kurguda, hesaplama birimi olarak
kelime kullanımı yerine, kelimelerin sonlarından belirli
uzunlukta harf birlikleri alarak da sözcük türü tespiti
yapılabilir.
Önermemizin, Markov süreci kurgusunun unsurlarını ne ekilde
yeniden tanımladı ı, ekil 9.4.2.3.3.’de çizge olarak betimlenmi tir.
ekilde, genel kurgunun korundu u görülmektedir. Tek fark, çıktı
uzayının kelimeler yerine, kelimelerin sonundan belirli sayıda harf ile
olu turulan birliklerin kullanılmasıdır. Geri kalan kurgu unsurları aynen
korunmu tur. Kelime sonundan, l kadar birlik alınmaktadır, örnek
çizgede l=2 olan durum gösterilmi tir. Dolayısı ile, kn olasılık
de i kenleri, knl eklinde yeni bir indisle bu durumu kar ılamaktadır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
224
π1
s2
s1
A
A
4
n
sm
sm
sm
sm
s2
s1
s2
s1
s2
s1
a11
n+1
ann+1
...
b π2
a2n
3
...
sm
2
...
πn
...
Sözcük Türleri
(Durum Uzayı)
1
a2n+1
s2
s1
...
...
0
...
A
...
Zaman Ekseni
a1n+1
~b
b (k )
k1
k2
<bos>
A
k3
en
er
ez
in
i ten
döner
dönmez
evimizin
e1
e2
e3
e4
k4
kn
<eos>
zevkimdir
A
Sözcük Türü
Dizisi A
kn+1
ir
......
...
Kelime Silsilesi
(Çıktı Uzayı)
ij n
en
ekil 9.4.2.3.3: Sözcük türü tespitinin, Markov zinciri esasındaki kurgusunda,
önerilen kelime sonundan belirli sayıda harf birli inin hesaplama birim
olarak kullanılması.
9.4.3. Deneysel Sonuçlar
Türkçe için yapılmı çalı malar içinde, bilgimiz dahilinde
ba arımı %93,95 ile en yüksek de er sahip olan, Hakkani-Tür ve
arkada ları (2002) tarafından istatistiksel yöntemler esas alınarak
yapılandır. Kullandıkları yöntemin hesaplama birimleri kelimelerdir.
Ayrıca, kelimeler önce Oflazer (1993) tarafından geli tirilen,
biçimbirimsel analiz yordamı ile i lenmi tir. Hakkani-Tür,
çalı masında, biçimbirimsel analiz i aretlemelerine dayanan bir kurgu
ortaya koymu tur. Dolayısı ile, biçimbirimsel analiz olmadan yöntem
kullanılamamaktadır. Önerdi imiz yöntemde, böyle bir art yoktur.
Hesaplama birimimiz kelime sonlarından alınan belirli sayıda harf
birlikleridir ve kelime üzerinde ba ka bir ön i leme gereksinim yoktur.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
225
Önerilen yöntemle ula ılmı en yüksek ba arım, kelime sonundan
alınan 4 harf ile olu turulan birlikte gözlenmi olan, %85,9’dur. Genel
kabul gören ba arım düzeyinden dü üktür (%90-96 bandı). Ancak, bu
düzeyde bir ba arım da, Türkçe’de kapalı kelime da arcı ına dayalı,
biçimbirimsel analiz gerektirmeyen bir sözcük türü tespit yordamının
yapılabilece ini deneysel olarak ispatlamaya yeterlidir.
Önerilen yöntem, 30 de i ik talim derlemi boyutu ve kelime
sonundan alınan 7 farklı uzunlukta harf birli i için sınanmı tır.
Kullanılan talim derlemi boyutları, cümle birim olarak kabul edilerek
ölçeklendirilmi tir. Kullanılan talim derlemi, BilTD derlemidir ve
boyutları, 250, 500, 750, 1.000, 1.250, 1.500, 1.750, 2.000, 2.500,
3.000, 3.500, 4.000, 4.500, 5.000, 7.500, 10.000, 12.500, 15.000,
17.500, 20.000, 22.500, 25.000, 27.500, 30.000, 32.500, 35.000,
37.500, 40.000, 42.500 ve 45.000’dir. Sondan alınan harf birli i
boyutları, 1, 2, 3, 4, 5, 6 ve 7’dir. Markov süreci olarak, hem 1. derece,
hem de 1. derece geçmi e bir adım kullanılmı tır. Ba arımlar, do ru
bilinen sözcük türünün, tüm kelime sayısına bölünmesi ile elde
edilmi tir.
Sınamaların, 1. derece Markov süreci kurgusu ve KN olasılık
yumu atma yöntemi ile yapılanlarından alınmı olan sonuçlar, ekil
9.4.3.1.’de çizge olarak verilmi tir. ekilden de görüldü ü gibi, talim
derleminin tüm de erleri için, en yüksek ba arım de erleri %60-%70
bandı arasında kalmasıdır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
226
0.7000
0.6000
Ba arım Oranı
L1
0.5000
L2
0.4000
L3
L4
0.3000
L5
0.2000
L6
L7
0.1000
25
0
10
00
17
50
30
00
45
00
10
00
0
17
50
0
25
00
0
32
50
0
40
00
0
0.0000
Talim Derlemi Boyutu (Cümle Sayısı)
ekil 9.4.3.1: Sözcük türü tespit, sınama sonuçları. 1. dereceden Markov süreci
kurgusu altında, tüm talim derlemi boyutları sondan alınan harf
birliklerinin tüm uzunlukları için.
Sınamanın, 1. dereceden Markov süreci kurgusu içerisinde
yapılan halinde, dikkat çekici olan durum, sondan alınan tek harf
birli inin, tüm talim boyutu de erlerinde istisnasız %60-%70 ba arım
bandında kalmasıdır. Harf birli i için sondan alınan, harf birli i sayısı
arttıkça, ba langıç ba arımı dü mekte, yani harf sayısı artarken, talim
derlem boyutunun iki uç noktasına denk gelen en dü ük ile en yüksek
ba arım de eri arasındaki makas açılmaktadır.
Sınamanın, 1. derece, geçmi e bir adım Markov süreci kurgusu
içinde alınan sonuçlar ekil 9.4.3.2.’de verilmi tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
227
1.0000
0.9000
Ba arım Oranları
0.8000
L1
0.7000
L2
L3
L4
L5
0.6000
0.5000
0.4000
L6
L7
0.3000
0.2000
0.1000
0
00
0
40
50
0
32
00
0
25
50
0
17
00
00
10
45
00
30
50
17
00
10
25
0
0.0000
Talim Derlemi Boyutu (Cümle Sayısı)
ekil 9.4.3.2: Sözcük türü tespit, sınama sonuçları. 1. derece, geçmi e bir adım
Markov süreci kurgusu altında, tüm talim derlemi boyutları ve sondan
alınan harf birliklerinin tüm uzunlukları için.
Sınamanın, ekil 9.4.3.2.’de gösterilen sonuçlarında, en yüksek
ba arımlar, %80-%90 bandında kalmaktadır. Bir harften olu an birlik,
yine %60-%70 bandında seyretmi tir. Geçmi e bir adım ile sa lanan
ba lam derinli inin, tek harften olu an birli e etkisi olmamı tır. Fakat,
ba lamın derinle mesi, harf uzunlu unun 2, 3, 4 ve 5 oldu u birlikler
üzerindeki etkisi lehtedir. Özellikle 3 ve 4 harften olu an birlikler,
10.000 kelimelik talim derlemi boyutundan itibaren, hep %80
ba arımın üzerinde kalmı tır. Zaten, 4 harften olu an birlik, 30.000
cümlelik talim düzeyinde ve sonrasında %85 ba arımının hep üzerinde
kalmı ve son olarak 45.000 cümlelik talim derlemi boyutunda, %85,92
ba arım ile, sınamanın en yüksek de erini olu turmu tur. Sondan 5 harf
alınarak olu turulan birlik için, 42.500 cümlelik talim düzeyinde, %85
ba arım yakalanmı tır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
228
Markov zinciri dil modelinin, 1. derecesi için yapılan sınamada
harf sayısı bire e it birlik için her talim derlemi boyutunda tutarlı sonuç
alınmasının sebebi, deneysel olasılık da ılımına, yani derlemimiz için
tek harf uzunlu undaki birli in gerçek olasılı ına küçük talim
boyutlarından itibaren ula ılmasıdır. ki ve üzeri harf sayısı için
deneysel olasılı a yakınsamanın, talim derleminde daha büyük
boyutlarda gerçekle mesi ise istatistiksel açıdan beklenen bir sonuçtur.
Çünkü, harf sayısı arttıkça, olasılı ı belirlenecek farklı durum sayısı
artmaktadır, yani durum ba ına dü en gözlem sayısı dü mektedir. Bu
durum aynı zamanda gözlenmemi durumlar için devreye giren
yumu atma yöntemine daha çok ba vurulması anlamına gelmektedir.
Eldeki verilerin ı ı ında, bir harf uzunlu unun en yüksek ba arımda
olması durumuna sebep olarak, yumu atma yöntemini, elimizdeki
derlemi, uyguladı ımız yöntemi veya belirleyicili in genel ba arımda
olumsuz yönde etki etti ini önerebiliriz. Ancak, ba lamın bir kelime
daha arttırılması ile, yani 1. derecede bir adım geçmi e yönelinmesi ile,
durumun de i mesi, yani en yüksek ba arımın dört harf uzunlu undaki
birli e ait olması ve ba arımda genel anlamda geli me kaydedilmesi,
sorgulanması gereken ilk konu olarak yumu atma yöntemini ortaya
çıkartır. Fakat, yumu atma yöntemleri bu tezin kapsamına
girmemektedir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
229
10. GENEL STAT ST KLER
Tez kapsamındaki çalı malarda üç Türkçe, üç de ngilizce derlem
olmak üzere toplam altı derlem kullanılmı tır. Bu derlemlerin genel
özellikleri ve istatistikleri di er çalı malara temel te kil edece inden
dolayı toplu halde bu bölümde ele alınacaktır. Türkçe için kısa adları
BilTD, OSTAD ve ODTÜ olan üç derlem vardır. BilTD ve OSTAD
elimizdeki dilbilimsel özellikleri i aretlenmi derlemlerdir. ODTÜ
derlemi dilbilimsel özellik i aretlemesi olmayan ancak boyut olarak en
büyük derlemimizdir. Sadece derlem içindeki belgeler birbirinden
ayrı tırılmı ve her belgenin genel yapısal özellikleri i aretlenmi tir.
aretlenen yapısal özellikler çok detaylıdır: belgenin türü (makale,
roman, haber v.s.), ba lı ı, yazarı, yayın evi, basım tarihi, kelime sayısı
v.s. gibi belgenin genel özellikleri ve paragraf sınırları, atıflar gibi yazı
içindeki i aretlemeler yapılmı tır. BilTD ise ODTÜ derlemi kadar
yapısal özellik i aretlemesine sahip de ildir. Ancak, BilTD derleminde
her kelimenin biçimbirimsel analizi de yapılmı tır. Ayrıca, belge
sınırları, ba lık ve cümle sınırları da i aretlenmi tir. OSTAD aslen
ODTÜ derleminden seçilen bazı belgeler ve bu belgelerin içerisinden
seçilen bazı paragraflardan olu turulmu tur. OSTAD derleminde de,
BilTD derleminde oldu u gibi her kelimenin biçimbirimsel analizi
yapılmı tır. Ayrıca, kelime gurupları belirlenmi , her kelime veya
kelime gurubunun sözdizimsel cümle analizi yapılmı tır, yani cümle
unsurları (fiil, fail, nesne v.b.) i aretlenmi tir. Aslen, OSTAD ile BilTD
arasındaki tek fark sadece dilbilimsel çözümleme esasında de ildir.
OSTAD elle i aretlenmi tir. Oysa BilTD, otomatik i aretleme ile
olu turulmu tur. Dolayısı ile, OSTAD, dilbilimsel özelliklerin
belirlenmesinde olu abilecek yorum farkı dı ında hatasızdır! Fakat
BilTD, her i aretli özelli i için belli bir miktar hata payı ta ımaktadır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
230
Bu üç derlemin özet istatistikleri, toplu halde Çizelge 10.1.’de tablo
eklinde verilmi tir.
Çizelge 10.1. BilTD, ODTÜ ve OSTAD derlemlerinin genel özellikleri.
“*” karakteri olan hücreler derlemlerin söz konusu
özelli inin belli olmadı ını gösterir.
Birlik Sayısı
Derlem
Harf Rak+Nok Toplam
51,209
13,700
64,909
OSTAD
587,277
124,836
712,113
BilTD
1,924,653
431,351 2,356,004
ODTÜ
569,887
3,133,026
Toplam 2,563,139
*
*
Birle ik 2,511,930
Kelime Gövde Belge Parag Cümle
17,487
5,201
33
94,230
20,268
2,383
*
978
58,356
200,048
*
2,457
7,262
48,070
*
311,765
25,469
3,394
60,813
55,332
234,843
21,095
*
*
*
Çizelgede, “Birlik Sayısı” ba lı ı altında üç sütün bulunmaktadır
(Birlik terimini, derlem içindeki yazıda geçen herhangi bir gurup simge
toplulu u için kullanıyoruz, yani kelimeler, rakamlar, noktalama
i aretleri v.s.). “Harf” sütunu bu birliklerden yalnızca alfabe
karakterleri ile olu turulmu olanları, “Rak+Nok” sütunu ise
birliklerden, rakamla olu turulmu olanları ve noktalama i aretlerini,
“Toplam” sütunu ise, yalın olarak bu birlik sayılarının toplamını
göstermektedir. “Kelime” sütununda, her derlemde bulunan farklı birlik
sayısı (sadece harf birlikleri için) ve “Gövde” sütununda da,
derlemlerdeki farklı gövde sayıları verilmi tir. Bu sütunlarda verilen
de erler aslen derlemlerin kelime zenginli ini, yani kelime da arcı ını
göstermektedir. BGG sistemlerinde bu sayılar, özellikle kelime sayısı
önemlidir. Türkçe için gövdeleme i leminin depolama açısından
önemini de, kelime ve gövde esasındaki boyut farkı ortaya
koymaktadır. Aynı ekilde, “Belge”, “Paragraf” ve “Cümle”
sütunlarında derlemlerin söz konusu özelli e kar ılık gelen de erleri
vardır. Çizelgede, “Toplam” satırının altında verilen bir de “Birle ik”
ba lıklı satır bulunmaktadır. Bu satırdaki de erler, üç derlem belirli
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
231
özellikleri göz önüne alınarak harmanlanınca, yani birle tirilince elde
edilen yeni derlemin, yani birle ik derlemin (BirTD) özelliklerini
vermektedir. Örne in, sadece kelime sayıları üzerinden yapılacak
çalı malar için BilTD ve ODTÜ harlamanı olu turulmu tur. OSTAD,
ODTÜ derleminin zaten bir parçası oldu undan, bu harmanda tabii ki
yer almayacaktır. Dolayısı ile, birle ik derlemin harf birli i sayısı,
BilTD ve ODTÜ toplamına, yani 2.511.930’a e it olmaktadır. Bu
birle ik derlemin, kelime da arcı ı boyutu ise, 234.843’tür. Fakat,
gövde esasında bir çalı ma için, ODTÜ derlemi harmana
katılamayacaktır, dolayısı ile birle ik derlem bu kez BilTD ve OSTAD
derlemlerinden olu acak, birlik sayısı 638.486, gövde olarak kelime
da arcı ı 21.095 olacaktır. Bu harmanlama, incelemenin özelliklerine
uyan derlemlerle, tez içerisinde hep benzer ekilde yapılmaktadır.
Genel istatistiklerin yanında, derlemlerin olu turuldu u belge
türleri de önemli bir konudur. Genel kabullenme, belgelerin içeri ine
ba lı olarak ta ıdıkları enformasyon de erlerinin de, de i ti i
yönündedir. Örne in makale, gazete yazıları gibi belgeler gerçek ki i,
kavram ve olaylarla ilgili oldukları için ta ıdıkları enformasyon
açısından roman, deneme gibi hayali ki i ve olayları içeren belgelerden
daha farklı ekilde ele alınırlar. Dilbilim çalı malarının kullanılı
amaçlarına uygun ekilde belge türü üzerinden derlemler olu turulması
gereklili i de vardır.
Elimizdeki derlemler, belge türleri açısından zengindir. ODTÜ
derlemi hemen her tür belgeyi belirli oranlarda içermektedir. ODTÜ
derleminde bulunan belge türleri ekil 10.1.’de verilmi tir. OSTAD
derlemi, ODTÜ derleminden bazı belgelerin belirli paragrafları alınarak
olu turulmu tur. BilTD ise, sadece gazete yazılarından olu mu tur.
Yani tek bir belge türüne sahiptir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
232
Haber
42%
Makale
8%
Ara tırma
5%
Söyle i
1%
Kö e Yazısı
8%
Öykü
11%
Di er
3%
Gezi Yazısı
2%
Deneme Roman
7%
13%
ekil 10.1: ODTÜ derlemindeki belge türleri
OSTAD derleminde de, ODTÜ derlemindeki belge türü çe itlili i
korunmu tur. ekil 10.2.’de de, OSTAD için belge türleri ve oransal
da ılımları gösterilmi tir.
Haber
28%
Ara tırma
6%
Makale
9%
Roman
18%
Öykü
24%
Gezi Yazısı
3%
Deneme
12%
ekil 10.2: OSTAD derlemindeki belge türleri
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
233
10.1. Tanımlayıcı statistikler
BilTD, ODTÜ ve OSTAD derlemlerinin ihtiva etti i birlik,
kelime ve gövde sayılarının toplam (birle ik de il yalın toplamlar)
üzerinden, göreceli oranları ekil 10.1.1.’de bindirilmi sütunlar
çizgesi olarak verilmi tir.
100
75
64
80
90
80
70
60
50
40
20
DERLEM
30
30
ODTÜ
23
20
BilTD
10
6
0
BIRLIK_H
KELIME
OSTAD
GÖVDE
ekil 10.1.1 : BilTD, ODTÜ ve OSTAD derlemlerinde bulunan birlik (harf), kelime
ve gövde sayılarının toplam üzerinden göreceli oranları. Sütunlardaki
bölümler derlemleri, rakamlar toplam üzerinden oranları (%) temsil
etmektedir. Gövde sütunu ODTÜ derlemini içermez.
ekilde, ODTÜ derleminin biçimbirim analizi olmadı ı için
gövde sayısı da yoktur (en sa daki sütun). Gövde sütunu, yalnızca
BilTD ve OSTAD derlemlerini, sadece iki derlemin toplamı üzerinden
oransal olarak vermektedir. Burada kayda de er özellik, derlemlerin
yazım ekli olarak kelime zenginliklerini ortaya çıkaran, “kelime”
sütununda görülmektedir. Derlemler, toplam birlik sayıları ile orantılı
olarak kelime zenginli ine katkıda bulunmamaktadır. BilTD yalın
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
234
boyut oranından (%23), daha fazla bir oranda (%30) katkıda
bulunurken, ODTÜ derlemi yalın boyut oranından (%75), daha dü ük
bir oranda (%64) katkı sa lamaktadır. Ancak bu oranlar, bir çıkarım
yapabilmek için henüz güvenilir de ildir, sadece fikir vericidir. Çünkü
OSTAD derlemi, bildi imiz gibi ODTÜ derleminin bir parçasıdır. Aynı
durumun birle ik derlem, yani BirTD derlemi üzerinden incelenmesi
güvenilir sonuçları verecektir. BirTD derlemi üzerinden, kelime ve
gövde için tanımlayıcı istatistikler, sırasıyla Çizelge 10.1.2 ve ekil
10.1.3.’de verilmi tir. BirTD derlemi olu turulurken, BilTD, ODTÜ ve
OSTAD derlemlerinden hangisinin, kelimelerin kayna ı oldu unun da
kodlaması söz konusu olmu tur, bu amaçla basit bir kodlama, Denklem
10.1.1’de verildi i ekilde kullanılmı tır.
Derlem = BilTD + (10 * ODTU ) + (100 * OSTAD)
(10.1.1)
Denklemde verilen kodlamada, e er kelime bir derlemde varsa,
denklemde BilTD, ODTÜ ve OSTAD yerine bir, e er yoksa sıfır
konarak, BirTD içindeki her kelimeye kaynak derlemi de erlerinden 1,
10, 100; 11, 110, 101 ve 111 birisi atanmı tır. Anla ılaca ı gibi,
de erlerden ilk üçü sadece bir tek derlemde gözüken kelimeleri,
di erleri ise derlemlerin olası tüm kesi im kümeleri içinde gözüken
kelimeleri belirler. Örne in bir kelimede atanmı derlem de eri 111 ise,
bu kelime her üç derlemde de, e er 100 ise sadece OSTAD derleminde
var demektir. Bu sayede hem bireysel, hem de kesi im içindeki
kelimeler rahatlıkla belirlenebilmektedir. BirTD derlemini olu turan
kelimelerin, kaynak derlemleri açısından sayısal de erler, Çizelge
10.1.1.’de tablo halinde verilmi tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
235
Çizelge 10.1.1: BirTD için kelimelerin geldikleri derlemler üzerinden
istatistikleri.
“Derlem”
sütunundaki de erler,
Denklem 10.1.1’den elde edilmi tir.
DERLEM
1
10
11
110
111
Toplam
Frekans
34,795
134,639
47,931
5,974
11,504
234,843
(%)
14.82
57.33
20.41
2.54
4.90
100
Yı ın (%)
14.82
72.15
92.56
95.10
100.00
Çizelgede, kelimelere atanan iki derlem kodlama de eri
görüldü ü gibi yoktur. Bunlar 100 ve 101’dir. ODTÜ derlemi, OSTAD
derlemini tamamen kapsadı ı için, olmayan bu iki derlem kodu
unlardır: “100”, yani sadece OSTAD’da olup, BilTD ve ODTÜ’de
olmayan; “101”, yani BilTD ve OSTAD’da olup, ODTÜ’de olmayan.
Tabii ki bu iki durum imkansızdır. O yüzden frekansları, yani gözlenme
sıklıkları sıfırdır ve de erlendirme dı ı kalmı lardır.
70
60
57
50
40
30
Oran (%)
20
10
20
15
5
0
1
10
11
110
111
DERLEM
ekil 10.1.2 : Birle ik derleminin (BirTD), kelime esasında kelime da arcı ını
olu turan kaynak derlemler ve oransal katkıları.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
236
Birle ik derlemin kelime da arcı ına, en büyük katkı, beklendi i
gibi ve bir önceki de erlendirmenin aksine, tek ba ına yakla ık %57 ile
ODTÜ derleminden (10) olmu tur. Yalnız ba ına BilTD derlemi (1)
yakla ık %15 katkıda bulunmu tur. ki derlemin ortak katkısı (11) ise
yakla ık %20 civarıdır. OSTAD ile ODTÜ’de olup BilTD derleminde
olmayan kelimeler (110) yakla ık %3’dür, aslen bu sayı ODTÜ
derleminin yalnız katkısı ile birlikte de erlendirilmelidir (%60).
Üçünün kesi im kümesinde (111) ise toplam kelime sayısının yakla ık
%5’ bulunmaktadır. Bu oran da aslen, yalnızca BilTD ile ODTÜ
ortaklı ıdır (11) ve toplama eklenebilir (%25). OSTAD katkısı ODTÜ
içine dahil edilmi ekilde özetleyecek olursak, BilTD tek ba ına
kelime da arcı ına %15, ODTÜ tek ba ına %60 ve birlikte %25
katkıda bulunmu lardır.
Kelimeler açısından elimizdeki üç derlemin durumu budur, bir de
aynı derlemleri gövdeler esasında incelemekte fayda vardır. Ancak, bu
noktada elimizdeki en büyük derlem olan ODTÜ, biçimbirimsel analizi
olmadı ı için, onun çok küçük bir parçası olan OSTAD ile yetinmek
zorundayız. Bu kez birle ik derleminin, sadece BilTD ve OSTAD
derlemlerinden olu tu u durumu göz önüne alınarak Denklem
10.1.1.’de verilen kodlamada ufak bir de i iklik yapılmı , denklemden
100 katsayısı çıkartılıp, ODTÜ yerine OSTAD alınarak yeni birle ik
derlem için gereken kodlama elde edilmi tir (Derlem = BilTD + (10 *
OSTAD)). Böylece birle ik derlemin her kelimesi için, üç de er
üretilmektedir: 1 (BilTD), 10 (OSTAD) ve 11 (hem BilTD hem
OSTAD). Çizelge 10.1.2.’de gövdelerle ilgili istatistikler verilmi tir.
ekil 10.1.3.’de de, çizelgede verilen istatistiklerin çizgesel olarak
gösterimi yapılmı tır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
237
Çizelge 10.1.2 : Gövde esasında BirTD derlemi için tanımlayıcı
istatistikler.
DERLEM
1
10
11
Total
Frekans
15,894
827
4,374
21,095
(%)
Yı ın (%)
75.34
75.34
3.92
79.27
20.73
100.00
100
Çizelgeden de anla ılaca ı gibi, oranlar nispetinde, gövdeler de
kelimelerden, kelime da arcı ına yaptıkları katkı açısından bir farklılık
göstermemektedir.
80
75
60
40
Oran(%)
20
21
0
1
4
10
11
DERLEM
ekil 10.1.3 : BilTD ve OSTAD derlemlerinin, gövdeler esasındaki kelime
da arcı ına yaptıkları katkılar.
BGG sahasındaki yöntemlerin kullandıkları kelime da arcı ının
boyutları, sistemlerin depolama ve verimlilik meseleleri açısından
önemlidir. Kelime da arcı ı ile BGG sistemleri arasındaki ili ki,
belgelerin indeks terimler ile temsil edilmesi, indeks terimlerin de
belgeler içinde geçen birliklerden olu turulması sebebine dayanır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
238
Dolayısı ile, kelime da arcı ının, kolay yönetilebilir boyutların üzerine
çıkması, sistemlerin çok büyük belge sayıları ile u ra mak zorunda
oldukları göz önünde tutulunca, kabul edilemez bir durum olmaktadır.
E er dilbilimsel özellikler ile geri-getirim, bu tezde oldu u gibi
öncelikli bir konu ise, hesaplamalı dilbilim içinde kelime da arcı ı,
yani bir sözlük kullanan mevcut yöntemlerin hemen hiç birinin
do rusal hesaplama karma ıklı ına sahip olmaması da göz önünde
bulundurulması gereken bir ba ka boyuttur: BGG sistemlerinde
dilbilimsel yöntemlerin kullanımı ile bir geli me kaydedilmi olsa dahi,
yöntemlerin kullanılabilirli i açısından hesaplama karma ıklı ı, mesele
olmaya devam edecektir (en azından u anki teknoloji için). Hesaplama
karma ıklı ının önemli etmenlerinden biri, yöntemde kullanılan kelime
da arcı ı boyutudur. Aslen, dilbilim çevrelerinde kelime da arcı ı
boyutu açısından yaygın olan görü , da arcı ın boyutlarının, derlem
boyutu sonsuza giderken belirli bir sabit de ere ula aca ı, yani genel
anlamda kapalı bir kelime da arcı ı oldu udur. Bu kabullenme
do ruysa, kelime da arcı ının boyutu hesaplama karma ıklı ı
açısından sabit olacak, dolayısı ile sadece depolama ile alakalı bir
meseleye dönü ecektir. Ancak, yaptı ımız çalı malar, Türkçe için
kapalı
kelime
da arcı ı
kabullenmesi
yapılamayaca ını
göstermektedir20. Türkçe kelime da arcı ının derlem büyüklü ü ile ne
tür bir ili ki sergiledi i, tüm bu meselelere ı ık tutaca ı için
tanımlanması gereken bir konudur ve ilerleyen kısımlarda detaylı
olarak incelenmektedir.
20
Aynı bulgular ngilizce için de deneysel olarak gösterilmi tir (Mandelbrot, 1961;
Kornai, 2002).
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
239
10.2. Türkçe için Zipf Güç Kanunları ncelemesi
Türkçe için, Zipf güç kanunları ne kadar uyumludur, parametreler
için de erler nelerdir gibi soruların cevaplarını bu bölümde verece iz.
Bu amaçla, önce Zipf birinci kanunu (Bölüm 7.2.1), elimizdeki BilTD,
ODTÜ ve OSTAD derlemlerinin her birine, daha sonra da birle ik
derleme uygulayaca ız. Böylece de i imleri ve derlemler arası
farklılı ı da gözlemleyebilece iz. Ancak, öncelikle yapaca ımız
incelemeye benzer ara tırmaların alt yapısını olu turmak için, birkaç
genel istatistiksel konuyu tanıtmamız gerekmektedir.
10.2.1. statistiksel ncelemeler için Alt Yapı
statistiksel de erlendirmelerin temelinde, belirli bir kitlenin
(population) özellikleri ile ilgili, nicel veya nitel tanımlamaları
çıkarmak veya belirli bir kitle özelli inin bilinmeyen de erlerini tahmin
etmek vardır. E er bir “tahmin” yapmak söz konusu ise, kitlenin
tahmin edilmek istenen özelli i ilgili kuramsal bir model, yapılacak
tahminlerin hesaplamaları için gereklidir. statistik ile kitle özelli i
tahminlerinde kullanılan modeller matematikseldir. Böyle bir
matematiksel model üzerinden, kitlenin belirli bir özelli in tahmini
de erini hesaplamak için gerekli olan veridir. Veri ise, kitleden belirli
ilkelere ba lı kalınarak seçilen ve boyut olarak kitleden çok daha küçük
olan bir ö eler toplulu u üzerinden elde edilmektedir. te, bu kitleden
boyut olarak küçük olan, kitlenin bilinmeyen özelli inin de er tahmini
için hesaplamalarda kullanılan, alt kitle gurubuna örneklem (sample)
denir. statistiksel incelemeler için verilen bu öykü, tüm do al olaylar
için genel geçerdir. De i ik kitle özellikleri ve artlar için sadece
matematiksel model ve örneklem seçimi için esas alınacak ilkeler
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
240
de i iklik gösterirler. E er örnek olarak yazılı bir dil için kurgulama
yapacak olursak, kitlemiz aslen yazılmı olan ve yazılabilecek tüm
metinlerden
metinlerdir! Örneklem ise, daha önce yazılmı
olu turaca ımız bir derlem olacaktır. Aynı ekilde, bir ba ka bakı
açısından, söz gelimi, kitlemiz önceden yazılmı belgelerden olu an tek
bir derlem de olabilir, mesela ODTÜ derlemi kitlemiz olabilir. Bu kez
örneklem, ODTÜ derlemindeki belgelerin belirli bir kısmı ile
olu turulacak alt guruplar olacaktır. Özetle kitle, tahmin edilmek
istenen özelli in ne oldu una göre, örneklem ise kitlenin ne oldu una
göre de i im gösterir. Demek ki, BilTD, ODTÜ veya OSTAD tahmin
edece imiz özelli in tanımına göre kitle veya örneklem olarak
alınabilir.
Olasılı a
dayalı
iddiaların
deneysel
temelinde,
frekans
oranlarının sabitle mesi kanunu vardır. Bu ilke, örne in herhangi bir
kelimenin (w), örneklem içindeki göreceli frekansının f n = Fn (w) / n ,
örneklem büyüklü ü (n) sonsuz giderken, f (w) gibi sabit bir göreceli
frekansa e it olaca ını söylemektedir. Bu sabit göreceli frekansa gerçek
olasılık adı da verilmektedir. Bir ba ka söyleyi le, örneklem büyüklü ü
yeterince büyütülünce örneklem içindeki göreceli frekanslar, yani
olasılıklar, 0 ≤ f ( w) ≤ 1 gibi sabit de erlere yakınsarlar, bu sabit
de erler de tabii onların kitle içindeki gerçek olasılıklarıdır. Bu ilkenin
geçerlili i için, geçerli olması gereken en kritik kabullenme, kitle
özelli inin alabilece i olası tüm de erlerin önceden belirli veya
hesaplanabilir oldu udur (gerçek sayılar söz konusu ise 0 ≤ x ≤ ∞ gibi
bir aralıkta oldu u veya bir zar atıldı ında gelebilecek sayıların 1 ile 6
arasında olabilece inin bilinmesi gibi.). Yani, tahmin edilecek özelli in
alabilece i de erlerin, sayılabilir ve sınırlı bir kümeden veya sayılabilir
ve sınırsız bir kümeden gelmesi gerekir, sayılamaz ve sınırsız
kümelerle çalı ıldı ında durum tamamen de i mektedir: deneysel bir
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
241
olasılıktan, yani yakınsanacak bir sabit gerçek olasılıktan bahsetmek
mümkün de ildir. te bu kabullenme, hesaplamalı dil bilimde deneysel
yöntemler kullanılacaksa, neden kapalı kelime da arcı ına gereksinim
duyuldu unun sebebini de açıklamaktadır. Demek ki, boyutu devamlı
büyüyen bir derlem, örneklem olarak alındı ında, kelimelerin gözlenme
sıklıkları, yani frekansları veya göreceli frekansları açısından öyle bir
iddianın geçerlili ini deneysel sonuçların anlamlılı ı açısından
sorgulamak gerekir: E er kelime da arcı ı kapalı de ilse, toplam
olasılıktan (yani bir), örneklem büyüklü ü arttıkça her kelime ba ına
dü en payın hiçbir zaman sıfır olmayacak ekilde giderek dü mesi
gerekir. Dolayısı ile, hiçbir kelimenin olasılı ının sabitlenmemesi,
derlem büyüklü ü arttıkça de i mesi gerekir.
Deneysel
hesaplamalı
dilbilim
çalı malarında,
örneklem
büyüklü ü arttıkça kelime frekansları büyük de erlere çıktı ı için,
aslında yalın ekilde frekanslara bakarak bir sabite yakla ıp
yakla madıkları, gözlemlenerek anla ılamaz. Zipf ilkelerinde verilen
ifadelerin, log-log ölçe inde incelenmesi de bu görselli in
gereklili indendir. Ço u nicel dilbilimsel uygulamada, üstel olarak
artan boyutlarda derlemler kullanılır ve Zipf ifadesine yakın ili kiler
4
5
genellikle 10 -10 aralı ındaki bir büyüklükte yakalanır. Çünkü, küçük
derlem boyutlarında kelime da arcı ının büyüme hızı oldukça
yüksektir. Dolayısı ile, Zipf kanunlarında verilen ifadelerdeki, kapalı
kelime da arcı ı kabullenmesine yakınsama ancak büyük derlemlerde
söz konusudur.
Zipf güç kanunları ile ilgili istatistiksel çalı mamızda, o anki
inceleme esaslarına uyması ko ulu ile, mevcut tüm derlemlerden
yararlanılacaktır: BilTD, ODTÜ, OSTAD ve birle ik derlem BirTD. Bu
bölümde, derlemler üzerinden sınayaca ımız iddialar, Zipf birinci
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
242
kanunu ve birinci kanun için Mandelbrot ifadesi olacaktır (Bölüm
7.2.1). Mandelbrot ifadesindeki W parametresi için en az 3, uygun olan
derlem boyutlarında da 4 veya 5 sabit de er üzerinden sınama
yapaca ız: 10, 100 ve 1000; 10,000 veya 100,0000. Mandelbrot özgün
çalı masında ngilizce için, W=100 de erinde ifadenin en uygun halini
elde etti ini belirmi tir. Biz de, Türkçe için W parametresinin en uygun
de erini tahmin edece iz. Kelimeler esasında yapılacak bu çalı ma,
aynı zamanda gövdeler için de yapılacaktır. Ancak, tezin hedefinin,
BGG sistem ba arımlarının dilbilimsel özellikler kullanılarak
arttırılması oldu u dü ünüldü ünde, tüm durumların detaylı
açıklamalarını vermek tez kapsamımızı oldukça a acaktır. O yüzden
sadece BilTD derlemi için detaylı inceleme yaparak, de erlendirme için
önemli noktaları belirttikten sonra, geri kalan derlemler için sadece
parametre de erleri ve sıra dı ı veya önemli buldu umuz detayları
belirtmekle yetinece iz.
10.2.2. BilTD Derleminin Zipf Birinci Kanun ncelemesi
BilTD derlemi biçimbirimsel dilbilim analizinden geçirildi i için,
hem kelime hem de gövde esasında Zipf ve Mandelbrot ifadelerinin
sınamaları yapılmı tır.
10.2.2.1 Kelime esasında inceleme
Zipf birinci kanun ve Mandelbrot ifadesinin, BilTD derlemi için
uyum de erleri Çizelge 10.2.2.1.1.’de tablo halinde verilmi tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
243
Çizelge 10.2.2.1.1 : BilTD derlemi için, kelime esasında Zipf ve
Mandelbrot ifadeleri ile do rusal ili ki uyum
sınamaları.
Model
Zipf
W=10
W=100
W=1,000
W=10,000
Rsq
0.995
0.996
0.998
0.995
0.949
N
94,228
94,228
94,228
94,228
94,228
F
1.900E+07
2.400E+07
5.700E+07
1.800E+07
1.749E+06
Sigf
0.000
0.000
0.000
0.000
0.000
b0
5.3089
5.3332
5.4499
6.0148
8.8358
b1
-1.0933
-1.0986
-1.1235
-1.2417
-1.8094
Çizelgede BilTD derlemi için Zipf ve Mandelbrot ifadelerinin
tüm uyum de erlendirmeleri topluca verilmi tir. Bundan sonraki tüm
derlemlerde de yine topluca, aynı biçimde verilecektir. Dolayısı ile, bu
çizelgede açıklananlar aksi belirtilmedikçe di er derlem çizelgeleri için
de geçerlidir. “Model” sütununda, uyum için sınanan ifadenin kısa adı
verilmi tir: Zipf, Zipf birinci kanunu; W=10, Mandelbrot ifadesinde W
parametresi de erinin 10 oldu u durum; aynı ekilde W=100, 1,000 ve
10,000 satırları da Mandelbrot ifadesi içindir. “Rsq” (R2) sütunu
uyumun belirleyicilik katsayısıdır (coefficient of determination). Aslen
bu de er do rusal regrasyon (linear regression) yöntemindeki çoklu
korelasyon katsayısının ( − 1 ≤ R ≤ 1 ), yani tahmin edilen de erler ile
gerçek de erler arasındaki kar ılıklı do rusal ili kiyi temsil eden
de erin (correlation) karesidir. De er ne kadar büyükse, do rusal ili ki
o kadar güçlüdür. R2 de erinin bir olması veri içindeki tüm de i imin
belirlendi ini, yani model ile tam temsil edildi ini; sıfır olması modelin
de i imi açıklayamadı ını gösterir.
“N” sütununda uyum için
de erlendirmeye alınan kelime sayısı, daha do rusu kelime da arcı ı
boyutu verilmi tir (e er gövde esasında de erlendirme yapılıyorsa,
gövde sayısı olacaktır). “F” sütununda, do rusal regrasyona ait
ANOVA21 tablosunun, F istatistik de erleri listelenmi tir. Verilen
21
ANOVA, ngilizce’si Analysis Of Variance (varyans analizi) olan yöntemin kısa
adıdır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
244
do rusal ili kiye dayalı, model uyum de erlerinin, istatistiksel açıdan
anlamlı olması için, F istatistik de erinin belli bir anlam düzeyi için,
örne in α=0.001 de eri için, kritik bir e ik de erden büyük olması
gerekir. Zaten “Sigf” sütunundaki de er hangi anlam düzeyinde verilen
F istatistik de erinin, söz konusu e ik de erden büyük oldu unu
göstermektedir. Tabloda görüldü ü gibi, tüm “Sigf” de erleri noktadan
sonra üç basamak hassasiyetinde sıfırdır, yani verilen F de erlerinin
hepsi α=0.001 anlam düzeyinin e ik de erinden büyüktür. Dolayısı ile
istatistiksel olarak anlamlıdır. Çizelgede, son iki sütun olan, “b0” ve
“b1” ise, y = b0 + b1 ⋅ x eklinde bir do rusal ili ki modelinin kar ılık
gelen de erlerinin listesidir. Bu do rusal modelde, “b0” y-eksenindeki
kaydırma miktarı (HN), “b1” ise do runun e imidir (BN). Tabloda, R2
de eri kalın biçimde yazılı olan satırdaki, daha do rusu en büyük R2
de erine sahip satırdaki sabitler, incelenen derleme en uygun olan
modeli ve parametre de erlerini gösterir. BilTD derleminin kelimeleri
için, W=100 parametre de eri olan Mandelbrot ifadesi, en uygun
modeldir.
Görsel kar ıla tırma açısından,
için,
ekil 10.2.2.1.1.’de Zipf ifadesi
ekil 10.2.2.1.2.’de de Mandelbrot ifadesinin W=100 parametre
de eri için, modellerin tahmin etti i ve BilTD derleminde gözlenen
de erlere ait yayılım çizgeleri (scatter plot) verilmi tir. Mandelbrot,
ngilizce için, W parametresinin de erini 100 ve “b0” parametresinin
de erini 1.15 olarak vermi tir. BilTD derlemi, bu açıdan ngilizce ile
paralellik göstermi tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
245
ekil 10.2.2.1.1: BilTD derleminin, kelime esasında Zipf ifadesi ile uyumu. Kelime
frekanslarının logaritmaları (log_f) y-ekseni, frekanslara ait sıra
numaralarının logaritmaları (log_r) x-eksenidir. Düz çizgi, Zipf ifadesi ile
tahmin edilen de erlerdir.
ekilde, Zipf ifadesinin, Mandelbrot’un belirtti i gibi, BilTD
derlemindeki kelime frekansları ile sıra numaraları arasındaki ili kiyi
özellikle küçük sıra numaraları için (çizgenin sol üst kö esi) pek iyi
ekilde temsil edemedi i rahatlıkla görülebilmektedir. Küçük sıra
numaraları derlemde en sık gözlenen kelimelerdir ve Zipf ifadesi bu
kelimelerin frekanslarının çok üzerinde tahminler yapmı tır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
246
ekil 10.2.2.1.2 : BilTD derleminin, kelimeler esasında Mandelbrot ifadesinin W=100
parametre de eri için uyumu.
Modeller üzerinde yapılan hesapların da gösterdi i gibi, ekilde
verilen Mandelbrot ifadesi, Zipf ifadesinden çok daha iyi tahmin
de erleri üretmi tir.
Her iki ekilde de, derlemdeki kelime frekanslarının (y-ekseni)
orta noktasından, a a ı ve yukarı ilerledikçe, sıra numaraları arasında
atlamalar olmaktadır. Atlamanın büyüklü ü, nokta üzerine yatay bir
çizgi ile betimlenmi tir. Çizgi ne kadar geni se, sıra numaraları
arasındaki atlama o kadar büyüktür. Sıra numarasındaki atlamanın
sebebi, derlemde aynı frekansa sahip olan kelimelere ortak bir sıra
numarası atanmasındandır. Bu ortak sıra numarası, e itli in ba ladı ı
noktadan, bitti i noktaya kadar olan gerçek sıra numaralarının
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
247
ortalamasıdır. Örne in 2, 3, 3, 4 de erlerinin sıra numaraları: 1, 2.5, 2.5
ve 4 olacaktır. Elbette, aynı de erlere sıra numarası vermenin tek yolu
bu de ildir ve herhangi birisi buradaki gibi incelemeler için
kullanılabilir. Ancak, alınan sonuçlar aynı, sonuçları yorumlama ekli
farklı olacaktır. Teknik sebeplerden bu ekilde bir sıralama, bizim için
en uygun olandır.
10.2.2.2 Gövde esasında inceleme
BilTD derlemini olu turan gövdeler için, Zipf ve Mandelbrot
ifadelerinin do rusal ili ki uyum sınamasının sonuçları, Çizelge
10.2.2.2.1.’de tablo halinde verilmi tir.
Çizelge 10.2.2.2.1: BilTD derlemi için, gövde esasında Zipf ve
Mandelbrot ifadeleri ile do rusal ili ki uyum
sınamaları.
Model
Zipf
W=10
W=100
W=1,000
W=10,000
Rsq
0.974
0.979
0.993
0.994
0.933
N
20,266
20,266
20,266
20,266
20,266
F
7.466E+05
9.653E+05
2.683E+06
3.654E+06
2.807E+05
Sigf
b0
0.000 6.8477
0.000 6.9555
0.000 7.4187
0.000 9.5800
0.000 22.5267
b1
-1.6085
-1.6356
-1.7498
-2.2634
-5.1139
Çizelgedeki de erlerden de rahatlıkla görülebildi i gibi, BilTD
derleminin, kelime ve gövde esasında uyum parametreleri açısından
belirgin bir fark vardır. Bu farkın iki anlamı vardır. E er kelime
da arcı ı kapalı ise, gövde esasında kelime da arcı ı boyutu, kelime
esasında kelime da arcı ı boyutundan hem daha küçük olacak, hem de
daha küçük derlem büyüklüklerinde gerçek olasılıklara ula acaktır,
yani gövdelerin kelime da arcı ı gerçek boyutlarına daha hızlı
yakınsayacaktır. Fakat, e er kelime da arcı ı açıksa, gövdelerle
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
248
kelimeler arasında derlem büyüklü ü sonsuza giderken bir fark
kalmayacaktır, yani ikisi de durmadan artarak büyüyecektir.
BilTD derleminin, gövde esasında, Zipf ifadesi ile uyum çizgesi
ekil 10.2.2.2.1.’de ve Mandelbrot ifadesi ile, W=1000 parametre
de eri için uyum çizgesi de ekil 10.2.2.2.2.’de verilmi tir.
ekil 10.2.2.2.1: BilTD derleminin, gövde esasında, Zipf ifadesi ile uyum çizgesi.
ekilde görüldü ü gibi, gövdeler için Zipf ifadesi, BilTD
derlemindeki gövdelerin de i imini temsil etmekten oldukça uzaktır.
Özellik, ifade ile tahmin edilen frekans de erleri, yüksek frekanslı
gövdeler için gerçekle en de erlerin çok üzerinde kalmı tır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
249
ekil 10.2.2.2.2: BilTD derleminin, gövde esasında, Mandelbrot ifadesi ile W=1000
parametre de er için uyumu çizgesi.
Mandelbrot ifadesi, yazarın özgün çalı masında da belirtti i gibi,
derlemlerdeki gözlenme sıklı ı ile sıra numarası arasındaki ili kileri
Zipf ifadesinden her zaman daha iyi temsil etmekte, ek parametreleri ile
uyumu kolayla tırmaktadır.
10.2.3. ODTÜ Derleminin Zipf Birinci Kanun ncelemesi
ODTÜ derlemi, daha önce de belirtildi i gibi biçimbirimsel
analize sahip olmadı ı için, Zipf ve Mandelbrot ifadelerinin do rusal
ili ki uyumu için sadece, kelime esasında sınanabilmi tir. Sınama
sonuçları Çizelge 10.2.3.1.’de tablo halinde verilmi tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
250
Çizelge 10.2.3.1: ODTÜ derleminin, kelime esasında, Zipf ve
Mandelbrot ifadesi ile do rusal ili ki uyum
sınamaları.
Model
Zipf
W=10
W=100
W=1,000
W=10,000
W=100,000
Rsq
0.996
0.997
0.998
0.998
0.968
0.881
N
200,048
200,048
200,048
200,048
200,048
200,048
F
5.000E+07
5.900E+07
1.100E+08
8.000E+07
6.041E+06
1.487E+06
Sigf
b0
0.000 5.9173
0.000 5.9324
0.000 6.0078
0.000 6.3846
0.000 8.1909
0.000 19.3420
b1
-1.1429
-1.1459
-1.1610
-1.2353
-1.5814
-3.5950
ODTÜ derleminin boyutları, Mandelbrot ifadesi için W=105
seviyesindeki sınamanın da yapılabilmesine izin vermi tir. ODTÜ
derlemi, kelime esasında BilTD derlemi ile benzer ekilde, en yüksek
seviyedeki do rusal ili kiyi Mandelbrot W=100 parametre de eri için
vermi tir.
ekil 10.2.3.1’de Zipf ifadesi ile uyum çizge olarak da
verilmi tir.
ekil 10.2.3.1 : ODTÜ derlemin, kelime esasında, Zipf ifadesi ile uyum çizgesi.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
251
10.2.4. OSTAD Derleminin Zipf Birinci Kanun ncelemesi
OSTAD derlemi, ODTÜ derleminden alındı ı için, tabii olarak
geni letildi inde, ODTÜ derlemindeki özelliklere sahip olacaktır.
Mevcut hali ile, birinci güç ilkesine uyumu ve özellikleri hakkında fikir
edinmek için yine de sınanmı tır.
10.2.4.1 Kelime esasında inceleme
Çizelge 10.2.4.1.1’de OSTAD derleminin kelime esasında sınama
sonuçları tablo halinde verilmi tir.
Çizelge 10.2.4.1.1 : OSTAD derleminin, kelime esasında Zipf ve
Mandelbrot ifadesi ile do rusal ili ki uyum
sınamaları.
Model
Zipf
W=10
W=100
W=1,000
Rsq
0.999
0.998
0.989
0.944
N
17,476
17,476
17,476
17,476
F
2.700E+07
1.100E+07
1.579E+06
2.969E+05
Sigf
0.000
0.000
0.000
0.000
b0
3.1364
3.1828
3.3917
4.4435
b1
-0.7664
-0.7781
-0.8300
-1.0819
OSTAD derleminde en dikkat çeken özellik, Zipf ifadesinin en
yüksek uyumu göstermesidir. OSTAD derleminin boyut olarak, 104 ile
105 arasında kalması, söz konusu aralıkla ilgili istatistiksel alt yapı
anlatımında verilen tespiti de do rular niteliktedir: “Ço u nicel
dilbilimsel uygulamada, üstel olarak artan boyutlarda derlemler
kullanılır ve Zipf ifadesine yakın ili kiler genellikle 104-105
aralı ındaki bir büyüklükte yakalanır.”.
ekil 10.2.4.1.1.’de verilen
Zipf ifadesi ile uyum çizgesi, böyle bir dü ünceyi destekler niteliktedir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
252
ekil 10.2.4.1.1: OSTAD derlemin, kelime esasında, Zipf ifadesi ile uyum çizgesi.
10.2.4.2 Gövde esasında inceleme
Çizelge 10.2.4.2.1.’de, OSTAD derleminin gövde esasında
sınama sonuçları vardır.
ekil 10.2.4.2.1’de Zipf ifadesi ile tahmin
edilen de erlerle uyumun,
ekil 10.2.4.2.2’de de, Mandelbrot
ifadesinin, W=100 parametre de eri için tahmin edilen de erlerle
uyumun yayılım çizgesi verilmi tir.
Çizelge 10.2.4.2.1: OSTAD derleminin, gövde esasında Zipf ve
Mandelbrot ifadesi ile, do rusal ili ki uyum
sınamaları.
Model
Zipf
W=10
W=100
W=1,000
Rsq
0.969
0.979
0.992
0.973
N
5,199
5,199
5,199
5,199
F
1.631E+05
2.462E+05
6.865E+05
1.860E+05
Sigf
0.000
0.000
0.000
0.000
b0
4.4432
4.6184
5.3456
9.1818
b1
-1.1998
-1.2509
-1.4564
-2.4714
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
253
ekil 10.2.4.2.1: OSTAD derlemin, gövde esasında, Zipf ifadesi ile uyum çizgesi.
ekil 10.2.4.2.2 : OSTAD derleminin, gövdeler esasında, Mandelbrot (W=100) ifadesi
ile uyum çizgesi.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
254
OSTAD derleminin, gövde açısından yapılan sınamasının en
dikkat çekici noktası, büyük derleminin, yani ODTÜ derleminin
kelimeler esasındaki karakteristiklerine yakınsıyor olmasıdır.
10.2.5. Birle ik Derlemlerin Zipf birinci kanun incelemesi
Bu
bölümde,
BilTD,
ODTÜ
ve
OSTAD
derlemlerinin
harmanlanması ile olu turulan birle ik derlem, BirTD, Zipf birinci
kanunu ile uyum açısından incelenmi tir. Önceki incelemelerde,
derlemlerin bireysel uyum özellikleri elde edildi i için, bu inceleme ile,
kanunun uyumunda, büyüyen bir derlem açısından ne tür de i imler
oldu u da gözlenebilecektir. Kelime esasında yapılan incelemede
kullanılan birle ik derlem, BilTD ile ODTÜ harmanıdır. Gövde
esasında, birle ik derlem BilTD ve OSTAD harmanı ile elde edilmi tir.
Dolayısı ile, BirTD derleminin ba lama göre içeri i de i mektedir,
yani kelime esasında incelemede BilTD ve ODTÜ harmanı; gövde
esasında incelemede BilTD ve OSTAD harmanıdır.
10.2.5.1 Kelime esasında inceleme
Çizelge 10.2.5.1.1: BirTD derleminin, kelime esasında, Zipf ve
Mandelbrot ifadesi ile do rusal ili ki uyum
sınamaları.
Model
Zipf
W=10
W=100
W=1,000
W=10,000
W=100,000
Rsq
0.995
0.996
0.997
0.998
0.975
0.892
N
234,843
234,843
234,843
234,843
234,843
234,843
F
4.700E+07
5.300E+07
8.700E+07
1.400E+08
9.117E+06
1.943E+06
Sigf
b0
0.000 6.2635
0.000 6.2777
0.000 6.3493
0.000 6.7091
0.000 8.4196
0.000 18.6018
b1
-1.1915
-1.1944
-1.2085
-1.2786
-1.6030
-3.4286
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
255
BilTD boyut olarak, ODTÜ derleminin dörtte biri olmasına
ra men, birle ik derlemde etkisi büyük olmu tur. BilTD ve ODTÜ ayrı
olarak, Mandelbrot ifadesinin W=100 parametre de eri ile temsil
edilirken; birle ik olarak, uyumu W=1000 parametre de erine
sıçratmı lardır. Bu sonuç, derlem boyutunun artması açısından
de erlendirildi inde, kelime zenginli inde bir artı ı i aret etmektedir.
Kelime zenginli indeki artı demek, kelime da arcı ının boyutunda
artı demektir.
10.2.5.2 Gövde esasında inceleme
Çizelge 10.2.5.2.1 : BirTD derleminin, gövde esasında, Zipf ve
Mandelbrot ifadesi ile do rusal ili ki uyum
sınamaları.
Model
Zipf
W=10
W=100
W=1,000
W=10,000
Rsq
0.974
0.980
0.992
0.995
0.934
N
21,093
21,093
21,093
21,093
21,093
F
7.846E+05
1.009E+06
2.732E+06
4.054E+06
2.990E+05
Sigf
b0
0.000 6.8964
0.000 7.0017
0.000 7.4554
0.000 9.5706
0.000 22.1407
b1
-1.6127
-1.6390
-1.7505
-2.2515
-5.0134
Birle ik derlemin, gövde esasında uyumu da, bu kez kelimeler ile
paralellik göstermi tir. Derlem boyutunun artması, gövde esasında da
kelime
zenginli ini
aynı
ekilde
arttırmı tır.
Oysa,
bireysel
incelemelerde, gövdeler zenginlik açısından kelimelerden daha dü ük
de erlere sahip olmaktaydı. E imin 1 ve altındaki de erleri kapalı
kelime da arcı ına; birden büyük e im de, açık kelime da arcı ına
delildir. Bu noktadan hareketle, e er, e imin sayısal de eri, iki derlem
arasında, kelime da arcı ı boyutunun artı hızlarını kar ıla tırmak, yani
hangisinin daha zengin kelime da arcı ına sahip oldu unu ölçmek için
nicel bir ölçüt olarak kabul edilirse, gövde esasında e im (-2.2515),
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
256
kelime esasındaki e imden (-1.2786) büyük oldu u için: “gövde
esasındaki kelime da arcı ı, kelime esasındaki kelime da arcı ından,
boyut açısından geni lemeye daha meyillidir.” de denebilir.
10.3. ngilizce için Zipf Birinci Kanun ncelemesi
Türkçe için yaptı ımız incelemeleri, iddiaların asıl kayna ı olan
ngilizce için bir birle ik derlemde de yaparak, Zipf birinci güç kanunu
tartı mamızı bitiyoruz. Kullanaca ımız birle ik derlem, üç çok yaygın
ve serbest eri imli ngilizce derlemin harmanıdır: Time, Cranfield ve
Medlars. Time derlemi adında anla ılaca ı gibi, Time gazetesinin
makalelerinden; Cranfield derlemi, aerodinamik sahasındaki ara tırma
makalelerinden olu mu tur. Medlars derlemi ise, SMART BGG
sisteminin demirba
derlemidir. Bu üç derlemin ve harmanı olan
birle ik derlemin genel özellikleri Çizelge 10.2.6.1.’de verilmi tir.
ngilizce için tanımlayıcı genel istatistikler, Türkçe ile kar ıla tırılınca
bir nokta gerçekten dikkat çekicidir: Türkçe ile
da arcıklarının
büyüklü ü
açısından,
ancak
ngilizce kelime
Türkçe
derlemler
gövdelenirse, e it artlara gelinmektedir. ngilizce birle ik derlemin
birlik sayısı 654,728 ve kelime sayısı 32,301’dir. Türkçe birle ik
derlemin birlik sayısı 638,486 (BilTD ve OSTAD birlik sayıları
toplamı), kelime sayısı 94,230’dur ve gövde sayısı 21,905’dir.
Çizelge 10.2.6.1 : Time, Cranfield, Medlars ve birle ik derlemlerinin
genel özellikleri.
Derlem
Time
Cranfield
Medalars
Toplam
Birle ik
Birlik
Kelime
Belge
249,567
20,856
425
258,509
8,189
1,400
161,605
12,609
1,034
669,681
41,654
2,859
654,728
32,301
*
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
257
ngilizce birle ik derlem için, Zipf ve Mandelbrot ifadeleri ile
uyum sınamaları, Çizelge 10.2.6.1.’de tablo halinde verilmi tir.
Çizelge 10.2.6.1: ngilizce birle ik derlemin, Zipf ve Mandelbrot
ifadeleri ile, kelime asasında uyum sınaması.
Model
Zipf
W=10
W=100
W=1,000
W=10,000
Rsq
0.985
0.988
0.994
0.992
0.935
N
32,301
32,301
32,301
32,301
32,301
F
2.163E+06
2.644E+06
5.506E+06
4.021E+06
4.647E+05
Sigf
b0
0.000 5.9951
0.000 6.0577
0.000 6.3413
0.000 7.6853
0.000 15.1910
b1
-1.3499
-1.3648
-1.4316
-1.7388
-3.3507
Aldı ımız sonuçlar, Kornai (2002) tarafından yapılan çalı mada
da belirtildi i gibi, ngilizce’nin aslen yaygın olarak kabul edildi i
ekilde kapalı bir kelime da arcı ına sahip olmadı ı, aksine derlem
büyüklü ü sonsuza giderken kelime da arcı ı boyutunun da, sonsuza
gitti i ve açık oldu u iddiası ile paraleldir (bütün e imler birden
büyük). ngilizce birle ik derlem için, Zipf ve Mandelbrot ifadeleri ile
tahmin edilen de erlerle, gerçekle en de erlerin yayılım çizgesi,
sırasıyla, ekil 10.2.6.1 ve ekil 10.2.6.2.’de verilmi tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
258
ekil 10.2.6.1: ngilizce birle ik derlemin, kelime esasında Zipf ifadesi ile uyum
çizgesi.
ekil 10.2.6.2: : ngilizce birle ik derlemin, kelime esasında Mandelbrot (W=100)
ifadesi ile uyum çizgesi.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
259
ngilizce derlem için yapılan incelemenin sonuçları, Mandelbrot
tarafından yapılan özgün çalı mada da belirtilen de erlerle de
uyumludur (W=100 için en iyi uyum). Ancak, Mandelbrot, e imi 1.15
olarak vermi tir. Elimizdeki derlemden elde etti imiz sonuç 1.43’dür.
Bu de er verilenden oldukça büyüktür. Fakat Kornai (2003), buldukları
sonuçlarla, bu ekilde benzer farklılıklar oldu unu bildirmi tir. Bu
farklılı ın çe itli sebepleri olabilir. Örne in, elimizdeki ODTÜ
derleminin kelime esasındaki sonuçları, Mandelbrot’un sonuçları ile
çok daha uyumludur. ODTÜ derlemi belge türleri açısından zengin ve
boyut olarak oldukça büyüktür. Birle ik ngilizce derlemimiz için, bu
iki özellikten de bahsetmek mümkün de ildir. Ancak,
ngilizce
derlemle yaptı ımız çalı madan çıkardı ımız bir sonuç daha vardır.
ngilizce
derlem,
Türkçe’de
gövdelerle
benzer
karakterler
sergilemektedir. Yani, e er kapalı kelime da arcı ı varsa, daha hızlı
gerçek boyutlarına yakınsamaktadır. Kanımızca bu sonuçlar, geneli
ngilizce üzerinden geli tirilmi BGG yöntemlerinin, Türkçe’de neden
gövdelerle çalı ıldı ında, kelimelerle çalı ıldı ından daha iyi sonuçlar
alındı ının da bir izahı olmaktadır. Kelime da arcı ının açık veya
kapalı olmasından ba ımsız olacak ekilde, Türkçe için gövdelerle
çalı manın daima kelimelerle çalı maktan daha iyi sonuçlar verece i
ortadadır. Bu durum tabii ki, Türkçe için, Türkçe’nin özelliklerine has
yöntemler
geli tirilmeden,
sadece
ngilizce
üzerinde
yapılan
çalı maların, do rudan kullanımı için geçerlidir. Di er hallerde, bu
ekilde bir iddiamız yoktur.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
260
10.4. Türkçe için Kelime Da arcı ı (KD) ncelemesi
10.4.1. Kelime Da arcı ı Boyutları– Zipf Birinci Kanun
Derlem boyutu ile kelime da arcı ının boyutu arasındaki ili kiyi
Kornai (2002), Denklem 10.3.1.1.’de oldu u ekilde üstel bir ili ki
olarak vermi tir. Denklemde, 0 ≤ ρ ≤ 1 parametresi, derlem boyutu ile
kelime da arcı ı boyutu arasındaki üstel ili kinin katsayısıdır. Bu
katsayı ngilizce için, deneysel olarak Kornai tarafından ρ ≈ 0.75
olarak saptanmı tır. Katsayının hesaplanması için Denklem 10.3.1.2.’de
verilen ifadedeki, B parametresi, Zipf birinci kanun ifadesindeki
e imdir (B). Denklem 10.3.1.1. ve 10.3.1.2.’de verilen ili kiler gere i,
e er, kelime da arcı ının boyutu ile derlem boyutu (N) arasında
bulunan üstel ili ki katsayısı ρ > 0 ⇔ B > 1 olursa, derlem boyutu
sonsuza giderken, kelime da arcı ı boyutu da sonsuza gidecektir
lim V ( N ) → ∞ .
N →∞
V (N) ≥ N ρ
(10.3.1.1)
1
B
ρ=
(10.3.1.2)
Özetle, Denklem 10.3.1.1.de verilen ili kinin anlamı udur: Zipf
ifadesinin uyum e imi birden büyük olmak artı ile, e er bir dil için
kelime da arcı ı ile örneklem boyutu arasında, söz konusu ili ki varsa,
o dil için “kapalı kelime da arcı ı vardır.” denemez. Yaptı ımız
deneysel çalı mada, yani Türkçe’nin Zipf ifadesi ile uyum
sınamalarında, elde edilen e imlerin birden büyük olması (B > 1),
Türkçe için kapalı kelime da arcı ı hipotezinin reddedilmesine delil
olmaktadır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
261
Kelime esasında, Türkçe birle ik derlem için Çizelge 10.3.1.1.’de
ve ngilizce birle ik derlem için Çizelge 10.3.1.2.’de, Zipf kanunları
çerçevesinde incelenmi tüm modeller üzerinden Denklem 10.3.1.1.
kullanılarak hesaplanmı
kelime da arcı ı boyut katsayıları
listelenmi tir. Çizelge 10.3.1.3.’de de, gövde esasında kelime da arcı ı
boyut katsayıları verilmi tir.
Çizelge 10.3.1.1: Türkçe birle ik derlemin kelime esasında incelenen
her Zipf modeli için, kelime da arcı ı büyüme
katsayıları.
Model
Zipf
W=10
W=100
W=1,000
W=10,000
W=100,000
Rsq
b0
0.995 6.2635
0.996 6.2777
0.997 6.3493
0.998 6.7091
0.975 8.4196
0.892 18.6018
b1
(-1)/b1
-1.1915 0.8393
-1.1944 0.8372
-1.2085 0.8275
-1.2786 0.7821
-1.6030 0.6238
-3.4286 0.2917
Çizelge 10.3.1.2 : ngilizce birle ik derlemin kelime esasında incelenen
her Zipf modeli için, kelime da arcı ı büyüme
katsayıları.
Model
Zipf
W=10
W=100
W=1,000
W=10,000
Rsq
b0
0.985 5.9951
0.988 6.0577
0.994 6.3413
0.992 7.6853
0.935 15.1910
b1
(-1)/b1
-1.3499 0.7408
-1.3648 0.7327
-1.4316 0.6985
-1.7388 0.5751
-3.3507 0.2984
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
262
Çizelge 10.3.1.3 : Türkçe birle ik derlemin gövde esasında incelenen
her modeli için, kelime da arcı ı büyüme katsayıları.
Model
Zipf
W=10
W=100
W=1,000
W=10,000
Rsq
b0
0.974 6.8964
0.980 7.0017
0.992 7.4554
0.995 9.5706
0.934 22.1407
b1
(-1)/b1
-1.6127 0.6201
-1.6390 0.6101
-1.7505 0.5713
-2.2515 0.4441
-5.0134 0.1995
Çizelgelerde hesaplanmı olan katsayıların, her derlem türü için
kuramsal olarak, o derlem için seçilecek olanı, söz konusu Zipf veya
Mandelbrot ifadelerinin en uygun oldu u haldeki de ere denk gelendir.
Türkçe için genel bir katsayı vermeden önce, her üç derlem için
hesaplanmı tüm katsayılar için kar ılık gelen derlem boyutları
üzerinden, kelime da arcı ı tahminlerini ve gerçek de erlerini
kar ıla tırmalı olarak incelemekte fayda vardır. Çizelge 10.3.1.4.,
11.3.1.5. ve 11.3.1.6.’da söz konusu tahmin edilen ve gerçek de erler
liste halinde verilmi tir.
Çizelge 10.3.1.4: Kelime esasında Türkçe birle ik derlemin, tüm Zipf
modelleri üzerinden kelime da arcı ı boyut (KDB)
tahminleri. “1M” ve “10M” derlemleri, Hakkani-Tür
(2002) çalı masında verilen bir ve on milyonluk
derlemlerin kelime da arcı ı sayılarıdır. Son
sütundaki “µ” de erleri ise Mandelbrot W=100 ve
1000 katsayılarının ortalaması üzerinden tahminleri
göstermektedir.
Tahmin edilen Kelime da arcı ı boyutu
Mandelbrot
Zipf
10
100
1000 10000
µ
8,963 8,767 7,886 4,822
867 6,166
69,449 67,594 59,369 32,497 3,970 43,924
188,070 182,606 158,535 82,229 8,325 114,176
235,173 228,216 197,618 101,270 9,829 141,467
108,560 105,546 92,222 49,276 5,533 67,411
749,804 725,576 619,876 298,358 23,271 430,052
Derlem (Kelime)
Adı
Boyut
KDB
OSTAD
51,209 17,487
BilTD
587,277 94,230
ODTÜ
1,924,653 200,048
BirTD
2,511,930 234,843
1M
1,000,000 106,547
10M
10,000,000 417,775
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
263
Çizelge 10.3.1.5: Kelime esasında ngilizce birle ik derlemin, tüm Zipf
modelleri üzerinden kelime da arcı ı boyut
tahminleri.
Tahmin edilen Kelime da arcı ı boyutu
Mandelbrot
Zipf
10
100
1000 10000
9,959 9,007 5,889 1,270
41
10,222 9,242 6,036 1,296
41
7,218 6,551 4,347
990
36
20,348 18,259 11,551 2,212
54
Derlem (Gövde)
Adı
Boyut
KDB
Time
249,567 20,856
Cranfield
258,509 8,189
Medalrs
161,605 12,609
BirTD
654,728 32,301
Çizelge 10.3.1.6: Gövde esasında Türkçe birle ik derlemin, tüm Zipf
modelleri üzerinden kelime da arcı ı boyut
tahminleri.
Tahmin edilen Kelime da arcı ı boyutu
Mandelbrot
Zipf
10
100
1000 10000
832
747
490
123
9
3,777 3,309 1,975
365
14
7,885 6,827 3,891
618
18
3,978 3,482 2,071
379
14
Derlem (Gövde)
Adı
Boyut
KDB
OSTAD
51,209 5,201
BilTD
587,277 20,268
ODTÜ
1,924,653
*
BirTD
638,486 21,095
Katsayılar üzerinden ngilizce için kelime ve Türkçe için gövde
esasında yapılan kelime da arcı ı boyutu (KDB) tahminleri, görüldü ü
gibi gerçek de erlere yakın de ildir. Ancak, de erler halen, Denklem
10.3.1.1. ile önerilen üstel artı iddiasının, aksi delilleri de de ildir.
Fakat, bu derlemler için, ancak zayıf alt sınırlar olarak kullanılabilecek
özelliktedirler.
Çizelge 10.3.1.4.’de, kelime esasındaki Türkçe birle ik derlem
için, özellikle Zipf ve Mandelbrot (W=10) ifadeleri için hesaplanan
tahminler, derlem boyutu 106 seviyesinin çevresi sınır olacak ekilde
çok yakın tahminlerdir. Fakat 107 seviyesi için Hakkani-Tür (2002)
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
264
tarafından bildirilen gerçek kelime da arcı ı boyutlarından çok
yukarıda kalmaktadırlar.
Mandelbrot ifadesinin W=1000 parametre de eri, yani Türkçe
birle ik derlem için ey uygun model, çizelgeden de görüldü ü gibi, 107
seviyesi de dahil olmak üzere yakın alt sınır olma özelli i
göstermektedir. Çizelge 10.3.1.4.’de son sütunda “µ” ba lı ı altında
verilen tahminler, Mandelbrot ifadesini W=100 ve W=1000 parametre
de erleri için bireysel olarak hesaplanan büyüme katsayılarının
ortalaması ( µ = ( ρ100 + ρ1000 ) / 2 = 0.8048 ) üzerinden kelime da arcı ı
boyut tahminleridir. Bu tahminler
tahminlerinin tamamından daha iyidir.
107
çizelgedeki
seviyesi
Özetle, deneysel çalı malarımız, Türkçe için kelime da arcı ının
büyüklü ü ile derlem büyüklü ü arasında, kelimeler için, üstel bir
ili ki, yani güç ili kisi oldu una dair deliller sunmaktadır. Türkçe
kelime da arcıkları, derlem büyüklü ü arttıkça, Denklem 10.3.1.1.
ifadesi alt sınır olacak ekilde, derlem büyüklü ü ile do ru orantılı,
ancak üstel bir artı göstermi tir. Dolayısı ile, elimizdeki deneysel
deliller ı ı ı altında unu söyleyebiliriz ki: Türkçe çalı malarda, ancak
derlem büyüklü ü sınırlandırılıp, sabitlendi inde, yani istatistiksel
çalı manın kitlesi, söz konusu derlem olunca, kapalı kelime da arcı ına
dayalı kuramlar geçerli olabilir.
Türkçe için kelime da arcı ının derlem boyutu ile, üstel bir ili ki
içinde büyüme alt sınır katsayısı olarak: kelime esasında ρ ≈ 0.7821 ve
gövde esasında ρ g ≈ 0.4441 önerilmektedir. Ayrıca, Zipf birinci
kanunu için yaptı ımız çalı maların ı ı ı altında, sezgisel olarak
belirledi imiz bir nokta daha vardır: verdi imiz gibi genel bir
parametre de eri belirlemek elbette mümkündür, ancak belge türleri
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
265
esasında kısıtlı, ancak daha belirleyici katsayılar bulunması ve genel bir
katsayının belge türlerinin derlem içindeki da ılımı ile ili kilendirilmi
olarak tahmin edilmesi daha tutarlı ve anlamlı olacaktır.
10.4.2. Kelime Biçimleri – Zipf kinci Kanun
Bu bölümde kelime da arcı ı içindeki, kelimelerin yazıda
görülme ekilleri ile ilgili özellikleri için matematiksel ili kiler
tanımlanacak ve ifadelerin parametreleri deneysel olarak tespit
edilecektir. Bu konu, kuramsal olarak Zipf ikinci kanunu (Bölüm 7.2.1)
ile alakalıdır. BGG sahasındaki yansıması ise, i lev ve içerik
kelimelerin ayrı tırılması konusuna dayandı ı için, tez kapsamımız
açısından da oldukça önemlidir.
ncelememiz öncelikle, çok dü ük frekanslı kelime biçimleri ile
ba layacaktır. lintili olarak, kelime da arcı ının zenginli i konusu da,
dü ük frekanslı kelimeler sayesinde tanımlanacaktır. kinci olarak,
kelimelerin belirli bir metinin içeri ini temsili açısından içerik ve i lev
kelimeler olarak birbirinden ayrı tırılması konusu tanıtılacaktır.
10.4.2.1 Dü ük frekanslı kelimeler
Kelime da arcı ının, derlem boyutunu ile birlikte büyüyece i
sonucuna, sebep olarak gösterilebilecek dil özelliklerinden biri
biçimbirimsel üretkenliktir (productive morphology). Analitik bir dil
olarak ngilizce için dahi geçerli olan böyle bir sebep (Kornai, 2002),
Türkçe gibi eklemeli ve biçimbirimsel üretkenli i çok geli kin bir dil
için daha da önemli bir etmen olacaktır. Kelime esasında yaptı ımız
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
266
incelemeler de bu duruma i aret etmi tir. Fakat, Türkçe için kelimelerin
yazıda kullanıldıkları biçimleri açısından, tek bir kelime için milyon
seviyelerinde farklı kelime ekli üretme kapasitesinde olu u, zaten tek
ba ına yeterli bir delildir (Hankamer, 1984).
Biçimbirimsel üretkenlik, aslen kelime biçimlerinden sadece bir
kere gözlenen (hapax legomena), sadece iki kere gözlenen (dis
legomena) gibi çok dü ük frekanslı kelimelerin kelime da arcı ındaki
sayısını arttırır. Ancak, bu kelime biçimlerinin, kelime da arcı ı
içindeki toplam sayısının “daima” %40’den fazla olması, biçimbirimsel
üretkenli i gerçekten büyük bir mesele haline getirir. Üç, dört, be kere
veya daha çok gözlenen kelime biçimleri elbette vardır, ancak özellikle
hapaks kelime biçimleri tabii olarak açık kelime da arcı ı konusu
açısından, di erlerinden çok daha önemlidir. Çünkü, bunlar daha önce
görülmemi kelime biçimleridir ve sayıları ile derlem boyutu arasındaki
ili ki nispetinde, kelime da arcı ı boyutlarını do rudan etkilerler.
Hatta, “kelime da arcı ı boyutunun artı ında baskın sebep, hapaks
kelimelerdir” demek daha iyi bir tanım olur.
Hapaks kelimelerin, kelime da arcı ının boyutları üzerinde bu
denli baskın bir etmen olması kar ısında dilbilimciler tarafından
geli tirilen açıklama, yazı içinde geçen harf dı ı birliklerin varlı ıdır,
daha do rusu rakamlardır. Bu noktada, Türkçe için yaptı ımız
yukarıdaki çalı maların tamamının rakamlardan arınmı çalı malar
oldu unu, bir kez daha belirtelim. Hapax kelimelerin sebeplerinden
birisi elbette rakamlardır, ancak ba ka önemli sebepler de vardır.
Hapaks kelimelerin olu masının ba lıca sebepleri içinde, biçimbirimsel
üretkenlik ve rakamlar dı ında yanlı yazım, yazımda kullanılan
yabancı kelimeler, özel isimler gibi daha belirli sebepler de vardır.
ngilizce için verilen sonuçlarda rakamlar çıkarıldı ında gözlemlenen
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
267
hapaks kelime oranları yine %50’nin üzerindedir: %56 sadece harf
birlikleri, rakamlarla birlikte %69,8 (Kornai, 2002). Görüldü ü gibi,
hapakslar, yani bir kelime da arcı ında sadece bir kere gözlemlenen
kelimeler, bir derleme ait kelime da arcı ı büyüklü ünün yakla ık
olarak yarısından fazlasını olu turmaktadır.
Kelime esasında birle ik Türkçe derlem için, kelime
da arcı ındaki farklı kelime biçimleri ve sayıca kelime da arcı ı
içindeki da ılımı Çizelge 10.3.2.1.1.’de çe itli istatistikler ile birlikte
verilmi tir.
Çizelge 10.3.2.1.1: Kelime esasında Türkçe birle ik derlemin, kelime
da arcı ındaki farklı kelime biçimleri, gözlenme
sıklıkları ve istatistikleri (Skewness*, Türkçe
çarpıklık anlamına gelmektedir).
i
1
2
3
4
5
6
7
8
9
10
V(i,N)
116,939
35,960
17,602
10,983
7,515
5,522
4,201
3,402
2,693
2,314
% Top(%) i V(i,N) % Top(%)
N
49.8
49.8 15
1,178 0.5
91.5 Ortalama(i)
15.3
65.1 20
707 0.3
93.3 Medyan(i)
7.5
72.6 30
327 0.1
95.3 Std. Sapma(i)
4.7
77.3 35
290 0.1
95.9 Skewness*
3.2
80.5 50
137 0.1
97.1 %
i
1
2.4
82.8 75
68 0.0
98.1 10
1
1.8
84.6 100
42 0.0
98.6 20
1
1.4
86.1 150
30 0.0
99.1 30
1
1.1
87.2 500
2 0.0
99.8 40
50
2
1.0
88.2 1,004
1 0.0
99.9
234843
11.45
2.00
218.50
188.32
%
i
60
2
70
3
80
5
90
13
Çizelgede görüldü ü gibi, Türkçe’de de hapaks kelimelerin (i=1)
durumu farklı de ildir. Hapaks kelimelerin, yani bir kere gözlemlenen
kelime biçimlerinin sayısı, kelime da arcı ının %49,8’ini; iki kere
gözlemlenen kelime biçimlerinin sayısı ile birlikte %65’ini
olu turmaktadır. Sadece 100 kere gözüken kelimelere gelindi inde ise
toplam 234.843 kelimelik, kelime da arcı ının yakla ık %98’ini
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
268
kapsanmaktadır. Demek ki, beklendi i gibi hapaks kelime meselesi
Türkçe için de gayet önemli bir konudur.
Zipf kanunlarının birincisi ile ikincisi arasında, aslen güçlü bir
ili ki vardır. Bu ili ki, Denklem 10.3.2.1.1.’de verildi i gibidir, yani,
e er bir da ılım, Zipf birinci kanununa uyuyorsa, Zipf ikici kanununa
da e imi Denklem 10.3.2.1.1. ile hesaplanan de erle uyar (kuramsal
ispat için, Kornai (2002)).
DN = B N /(1 + BN )
(10.3.2.1.1)
Denklemede, DN, ikinci kanun ifadesindeki e im, BN ise birinci
kanun ifadesindeki e imdir. Türkçe için deneysel olarak, Zipf birinci
kanun ifadesinin en uygun halinde, yani Mandelbrot ifadesinin
W=1000
parametre
de eri
için,
elde
etti imiz
e im
− BN = b1 = −1.2786 ile, Denklem 10.3.2.1.1.’den hesaplayaca ımız
de er, Zipf ikinci kanun ifadesinin e imini vermelidir. Yani Zipf ikinci
kanun ifadesi için, tahmin edilen deneysel e im de eri
D N = (1.2786) /(1 + 1.2786) = 0.5611 ’dir. BirTD derlemi için, Zipf
ikinci kanun ifadesi uyum sınaması sonucu Çizelge 10.3.2.1.2.’de
verilmi tir. Kar ıla tırma amacıyla, ekil 10.3.2.1.1.’de, tahmin edilen
ve gözlenen de erler yayılım çizgesi eklinde de gösterilmi tir.
Çizelge 10.3.2.1.2: Kelime esasında Türkçe birle ik derlemin, Zipf
ikinci kanun ifadesine uyum sınamasının sonucu.
Model Rsq N
F
Sigf
b0
b1
Zipf 0.998 926 5.164E+05 0.000 2.8455 -0.5516
Çizelgede görüldü ü gibi, Türkçe birle ik derlem için, Zipf ikinci
kanun ifadesinin uyumundaki e im, tahmin edilen e ime çok yakın bir
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
269
de er çıkmı tır. Bu sonuç da, Zipf birinci kanunu ile ikinci kanunu
arasında iddia edilen güçlü ba lantının, deneysel olarak Türkçe için
geçerli oldu unu göstermektedir.
ekil 10.3.2.1.1.’de görüldü ü gibi, Türkçe kelime da arcı ını
olu turan kelime biçimlerinin, kelime da arcı ı içindeki sayıları, Zipf
ikinci kanununa uymaktadır. Zipf, özgün çalı masında e imi, 0.5
olarak vermi tir. Türkçe için bu de er, deneysel olarak elimizdeki
birle ik derlemlerle de uyu maktadır.
ekil 10.3.2.1.1 : Kelime esasında Türkçe birle ik derlem için, Zipf ikinci kanun
ifadesinin tahmin etti i kelime biçimi adedi ile gözlemlenen kelime
biçimi adedinin yayılım çizgesi.
Zipf ikinci kanunu açısından, gövdelerin durumu beklendi i gibi
kelimelerden biraz daha farklıdır. Çizelge 10.3.2.1.3.’de, BilTD ve
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
270
OSTAD derlemlerinin harmanı ile olu turulmu , gövde esasında
birle ik derlem için kelime da arcı ının istatistikleri verilmi tir.
Çizelge 10.3.2.1.3: Gövde esasında Türkçe birle ik derlemin, kelime
da arcı ındaki farklı kelime biçimleri, gözlenme
sıklıkları ve istatistikleri (Skewness, Türkçe çarpıklık
anlamına gelmektedir).
i
1
2
3
4
5
6
7
8
9
10
V(i,N)
7,693
2,959
1,504
1,017
751
659
462
387
311
255
% Top(%) i V(i,N) % Top(%)
N
36.5
36.5 15
145 0.7
80.5 Ortalama(i)
14.0
50.5 45
37 0.2
89.9 Medyan(i)
7.1
57.6 75
11 0.1
92.7 Std. Sapma(i)
4.8
62.4 100
10 0.0
94.0 Skewness
3.6
66.0 150
2 0.0
95.6 %
i
10
1
3.1
69.1 300
2 0.0
97.7
1
2.2
71.3 464
2 0.0
98.6 20
1
1.8
73.2 608
2 0.0
99.0 30
2
1.5
74.6 2,167
1 0.0
99.9 40
2
1.2
75.8 3,900
1 0.0
99.9 50
21095
36.19
2.00
274.52
35.97
%
i
60
4
70
7
80
15
90
46
Çizelgede görüldü ü gibi, Türkçe’de gövdeler esasında hapaks
ekillerin (i=1) durumu oransal olarak kelimelerden iyidir. Hapaks
gövdelerin, yani bir kere gözlemlenen gövde türlerinin sayısı, kelime
da arcı ının %36,5’ini (kelimelerde %49,8), iki kere gözlemlenen
kelime biçimlerinin sayısı ile birlikte %50’sini (kelimelerde %65,1)
olu turmaktadır. Dolayısı ile gövdeler, medyan etrafında daha iyi bir
da ılım göstermi tir. “Skewness” de eri, yani Türkçe olarak çarpıklık
de eri olan 35,97 bu da ılımın normal da ılımdan ne kadar saptı ının
bir ölçüsüdür. De erin sıfır oldu u zaman da ılım normal demektir.
Kelimeler için “Skewness” de eri de 188.32’dir. ekil 10.3.2.1.2.’de
kelimeler (a) ve gövdeler (b) için verilen çizgelerde, da ılımların
birbirlerinden farklılı ını görsel olarak da seçilebilmektedir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
271
(b)
(a)
ekil 10.3.2.1.2 : Kelimeler (a) ve gövdeler (b) için kelime da arcıkları. X-ekseni
derlem içinde gözlenme sıklı ı, y-ekseni söz konusu gözlenme sıklı ının
kaç kere gözlendi i, yani frekansların frekansları. Ortalama üzerinde
referans normal da ılım da gösterilmektedir.
Da ılım açısından da incelemeler sonucunda, gövdeler için
istatistiksel çıkarımlar açısından kelimelere nazaran daha uygun bir
karakteristik elde edildi i söylenebilir.
Gövdelerin, Zipf ikinci kanun için Denklem 10.3.2.1.1.’de verilen
ifade
ile
hesaplanan
tahmini
e imi:
DN = (2.2515) /(1 + 2.2515) = 0.6924 ’dir. Zipf ikinci kanun ifadesi için
derlemden hesaplanan de erse, Çizelge 10.3.2.1.4.’de verilmi tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
272
Çizelge 10.3.2.1.4: Gövde esasında Türkçe birle ik derlemin, Zipf
ikinci kanun ifadesine uyum sınamasının sonuçları.
Model Rsq N
F
Sigf
b0
b1
Zipf 1.000 644 1.422E+06 0.000 2.6951 -0.6994
ekil 10.3.2.1.3.’de de, gövde esasında Zipf ikinci kanununun
birle ik derleme uyumunun, yayılım çizgesi verilmi tir.
ekil 10.3.2.1.3 : Gövde esasındaki Türkçe birle ik derlem için, Zipf ikinci kanun
ifadesinin tahmin etti i kelime biçimi sayıları ile gözlemlenen kelime
biçimi sayılarının yayılım çizgesi.
Gövdeler için Zipf ikinci kanun ifadesinin hesaplanan e im
de eri 0.6994’dür. Denklem 10.3.2.1.1. ile hesaplanan tahmini ise
0.6924’dür. Görüldü ü gibi hata kelimelerden çok daha azdır. Ancak
burada, Mandelbrot denklemi için yaptı ımız çalı maların belirli
sabitlerle oldu unun altını çizmek istiyoruz. Mandelbrot ifadesinde W
parametresinin en iyi de erini tespit etmeye dönük bir çalı ma ile elde
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
273
edilecek birinci ilke e imi, muhakkak Zipf ikinci kanun e iminin,
Denklem 10.3.2.1.1. ile yapılan tahmindeki hatayı dü ürecektir. Elde
etti imiz deneysel sonuçlar, Zipf birinci kanunu ile ikinci kanunu
arasında bir ba ımsızlı ın oldu u hipotezini reddetmeye yetecek
delilleri sunmaktadır.
10.4.2.2 Farklı kelime biçimlerinin gözlenme sıklıkları
Kelime da arcı ı içindeki kelimelerin derlemde gözlenme
sıklıklarının frekansları, örne in hapaks kelimelerin, yani derlemde
yalnızca bir kez gözlemlenen kelimelerin frekanslarının tahmin
edilmesi için Zipf ikinci kanunu Denklem 10.3.2.2.1.’de verildi i
ekilde hesaplamaya çok daha yatkın bir hale getirilebilir. Bu denklem
elbette, derlem büyüklü ünün sonsuza gitti i durumdaki asimptotik
durum için geçerlidir.
V (i, N ) = mV ( N ) / i ρ +1
Denklemde m bir sabit sayıdır. E er
(10.3.2.2.1)
∞
i =1V (i, N )
= V ( N ) / i ρ +1
e itli i sa lanmak isteniyorsa, B > 1 için da ılımı tutarlı hale getirecek,
B=1 durumundan hesaplanan m = 6 / π 2 , üstten sınır katsayısı olarak
kullanılabilir (Aslen bu çarpım sabiti, ζ simgesi Reimann fonksiyonu
olmak üzere, m = 1 / ζ ( ρ + 1) eklinde hesaplanmaktadır.) Denklemde
verilen ifade, Zipf ikinci kanun ifadesindeki KN sabit teriminin
normalizasyonu
ile
elde
edilmi tir.
Bu
normal
de er
K N = log(V ( N )) /( ρ + 1) olarak alınarak, Denklem 10.3.2.2.2.’de
verilen ifade elde edilir.
log(i) = log(V ( N )) /( ρ + 1) − log(V (i, N )) /( ρ + 1)
(10.3.2.2.2)
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
274
Zipf birinci kanun incelemesi sonucunda elde etti imiz, kelime
da arcı ı büyüme katsayısı, ρ ≈ 0.7821 ve m sabiti için
6 / π 2 = 0.607927 de eri Denklem 10.3.2.2.1.’de yerine konursa,
Türkçe kelime da arcıklarındaki kelimelerin, derlem içinde gözükme
sıklıklarının frekanslarının tahmini Denklem 10.3.2.2.3.’de verilen
ifade ile hesaplanabilir.
V (i, N ) =
6
π
2
V ( N ) / i1.7821
(10.3.2.2.3)
Denklem kullanılarak tahmin edilen ve birle ik derlemin kelime
da arcı ında olan kelimelerin gerçek gözlenme sıklıklarının frekansları
kar ıla tırma amacı ile Çizelge 10.3.2.2.1.’de verilmi tir.
Çizelge 10.3.2.2.1: Kelime esasında Türkçe birle ik derlemin, kelime
da arcı ındaki farklı kelime biçimlerinin gözlenme
sıklıkları ve tahmin edilen de erleri.
i V(i,N) Tahmin i V(i,N) Tahmin
1 116,939 142,767 15
1,178
1,145
2
35,960 41,511 20
707
686
3
17,602 20,154 30
327
333
4
10,983 12,070 35
290
253
5
7,515
8,110 50
137
134
6
5,522
5,860 75
68
65
7
4,201
4,452 100
42
39
8
3,402
3,509 150
30
19
9
2,693
2,845 500
2
2
10
2,314
2,358 1,004
1
1
Kelimeler esasında yaptı ımız bu çalı mayı, gövdeler esasında da
tekrarlayacak olursak, gövdeler için Zipf birinci denkleminden elde
etti imiz kelime da arcı ı büyüme katsayısı, ρ g ≈ 0.4441 ve yine m
sabiti
için
6 / π 2 = 0.607927
de eri
alınırsa,
Türkçe
kelime
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
275
da arcıklarındaki gövdelerin, derlem içinde gözükme sıklıklarının
frekanslarının tahmini de Denklem 10.3.2.2.4. kullanılarak
hesaplanabilir.
V (i, N ) G =
6
π
1.4441
V
(
N
)
/
i
2
(10.3.2.2.4)
Denklem kullanılarak hesaplanan ve gövde esasında birle ik
derlemin kelime da arcı ında olan kelimelerin, gerçek gözlenme
sıklıklarının frekansları da Çizelge 10.3.2.2.2.’de verilmi tir.
Çizelge 10.3.2.2.2: Gövde esasında Türkçe birle ik derlemin, kelime
da arcı ındaki farklı kelime biçimlerinin gözlenme
sıklıkları ve tahmin edilen de erleri.
i
1
2
3
4
5
6
7
8
9
10
V(i,N) Tahmin i V(i,N) Tahmin
7,693 12,824 15
145
257
2,959
4,713 45
37
53
1,504
2,624 75
11
25
1,017
1,732 100
10
17
751
1,255 150
2
9
659
965 300
2
3
462
772 464
2
2
387
637 608
2
1
311
537 2,167
1
0
255
461 3,900
1
0
Özetle, Denklem 10.3.2.2.1. ile iddia edilen udur: Zipf birinci
kanununu, en azından orta ve dü ük frekans bandında sa layan
derlemler, Zipf ikinci kanununu da en azından dü ük frekans bandında
sa larlar. Kelimeler için ekil 10.3.2.1.1. ve gövdeler için ekil
10.3.2.1.3.’de verilen yayılım çizgelerinde de görüldü ü gibi, Zipf
ikinci kanunun uyumu, istatistiksel anlamlılık açısından mükemmele
yakındır. Dolayısı ile kelime da arcı ı için, derlem içinde yüksek
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
276
frekansa sahip kelimelerin, orta ve dü ük frekans bandındakilerden
izole edilerek de erlendirilmesi gibi bir ayrıma gidilmesine gerek
yoktur.
10.4.2.3 Hapaks kelimeler ve da arcık zenginli i
Zipf ikinci kanunu için Denklem 10.3.2.2.1.’de verilen ifadede
i=1 (hapaks) için, mV(N) kadar, yani tüm kelime da arcı ının %60’ı
kadar ( 6 / π 2 = 0.607927 ) bir miktar tahmin edilmektedir. ki kere
gözlenen kelimeler de hesaba katılırsa, toplam kelime da arcı ının
yakla ık dörtte üçü kapsanmaktadır. Bu deneysel buluntular, nicel
dilbilim sahasında da yo un ekilde desteklenmektedir. Örne in,
Herdan’ın (1960) özgün çalı masında, Zipf ikinci kanununa alternatif
Waring
da ılımı
için
sadece
olarak
geli tirdi i,
0.4 ≤ V (1, N ) / V ( N ) ≤ 0.6 aralı ında de erleri tablo halinde vermesi
bunun bir delilidir. Çünkü, “dilin uygulamalı çalı malarında,
kar ıla ılması muhtemel kelimeler” bu aralık içinde kalmaktadır.
Baayen (2001),
lim V (1, N ) / V ( N ) > 0 olması durumunda,
N →∞
V(1,N) de erinin, az rastlanan olayların çok gözükmesi (large number
of rare events - LNRE) ilkesine ba lı olarak sonsuza gidece ini
tanımlamı tır. Ayrıca, Baayen aynı çalı masında, kelimelerin gözlenme
sıklıklarının da ılımı ile ilgili olarak, çok büyük derlemlerle çalı ılsa
dahi LNRE bandında kalındı ını belirtmi tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
10.4.3.
277
lev ve çerik Kelimeler ( ndeks Terimler)
Dilbilim sahasındaki çalı maların kelime frekansları ile ilgili
olanlarının, yani istatistiklere dayalı çalı maların temelinde, belirtilsin
veya belirtilmesin Bernoulli deneysel kurgusu vardır. Bu kurgu
gere ince kelimelerle ilgili, tabii ba lantılı olarak kelime da arcı ı ve
kitle ile ilgili bir takım kabullenmeler yapılması gereklili i do ar.
Kelimelerle, daha do rusu bir derlemde gözlemlenecek birliklerle ilgili
yapılan kabullenmeler unlardır: tüm birlikler, oranları belirli bir
ekilde, tek bir torbada durmaktadırlar; birlikler bu torbadan çekilir
(yani yazımda gözlenir) ve tekrar torbaya atılır; herhangi bir birli in
torbadan çekilmesi (yazıda gözlemlenmesi) olasılı ı bir di er birli in
çekilmesi olasılı ından ba ımsızdır. Elbette bu kurgu gerçek yazılı
belgelerin do asını temsil etmez, ancak istatistiksel yöntemlerin dil
üzerinde uygulanabilmesini mümkün kılar. Bir kere böyle bir kurgu
kabullenilince, temel ilkelerden ayrılmadan kurgu üzerinde
de i ikliklere gitmek elbette mümkündür. Örne in Mandelbrot (1961),
bu kurguda tek bir büyük torba U yerine, iki ayrı torba, yani i lev
(görev) kelimeler için UG ve içerik kelimeler için UI kullanılmasını
önermi tir. Bunun sebebi olarak da, i lev kelimelerin yazım kuralları
tarafından yönlendirilen ve yazarın inisiyatifinde olmayan kelimeler
oldu unu, onun için yazarın aktarmak istedi i içeri i olu turmada
kullanaca ı kelimelerle, ilgisinin bulunmadı ını söylemi tir. Bu
çalı mada, biz de söz konusu söyleme katılıyor ve tek bir büyük torba
yerine iki ayrı torba oldu u varsayımını kabulleniyoruz.
lev kelimeler, yazım kuralları tarafından yönetilmektedir. Bu
yüzden yazım içerisinde, içerikten ba ımsız olarak gözlemlenirler.
çerik kelimelerse, bir metin içinde ancak metinin konusu ile alakalı
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
278
kelimeler olabilir, dolayısı ile her metinde i lev kelimeler
gözlemlenebilir, fakat içerik kelimelerin gözlenmesi için metnin
konusunun benzer olması gerekir. Sonuç olarak, bir derlemde i lev
kelimelerin, içerik kelimelerden daha fazla gözlemlenmesi gerekir. te,
i lev ve içerik kelimeler arasında bu ba lam üzerinden bir ayrım
yapılabilir. lev kelimelerin tespiti için, derlem içinde yüksek frekanslı
birliklerin incelenmesi gerekir. Takip eden bölümde yüksek frekanslı
kelimelerin incelemesi ba lı ı altında, Türkçe için, i lev ile içerik
kelimeler arasında, görülme sıklı ını esas alan bir sınır belirleme
çalı ması verilmi tir.
10.4.3.1 Yüksek frekanslı kelimeler
statistiksel açıdan bakıldı ında, bir derlem içindeki metinlerde
birlik olarak nelerin kabul edildi i, pek o kadar tutarlı bir durum
de ildir. Örne in “ ... 1980’ler ...” tek bir birlik midir, yoksa “1980”
rakam, “’” noktalama i areti ve “ler” ek olmak üzere üç ayrı birlik
midir, veya ikisi birden midir, tamamen derlemin ilk i leni sürecine
ba lıdır, yani simgelemenin (tokenization) nasıl yapıldı ı ile alakalıdır.
Bir ba ka örnekte ise “ ... “hayır”da hayır var. ...” gibi aynı kelime
eklinin hem içerik, hem de i lev durumunda oldu u birlikler de
mevcuttur. Dolayısı ile, gerçekte içerik ile i lev kelimelerin arasına, en
azından frekans esasında belirgin bir çizgi çekmenin imkanı yoktur.
Her iki torbada da, aynı kelimelerin de i ik anlamları için, ekilleri e
olan temsillerinin bulunması gerekmektedir. Bu mesele, anlamsal
boyutta çözümlenebilecek bir u ra tır. Frekanslarla kesin bir sınır
çizilemez. Ancak, bir sınır belirli bir hata oldu u kabullenmesi ile
konabilir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
279
UG torbasında, yani i lev kelimelerden k adet oldu unu var
sayarsak, Zipf birinci kanun tertibindeki sıralamada, birinciden k’ıncı
sıra numarasına kadar olan kelimeler, k dahil olmak üzere, UG
torbasındadır diyebiliriz. Dolayısı ile r > k sıra numarasına sahip
kelimeler de, UI torbasında olacaktır, yani içerik kelimeleri olacaktır.
E er tüm i lev kelimelerin toplam olasılık yo unlu unun Pk = kr=1 p r
oldu unu kabul edersek ve Zipf birinci kanunun da, UG için gerçekten
belirleyici bir ifade oldu u var sayılırsa, i lev kelimelerle içerik
kelimelerin sınır noktasında, Pk olasılı ının, Zipf birinci kanun
ifadesinin e im parametresi (B) ile hesaplanacak Pk ≈ 1 / k B de erine
e it olması beklenir. Dolayısı ile, Denklem 10.4.3.1.1.’deki ifade,
derlemdeki kelimeler üzerinden yapılacak e im (B) tahminleri ile i lev
ve içerik kelimeler arasına bir sınır, k de eri belirleyebilir.
B = − log( p k ) / log( k )
(10.4.3.1.1)
Örne in, birle ik Türkçe derlem için Zipf birinci kanun ifadesi ile
uyumunun en iyi oldu u durumda (Mandelbrot, W=1000), elde
etti imiz e im, B=1.2786 de eridir. Bu de erin üzerinde kalan e im
tahminlerine ait kelimeleri i lev kelimeler UG, altında kalan kelimeleri
de içerik kelimeler UI, olarak kabul edebiliriz. Çizelge 10.4.3.1.1.’de
Türkçe birle ik derlem için Denklem 10.4.3.1.1. ile hesaplanan e im
tahminleri verilmi tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
280
Çizelge 10.4.3.1.1: Kelime esasında Türkçe birle ik derlem için Zipf
birinci kanun e im tahminleri (k=1 de eri, k=1.4
alınmı tır; log(1)=0).
Kelime
bir
ve
bu
da
de
için
çok
o
gibi
ile
türkiye
istanbul
bunu
beni
tüm
yani
sadece
söz
türkiye'nin
geldi
ona
veya
olmak
genç
ki i
gece
ali
abd
birkaç
açık
erdo an
geri
ırak
olsun
milli
k
1
2
3
4
5
6
7
8
9
10
38
74
100
101
102
103
104
105
132
149
150
151
152
153
154
156
158
162
184
185
186
187
198
199
200
p
0.024031
0.018371
0.012073
0.008353
0.008244
0.005724
0.003964
0.003639
0.003593
0.003488
0.001397
0.000878
0.000726
0.000703
0.000701
0.000694
0.000693
0.000659
0.000594
0.000533
0.000530
0.000528
0.000524
0.000519
0.000514
0.000513
0.000505
0.000494
0.000449
0.000447
0.000433
0.000432
0.000404
0.000403
0.000401
B
Kelime
11.0809
bizi
5.7664 kendisine
4.0204 mustafa
3.4517
henüz
2.9814
ahmet
2.8816
hangi
2.8421
bilgi
2.7007
üstelik
2.5618
güçlü
2.4574
sırada
1.8072
iir
1.6353
rahat
1.5696
etmesi
1.5732
alanda
1.5704 alınması
1.5692
karısı
1.5662
tl
1.5738
yıldan
1.5215 mahmut
1.5063
sanal
1.5053 konunun
1.5043
alanı
1.5037
belge
1.5034 de i ikli i
1.5036 bulmak
1.5012
aslan
1.4995 antalya
1.4965 bankalar
1.4783
aynen
1.4774 cinayet
1.4820 cumhuriyeti
1.4812
do um
1.4774
doları
1.4767 düzeyinde
1.4764
denildi
k
343
343
344
346
346
347
348
501
502
503
1,002
1,002
1,002
1,002
1,005
1,935
1,935
1,941
1,941
1,941
1,941
1,941
1,941
1,941
1,941
1,951
1,951
1,965
1,965
1,965
1,980
1,980
1,980
2,305
2,321
p
0.000278
0.000278
0.000275
0.000275
0.000275
0.000274
0.000273
0.000205
0.000204
0.000203
0.000115
0.000115
0.000115
0.000115
0.000115
0.000063
0.000063
0.000063
0.000063
0.000063
0.000063
0.000063
0.000063
0.000063
0.000063
0.000062
0.000062
0.000062
0.000062
0.000062
0.000061
0.000061
0.000061
0.000054
0.000053
B
1.4032
1.4032
1.4036
1.4027
1.4027
1.4022
1.4019
1.3661
1.3665
1.3664
1.3129
1.3129
1.3129
1.3129
1.3127
1.2784
1.2784
1.2787
1.2787
1.2787
1.2787
1.2787
1.2787
1.2787
1.2787
1.2785
1.2785
1.2781
1.2781
1.2781
1.2777
1.2777
1.2777
1.2701
1.2699
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
281
Çizelge 10.4.3.1.1.’de tahmin edilen e im, B de erleri iki sütun
halinde verilmi tir. Bu listelemede, örnekleri yukarıda bahsetti imiz
konuları da kapsayacak ekilde seçmeye dikkat ettik. Öncelikle,
“Türkiye”, “Ali”, “ABD”, “Erdo an”, “Irak” v.b. kelimelerin i levsel
oldukları veya bir metnin içinde içeri e katkı sa layacak anlamsal
öneme sahip olmadıkları söylenemez. Dolayısı ile, bu kelimeler içerik
olması gerekirken, derlemlerin özellikle gazete yazılarından seçilmi
olması sebebiyle, i lev kadar frekansları olu mu tur. Ancak, bu hatalar
dı ında liste incelendi inde aslen iddia edildi i gibi bir sınır için yer
oldu u da gözükmektedir. Çizelgede dolgulu alanın içinde (“karısı” ve
“antalya” kelimeleri arasındaki alan) bu geçi in ba langıcı ve biti i
gözükmektedir. Geçi noktası, ba langıçtan itibaren süre gelen
e imdeki sistematik dü ü ün, B=1.2786 e im de erinin de altına ini i
ve daha sonra yaptı ı sıçrama ile tekrar B=1.2786 de erinin üzerine
çıktı ı aralık içindedir. Daha sonra dü ü sistematik olarak B=1.2786
altına do ru devam eder. Yapılan e im tahminlerinin söz konusu
seyrinden de çıkan sonuç, kelimelerin gerçekten tek bir büyük torba ile
temsil edilemeyece i, dolayısı ile i lev kelimelerin UG, içerik
kelimelerin UI gibi, iki ayrı torba kurgusu ile ele alınması iddiasının
geçerlili idir. E er i lev kelimeler, bu yöntemle tahmin edilecek olursa,
sıra numarası 1941’de dahil olmak üzere 1 ile 1941 arasındaki tüm
kelimeler i lev kelimeler olarak ele alınacaktır. Dolayısı ile, Türkçe
birle ik derlem için i lev olarak i aretlenen kelimelerin sayısı 1944
olacaktır. Bu 1944 i lev kelimenin derlem içindeki toplam frekansı
1.349.004’dür. Geriye kalan 232.899 kelime, içerik olarak
i aretlenecektir. Söz konusu 232.899 içerik kelimenin ise, derlem
içindeki toplam frekansı 1.162.926’dir. Sonuç olarak, Türkçe
derlemdeki i lev kelimelerin, toplam frekans içindeki oranı yakla ık
%53 olacaktır (1.349.004 / 2.511.930). Bu oranlar ngilizce için
yapılmı çalı malarla da örtü mektedir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
282
çerik ve i lev olu için, Zipf birinci kanununun yardımı ile
kelimeler için yaptı ımız i lemleri, gövdeler için de yapmak
mümkündür. Yapılan deneysel çalı malarda, Zipf birinci kanun
ifadesinin, gövde esasında birle ik derleme en uygun oldu u durumdaki
Mandelbrot denkleminin W parametresi yine 1000 idi. Bu parametre
de eri için e im B=2,2515 olarak bulunmu tu. Denklem 10.4.3.1.1. ile,
gövdeler içinde B e im tahminleri Çizelge 10.4.3.1.2.’de verilmi tir.
Gövdeler için, i lev kelimelerin e imin sıçrama noktası ile tespiti,
kelimelerdeki kadar anlamlı bir sonuç vermemi tir. Çizelgede
görüldü ü gibi, B=2,2515 sıçrama noktası çok ba larda kalmı tır.
Çizelgede ayrıca, Mandelbrot W=1000 parametresinin dı ında, W=100,
W=10 ve Zipf ifadelerinin de kesme noktaları belirlenmi tir. Sıra
numarasında devam ettikçe görülmektedir ki, bu noktalardan hiç birisi
anlamlı bir kesim sınırı verememektedirler. Tahminlerin, bir ini
ardından çıkı yaptı ı, sıra numarası 1000 etrafındaki de erler de
çizelgede gösterilmi tir. Ayrıca, tam bir fikir vermesi açısından, tüm
yapılan tahminler ekil 10.4.3.1.1.’de yayılım çizgesi olarak da
verilmi tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
283
Çizelge 10.4.3.1.2: Gövde esasında Türkçe birle ik derlem için Zipf
birinci kanun e im tahminleri.
Kelime
bir
ol
ve
bu
de
et
yap
da
için
ver
al
türkiye
o
gel
çık
yıl
il
çok
ara
var
kendi
daha
gibi
ne
sonra
söyle
konu
iste
ben
gerek
son
kadar
i
devlet
ülke
k
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
38
39
40
41
42
43
p
0.020941
0.020421
0.019411
0.016495
0.012852
0.008959
0.007948
0.007886
0.005870
0.005586
0.005475
0.005108
0.004863
0.004334
0.004297
0.004119
0.003966
0.003760
0.003721
0.003477
0.003307
0.003299
0.003213
0.003050
0.003022
0.003015
0.003010
0.003006
0.002967
0.002510
0.002508
0.002506
0.002432
0.002390
0.002380
B
Kelime
k
p
11.4900
söz
100 0.001400
5.6138
önem
101 0.001383
3.5881
özel
102 0.001346
2.9609
göster
103 0.001345
2.7055
hal
104 0.001343
2.6316
göre
105 0.001335
2.4846
ö retim
951 0.000193
2.3288 operasyon
951 0.000193
2.3383
nüfus
951 0.000193
2.2529
bakım
957 0.000191
2.1717
ça ır
957 0.000191
2.1236
ça rı
966 0.000189
2.0765
acaba
966 0.000189
2.0618
vali
1,004 0.000179
2.0124
tanık
1,004 0.000179
1.9808
ço u
1,004 0.000179
1.9518
yasadı ı
2,024 0.000065
1.9317
tekstil
2,024 0.000065
1.8998
tofa
2,024 0.000065
1.8898
sı ın
2,024 0.000065
1.8760
zarf
3,028 0.000034
1.8486
Ziya
3,028 0.000034
1.8308
Zülfü
3,028 0.000034
1.8226
sevk
3,028 0.000034
1.8025 yurtsever
5,225 0.000013
1.7814
sperm
5,225 0.000013
1.7616 söylemez
5,225 0.000013
1.7427 sosyoloji
5,225 0.000013
1.7285 sosyolojik
5,225 0.000013
1.6461
stohos
5,225 0.000013
1.6345 bediüzzaman 7,547 0.000007
1.6236 bedensel
7,547 0.000007
1.6208
benston
7,547 0.000007
1.6150
zoralım
11,923 0.000003
1.6061 Mondros 17,249 0.000001
B
1.4269
1.4265
1.4293
1.4265
1.4239
1.4222
1.2476
1.2476
1.2476
1.2474
1.2474
1.2477
1.2477
1.2480
1.2480
1.2480
1.2655
1.2655
1.2655
1.2655
1.2834
1.2834
1.2834
1.2834
1.3133
1.3133
1.3133
1.3133
1.3133
1.3133
1.3368
1.3368
1.3368
1.3693
1.3885
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
284
ekil 10.4.3.1.1 : Gövde esasında Türkçe birle ik derlem için, Zipf birinci kanun e im
tahminlerinin yayılım çizgesi.
Gövdeler için yapılan incelemelerde, Zipf kanunları da dahil
olmak üzere, kuramlara uyum açısından bir düzensizlik söz konusudur.
Ancak, bilinen ve deneysel olarak gösterilmi olan gerçek, Türkçe için
gövdelerle çalı mak, BGG geri-getirim ba arımını arttırıcı bir unsurdur
(Solak, 1994; Ekmekçio lu, 1996; Sever, 2003). Ayrıca, OSTAD
derlemi incelememizde, gövdelerin ana kitlenin benzer karakteristi ini,
kelimelerden daha çabuk gösterdi ini belirtmi tik. Yapılan
incelemelerin ı ı ı altında sonuç olarak unu söyleyebiliriz: Gövdeler
esasında kurgulanacak bir BGG sisteminde, frekansların ifade edece i
karakteristik, kelime esasındaki e lenik bir BGG sisteminden
istatistiksel açıdan anlamlı düzeylerde farklı olacaktır. Bu farklılı ın
pozitif yönde oldu una da imdiye kadar yapılmı çalı malar delil
olacaktır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
285
11. NDEKS TER M SEÇ M
Bu tezin amacı, genel anlamı ile dilbilimsel özelliklerin kullanımı
ile BGG sistemlerinde ba arımın artırılmasıdır. Bu amaç çok çe itli
yollardan gerçeklenebilir. Biz özel olarak BGG sistemlerinde yazılı
belgelerin sayısal temsilinde, yani indeks terimlerin seçiminde
dilbilimsel özellikleri kullanarak temsili güçlendirmeyi, dolayısı ile
BGG ba arımını arttırma yolunu seçiyoruz. Amaca uygun alt yapının
hazırlı ını da, Türkçe’nin belirli dilbilimsel özelliklerinin mevcut
da ılım ve istatistiksel özelliklerini belirleyerek yapaca ız. Bu
bölümde, sözcük türü (isim, fiil, sıfat v.s.) , kelime gurubu (“kur un
kalem” v.s.) ve cümle unsuru (fiil, fail, zarf, yer tamlayıcısı) olmak
üzere Türkçe’nin üç dilbilimsel özelli ini sırasıyla inceleyece iz.
Deneysel çalı malarda, BilTD ve OSTAD derlemleri kullanılmı tır.
ODTÜ derlemi, dilbilimsel özellikler i aretli olmadı ı için
incelemelerimizin dı ında kalmaktadır. Genel istatistikler ba lı ı
altında yapılan çalı malarda kullanıldı ı ekline ek olarak, OSTAD
derleminde belge türü “haber” olan metinlere ait indeks terimler de elle
i aretlenmi tir. OSTAD derleminde elle indeks terimleri i aretlenmi
olan belgelerin istatistikleri Çizelge 11.1.’de verilmi tir.
Çizelge 11.1 : OSTAD derleminde elle i aretlenmi belge istatistikleri.
Belge No Parag Say Cümle Say Birlik Say
1
39
86
1,182
2
47
110
1,512
3
27
78
1,075
4
49
114
1,528
5
40
114
1,613
6
46
104
1,614
7
37
86
1,247
8
61
94
1,487
9
48
97
1,684
394
883
12,942
Toplam
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
286
Çizelgede de görüldü ü gibi, elle i aretlenen belge sayısı, BGG
sistemlerinin ba arım ölçümlerinde genelde kullanılan boyutların
altında kalmaktadır. Mümkün olan en büyük boyutu yakalamak için
incelemelerde 394 paragraf, belge olarak kabul edilecektir. Derlemi
olu turan 12,942 birlik, 104 ile 105 arasında kalmaktadır. Dolayısı ile,
hesaplamalı dilbilim çalı malarında kullanılan genel derlem boyutlarına
uygun oldu u söylenebilir. Fakat, BGG sistem sınamaları için, çok
uygun oldu unu söyleyemiyoruz. Aslen, OSTAD derleminin tümü
de erlendirmeye alınsa dahi, BGG sistem sınamaları için çok uygun
oldu u söylenemez. Ancak, Türkçe için dilbilgisi özellikleri
i aretlenmi tek derlem budur. Toplam 12,942 birlikten sözcük türü
açısından de erlendirmeye alınan toplam 10 temel sözcük türüne ait
harf birlikleri sayısı 9,575’dir. Söz konusu derlem büyüklü ünü, 4,955
farklı kelime biçimi olu turmaktadır, yani kelime esasında kelime
da arcı ı boyutu 4,955’dir. Bu 4,955 kelime biçiminden 2,525 tanesi
indeks terim olarak belirlenmi tir. ndeks terim olarak i aretlenenler,
toplam 9,575 olan derlem boyutunun, 3,953 birli ini olu turmu tur.
Gövde esasında kelime da arcı ı, 2,165’dir. Bu gövdelerden 1,393
tanesi indeks terim olan birli in gövdesini te kil etmektedir.
Gövdeleme ile BGG ba arımının de i imi ara tırması, tez
kapsamımızın dı ındadır. Dolayısı ile, elde edilebilen yerlerde istatistik
olarak verilecek, ancak BGG ba arımı esasında incelemeyecektir.
Türkçe yazılı metinlere ait indeks terimlerin, metnin içeri ini
temsildeki önemini nicel olarak belirlemede, birliklerin (kelimeler,
sayılar v.b.) gözlenme sıklıkları, temel de i im ölçütü olarak
kullanılacaktır. Çalı ma ile amaçlanan, elle i aretlenmi olan indeks
terimlerin, derlem içinde birliklerin gözlenme frekansları ile ne kadar
belirlenebildi inin tespit edilmesidir, yani indeks terim olan birliklerin
de i iminin (veya ta ınan enformasyonun), birliklerin frekanslarının
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
287
de i imi ile ne kadar izah edilebildi idir. Bu ba lamdaki beklenti,
dilbilimsel özelliklerin, frekanslarla ta ınan enformasyon dı ında da bir
miktar, daha do rusu anlamlı düzeylerde enformasyon ta ıdı ıdır. E er
frekanslarla ta ınan enformasyon, zaten dilbilimsel özelliklerle ortaya
çıkarılacak enformasyonsa, dilbilimsel özelliklerin kullanılmasının bir
anlamı olmayacaktır (BGG sahasında, u an yaygın olan kanı budur).
statistiksel olarak bu durum, frekanslarla dilbilimsel özelliklerin
ba ımlı olması veya aralarında bir kar ılıklı ili ki (co-variance) olması
ile tanımlanabilir. Ancak bizim beklentimiz, ba ımsız olmaları veya
kar ılıklı ili kilerinin olmamasıdır. Ba ka bir söyleyi le, birinin
de i iminin di eri ile açıklanamaması, birinden di erinin de i iminin
tahmin edilememesi gerekir. E er frekansla dilbilimsel özellikler
ba ımsızsa, dilbilimsel özelliklerin devreye alınması, metin içindeki
toplam de i imin frekans ile temsil edilen kısmı dı ında kalan
kısımların da de erlendirme içine katılabilmesine imkan tanıyacaktır.
Fakat, dilbilimsel özellikler ile izah edilen de i imin BGG ba arımı
açısından anlamlı olup olmadı ı, kullanılıp kullanılmaması gereklili i
ise bir ba ka meseledir. Örne in bir geri-getirim yöntemi içerisinde,
frekans ile dilbilimsel özellikler tamamen di eri ile simetrik, ters yönde
ve aynı miktarda enformasyonu temsil eder duruma getirilebilirler, e er
bu yöntem de örne in vektör uzayı modelini esas alıyorsa, bir vektör
di er vektörün yarattı ı tüm de i imi dengeleyece i için, sonuç olarak
çok büyük bir ba arım dü ü üne de sebep olabilir. Dolayısı ile,
ba ımsız bir enformasyon varlı ının tespitinin sonrasında, bu
enformasyonun, kullanılan yöntem veya yöntemler açısından da
incelenmesi gerekmektedir. Ancak, bir yöntemin, hatta bilinen tüm
yöntemlerin ba arımlarında anlamlı bir artı olmaması, tanımladı ımız
özelliklere sahip herhangi bir ek de i im temsilinin, kökten faydasız
oldu una delil olarak kabul edilemez. E er varsa, bu ek de i imin
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
288
faydasını ortaya koyacak bir yöntem bulunması çalı malarını ba latmak
için, delil olarak kabul edilebilir.
Çizelge 11.2 : BilTD ve OSTAD derlemlerinde yapılmı olan
biçimbirimsel i aretlemede temel sözcük türü kodları.
Sıra
1
2
3
4
5
6
7
8
9
10
11
12
13
1+1
Kod
Noun
Adj
Adv
Verb
Pron
Conj
Det
Post
Quest
Interj
Num
Dup
Punc
Prop
Açıklama
simler
Sıfatlar
Zarflar/Belirteçler
Fiil
Zamirler (ben, sen, o, nereye, hepimiz, kim, v.b.)
Ba laçlar (ve, ama, ki, ile, v.b.)
Belirleyenler (bir, her, bu, u, her, hiçbiri, v.b.)
lgeçler (diye, gibi, için, do ru, v.b.)
Soru eki ile ba layıp ayrı yazılan sözcükler (mi, mı, mısınız v.b.)
Ünlemler (oh, off, nah, hadi, aaa, tabi, aferin, haydi, v.b.)
Sayılar
Tekrar edilerek olu turulmu , yansımalı kelimeler.
Noktalama i aretleri
Özel sim
Çizelge 11.2.’de, deneysel çalı malarda kullanılacak BilTD ve
OSTAD derlemlerinin biçimbirimsel i aretlemesinde, temel sözcük
türleri için tanımlanmı kodlar listelenmi tir. Bu bölümde yapılan
çalı maların istatistikleri verilirken de söz konusu kodlar korunmu tur.
Son satırda verilen “Prop” yani özel isim, aslen bir ana tür olarak
i aretlenmemi ancak, de erlendirme içine alındı ı için listeye dahil
edilmi bir yan sözcük türü’dür. aretleme esnasında, Noun kodundan,
yani isimden sonra getirilerek ismin bir özel isim oldu u
belirlenmektedir. Bu i aretleme kodları Oflazer’in (1993) Türkçe için
iki seviyeli dilbilimsel tanımlamasında kullandı ı biçimbirim
i aretlemesinden alınan kodlardır. Çizelgede 12. sırada verilen Dup
kodu (tekrar), aslen Bölüm 2.’de kelime gurubu kapsamına aldı ımız
bir dilbilgisi özelli idir. Tekrarları, kelime guruplarından ayrı tutmak,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
289
onları bir bütün olarak, ayrılmaz birlik eklinde kabul edip (yani tek bir
nevi kelime), kelime türü eklinde de erlendirmek de makul bir
yakla ım olabilir. Ancak, biz sözcük türü de erlendirmemizde bu kodu
kullanmıyoruz ve çıkartıyoruz. Sıra numarası 11 ve 13 olan, Num ve
Punc, yani sayılar ve noktalama i aretleri de tabii, de erlendirmemiz
dı ındadır. Dolayısı ile bu bölümdeki çalı malarda, 10 temel kod ve bir
de özel isimleri belirleyebilmek için Prop yan kodu olmak üzere
toplam 11 kod kullanaca ız. Özel isim de erlendirmemiz de, ana
sözcük türleri de erlendirmelerine ek olarak verilecektir.
Bölüm 10.’da Zipf güç kanunları incelenirken, içerik ve i lev
kelime ayrı tırması meselesi içerisinde, derlem içinde gözlenme sıklı ı
yüksek olan birliklere odaklanmı bir yöntem ile i lev kelimelerle,
içerik kelimeler arasında bir sınır noktası da belirlemeye çalı mı tık.
Bu sınır noktasından yukarıda kalan birlikler i lev kelimeler, sınırın
altında kalan kelimeler de içerik kelimeler olarak kuram gere i kabul
edilmi ti. Ancak, i lev kelimeler olarak belirlediklerimizin arasında
içerik kelimeler; içerik kelimeler olarak belirlediklerimizin arasında da
i lev kelimeler oldu u da belirtilmi ti. te bu durum, derlem üzerinde
görülme sıklı ına dayalı olan tüm geri-getirim yöntemlerinin
ba arımlarını etkileyen, daha do rusu ba arımlarını dü üren durumdur.
Geleneksel geri-getirim yöntemlerinin hemen hepsi, görülme sıklı ına
dayalı kurgulara sahiptir. Dolayısı ile mesele de geneldir. Derlemde
görülme sıklıklarını esas alan bir yöntemin kör noktası diyebilece imiz
yer ise, dü ük frekanslı kelimelerdir. Dü ük frekanslı kelimelerin
kelime da arcı ının boyutları açısından önemi, yine Zipf güç kanunları
incelemesinde de erlendirilmi ti. Zipf kanunları incelenirken, kelime
da arcı ının derlem boyutu ile birlikte üstel ve do ru orantıyla
büyüyece i iddiasına, dü ük frekanslı kelimeleri esas alan bir bakı
açısından Türkçe için deneysel olarak deliller göstermi tik. Aslen,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
290
dü ük frekanslı kelimelerin kelime da arcı ı boyutları açısından önemli
bir etmen olmasının yanında, indeks terim seçiminde de önemi
büyüktür. Çünkü, dü ük frekans içersinde bir de i imden söz edilemez.
Bir kere gözlenen bir kelime, bir belgede tek bir yerde gözlenmi tir.
Oysa, geri-getirim yöntemleri frekans içindeki de i imleri
belirleyebildi i ölçüde ba arıma sahip olmaktadır. Dü ük frekanslı
kelimelerin i lev veya içerik olduklarının belirlenebilmesi için
gözlenme sıklı ı dı ında bir etmenden faydalanması gerekmektedir.
Söz konusu bu etmenle ek bir belirleyicilik kazanmalıdır. Aynı durum
aslında yüksek frekanslı birlikler ve orta frekanslı birlikler için de
geçerlidir. Dilbilgisi özellikleri bu yönde ba vurulabilecek araçlardan
bir tanesidir. Geleneksel geri-getirim yöntemlerinde örne in, özel isim
olan birlikler ister dü ük frekanslı olsun, ister yüksek frekanslı olsun
içerik kelime olarak ele alınmaktadır.
Bu tez kapsamında, dilbilgisi özellikleri aynı bakı açısından ele
alınıp, indeks terim (içerik kelime) olu u belirleyicilik açısından
incelenmi tir. ndeks terimlerle ilgili çalı ma iki a amaya ayrılmı tır.
Birinci a amada, derlemi olu turan birlikler içerisinden indeks
terimlerin belirlenmesi üzerinde durulmu . kinci kısımda, seçilen
indeks terimlerin bulundukları metnin içeri ini temsilde önemi
belirlemeye yönelik çalı malar yapılmı tır. lerleyen kısımlarda
öncelikle “Genel Da ılımlar” ba lı ı altında, dilbilgisi özelliklerinin
frekans esasında yalın da ılımları tanımlanmı ve ardından elle
i aretlenmi indeks terimler üzerinden da ılımları verilmi tir. ndeks
terimlerin belirlenmesinde dilbilgisi özelliklerinin kullanımı bu ekilde
ara tırıldıktan sonra, seçilmi indeks terimlerin bulundukları metnin
içeri ini temsilde önemini ölçeklendirmek için geleneksel geri-getirim
yöntemlerinin ngilizce derlemlerde ba arım olarak en iyi olanlarının
a ırlıklandırma yordamları frekans esasında Türkçe için sınanmı tır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
291
Türkçe için de erlendirme sonucunda en iyi olarak belirlenen gerigetirim yönteminin ba arım de erleri, e ik olarak kabul edilmi ve son
olarak dilbilgisi özelliklerinin BGG sistemlerinin ba arımına katkısı
istatistiksel olarak ara tırılmı tır.
11.1. Genel Da ılımlar
11.1.1. Sözcük Türleri
Türkçe’de i levsel açıdan kelimeler/sözcükler ele alındı ında, üç
tür kelime vardır: isimler, fiiller ve edatlar. Yazılı dilin temel unsurları,
yani yazıda anlamı kar ılayan unsurlar, isimler ve fiillerdir. Edatlar ise
yazılı anlatımın kuralları içinde, i levsel olarak görevli, tek ba larına
anlamları soyut ve havada kalan, ancak isimlerle ve fiillerle
kullanıldıklarında anlam kazanan yardımcı unsurlardır.
levsel olarak aslen isim soyundan gelen, yani isim ba lı ı
altında genel olarak toplanan, ancak görev olarak birbirlerinden farklı
alt guruplar da vardır: özel/cins isimler, sıfatlar, zamirler ve zarflar.
Özel isimler tek bir nesnenin, cins isimler ise bir gurup nesnelerin ve
kavramların adlarıdır. Sıfatlar nesnelerin vasıf isimleridir. Zamirler
nesneleri geçici olarak kar ılamak için, dilde kullanılan ve sayıca kısıtlı
isimlerdir (bu, u, o v.b.). Zarflarsa fiillerin zamanını, olu eklini,
yerini, v.b. tanımlayan isim soylu kelimelerdir. Edatlar da kullanı
ekline göre kendi içinde çe itli guruplar altında toplanırlar: Ünlem
edatları, ba lama edatları ve son çekim edatları. Fiiller de kendi
içlerinde yapılarına ve kullanılı larına göre çe itlere ayrılır: fiiller, sıfat
fiiller (partisipler-ortaç) ve isim-fiiller (gerundiumlar).
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
292
Türkçe’deki sözcük türlerinin dilbilimsel detayları Bölüm 2.’de
Türkçe ba lı ı altında detaylı ekilde ele alınmı tı. Burada bu sözcük
türlerinin yazılı metinler içindeki sayısal da ılımları açısından
incelemesini yapaca ız. Zipf kanunları ile tür ayrımına gitmeden
yaptı ımız çalı malara ek bir enformasyon olup olmadı ını, daha
do rusu kelimelerin frekansları ile türleri arasında kar ılıklı ili ki olup
olmadı ını inceleyece iz. Böyle bir ba lantı ile, i lev ve içerik
kelimelerin ayrımlarının yapılıp yapılamayaca ı ikinci tartı ma konusu
olacak. Dolayısı ile yazılı belgelerin sayısal temsillerine katkının olup
olmayaca ının tartı ması bu ba lamdan verilecektir.
BilTD ve OSTAD derlemleri, ayrıca ikisinin harmanı ile
olu turulan birle ik derlem için, ana sözcük türlerinin kelime da arcı ı
içindeki oransal da ılımları, kelime esasında Çizelge 11.1.1.1.’de,
gövde esasında Çizelge 11.1.1.2.’de verilmi tir. Sözcük türü oransal
da ılımı OSTAD derlemi için, hem kelime hem de gövde esasında
ekil 11.1.1.1.’de, çizge olarak da verilmi tir.
Çizelgelerde de görüldü ü gibi, her iki derlem ve dolayısı ile
birle ik derlem için, isim türünde kelimeler (noun) kelime da arcı ı
içinde %50’inin üzerinde bir orana sahiptir. sim türünü, kelime
esasında fiil (verb) ve gövde esasında sıfat (adj) türü takip etmektedir.
OSTAD derleminde, di er iki derlemden farklı olarak, isim türü oranı
gövde esasında %70’in altında kalmı tır (%58,4). Harman ile
olu turulan BirTD derlemi a ırlıklı olarak (yakla ık 3/4), BilTD
derleminin etkisinde oldu u için, tabii olarak yakın sonuçlar vermi tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
293
Çizelge 11.1.1.1: Kelime esasında sözcük türlerinin kelime da arcı ı
içindeki oransal da ılımları.
BilTD
OSTAD
BirTD
Tür Frekans % Yı . (%) Frekans % Yı . (%) Frekans % Yı . (%)
Adj
7,063 7.2
7.2
2,054 11.4 11.4
7,786 7.4
7.4
Adv
2,427 2.5
9.6
716 4.0 15.3
2,663 2.5 10.0
Conj
32 0.0
9.7
27 0.1 15.5
35 0.0 10.0
Det
1,388 1.4 11.1
14 0.1 15.5
1,393 1.3 11.3
Interj
35 0.0 11.1
31 0.2 15.7
48 0.0 11.4
Noun
69,160 70.3 81.5
11,014 60.9 76.6
72,743 69.4 80.8
Postp
47 0.0 81.5
38 0.2 76.9
52 0.0 80.9
Pron
313 0.3 81.8
180 1.0 77.9
335 0.3 81.2
Ques
34 0.0 81.9
23 0.1 78.0
37 0.0 81.2
Verb
17,849 18.1 100.0
3,981 22.0 100.0
19,688 18.8 100.0
Toplam 98,348 100.0
18,078 100.0
104,780 100.0
Çizelge 11.1.1.2 : Gövde esasında sözcük türlerinin kelime da arcı ı
içindeki oransal da ılımları.
BilTD
OSTAD
BirTD
Tür Frekans % Yı . (%) Frekans % Yı . (%) Frekans % Yı . (%)
Adj
3,536 12.4 12.4
1,358 19.0 19.0
3,797 12.8 12.8
Adv
1,042 3.7 16.1
486 6.8 25.9
1,127 3.8 16.6
Conj
32 0.1 16.2
27 0.4 26.2
35 0.1 16.7
Det
988 3.5 19.7
13 0.2 26.4
992 3.3 20.0
Interj
35 0.1 19.8
31 0.4 26.9
48 0.2 20.2
Noun
20,192 71.0 90.9
4,165 58.4 85.3
20,941 70.4 90.6
Postp
47 0.2 91.0
38 0.5 85.8
52 0.2 90.7
Pron
46 0.2 91.2
29 0.4 86.2
52 0.2 90.9
Ques
4 0.0 91.2
4 0.1 86.3
4 0.0 90.9
Verb
2,502 8.8 100.0
978 13.7 100.0
2,699 9.1 100.0
Toplam 28,424 100.0
7,129 100.0
29,747 100.0
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
294
Pron
1.00%
Postp
0.21%
Ques
0.13%
Verb
22.02%
Postp
Pron 0.53%
0.41%
Adj
11.36%
Interj
0.17%
Det
0.08%
Verb
13.72%
Adj
19.05%
Noun
58.42%
Adv
4%
Noun
60.92%
Ques
0.06%
Conj
0.15%
Adv
7%
Interj
0.43%
(a)
Det
0.18%
Conj
0.38%
(b)
ekil 11.1.1.1 : OSTAD derlemi, kelime (a) ve gövde (b) esasında kelime da arcı ı
içinde sözcük türü oranları.
Sözcük türlerinin, “derlem içinde görülme sıklı ı” açısından
oranları da, genel de erlendirme içinde ele alaca ımız ikinci unsurdur.
Tabi, görülme sıklı ı açısından oranlardan bahsetti imiz için kelime
esası veya gövde esası diye bir ayrıma gidilememektedir. Çünkü,
görülme sıklı ı açısından kelimelerle gövdeleri arasında sözcük türü
ba lamında bir fark yoktur. Dolayısı ile, kelime türlerinin derlem içinde
görülme sıklı ı oranları topluca (kelime yada gövde esasında
yorumlanabilir), Çizelge 11.1.1.3.’de verilmi tir. OSTAD derlemi için
sözcük türlerinin görülme sıklıklarına göre oranları ayrıca
11.1.1.2.’de çizge olarak da verilmi tir.
ekil
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
295
Çizelge 11.1.1.3 : Sözcük türlerinin derlem içinde görülme sıklıklarının
oransal da ılımları.
BilTD
OSTAD
BirTD
Tür Frekans % Yı . (%) Frekans % Yı . (%) Frekans % Yı . (%)
Adj
85,650 12.2 12.2
6,087 11.8 11.8
91,737 12.2 12.2
Adv
31,124 4.4 16.6
3,510 6.8 18.7
34,634 4.6 16.8
Conj
34,678 4.9 21.6
2,503 4.9 23.6
37,181 4.9 21.7
Det
29,435 4.2 25.8
2,217 4.3 27.9
31,652 4.2 25.9
Interj
430 0.1 25.8
132 0.3 28.1
562 0.1 26.0
Noun
418,726 59.6 85.5
24,351 47.4 75.5
443,077 58.8 84.8
Postp
15,730 2.2 87.7
1,298 2.5 78.0
17,028 2.3 87.0
Pron
14,568 2.1 89.8
2,476 4.8 82.9
17,044 2.3 89.3
Ques
1,898 0.3 90.0
296 0.6 83.4
2,194 0.3 89.6
Verb
69,938 10.0 100.0
8,508 16.6 100.0
78,446 10.4 100.0
Toplam 702,177 100.0
51,378 100.0
753,555 100.0
Derlem içinde gözlenme sıklı ı açısından, kelime türleri bu sefer
üç derlemde de paralel oranlar sergilemi tir. sim türü birinci, sıfat türü
ikinci ve fiil üçüncü en büyük orana sahiptir.
Verb
16.56%
Adj
11.85%
Ques
0.58%
Adv
7%
Conj
4.87%
Det
4.32%
Pron
4.82%
Interj
0.26%
Postp
2.53%
Noun
47.40%
ekil 11.1.1.2 : OSTAD derlemi, derlem içinde gözlenme sıklı ına göre sözcük türü
oranları.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
296
11.1.1.1 ndeks terim da ılımları
OSTAD derleminde, sözcük türlerinin indeks terim da ılımları
Çizelge 11.1.1.1.1’de tablo halinde, ekil 11.1.1.1.1.’de çizge olarak
verilmi tir. “Ques”, yani soru sözcük türü de erlendirmede yoktur.
Çizelge 11.1.1.1.1 : OSTAD derleminde sözcük türlerinin indeks terim
da ılımları.
Söz.Türü indT f Söz.Türü indT f
Adj
1
207 Noun
0 2,099
Adj
0 1,019 Noun
1 3,690
Adv
1
7 Postp
0
290
Adv
0
375
Pron
1
0
Conj
0
515
Pron
0
170
Det
0
280 Verb
1
48
Interj
0
8 Verb
0
867
Interj
1
0
Çizelgede, her sözcük türünün indeks terim (içerik) olarak
gözlenme sıklı ı (indT=1) ve indeks terim olmadı ı (i lev) gözlemler
(indT=0) tablo halinde listelenmi tir.
100%
0.36
80%
60%
0.83
1.00 1.00 0.95
0.98 1.00 1.00 1.00
40%
0.64
0
1
20%
0.00 0.00 0.05
In
te
rj
N
ou
n
Po
st
p
Pr
on
Ve
rb
D
et
C
on
j
0.02 0.00 0.00 0.00
Ad
v
0.17
Ad
j
0%
ekil 11.1.1.1.1 : OSTAD derleminde sözcük türlerinin indeks terim da ılımları.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
297
Yukarıda verilen sözcük türlerinin kendi içinde oransal
de erlendirmesinde, en yüksek oran (%64) ile isim sözcük türünde
çıkmı tır. sim sözcük türünü, %17 ile sıfatlar (Adj), %5 ile fiiller
(Verb) ve %2 ile zarflar (Adv) takip etmektedir. Genel toplam
üzerinden,
indeks terimlerin sözcük türü da ılımları da
11.1.1.1.2.’de verilmi tir.
ekil
Verb
1.2%
Adj
5.2%
Noun
93.4%
ekil 11.1.1.1.2: ndeks terimlerin sözcük türü da ılımları.
Genel da ılım göz önüne alındı ında, indeks terimlerin %93’ü
isim sözcük türünde gözlenmi tir. Bu sonuç, genel kabul ile paraleldir.
Genel kabulde, metin içindeki harf birliklerinin, metin içeri ine
anlamca katkıda bulunanlarının isim sözcük türünde oldu u belirtilir.
Ancak, sözcük türlerinin kendi içinde indeks terim olu da ılımı göz
önüne alındı ında, aslen “isim sözcük türündeki kelimeler indeks
terimdir.” eklinde bir önermenin yapılamayaca ı da açıktır. Çünkü,
isim sözcük türü içinde indeks terim olu un belirsizli i %36 gibi
yüksek bir de erdir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
298
Lahtinen (2000), sözcük türlerinde aynı yakla ımı ngilizce için
kullanmı tır. Oransal da ılımları indeks terimlerin seçiminde ve metin
içinde önemini tespitte de kullanmı tır. Yani sözcük türlerinin indeks
terim da ılımlarını sadece indeks terim seçimi için de il, ayrıca terimin
bulundu u metnin içeri ine anlamsal katkısı ile de ili kilendirmi tir.
Lahtinen deneysel ara tırmasının sonunda, dilbilimsel özelliklerin
indeks terimleri seçebildi ini, metin içinde önemini tespitte de yardım
edebildi ini bildirmi tir.
Sözcük
türü
ve
indeks
terimlerin
topluca
da ılımsal
de erlendirmesi, Çizelge 11.1.1.1.2.’de tablo halinde verilmi tir.
Çizelge 11.1.1.1.2: OSTAD derleminde, sözcük türü ve indeks
terimlerin toplu de erlendirmesi.
ndeks Terim
Söz.Türü
Adj
Adv
Conj
Det
Interj
Noun
Postp
Pron
Verb
0
frek
P(SözT|.)
frek
P(SözT|.)
frek
P(SözT|.)
frek
P(SözT|.)
frek
P(SözT|.)
frek
P(SözT|.)
frek
P(SözT|.)
frek
P(SözT|.)
frek
P(SözT|.)
Toplam
P(ind)
1,019
0.18
375
0.07
515
0.09
280
0.05
8
0.00
2,099
0.37
290
0.05
170
0.03
867
0.15
5,623
0.59
1
207
0.05
7
0.00
0
0.00
0
0.00
0
0.00
3,690
0.93
0
0.00
0
0.00
48
0.01
3,952
0.41
Toplam
1,226
0.13
382
0.04
515
0.05
280
0.03
8
0.00
5,789
0.60
290
0.03
170
0.02
915
0.10
9,576
P(ind=0|.)
P(ind=1|.)
0.83
0.17
0.98
0.02
1.00
0.00
1.00
0.00
1.00
0.00
0.36
0.64
1.00
0.00
1.00
0.00
0.95
0.05
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
299
11.1.1.2 Özel isimlerin indeks terim da ılımı
Özel isimler, isim sözcük türünün bir alt parçasıdır. Dolayısı ile,
katkısı tamamen isim sözcük türü tarafında kapsanır. Ancak, katkı isim
sözcük türü içerisinde kalmasına ra men, indeks terim belirleyicili i
açısından çok güçlüdür. Lahtinen (2000) tarafından da ngilizce için
belirtildi i gibi, özel isimler daima indeks terim olurlar. Bir özel isim,
bir ki i ismi iken, ön ad ve soyadı birlikteli inde sadece soyadının
indeks terim olarak alınması da rastlanan bir durumdur. OSTAD
derleminde yapılan elle i aretlemelerde, toplam 495 farklı özel isme
rastlanmı tır. Bu özel isimler derlemde, 883 kez gözlenmi tir. Tüm
gözlemler indeks terimdir. Bir ba ka söyleyi le, özel isim olan her isim
sözcük türü, indeks terim olarak alınmı tır.
11.1.2. Cümle Unsurları
Türkçe bir cümlede temel unsurlar, fiil, fail, nesne, yer
tamlayıcısı ve zarf’tır. Yani cümlede fiil ile onun gerektirdi i unsurlar
bulunur. Hükmün geni li ine göre cümlede, cümle unsurlarından biri,
bir kaçı veya hepsi bulunur. Fiil ve fail cümlenin esas unsurları, nesne,
zarf ve yer tamlayıcısı da cümlenin yardımcı unsurlarıdır. Bir cümlede
ancak bir fiil unsuru bulunur. Di er unsurların ise cümlede aynı cinsten
bir veya birkaç tanesi bulunabilir. Yani bir cümlede birkaç fail, birkaç
nesne, birkaç yer tamlayıcısı ve birkaç zarf bulunabilir. Cümlede bu
unsurlardan ba ka bir de ba lama ve ünlem edatları veya ünlem
gurupları bulunabilir. Fakat bunlar esas hareketle, fiille ilgili olmayan
ve cümleye sadece ilave edilmi durumda bulunan unsurlardır.
Genellikle cümlelerin ba larında, sonlarında ve cümleler arasında
bulunurlar. Parantez eklinde cümle içine girdikleri de görülür. Bunlara
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
300
cümle dı ı unsurlar denir. Cümle unsurlarının daha geni açıklamaları
Bölüm 2.’de Türkçe ba lı ı atında ilgili bir kısım olarak verilmi tir.
OSTAD
derlemi
cümle
unsurlarının
da ılımını
inceleyebilece imiz tek derlemdir. Bilgimiz dahilinde, cümle unsurları
i aretli olan ba ka bir Türkçe derlem yoktur. OSTAD derleminde
cümle unsurlarının i aretlenmesi için kullanılan kodlar Çizelge
11.1.2.1.’de tablo halinde verilmi tir.
Çizelge 11.1.2.1 : OSTAD derleminde cümle unsuru i aretlemesinde
kullanılan kodlar.
Kod
*
ABLATIVE.ADJUNCT
APPOSITION
CLASSIFIER
COLLOCATION
COORDINATION
DATIVE.ADJUNCT
DETERMINER
ETOL
INSTRUMENTAL.ADJUNCT
INTENSIFIER
LOCATIVE.ADJUNCT
MODIFIER
Açıklama
Cümle unsuru olarak belirlenemeyen yabancı kelimeler
Yer isteyen soru kelimelesi (-den hali)
ki nokta ile açıklanan kelimeler v.b.
isim-isim eklinde tamlamalarda, birinci kelimeye verilen kod
Kelime gurubu
Ba laç kodu
Yer isteyen soru kelimelesi (-e hali)
Belirleyiciler (Bu, u v.b.)
Birle ik fiil
Araç isteyen soru kelimesi (Neyle, nasıl gibi)
Vurgulayıcılar
Yer isteyen soru kelimelesi (-de hali)
Sıfatları adlara, zarfları sıfatlara veya fiillere, ilgi tümcelerini
fiillere ve zaman bildiren isimleri fiillere ba layan kod
De il kelimesinin kodu
Cümlenin nesnesi
Belirtili isim tamlamasında tamlayana verilen kod
Soru parçacı ı (mı, mi gibi)
li kilendiriciler
Söylen ba laçları (çünkü, fakat v.b.)
Her tümceyi, tümce sonundaki noktalama i aretine ba lar
Cümlenin faili/öznesi
Seslenme
NEGATIVE.PARTICLE
OBJECT
POSSESSOR
QUESTION.PARTICLE
RELATIVIZER
S.MODIFIER
SENTENCE
SUBJECT
VOCATIVE
ndeks terimlerin cümle unsurları üzerine da ılımları, Çizelge
11.1.2.2.’de tablo olarak verilmi tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
301
Çizelge 11.1.2.2: ndeks terimlerin cümle üzerindeki da ılımı.
Cümle Unsuru
*
Kod indT
0
*
1
Abl
0
1
App
0
1
Clas
0
1
Coll
0
1
Coo
0
1
Dat
0
1
Det
0
Etol
0
Inst
0
1
Ints
0
1
*
*
ABLATIVE.ADJUNCT
ABLATIVE.ADJUNCT
APPOSITION
APPOSITION
CLASSIFIER
CLASSIFIER
COLLOCATION
COLLOCATION
COORDINATION
COORDINATION
DATIVE.ADJUNCT
DATIVE.ADJUNCT
DETERMINER
ETOL
INSTRUMENTAL.ADJUNCT
INSTRUMENTAL.ADJUNCT
INTENSIFIER
INTENSIFIER
f
Unsur
LOCATIVE.ADJUNCT
5
0 LOCATIVE.ADJUNCT
54 MODIFIER
67 MODIFIER
24 NEGATIVE.PARTICLE
56 NEGATIVE.PARTICLE
173 OBJECT
598 OBJECT
0 POSSESSOR
6 POSSESSOR
270 QUESTION.PARTICLE
11 RELATIVIZER
133 S.MODIFIER
212 SENTENCE
217 SENTENCE
1 SUBJECT
18 SUBJECT
32 VOCATIVE
162 VOCATIVE
0
Kod indT f
0 169
1 235
Mod
0 2,171
1 387
Neg
0
16
1
0
Obj
0 940
1 1,198
Poss
0
62
1 288
Que
0
2
Rel
0
2
S.M
0
73
Sen
0 895
1
96
Sub
0 233
1 763
Voc
0
4
1
2
Loc
Cümle unsurları her zaman tek bir kelimeden olu maz, birden
fazla kelimenin bir araya gelmesi ile olu an kelime gurupları, daha
do rusu tümceler (Collocation) cümlenin unsurları olabilirler. Dolayısı
ile, tek birlik üzerinde in a etti imiz indeks terim kurgusu ile cümle
unsurları aynı hesaplama birimine sahip olmadı ı için, yani çekirdek
birlik boyutu olarak aynı ölçe e sahip olmadıkları için bir uyumsuzluk
söz konusudur. Bu uyumsuzluk, bir cümle unsurunu olu turan
birliklerden birisi, indeks terim olarak seçilmi se, o cümle unsuru
indeks terim olarak kabul edilerek giderilmi tir. Ayrıca, tahmin
edilece i gibi, bir cümle unsurunu olu turan birliklerden birden fazlası
da indeks terim olabilmektedir. Bu mesele kelime gurupları
incelemesinde ele alınacaktır. Burada yalın bir yakla ım izlemek yeterli
görülmü tür.
Cümle
unsurunun
indeks
terim
olarak
frekansı
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
302
hesaplanırken, içerdi i birliklerin indeks terim olanları sayılmı tır.
Dolayısı ile, örne in bir cümle unsuru 2 indeks terim içeriyorsa,
frekansı 2 olarak hesaplanmı tır. Bir cümle unsuru, sadece tek bir
kelime gurubu ile örtü ece i için böyle bir yakla ım yanlı
olmamaktadır. Çizelgede, her cümle unsuru kodu için, “kod” sütununda
bir de kısa kod atanmı tır. Bu kısa kodlar, istatistiklerin gösterimlerde
ekilsel düzeni sa lamak için olu turulmu tur.
ekil 11.1.2.1.’de cümle unsurlarının kendi içinde, indeks terim
da ılımları çizge olarak betimlenmi tir.
100%
90%
80%
70%
60%
50%
40%
0
Sub
Sen
S.M
Rel
Que
Obj
Poss
Neg
Mod
Loc
Inte
Inst
Det
Dat
Coo
Coll
Clas
Abl
App
*
30%
20%
10%
0%
Voc
1
ekil 11.1.2.1 : OSTAD derlemi, cümle unsurlarının indeks terim da ılımları.
ekilde cümle unsurlarının, indeks terim da ılımları arasında,
kendi içinde en tutarlı olan unsur “kelime gurubu” (Coll) olarak
i aretlenmi olan birliklerdir. Ancak, OSTAD için hazırlanan kullanım
kılavuzunda, kelime gurubu koduna sahip olan birliklerin sonradan bir
program yardımı ile tek birli e çevrildi i ve sadece yanlı i aretlenmi
olanların
kaldı ı
söylenmi tir.
Dolayısı
ile,
tutarlılık
de erlendirmesinde, kelime gurubu koduna sahip birlikler göz önüne
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
303
alınmamı tır, ancak betimsel istatistiklerden de çıkarılmamı tır. Genel
üzerinden, indeks terimlerin cümle unsurları üzerindeki da ılımı da
ekil 11.1.2.2.’de verilmi tir.
App
1%
Abl
2%
Clas
15%
Sub
19%
Dat
5%
Sen
2%
Inst
1%
Poss
7%
Loc
6%
Mod
10%
Obj
30%
ekil 11.1.2.2 : OSTAD derleminde indeks terimlerin cümle unsuru da ılımları.
Cümle unsurlarının, indeks terim da ılımları hem kendi içinde
hem de genel üzerinden toplu de erlendirmesi Çizelge 11.1.2.3.’de
verilmi tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
304
Çizelge 11.1.2.3: OSTAD derlemi, cümle unsuru ve indeks terim için toplu de erlendirme.
Kod
*
Abl
App
Clas
Coll
Coo
Dat
Det
Inst
Inte
Loc
0
1
Top
frek
5
0
5
P(Kod|.)
0.00
0.00
0.00
frek
54
67
121
P(Kod|.)
0.01
0.02
0.01
frek
24
56
80
P(Kod|.)
0.00
0.01
0.01
frek
173
598
771
P(Kod|.)
0.03
0.15
0.08
frek
1
5
6
P(Kod|.)
0.00
0.00
0.00
frek
270
11
281
P(Kod|.)
0.05
0.00
0.03
frek
133
212
345
P(Kod|.)
0.02
0.05
0.04
frek
217
0
217
P(Kod|.)
0.04
0.00
0.02
frek
18
32
50
P(Kod|.)
0.00
0.01
0.01
frek
162
0
162
P(Kod|.)
0.03
0.00
0.02
frek
169
235
404
P(Kod|.)
0.03
0.06
0.04
P(ind=0|.)
P(ind=1|.)
Kod
1.00
0.00
Mod
0.45
0.55
Neg
0.30
0.70
Obj
0.22
0.78
Poss
0.17
0.83
Que
0.96
0.04
Rel
0.39
0.61
S.M
1.00
0.00
Sen
0.36
0.64
Sub
1.00
0.00
Voc
0.42
0.58
0
1
Top
frek
2,171
387
2,558
P(Kod|.)
0.39
0.10
0.27
frek
16
0
16
P(Kod|.)
0.00
0.00
0.00
frek
940
1,198
2,138
P(Kod|.)
0.17
0.30
0.22
frek
62
288
350
P(Kod|.)
0.01
0.07
0.04
frek
2
0
2
P(Kod|.)
0.00
0.00
0.00
frek
2
0
2
P(Kod|.)
0.00
0.00
0.00
frek
73
0
73
P(Kod|.)
0.01
0.00
0.01
frek
895
96
991
P(Kod|.)
0.16
0.02
0.10
frek
233
763
996
P(Kod|.)
0.04
0.19
0.10
frek
4
2
6
0.00
0.00
0.00
5,625
3,951
9,575
0.59
0.41
P(Kod|.)
Toplam
P(ind)
P(ind=0|.)
P(ind=1|.)
0.85
0.15
1.00
0.00
0.44
0.56
0.18
0.82
1.00
0.00
1.00
0.00
1.00
0.00
0.90
0.10
0.23
0.77
0.67
0.33
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
305
Lahtinen (2000), yaptı ı çalı mada cümle unsurları için
ngilizce’de benzer bir yol izlemi tir. Lahtinen çalı masında, cümle
unsurlarının kendi içinde indeks terim olu da ılımlarını kullanmı tır.
Genel da ılımı, yani indeks terimlerin cümle unsurları üzerindeki
da ılımını kullanmamı tır. Not edilmesi gereken bir önemli nokta
Lahtinen tarafından yapılan çalı mada da, ngilizce için kendi içinde en
yüksek olasılı a sahip cümle unsuru olarak, isim tamlamalarının ilk
birli inin bulunmasıdır. kinci unsur, cümlenin faili; üçüncü unsur edat
tümlecinde tamlayan22 (complement of preposition) adını verdi i unsur
ve dördüncü unsur da nesnedir.
11.1.3. Sözcük Türü ve Cümle Unsuru Ortak De erlendirme
Sözcük türünün ve cümle unsurlarının bireysel olarak indeks
terim da ılımları kendi içlerinde de erlendirildi, burada birlikte
de erlendirmesi yapılacaktır. Birlikte de erlendirme, sözcük türü ve
cümle unsurunun birlikte indeks terim da ılımlarıdır. Çizelge
11.1.3.1.’de OSTAD derleminde yapılan elle i aretleme verileri
kullanılarak hesaplanmı , sözcük türü ve cümle unsuru belirlenmi ken,
indeks terim olma (1) ve olmama (0) olasılıkları, tablo halinde
verilmi tir.
22
Lahtinen, edat tümlecinde tamlayan cümle unsuru adını verdi i kelime gurupları
için “divorced from ETHICS” örne ini vermi tir. Bu gurubun edatı “from” birli idir.
“ETHICS” (töre, ahlak) birli i tamlayandır. “divorced” (bo anma) birli i de
tamlanan.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
306
Çizelge 11.1.3.1 : OSTAD derleminde, sözcük türü ve cümle unsuru birlikte indeks terim da ılımı.
*
Abl
App
Clas
Coll
Coo
Dat
Det
Etol
Inst
Inte
indT
0
Adj
Adv
Conj
Det
Interj
Noun
Postp
Pron Verb
0.80
1
Loc
0.20
0
0.50
0.44
1.00
1
0.50
0.56
0.00
0
1.00 0.75
1.00
0.21
1.00
1
0.00 0.25
0.00
0.79
0.00
0
0.55
1.00
0.20
1.00
1.00
1
0.45
0.00
0.80
0.00
0.00
0
0.17
1
0
Mod
1.00
0.29
1.00
Que
1
0.50 0.00
0.71
0.00
0
0.00
0.35
1.00
1.00
1
1.00
0.65
0.00
0.00
0
1.00
1.00
1
0.00
0.00
0.00
Rel
1.00
1.00
0.00
0.00
0
0.00
1
1.00
Obj
Poss
0.83
0.50 1.00
Neg
S.M
Sen
0
0.35
1.00
1
0.65
0.00
Sub
0
1.00
1.00
0.00
1.00
1
0.00
0.00
1.00
0.00
Voc
indT
0
Adj
Noun
Postp
Pron Verb
0.25
Adv Conj
Det
Interj
0.42
1.00
1.00 0.00
1
0.75
0.58
0.00
0.00 1.00
0
0.85 0.99
1.00 1.00
0.69
1.00
1.00 0.96
1
0.15 0.01
0.00 0.00
0.31
0.00
0.00 0.04
0
1.00
0.00
1.00
1
0.00
1.00
0.00
0
0.79 1.00
1.00
0.40
1.00
1.00 0.89
1
0.21 0.00
0.00
0.60
0.00
0.00 0.11
0
0.60
0.12
1.00
1
0.40
0.88
0.00
0
0.00
0.00
1.00 0.00
1
1.00
1.00
0.00 1.00
0
1.00
1
0.00
0
1.00
1.00
1.00
1.00
1
0.00
0.00
0.00
0
1.00 1.00
1.00 1.00
1.00
1.00
1.00
1.00 1.00
1
0.00 0.00
0.00 0.00
0.00
0.00
0.00
0.00 0.00
0.00
0
0.56
1.00
0.18
1.00
1.00 0.80
1
0.44
0.00
0.82
0.00
0.00 0.20
0
1.00
1.00
1.00
0.00
1
0.00
0.00
0.00
1.00
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
307
11.1.4. Kelime Gurupları
OSTAD derlemi, kelime gurupları i aretlenmi bir derlemdir.
Derlemde kelime gurupları Türkçe dilbilgisi kuralları dahilinde tespit
edilmi tir. BGG sistemlerinde kelime guruplarının kullanımı, genel
olarak birlikte gözlenme olasılıkları açısından ele alınmakta ve indeks
terim olarak bu biçimde de erlendirilmektedir. Bölüm 2.’de Türkçe
bahsinde etraflıca ele aldı ımız kelime gurupları, dilbilgisi kurallarına
uygun olan biçimlerdir. BGG sistemlerinde kullanılan halinde,
kelimelerin birlikte, ardı ardına belirli bir gözlenme sıklı ından daha
fazla görülmeleri esas alınır. Dolayısı ile, örne in derlemde bir kere
gözlenen ardı ık kelimeler, kelime gurubu olarak kabul edilmezler.
Bölüm 5.3.’de belgelerin BGG sistemlerinde sayısal olarak temsili için
kullanılan yordam tanıtılırken, kelime guruplarını tespit için bahsedilen
yöntemler tanıtılmı tı. Burada, OSTAD derleminde i aretlenmi kelime
guruplarının istatistikleri verilecektir.
OSTAD derleminin elle indeks terimleri i aretlenmi kısmında,
içerdi i kelime sayısı 2 ile 9 arasında de i en toplam 1060 kelime
gurubu vardır. Söz konusu 1060 kelime gurubu, derlem içinde 1150 kez
gözlenmi tir. Yani, bir kelime gurubu ortalama 1.08 (1150/1060) kez
derlem içinde gözlenmi tir. 1150 gözlemin, 1111’i indeks terim olarak
i aretlenmi tir. Yani, herhangi bir kelime gurubunun indeks terim
olması ihtimali, yakla ık 0.97’dir. Kelime guruplarının indeks terim
da ılımı, içerdikleri kelime sayıları esasında Çizelge 11.1.4.1.’de özet
tablo olarak verilmi tir. ndeks terim olu , kelime gurubu esasında
de erlendirilmi olup, bireysel kelimelerin indeks terim olup olmadı ı
ile ili kilendirilmemi tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
308
Çizelge 11.1.4.1: OSTAD derleminde, kelime guruplarının indeks terim
da ılımları.
Kel. Sayı
0
1
Toplam
40
836
876
0.05
0.95
0.448
2
3
0
4
194
0
48
Kel. Sayı
0
1
6
0
6
Toplam
6
0.003
194
0.099
48
7
0
0
8
0
1
0
0.000
0.025
1
5
0
24
6
0
6
0.001
24
9
0.012
0
1
6
Toplam
40
1,111
0.003
P(ind)
0.03
0.97
1
0.001
1,150
Çizelgede görüldü ü gibi, 3 ve yukarısında kelime sayısına sahip
olan tüm kelime gurupları indeks terim olarak seçilmi tir. Ancak,
içerdi i kelime sayısı 3 ve yukarısında olan birliklerin derlemde birden
fazla gözlenenlerinin sayısı yok denecek kadar azdır: 3 kelimeden
olu an gurupların toplamı 10 adettir, bunlardan 9 tanesi 2 kere, 1 tanesi
3 kere gözlenmi tir; 4 kelimeden olu an gurupların toplamı 2 adettir,
hepsi 2 kere gözlenmi tir; 5 kelimeden olu an gurupların toplamı 2’dir
ve hepsi 2 kere gözlenmi tir; 6 kelimeden olu an gurupların toplamı
1’dir ve 2 kere gözlenmi tir; 8 ve 9 kelimeden olu an gurupların iki
kere gözleneni ise yoktur.
Geleneksel olarak, indeks terim ba lamında kelime gurubu olarak
ele alınan ardı ık birliklerde, kelime sayısı ço unlukla 2’dir. Kelime
sayısı 3 ve üzeri olan kelime gurupları indeks terim ba lamında ele
alınıp incelenmemi tir (Lahtinen, 2000).
Tez kapsamında, kelime guruplarının indeks terim ba lamında
incelenmesi, 2 kelime ile olu turulan guruplarla sınırlıdır. Kelime
guruplarını olu turan kelimelerin sözcük türlerinin olu turdu u
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
309
kombinasyon için indeks terim da ılımları incelenerek, kelime
gurupları ile ilgili genel da ılım çalı ması yapılmı tır.
çerdi i kelime sayısı 2 olan gurup sayısı 876’dır. Bunlardan,
836’sı indeks terimdir. Bu gurupların içerdi i kelimelerin sözcük
türlerinin indeks terim da ılımı Çizelge 11.1.4.2.’de tablo halinde
verilmi tir.
Çizelge 11.1.4.2 : OSTAD derleminde 2 kelimeden olu an kelime
guruplarını, sözcük türü kombinasyonlarının indeks
terim da ılımları.
SözT1
SözT2
0
1
Toplam
86
6
92
0.935
0.065
Adj
Adj
669
178
0.790
0.210
Noun
28
1
0.966
0.034
132
3
0.978
0.022
2
6
0.250
0.750
33
1
Verb
Adv
Interj
Verb
Noun
Noun
Noun
SözT1
Adj
847
29
135
8
34
SözT2
Adv
Noun
Noun
Pron
Verb
Toplam
0
1
Toplam
585
21
606
0.965
0.035
222
3
0.987
0.013
1869
595
0.759
0.241
52
1
0.981
0.019
587
21
0.965
0.035
4265
836
225
2464
53
608
5101
0.9706 0.0294
Çizelge olu turulurken, öncelikle indeks terim olan kelime
guruplarının sözcük türü dizilimleri tespit edilmi , daha sonra bu
dizilimlerin derlem içinde genel gözlenme sıklıkları bulunmu tur. Bu
sayede bir sözcük türü dizilimine ait indeks terim olma olasılı ı elde
edilmi tir. Bu yöntemle bulunan olasılıklar, dilbilgisi kurallarına uygun
kelime gurupları olasılıklarıdır. BGG sistemlerinde yaygın olarak
kullanılan, birlikte gözlenme sıklı ı ile kelime guruplama yönteminden
farklıdır. Aslen, bu ekilde kelime gurubu incelemesi, sözcük türlerinde
ba lam enformasyonunun de erlendirilmesi demektir. Bir ba ka
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
310
söyleyi le, yine sözcük türlerini esas alan bir indeks terim da ılımı
çıkarmaktır. Ancak, bu defa bir sözcük türü kendisinden bir önceki
sözcük türü ile ba lam ili kisi de göz önüne alınarak
de erlendirilmektedir. Bu durum sözcük türü üzerinde n-gram dil
modeli kurulması olarak dü ünülebilir. çerdi i kelime sayısı 2 olan
kelime gurubu 2-gram, 3 olan kelime gurubu 3-gram eklinde
de erlendirilmektedir. Dolayısı ile, kelime gurubu incelememizden
çıkartaca ımız sonuçlar, sözcük türü incelememize ek olarak
de erlendirilmelidir, yani sözcük türü incelemesinin ba lam katkısı
olarak ele alınmalıdır. Kelime guruplarının, sözcük türü
enformasyonunda ba lam katkısı olarak ele alınabilmesi ile ilgili
belirtilmesi gereken çok önemli bir art vardır; o da kelime guruplarının
ardı ık kelime dizileri olarak kabul edilmesidir. Türkçe için bu art
de erlendirildi inde, genel olarak kabullenmenin yanlı oldu u
söylenemez. Tabii istisnalar da mevcuttur. Ardı ıklık ve kelime
gurupları ile ilgili söylenmesi gereken bir önemli nokta daha vardır.
OSTAD derleminde indeks terim olarak i aretlenmi kelime guruplarını
olu turan bireysel kelimelerin ço unlu u, kelime esasında indeks terim
olarak zaten i aretlenmi olanlardır. Bu durum, BGG sistemlerinde
neden kelime gurupları ile çalı manın ba arımı arttırmadı ına bir sebep
olarak ele alınabilir. Kelime gurupları genel uygulamada, BGG
sistemlerinin tek kelime indeks terim listesine ek olarak alınırlar.
Ancak, gurup halinde indeks terim listesinde bulunan kelimeler zaten
bireysel olarak listededirler. Kelimelerin yakınlık ili kisi ile
olu turulmu gurubun bireysel kelimeleri, e er derlemde sadece kelime
gurubu düzeni içerisinde gözlenmi se, yani herhangi bir bireysel kelime
gurup düzeni dı ında derlemde gözlenmemi se, indeks terim listesinde
tek olarak yer aldı ı zamanki enformasyonu ile, gurup düzeni içinde
temsil etti i enformasyonu birbirine e it olur diyebiliriz. Bir ba ka
söyleyi le, kelimeler söz konusu gurup hali dı ında kullanılmıyorsa,
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
311
bireysel olarak listelenerek olu turulacak bir indeks terim listesinde,
gurup halinde ta ıdıkları enformasyon da içerilir. Örne in, “ ebin
Karahisar” gibi bir gurubun, bireysel kelimeleri “ ebin” ve “Karahisar”
indeks terim listesinde yer aldı ında, gurubun da listeye alınması,
kelime frekansı esasına dayalı yöntemlerle a ırlıklandırma yapılması
taktirinde ek bir enformasyon sa lamaz. Dolayısı ile, BGG
sistemlerinin ba arımında bir artı beklenemez.
Çizelge 11.1.4.2.’de 2 kelimeden olu an kelime guruplarının,
sözcük türü dizilerinin verilen indeks terim da ılımı içinde sözcük türü
dizilerinin indeks terim olu (1) olasılıkları oldukça dü üktür.
Listelenen guruplar, dilbilgisi kuralları ile tutarlı olan dizilimlerdir:
“Adj-Adj” için yabancı sermayeli; “Adj-Verb” için kıymetli
arkada lardır; “Noun-Pron” için ba bakanlık müste arı'nınki
verilebilecek örneklerdir.
11.2. BGG Sistem Ba arımı üzerine ncelemeler.
Bir derlem için, derlemi olu turan tüm belgelere ait kelime
listesinden, indeks terim olarak seçilecek olanları belirleme ile bir
indeks terimin belirli bir belgenin içeri i içinde önemini belirleme aslen
farklı i lerdir. BGG sistemleri içinde, indeks terimlerin adaylar
(derlemi olu turan tüm kelimeler) arasından belirlenmesi i i sayısal
belge temsili (Bölüm 5.3) içinde halledilir. Bir indeks terimin belirli bir
metin için önemini belirleme i i, geri-getirim yönteminin asli görevidir.
Geri-getirim yöntemleri bu özelliklerinin güçü nispetinde birbirlerinden
ayrılırlar. Bir indeks terimin, bir belgenin içeri ine yaptı ı katkının
nicel olarak ölçeklendirilmesine, a ırlıklandırma adı verilir. Gerigetirim yöntemlerinin tamamı, kurgularına uygun olarak bir
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
312
a ırlıklandırma
yöntemi
önerirler.
Geleneksel
geri-getirim
yöntemlerinde yaygın olarak kullanılan a ırlıklandırma yöntemleri
Bölüm 6.’da (Geri-Getirim Modelleri) ayrıntılı ekilde tanıtılmı tır.
Zipf güç kanunları incelemesinde içerik ve i lev kelimeler adı ile
indeks terim belirleme i i BGG sahasında genel geçer olan frekans
esasındaki kuramlar üzerinden ele alınmı tı (Bölüm 10). Bu u ra
indeks terim belirlemedir. çerik kelimeler olarak adlandırılan kelimeler
aslen indeks terimlerdir. lev kelimelerse, sayısal belge temsilinin bir
alt süreci olan durma kelimelerinin ayıklanması içinde kullanılan
listede yer alacak kelimelerdir. BGG sistemleri, içerik kelimeler, yani
indeks terimler bu ekilde belirlendikten sonra, her indeks terimi
derlemde terimin gözlendi i her belge ile ili kilendirirler, daha do rusu
her belge-indeks terim çifti için sayısal bir a ırlık de eri hesaplarlar.
Bu hesaplamaların indeks terimlerin frekanslarına dayalı olanları,
Bölüm 7.2.’de verilen Luhn kuramını esas alarak önemi
ölçeklendirirler.
Yukarıda verilen bakı açısı ve uygulamada izlenen yol, BGG
sistemlerinin genel geçer bakı açısı ve yoludur. Ancak, indeks
terimlerin seçimi ve öneminin belirlenmesi için bir ba ka bakı açısı
daha kullanılabilir. Geleneksel olarak izlenen uygulamadaki yol içinde,
seçim ve önem iki bölüt u ra olarak ele alınmaktadır. Aslında, seçim
ve önem birbirinden bu denli ba ımsız de ildir. “Belge içeri ine en çok
katkıda bulunan kelimeler, indeks terim olarak seçilmelidir” önermesi
ba ımsız olmadıklarını açıkça ortaya koymaktadır. Bu önerme, aynı
zamanda tüm BGG sistemlerinin ortak hedefidir. Fakat, geleneksel
bakı açısında, önemsiz kelimeler bir ön kabullenme ile zaten belgeler
incelenmeden önce belirlenmi tir. Yani, yazılı dilin kuralları gere i
kullanılması gereken, ancak içeri e katkısı olmadı ı dü ünülen
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
313
kelimeler önemsiz olarak kabul edilir. Durma listeleri bu kelimelerden
olu turulur ve her belgeden bu kelimeler ayıklanır. Önemsiz oldu u
dü ünülen kelimeler, örne in sözcük türü olarak edatlar olabilir. Bu
sözcük türündeki kelimeler gerçekten, dilbilgisi kuralları gere i
kullanılır. Ama, “belgenin içeri ine katkısı açısından önemi yoktur”
eklinde bir kabullenme, daha belgeler belli de ilken pek do ru
olmayabilir. Örne in, bir derlem, dilbilgisi ile ilgili belgelerden
olu uyorsa ve edatları anlatan belgeler varsa, BGG sisteminden bir
ba arım beklenmesi söz konusu olamaz. Tabii, kabullenme tamamen
yanlı tır da denemez. Bu ekilde önceden önemsiz oldu u ba tan kabul
edilen kelimeler, frekans yakla ımı içinde yüksek de erlere sahip
olanlardır. Zipf güç kanunları incelemesinde, i lev kelimeler bu yüzden
belirli bir frekansın üzerinde gözlenme sıklı ına sahip olanlardan
olu turulmu tur. Özetleyecek olursak, geleneksel BGG sistemleri
içinde indeks terimlerin seçimi açısından önem kavramı, görülme
sıklı ı ile izah edilmektedir. Burada kastedilen önem, tabii terimin
belge içeri ine yaptı ı katkının büyüklü ü ile orantılıdır.
Tanımladı ımız bakı açısından geri-getirim yöntemlerinin önerdi i
a ırlıklandırma yöntemleri dü ünüldü ünde, her iki i levi de yerine
getirdi i söylenebilir. A ırlıklandırma yöntemi, bir terim ile bir belgeyi
önem açısından a ırlıklandırırken, aynı zamanda o terimin indeks terim
olarak seçilme a ırlı ını da belirlemektedir. Uygulamada, önemsiz
terimlerin, yani i lev kelimelerin ba tan ayıklanması, geri-getirim
yönteminin belirleyicili i açısından bir gürültü olu turmasından ve
ba arımı dü ürmesinden kaynaklanmaktadır. Deneysel çalı malarda,
söz konusu kabullenme yapılmayacaktır, yani ba tan aday kelimeler
önemli veya önemsiz eklinde ayrılmayacaktır. Bu sayede, geleneksel
uygulamaların izledi i yolun en ba ında kalınacak, daha do rusu hiçbir
ön kabullenme olmaksızın ba arımlar ele alınabilecek, dolayısı ile
yansız bir de erlendirme sa lanacaktır. Geleneksel bakı açısı kabul
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
314
edilmedi i için, ne durma listesi içindeki kelimeler ayıklanacak, ne
gövdeleme yapılacak, ne de bu bakı açısının do rultusunda ba arım
sa ladı ı gösterilen ba ka yöntemler devreye alınacaktır. Derlemde
gözlenen tüm kelimelere e it ans tanınacak, bu ekilde yalın bir
de erlendirme içinde katkı sa lanıp sa lanmadı ı sınanmı olacaktır.
Geleneksel bakı açısı do rultusunda katkı sa ladı ı ispatlanmı
yöntemlerin kullanılması, yalın de erlendirme sonucu ister olumlu,
ister olumsuz olsun üzerine yapılması gereken deneylerdir. Burada
sınanmaya çalı ılan, dilbilgisi özelliklerinin en temelde katkı sa layıp
sa lamadı ıdır, yani dilbilgisi özelliklerinin ek bir enformasyon ta ıyıp
ta ımadı ının belirlenmesidir. Bir bakı açısı içerisinde yer alan
yöntemlerle, e er varsa söz konusu ek enformasyonun, ne tür bir ili ki
içinde oldu unun ara tırılması bir ba ka u ra tır ve tez kapsamımızın
dı ındadır.
Tez kapsamında hedefimiz, dilbilgisi özellikleri ile geri-getirim
ba arımını arttırmak, yani katkı sa lamaktır. Bir katkı olup olmadı ının
anla ılması için, öncelikle geleneksel yöntemlerin Türkçe için yalın
olarak ba arımları belirlenecek ve elde edilen en iyi ba arım de eri e ik
düzey olarak kabul edilip, dilbilgisi özelliklerinin anlamlı bir de i im
yaratıp yaratmadı ı açısından sınanacaktır.
11.2.1. Türkçe için E ik Ba arım
Türkçe için ba arım açısından sınanıp, en iyisi e ik de er olarak
belirlenecek geri-getirim yöntemleri üç tanedir: Okapi (Robertson and
Walker, 2000), Ltu (Buckley et al., 1996), TFxIDF. Ayrıca, kelimelerin
sadece görülme sıklıkları, yani tf olarak adlandıraca ımız bir kontrol
yöntemimiz de vardır. Dolayısı ile deneysel çalı ma dört geri-getirim
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
315
yöntemi üzerinden gerçekle tirilecektir. Deneysel derlem olarak,
OSTAD kullanılacaktır. Geri-getirim yöntemlerinin ba arımlarının
sınanması için kullanılacak yöntem, üstel-puanlama’dır (Bölüm 8).
Türkçe için sınanacak geri-getirim yöntemlerinin biçimsel ifadeleri,
Denklem 11.2.1.1.’de Okapi, Denklem 11.2.1.2.’de Ltu ve Denklem
11.2.1.3.’de TFxIDF olmak üzere verilmi tir.
tf
0.5 + 1.5
dl
+ tf
avg _ dl
log(
(log(tf ) + 1) log(
N − df + 0.5
)
df + 0.5
(11.2.1.1)
N
)
df
(11.2.1.2)
dl
0.8 + 0.2
avg _ dl
tf * log(
N
)
df
(11.2.1.3)
Denklemlerde, tf terimi, bir terimin belge içindeki görülme
sıklı ını; df terimi bir terimin gözlendi i belge sayısını; dl terimi,
belgenin uzunlu u; avg_dl terimi, derlemdeki belgelerin ortalama
uzunlu u; N terimi, derlem içindeki toplam belge sayısını temsil
etmektedir. Aslen denklemlerde verilen ifadeler, a ırlıklandırma
hesaplamalarıdır. Bu hesaplamaların tamamı, vektör uzayı geri-getirim
modelini esas almaktadır. Geri-getirim yöntemi olarak da
adlandırılmalarının sebebi, a ırlıklandırma hesabının, bir geri-getirim
yönteminin özünü olu turmasından kaynaklanır. Okapi ve Ltu, son
zamanlarda, ngilizce için yapılan çalı malarda en yüksek ba arımları
elde etmi yöntemlerdir. TFxIDF ise, vektör uzayı modelinin bilinen ilk
hesaplama yöntemidir. Aslen, Okapi ve Ltu, TFxIDF ifadesinden
türetilmi tir. Dayandıkları mantık aynıdır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
316
Söz konusu yöntemlerin, OSTAD derlemi üzerinde deneysel
olarak, üstel-puanlama yöntemi ile ba arım sınamasının sonuçları,
Çizelge 11.2.1.2.’de tablo halinde, ekil 11.2.1.1.’de ise çizge halinde
verilmi tir.
Çizelge 11.2.1.2: Geri-getirim yöntemlerinin, OSTAD derlemi üzerinde
deneysel olarak, üstel-puanlama yöntemi ile ba arım
sınaması sonuçları.
Üstel Puan
1.2731
1.2959
1.2763
1.2908
TF
TFxIDF
Okapi
Ltu
1.3000
TFxIDF
1.2950
Ltu
1.2900
1.2850
Üstel Puan
1.2800
Okapi
1.2750
TF
1.2700
ekil 11.2.1.2 : Geri-getirim yöntemlerinin, OSTAD derlemi üzerinde deneysel olarak,
üstel-puanlama yöntemi ile ba arım sınaması sonuçları.
Alınana sonuçlara göre, TFxIDF yöntemi Türkçe için di er
yöntemlerden çok daha yüksek bir ba arım sergilemi tir. Geri-getirim
yöntemlerinin üçü de, istatistiksel olarak 0.05 anlamlılık düzeyinde
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
317
birbirlerinden farklıdır (Friedman test istatisti i23, p-de eri 0.04). Ba ta
belirtildi i gibi, terimlerin yalın gözlenme sıklıkları ile kontrol için
olu turdu umuz tf yöntemi, beklendi i gibi en kötü sonucu vermi tir.
Kontrolün amacı, varsa farklılı ın, yani de i imin yönünü tayin
edebilmektir. statistiksel farklılık sınamaları, de i imin yönü
konusunda bilgi vermezler. Üstel-puanlama yönteminin, ortalama
duyarlılık ile oransal sonuçlar verdi i belirtilmi tir, ancak Türkçe için
yaratılan farklılı ın iyi yönde oldu unu da garanti altına almak için
kontrol yapılmı tır.
Sonuç olarak, TFxIDF Türkçe için, deneysel derlemimiz olan
OSTAD üzerinde en yüksek ba arımı sa layan yöntem olmu tur. Bu
sonuç, ngilizce için alınan sonuçlar ile tezat olu turmaktadır. ngilizce
için yapılan sınamalarda, Okapi en iyi ba arımı göstermi , ardından
sırasıyla Ltu ve TFxIDF gelmi tir. Bunun sebebi aslında açıktır. Okapi
ve Ltu yöntemleri, parametrik yöntemlerdir. Parametreler, ngilizce
talim derlemlerinde elde edilen en yüksek ba arım noktalarındaki
de erlere e ittir. Dolayısı ile, ba ta ngilizce olmak üzere, talim
edildikleri derleme inceltilmi tir. Türkçe için aynı sonuçları vermeleri,
beklenen bir durum de ildir. Ancak, Ltu yönteminin Okapi
yönteminden daha genellenebilir oldu unu da söylemek gerekir.
11.2.2. ndeks Terim Seçimi ve A ırlıklandırma
Bir geri-getirim yöntemi, belge içeri ini temsil açısından
terimlere, önemleri ile orantılı olarak a ırlıklandırma yapmayı
ba ardı ı miktarda, bir BGG sisteminin ba arımını arttırabilir (Bölüm
23
Friedman istatisti i, parametrik olmayan bir yöntemdir. Aslen 2-yönlü ANOVA
parametrik istatisti inin, parametrik olmayan kar ılı ıdır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
318
8.3). Bir ba ka söyleyi le, bir geri-getirim yöntemi belgeler için içeri e
katkıda bulunan terimleri, yani indeks terimleri, i lev terimlerden yani,
içeri e katkısı olmayan terimleri birbirinden ayırt edebildi i miktarda,
BGG sisteminin ba arımını arttırabilir.
OSTAD derleminde, seçilen her belge için elle indeks terimler
i aretlenmi tir. Dilbilgisi özelliklerinin katkısını ölçmek için, Türkçe
için en yüksek geri-getirim ba arımına sahip olan TFxIDF yöntemi ile
atanmı a ırlıklar e ik belirleyicilik olarak kullanılacaktır. TFxIDF
yöntemi ile indeks terimlerin belirlenebilmesi ile dilbilgisi özellikleri
de kullanılarak belirlenmesi arasında anlamlı bir farklılık olup
olmadı ına bakılacaktır. Dolayısı ile, ba arım üzerindeki etkisi de aynı
zamanda ortaya konmu olacaktır. OSTAD derleminde yapılan söz
konusu deneysel çalı malarda, belge yerine paragraflar kullanılmı tır.
TFxIDF yöntemi ile a a ıdaki paragraf için hesaplanarak atanmı
a ırlıklar Çizelge 11.2.2.1.’de örnek olarak verilmi tir.
“AB'ye uyum süreci nedeniyle hazırlanan azınlık cemaatleri
vakıflarının mal edinmelerini düzenleyen yönetmelik kapsamına
alınmayan Süryani ve Protestanlar isyan etti . Yönetmelikle , sadece
Lozan Antla ması'na göre azınlık statüsü tanınan Rumlar ,
Ermeniler ve Yahudi cemaatlerine mülk edinme hakkı verilmesi
tartı ma yarattı . “
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
319
Çizelge 11.2.2.1 : Örnek paragrafın TFxIDF a ılıkları.
Birlik
azınlık
alınmayan
cemaatleri
edinmelerini
ermeniler
isyan
lozan
protestanlar
statüsü
süreci
vakıflarının
yönetmelik
yahudi
yarattı
verilmesi
süryani
tanınan
TFxIDF ind
Birlik
14.0741786 1 tartı ma
8.62205182 0 rumlar
8.62205182 1 hazırlanan
8.62205182 0 cemaatlerine
8.62205182 1 ab'ye
8.62205182 1 düzenleyen
8.62205182 1 edinme
8.62205182 1 mülk
8.62205182 0 kapsamına
8.62205182 0 yönetmelikle
8.62205182 1 uyum
8.62205182 1 mal
7.62205182 1 sadece
7.62205182 0 nedeniyle
7.62205182 0 göre
7.62205182 1 ve
7.62205182 0
TFxIDF
7.622051819
7.622051819
7.622051819
7.622051819
7.037089319
7.037089319
7.037089319
7.037089319
6.622051819
6.622051819
6.300123725
5.814696897
5.814696897
5.037089319
4.229734397
3.090472445
ind
1
1
0
1
1
0
0
1
0
1
0
1
0
0
0
0
Çizelge’de örnek paragraf için verilen TFxIDF de erlerinde
görüldü ü gibi, örne in “yahudi” ve “ yarattı” terimleri aynı a ırlı a
sahiptir. E er TFxIDF mükemmel bir a ırlıklandırma yapıyor olsaydı,
tüm indeks terimlerin, a ırlı ın azalan sıralamasında üst kısımlarda;
tüm i lev kelimelerde sıralamanın altlarında olması gerekirdi. Aslen
“tartı ma yaratmak” birle ik olarak, “tartı ma” ve “yaratma”
kelimelerinden önem olarak farklıdır. Paragrafın konusu: azınlık
statüsünün Süryaniler ve Protestanlar arasında yarattı ı tartı ma ve
isyandır.
TFxIDF yöntemi ile atanmı a ırlıkların azalan sırasına göre
terimler listelendi inde, söz konusu belge (paragraf) için terimlerin
önemlerine göre de azalan bir sıralama yapılmı olmaktadır. Dolayısı
ile, 1. sırada listelenen terim en önemli, son sırada listelenen terim de
en önemsiz terim olmaktadır. E er bu belge, içindeki her hangi bir
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
320
terim veya terimler için sorgulanacak olursa, belgenin sistem tarafından
geri-getirilen sonuç listesinde, verilen bu sıralama ile do ru orantılı
olarak di er belgelere göre bir sıralamaya konacaktır. ndeks terimleri,
i lev kelimelerinden daha yukarda olan bir belge, genel sonuç
listesindeki sıralamada da üst sıralarda olacaktır. Dolayısı ile, BGG
sisteminin ba arımı olması gereken ideal noktaya do ru
yakınsayacaktır. Yöntemlerin ba arımlarını kar ıla tırmak için, her
yöntemin sıralamada indeks terimlerin ne kadar önce listeledi i ölçüt
olarak kullanılabilir. Bu tür bir ölçütün sayısal de erleri, Bölüm 8.1.’de
anlatılan duyarlılık esasına dayalı olarak elde edilebilir. Belirli bir
yöntemin, bir belgenin terimleri için verdi i sıralamada, yukarıdan
a a ı inerken kar ıla ılan indeks terim sayısının sıra numarasına oranı
bize duyarlılık de erini verecektir. Örnek paragraf üzerinden, TFxIDF
ile yapılan a ırlıklandırma sonucunda hesaplanan duyarlılık de erleri
Çizelge 11.2.2.2.’de tablo halinde verilmi tir.
Çizelge 11.2.2.2: Örnek paragrafın, TFxIDF a ırlıkları üzerinden
duyarlılık de erleri.
Birlik
azınlık
alınmayan
cemaatleri
edinmelerini
ermeniler
isyan
lozan
protestanlar
statüsü
süreci
vakıflarının
yönetmelik
yahudi
yarattı
verilmesi
süryani
tanınan
TFxIDF ind Sıra
14.0742
1
1
8.6221
0
2
8.6221
1
3
8.6221
0
4
8.6221
1
5
8.6221
1
6
8.6221
1
7
8.6221
1
8
8.6221
0
9
8.6221
0
10
8.6221
1
11
8.6221
1
12
7.6221
1
13
7.6221
0
14
7.6221
0
15
7.6221
1
16
7.6221
0
17
Duy
1.000
0.500
0.667
0.500
0.600
0.667
0.714
0.750
0.667
0.600
0.636
0.667
0.692
0.643
0.600
0.625
0.588
Birlik
tartı ma
rumlar
hazırlanan
cemaatlerine
ab'ye
düzenleyen
edinme
mülk
kapsamına
yönetmelikle
uyum
mal
sadece
nedeniyle
göre
ve
TFxIDF ind Sıra
7.6221
1
18
7.6221
1
19
7.6221
0
20
7.6221
1
21
7.0371
1
22
7.0371
0
23
7.0371
0
24
7.0371
1
25
6.6221
0
26
6.6221
1
27
6.3001
0
28
5.8147
1
29
5.8147
0
30
5.0371
0
31
4.2297
0
32
3.0905
0
33
Duy
0.611
0.632
0.600
0.619
0.636
0.609
0.583
0.600
0.577
0.593
0.571
0.586
0.567
0.548
0.531
0.515
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
321
Çizelgede duyarlılık hesabı yapılırken, sıra numarası her terim
için bir artarak verilmi tir. Aslen, aynı a ırlıktaki terimlerin e it sıra
numaralarına sahip olmaları gerekmektedir. Ancak, aynı a ırlı a sahip
terimler de bir ekilde kendi içinde sıralanmak zorundadır. Bu gurup içi
sıralama için, TFxIDF bir belirleyicilik sa layamamaktadır. Dolayısı
ile, aynı a ırlıkta olan terimler rasgele bir sıraya sahip olabilir. Bizde
rasgele bir sıralama seçtik. Bu noktada, Zipf güç kanunları
incelemesinde kelime da arcı ını olu turan kelimelerin, derlemde
yalnızca bir kez gözlenenlerinin, kelime da arcı ının %50’ye yakınını
olu turdu unu bir kez daha hatırlatmak istiyoruz. TFxIDF veya türevi
bir a ırlıklandırma yöntemi ile terimler ele alındı ında, bir kez
gözlenen terimlerin tamamı aynı sıra numarasına sahip olacaktır. Bu da,
derlemdeki belgeleri olu turan kelimelerin yakla ık yarısı konusunda
TFxIDF yönteminin belirleyicili i olamayaca ı anlamına gelmektedir.
11.2.3. Dilbilgisi Özelliklerinin Ba arıma Etkisi
Türkçe için, dilbilgisi özelliklerinin indeks terimler üzerindeki
da ılımları ve indeks terimlerin dilbilgisi üzerindeki da ılımları
çıkarılmı tı (Bölüm 11.1). Bu da ılımların BGG sistemlerinin ba arımı
üzerindeki etkisi, belge içinde terimleri sıralarken indeks terimleri
sıralamada ne kadar önce listeledi i ile ölçülecektir. TFxIDF Türkçe
için, kar ıla tırılan yöntemler arasında ba arımı en yüksek olandır.
Dolayısı ile, e er indeks terimler dilbilgisi özellikleri ile sa lanan
sıralamada, TFxIDF ile sa lanan sıralamadakinden anlamlı düzeylerde
önce listeleniyorsa; dilbilgisi özelliklerinin indeks terim seçiminde,
dolayısı ile BGG sistemlerinin ba arımları üzerinde, “anlamlı düzeyde
katkı olmadı ı”
önermesini
reddedebilecek istatistiksel delilin,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
322
elimizdeki derlemden elde edildi i veya elde edilemedi i sonucuna
varılacaktır.
TFxIDF ile sa lanan sıralama ile, her dilbilgisi özelli i üzerinden
sa lanan sıralamalar, istatistiksel olarak anlamlı bir farklılı a sahip
olup olmadıkları açısından kar ıla tırılacaktır. Bu iki kar ıla tırmalar
için kullanılacak parametrik olmayan istatistik, Wilcoxon i aret testidir.
Wilcoxon i aret testi, iki adet ili kili veri kümesinin aynı da ılımdan
geldi i hipotezini sorgular. Bizim durumumuzda, iki veri kümesi,
TFxIDF ile olu turulan sıralama ve bir dilbilgisi özelli i ile olu turulan
sıralamadır. li kili olmalarının sebebi, aynı terim için sıra
belirtmelerinden kaynaklanır. Anlamlı farklılık bulmaya çalı tı ımız
durum da, dilbilgisi özelli i ile yapılan sıralamada, indeks terimlerin
TFxIDF ile yapılan sıralamadakinden daha üstlerde yer almasıdır.
Örnek paragraf için verilen çizelgede, yöntemin sıralamasına kar ılık
gelen “duyarlıklık” de erleri, sıralamanın indeks terimlere ne kadar
duyarlı oldu unu vermektedir. Bir ba ka yöntem ile yapılan
sıralamanın duyarlılı ı farklı olacaktır. E er elimizde iki yöntem varsa,
bu yöntemlerle önce a ırlıklar atayıp, sıralamalar elde edilirse ve
örne in her iki sıralama için duyarlılıklar hesaplanırsa; iki yöntemin
duyarlılıkları arasında anlamlı bir farklılık olup olmadı ına, Wilcoxon
test istatisti i ile bakılabilir ve hangi yöntemin indeks terimleri
sıralamada daha yukarıda topladı ı belirlenebilir. Ancak, bu
anlattı ımız senaryo ile, iki yöntemin bir belge üzerindeki sınaması
yapılabilir, bir çok belgeden olu an bir derlemde, genel olarak anlamlı
bir farklılık olup olmadı ına bakmak için bir uyarlama yapmak gerekir.
Uyarlamanın mantı ı öyledir: bir belgede indeks terimlerin ne kadar
yukarıda toparlandı ını, e it ölçekte tek bir de ere indirgeyip, belge
içinde terimler için yaptı ımız sınamayı, derlem içinde belgeler
üzerinde gerçekle tirebiliriz. Her belgenin e it ölçekte, tek bir de er ile
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
323
indeks terimlerini sıralamada ne kadar yukarda kümeledi ini ölçmek
için, Bölüm 8.2.’de tanıtılan Rnorm de erleri kullanılabilir. Rnorm
ölçütünün özgün tanıtımı, yapılan bir sorgu için sonuç kümesinde
alakalı belgelerin ne kadar önce listelendi ini belirleme amacıyla
verilmi tir. Bu tanımlama, basitçe elimizdeki duruma benzetilebilir. Bir
belgenin içeri ini, temsilde önemi olan kelimeler indeks terimlerdir.
E er bir yöntem belge içinde, indeks terimleri sıralamada bir ba ka
yöntemden daha yukarıda kümeliyorsa, yani indeks terimlere daha fazla
a ırlık atıyorsa, bu yöntemin geri-getirece i sonuç listesinde, söz
konusu belge daha üst sıralarda olacaktır. Yani, her belge içinde, bir
yöntemle elde edilmi sıralama için, Rnorm de erleri hesaplanır ve bu
de erlerle yapılan belge sıralamasının da, belgelerin, indeks terimlerle
olu turulabilecek olası tüm sorgulara kar ı, en iyi sıralamasını (Tanım
8.2.1.’de belirtilen olasılık sıralama ilkesi) verdi i kabul edilirse; iki
yöntemden belgeler için elde edilecek Rnorm de erleri ile, yine
Wilcoxon test istatisti i kullanılarak, bu defa derlem genelinde anlamlı
farklılık sınanabilir. Bu tezde, dilbilgisi özellikleri ile olu turulan
sıralama ve TFxIDF ile elde edilen sıralamalar, yukarıda anlatıldı ı gibi
düzenlenerek derlem genelinde anlamlı farklılık sınamaları yapılmı tır.
Dilbilgisi özelliklerinden, sözcük türü ve cümle unsuru hem ayrı
olarak hem de birlikte ba arım üzerindeki etkisi açısından
de erlendirilecektir. Kelime gurubunun (2 kelimeden olu an guruplar)
katkısı ise ayrıca de erlendirilecektir.
11.2.3.1 Sözcük türünün ba arım de erlendirmesi
Sözcük türlerinin tek ba ına belge içindeki terimlere atanacak
a ırlıklar, sözcük türünün indeks terim olması olasılı ıdır. Özel isim
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
324
sözcük türü de bu de erlendirmeye alınmı tır. TFxIDF için
kullandı ımız örnek paragrafa, sözcük türleri ile atanmı a ılıklar ve
kar ılık gelen duyarlılık de erleri Çizelge 11.2.3.1.1.’de tablo halinde
verilmi tir.
Çizelge 11.2.3.1.1 : Örnek paragrafın, sözcük türü ile atanan a ırlıkları
üzerinden duyarlılık de erleri.
Birlik
ab'ye
ermeniler
lozan
protestanlar
rumlar
süryani
yahudi
yönetmelik
yönetmelikle
süreci
tartı ma
uyum
vakıflarının
verilmesi
statüsü
mal
mülk
SözT A ırlık ind Sıra
Noun
1.0000
1
1
Noun
1.0000
1
2
Noun
1.0000
1
3
Noun
1.0000
1
4
Noun
1.0000
1
5
Noun
1.0000
1
6
Adj
1.0000
1
7
Noun
0.6378
1
8
Noun
0.6378
1
9
Noun
0.6378
0
10
Noun
0.6378
1
11
Noun
0.6378
0
12
Noun
0.6378
0
13
Noun
0.6378
0
14
Noun
0.6378
0
15
Noun
0.6378
1
16
Noun
0.6378
1
17
Duy
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
0.90
0.91
0.83
0.77
0.71
0.67
0.69
0.71
Birlik
nedeniyle
edinmelerini
edinme
isyan
kapsamına
azınlık
cemaatleri
cemaatlerine
alınmayan
hazırlanan
düzenleyen
tanınan
yarattı
sadece
göre
ve
SözT
Noun
Noun
Noun
Noun
Noun
Noun
Noun
Noun
Adj
Adj
Adj
Adj
Verb
Adv
Postp
Conj
A ırlık ind Sıra
0.6378
0
18
0.6378
0
19
0.6378
0
20
0.6378
0
21
0.6378
0
22
0.6378
1
23
0.6378
0
24
0.6378
0
25
0.1705
0
26
0.1705
0
27
0.1705
0
28
0.1705
0
29
0.0525
0
30
0.0183
0
31
0.0000
0
32
0.0000
0
33
Duy
0.67
0.63
0.60
0.57
0.55
0.57
0.54
0.52
0.50
0.48
0.46
0.45
0.43
0.42
0.41
0.39
Çizelgede, sözcük türü ile atanan a ırlıkların, TFxIDF ile atanan
a ırlıklardan daha iyi bir sıralama yaptı ı gözle de görülmektedir.
Sözcük türü ile yapılan a ırlık atamasında 1 de eri olanlar, özel
isimlerdir. Dolayısı ile, özel isimlerin etkisi oldukça yüksektir. TFxIDF
ve sözcük türü ile atanan a ırlıkların, indeks terimleri sıralama içinde
kümeledikleri yerler için, derlem genelinde Wilcoxon i aret testi ile
yapılan kar ıla tırma sonuçları Çizelge 11.2.3.1.2.’de tablo halinde
verilmi tir.
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
325
Çizelge 11.2.3.1.2 : OSTAD derlemi içinde seçilmi belgeler üzerinde,
ve
sözcük
türü
TFxIDF
a ırlıklandırması
a ırlıklandırması ile elde edilen sıralamalar içinde,
indeks terimlerin kümelendi i yerlerin kar ıla tırma
sonuçları.
SözT - TFxIDF
(-) Sıralar
(+) Sıralar
E itlik
Toplam
N
Ortalama
Toplam
Z
39
76.5513 2985.5000 -14.6673
312 188.4311 58790.5000
43
394
Sig
0.00
Çizelge’de Wilcoxon test istatisti i için elde edilen sonuçlar
görülmektedir. Bundan sonraki tüm sonuçlar da benzer ekilde
verilece i için, burada tablo detaylı olarak anlatılacak, ilerleyen
kısımlarda, sadece sonuçlar yorumlanacaktır. “SözT-TFxIDF” ba lı ı,
testin hangi de i kenler arasında gerçekle ti ini belirtir. Testte, iki
de i kenin e le tirilmi de erleri (Rnorm) arasındaki farklar bulunur.
Tabii, birinci de i ken, yani “SözT” kısaltması ile temsil edilen sözcük
türü, için de er, ikinci de i ken, yani “TFxIDF” için de erden büyükse,
fark pozitif olaca ından, (+) sıra numaraları elde edilir. E er, tersi ise,
(-) negatif sıra de erleri elde edilir. E er, iki de i kenin de erleri, söz
konusu belge için e itse, “e itlik” olur. Testte, pozitif olan sıra
numaraları, negatif olan sıra numaraları ve e itlik durumları kendi
içinde toplanır. “N” sütununda pozitif, negatif ve e it olarak tespit
edilen sıra numaralarının sayısı vardır, en alt satırda da, “Toplam” sıra
numarası verilmi tir. “Ortalama” sütunu, her üç gurubun kendi içinde
sıra numaralarının, mutlak de er toplamları (“Toplam” sütunu)
üzerinden ortalamalarını listeler. statistik, mutlak de er toplamı en
küçük olan gurup için gerçekle tirilir: bizim durumumuzda (-) farka
sahip de erlerin sıra numaraları toplamı en küçük oldu u için, test bu
gurup üzerine kurulmu tur. “Z” sütununda, (-) sıra gurubundaki, sıra
numaralarının mutlak de er toplamı, standart de er olarak verilmi tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
326
“Sig” sütunundaki de er, iki yöntemle atanan de erlerin (Rnorm)
birbirinden anlamlı olarak farklı olup olmadı ını gösterir. Bu de erin:
büyük olması, “farklılı ın olmadı ı” hipotezini reddedecek delilin,
deney kümesinden elde edilemedi ini gösterir. Bizim durumumuz için
de er 0’dır, yani anlamlılı ın 0.05 düzeyinde, iki yöntem arasında bir
farklılık bulunmu tur. Dolayısı ile, deneysel derlemimiz için, sözcük
türü enformasyonu esasında bir BGG sisteminin ba arımı ile TFxIDF
esasında bir BGG sisteminin ba arımlarının e it olaca ı hipotezini
reddedebilecek kadar delil vardır sonucuna varıyoruz. Yarıca, pozitif
(+) guruba dahil olan sıra numaralarının mutlak de er toplamlarının,
negatif (-) guruba dahil olan sıra numaralarının mutlak de er
toplamından büyük olması sebebiyle, farklılı ın, sözcük türü lehinde
oldu una da karar veriyoruz.
11.2.3.2 Cümle unsurlarının ba arım de erlendirmesi
Cümle unsuru incelemesinde, sözcük türü için kullandı ımız
yöntemin benzeri kullanılacaktır. Bu defa, sözcük türü yerine cümle
unsurunun indeks terim da ılımları a ırlık olarak kabul edilecektir.
Örnek paragrafın cümle unsurları ile atanmı a ılıklar ve kar ılık gelen
anma ve duyarlılık de erleri Çizelge 11.2.3.2.1.’de tablo halinde
verilmi tir.
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
327
Çizelge 11.2.3.2.1: Örnek paragrafın, cümle unsurları ile atanan
a ırlıkları üzerinden duyarlılık de erleri.
Birlik
azınlık
mülk
uyum
yahudi
yönetmelik
verilmesi
vakıflarının
süryani
rumlar
statüsü
protestanlar
edinme
cemaatlerine
kapsamına
ab'ye
lozan
mal
CümU A ırlık ind Sıra
Clas
0.7782
1
1
Clas
0.7782
1
2
Clas
0.7782
0
3
Clas
0.7782
1
4
Clas
0.7782
1
5
Sub
0.7671
0
6
Sub
0.7671
0
7
Sub
0.7671
1
8
Sub
0.7671
1
9
Sub
0.7671
0
10
Sub
0.7671
1
11
Sub
0.7671
0
12
Dat
0.6116
0
13
Dat
0.6116
0
14
Dat
0.6116
1
15
Obj
0.5622
1
16
Obj
0.5622
1
17
Duy
1.00
1.00
0.67
0.75
0.80
0.67
0.57
0.63
0.67
0.60
0.64
0.58
0.54
0.50
0.53
0.56
0.59
Birlik
edinmelerini
ermeniler
tartı ma
tanınan
süreci
sadece
yönetmelikle
göre
düzenleyen
cemaatleri
nedeniyle
hazırlanan
alınmayan
isyan
yarattı
ve
CümU A ırlık ind Sıra
Obj
0.5622
0
18
Obj
0.5622
1
19
Obj
0.5622
1
20
Mod
0.1517
0
21
Mod
0.1517
0
22
Mod
0.1517
0
23
Mod
0.1517
1
24
Mod
0.1517
0
25
Mod
0.1517
0
26
Mod
0.1517
0
27
Mod
0.1517
0
28
Mod
0.1517
0
29
Mod
0.1517
0
30
Sen
0.0959
0
31
Sen
0.0959
0
32
Coo
0.0391
0
33
Duy
0.56
0.58
0.60
0.57
0.55
0.52
0.54
0.52
0.50
0.48
0.46
0.45
0.43
0.42
0.41
0.39
TFxIDF ve cümle unsuru ile atanan a ırlıkların, indeks terimleri,
sıralama içinde kümeledikleri yerler için, derlem genelinde Wilcoxon
i aret testi ile yapılan kar ıla tırma sonuçları da, Çizelge 11.2.3.2.2.’de
tablo halinde verilmi tir.
Çizelge 11.2.3.2.2 : OSTAD derlemi içinde seçilmi belgeler üzerinde,
TFxIDF a ırlıklandırması ve cümle unsuru
a ırlıklandırması ile elde edilen sıralamalar içinde,
indeks terimlerin kümelendi i yerlerin kar ıla tırma
sonuçları.
CümU - TFxIDF
(-) Sıralar
(+) Sıralar
E itlik
Toplam
N
Ortalama
Toplam
Z
Sig
45 100.4556 4520.5000 -13.8936 0.00
307 187.6466 57607.5000
42
394
“Sig” de eri 0’dır, yani anlamlılı ın 0.05 düzeyinde, cümle
unsuru ile TFxIDF arasında, bir farklılık bulunmu tur. Dolayısı ile,
deneysel derlemimiz için, cümle unsuru enformasyonu esasında bir
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
328
BGG sisteminin ba arımı ile TFxIDF esasında bir BGG sisteminin
ba arımlarının e it olaca ı hipotezini reddedebilecek kadar delil vardır
sonucuna varıyoruz. Ayrıca, pozitif (+) guruba dahil olan sıra
numaralarının mutlak de er toplamlarının, negatif (-) guruba dahil olan
sıra numaralarının mutlak de er toplamından büyük olması sebebiyle,
farklılı ın, cümle unsuru lehinde oldu una da karar veriyoruz.
11.2.3.3 Sözcük türü ve cümle unsuru birlikte de erlendirme
Örnek paragrafın cümle unsurları ile atanmı a ılıklar ve kar ılık
gelen anma ve duyarlılık de erleri Çizelge 11.2.3.2.1.’de tablo halinde
verilmi tir.
Çizelge 11.2.3.3.1 : Örnek paragrafın, cümle unsuru ve sözcük türü ile
birlikte atanan a ırlıkları üzerinden duyarlılık
de erleri.
Birlik
ab'ye
ermeniler
lozan
protestanlar
rumlar
süryani
yahudi
verilmesi
vakıflarının
statüsü
edinme
azınlık
mülk
uyum
yönetmelik
kapsamına
cemaatlerine
SözT
Noun
Noun
Noun
Noun
Noun
Noun
Adj
Noun
Noun
Noun
Noun
Noun
Noun
Noun
Noun
Noun
Noun
CU
Dat
Obj
Obj
Sub
Sub
Sub
Clas
Sub
Sub
Sub
Sub
Clas
Clas
Clas
Clas
Dat
Dat
A ırlık ind Sıra
1.0000
1
1
1.0000
1
2
1.0000
1
3
1.0000
1
4
1.0000
1
5
1.0000
1
6
1.0000
1
7
0.8189
0
8
0.8189
0
9
0.8189
0
10
0.8189
0
11
0.8008
1
12
0.8008
1
13
0.8008
0
14
0.8008
1
15
0.6451
0
16
0.6451
0
17
Duy
1.00
1.00
1.00
1.00
1.00
1.00
1.00
0.88
0.78
0.70
0.64
0.67
0.69
0.64
0.67
0.63
0.59
Birlik
edinmelerini
mal
tartı ma
isyan
nedeniyle
cemaatleri
süreci
yönetmelikle
tanınan
düzenleyen
hazırlanan
alınmayan
yarattı
sadece
ve
göre
SözT
Noun
Noun
Noun
Noun
Noun
Noun
Noun
Noun
Adj
Adj
Adj
Adj
Verb
Adv
Conj
Postp
CU
Obj
Obj
Obj
Sen
Mod
Mod
Mod
Mod
Mod
Mod
Mod
Mod
Sen
Mod
Coo
Mod
A ırlık ind Sıra
0.5999
0
18
0.5999
1
19
0.5999
1
20
0.3576
0
21
0.3097
0
22
0.3097
0
23
0.3097
0
24
0.3097
1
25
0.1543
0
26
0.1543
0
27
0.1543
0
28
0.1543
0
29
0.0486
0
30
0.0144
0
31
0.0000
0
32
0.0000
0
33
Duy
0.56
0.58
0.60
0.57
0.55
0.52
0.50
0.52
0.50
0.48
0.46
0.45
0.43
0.42
0.41
0.39
TFxIDF ile atanan a ırlıklar ile sözcük türü ve cümle unsuru ile
atanan a ırlıkların, indeks terimleri, sıralama içinde kümeledikleri
yerler için, derlem genelinde Wilcoxon i aret testi ile yapılan
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
329
kar ıla tırma sonuçları da, Çizelge 11.2.3.3.2.’de tablo halinde
verilmi tir.
Çizelge 11.2.3.3.2 : OSTAD derlemi içinde seçilmi belgeler üzerinde,
TFxIDF ile sözcük türü ve cümle unsuru birlikte,
yapılan a ırlıklandırma ile elde edilen sıralamalar
içinde, indeks terimlerin kümelendi i yerlerin
kar ıla tırma sonuçları.
SözCüm - TFxIDF
(-) Sıralar
(+) Sıralar
E itlik
Toplam
N
13
342
39
394
Ortalama
Toplam
Z
Sig
89.0769 1158.0000 -15.7303 0.00
181.3801 62032.0000
“Sig” de eri 0’dır, yani anlamlılı ın 0.05 düzeyinde, sözcük türü
ve cümle unsurunun birlikte kullanılması ile TFxIDF arasında bir
farklılık bulunmu tur. Dolayısı ile, deneysel derlemimiz için, sözcük
türü ve cümle unsurunun birlikte kullanılmasından elde edilen
enformasyon esasında bir BGG sisteminin ba arımı ile TFxIDF
esasında bir BGG sisteminin ba arımlarının e it olaca ı hipotezini
reddedebilecek kadar delil vardır, sonucuna varıyoruz. Ayrıca, pozitif
(+) guruba dahil olan sıra numaralarının mutlak de er toplamlarının,
negatif (-) guruba dahil olan sıra numaralarının mutlak de er
toplamından büyük olması sebebiyle, farklılı ın, cümle unsuru lehinde
oldu una da karar veriyoruz.
11.2.3.4 Kelime guruplarının de erlendirilmesi
Kelime gurupları üzerine genel indeks terim da ılımları
incelenirken belirtti imiz gibi, kelime guruplarını, sözcük türü dizileri
olarak ele alıyoruz. Dolayısı ile, tek kelimeden olu mu indeks terim
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
330
listesinde, a ırlıklandırma yöntemine (Okapi, Ltu ve TFxIDF) ek
olarak kullanıyoruz. Herhangi bir yöntemle, kelime gurubunu
katı tırmak için izlenen yol, seçilebilecek en basit yoldur. Farklı olarak,
daha karma ık dil modelleri üzerinde, elbette çalı ılabilir. Ancak, yalın
olarak etkiyi aramak tez kapsamımıza aldı ımız hali ile yeterlidir.
Kelime gurupları, sözcük dizileri olarak ele alındı ı için,
sınanacak yöntemlerde kullanılacak birlikler de uygun ekilde
düzenlenmi tir. Örne in, kelime “Türkiye” ise, isim olan sözcük türü,
kelimeye kodu olan Noun eklenmi hali ile, yani “NounTürkiye”
eklinde de erlendirmeye alınmı tır. Bu 1-gram tanımıdır ve aslen
kelime gurubu ifade etmez. Kelime gurubu için, 2-gram kullanılmı tır,
yani bir önceki kelimenin sözcük türü, 1-gram ile olu turulan birli in
tekrar önüne eklenmi tir. Örne e devam edersek, diyelim ki bir önceki
kelime “büyük”, yani söz-dizisi “büyük Türkiye” ise, sıfat olan sözcük
türü kodu Adj’de eklenerek, “AdjNounTürkiye” eklinde bir birlik
yaratılmı tır. Böylece, kelimenin sözcük türü olmayan yalın hali
“Türkiye” için, sadece kendisine ait sözcük türü ile “NounTürkiye”
kurulan birlik için ve bir öncesindeki kelimenin de sözcük türü
eklenmi hali olan “AdjNounTürkiye” birli i için geri-getirim
yöntemlerinin a ırlıklandırma hesapları yapılmı tır. Sözcük türü
enformasyonunun katı tırılmasından da anla ılaca ı gibi, aslen bu
sınamada, derlemde bulunan birlik sayısı arttırılmı , yani ba lam da
hesaba katılarak yöntemlerin ba arımları kar ıla tırılmı tır. Aslen
sınadı ımız bu yöntemin, tam bir kelime gurubu sınaması oldu u
söylenemez, ancak kelime gurupları olu turma u ra ı, maliyetli bir i
oldu u için, “kelime gurubunun etkisi anlamsızdır” genel kanısını
yıkmaya çalı manın yanı sıra, yöntemin de basit olması gerekmektedir;
Dolayısı ile, bu yolla sınama yapmak her iki durumu da kolladı ı için
makul bir seçim olarak gözükmektedir.
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
331
ekil 11.2.3.4.1.’de,
olu turulan tüm
birlikler
için,
de erlendirmeye alınan her geri-getirim yönteminin üstel-puanları
çizge olarak verilmi tir.
1.3050
1.3000
1.2950
1.2900
TFxIDF
Ltu
TFxIDF
Ltu
TFxIDF
Ltu
1.2850
1.2800
Okapi
Okapi
1.2750
1.2700
TF
Okapi
TF
TF
Durum1
Durum2
Durum3
TF
1.2731
1.2734
1.2762
TFxIDF
1.2959
1.2967
1.2982
Okapi
1.2763
1.2743
1.2685
Ltu
1.2908
1.2919
1.2934
1.2650
1.2600
1.2550
1.2500
ekil 11.2.3.4.1 : OSTAD derleminde, kelime guruplarının geri-getirim ba arımı
üzerine etki sınamasına ait üstel-puanlar.
ekilde, her yöntemin, her birlik çe idi için üstel-puanları hem
çizge olarak betimlenmi , hem de tablo olarak listelenmi tir. “Durum1”
sütununda, kelimenin kendisinden olu turulan yalın ekli için her
yöntemin üstel-puanları; “Durum2” sütununda, kelime ve kendisine ait
sözcük türü ile olu turulan birlik için her yöntemin üstel-puanları;
“Durum3” sütununda da, kelime, kendisine ait sözcük türü ve bir
önceki kelimenin sözcük türü ile olu turulan birlik için her yöntemin
üstel-puanları listelenmi tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
332
ekilden de anla ılabilece i gibi, geleneksel TFxIDF
a ırlıklandırması istatistiksel olarak, anlam düzeyi %10 (α=0.10,
p=0.08) ile, di er yöntemlerden daha ba arılıdır. Tüm yöntemler de,
“Durum” etkisinden ba ımsız olarak, birbirlerinden %5 (α=0.05,
p=0.04) anlamlılık düzeyinde farklıdır (Friedman test istatisti i).
Hiçbir yöntemin “Durum” de i keni üzerindeki da ılımı, anlamlı
düzeyde bir de i iklik göstermemi tir. Bir ba ka söyleyi le, yöntemler
kendi içinde, olu turulan üç birlik için anlamlı düzeyde farklılık
göstermemi tir. Ancak, çizgede ba lam kullanıldı ında, yani kelime
gurubunun tanımladı ımız sözcük türü dizisi eklindeki hali devreye
girince, yöntemlerin kendi içinde farklıla ma e iliminde oldu u
söylenebilir. Friedman testi ile alınan istatistik de erinin p de erinin
%36 olması da, bunu desteklemektedir. Çünkü, de er, %10 oldu u
takdirde anlamlı bir farklılık oldu u söylenebilecektir. imdilik, kelime
gurupları ile ilgili kararımız “kelime guruplarının, tanımladı ımız
ekilde sözcük türü dizisi olarak, yani ba lam etkisi biçiminde
kullanılması durumunda, yöntemlerin kendi içinde anlamlı düzeylerde
farklılık yaratmadı ı hipotezini, reddedebilecek yeterli kanıtı deneysel
derlemimizden elde edemedik” eklinde verilebilir.
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
333
12. SONUÇ
Bu tezin amacı, Türkçe yazılı belgeler için, bir bilgi geri-getirim
sistemlerinde dilbilgisi özelliklerini, özgün (novel) ve orijinal (original)
bir çalı ma sayesinde kullanıma sunmak ve ba arımda mevcudun
ötesine geçebilmektir. Özgün ile kastetti imiz, BGG sahasında
geleneksel olarak kullanılan mevcut yöntem ve anlayı ların, farklı
uygulama alanlarına ta ınması, yani Türkçe üzerine çalı mak; orijinal
ile kastetti imizse, sahada genel geçer olan evrensel kabullenmelerin ve
bilinenlerin dı ında yeni yöntemler ve bakı açıları ortaya koymaktır.
Tezde, söz konusu iki vasfı kar ılamak için, de i ik u ra sahalarının
içine giren, bir dizi ara tırma ortaya konmu ve hedefte olan
“ba arımda mevcudun ötesine geçme”, hem u ra sahalarının kendi
içinde tam olarak, hem de bütünselli e katkıları açısından kısmen
sınanmı tır. Yapılan ara tırmaların ve geli tirilen yöntemlerin tamamı,
Türkçe odaklı oldu undan ve uyarlama ile kullanılabildi inden, hepsi
özgündür. Ancak, hepsi kuramsal ve fikren orijinal yanlar ta ımalarına
ra men, aralarında orijinallik derecelendirilebilir. Bu bölümde yapılan
çalı maların sonuçları verilirken, orijinallik derecelerine de
de inilecektir.
Tezin temel kapsamı, bilgi geri-getirim ve hesaplamalı dilbilim
sahalarıdır. Uygulamada Türkçe oldu u için, Türkçe dilbilgisi de
kapsama,
yan unsur olarak dahildir. Geli tirilen yöntemler ve
ara tırmalar istatistik/olasılık esasında oldu undan, kapsam bu bakı
açısına giren yöntem ve kuramlarla sınırlanmaktadır. Yönelim a ırlık
olarak, bilgi geri-getirim sahasına do rudur. Ancak, hesaplamalı
dilbilim sahası da, Türkçe dilbilgisi özelliklerinin kullanımı söz konusu
oldu u için, bilgi geri-getirim sahasına uygun olarak inceltilmi hali ile,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
334
geni yer tutmaktadır. Tez kapsamında yapılan çalı malar, yukarıda
belirtilen özellikleri ve özet sonuçları ile birlikte, maddeler halinde
verilmi tir.
1. Geli tirilen yöntemler: Tez kapsamında, u ra olarak hesaplamalı
dilbilim sahasına giren, ancak BGG sistemlerinde kullanılmak üzere
uyarlanmı 4 de i ik amaca sahip yöntem geli tirilmi tir.
Yöntemlerin tamamı, kelime da arcı ı (sözlük) kullanmamaktadır.
Sebebi ise, hesaplamalı dilbilim sahasında genel kabullenme olan
ve tez kapsamında incelenip do ru oldu una dair delil
bulunamayan, “do al dillerin kelime da arcıklarının kapalı, yani
sınırlı oldu u” hipotezidir. Yöntemler, kelime da arcı ının açık,
yani sınırsız olaca ı kabullenmesine uygun olarak geli tirilmi tir.
1.1. Türkçe yazılı belgelerin tespiti için bir yöntem önerilmi ve
deneysel olarak ba arımı sınanmı tır. Yöntemin orijinal yanı,
kelimelerin Türkçe hecelemeye uygunlu una dayalı olarak
seçim yapmasıdır. Ayrıca, hiçbir sözlük v.b. liste
kullanmamaktadır. ngilizce ve Türkçe olmak üzere, karı ık
ekilde olu turulmu derlemlerde, hecelenme oranlarına göre
yapılacak ayıklama ile, Türkçe belgelerin ngilizce belgelerden
ayırt edilebilece i gösterilmi tir.
1.2. Türkçe yazılı metinlerde, cümle sonunun tespiti için bir yöntem
önerilmi ve deneysel olarak ba arımı incelenmi tir. Yöntem
istatistik/olasılık esasındadır ve orijinal yanı, Türkçe heceleme
ile cümle sonu tespiti yapmasıdır. Ayrıca, hiçbir sözlük v.b.
liste kullanmamaktadır. Deneysel olarak kullanılan derlem için,
%96,24 ba arım sa lamı tır.
1.3. Türkçe kelimeleri, gövdelemek için bir yöntem önerilmi ve
deneysel olarak ba arımı sınanmı tır. Yöntem istatistik/olasılık
esasında kurgulanmı tır. Türkçe harflerin çiftlerinden olu an bir
liste kullanmaktadır. Dolayısı ile, olu an listenin boyutu
sınırlıdır. Yöntem kurgu olarak tümüyle orijinaldir. Deneysel
olarak ula ılan ba arım, %95,8’dir.
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
335
1.4. Türkçe kelimelerin sözcük türlerini tespit için bir yöntem
ve deneysel olarak sınanmı tır. Yöntem
önerilmi
istatistik/olasılık esasına dayanmaktadır. Kurgusu gizli Markov
zinciri dil modeline dayanmaktadır. Orijinal olan yanı,
kelimelerin sözcük türlerini tespit ederken, kelime sonlarından
alınan belirli sayıda harf dizisine göre karar vermesidir.
Deneysel olarak yapılan çalı malarda ula ılan en iyi sonuç,
%85,9’dur. Türkçe için yayınlanan en yüksek ba arım,
%93,95’dir (Hakkani-Tür ve arkada ları, 2002). Ancak, yöntem
sözlük kullanmakta ve gizli Markov zinciri dil modeline ek
olarak kelimelerin biçimbirimsel analizlerine ihtiyaç
duymaktadır. Önerdi imiz yöntem, kelime da arcı ı açısından
kapalıdır.
Ayrıca,
biçimbirimsel
analize
gereksinim
duymamaktadır.
2. Genel istatistikler: Türkçe yazılı belgelerden olu turulan derlemlerin,
Zipf güç kanunları esasında uyumluluk sınamaları yapılmı tır. Zipf
güç kanunlarına uyum, BGG sistemleri için geli tirilen yöntemlerin
kuramsal tabanını olu turmaktadır. Ayrıca, Zipf güç kanunları
çerçevesinde, Türkçe derlemlerin kelime da arcı ının, boyut olarak
incelemesi
ve
açık/kapalı
olu unun
sınamaları
da
gerçekle tirilmi tir.
2.1. Ara tırma kapsamına alınan her derlem için gövde esasında ve
kelime esasında tanımlayıcı istatistikler yapılmı tır.
2.2. Her derlem için Zipf ve Mandelbrot ifadelerine uyum
sınamaları, hem gövde esasında hem de kelime esasında
yapılmı tır. Sınamalar sonucunda, Türkçe için W=1000
parametre de eri olan Mandelbrot ifadesi en iyi uyumu
göstermi tir. ngilizce için yapılan aynı çalı mada, Mandelbrot
ifadesi ile en iyi uyum sa lanmı , ancak W parametresi 100
de erinde kalmı tır. Mandelbrot, W parametresinin dilin kelime
biçimi olarak zenginli ini ölçeklendirdi ini belirtmektedir,
dolayısı ile Türkçe, ngilizce’den, kelime biçimi olarak daha
zengin çıkmı tır (eklemeli dil olarak, Türkçe için beklenen bir
sonuçtur).
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
336
2.3. Türkçe için, kelime da arcı ının yapılan incelemelerinde,
boyut olarak, derlem boyutu arttıkça sınırsız ekilde artaca ı,
yani açık oldu u, hipotezini çürütecek bir delili elimizdeki
derlemlerden elde edilememi tir. Deneysel sınamalarımıza esas
te kil eden ölçüt olarak, Zipf birinci kanun ifadesindeki
do rusal uyumun e imi kullanılmı tır. Kelime da arcı ının açık
oldu unu reddedebilmek için, deneysel olarak Zipf birinci
kanun ifadesindeki e imin, 1’den küçük olması gerekmektedir,
ancak, hiçbir sınamada e im 1’den küçük çıkmamı tır. Alınan
bu sonuç, hesaplamalı dilbilim sahasında genel kabulün tersidir.
Genel kabul: “do al diller için kelime da arcı ının, derlem
boyutu sonsuza giderken kapalı oldu u, yani sabit bir sayıya
yakınsayaca ıdır”. Oysa, deneysel sınamalarımızda, böyle
yakınsanacak sabit bir sayının oldu una dair delil
bulunamamı tır.
2.4. Türkçe için, kelime da arcı ının, derlem boyutu ile üstel bir
ili ki ile büyüme gerçekle tirdi i kabul edildi inde, kelime
da arcı ının boyutunu hesaplamak için kullanılabilecek, N ρ
ifadesindeki katsayısı olarak: gövdeler için ρ g ≈ 0.4441 ,
kelimeler için ρ ≈ 0.7821 bulunmu tur. fadede, N derlem
boyutunu temsil etmektedir.
2.5. Türkçe derlemlerin, kelime da arcıklarının içerdi i kelime
biçimlerinin, derlem içinde gözlenme sıklıklarına göre
incelemeleri de yapılmı tır. Bu kapsamda, derlem içinde bir kez
gözlenen (hapaks kelimeler), iki kere gözlenen, üç kere
gözlenen v.b. dü ük frekanslı kelimeler detaylı olarak
incelenmi , kelime da arcı ını olu turan kelime biçimlerinin
oran olarak tahlilleri yapılmı tır. Kelime da arcı ı içinde, bir
kez gözlenen kelimelerin, sayıca oranının: kelime esasında
yakla ık %50, iki kere gözlenen kelime biçimleri de
eklendi inde oranın %65’e ula tı ı; gövde esasında bir kez
gözlenenlerin yakla ık %36,5, iki kere gözlenen gövde
biçimleri de eklenince oranın %50’ye ula tı ı tespit edilmi tir.
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
337
2.6. Kelime da arcı ı kapsamında, Zipf ikinci kanunu ele alınmı ve
kelime da arcı ını olu turan farklı kelime biçimlerinin,
derlemde gözlenme sıklıkları ile orantılı olarak, kelime
da arcı ındaki oranlarını hesaplamak için biçimsel ifadeler
olu turulmu tur. Kelime biçimlerinin farklı derlem boyutları
için, önerilen ifadelerle tahmin edilen de erleri ile gerçekle en
de erleri kar ıla tırmalı olarak verilmi tir.
2.7. BGG sistemleri açısından önemli bir konu olan, metin içinde
i lev ve içerik olan kelimelerin, birbirlerinden ayırt edilmesi
için, Zipf güç kanunları esasında frekansa dayalı bir yöntem
hem gövdeler hem de kelimeler için sınanmı ve sonuçları
incelenmi tir. BGG sistemlerinde, sayısal belge temsili için,
metinlerde yer alan kelimelerin, içeri e katkıları bulunanları
seçilmektedir. Bu içeri e katkıda bulunan kelimelere indeks
terimler adı verilmekte; belgeler indeks terimlerin bir listesi
eklinde temsil edilmektedir. ncelemede, içerik kelime olarak
ele alınan yazım birlikleri, indeks terimler olmaktadır.
3. Dilbilgisi özelliklerinin BGG sistemlerinde kullanımı: Tez
hedefimizin ana çalı ması, bu kapsam içinde gerçekle mi tir.
Dilbilgisi özelli i olarak: sözcük türlerinin (isim, fiil, sıfat v.b.),
cümle unsurlarının (fiil, fail/özne, nesne v.b.) ve kelime
guruplarının BGG sistemlerinin ba arımları üzerindeki etkileri
sınanmı tır.
3.1. Sözcük türlerinin, cümle unsurlarının ve sözcük türü ile cümle
unsurları birlikte kullanılarak, elle i aretlenmi indeks terimler
üzerindeki olasılık da ılımları çıkartılmı tır. Kelime
guruplarının indeks terimler üzerindeki da ılımı da ayrıca
verilmi tir.
3.2. ngilizce derlemlerde en yüksek ba arım de erlerine sahip olan
TFxIDF, Okapi ve Ltu geri-getirim yöntemleri, Türkçe için,
ba arım açısından sınanmı ve TFxIDF yönteminin, OSTAD
derlemi üzerinde en iyi sonucu verdi i tespit edilmi tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
338
3.3. OSTAD derleminin seçilen kısmı için, sözcük türlerinin indeks
terimler üzerindeki olasılık da ılımı kullanılarak, TFxIDF
yöntemi ile elde edilen ba arımdan anlamlı düzeyde farklılık
sa landı ı, tespit edilmi tir. Sözcük türleri içinde özel isimler,
ayrı olarak ele alınmı ve kullanılmı tır.
3.4. OSTAD derleminin seçilen kısmı için, cümle unsurlarının
indeks terimler üzerindeki olasılık da ılımı kullanılarak,
TFxIDF yöntemi ile elde edilen ba arımdan anlamlı düzeyde
farklılık sa landı ı, tespit edilmi tir.
3.5. OSTAD derleminin seçilen kısmı için, sözcük türlerinin ve
cümle unsurlarının, indeks terimler üzerindeki birle ik olasılık
da ılımı kullanılarak, TFxIDF yöntemi ile elde edilen
ba arımdan anlamlı düzeyde farklılık sa landı ı, tespit
edilmi tir.
3.6. OSTAD derleminin seçilen kısmı için, kelime gurubu olarak
sadece 2 kelimeden olu anlar üzerinde bir inceleme yapılmı tır.
ncelemede, kelime gurupları, harf birlikleri dizisi olarak ele
alınmamı , harf birliklerine kar ılık gelen sözcük türleri
de erlendirilmi tir. Bu sayede, kelime gurubunun, sözcük
türleri üzerinden, yalın ekilde ba lam enformasyonu ile temsili
sa lanmı tır. Deneysel sınanmalar için, sözcük türleri,
kelimelerin önlerine basitçe eklenmi ve frekanslar yeni
birlikler için tekrar olu turulmu tur. Olu turulan yeni birlikler
için TFxIDF, Okapi ve Ltu geri-getirim yöntemleri ile a ırlıklar
hesaplanmı tır. Sınama sonucunda, üç geri-getirim yönteminin
de, aynı ba arıma sahip oldu u hipotezini çürütecek, delil
bulunamamı tır.
Tez kapsamında yapılan çalı malardan çıkan özet sonuçlar
öyledir: 1-) Hesaplamalı dilbilim sahasında genel kanı olan kapalı,
yani boyut olarak sınırlı kelime da arcı ını destekleyecek delil Türkçe
için derlemlerimizde bulunamamı tır. 2-) Hesaplamalı dilbilim
yöntemlerinde, genel kurgu içinde sözlük kullanımı gerektiren u ra ları
için, Türkçe’nin kendine özgü kuralları sayesinde, sözlük kullanmaya
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
339
ihtiyaç duymayacak e leniklerinin yapılabilece i gösterilmi tir. 3-)
BGG sahasında, yaygın kanı olan, dilbilgisi özelliklerinin geri-getirim
ba arımına anlamlı katkısı olmadı ına dair görü ün aksi yönünde,
OSTAD derlemi üzerinde yapılan çalı malarla delil verilmi tir. Sözcük
türü ve cümle unsuru enformasyonunun, indeks terimler üzerindeki
olasılık da ılımı ile, ba arımda anlamlı farklılık yaratıldı ı tespit
edilmi tir. 4-) Zipf güç kanunları esasında, Türkçe derlemlerin çe itli
da ılım özellikleri belirlenmi , kelime da arcıklarının kapalı/açık olu u
konusu irdelenmi ve hem kelime da arcı ı boyutu için hem de kelime
biçimlerinin da arcık içindeki sayılarını tahmin için derlemde
gözlenme sıklıklarını esas alan, hesaplama ifadeleri verilmi tir.
Listelenen lehte çalı maların yanı sıra, Türkçe kelimelerin sözcük
türleri için önerilen yöntem, kabul edilebilir ba arım sınırları (%90%95) içinde de ildir. Ancak, yöntemin verilen hali ile dahi, önerimin
olabilirli i için yeterli kanıt oldu u ve üzerinde daha fazla çalı ma
yapılması gerekli ine inanıyoruz. Kelime gurupları ile yapılan
çalı mada aynı ekilde, olumsuz sonuç vermi tir. Bu konuda da,
ara tırmanın derinle tirilerek yapılması ile müspet sonuçlara
çıkılabilece i konusunda, zayıfta olsa delillerimiz mevcuttur.
340
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
341
13. GEL M NOKTALARI VE TARTI MA
Bu tezin hedefi olan BGG sistemlerinde dilbilim özelliklerinin
(sözcük türü ve cümle unsuru) kullanımı ile geri-getirim ba arımının
anlamlı düzeyde arttırılması Türkçe için ba arılmı tır. Aynı ba lamda,
Türkçe ile yapısal olarak benzerlik gösteren di er diller için, örne in
Fince veya Macarca’da da aynı ba arımların sa lanabilece i güdüsü ile
ara tırma yoluna gidilebilir. Ayrıca, kelime guruplarında istatistiksel
olarak anlamlı bir ba arım artı ı olmadı ı sonucuna çıkmamıza ra men,
kelime guruplarının önerdi imiz ekli ile ele alınmasının dı ında, ba ka
kurgularla ba arım artı ı sa lanaca ı dü ünülmektedir.
Hesaplamalı dilbilim sahasındaki u ra konularının içerisinde,
önerdi imiz dört yöntemden biri olan, sözcük türü tespiti için ba arım
kabul edilebilir düzeylerde gerçekle memi tir. Elde etti imiz %85
ba arımın ba lam kullanımı ile elde edilmesi, yakla ımın tartı ılabilir
oldu unu ancak geli tirilmesi gereklili ini ortaya koymaktadır. Geli im
için iki yön önerilmektedir: 1-) Kullanılan olasılık yumu atma yöntemi
olan Kneser ve Ney metodunun Türkçe için yeniden uyarlanması
ve/veya yeni bir yumu atma yöntemi geli tirmek; 2-) Sondan alınan
birlikler üzerinde dilbilgisi kurallarına dayalı bir düzenleme yapılması
(örne in, “?dır, ?dir, ?dur, ?dür” gibi dört farklı birli in tek bir üst
birlikte toplanması), yani sondan alınan birliklerin da ılımlarının,
deneysel olasılıklarına, daha do rusu gerçek
yakınsamasının dilbilimsel özellikler ile desteklenmesi.
olasılıklarına
Dilbilimsel özellikler ile izah edilen de i imin, BGG ba arımı
açısından anlamlı olup olmadı ı, kullanılıp kullanılmaması gereklili i,
uygulamalar açısından tam çözümlenmemi bir meseledir. Örne in bir
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
342
geri-getirim yöntemi içerisinde, söz gelimi vektör uzayı modelinde, bir
vektör (frekans de i imi), di er vektörün (dilbilgisi özellikleri ile tespit
edilen de i im) tam ters yönünde meydana gelebilir ve sonuç olarak
uygulamada da çok büyük bir ba arım dü ü üne sebep olabilir. Söz
konusu durum istatistiksel olarak tespit edilebilir bir konudur. Örne in,
dilbilgisi özellikleri ve bilinen tüm yöntemler birer de i ken olarak
kabul edilip, toplam de i ime katkıları açısından do rusal regrasyon
yöntemi ile bütün olarak de erlendirilebilir, yani bireysel olarak tüm
de i kenlerin kar ılıklı etkile imleri ve uygulamada toplam ba arıma
katkıları ölçülebilir.
Zipf kanunları çerçevesinde yazılı Türkçe için yapılan tanımlayıcı
istatistikler, Türkçe’de gövdelerin bugün mevcut olan kuramlar
esasında, ngilizce gibi analitik diller için geli tirilen geri-getirim
yöntemlerine daha uygun oldu unu göstermi tir. Dolayısı ile, Türkçe
için bilgi geri-getirim sistemlerinin tasarımlarında iki seçenek ortaya
çıkmaktadır: 1-) E er analitik diller için geli tirilen yöntemler
kullanılacaksa, Türkçe için kelimelerin yazılı ekli yerine, gövdelerin
kullanılması, 2-) Kelimeler kullanılacaksa, geri-getirim yöntemlerinin
Türkçe kelimelerin, Zipf kanunları çerçevesinde bu tezde de incelenen
da ılımları göz önüne alınarak uyarlanması. Dilbilgisi özelliklerinin,
kelimeler esasında geri-getirim ba arımını arttırdı ı bu tez ile
gösterilmi tir. Ancak, gövdeler esasında bir inceleme yapılmamı tır.
Aynı zamanda, yaptı ımız çalı mada dilbilgisi özellikleri, geleneksel
yöntemlerle yer de i tirilerek, yani geleneksel yöntemlerin yerine
kullanılmı tır. Dilbilgisi özellikleri ve geleneksel yöntemlerin bir
melezi olu turularak ba arımların sınanması da mümkündür.
Tüm çalı malarımızın ı ı ı altında, Türkçe için daha çok çalı ma
yapılmasının gerekli oldu unu belirtmemiz gerekir. Örne in, yazılı
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
343
Türkçe için tek biçimbirimsel analiz kurgusu ve uygulaması olan,
Kemal Oflazer tarafından geli tirilen biçimbirim analizcisi dı ında da
çalı malara ihtiyaç vardır. Her dilbilim uygulaması kendine has
özellikler ve artlar ortaya koymaktadır, tekbir yöntemin tüm ihtiyaçları
kar ılaması beklenemez. Dolayısı ile, genelde her uygulamaya
uyarlanabilir soyut bir kurguya sahip, özelde de bilgi geri-getirim
sahasına uygun bir biçimbirim analiz yönteminin geli tirilmesi
gerekmektedir. Hesaplamalı dilbilim sahası içerisinde geli tirdi imiz,
gövdeleme ve sözcük türü tespit yöntemleri biçimbirim analizine
gereksinim duymayacak ekilde tasarlanmı tır. Bunun bir sebebi
mevcut biçimbirim analizinin bilgi geri-getirim için çok pahalı
olmasıdır. Ancak biçimbirim analizi, bütünsel dilbilim analizleri için ön
arttır; her zaman, bu tezde gerçekle tirdi imiz ekilde, dilbilgisi
özelliklerinin tek ba ına ve ba ımsız belirlenmesi uygun olmayabilir.
Bu çalı manın Türkçe üzerine yaptı ımız, yapaca ımız ve
yapılacak ara tırma çalı maları için topluca bir de erlendirme, genel
üzerinden bir güdüleme sa layaca ı ümit edilmektedir. Dünyanın
mevcut gidi atı do rultusunda, sayısal ortamda yeterince temsil
edilmeyen, daha do rusu hesaplamalı yöntemler açısından yeterince
geli tirilmeyen ve üzerinde çalı ılmayan dillerin, gelecekte yok olaca ı
görü ündeyiz. Çünkü, bir dili canlı ve ileti imde kullanı lı yapan ey,
ki iler arasında iletilmek istenen enformasyonu, temsil etmedeki gücü
ve söz konusu dil üzerinden ileti im kuran ki ilerin sayıca çoklu udur.
Gelece in küresel ileti im aracı, nternet veya bir türevi olacaktır.
Ancak, kesin olan udur ki, alt yapısı hesaplama temelinde kalacaktır.
Dolayısı ile, Türkçe’nin sayısal ortamda, hesaplama yönünden eksiksiz
temsili çok önemlidir. Bu yönde yapılacak her çalı manın, bizi bir adım
daha gelece e ta ıdı ı unutulmamalıdır.
344
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
345
TÜRKÇE- NG L ZCE TER MLER SÖZLÜ Ü
Terim
ngilizce Kar ılı ı
Anlam
Semantic
Bakı -açısal
Pragmatic
Belge (Doküman)
Document
Belge Özetleme
Document Summerization
Biçim-bilim
Morphology
Bilgi
Knowledge
Bilgi/Haber Geri-Getirim
Information Retrieval
Derlem
Corpus
Dil Modeli
Language Model
Dilbilim
Linguistics
Dura an
Stationary
Düzenli deyim
Regular Expression
Düzenli deyim dilbilgisi
Regular Expression Grammar
Düzensizlik/belirsizlik (Çeli ki)
Entropy
Enformasyon Özümseme
Information Extraction
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
346
En-yüksek Düzensizlik
Maximum Entropy
Ergodik
Ergodic
E -anlamlılar Sözlü ü
Thesaurus
E siz Sayılara Ayrı tırma
Singular Value Decomposition
Gizli Anlam ndeksleme
Latent Semantic Indexing
Gövdeleme
Stemming
Göz-atma
Browse
Haber (enformasyon)
Information
Hesaplamalı Dilbilim
Computational Linguistics
ndeks Terimler
Index Terms
stikrarsızlık (Karı ıklık/ a kınlık)
Perplexity
Karar A acı Esaslı Sınıflandırıcı
Decision Tree Classifier
Kar ılıklı
Mutual
Kelime Da arcı ı
Vocabulary
Konu ma-algılama
Speech Recognition
Konu ma-harmanlama
Speech Synthesis
Kümeleme
Clustering
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
347
Kural Tabanlı/Esaslı
Rule Based
Makine Çevirisi
Machine Translation
Makine Ö renimi
Machine Learning
Melez
Hybrid
Metin Hizalama
Text Alignment
Öz (Özgül, özgün)
Self
Saklı Markov Modeli
Hidden Markov Model (HMM)
Saklı Markov Zinciri
Hidden Markov Chain
Sayısal/Mantıksal Belge Görüntüsü Document Logical View
Ses-bilim
Phonology
Seyrek veri
Sparse Data
Silsile
Stochastic
Simge/Birlik
Token
Simgele tirme/Birle tirme
Tokenization
Sinir A ı (Yapay Sinir A ı)
Neural Network
Sistem (Dizge)
System
Sonlu Durum Makinesi
Finite State Machine
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
348
Sonuç-çıkarma a ı
Inference Network
Sorgu Geni letme
Query Expansion
Söylev
Discourse
Sözcük/kelime türü
Part-of-Speech (POS)
Sözcük/kelime türü i aretleme
Part-of-Speech Tagging
Sözdizimsel Çözümleme
Syntactic Parsing
Sözlük-bilim
Lexicology
Ta ma
Burstness
Temel Bile en ncelemesi
Principle Component Analysis
Vekil yazılım
Software Agent
Veri
Data
Yayılım Çizimi
Scatter Plot
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
349
KAYNAKLAR
Allan, J. (editor), Aslam, J, Belkin, N., Buckley, C., Callan, J., Croft, B. (editor),
Dumais, S., Fuhr, N., Harman, D., Harper, D.J., Hiemstra, D., Hofmann,
T., Hovy, E., Kraaij, W., Lafferty, J., Lavrenko, V., Lewis, D., Liddy, L.,
Manmatha, R., McCallum, A., Ponte, J., Prager, J, Radev, R., Resnik, P.,
Robertson, S., Rosenfeld, R., Roukos, S., Sanderson, M., Schwartz, R.,
Singhal, A., Smeaton, A., Turtle, H., Voorhees, E., Weischedel, R., Xu, J.,
Zhai, C., 2003, Challenges in Information Retrieval and Language Modeling,
SIGIR Forum 37(1).
Aberdeen, J., Burger, J., Day, D., Hirschman, L., Robinson, P. and Vilain, M.,
1995, Mitre: Description of the alembic system used for muc-6, In The
Proceedings of the Sixth Message Under-standing Conference (MUC-6),
Columbia, Maryland. Morgan Kaufmann.
Aduriz, I. Alegria, J.M. Arriola, X. Artola, A. Diaz de Illarraza, N. Gojenola,
E.K. and Maritxalar. M., 1995, Different issues in design of a
lemmatizer/tagger for Basque. In SIGDAT-95 (EACL-95 workshop).
Atalay, N.B., Oflazer, K. and Say, B., 2003, The annotation process in the Turkish
Treebank, in Proceedings of the EACL Workshop on Linguistically Interpreted
Corpora - LINC, Budapest, Hungary.
Baayen, R.H., 1996, The effect of lexical specialization on the growth curve of the
vocabulary. Computational Lingusitics, 22, pp.455-480.
Baayen, R.H., 2001, Word patterns and story shapes: the statistical analysis of
narrative style. Literary and Linguistic Computing 2, pp.61-70.
Baeza-Yates, R. and Ribeiro-Neto, B., 1999, Modern Information Retrieval. 2nd
edn. Addison-Wesley, England.
Barton, G. E., 1986, Computational complexity in two-level morphology. In ACL
Proceedings, 24th Annual Meeting.
Baker, J. K., 1975, Stochastic modeling for automatic speech understanding. In D.
Raj Reddy (eds.), Speech Recognition: Invited papers presented at the 1974
IEEE symposium, New York: Academic Press. Reprinted in (Waibel and Lee
1990), pp.297-307.
350
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
Berghel, H., 1997, Cyberspace 2000: Dealing with Information Overload,
Communications of the ACM, 40(2): 19–24.
Birtürk, A., 1998, Türkçenin yönetim ve ba lama kuramı yakla ımı ile bilgisayarla
çözümlenmesi. Doktora. Orta Do u Teknik Üniversitesi, Fen Bilimleri
Enstitüsü, Ankara, 168 sayfa.
Blair D.C., 1990, Language Representation in Information Retrieval, Elsevier,
Amsterdam.
Borko, H. and Bernier, L.B., 1978, Indexing concepts and methods,. Academic
Press Inc., New York.
Brants, T. and Samuelsson, C., 1995, Tagging the Teleman Corpus, In Proceedings
of the tenth Nordic Conference of Computational Linguistics.
Brants, T., 2000, TnT - a statistical part-of-speech tagger, In Proceedings of the 6th
Applied NLP Conference, ANLP-2000, Seattle, WA.
Brill, E., 1995a, Transformation-based error driven learning and natural language
processing: A case study in part of speech tagging. Computational Linguistics,
21(4):543-566.
Brill, E., 1995b Unsupervised learning of disambiguation rules for part of speech
tagging. In Proceedings of the Third Workshop on Very Large Corpora,
Cambridge, MA.
Brin S. and Page, L, 1998, The anatomy of a large-scale hypertextual web search
engine
Google
Search
Engine,
avalible
at
(2004):
http://dbpubs.stanford.edu:8090.
Broglio J., Callan J.P. and Croft W.B., 1994, INQUERY system overview. In
Proceedings of the TIPSTER Text Program (Phase I). San Francisco, CA
Morgan Kaufmann, pp 47-67.
Buckland, M., 1991, Information and Information Systems, Greenwood Press,
Westport, USA.
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
351
Buckley, C., Salton, G., Allen, J. and Singhal., A., 1995, Automatic query
expansion using SMART: TREC-3. In Harman, Donna K. (editor). Overview
of the Third Text REtrieval Conference (TREC-3). NIST Special Publication
500-225, National Institute of Standards and Technology, Gaithersburg, MD,
(http://trec.nist.gov/pubs.html), pp.69-80.
Buckley, C., Singhal, A. and Mitra, M., 1996, New retrieval approaches using
SMART. In D.K. Harman, editor, Proceedings of the Fourth Text Retrieval
Conference (TREC-4), Gaithersburg.
Burgin, R. and Dillion, M., 1992, Improving disambiguation in FASIT, Journal of
the American Society for Information Science.
Callan, J.P., Croft. W.B. and Harding., S.M., 1992, The INQUERY retrieval
system, in Database and Expert Systems Applications: Proceedings of the
International Conference, Valencia Spain, pp. 78-83.
Chanod, J.P. and Tapanainen, P., 1995, Tagging French –comparing a statistical
and constrained-based method. In EACL-95.
Chen, S.F. and Goodman, J., 1998, An empirical study of smoothing techniques for
language modeling. Technical Report, TR-10-98, Center for Research in
Computing Technology, Harvard University, Cambridge, Massachusetts.
Chomsky, N., 1957, Syntactic Structures. The Hague: Mouton.
Church, K.W., 1988, A stochastic parts program and a noun phrase parser for
unrestricted text, In Proceedings of the Second Conference on Applied Natural
Language Processing, Austin, Texas.
Cleveland, D.B. and Cleveland, A.D., 1983, Introduction to Indexing and
Abstracting, Libraries Unlimited, Inc., Littleton, Colorado.
Cole, R (chief ed.), Mariani, J., Uszkoreit, H., Marile, G.B. (man. ed.), Zaanen,
A., Zampolli, A. (man. ed.), and Zue, V., 1997, State of the Art of the
Human Language Technologies, Cambridge University Press and Giardini,
UK.
Cover, T.M. and Thomas, J.A., 1991, Elements of Information Theory, John Wiley
& Sons, New York.
352
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
Craven, T., 2002, Introduction to Information Retrieval, Lecture Notes, MIT, USA,
(unpublished) URL: http://instruct.uwo.ca/mit/026-98/index.htm
Croft, W.B., Turtle, H.R. and Lewis, D.D., 1991, The uses of phrases and structured
queries in information retrieval, Proceedings of the 14th Annual International
ACM SIGIR Conference on Research and Development in Information
Retrieval, pp. 32-45.
Cussens, J., Dzeroski, S. and Erjavec, T., 1999, Morphosyntactic tagging of
Slovene using Progol, In Dzeroski, S., & Flach, P. (Eds.), Inductive Logic
Programming: Proc. of the 9th International Workshop (ILP-99) Bled,
Slovenia, Springer-Verlag.
Dalkılıç, M.E. and Dalkılıç, G., 2001, Some measurable language characteristics of
printed Turkish, Proc. of the XVI International Symposium on Computer and
Inf. Sciences, pp. 217-224.
Demir, C., 1993, Türkçe için bir ATN grameri. Yüksek Lisans. Bilkent Üniversitesi,
Fen Bilimleri Enstitüsü, Ankara, 1993, 94s.
Derouault, A.M. and Merialdo, B., 1986, Natural language modeling for phonemeto-text transcriptions. IEEE Transactions on Pattern Analysis and Machine
Intelligence (8), pp.649-742.
Dermatas, E. and Kokkinakis, G., 1995, Automatic stochastic tagging of natural
language texts. Computational Linguistics, 21(2):137-164
DeRose, S., 1988, Grammatical category disambiguation by statistical optimization,
Computational Linguistics, 14(1).
Ekmekçioglu, F. Ç., Lynch, M. F. and Willett, P., 1996, Stemming and n-gram
matching for term conflation in Turkish texts, Information Research, 1(1)
Available at: http://informationr.net/ir/2-2/paper13.html
Ergin, M., 1999, Türk Dil Bilgisi, Bayrak Yayın/Da ıtım, Fatih, stanbul.
Evans, D. and Lefferts, R., 1994, Design and evaluation of the CLARIT-TREC-2
system, In Harman, D., editor, National Institute of Standards and Technology
Special Publication No. 500-215 on the The Second TextREtrieval Conference
(TREC-2), Washington, DC. National Institute of Standards and Technology,
U.S. Department of Commerce, U.S. Government Printing Office.
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
353
Feldweg, H., 1995, Implementation and evaluation of a German HMM for POS
disambiguation. In EACL SIGDAT Workshop.
Faloutsos, C. and Oard, D.W., 1995, A survey of information retrieval and filtering
methods, Technical Report CS-TR-3514, University of Maryland, College
Park, MD.
Foskett, A.C., 1996, The Subject Approach to Information, Fifth Edition, Library
Association Publishing Ltd., London, U.K.
Garside, R., 1987a, The CLAWS word-tagging system. In Garside R., Leech, F., and
Sampson, G., editors, The Computational Analysis of English. Longman.
Garside, R. and Leech, F., 1987b, The UCREL probabilistic parsing system. In
Roger Garside, Geoffrey Leech, and Geoffrey Sampson (eds.), The
Computational Analysis of English: A Corpus-Based Approach, Longman,
London, 66-81.
Good, I.J., 1953, The population frequencies of species and the estimation of
population parameters. Biometrica, 40(3 and 4), pp. 237-264.
Greene, B.B. and Rubin, M. G., 1971, Automated grammatical tagging of English.
Department of Linguistics, Brown University.
Güngördü, Z., 1993, Türkçe için bir sözcüksel-i levsel gramer. Yüksek Lisans.
Bilkent Üniversitesi, Fen Bilimleri Enstitüsü, Ankara, 138 sayfa.
Haji , J. and Hladká, B., 1998, Tagging inflective languages: Prediction of
morphological categories for rich, structured tag set. In Proceedings of
COLLING/ACL’98, Montreal, Canada.
Hakkani, D.Z., 1996, Serbest ö e sıralı bir dil olan Türkçe için yüzeysel üretici
tasarımı ve gerçekle tirilmesi. Yüksek Lisans. Bilkent Üniversitesi, Fen
Bilimleri Enstitüsü, Ankara, 135 sayfa.
Hakkani-Tür, D.Z., Oflazer, K. and Tür, G., 2002, Statistical morphological
disambiguation for agglutinative languages, Computers and the Humanities.
Hankamer, J., 1984, Turkish generative morphology and morphological parsing, In
Second International Conference on Turkish Linguistics. Istanbul.
354
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
Herdan, G., 1960, Type-token mathematics. The Hague: Mouton.
Hersch, W.R., Elliot, D.L., Hickam, D.H., Wolf, S.L., Molnar, A. and
Lechtenstien, C., 1995, Towards new measures of information retrieval
evaluation, Proceedings of the 18th Annual International ACM SIGIR
Conference on Research and Development in Information Retrieval, pp. 164170.
Hiemstra, D. and de Jong, F., 2001, Statistical language models and information
retrieval: natural language processing really meets retrieval, Glot International
5(8), 288-294.
Hull D., 1996, Stemming Algorithms: A Case Study for Detailed Evaluation, Journal
of theAmerican Society for Information Science, Vol 47(1): 70-84pp.
Hull, D.A., Grefenstette, G., Schulze, G.M., Gaussier, E., Schutze, H. and
Pedersen, J.O., 1997, Xerox TREC-5 Site Report: Routing, Filtering, NLP,
and Spanish Tracks. In Voorhees EllenM. and Donna K. Harman (editors). The
Fifth Text Retrieval Conference (TREC-5). NIST Special Publication 500-238,
National Institute of Standards and Technology, Gaithersburg, MD,
(http://trec.nist.gov/pubs.html), pp. 167-180.
Ingwersen, P., 1992, Information Retrieval Interaction. Taylor Graham Publishing,
London.
Jacobs, P., 1994, GE in TREC-2: Results of a Boolean approximation method for
routing and retrieval, In Harman, D., editor, National Institute of Standards and
Technology Special Publication No. 500-215 on the The Second Text
REtrieval Conference (TREC-2), Washington, DC. National Institute of
Standards and Technology, U.S. Department of Commerce, U.S. Government
Printing Office.
Jacqemin, C. and Royaute, J., 1994, Retrieving terms and their variants in a
lexicalized unification-based framework, Proceedings of the 17th Annual
International ACM SIGIR Conference on Research and Development in
Information Retrieval, pp. 132-141.
Jain, S. and Sharma, A., 1993, Probability is more powerful than team for language
identification from positive data, Proceedings of the sixth annual conference
on Computational learning theory, ACM Press, Santa Cruz, California,
pp.192-198.
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
355
Jain, S. and Sharma, A., 1994, On the intrinsic complexity of language
identification, Proceedings of the seventh annual conference on Computational
learning theory, ACM Press, New Brunswick, New Jersey, pp. 278-286.
Jelenic, F. and Mercer, R., 1980, Interpolated estimation of Markov source
parameters from sparse data. In Proceedings of the Workshop on Pattern
Recognition in Practice, Amsterdam, The Netherlands: North-Holland.
Jelenik, F., 1985, Markov source modeling of text generation. In J.K. Skwirzynski
(eds.), The Impact of Processing Techniques on Communications, volume E91
of NATO ASI series, Dordrecht: M. Nijhoff, pp.569-598.
Jin, R., Faloutsos, C. and Hauptmann, A.G., 2001, Meta-Scoring: Automatically
evaluating term weighting schemes in IR without Precision-Recall, In
Proceedings of the 24th ACM SIGIR Conference on Research and
Development in Information Retrieval, New Orleans, Louisiana.
Jones, K.S. and Kay, M., 1973, Linguistics and Information Science, Academic
Press, New York.
Jones, K.S. and Kay, M., 1976, Linguistics and Information Science: A Postscript,
In Donald E. Walker, Hans Karlgren, and Martin Kay (eds.) Natural Language
in Information Retrieval – Perspectives and Directives for Research, Skriptor,
Stocholm.
Jones, K.S., 1999, What is the Role of NLP in Text Retrieval, In Tomek Strzalkowski
(ed.), Natural Language Information Retrieval, Kluwer, Boston.
Jurafsky D. and Martin J. M., 2000, Speech and Language Processing. PrenticeHall, New Jersey USA.
Karlgren, J., 2000, The basics of information retrieval. Swedish institute of
Computer Science, Survey, SICS, 49p, (unpublished).
Katz, S.M., 1987, Estimation of probabilities from sparse data for the language model
component of a speech recognizer. IEEE Transactions on Acoustic, Speech
and Signal Processing, ASSP-35(3), pp. 400-401.
Kenser, R. and Ney, H., 1995, Improved backing-off for m-gram language
modeling. In Proceedings of IEEE International Conference on Acoustic,
Speech and Signal Processing, volume 1, pp.181-184.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
356
Klein, S. and Simpson, R. A., 1963 Computational approach to grammatical coding
of English words. JACM (10):344-337.
Kochen, M., 1983, Library science and information science. Broad or narrow? In
Machlup, Fritz and Una Mansfield (editors), The Study of Information. John
Wiley & Sons, Inc., New York, pp.371-377.
Korfhage R.R., 1997, Information Storage and Retrieval, Wiley, New York, NY.
Korkmaz, T., 1996, Sistemik-fonksiyonel gramer yakla ımı ile türkçe metin üretimi.
Yüksek Lisans. Bilkent Üniversitesi, Fen Bilimleri Enstitüsü, Ankara, 132
sayfa.
Kornai, A., 2002, How many words are there?, Glottometrics (4), pp.61-86.
Koskenniemi, K., 1983, Two-level morphology: a general computational model for
word-form recognition and production. In, Publications of the Department of
General Linguistics, Vol.11. University of Helsinki, Helsinki .
Köksal A., 1979, Bilgi Eri im Sorunu ve Bir Belge Dizinleme ve Er im Dizgesi
Tasarım ve Gerçekle tirimi, Fen Bilimleri Enstitüsü, Bilgisayar Bilimleri
Mühendisli i Anabilim Dalı Doçentlik Tezi, Hacettepe Üniversitesi, Ankara.
Krovetz R., 1993, Viewing Morphology as an Inference Process, Proceeding 16th
International Conference Research and Development in Information Retrieval,
ACM, pp. 191-202.
Kupiec, J., 1992, Robust part-of-speech tagging using hidden markov models.
Computer Speech and Language, pp.252-242.
Kupiek, J. M., 1993, A robust linguistic approach for question answering using an
on-line encyclopedia, Proceedings of the 16th Annual International ACM
SIGIR Conference on Research and Development in Information Retrieval, pp.
181-190.
Kut, A., Alpkoçak, A. and Özkarahan, E., 1995, Bilgi bulma sistemleri için
otomatik Türkçe dizinleme yöntemi. Bili im Bildirileri, Dokuz Eylül
Üniversitesi, zmir.
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
357
Lahtinen, T., 2000, Automatic indexing: an approach using an index term corpus and
combining linguistic and statistical methods. Phd Thesis, Department of
General Linguistics, University of Helsinki, Finland, ISBN 951-45-9639-0.
Lancester, F.W., 1968, Information Retrieval Systems: Characteristics, Testing and
Evaluation, Wiley Ltd., New York.
Lancaster, F.W., 1991, Indexing and abstracting in theory and in practice. Library
Association Publishing Ltd., London.
Levinger, M., Ornan U. and Itai, A., 1995 Learning morpho-lexical probabilities
from an untagged corpus with and application to Hebrew, Computational
Linguistics, 21(3):383-404.
Lewis, D.D., 1992, An evaluation of phrasal and clustered representations on a text
categorization task, Proceedings of the 15th Annual International ACM SIGIR
Conference on Research and Development in Information Retrieval, pp. 37-50.
Lewis, D.D. and Spark-Jones, K., 1996, Natural language processing for
information retrieval, Communications of the ACM, Vol. 39, No. 1, pp. 92101.
Lextek International Inc., 2004, Language Identifier, 1051 E. Fir Ave Provo, UT
84604 USA Tel: 801.375.8332. URL: http://www.languageidentifier.com/
Losee, R. M., 1996, How part-of-speech tags affect text retrieval and filtering
performance, Computational Linguistics.
Lovins, J.B., 1968, Developing of a Stemming Algorithm. In: Mechanical
Translation and Computational Linguistics, Vol. 11, pp22-31.
Liddy, E.D. and Myaeng, S.H., 1993, DR-LINK: A system update for TREC-2, In
Merchant, R., (ed.), Proceedings of the TIPSTER Text Program Phase I, San
Mateo, California. Morgan Kaufmann.
Liddy, E.D., 1998, Enhanced text retrieval using natural language processing,
Bulletin of the American Society for Information Science, 24(4).
Lidstone, G.J., 1920, Note on the general case of the Bayes-Laplace formula for
inductive or a posteriori probabilities. Transactions of the Faculty of Actuaries,
8, pp. 182-192.
358
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
Lins, D.R and Gonçalves, P, 2004, Automatic language identification of written
texts, Proceedings of the 2004 ACM symposium on Applied computing, pp.
1128-1133.
Luhn, H.P., 1958, The automatic creation of literature abstracts. IBM Journal of
Research and Development, 2, pp.159-165.
Luhn, H.P., 1960, Keyword-in-context index for technical literature (KWIC index),
American Documentation 11:288-295.
Lyons, J., 1968, Introduction to Theoretical Linguistics, Cambridge University Press,
Cambridge, Great Britain.
Lyons, J., 1977, Semantics 1, Cambridge University Press, Cambridge, Great Britain.
Manning, C.D. and Schütze, H., 2003, Foundations of Statistical Natural Language
Processing. The MIT Press, Cambridge, Massachusetts, London, England.
Mandelbrot, B., 1952, An information theory of the structure of the language based
upon the theory of the statistical matching of messages and coding. In W.
Jackson (ed.), Second Symposium on Information Theory, London.
Mandelbrot, B., 1961, On the theory of word frequencies and on related markovian
models of discourse. In: R. Jackson (ed.), Structure of Language and its
Mathematical Aspects, American Mathematical Society, pp.190-219.
Marshall, I., 1987, Tag selection using probabilistic methods. In Roger Garside,
Geoffery Sampson, and Geoffery Leech (eds.). The Computational Analysis of
English: a copusbased approach, Longman, London, pp42-65.
Megyesi, B., 1999, Improving Brill’s POS tagger for an agglutinative language. In
Pascale Fung and Joe Zhou, (eds.), Proceedings of the Joint SIGDAT
Conference on Emperical Methods in Natura Language Processing and Very
Large Corpora, Collage Park, Maryland, USA, pp275-284.
Mercer, R.L., 1993, Inflectional morphology needs to be authenticated by hand. In
Working Notes of AAAI Spring Symposium on Building Lexicons for Machine
Translation. Stanford, CA, AAAI Press, pp.91-99.
Miller, G.A., 1990, WordNet: An on-line lexical database, International Journal of
Lexicography, 3(4).
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
359
Mikheev, A., 1997, Tagging sentence boundaries, Language Technology Group,
University of Edinburgh.
Mitra, M., Buckley, C., Singhal, A. and Cardie, C., 1997, An analysis of statistical
and syntactic phrases. In Proceedings of the RIAO’97, McGill University,
Montreal, pp. 200–216.
Mizutani, S., (1989), Ohno’s lexical law: Its data adjustment by linear regression. In:
S. Mizutani (ed.), Japanese Quantitiative Linguistics, Bachum: Brockmeyer,
pp.1-13.
Ney, H., Essen, U. and Kneser, R., 1994, On structuring probabilistic dependencies
in stochastic language modeling. Computer, Speech and Language, 8, pp.1-38.
Oard,
D.W.,
1997,
Cross-language
Bibliography,
http://citeseer.nj.nec.com/oard97crosslanguage.html.
avalible
at
:
Oflazer, K., 1993, Two Level Description of Turkish Morphology. In: Proceedings of
EACL’98. Utrecht, the Netherlands.
Oflazer, K. and Kuruöz, ., 1994, Tagging and morphological disambiguation of
Turkish text. In Proceedings of the fourth Applied Natural Language
Processing Conference, ACL, pp144-149
Oflazer, K. and Tür, G., 1996, Combining hand-crafted rules and unsupervised
learning in constrained-based morphological disambiguation, In Eric Brill and
Kenneth Chuchh (eds.), Proceedings of the ACL-SIGDAT Conference on
Emperical Methods in Natural Language Processing.
Oflazer, K. and Tür, G., 1997, Morphological disambiguation by voting constraints,
In Proceedings of the thirty-fifth Annual Meeting of the Association for
Computational Linguistics (ACL’97/EACL’97), Madrid, Spain.
Oflazer, K., Say, B., Hakkani-Tür, D. and Tür, G., 2003, Building a Turkish
Treebank, Chapter in Building and Using Parsed Corpora, Anne Abeillé
(Ed.), Kluwer Academic Publishers.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
360
Orgun M.A., 1985, Gömü-Dili: Çok Dilli Bilgi Eri im Gömülerinin Bilgisayar
Ortamında Etkile imli Biçimde Geli tirilmesini Destekleyecek Bir Yazılım
Dizgesinin Tasarımı ve Gerçekle tirimi, Fen Bilimleri Enstitüsü, Bilgisayar
Bilimleri Mühendisli i Anabilim Dalı Yüksek Mühendislik Tezi, Hacettepe
Üniversitesi, Ankara.
Palmer, D.D. and Hearst, M.A., 1997, Adaptive multilingual sentence boundary
disambiguation, Computational Linguistics.
Peshkin, L., and Savova, V., 2004, Part-of-speech tagging with minimal
lexicalization, V. Invited chapter in Current Issues in Linguistic Theory
(CILT), Publisher: John Benjamins, Amsterdam, Philadelphia.
Popovic M. and Willett P., 1992, The Effectiveness of Stemming for Natural
Language Access to Slovene Textual Data, Journal of The American Society
for Information Science, Vol 43, pp. 384-390.
Porter, M.F., 1980 An Algorithm for Suffix Stripping. In: Program, Vol.14, No.3,
130-137.
Powers, D.M., 1998, Applications and explanations of Zipf’s laws. In: D. Powers
(ed.), NEMLAP3/CONLL98, New methods in language processing and
Computational natural language learning, pp.151-160.
Ratnaparki, A., 1996, A maximum entropy model for part-of-speech tagging. In
Proceedings of EMNLP.
Resnik, P., 1999, Mining the Web for bilingual text, Proceedings of the 37th
conference on Association for Computational Linguistics, ACM, College Park,
Maryland, pp. 527-534.
Reynar, J.C. and Ratnaparkhi, A., 1997, A maximum entropy approach to
identifying sentence boundaries, In Proceedings of the Fifth A CL Conference
on Applied Natural Language Processing (ANLP'97), Washington, D.C.
Riley, M.D., 1989, Some applications of tree-based modeling to speech and language
indexing, In Proceedings of the DARPA Speech and Natural Language
Workshop, pages 339-352. Morgan Kaufman.
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
361
Riloff, E., 1995, Little words can make a big difference for text classification,
Proceedings of the 18th Annual International ACM SIGIR Conference on
Research and Development in Information Retrieval, pp. 130-136.
Robertson, S.E. and Sparck Jones, K., 1997, Simple, proven approaches to textretrieval. Technical report 356, Computer Laboratory, University of
Cambridge.
Robertson, S.E. and Walker, S., 2000, Okapi / Keenbow at TREC-8. In Proceedings
of the eighth Text Retrieval Conference TREC-8, pp. 151–162, Gaithersburg,
NIST Special Publications 500-246.
Salton, G., 1971, The SMART Retrieval System Experiments in Automatic
Document Processing, Prentice Hall.
Salton, G. and Buckley, C., 1988, Term-weighting approaches in automatic text
retrieval. Information Processing & Management, vol.24(5), pp.513-523.
Salton, G. and McGill, M.J., 1983, Introduction to Modern Information Retrieval,
McGraw Hill Publishing Company, New York.
Sánchez León, F. and Nieto Serrano, A.F., 1995, Development of a Spanish version
of the Xerox tagger, CRATER/WP6/FR1.
Samuelsson, C., 1996, Relating Turing’s Formula and Zipf’s Law. Proc. Forth
Workshop on Very Large Corpora.
Sever, H., Karaka , Ü., Akal, F., Olgun, B. ve Sezer, E., 1997, Ka garlı Mahmut
Bilgi Geri-Getirim Sistemi, Teknik Rapor, Devlet Planlama Te kilatı Destek
No: 97K121330, Hacettepe Üniversitesi, 157s, (yayınlanmamı ).
Sever, H. and Bitirim, Y., 2003, The analysis and evaluation of stemming algorithms
for Turkish, 10th International Symposium on String Processing and
Information Retrieval (SPIRE'03), Manaus, Brazil, October 8-10. Lecture
Notes in Computer Science (LNCS), Springer, 2857: 238-51.
Sezer E., 1999, Smart Bilgi Eri im Sistemi'nin Türkçe yerelle tirilmesi ve otomatik
gömü üretimi. Yüksek Lisans. Hacettepe Üniversitesi, Fen Bilimleri Enstitüsü,
Ankara, 1999, 124 sayfa.
362
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
Simon, H.A., 1955, On a class of skew distribution function. Biometrica 42, pp.425440.
Sheridan, P. and Ballerini., J.P., 1996. Experiments in multilingual information
retrieval using the SPIDER System, Proceedings of the 19th Annual
International ACM SIGIR Conference on Research and development in
Information Retrieval SIGIR 96: 58–65.
Shannon, C.E., 1949. The mathematical theory of communication. In Shannon, C.E.
and Waver, W. (editor). The Mathematical Theory of Communication. The
University of Illinois Press, Urbana, 3-91.
Schmid, H., 1994, Part-of-Speech Tagging with Neural Networks. Proceeding of
COLING-94, pp172-176.
Sibun, P. and Spitz, A.L., 1994, Language determination: natural language
processing from scanned document images, Proceedings of the fourth
conference on Applied natural language processing, Morgan Kaufmann
Publishers Inc., Stuttgart, Germany, pp.15-21.
Smeaton, A., 1992, Progress in the application of natural language processing to
information retrieval tasks. The Computer Journal, 35(3).
Smeaton, A.F., O'Donnell, R. and Kelledy, F., 1995, Indexing structures derived
from syntax in TREC-3: System description, In National Institute of Standards
and Technology Special Publication on the The Third Text REtrieval
Conference (TREC-3), Washington, DC. National Institute of Standards and
Technology, U.S. Department of Commerce, U.S. Government Printing
Office.
Soergel, D., 1985, Organizing Information: Principles of Database and Retrieval
Systems. Orlando: Academic Press, 9-20.
Solak, A. and Can., F., 1994, Effects of stemming on Turkish text retrieval.
Technical report BUCEIS-94-20, Bilkent University, Ankara.
Sparck Jones, K., 1972, A Statistical Interpretation of Term Specificity and Its
Application in Retrieval. Journal of Documentation, vol.28(1), pp.11-20.
Sparck Jones, K., 1995, Reflections on TREC. Information Processing &
Management, vol.31(3), pp.291-314
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
363
Stolz, W. S., Tannenbaum P. H. and Carstensen, F. V. A., 1965, stochastic
approach to the grammatical coding of English. Communications of ACM (8):
399-405.
Strassel, S., Maxwell, M. and Cieri, C., 2003, Linguistic resource creation for
research and technology development: A recent experiment, ACM
Transactions on Asian Language Information Processing (TALIP), 2(2): 101117.
Strzalkowski, T., 1995, Natural language information retrieval. Information
Processing & Management 31 (3), 397–417.
Strzalkowski, T., Carballo, J.P. and Marinescu, M., 1995, Natural Language
information retrieval: TREC-3 report. In National Institute of Standards and
Technology Special Publication on the The Third Text REtrieval Conference
(TREC-3), Washington, DC. National Institute of Standards and Technology,
U.S. Department of Commerce, U.S. Government Printing Office.
Strzalkowski, T., Lin, F. and Perez-Carballo, J., 1998, Natural Language
Information Retrieval TREC-6 Report. In Voorhees EllenM. and Donna K.
Harman (editors). The Sixth Text REtrieval Conference (TREC-6). NIST
Special Publication 500-240, National Institute of Standards and Technology,
Gaithersburg, MD, (http://trec.nist.gov/pubs.html), pp.347-366.
Suzuki, I., Mikami, Y., Ohsato, A. and Chubachi, Y., 2002, A language and
character set determination method based on N-gram statistics, ACM
Transactions on Asian Language Information Processing (TALIP), pp. 269278.
Tautanova, K. and Manning C., 2000, Enriching the knowledge sources used in a
maximum entropy part-of-speech tagger. In Proceedings of EMNLP/VLC.
Thagard, P., 1990. Information and concepts. In Hanson, Philip P. (editor).
Information, language and cognition. The University of British Columbia
Press, Vancouver, Canada, 168-174.
Turner, G.R., 1997, Relationship between vocabulary, text length and Zipf’s law.
Avail at: http://www.btinternet.com/g.r.turner/ZipfDoc.htm.
Tür, G., 2000, A Statistical Information Extraction System. PhD Thesis, Bilkent
University, Ankara, Turkey.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
364
Türkiye Bili im Derne i, 2003,
http://eski.tbd.org.tr/sozluk.html
Sözlü ü,
URL:
Türk Dil Kurumu, 2003a, Bilgisayar Terimleri Kar ılıklar Kılavuzu,
http://www.tdk.gov.tr/bilterim
URL:
Türk
URL:
Bili im
Terimleri
Dil Kurumu, 2003b, Güncel
http://www.tdk.gov.tr/sozluk.html
Türkçe
Sözlük,
URL:
Van Rijsbergen, C.J., 1979, Information Retrieval (2nd ed.), Butterworths, London.
Viterbi, A.J., 1967, Error bounds for convolution codes and an asymptotically
optimal decoding algorithm. IEEE Transaction on Information Theory, pp.
260-269.
Voorhees, E., Gupta, N.K. and Johnson-Laird, B., 1995, The collection fusion
problem. In National Institute of Standards and Technology
SpecialPublication on the The Third Text REtrieval Conference (TREC-3),
pages 95-104, Washington, DC. National Institute of Standards and
Technology, U.S. Department of Commerce, U.S. Government Printing
Office.
Voorhees E.M. and Harman, D.K., 1998. Overview of the Sixth Text Retrieval
Conference (TREC-6). In Voorhees Ellen M. and Donna K. Harman (editors).
The Sixth Text REtrieval Conference (TREC-6). NIST Special Publication 500240, National Institute of Standards and Technology, Gaithersburg, MD,
(http://trec.nist.gov/pubs.html), pp.1-24.
Voorhees E.M. and Harman, D.K., 1998b. The seventh Text REtrieval Conference
(TREC-7). NIST special publication, Galthersburg, Maryland, November 9-11.
http ://trec.nist.gov/pubs.html.
Voutilainen, A., 1998, Does tagging help parsing? A case study on finite state
parsing, Lauri Karttunen (ed), International Workshop on Finite State Methods
in Natural Language Processing (FSMNLP'98), Association for
Computational Linguistics, Somerset, New Jersey, pp.25-36.
Yao Y.Y., 1995, Measuring retrieval effectiveness based on user preference of
documents, Journal of the American Society for Information Science, l 46:133145.
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
365
Weaver, W., 1949, Recent contributions to the mathematical theory of
communication. In Shannon, C. E. and Weaver, W. (editors). The
Mathematical Theory of Communication. The University of Illinois Press,
Urbana, 94-117.
Witten, I.H. and Bell, T.C., 1991, The zero-frequency problem: Estimating the
probability of novel events in adaptive test compression. IEEE Transactions on
Information Theory, 37(4), pp. 1085-1094.
Zhai, C., Tong, X., Miliç -Frayling, N. and Evans., D.A., 1997, Evaluation of
Syntactic Phrase Indexing - CLARIT NLP Track Report. In Voorhees Ellen M.
and Donna K. Harman (editors). The Fifth Text REtrieval Conference (TREC5). NIST Special Publication 500-238, National Institute of Standards and
Technology, Gaithersburg, MD, (http://trec.nist.gov/pubs.html), pp.347-358.
c
Ziegenhain, U., Arranz, V., Bisani, M., Bonafonte, A., Castell, C., Conejero, D.,
Hartikainen, E., Maltese, G., Oflazer, K., Rabie, A., Razumikin, D.,
Shammass, S. and Zong C., 2003, The LC-STAR: Lexica and corpora for
speech-to-speech translation technologies. Technical Report, IST-2001-32216,
Siemens AG, CT IC 5, München, Germany. URL: http://www.lc-star.com
Zipf, G. K., 1929, Relative frequency as a determination of phonetic change. Harvard
Studies in Classical Philology, 40:1-95.
Zipf, G. K., 1949, Human Behaviour and the Principles of Least Effort. Cambridge,
MA, Addison-Wesley.
366
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
EKLER
EK-1 : BGG sahasında önceki çalı malar.
367
368
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
369
EK-1
BGG Sahasında Yapılan Önceki Çalı malar
BGG sahasında bu güne kadar onlarca uygulama sistemi, farklı
guruplar tarafından ticari ve akademik amaçlı geli tirilmi tir.
Tanıtaca ımız sistemlerden, ticari olanlar LEXIS/NEXIS, DIALOG,
Dow QR, INSPECT, STAIRS, MEDLARS ve GARALDI (Türkçe);
akademik olanlarsa SMART, INQUERY, DR-LINK, TÜRDER ve
KMBGG sistemleridir (Ka garlı Mahmut Bilgi Geri-Getirim Sistemi).
LEXIS/NEXIS sistemi ticari bir geri-getirim sistemidir. Sistem
hukuk (LEXIS) ve gazete (NEXIS) yazıları geri-getirimi üzerine
yo unla mı tır. Sorgu yöntemi olarak boole e le tirme yordamını esas
alır, yani geri-getirilen belgeler, sorguda yazılan kelimelerle bire-bir
e le enleri içerenlerdir. Sorgu olu turmada iki joker-karakter
kullanımına izin vermektedir: “*” karakteri herhangi bir tek harfi
(örne in “bilg*” ile “bilgi”, “bilgiç”, “bilim” ve “bilgin” kelimeleri
ama “bilimsel” de il) ve “!” karakteri herhangi bir kelimeye
getirilebilecek ngilizce dilbilimsel eki (örne in, “transport!” kelimesi
“transportation”, “transporting” vb. kelimeleri). (“*” için verilen
örnekte, böyle basite indirgenmi bir nevi gövde üretiminin Türkçe için
kullanımında ne tür sakıncaları olabilece i de rahatlıkla
görülebilmektedir. Yöntem analitik diller için uygundur, ancak kelime
türetmek için ek sistemi kullanan dillere uygun de ildir. “bilim” ve
“bilgin”). En son sürümlerinde do al dilde yazılan sorguları kullanma
e ilimindedir. Bunun sebebi geri-getirim modeli olarak vektör uzayını
benimsemesidir. Belge temsilinde: durma kelimelerini ayıklama ve
kelime gurupları tespit alt adımlarını kullanır. Sorgu olu turma ve
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
370
sonuç listesinde göz-atma (browsing) hizmeti
uygundur.
Z39.50 standardına
DIALOG sistemi ticari bir sistemdir. Sistem i dünyası, hukuk,
resmi, tıbbi, gazete, insan, bilim, sosyal bilimler ve teknoloji
sahalarında belgeler üzerinde i lem yapar. Sorgu olu turma ve
e le tirme yöntemi boole yordamıdır. Sistem sorguda “?” jokerkarakter kullanımına izin verir. Böylece bir kelimenin farklı yazım
biçimlerinin, örne in “bilgi”, “bilgiler” ve “bilgin” kelimeleri “bilgi?”
eklindeki tek bir biçimde temsil edilebilmektedir. E -anlamlılar
sözlü ü kullanımı yoktur. Kullanıcının sorgularını kaydetmesine izin
verilir ve e er sistemin hedefindeki belge uzayına kayıtlı sorgu ile
alakalı yeni bir belge eklenirse, kullanıcı uyarılır (routing/filtering).
DOW JONES NEWS/RETRIEVAL (Dow QR) sistemi ticari bir
sistemdir. Sistem 1900 civarında haber kayna ını taramaktadır. Di er
ticari sistemlerde oldu u gibi sorgu olu turma ve e le tirme yöntemi
boole yordamıdır. Sorgu ayrıca, tarih, kategori ve konu ba lı ı, belge
kısımları ve belirli kaynaklar esasında kısıtlanabilmektedir.
TOPIC sistemi de ticari bir geri-getirim sistemidir. Sistemin
kullanıcıya sa ladı ı ey, kendi BGG sistemini kurabilmesi için geri
getirim hizmetleridir. TOPIC “içerik” olarak adlandırılan bir
hiyerar iye dayalıdır, yani sisteme indekslemesi için yüklenen belge
kümesindeki konu ba lıkları, bir hiyerar iye göre sistem tarafından
düzenlenir. Sistem, ba lıkları düzenlerken de eri 0 (sıfır) ile 1 (bir)
arasında de i en nicel bir ili ki/alaka ölçütü kullanır. Sorgu ile alakalı
bulunan sonuç kümesi belgeleri, bu hesaplanan alaka de erinin azalan
sırasında listelenir. TOPIC “gövdeleme” yordamı kullanır. Ayrıca
joker-karakter kullanımına da izin verir: “?” tek harf, “*” herhangi bir
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
371
karakter dizisi ve “[a-z]” iki kö eli parantez içine alınmı karakter
kümesi. Sorgu olu tururken, kullanıcı sorguda kullandı ı terimlere 0
(sıfır) ile 1 (bir) arasında a ırlıklar vererek, e le tirme yordamını
yönlendirebilir.
INSPEC fizik, elektrik elektronik, bilgisayar ve kontrol, bilgi
teknolojileri alanında çıkan yayınların 1969’dan bu yana toplandı ı bir
veritabanıdır. 1977 yılında seksen ülkenin faydalandı ı bir sistem
haline gelmi tir. INSPEC veritabanına Internet’ten eri mek ya da
veritabanının tamamını veya bir kısmını CDROM ortamına
kaydedilmi ekli ile almak mümkündür. u an INSPEC bünyesinde
altı milyon civarında kayıt bulunup, yılda ortalama 300.000 kayıt ilave
edilmektedir.
STAIRS sistemi IBM tarafından geli tirilmi ticari bir sistemdir.
Sayısal belge temsilinde: kelimeler ba tan belirli bir sayıda harfi
içerecek ekilde sondan kesilir. Belgeler ile terimler arasında alakaya
göre bir a ırlık de eri atanır. E -anlamlılar sözlü ü yardımı ile terimler
e anlamlıları ile de i tirilir. Sorgu hazırlama boole kurgusuna uygun
yapılır. Ancak, yakalamada vektör uzayı modelini kullanır.
MEDLARS (Medical Literature Analysis and Retrieval System),
tıbbi konulara odaklanmı bir sistemdir. MEDLARS sisteminin en
önemli özelli i MESH (Medical Subject Heading) adı verilen, tıbbi
metinlerin indekslenmesinde kullanılan terimleri ve birbiri ile anlamsal
ili kilerini içeren tıp konu ba lıkları sözlü üdür. MEDLARS
sisteminde, gelen belgelerin dizinlenmesi tıp alanında uzmanla mı ve
sistemi bilen ki ilerce yapılmaktadır. Sistemden yararlanmak isteyen
kullanıcı ihtiyaç duydu u bilgiyi elle bir kalıba i ler. MEDLARS
bünyesinde çalı an danı manlar bu bilgileri çözümleyerek ve MESH
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
372
sözlü ünü de dikkate alarak duyulan ihtiyacı sistemin öngördü ü
biçimde yeniden ifade ederler ve sonuçlar kullanıcıya çevrim-dı ı
sunulur.
GARALDI Türkiye’nin ilk ticari bilgi eri im sistemidir, TTGV
destekli bir proje niteli inde olan GARILDI (Gazete Ar ivi ve leti im
Dizgesi), Aybim Bilgisayar Tic. Lim. tarafından gerçekle tirilmi tir.
GARILDI sisteminin ilk sürümü Sabah gazetesinin Internet’teki
adresine konmu tur. u an Sabah, Cumhuriyet gazetelerini ve Aktüel,
Gezi, Para, Topsante, Cosmopolitan, Gurme, Power, Otohaber,
PcMagazin, Baazar gibi birçok derginin ar ivine eri mek mümkündür.
SMART, Cornell üniversitesinde geli tirilmi akademik amaçlı
bir sistemdir ve tüm bilgi geri-getirim sistemlerinin atası olarak bilinir
(Salton, 1971; Salton and McGill, 1983). Sistem : 1-) tamamen
otomatik indeksleme kullanır. 2-) belgelerin otomatik kümelemesini ve
küme ortaçlarının (centroids) hesabını yapar. 3-) Sorgu ve belge
arasındaki alaka hesaplamalarını yapar, alakalı belgeleri, belgelerin
sorgu ile olan alaka derecelerine göre azalan sırada listeler. 4-)
Belgeleri ve sorguları, vektör uzayında a ırlıklandırılmı vektörler
olarak temsil eder. 5-) Sistemde, kullanıcıdan geri-bildirilecek
enformasyon sorgu inceltme amaçlı olarak kullanır. SMART sistemi,
ara tırma sahasında çok yaygın bir ekilde kullanılmaktadır ve di er
geli tirilen bilgi geri-getirim sistemlerinin ba arım ölçümlerinde taban
çizgisidir.
INQUERY sistemi Massachusetts üniversitesinde geli tirilmi tir
(Callan et al, 1992). Sistem, geri-getirim yöntemi olarak olasılık
kuramını esas alan yordamlar kullanmaktadır. ARPA sponsorlu undaki
TIPSTER projesinin ilk aya ında (TREC-I)
çok büyük veri-
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
373
tabanlarının, olasılık kuramına dayalı geri-getirim yöntemlerin
denenmesi çalı malarında kullanılmı tır (Broglio et al., 1994).
Kullanılan veri-tabanının büyüklü ü yakla ık 3 gigabyte civarındadır.
INQUERY olasılık esaslı sonuç-çıkarma a ı modelini (Inference
Network) esas almaktadır. Sistemde uygulanan bu olasılık esaslı
yöntem (aslen Bayes kuramı olarak anılan sonuç çıkarma yöntemidir),
elde edilen delillerin topluca kullanımını imkanlı kılar. Daha do rusu,
INQUERY, de i ik metin temsilleri (kelimeler, kelime gurupları,
paragraflar veya elle belirlenmi anahtar kelimeler) ve aynı sorguların
farklı uyarlamalarının (do al dilde olu turulanlar veya boole esaslılar)
tutarlı bir biçimde olasılık tabanında bir yapılanma içinde
birle tirilmesini olanaklı kılmaktadır. INQUERY, dilbilimsel
özelliklerin de sınanabildi i bir sistemdir. TREC-I kapsamında
özellikle gövdeleme ve kelime guruplarının kullanımı yo un bir ekilde
sınanmı tır. Ancak geri-getirim ba arımında sa lanan geli im ya kayda
de er bir miktar olmamı ya da uygulanmasının maliyetine kar ın
yetersiz kalmı tır. Sadece kelime guruplarının sorgu inceltme için
kullanımında, umut veren bir takım geli imler sa lanabilece i
belirtilmi tir.
DR-LINK (Document Retrieval through Linguistic Knowledge)
yine TIPSTER projesi kapsamında Syracuse Üniversitesi tarafından
geli tirilmi tir (Liddy and Myaeng, 1993). DR-LINK dilbilim
kuramlarını esas alarak imdiye kadar geli tirilmi tek sistemdir. Sistem
sayısal belge temsili için di er bilinen tüm sistemlerden farklı olarak,
kelime/belge a ırlıkları ile olu turulan belge vektörü yerine,
kelimelerin “içerik” belirteçleri ile olu turulmu
vektörleri
kullanmaktadır. Ancak yapılan bu etraflı çalı manın sonuçları da
di erlerinden farklı olmamı tır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
374
TÜRDER, 1979 yılında Aydın Köksal’ın Doçentlik tezi
kapsamında Hacettepe üniversitesi Bilgisayar Mühendisli i bölümü
bünyesinde gerçekle tirilmi , vektör uzayı modelinde kısmen geribildirimli bir bilgi geri-getirim sistemidir (Köksal, 1979). TÜRDER
esas olarak tasarım boyutunda kalmı , bir kısmı gerçekle tirilmi tir.
Sistemin gerçekle tiriminde bildiri, kitap, makale, konu ma/konferans
yayınları, tez, rapor eklindeki bilimsel yayınları güvenli bir ekilde
saklamak ve etkin eri im sa lamak amaçlanmı sa da asıl amaç A.
Köksal tarafında u biçimde ifade edilmektedir:
”TÜRDER, Türkçe Belge Dizinleme ve Eri im Dizgesi, bilgi eri im
dizgesi tasarımı, geli tirim ve i letimine ili kin çok yönlü kavramsal ve
uygulamalı sorun alanlarında deneyler yapılabilmesi için gerekli
ö elerden olu an, deneysel bir bilgi eri im dizgesidir.”
(Köksal, 1979)
TÜRDER sisteminde, kelimeler sondan kesilerek indeksleme
yapılmaktadır. En yüksek ba arımın ba tan 5 harf kalacak ekilde
sondan kesme ile elde edildi i bildirilmi tir. Bu çalı ma, Türkçe’de ilk
gövdeleme giri imi olması sebebiyle dikkat çekicidir. Türkçe’de
gövdeleme ile BGG sistemlerinde geri-getirim ba arımının
arttırılaca ına deneysel bir kanıt olu turmu tur.
KMBGG sistemi (Ka garlı Mahmut Bilgi Geri-Getirim Sistemi)
Hacettepe Üniversitesi tarafından yürütülmü bir di er projedir. Aslen,
Türkçe için SMART geri-getirim sistemi üzerinde geni çaplı bir
uyarlanma çalı masıdır (Sever vd., 1997). KMBGG sistemi dilbilimsel
yöntemler olarak e -anlamlılar sözlü ü (Thesaurus) ve kelimeda arcı ına dayalı kural tabanlı gövdeleme kullanmaktadır. Ayrıca
Türkçe için, SMART üzerinde ek uyarlama çalı maları da
gerçekle tirilmi tir. Bu çalı ma, Türkçe’nin kendine has dilbilimsel
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
375
özelliklerinin BGG sahasında kullanımına ilk örnek olması açısından
büyük önem ta ımaktadır. Örne in, dilbilimsel gövdeleme i leminin
BGG cemiyetinde yaygın olan kanının aksine, geri-getirim ba arımını
arttırdı ı, ilk bu çalı mada uygulamalı olarak görülmü tür.
Sistem seviyesinde yukarıda verdiklerimizin dı ında ayrıca
TIPSTER projesi altında ve ba ka platformlarda bir çok toplantı
yapılmı ve çok de i ik çalı ma gurupları analitik diller ve orta-Avrupa
dilleri için BGG sistemlerinde hesaplamalı dilbilim kullanımı
konusunda geni ara tırmalar yürütmü lerdir. Alınan sonuçlar anlamlı
düzeylerde ba arım artırımı ortaya koyamamı tır. Dolayısı ile, BGG
cemiyeti içerisinde kanaatin de i mesine yardımcı olmamı sa da,
çalı maların incelenmesi uygulanan dilbilim yöntemlerinin hangi
dilbilim çözümleme seviyelerinde gerçekle ti inin belirlenmesine
yardımcı olacaktır.
Tanıtaca ımız çalı ma guruplarından ilki New York
üniversitesidir (Strzalkowski et al., 1995). Gurubun çalı maları
hesaplamalı dilbilim yöntemlerinin, geleneksel istatistik esaslı BGG
sistemlerinde destekleme eklinde kullanımı ile ba arımın arttırılması
yönündedir. Toplam 2 gigabyte
çözümlemesini yapmı lardır. Bunu
metnin tam söz-dizimsel
yaparken “içeri i” ta ıyan
kelimelerin tespit edilmesine ve bu kelimeler arasındaki ili kilerin
belirlenmesine u ra mı lardır. Daha sonra elde ettikleri enformasyonu
sorguların geni letilmesi ve inceltilmesi u ra larında kullanmı lardır.
Kullandıkları süreçler tamamen otomatiktir ve verilen u ra ın büyük
bir kısmını, kullanılan dil-bilimsel yöntemlerin hızlı ve verimli
çalı masına harcamı lardır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
376
kinci gurup “General Electric” firmasının ara tırma ve geli tirme
gurubudur (Jacobs, 1994). Hesaplamalı dilbilim yöntemleri ile bir
alı tırma derleminden, enformasyon özetleme u ra ı sergilemi lerdir.
Daha sonra elde edilen enformasyon, TREC çalı malarının
yönlendirme (routing) etabında elle olu turulan süzgeçler (filters) için
kullanılmı tır.
TREC içindeki di er bir gurup CLARITECH’dir (Evans and
Lefferts, 1994). Gurup CLARIT adını verdikleri istatistik esaslı bir
BGG sistemi tasarlamı tır. Tasarımın dilbilimsel yönleri, sadece kelime
gurubu olarak “isim tamlamalarını” kullanması ve otomatik bir e anlamlılar sözlü ü olu turmasıdır. Daha sonra isim tamlamaları sorgu
geni letmek için kullanılmı tır.
Dublin City Üniversitesinden bir gurupsa, belgeleri söz-dizimsel
çözümlemeden geçirerek, a aç yapısı içerisinde temsil etmi lerdir. Bu
gurubun yakla ımı ile geri-getirim sonuç kümesini olu turmak için
kullanılan e le tirme i lemi, a aç yapısında arama yapma ekline
dönü mektedir (Smeaton et al, 1995).
Siemens irketinden bir gurup da WordNet24 (Miller, 1990)
kelime a ını kullanarak sorgu geni letme çalı maları yapmı tır
(Voorhees et al., 1995).
Özellikle, Avrupa’da çok dilli bilgi geri-getirim önemli
meselelerin ba ında gelmektedir. Bu yüzden “Avrupa Birli i Ara tırma
ve Mühendislik alt programı” hesaplamalı dilbilim yöntemleri
kullanımının geli tirildi i projeleri desteklemektedir. Desteklenen
24
WordNet kelimelerin sözlük anlamları arasında ili kilerin betimlendi i bir a dır,
yani kelime-a ıdır.
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
377
çalı malar içerisinde CRISTAL, Fransızca gazetelerdeki makalelerde
çok dilli geri-getirim yapılmasını sa layan bir sistemdir. RENO benzer
ekilde yazılı Fransızca resmi belgeler üzerinde çalı an bir sistemdir.
SIMPR kelime guruplarını indekslemek için biçim-bilimsel
özelliklerden yararlanan bir di er projedir. Orta-Avrupa dillerinde
yapılan çalı maların özetleri için, Smeaton (1992) tarafından yapılan
ara tırma güzel bir saha çalı masıdır. Ayrıca özel olarak 7 (yedi) ortaAvrupa dilli için sözcük türü belirleme çalı malarının bir saha
ara tırması da Dermatas and Kokkinakis’in (1995) makalesinde
bulunmaktadır.
378
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
379
ÖZGEÇM Yazar, 1970 yılında zmir’de do mu tur. lk, orta ve lise
ö renimini Eski ehir’de tamamladıktan sonra, 1988 yılında, yüksek
ö renim görmek üzere Ankara’ya, Ortado u Teknik Üniversitesine
gitmi tir. 1994 yılında, statistik bölümünden mezun olan yazar,
Ankara’da yüksek ö reniminin son yılı da dahil olmak üzere üç yıl
boyunca özel sektörde sivil havacılık, dı ticaret ve bili im teknolojileri
sahalarında çalı mı tır. 1996 yılında, Mu la Üniversitesinde statistik
ve Bilgisayar bölümünde göreve
Üniversitesinde çalı maktadır.
ba lamı tır
ve
hala
Mu la
1996-1998 yılları arasında yüksek lisansını “Web Robotları”
konusunda, Sinan Neftçi ile Mu la Üniversitesinde tamamlayan yazar,
1998 yılında Ege Üniversitesi, Uluslararası Bilgisayar Enstitüsünde
doktora çalı masına ba lamı tır.
Mu la Üniversitesinde 1996-2001 yılları arasında, ba ta statistik
ve Bilgisayar bölümü olmak üzere, de i ik bölümlerin lisans
programlarında “Tanımlayıcı statistik”, “Matematiksel statistik”,
“Parametrik Olmayan statistik”, “Çok De i kenli statistik”, “Karar
Kuramı”, “Bilgi Teknolojileri” ve çe itli bilgisayar programlama
derslerini vermi tir.
Mu la
Üniversitesinde
çe itli
görevlerde
bulunan
yazar,
Üniversitenin bilgi teknolojilerine geçi ini sa layan “Sayısal
Üniversite” projesinin mimarı ve yazarıdır. Halen yazılım ve a teknolojileri konusunda yeti tirdi i çalı ma takımlarının yöneticili ini
sürdürmektedir.
Download