MIDDLE EAST TECHNICAL UNIVERSITY DEPARTMENT OF STATISTICS 1950-2006 Yılları Arasındaki Türkiye Yağış Verilerinin İşlenmesi ve Tanımlayıcı Veri Madenciliği İle Analizi Özgür Asar, Elçin Kartal, Sipan Aslan, Muhammed Z. Öztürk, Ceylan Yozgatlıgil, İsmail Çınar, İnci Batmaz, Vilda Purutçuoğlu, Cem İyigün, Fidan M. Fahmi, Gülser Köksal, Murat Türkeş, Hasan Tatlı METU-STAT-Technical Report-2011- 1 October, 2011 DEPARTMENT OF STATISTICS MIDDLE EAST TECHNICAL UNIVERSITY ANKARA 06531 – TURKEY TECHNICAL REPORT © Middle East Technical University 1950-2006 Yılları Arasındaki Türkiye YağışVerilerininİşlenmesi veTanımlayıcı Veri Madenciliği ile Analizi Handling and analysis of Turkish precipitation data for the period 1950-2006 using descriptive data mining techniques Özgür ASAR1*, Elçin KARTAL1, Sipan ASLAN1, Muhammed ÖZTÜRK2, Ceylan YOZGATLIGİL1, İsmail ÇINAR3, Ceyda Yazıcı1, İnci BATMAZ1, Vilda PURUTÇUOĞLU1, Cem İYİGÜN4, Fidan FAHMİ1,Gülser KÖKSAL4, Murat TÜRKEŞ2 1 İstatistik Bölümü, Orta Doğu Teknik Üniversitesi, Ankara Coğrafya Bölümü, Çanakkale Onsekiz Mart Üniversitesi, Çanakkale 3 Fethiye Ali Sıtkı Mefharet Koçman Meslek Yüksekokulu, Muğla Üniversitesi, Muğla 4 Endüstri Mühendisliği Bölümü, Orta Doğu Teknik Üniversitesi, Ankara 2 ÖZET Öz:Çeşitli amaçlarla toplanan büyük veri kümelerinin analizi öncesinde kalitesini denetlemek ve özelliklerini tanımak için ayrıntılı olarak inceleme yapılması çok önemlidir. Bu amaçla Veri Tabanlarında Bilgi Keşfi (VTBK) süreci araştırmacılara pek çok yaklaşım sunmaktadır. Verilerin işlenmesi ve Tanımlayıcı Veri Madenciliği (TVM) bu yaklaşımlardan bazılarıdır. Verilerin önişlemesi veri kalitesinin güvencesi olurken, TVM araştırmalı veri analizi yöntemleri ile sonraki analizler için hipotezlerin üretilmesini sağlamaktadır. Devlet Meteoroloji İşleri Genel Müdürlüğü (DMİGM) de ülkemizin her tarafına yayılmış olan meteoroloji istasyonlarında ölçtüğü çeşitli klimatoloji ve meteoroloji değişkenlerini sayısal ortamda araştırmacıların kullanımına sunmaktadır. ‘Yağış’ değişkeni bu parametrelerin en önemlilerinden birisidir. Bu çalışmada, DMİGM tarafından 1950-2006 yılları arasında 277 meteoroloji istasyonunda kaydedilenaylık toplam yağış verisiişlenerek, TVM ile analiz edilmiştir. Bu amaçla öncelikle 57 yıla yayılan verilerin toplanma, hazırlanma ve önişlenmesi süreçlerine değinerek, kayıp ve aykırı gözlemler incelenmiş; tanımlayıcı istatistikleri ve ilgili grafikleri sunulmuştur. Çalışmanın temel amacı klimatolojik vemeteorolojik verilerin kaydına ilişkin bazı sorunlara dikkat çekmek; başarılı bir veri önişlemenin analizlere olan katkısının önemini ortaya koymak; bizi daha sonraki araştırmalara yönlendirecek çeşitli hipotezlerin üretilmesini sağlamaktır. Sonuçlar, kayıp gözlemlerin meteorolojik verinin önemli bir sorunu olduğunu, ayrıca istatistikler ve aykırı gözlemlerin eğilimi, küresel iklim değişikliğinin Türkiye’yi de etkilediğini göstermektedir. Tüm bu belirtiler, Türkiye için yağış ve iklim bölgeleri ile klimatolojik mevsimlerin yeniden gözden geçirilmesi gerektiğini açıkça ortaya koymaktadır. Anahtar Kelimeler: Veritabanı, Bilgi keşfi, Veri önişleme, Kayıp veri, Aykırı gözlem, Meteoroloji istasyonları, Türkiye. Abstract: For voluminous datasets collected for general purposes, it is very important to carefully check the quality and to understand the features of data before conducting any analysis on them. Knowledge Discovery in Databases (KDD) process provides researchers various approaches for achieving this purpose. Data handling and Descriptive Data Mining (DDM) are two such approaches. While data handling guarantees data quality, DDM enables generating hypotheses to be analyzed with the help of exploratory data analysis methods. Turkish State Meteorological Services (TSMS) also provides researches climatological and meteorological data collected at various stations spread out the country recorded in a digital medium. ‘Precipitation’ variable is among the most important ones. In this study, monthly total precipitation data recorded by TSMS at 277 stations from 1950 to 2006 are handled and analyzed by using DDM methods. For this purpose, first, collection, preparation and preprocessing of 57 years of data are explained, and missing and outlying observations are examined. Then, descriptive statistics and related graphics are presented. The main aim of this study is to draw the attention to the problems related to the climatological and meteorological data recording. In addition, it is aimed to emphasize the importance of contribution of a successful data preprocessing for further data analysis. * İletişim yazarı: Ö. Asar, e-posta: oasar@metu.edu.tr Moreover, it is also aimed to generate hypotheses that will lead us to future studies. Results indicate that missing data is an important problem of climatological and meteorological data. Besides, statistics and the trend of extreme observations (outliers) indicate that the global climate change is most probably in effect in Turkey. All of these indicators reveal that the precipitation and climate regions as well as climatological seasons of Turkey should be reevaluated. Keywords: Database, Knowledge discovery, Data preprocessing, Missing data, Outliers, Meteorological stations, Turkey. 1.GİRİŞ Hava, herhangi bir yerde ve zamandaki atmosfer koşullarının kısa süreli durumu olarak tanımlandığında, iklim çok genel olarak bir yerdeki ortalama hava koşulları olarak tanımlanabilir(Türkeş, 2010). Öte yandan, iklim tanımının, uzun süreli ve şiddetli hava anomalilerine (sapmalara) bağlı olarak kaydedilen uç değerleri, onların istatistiksel oluşma olasılıklarını ve tüm değişkenlik özelliklerini de içermesi gerekir. Bu yüzden, bu yaklaşım dikkate alınarak, son yıllarda iklim, belirli bir alandaki hava koşullarının, atmosfer öğelerinin değişkenlikleri ve ortalama değerleri gibi uzun süreli (geleneksel olarak 30 yıl ve daha fazla) istatistikleri ile tanımlanan bireşimi olarak da tanımlanır olmuştur (örn. Tekeli vd., 2010; Türkeş, 2008a, 2008b, 2010). Bu yeni tanımda geçen ‘bireşim’ terimi, ortalama teriminden daha fazlasını içerir. Türkiye Akdeniz makroklima bölgesinde yeralmaktadır. Ülkenin güney bölgeleri 40. enlemin altında olması dolayısıyla tropik iklime yakın, kuzey kesimleri ise ılıman iklim özellikleri göstermektedir. Bunların yanısıra, Türkiye iklimi aşırı soğuk kış koşulları ile aşırı sıcak ve kuru yaz koşulları arasında çok çeşitli bölgesel ve mevsimsel değişiklikler göstermektedir (Türkeş, 2010). Ayrıca son zamanlarda küresel ısınma sonucu dünyada oluşan aşırı yağışlar nedeniyle ortaya çıkan sel baskınları, kuraklık gibi doğal felaketlerin Türkiye için de önemli bir tehdit oluşturduğu düşünülmektedir (örn. IPCC, 2007; Türkeş, 2008a, 2008b; Türkeş ve Acar Deniz, 2010). Genel atmosfer yapısını, iklimi ve iklimsel değişkenlik çeşitlerini belirleyebilmek için yağış, sıcaklık, rüzgar, nem gibi çeşitli hava ve iklim öğelerinin uzun sürelerde gözlemlenmesi gerekir (Türkeş, 2007). Ülkemizde bu işi Devlet Meteoroloji İşleri Genel Müdürlüğü (DMİGM) 1920’li yılların ortalarından beri yapmakta olup, kendisine bağlı olan meteoroloji istasyonlarında ölçtüğü çeşitli değişkenleri digital ortamda araştırmacıların kullanımına sunmaktadır.Son zamanlarda Türkiye’de yapılan iklim çalışmalarındakullanılan veri kümeleri genellikle 1970 yılı ve sonrasına ilişkin kayıtlarıiçermektedir. Bunun temel nedeni 1970 yılı öncesinde kısıtlı sayıda meteoroloji istasyonunun bulunmasıdır. Bu çalışmada ise 1950 yılından itibaren 57 yıl kayıtlanmış veriler analiz edilmektedir. Yazarların bilgisinde olduğu kadarı ile bu çalışmada en uzun kayıt süresine sahip Türkiye yağış verileri kullanılmaktadır. Ayrıca, bu, şimdiye kadar Türkiye klimatolojik ve meteorolojik verilerini ‘Veri Tabanlarında Bilgi Keşfi’ (VTBK) sürecini kullanarak inceleyen ilk çalışmadır. VTBK süreci veride gizli olan “ilginç ve daha önce keşfedilmemiş” bilgileri araştırır (Fayyad vd., 1996; Larose, 2005). Bu amaçla veri öncelikle uygun şekilde düzenlenerek, ön işlemlerden geçirilir. Bu süreç, sonraki analizlerin başarısını belirleyen önemli bir aşamadır. Veri önişlemeden sonra uygulanabilecek olan Veri Madenciliği (VM) yöntemleri ise genel olarak iki başlıkta toplanmaktadır: Tanımlayıcı Veri Madenciliği (TVM) ve tahminleyici veri madenciliği (THVM) (Dunham, 2003; Tan vd., 2006; Batmaz ve Köksal, 2010). TVM “araştırmalı veri analizi” yöntemleri (Hoaglin vd., 1983) kullanarak incelenen veri kümesinin genel özelliklerinin sunulmasını amaçlar. Özetleme, kümeleme, ilişki kuralı üretme bu yöntemlerden bazılarıdır (Giudici, 2003; Martinez ve Martinez, 2002). THVM ise mevcut veriden yararlanarak belli durumlarda ne sonuçlar alınabileceğini tahmin etmeye yönelik modellerin geliştirilmesi ile ilgilenir. VM’den elde edilen analiz sonuçlarının yorumlanması ve uygulanması ise VTBK’nın son iki önemli aşamasıdır. Bu çalışmada, DMİGM tarafından 1950-2006 yılları arasında 277 meteoroloji istasyonunda kaydedilen aylık toplam yağış verisi VTBK sürecinde tanımlı veri işleme ve TVM yöntemleri ile incelenmiştir. Bu amaçla öncelikle 57 yıllık verilerin toplanma, hazırlanma ve önişlenmesi süreçlerine değinerek, kayıp ve aykırı olanlar belirlenmiş; veriler ağırlıklı olarak çeşitli istatistiksel ve grafiksel yöntemler yardımı ile özetlenmiştir. Burada, aykırı gözlem analizinde sadece türdeş olduğu bilinen 188 istasyona ait veriler kullanılmıştır (Göktürk vd., 2008). Bu çalışmanın birkaç temel amacı bulunmaktadır. Bunlardan birincisi klimatolojik ve meteorolojik verilerin kaydına ilişkin bazı sorunlara ilgililerin dikkatini çekmek ve başarılı bir veri önişlemenin sonraki analizlere olan katkısının önemini ortaya koymaktır. Örneğin, verilerde genellikle açık olmayan istasyonlar nedeni ile uzun süreler kayıp olan gözlemlerin incelenmesi ve bunların uygun bir şekilde tamamlanmasının araştırması, sonraki analizlerin önemli bir ilk adımını içerir (Aslan vd., 2010; Yozgatlıgil vd., 2010). Çalışmanın diğer amacı ise bizi daha sonraki araştırmalara yönlendirecek olan çeşitli hipotezlerin üretilmesini sağlamaktır. Örneğin, ekstrem aykırı ya da uç gözlemlerin (aşırı az veya çok yağışların) ve bunların yıllar içindeki değişimlerinin incelenmesi, küresel iklim değişikliğinin Türkiye üzerindeki etkisinin araştırılmasına öncülük edebilecektir (Asar vd., 2011). Diğer taraftan, bilinen coğrafi bölgelere ilişkin yağış özelliklerinin incelenmesi, yağış (Türkeş ve Tatlı, 2010) ve iklim bölgelerinin değişimine ilişkin ipuçları verebilecektir(Fahmi vd., 2011). Bunların yanısıra tanımlayıcı istatistikler yardımıyla belirlenen aykırı değerler, ileriki yıllarda oluşabilecek doğal afetlerin önceden belirlenmesine yardımcı olacak erken uyarı sistemlerinin geliştirilmesine de yardımcı olabilecektir (Burlando vd., 1993; Batmaz ve Köksal, 2010). Makale dört bölümden oluşur. Bölüm 2’de VTBK süreci izlenerek Türkiye yağış verilerinin toplanması, hazırlanması ve önişlenmesi aşamaları açıklanmaktadır. 1950-2006 yılları arasında kayıtlı olan Türkiye yağış verilerinin TVM yöntemleri ile analizine ise Bölüm 3’te yer verilmektedir. Çalışmanın sonuçlarına ve gelecekte yapılması planlanan araştırmalara son bölümde değinilmiştir. 2. VERİ KÜMESİNİN TOPLANMASI VE İŞLENMESİ 2.1 Verilerin Toplanması Meteorolojik değişkenler 1920’li yılların ortalarından beri DMİGM tarafından zamanla ülkenin geneline yayılmış olan toplam 277 meteoroloji istasyonunda ölçülmektedir. Meteoroloji istasyonlarının konumları seçilirken yerleşim yerlerine yakın fakat yerleşim yeri dışında olmasına dikkat edilmiştir. Ancak bugün zamanla gelişen şehirleşme nedeni ile birçok istasyon şehir merkezi içinde kalmıştır. Bunun yanısıra bazı yerlerdeki, özellikle yüksek rakımlı bölgelerdeki, istasyon sayısı yeterli değildir. Diğer yandan otomatik meteoroloji istasyonlarının hayata geçmesi ile meteoroloji istasyonlarının ülkemizin mevcut mikrokilima özelliklerini de kaydetmek üzere kırsala yaygınlaştırılabileceği düşünülmektedir. Aynı zamanda DMİGM, meteoroloji istasyonlarında topladığı bu verileri ilgilenen araştırmacılara sayısal ortamda kayıtlı olarak sunmaktadır. 2003 yılına kadar elle yapılan bu ölçümler, 2003-2006 yılları arasında hem elle hem de otomatik olarak yapılmaya başlanmıştır. 2006 yılından sonraki veriler ise otomatik kayıttır. Bu çalışmada kayıtların elle yapıldığı 1950-2006 yıllarına ilişkin veriler kullanılmıştır. Bu bölümde DMİGM’den sağlanan verilerin Türkiye iklim özelliklerini yansıtma gücü değişik şekillerde irdelenmeye çalışılmıştır. Bu amaçla istasyonların bilinen coğrafi bölgelerde şehir merkezinde (kent) veya dışında (kır) oluşlarına göre dağılışı ve bölgelerdeki yoğunlukları hesaplanmıştır (Tablo 1). Tablo 1. İstasyonların bölgelerde kır/kent’e göre dağılışı ve yoğunlukları Bölge Karadeniz (KAD) Marmara (MAR) Ege (EGE) İç Anadolu (İÇA) Doğu Anadolu (DA) Akdeniz (AD) Güneydoğu Anadolu (GDA) Toplam Kır (%59.5) (%73.5) (%83.3) (%73.1) (%75.5) (%88.9) (%59.3) Kent 15 (%40.5) 9 (%26.5) 7 (%16.7) 14 (%26.9) 12 (%24.5) 4 (%11.1) 11 (%40.7) Yoğunluk* 37/143 (2.59) 34/67 (5.08) 42/93 (4.51) 52/163 (3.19) 49/165 (2.97) 36/122 (2.95) 27/59 (4.58) Toplam 37 (%13.3) 34 (%12.3) 42 (%15.2) 52 (%18.8) 49 (%17.7) 36 (%13.0) 27 (%9.7) 205 (%74.0) 72 (%26.0) 277/814 (3.40) 277 (%100) 22 25 35 38 37 32 16 *Yoğunluk 10,000 km2’ye düşen istasyon sayısıdır. Tablo 1’de yeralan analiz sonuçlarına göre, en çok istasyonun %18.8’lik payla İç Anadolu (İÇA) Bölgesi’nde olduğu belirlenmiştir. Bunu sırasıyla %17.7’lik payla Doğu Anadolu (DA) Bölgesi, %15.2lik payla Ege (EGE) Bölgesi, %13.3’lük payla Karadeniz (KAD) Bölgesi, %13’lük payla Akdeniz (AD) Bölgesi, %12.3’lük payla Marmara (MAR) Bölgesi ve %9.7’lik payla Güneydoğu Anadolu (GDA) Bölgesi izlemektedir. Ayrıca toplam 277 istasyonun 205 adeti (%74’ü) kır istasyonu iken, kalan 72 adeti (%26’sı) kent istasyonu olarak belirlenmiştir. En yüksek kır istasyonu oranının % 88.9’luk payla AD Bölgesi’nde, en düşük kır istasyonu oranının ise %59.3’lük pay ile GDA Bölgesi’nde olduğu görülmüştür. Buna karşılık en yüksek kent istasyonu oranının %40.7’lik payla GDA Bölgesi’nde, en düşük kent istasyonu oranının ise %11.1’lik pay ile AD Bölgesi’nde olduğu gözlenmiştir. Bunun yanısıra bölgelerdeki istasyon yoğunlukları incelendiğinde, KAD Bölgesindeki yoğunluğu 10,000 km2’ye 2.59 istasyon ile en az, MAR Bölgesindeki yoğunluğun ise 10,000 km2’ye 5.08 ile en çok olduğu görülmektedir. Türkiye genelindeki istasyon yoğunluğu ise 10,000 km2’ye 3.4 tür. İstasyonların ölçüm araçlarının bozulması, memur ve teknik eleman yokluğu vb. gibi çeşitli nedenlerle ölçüm yapamadığı durumlar olmaktadır. Böyle durumlar istasyonların açık olmamasına neden olabilmektedir. Çalışmada ayrıca açık olan istasyonlar5 üzerinden bölgeler bazında yıllara göre kır ve kent istasyonlarının dağılışı da incelenmiştir. Analizlerde GDABölgesinde açık olan kent istasyonu sayısında yıllar içinde büyük bir artış saptanırken, diğer bölgelerdesadece küçük değişiklikler gözlenmiştir. Bunun dışında genel olarak hem şehir merkezlerinde hem de kırsal bölgelerdeki açık istasyon sayısının 1960’lı yılların başı ve ortalarında önemli bir şekilde arttığı; diğer yıllarda ise bu sayıda önemli bir değişiklik olmadığı görülmüştür. 2.2 Verinin Hazırlanması DMİGM’den elde edilen verilerde meteoroloji istasyonlarında ölçülen/gözlenendeğerler elektronik ortamda kayıt tarihi (ay-yıl) ve yağış miktarı (kg/m2) olmak üzere iki sütun şeklinde “.txt” uzantılı bir doküman dosyasına kaydedilmiştir. Çalışmada öncelikle bu doküman dosyasında yeralan 1950-2006 yılları arasında 277 istasyonda kayıtlı olan veriler Excel, SAS ve JMP istatistik programları yardımıylabir araya getirilip, birbirini izleyen sütunlar şeklinde düzenlenerek yapılacak analizlere uygun bir şekle dönüştürülmüştür (yöntem için bkz. Giudici, 2003). Bunun yanısıra analizlerde zaman zaman gerekli olan istasyonların tarihçesi ve çevresine ilişkin bilgilerin yeraldığı “meta veriler” de DMİGM’den sağlanabilmektedir. Ancak meta veriler tüm sorulara yanıt verecek kapsamda olmayıp, önemli bilgi eksikleri bulunmaktadır. 5 Yılın yarısı kayıtta olan istasyon açık olarak kabul edilmiştir. Örneğin, yer değişikliği yapılan istasyonların hangi yıllarda yerlerinin değiştirildiği bilgisi ve ölçüm aletlerine ilişkin yapılan değişikliklerin bilgileri meta veride yer almamaktadır. Böyle durumlarla karşılaşıldığında istasyonlarla iletişim kurularak gerekli bilgilere ulaşılmaya çalışılmıştır. 2.3 Veri Önişleme Tüm gerçek hayat verileri gibi Türkiye klimatoloji ve meteoroloji verileri de kirli, eksik ve tutarsız olabilmektedir. VTBK sürecinin bu aşamasında amaç bu tür problemlerin çözümlenmesidir . Bu bölümde belli başlı veri önişleme yöntemleri kullanılarak veri kalitesi iyileştirilmeye çalışılmıştır (yöntmeler için bkz. Pyle, 1999; Witten, 2005). 2.3.1 Veri Temizleme Klimatoloji ve meteoroloji verilerinin temizlenmesi genellikle (varsa) hatalı kayıtların belirlenerek düzeltilmesi; ayrıca kayıp ve aykırı gözlemlerin işlenmesinden ibarettir. Bu bölümde hatalı kayıtların düzeltilmesi çalışmasına yer verilmektedir. Kayıp ve aykırı gözlemlerin işlenmesi sıra ile Bölüm 2.3.3 ve 2.3.4’te ele alınmıştır. İklim araştırmalarında en çok kullanılan iki önemli değişken yağış ve sıcaklıktır. Bu iki anahtar değişken yukarıda da ifade edildiği gibi uzun yıllardır DMİGM tarafından kayıt altına alınmaktadır. Ancak, iklim verilerinin rasgeleliği ve türdeşliği ile iklimsel veri çözümlemesi konusunda ayrıntılı çalışmaları bulunan Türkeş (örn. 1996, 1998, 1999, vb.) ve Türkeş vd. (2002) yaptıkları meteoroloji arşiv taramaları, istasyon tarihçesi bilgileri, eksik veri tamamlama ve türdeş çözümlemesi çalışmalarında, 1950’li yıllara kadar olan kayıtlarda çeşitli hatalar bulmuş ve gerekli düzeltmeler yapılarakDMİGM’ye bildirmiştir. Bu çalışmada da veriler Bölüm 2.2’de anlatıldığı gibi analizlere uygun bir şekle dönüştürüldüktensonra kalite kontrol çalışmaları yapılmıştır. Yapılan incelemeler yağış olmayan veya çok az miktarda yağış olan aylarda kayıtların boş bırakıldığınıgöstermektedir. Aynı şekilde, herhangi bir ay için gözlem yapılamamışsa veya herhangi bir nedenden dolayı gözlemin değeri kaydedilememişse, o kayıt da boş bırakılmıştır. Bu durum tüm boş bırakılan kayıtların ‘kayıp veri’ olarak değerlendirilmesine neden olmaktadır. Bu nedenle çalışmamızda boş bırakılan kayıtları ayırdedici bir inceleme yapılmıştır. Bu amaçla, ilgili istasyonda sıcaklık verilerinin de kayıtlı olup olmadığı ve çevre istasyonlardaki yağış değerleri göz önüne alınarak, yağışın olup olmadığıbelirlenmeye çalışılmış; yağışın olmadığı belirlenen yerlerde kayıtlar sıfır olarak yeniden kodlanmıştır. İlgili istasyonun sıcaklık değerlerine bakılarak, o ayda yağış olup olmamasının belirlenebilmesinin nedeni; bir istasyon için herhangi bir ayda sıcaklık değeri kayıtlı ise, o istasyon için ilgili ayda yağış değerinin de kayıtlı olması gerektiğidir. Çevre istasyonların yağış değerlerine bakılarak, o ayda yağış olup olmadığının belirlenebilmesinin nedeni ise; çevre istasyonların da ilgili aydaki gözlemleri kayıpsa, o bölgede ilgili ayda yağışın gerçekleşmemesidir. Böylelikle az yağış olan veya olmayan kayıtlar sıfır değeri ile ifade edilirken, kayıp gözlemler boş bırakılmıştır. Bu yöntem ile aylık toplam yağış veri kümesindeki toplam gözlemlerin yaklaşık olarak yüzde 18’i kayıp gözlem olmaktan çıkarılarak, veri kümesine sıfır kayıtlı değer olarak kazandırılmıştır. 2.3.2 Veri Dönüştürme Klimatolojik ve meteorolojik verilerdeki diğer önemli bir veri önişleme yöntemi de serilerin türdeşliğinin belirlenmesi ve eğer değilse türdeş hale getirilmesidir. Klimatolojik ve meteorolojik veri kümelerinde, istasyonun yer değiştirmesi, ölçüm aletlerindeki sorunlar gibi nedenlerden dolayı türdeş olmama, yani serilerin farklı dağılışlara sahip olması problemi görülebilmektedir. Bunların türdeş hale getirilebilmesi için serinin dönüştürülmesi gerekmektedir. Örneğin, Fethiye istasyonu 1962 yılında yer değiştirmiştir ve bu istasyondan elde edilen veriler türdeş değildir (Türkeş vd., 2002). Benzer şekilde Antalya istasyonu da aynı yılda yer değiştirmiştir ve bu istasyondan elde edilen veriler de türdeş değildir (Türkeş, 1999; Türkeş vd. 2002). Göktürk vd. (2008) yaptıkları bir araştırmada, 277 istasyonda kaydedilen Türkiye yağış verilerinin 188’inin türdeş olduğunu belirlemişlerdir (Ünal vd., 2003). Ancak burada türdeşlik incelemesi bir başka çalışmaya bırakılmış (Yazıcı vd., 2011), gerektiğinde yukarıda da belirtilen önceki çalışmalardan türdeş olduğu bilinen 188 istasyon verileri incelemeye alınmıştır. 2.3.3 Kayıp Gözlem Analizi Klimatolojik ve meteorolojik verilerin ölçümü, saklanması ve analizi süreçlerinde gerek teçhizat kayıpları, gerekse çeşitli nedenlerden dolayı açık olmayan istasyonlar yüzünden ortaya çıkankayıp gözlemler büyük bir sorun yaratmaktadır. Bu veriler ile yapılan çalışmalardakayıp gözlemlerin tamamlanması için kullanılan en yaygın yöntem “basit ortalama ile yerine koyma” yöntemidir (Aslan vd., 2010). Bu yöntem ile hazırlanan veri kümelerinde, kayıp olan gözlem kayıtlı olduğu ayın bir yıl önceki ve sonraki aylarına ilişkin gözlemlerin ortalaması ile tamamlanmaktadır. Ancak basit ortalama yöntemi, hem istasyonun kendi içindeki gözlemlerinden yararlanarak tamamlanmasından, hem de bir önceki ve bir sonraki yıllarda da kayıp gözlemlerin bulunabilme olasılığından dolayı güvenilir olmayıp,serilerin tüm uzunluklarından yararlanılmasına olanak tanımaması nedeni ile de başarılı sonuçlar vermemektedir. Araştırmalar, kayıp gözlemlerin Beklenti MaksimizasyonuMarkov Zincirleri Monte Carlo (BM-MZMC) yöntemi ile tamamlanmasının daha başarılı sonuçlar verdiğini göstermektedir (Aslan vd., 2010; Yozgatlıgil vd., 2010). Bu çalışmada Türkiye aylık toplam yağış veri kümesindeki 277 istasyona ilişkin 1950-2006 yılları arasındakikayıp gözlemlerin istasyonlara, yıllara ve bölgelere göre dağılışları incelenmiştir.İstasyon bazında kayıp gözlemlerin dağılışına bakıldığında, bazı istasyonlarda hiç kayıp gözlemin bulunmadığı (örnek olarak 17034-Trabzon Merkez İstasyonu, 17045Artvin İstasyonu), bazı istasyonlarda gözlemlenmesi gereken gözlemlerin yaklaşık yarısının (örneğin, 17111-Bozcaada İstasyonu- %48.5); bazı istasyonlarda ise hemen hemen tamamının (örneğin,17118-Yenişehir-Balıkesir İstasyonu-%95) kayıp olduğu gözlenmiştir. Kayıp gözlemlerin Türkiye genelinde (277 istasyon) yıllara göre dağılışı incelendiğinde (Şekil 1) ise bu oranların 1950-1958 yılları arasında%50’nin üzerindeyken, 1959-2006 yılları arasında %50’nin ve 1980’li yıllardan sonra ise %10’un altına düştüğü görülür. Kayıp gözlemlerin bölgeler bazında yıllara göre dağılışı da Türkiye genelindeki yapıya benzerlik göstermektedir. Son olarak kayıp gözlemlerin bölgelere göre dağılışları incelendiğinde ise (Şekil 2), en çok kayıp gözlemin yaklaşık %22’lik payla GDA Bölgesi’nde bulunduğu, en az kayıp gözlemin yaklaşık olarak %10’luk payla KAD Bölgesi’nde olduğu anlaşılmıştır. Kayıp gozlemlerin yıllara gore degisimi (Turkiye Genelinde) 80 70 kayıp gözlem yüzdesi (%) 60 50 40 30 20 10 0 1950 1960 1970 1980 yıllar 1990 2000 2010 Şekil 1. Kayıp gözlemlerin yıllara göre değişimi-Türkiye geneli Kayıp gozlem yuzdelerinin bolgelere gore dagilimi 25 GDA kayip deger yüzdesi (%) 20 AD EGE 15 DA 10 ICA MAR 5 KD 0 1 2 3 4 Bolgeler 5 6 7 Şekil 2. Kayıp gözlem yüzdelerinin bölgelere göre dağılımı 2.3.4 Aykırı Gözlem Analizi Veri analizinden elde edilen,çeyreklerden yeterince uzak olan değerler “aykırı gözlem” olarak tanımlanmaktadır (Hoaglin vd., 1983). Buna bağlı olarak aykırı gözlem sınırları aşağıdaki şekilde hesaplanabilir. Alt aykırı gözlem sınırı: Q0.25-3 (ÇAA) Üst aykırı gözlem sınırı: Q0.75+3(ÇAA) (1) Çeyrekler Arası Açıklık (ÇAA)= Q0.75-Q0.25 Burada Q0.25ve Q0.75, sıra ile alt ve üst çeyrekleri gösterir. Çeyrekler Arası Açıklık (ÇAA) ise üst ve alt çeyrek arasındaki farktır. Aykırı gözlemlerin belirlenmesinde deBölüm 3’te yeralan tanımlayıcı istatistik analizinde olduğu gibi her istasyon için oluşturulan aylık seriler kullanılmıştır. Bu amaçla sadece türdeş olduğu bilinen 188 istasyon için aylık seriler üzerinden aykırı gözlem belirlemesi yapıldıktan sonra, elde edilen aykırı gözlemler için bütün aylarda, yıllara göre, her ay için inceleme yapılmıştır. Burada aykırı gözlem aşırı az veya çok yağış verisini ifade etmektedir. Aykırı gözlem sayılarının aylara göre dağılışına bakıldığında en çok aykırı gözlemin Nisan, Temmuz, Ağustos ve Eylül aylarında olduğu görülmüştür. Ayrıca aykırı gözlem sayılarının aylara ve yıllara göre dağılışları incelendiğinde, yıllara göre artan bir eğilim içerdiği belirlenmiştir. Bu eğilimi yakalayabilmek için, aykırı gözlem sayılarının yıllara göre dağılışı üzerinden zaman serisi analizi yapılmıştır (Şekil 3). KPSS durağanlık testi (Kwiatkowski vd., 1992) uygulandığında verinin durağan olmayıp, stokastik eğilimi olduğu belirlenmiştir (pdeğeri=0.01). 1950-2006 yılları arasında elde edilen aykırı gözlem sayılarının yıllara göre dağılışı incelendiğinde, 1950-1958 yılları arasında, 1959-2006 süresine nazaran daha az sayıda aykırı gözlem olduğu belirlenmiştir. Bu durumun, 1950-1958 yılları arasındaki açık istasyon sayısının, sonraki yıllara oranla çok az sayıda olması ve bu zaman dilimindeki kayıp gözlem yüzdelerinin sonraki zaman dilimlerine oranla yüksek olmasından kaynaklandığı düşünülmektedir. Şekil 3. Aykırı gözlem sayılarının yıllara göre değişimi 3. VERİLERİN TANIMLAYICI VERİ MADENCİLİĞİ İLE ANALİZİ Yukarıda da belirtildiği gibi veri kümesinin özelliklerinin tanınması, veri girişi sürecinde olası hataların belirlenmesi, sonraki istatistiksel analizlerin güvenilirliği açısından verinin tanımlayıcı analizlerinin yapılması çok önemlidir (Munich Re, 2002). Bir istasyona ait verilerin bütün olarak ele alınıp, yağış verisi üzerinden tanımlayıcı istatistiksel analizler yapmak yerine, her istasyon için aylık 12 seri oluşturulup, aylık bazda tanımlayıcı istatistikleri incelemek, serilerdeki özellikleridaha gerçekçi olarak belirlemek açısından önemlidir. Bu değerlendirmeden yola çıkarak, Türkiye genelindeki 277 istasyon için aylık seriler oluşturulmuştur. Daha sonra bu seriler üzerinden bölgelere, kır/kent istasyonu oluşuna, istasyonlara ve aylara göreminimum ve maksimum değerler, ortalama, standart sapma, çeyrekler ve ÇAA değerleri gibi çeşitli istatistikler hesaplanmıştır. Bölgelere göre analiz sonuçları incelendiğinde (Tablo 2), en fazla ortalama yağışın 70.3kg/m2 ile KAD Bölgesi’ne, en az ortalama aylık toplam yağışın ise 34.8kg/m2 ile GDA Bölgesi’ne düştüğü gözlenmiştir. Aylık toplam yağış miktarı 71.61 kg/m2 standart sapma ve 70.20 kg/m2 ÇAA ile DA Bölgesi’nde en büyük yayılımı gösterirken; ÇAA’ya göre KAD, MAR, EGE, DA ve GDA Bölgeleri benzer yayılıma sahiptir. Ortalama yağış ve medyan değerlerine bakıldığında serilerin çoğunlukla sağa çarpık oldukları gözlemlenmektedir. Başka bir deyişle, bu bölgelerde kendi medyan değerine göre en yüksek yağış miktarları düşük yağış miktarlarından daha az sıklıkla gözlenmektedir. Ayrıca EGE Bölgesi’ndeki yağışların daha homojen bir yapıya sahip olduğu söylenebilir. Tablo 2. Coğrafi bölgelere göre ortalama yağış tutarına ilişkin istatistikler Bölge KA MAR İÇA DA EGE AD GDA Ortalama Yağış (kg/m2) Standard Sapma (kg/m2) Q0.25 (kg/m2) Medyan (kg/m2) Q0.75 (kg/m2) Maksimum (kg/m2) ÇAA (kg/m2) 70.30 63.70 57.80 52.10 48.40 47.80 34.80 54.06 57.30 62.75 71.61 53.92 62.21 56.18 7.90 19.10 16.10 13.70 8.90 13.90 13.80 30.30 42.70 43.10 42.10 33.00 34.90 37.70 63.70 75.20 81.50 83.90 63.60 69.25 70.90 645.20 557.20 579.70 634.50 638.90 669.20 797.80 55.80 56.08 65.40 70.20 54.70 55.35 57.10 Diğer yandan kırsal bölgelere düşen ortalama aylık toplam yağış miktarı 52.5 kg/m2 ve kent merkezlerine düşen ortalama aylık toplam yağış miktarının da 51.9kg/m2 dir. Buna ek olarak aylık toplam yağış miktarı istasyon bazında incelendiğinde en fazla yağışın Trabzon-Hopa istasyonuna Kasım ayında düştüğü görülmektedir (ortalama 309.5 kg/m2). En düşük yağış miktarına ise Diyarbakır-Nüsaybin istasyonunda Ağustos ayında rastlanmıştır (0.032 kg/m2). En çok değişkenlik ise Antalya Merkez istasyonunda gözlenmiştir (161.6kg/m2). Diğer yandan aylık bazda ortalama yağış miktarları incelendiğinde Türkiye genelinde en çok ortalama yağışın Aralık ayında (90.95 kg/m2), en az ortalama yağışın ise Ağustos ayında (15.04 kg/m2) düştüğü görülmektedir (Tablo 3). Aylara göre ortalama yağış ve medyan değerleri karşılaştırıldığında yine sağa çarpık bir dağılım yapısı görülmektedir. En fazla sapma Aralık ayında gözlenirken en az sapma Temmuz ve Ağustos ayında gözlenmiştir. Ağustos ve Temmuz aylarında yağışların olmaması nedeniyle ilk çeyrek değerleri de sıfırdır. En fazla maksimum yağış Kasım ayında gözlemlenmiştir. Bu nedenle Kasım ayı sellere daha sık rastalanabilinecek bir ay olarak düşünülebilir. Tablo 3. Aylara göre ortalama yağış miktarına (kg/m2 cinsinden) ilişkin istatistikler Ay Ortalama Yağış (kg/m2) Standard Sapma (kg/m2) Q0.25 (kg/m2) Medyan (kg/m2) Q0.75 (kg/m2) Maksimum (kg/m2) ÇAA (kg/m2) Ocak Şubat Mart Nisan Mayıs Haziran Temmuz Ağustos Eylül Ekim Kasım Aralık 81.36 70.09 65.68 60.29 48.86 29.93 15.60 15.04 23.80 53.87 72.72 90.95 76.09 56.96 47.45 39.94 38.44 32.87 28.87 36.48 41.82 57.04 64.90 81.06 30.70 30.80 31.90 31.80 22.00 6.00 0.00 0.00 1.20 17.70 28.60 37.70 60.10 54.00 54.10 52.00 41.50 21.30 4.90 2.60 9.50 38.30 55.60 64.90 110.10 93.70 87.20 78.70 67.25 43.90 19.70 15.90 29.10 70.85 97.35 123.40 797.80 624.60 398.80 395.60 669.20 363.30 397.90 638.90 456.00 560.80 907.20 704.70 79.40 62.90 55.30 46.88 45.25 37.90 19.70 15.90 27.90 53.13 68.75 85.70 4. SONUÇLAR, ÖNERİLER VE SONRAKİ ÇALIŞMALAR Bilgisayarlı kayıt sistemlerinin yaygın olarak yaşamımıza girmesinden sonra çeşitli alanlarda veriler kolayca toplanmaya başlamıştır. Belirli bir analize yönelik olmadan ve planlanmadan toplanan bu veri kümeleri genellikle kirli, eksik, hatalı ve gereksiz veriler içerebilir. Bu tür veri kümelerinin yapılacak analizler öncesinde kalitesinin denetlenmesi ve veri özelliklerinin incelenerek, sonraki analizler için olası hipotezlerin türetilmesi gerekmektedir. VTBK süreci bu amaçla araştırmacılara kullanışlı araçlar içeren yöntemler sunmaktadır. Verilerin hazırlanması, işlenmesi ve TVM bunlardan birkaçıdır. Dünyadaki yaşamın geleceğini görebilmek ve olası değişikliklere karşı alınacak önlemleri belirleyebilmek amacı ile klimatolojik ve meteorolojik verilerin sağlıklı bir şekilde tutulması gerekmektedir. Ülkemizde de DMİGM ülke geneline yayılmış olan meteoroloji istasyonlarında ölçtüğü çeşitli meteoroloji değişkenlerini sayısal ortamda araştırmacıların kullanımına sunmaktadır. Yağış bu değişkenlerin en önemlilerinden birisidir. Bu çalışmada, DMİGM tarafından 1950-2006 yılları arasında 277 meteoroloji istasyonunda kaydedilen aylık toplam yağış verisi işlenerek, TVM yöntemleri ile analiz edilmiştir. Bu amaçla öncelikle 57 yıla yayılan verilerin toplanma, hazırlanma ve önişlenmesi süreçlerine değinerek, kayıp ve aykırı gözlemler incelenmiş; tanımlayıcı istatistikleri ve ilgili grafikleri sunulmuştur. Aykırı gözlem analizlerinde ise sadece türdeş olduğu bilinen 188 istasyon verisi kullanılmıştır. Çalışma sonuçları DMİGM tarafından toplanan ve kayıtlanan klimatolojik ve meteorolojik verilerde çeşitli sorunların varlığını gösterir. Öncelikle toplandığı şekli ile verilerde eksiklikler vardır. Örneğin, yüksek rakımlı yerlerde bulunan istasyon sayısı ve mevcut şekli ile metaveriler coğrafi temsiliyet bakımından oldukça yetersizdir. Bu nedenle, verilerin toplandığı meteoroloji istasyonların coğrafi açıdan dengeli bir şekilde ülke geneline yayılması ve ayrıca verilerin kalitesini denetlemeye yardımcı olacak metaverilerin de sağlıklı bir şekilde tutulması sağlanmalıdır. Belge olarak kayıtlanan klimatolojik ve meteorolojik veriler, üzerinde çalışılmadan önce istatistik analizlere daha uygun olan bilgisayar ortamlarına taşınmalıdır. Bunun yanısıra tutarsız, hatalı ve eksik verilerin veri önişleme yöntemleri ile saptanması ve düzeltilmesi de gerekir. Bu aşamada kayıp gözlemler “ortalama ile tamamlama” yerine BM-MZMC gibi uygun bir yöntemle tamamlanmalıdır. Ayrıca zaman dizilerinin türdeş olup olmadığı incelenmeli, türdeş olmayanlar türdeş hale getirilmelidir. Bunların dışında çalışma sonuçları bazı konuların daha ayrıntılı olarak incelenmesi gerektiğini ortaya koymuştur. Öncelikle, sağlıklı iklim araştırmaları için Türkiye yağış değişkeni üzerinde yapılan bu çalışma diğer tüm klimatolojik ve meteorolojik verilere de uygulanmalıdır. Diğer yandan analizler aylık toplam yağış miktarında yıllar içerisinde bir artış olduğunu göstermektedir. Bu hipoteze dayanarak, Türkiye’de mevsimlerin, yağış ve iklim bölgelerinin değişip değişmediği araştırması da yapılmalıdır. 5. TEŞEKKÜR Bu çalışma Orta Doğu Teknik Üniversitesi tarafından BAP-2008-01-09-02 projesi olarak desteklenmiştir. Katkılarından dolayı tüm NINLIL proje grubu elemanlarına (http://www.stat.metu.edu.tr/research-projects/ninlil/proje-ekibi) teşekkür ederiz. 6. KAYNAKLAR Asar, Ö., Yozgatlıgil, C., Kartal E., Batmaz İ., 2011. Analysis of extreme precipitation events in Turkey. 7th International Statistical Congress. April 28 - May 1, 2011, Antalya, Turkey. 164-165. Aslan, S., Yozgatligil, C., İyigün, C., Batmaz, İ., Türkeş, M., Tatlı, H., 2010. Comparison of missing value imputation methods for Turkish monthly total precipitation data. 9th International Conference of Computer Data Analysis and Modeling: Complex Stochastic Data and Systems. September, 7-11, 2010, Minsk, Belarus. 2, 137-140. Batmaz İ.,Köksal, G., 2011. Overview of Knowledge Discovery in DatabasesProcess and Data Mining for Surveillance Technologies and Early Warning Systems.Surveillance Technologies and Early Warning Systems: Data Mining Applications for Risk Detection. A. S. Koyuncugil and N. Özgülbaş(Eds.).Hershey, PA: IGI Global Publisher. 1-30. Burlando, P., Rosso R., Cadavid, L.G., Salas, J.D.,1993. Forecasting of short-term rainfall using ARMA models. Journal of Hydrology, 144, 193-211. Dunham, M.H., 2003. Data Mining Introductory and Advanced Topics. New Jersey: PrenticeHall/Pearson Education. Fahmi, F., Kartal, E., İyigün, C., Türkeş, M., Yozgatlıgil, C., Purutcuoğlu, V., Batmaz, İ., Köksal, G., 2011. Determining the Climate Zones of Turkey by Center-Based Clustering Methods. In Nonlinear Dynamics of Complex Systems: Applications in Physical, Biological and Financial Systems. J.A. Tenreiro Machado, Baleanu, D. ve A. Luo (Editörler). Berlin: Springer (Baskıda). Fayyad, U., Piatetsky-Shapiro, G., Smyth, P., 1996. The KDD Process for extracting useful knowledge from volumes of data. Communication of ACM, 39(11), 27-34. Giudici, P., 2003. Applied Data Mining: Statistical Methods for Business and Industry. New York: J. Wiley. Göktürk, O.M., Bozkurt, D., Şen, Ö.L., Karaca, M., 2008. Quality control and homogeneity of Turkish precipitation data.Hydrological Processes, 22, 3210-3218. Hoaglin, D.C., Mosteller, F., Tukey, J.W., 1983.Understanding robust and exploratory data analysis. New York: Wiley and Sons. IPCC(Intergovernmental Panel on Climate Change), 2007. Climate Change 2007: The Physical Science Basis. Contribution of Working Group III to Third Assessment Report of IPCC, S.Solomvd. (Eds.). Cambridge: Cambridge University Press. Kwiatkowski, D. P., Phillips, C. B., Schmidt, P., Shin, Y., 1992. Testing the null hypothesis of stationary against the alternative of a unit root, Journal of Econometrics, 54, 159-178. Larose, D.T., 2005. Discovering Knowledge in Data. New Jersey: Wiley and Sons. Munich Re (Munich Reinsurance Company), 2002. Major Natural Catastrophes, 1950-2001. Population and Development Review, 1 (28), 171-174. Martinez, W.L., Martinez, A.R., 2002. Computational Statistics Handbook with MATLAB.Boca Raton: Chapman and Hall. Tan, P.N., Steinbach, M., Kumar, V., 2006. Introduction to Data Mining.New York: Pearson Education. Tekeli, İ., Algan, N., Türkeş, M., Vaizoğlu, S. A., Güler, Ç., Tekbaş, Ö. F., Albay, T. A., Dündar, A. K., Arıkan, Y., Saygılı, A., Yerli, S., Çobanoğlu, Z., 2010. Türkiye Açısından Dünyada İklim Değişikliği. Birinci Basım, Türkiye Bilimler Akademisi (TÜBA) Raporları Dizisi, Sayı 22, Yayın Yönetmeni: Filiz Çiçek Bil, Yeni Reform Matbaacılık, ISBN: 9789944-252-42-3, 330 sayfa, Ankara. Türkeş, M., 1996. Spatial and temporal analysis of annual rainfall variations in Turkey. International Journal of Climatology, 16, 1057-1076. Türkeş, M., 1998. Influence on geopotential heights, cyclone frequency and Southern Oscillation on rainfall variations in Turkey. International Journal of Climatology, 18, 649680. Türkeş, M., 1999. Vulnerability of Turkey to desertification with respect to precipitation and ariditiy conditions. Turkish Journal of Engineering and Environmental Science, 23, 363-380. Türkeş, M., 2008a. Gözlenen iklim değişiklikleri ve kuraklık: Nedenleri ve geleceği. Toplum ve Hekim, 23, 97-107. Türkeş, M., 2008b. İklim değişikliği ve küresel ısınma olgusu: Bilimsel değerlendirme. Küresel Isınma ve Kyoto Protokolü: İklim Değişikliğinin Bilimsel, Ekonomik ve Politik Analizi. Yayına Hazırlayan: E. Karakaya, 21-57. Bağlam Yayınları No. 308, Bağlam Yayıncılık, İstanbul. Türkeş, M., 2010. Klimatoloji ve Meteoroloji. Birinci Baskı, Kriter Yayınevi – Yayın No. 63, Fiziki Coğrafya No. 1, ISBN: 978-605-5863-39-6, 650 + XXII sayfa, İstanbul. Türkeş, M., Acar Deniz, Z., 2010. Klimatolojik/meteorlojik ve hidrolojik afetler ve sigortacılık sektörü. Uluslararası İnsan Bilimleri Dergisi, 7, 996-1020. Türkeş, M., Tatlı, H., 2011. Use of the spectral clustering to determine coherent precipitation regions in Turkey for the period 1929-2007. International Journal of Climatology(DOI: 10. 1002/joc.2212). Türkeş, M., Sümer, U.M., 2002. Re-evaluation of trends and changes in mean, maximum and minimum temperatures of Turkey for the period of 1929-1999. International Journal of Climatology, 22, 947-977. Türkeş, M., Koç, T., Sarış, F., 2007. Türkiye’nin yağış toplamı ve yoğunluğu dizilerindeki değişikliklerin ve eğilimlerin zamansal ve alansal çözümlemesi.Coğrafi Bilimler Dergisi, 5, 57-74. Yazıcı, C., Purutçuoğlu V., Yozgatlıgil, C., Bayramoğlu K., İyigün, C., Batmaz İ. 2011. Homogeneity analysis of Turkish climate data. 7th International Statistical Congress. April 28- May 1, 2011, Antalya, Turkey. Yozgatlıgil, C., Aslan, S., İyigün, C., Batmaz, İ., Türkeş, M., Tatlı, H., 2010.Zaman serilerinde kayıp veri tamamlama yöntemlerinin karşılaştırılması: Türkiyeiklim verileri üzerine bir uygulama. YAEM’2010: Yöneylem Araştırması ve Endüstri Mühendisliği 30. Ulusal Kongresi. İstanbul, Türkiye. 30 Haziran-2 Temmuz.127. Pyle, D.,1999. Data Preparation for Data Mining. San Francisco, CA: Morgan Kaufmann Publishers. Ünal, Y., Kıdnap, T., Karaca, M., 2003. Redefining the climatic zones of Turkey using cluster analysis. International Journal of Climatology, 23, 1045-1055. Witten, I.H., 2005. Data Mining: Practical Machine Learning Tools and Techniques. Boston, MA: Morgan Kaufman.