Veri Madenciliği Bölüm 2. Veri Önişleme Doç. Dr. Suat Özdemir w3.gazi.edu.tr/~suatozdemir Veri-Nesne-Nitelik Veri: Nesneler ve nesnelerin niteliklerinden oluşan küme – Nesne terimi yerine kayıt (record), varlık (entity), örnek (sample, instance) kullanılabilir Nitelik (Attributes) Nitelik (attribute) bir nesnenin (object) bir özelliğidir bir insanın yaşı, ortamın sıcaklığı.. – Nitelik yerine boyut (dimension), özellik (feature, Nesne characteristic) kullanılabilir (Objects) – Nitelikler ve bu niteliklere ait değerler bir nesneyi oluşturur. Nesneler grubu veriyi oluşturur – Öğrenci kayıt listesi Tid Refund Marital Status Taxable Income Cheat 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes 10 VERİ Veri Madenciliği Doç. Dr. Suat Özdemir 60K Ayrık ve sürekli nitelikler Ayrık Nitelik / Discrete Attribute – Sonlu sayıda değerden oluşan nitelikler • E.g., posta kodu, meslek, ya da doküman seti içerisindeki kelimeler – Tamsayı değerler olarak ifade edilebilir – İkili / binary nitelikler de ayrık niteliklerin özel bir türüdür Sürekli Nitelik / Continuous Attribute – Değeri gerçek sayılar olan nitelikler • E.g., sıcaklık, yükseklik, ya da ağırlık – Floating-point değerler olarak ifade edilebilir Veri Madenciliği Doç. Dr. Suat Özdemir Neden veri önişleme? Gerçek hayatta karşılaştığımız veriler genelde eksik (missing or incomplete), hatalı (noisy), ve tutarsız (inconsistent) olma eğilimindedir. – Düşük kaliteli veri Veri kalitesini düşüren sorunlar: – – – – – – – Noise / Gürültü Outliers / Sapan veri Missing values / Eksik veri Duplicate data / Tekrarlı veri Veri iletim hataları Teknolojik sınırlamalar Veri isimlendirmede veya yapısında uyumsuzluk Veri Madenciliği Doç. Dr. Suat Özdemir Noise / Gürültü Orjinal veride oluşan istenmeyen değişimlerdir – Örnek: telefonda konuşurken sesimizin bozulması, televizyon ekranındaki karlanma Anlamlandırılamayan veri Verinin hata ve sapan veri içermesi İki Sinüs Dalgası Veri Madenciliği Doç. Dr. Suat Özdemir İki Sinüs Dalgası + Gürültü Outliers / Sapan veri Sapan veriler veri setinin geri kalan kısmından çok farklı olan verilerdir. Veri Madenciliği Doç. Dr. Suat Özdemir Missing Values / Eksik veri Nedenler – Bilginin toplanamaması • Yaşını, kilosunu ya da gelirini belirtmek istemeyen insanlar – Uygun olmayan nitelikler • Çocuklar için gelir niteliği uygulanamaz Çözümler – Eksik verileri dikkate alma – Eksik veriyi tahmin et (ortalama vs.) Veri Madenciliği Doç. Dr. Suat Özdemir Duplicate Data / Tekrarlı veri Birbirinin aynısı olan veriler – Değişik veritabanlarının birleştirilmesi sırasında ortaya çıkar – Birden çok eposta adresine sahip insan Çözüm – Veri temizleme Veri Madenciliği Doç. Dr. Suat Özdemir Neden veri önişleme? Düşük kaliteli veri düşük kaliteli veri madenciliği sonuçlarına yol açar Veri önişleme? – Veri madenciliği kalitesini artırmak – Veri madenciliğini kolaylaştırmak – Verimliliği artırmak hedeflenir Veri Madenciliği Doç. Dr. Suat Özdemir http://ceng.gazi.edu.tr/~oz Tanımlayıcı veri özetleme Veri önişlemenin temeli Veriyi daha iyi anlamak ve anlatmak – Verinin merkezi eğilimi • Ortalama, ortanca (median), mode – Verinin dağılımı • Çeyreklikler (quartiles), IQR, variance, boxplots Veri Madenciliği Doç. Dr. Suat Özdemir Ortalama (Mean) Ortalama (mean) – Örnekleme – Popülasyon 1 n x xi n i 1 x N n – Ağırlıklı ortalama x w x i 1 n i w i 1 Veri Madenciliği Doç. Dr. Suat Özdemir i i Ortanca (Median) Veri setinde ortadaki verinin değeri – Çift sayıda veri varsa ortadaki iki verinin ortalaması Gruplanmış veriler için interpolation yolu ile bulunur Ortanca aralıktan aşağıdaki aralıklardaki eleman sayılarının toplamı Yaş Frekans 5-10 120 11-15 50 16-20 160 21-25 70 26-30 200 median L1 ( Ortanca aralığın ilk elemanı n / 2 ( f ) l f median )c Ortanca aralığın genişliği Ortanca aralığın frekansı 600 / 2 (170) median 16 ( )5 16.9 160 Veri Madenciliği Doç. Dr. Suat Özdemir Mod (Mode) Veri seti içinde en çok tekrarlanan veri – Unimodal – Bimodal – Trimodal Deneysel (empirical) formül mean mode 3 (mean median) Veri Madenciliği Doç. Dr. Suat Özdemir Simetrik ve Çarpık Veri Ortalama, ortanca ve mod değerleri Veri Madenciliği Doç. Dr. Suat Özdemir Simetrik ve Çarpık Veri Veri Madenciliği Doç. Dr. Suat Özdemir 15/41 Verinin dağılımı Quartiles, outliers and boxplots – Çeyrek (Quartile): Q1 (25th percentile), Q3 (75th percentile) – Inter-quartile range: IQR = Q3 – Q1 – Five number summary: min, Q1, M, Q3, max – Boxplot: ends of the box are the quartiles, median is marked, whiskers, and plot outlier individually – Sapan veri (Outlier): • usually, a value higher/lower than 1.5 x IQR Veri Madenciliği Doç. Dr. Suat Özdemir Verinin dağılımı: Örnek “2, 5, 6, 9, 12” veri seti için five-number summary aşağıdaki gibi verilir: – – – – – minimum = 2 1. quartile = 3.5 median = 6 3. quartile = 10.5 maximum = 12 IQR = 10.5 – 3.5 = 7 olduğundan sapan veri tanımı için 1.5xIQR = 10.5 olarak hesaplanır. Bu durumda sapan verileri bulmak için – 1. quartile – 1.5xIQR = 3.5 – 10.5 = –7 – 3. quartile + 1.5xIQR = 10.5 + 10.5 = 21 Değerleri hesaplanır. Veri seti içinde -7 den küçük ve 21 den büyük herhangi bir değer olmadığından bu veri seti içinde outlier/sapan veri yoktur denilir. Veri Madenciliği Doç. Dr. Suat Özdemir 17/41 Verinin dağılımı Varyans ve standart sapma (örnekleme: s, populasyon: σ) – Varyans: n n n 1 1 1 2 2 2 s2 ( x x ) [ x ( x ) i i i ] n 1 i 1 n 1 i 1 n i 1 1 2 N n 1 2 ( xi ) N i 1 n 2 x i 2 i 1 Standart sapma s (veya σ) varyansın kare kökü Veri Madenciliği Doç. Dr. Suat Özdemir Normal dağılım eğrisinin özellikleri Normal dağılım eğrisi – (μ–σ) ile (μ+σ) arasında verilerin yaklaşık %68i bulunur (μ: ortalama, σ: standart sapma) – (μ–2σ) ile (μ+2σ) arasında %95i – (μ–3σ) ile (μ+3σ) arasında %99.7si Veri Madenciliği Doç. Dr. Suat Özdemir Görsel tanımlayıcı veri özetleme Veriyi daha iyi ifade edebilmek için kullandığımız yöntemler – – – – – Boxplot Histogram, sıklık histogramı, bar chart Eşit bölen (Quantile) grafikleri Q-Q grafikleri Serpme (scatter) grafikleri Veri Madenciliği Doç. Dr. Suat Özdemir Boxplot analizi Five number summary nin grafik olarak gösterimi – Minimum, Q1, M, Q3, Maximum Boxplot – Veri bir kutu olarak gösterilir – Kutunun alt ve üst çizgileri 1. ve 3. çeyreklerdir – Ortanca bir çizgi ile belirtilir – Max ve min değerleri kutunun dışında iki çizgi (Whiskers) ile belirtilir Veri Madenciliği Doç. Dr. Suat Özdemir Histogram analizi Basit istatistiksel sınıfları gösteren grafik – Veri setindeki çeşitli sınıflara ait verilerin sayısını ya da frekansını veren dikdörtgenlerden oluşur Veri Madenciliği Doç. Dr. Suat Özdemir Quantile plot Kullanıcının hem normal verileri hem de aykırılıklarını görmesini sağlar Quantile bilgisi verir – Veri xi ile gösterilirse, fi değeri veri setindeki verilerin %100fi sinin xi den küçük ya da eşit olduğunu gösterir Tek değişkenli analiz Veri Madenciliği Doç. Dr. Suat Özdemir Quantile-Quantile plot Karşılaştırma yapar, eğilimi gösterir Çift değişkenli analiz Q3 M Q1 Şube 1 de satılan ürünler şube 2 de satılanlardan daha ucuz olma eğiliminde Veri Madenciliği Doç. Dr. Suat Özdemir Quantile-quantile plotları (q-q plot) iki veri setinin aynı dağılım özelliğe sahip olup olmadığını görmek için kullanılır. Scatter plot Veri içindeki sapan verileri, kümeleri gösterir Veri Madenciliği Doç. Dr. Suat Özdemir Özet: Veri Dağılımının Grafiksel Olarak Gösterimi Histogram Boxplot Quantile plot: each value xi is paired with fi indicating that approximately 100 fi % of data are xi Quantile-quantile (q-q) plot: graphs the quantiles of one univariant distribution against the corresponding quantiles of another Scatter plot: each pair of values is a pair of coordinates and plotted as points in the plane Veri Madenciliği Doç. Dr. Suat Özdemir Veri önişleme Veri temizleme – Eksik veri tamamlama, hatalı verileri düzeltme, tutarsız verileri kaldırma Veri bütünleştirme – Artık verileri ortadan kaldırma, veritabanlarını birleştirme Veri değiştirme – Veriyi daha anlaşılabilir bir halde ifade etme, normalizasyon Veri azaltma – Veri bütünleştirme, nitelik alt kümesi seçme, boyut küçültme, vb. Veri Madenciliği Doç. Dr. Suat Özdemir Veri önişleme Veri Madenciliği Doç. Dr. Suat Özdemir Veri önişleme Veri temizleme – Eksik veri tamamlama, hatalı verileri düzeltme, tutarsız verileri kaldırma Veri bütünleştirme – Artık verileri ortadan kaldırma, veritabanlarını birleştirme Veri değiştirme – Veriyi daha anlaşılabilir bir halde ifade etme, normalizasyon Veri azaltma – Veri bütünleştirme, nitelik alt kümesi seçme, boyut küçültme, vb. Veri Madenciliği Doç. Dr. Suat Özdemir Veri temizleme Eksik veri tamamlama, hatalı verileri düzeltme, tutarsız verileri kaldırma Eksik veri tamamlama (missing values) – – – – – Kaydı yok say Elle doldurma Global bir değerle doldurma Nitelik ortalamasıyla doldurma Eksik verinin ait olduğu grubun nitelik ortalamasıyla doldurma – En olası değerle doldurma (regression, Bayesian inference) Veri Madenciliği Doç. Dr. Suat Özdemir Veri temizleme Hatalı verileri düzeltme (gürültülü-noisy data) – – – – – – hatalı veri toplama gereçleri veri giriş problemleri veri girişi sırasında kullanıcıların hatalı yorumları veri iletim hataları teknolojik sınırlamalar veri isimlendirmede veya yapısında uyumsuzluk Hatalı verinin tespiti? – Sapan veriler – Genelde alan uzmanı bilgisi gerektirir Veri Madenciliği Doç. Dr. Suat Özdemir Veri temizleme Çözüm yöntemleri – Kova metodu (Binning): Veriyi düzleştirme, lokal çözüm • Kova ortalaması ile düzleştirme • Kova ortancası ile düzleştirme • Kova sınırları ile düzleştirme – Eğri uydurma (Regression) – Demetleme (Clustering) – İnsan-bilgisayar incelemesi Veri Madenciliği Doç. Dr. Suat Özdemir Kova metodu (Binning) Eşit genişlik (Equal-width (distance) partitioning) – Veri setini N eşit aralığa böler: uniform grid – Eğer A ve B veri setindeki en büyük ve en küçük değerler ise her bir aralığın genişliği: W = (B –A)/N. – Basit ancak sapan verilerden etkilenir – Çarpık (skewed) veri iyi ifade edilemez Veri Madenciliği Doç. Dr. Suat Özdemir Kova metodu (Binning) Eşit derinlik (Equal-depth (frequency) partitioning) – Her bir veri aralığı yaklaşık olarak aynı sayıda veri içerir – Ölçeklenebilir Veri Madenciliği Doç. Dr. Suat Özdemir Binning - Örnek Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 Partition into equal-frequency (equi-depth) bins: - Bin 1: 4, 8, 9, 15 - Bin 2: 21, 21, 24, 25 - Bin 3: 26, 28, 29, 34 Smoothing by bin means: - Bin 1: 9, 9, 9, 9 - Bin 2: 23, 23, 23, 23 - Bin 3: 29, 29, 29, 29 Smoothing by bin boundaries: - Bin 1: 4, 4, 4, 15 - Bin 2: 21, 21, 25, 25 - Bin 3: 26, 26, 26, 34 Veri Madenciliği Doç. Dr. Suat Özdemir Regresyon Y1 y=x+1 Y1’ X1 Veri Madenciliği Doç. Dr. Suat Özdemir x Demetleme / Kümeleme Veri Madenciliği Doç. Dr. Suat Özdemir Veri önişleme Veri temizleme – Eksik veri tamamlama, hatalı verileri düzeltme, tutarsız verileri kaldırma Veri bütünleştirme – Artık verileri ortadan kaldırma, veritabanlarını birleştirme Veri değiştirme – Veriyi daha anlaşılabilir bir halde ifade etme, normalizasyon Veri azaltma – Veri bütünleştirme, nitelik alt kümesi seçme, boyut küçültme, vb. Veri Madenciliği Doç. Dr. Suat Özdemir Veri bütünleştirme Artık verileri ortadan kaldırma, veritabanlarını birleştirme – Schema bütünleştirme • Varlık tanımlama (entity identification) problem – Veritabanı 1 -> Cust_id – Veritabanı 2 -> Cust_number • Metadata kullanımı – Her niteliği tanımla – Artık/tekrarlı veri temizleme • Korelasyon analizi • Chi-square test Veri Madenciliği Doç. Dr. Suat Özdemir Korelasyon Analizi Correlation coefficient (also called Pearson’s product moment coefficient) rA, B ( A A)( B B) ( AB) N AB NAB NAB where n is the number of tuples, A and B are the respective means of A and B, σA and σB are the respective standard deviation of A and B, and Σ(AB) is the sum of the AB crossproduct. If rA,B > 0, A and B are positively correlated (A’s values increase as B’s). The higher, the stronger correlation. rA,B = 0: independent; rA,B < 0: negatively correlated Veri Madenciliği Doç. Dr. Suat Özdemir Pearson’s product moment coefficient rA,B değerlerinin anlamı Correlation Negative Positive None −0.09 to 0.0 0.0 to 0.09 Small −0.3 to −0.1 0.1 to 0.3 Medium −0.5 to −0.3 0.3 to 0.5 Strong −1.0 to −0.5 0.5 to 1.0 Veri Madenciliği Doç. Dr. Suat Özdemir Korelasyon Analizi - Örnek Veri Madenciliği Doç. Dr. Suat Özdemir Chi-square Test Ayrık / kategorik veri için korelasyon Χ2 (chi-square) test 2 ( Observed Expected ) 2 Expected The larger the Χ2 value, the more likely the variables are related The cells that contribute the most to the Χ2 value are those whose actual count is very different from the expected count Correlation does not imply causality – # of hospitals and # of car-theft in a city are correlated – Both are causally linked to the third variable: population Veri Madenciliği Doç. Dr. Suat Özdemir Chi-square Test - Örnek male female Sum (row) fiction 250(90) 200(360) 450 non-fiction 50(210) 1000(840) 1050 Sum(col.) 300 1200 1500 Χ2 (chi-square) calculation (numbers in parenthesis are expected counts calculated based on the data distribution in the two categories) (250 90) 2 (50 210) 2 (200 360) 2 (1000 840) 2 507.93 90 210 360 840 Bu hipotezin yanlış olduğunu red etmek için 2 – Bağımsızlık derecesi = (r-1)(c-1)=(2-1)(2-1)=1 ve belli bir önem derecesi için chisquare dağılımının kritik değer tablosuna bakılır – 0.001 önem değeri için 10.828 10.828 < 507.93 olduğundan Cinsiyet ve okuma tercihi birbirlerinden bağımsız değil denir (çok kuvvetli bir ilişki vardır). Veri Madenciliği Doç. Dr. Suat Özdemir Kritik değer tablosu Veri Madenciliği Doç. Dr. Suat Özdemir Veri önişleme Veri temizleme – Eksik veri tamamlama, hatalı verileri düzeltme, tutarsız verileri kaldırma Veri bütünleştirme – Artık verileri ortadan kaldırma, veritabanlarını birleştirme Veri değiştirme – Veriyi daha anlaşılabilir bir halde ifade etme, normalizasyon Veri azaltma – Veri bütünleştirme, nitelik alt kümesi seçme, boyut küçültme, vb. Veri Madenciliği Doç. Dr. Suat Özdemir Veri değiştirme Veriyi daha anlaşılabilir bir halde ifade etme, normalizasyon – – – – Düzeltme (smoothing) Birleştirme (aggregation) Genelleme Normalizasyon • Max-min normalizasyon • Z-score normalizasyon • Normalizasyon by decimal scaling – Nitelik oluşturma • En-boy -> Alan Veri Madenciliği Doç. Dr. Suat Özdemir Veri değiştirme Min-max normalization: to [new_minA, new_maxA] v minA v' (new _ maxA new _ minA) new _ minA maxA minA – Ex. Let income range $12,000 to $98,000 normalized to [0.0, 1.0]. – Then $73,600 is mapped to 73,600 12,000 (1.0 0) 0 0.716 98,000 12,000 Z-score normalization (μ: mean, σ: standard deviation): v ' – Ex. Let μ = 54,000, σ = 16,000. Then v A 73,600 54,000 1.225 16,000 Normalization by decimal scaling v v' j 10 Veri Madenciliği Doç. Dr. Suat Özdemir Where j is the smallest integer such that Max(|ν’|) < 1 v’<1 olacak şekilde v’ değerini en büyük yapacak j değeri A Veri önişleme Veri temizleme – Eksik veri tamamlama, hatalı verileri düzeltme, tutarsız verileri kaldırma Veri bütünleştirme – Artık verileri ortadan kaldırma, veritabanlarını birleştirme Veri değiştirme – Veriyi daha anlaşılabilir bir halde ifade etme, normalizasyon Veri azaltma – Veri bütünleştirme, nitelik alt kümesi seçme, boyut küçültme, vb. Veri Madenciliği Doç. Dr. Suat Özdemir Veri azaltma Veri boyutunu düşür Orijinal verinin özelliklerini koru Boyut küçültmek için harcanan zaman veri madenciliği yaparken kazanacağımız zamanı geçmemelidir Bazı metotlar – – – – Veri küpü birleştirme Nitelik altkümesi seçme Boyut azaltma Numerosity reduction (Veriyi modellerle yada görsel olarak ifade etme) – Ayrıştırma ve konsept hiyerarşisi geliştirme Veri Madenciliği Doç. Dr. Suat Özdemir Nitelik altkümesi seçme Veriye ait tüm nitelikler yapılacak iş için önemli olmayabilir – Alışveriş eğiliminin belirlenmesi/müşterilerin telefon numaraları – Tekrarlı/redundant nitelikler Verinin dağılım özelliğini bozmadan veriyi ifade edebilecek en küçük nitelik altkümesinin seçilmesi Sonuçta ortaya çıkan örüntü sayısı azaltılarak veri anlaşılması daha kolay hale getirilir Veriyi “iyi” şekilde ifade edecek nitelik altkümesi nasıl bulunacak? Veri Madenciliği Doç. Dr. Suat Özdemir Nitelik altkümesi seçme • “İyi” ve “kötü” nitelikler bağımsızlık testleri, karar ağaçları gibi yöntemlerle belirlenir • Bilgi kazancı vb. n nitelik için 2n altküme (exponential) Sezgisel (heuristic) yöntemler : – İleri adım adım seçme (Step-wise forward selection) • Boş küme ile başlayıp en iyi nitelikler kümeye dahil edilir – Geri adım adım eleme (Step-wise backward elimination) • Tüm nitelikler ile başlanıp, her basamakta en kötü olan(lar) elenir – İleri seçme ve geri elemenin birleştirilmesi – Karar ağacı çıkarma (Decision-tree induction) • Ağaç ortaya çıkarılır ağaç üzerinde görülmeyen nitelikler kötü/önemsiz olarak nitelendirilir ve elenir Veri Madenciliği Doç. Dr. Suat Özdemir Nitelik altkümesi seçme Sezgisel yöntemler Veri Madenciliği Doç. Dr. Suat Özdemir 53/41 Boyut azaltma (Dimentionality Reduction) Kodlama (encoding) ve değiştirmeyle veriyi sıkıştırma – Wavelet transforms – Principle Component Analysis (PCA) Veri Madenciliği Doç. Dr. Suat Özdemir Numerosity reduction Veriyi modellerle yada görsel olarak daha küçük formlarda ifade etme – – – – Eğri uydurma modelleri Histogramlar Demetleme Örnekleme Veri Madenciliği Doç. Dr. Suat Özdemir Regresyon Analizi Bağımlı değişken ile bir veya daha çok bağımsız değişken arasındaki y Y1 ilişkiyi incelemek amacıyla kullanılan bir analiz yöntemidir. Y1’ y=x+1 Regresyon analizi ile bağımlı ve bağımsız değişkenler arasında bir ilişki var mıdır? Eğer bir ilişki varsa bu ilişkinin gücü nedir? Değişkenler arasında ne tür bir ilişki vardır? gibi sorulara cevap aranmaya çalışılır. Veri Madenciliği Doç. Dr. Suat Özdemir X1 x Histogramlar •Equ-width/Eşit genişlik •Equ-depth/Eşit derinlik •V optimal •(Barlar arasında en düşük varyans) •Olası bütün histogramlardan barlar arasından en düşük varyansa sahip olanı seç •MaxDiff 40 35 30 25 20 15 •(Veriler arasındaki en fazla fark eden 10 değer çiftleri sınırları belirler) 5 •B kova sayısı 0 •En yüksek B-1 tane farkı belirle ve kovaları ayır Veri Madenciliği Doç. Dr. Suat Özdemir 10000 30000 50000 70000 90000 Demetleme / Kümeleme Veri setini benzerliklerine göre demetlere ayırma Sadece demeti ifade eden bilgiyi sakla – Merkez ve çap Gruplu yapıya sahip veri setinde daha iyi sonuç verir Hiyeraşik demetleme yapılabilir ve indeks ağaçları olarak ifade edilebilir Veri Madenciliği Doç. Dr. Suat Özdemir Örnekleme Tüm veri seti N’i temsil edecek küçük veri seti s’i seçmek Basit metotların performansı iyi değil Uyarlanabilir metotlar – Strafied örnekleme – Belli bir kurala göre sınıfla her sınıftan eşit sayıda örnek al Veri Madenciliği Doç. Dr. Suat Özdemir Örnekleme çeşitleri Simple random sampling – There is an equal probability of selecting any particular item Sampling without replacement – Once an object is selected, it is removed from the population Sampling with replacement – A selected object is not removed from the population Stratified sampling: – Partition the data set, and draw samples from each partition (proportionally, i.e., approximately the same percentage of the data) – Used in conjunction with skewed data Veri Madenciliği Doç. Dr. Suat Özdemir Sampling: With or without Replacement Raw Data Veri Madenciliği Doç. Dr. Suat Özdemir Sampling: Cluster or Stratified Sampling Raw Data Veri Madenciliği Doç. Dr. Suat Özdemir Cluster/Stratified Sample Ayrıştırma ve konsept hiyerarşisi geliştirme Sayısal veri – Binning – Histogram analizi Veri Madenciliği Doç. Dr. Suat Özdemir Kategorik veri – Şema seviyesinde (kullanıcılar tarafından) • Cadde<semt<şehir<ülke – Gruplama • {ankara,kayseri,konya}-> içanadolu – Anlamsal bağlantılar • Bazen adres olarak sadece şehir bilgisi yetebilir. Cadde sokak numara nitelikleri atılır. Veri Madenciliği Doç. Dr. Suat Özdemir 66/41