Veri temizleme

advertisement
Veri Madenciliği
Bölüm 2. Veri Önişleme
Doç. Dr. Suat Özdemir
w3.gazi.edu.tr/~suatozdemir
Veri-Nesne-Nitelik
 Veri: Nesneler ve nesnelerin
niteliklerinden oluşan küme
– Nesne terimi yerine kayıt
(record), varlık (entity), örnek
(sample, instance) kullanılabilir
Nitelik (Attributes)
 Nitelik (attribute) bir
nesnenin (object) bir
özelliğidir bir insanın yaşı,
ortamın sıcaklığı..
– Nitelik yerine boyut
(dimension), özellik (feature,
Nesne
characteristic) kullanılabilir
(Objects)
– Nitelikler ve bu niteliklere ait
değerler bir nesneyi oluşturur.
 Nesneler grubu veriyi
oluşturur
– Öğrenci kayıt listesi
Tid Refund Marital
Status
Taxable
Income Cheat
1
Yes
Single
125K
No
2
No
Married
100K
No
3
No
Single
70K
No
4
Yes
Married
120K
No
5
No
Divorced 95K
Yes
6
No
Married
No
7
Yes
Divorced 220K
No
8
No
Single
85K
Yes
9
No
Married
75K
No
10
No
Single
90K
Yes
10
VERİ
Veri Madenciliği
Doç. Dr. Suat Özdemir
60K
Ayrık ve sürekli nitelikler
 Ayrık Nitelik / Discrete Attribute
– Sonlu sayıda değerden oluşan nitelikler
• E.g., posta kodu, meslek, ya da doküman seti
içerisindeki kelimeler
– Tamsayı değerler olarak ifade edilebilir
– İkili / binary nitelikler de ayrık niteliklerin özel bir
türüdür
 Sürekli Nitelik / Continuous Attribute
– Değeri gerçek sayılar olan nitelikler
• E.g., sıcaklık, yükseklik, ya da ağırlık
– Floating-point değerler olarak ifade edilebilir
Veri Madenciliği
Doç. Dr. Suat Özdemir
Neden veri önişleme?
 Gerçek hayatta karşılaştığımız veriler genelde eksik
(missing or incomplete), hatalı (noisy), ve tutarsız
(inconsistent) olma eğilimindedir.
– Düşük kaliteli veri
 Veri kalitesini düşüren sorunlar:
–
–
–
–
–
–
–
Noise / Gürültü
Outliers / Sapan veri
Missing values / Eksik veri
Duplicate data / Tekrarlı veri
Veri iletim hataları
Teknolojik sınırlamalar
Veri isimlendirmede veya yapısında uyumsuzluk
Veri Madenciliği
Doç. Dr. Suat Özdemir
Noise / Gürültü
 Orjinal veride oluşan istenmeyen değişimlerdir
– Örnek: telefonda konuşurken sesimizin bozulması, televizyon
ekranındaki karlanma
 Anlamlandırılamayan veri
 Verinin hata ve sapan veri içermesi
İki Sinüs Dalgası
Veri Madenciliği
Doç. Dr. Suat Özdemir
İki Sinüs Dalgası + Gürültü
Outliers / Sapan veri
 Sapan veriler veri setinin geri kalan kısmından çok
farklı olan verilerdir.
Veri Madenciliği
Doç. Dr. Suat Özdemir
Missing Values / Eksik veri
 Nedenler
– Bilginin toplanamaması
• Yaşını, kilosunu ya da gelirini belirtmek istemeyen insanlar
– Uygun olmayan nitelikler
• Çocuklar için gelir niteliği uygulanamaz
 Çözümler
– Eksik verileri dikkate alma
– Eksik veriyi tahmin et (ortalama vs.)
Veri Madenciliği
Doç. Dr. Suat Özdemir
Duplicate Data / Tekrarlı veri
 Birbirinin aynısı olan veriler
– Değişik veritabanlarının birleştirilmesi sırasında ortaya
çıkar
– Birden çok eposta adresine sahip insan
 Çözüm
– Veri temizleme
Veri Madenciliği
Doç. Dr. Suat Özdemir
Neden veri önişleme?
 Düşük kaliteli veri düşük kaliteli veri madenciliği
sonuçlarına yol açar
 Veri önişleme?
– Veri madenciliği kalitesini artırmak
– Veri madenciliğini kolaylaştırmak
– Verimliliği artırmak hedeflenir
Veri Madenciliği
Doç. Dr. Suat Özdemir
http://ceng.gazi.edu.tr/~oz
Tanımlayıcı veri özetleme
 Veri önişlemenin temeli
 Veriyi daha iyi anlamak ve anlatmak
– Verinin merkezi eğilimi
• Ortalama, ortanca (median), mode
– Verinin dağılımı
• Çeyreklikler (quartiles), IQR, variance, boxplots
Veri Madenciliği
Doç. Dr. Suat Özdemir
Ortalama (Mean)
 Ortalama (mean)
– Örnekleme
– Popülasyon
1 n
x   xi
n i 1
x


N
n
– Ağırlıklı ortalama
x
w x
i 1
n
i
w
i 1
Veri Madenciliği
Doç. Dr. Suat Özdemir
i
i
Ortanca (Median)
 Veri setinde ortadaki verinin değeri
– Çift sayıda veri varsa ortadaki iki verinin ortalaması
 Gruplanmış veriler için interpolation yolu ile
bulunur
Ortanca aralıktan aşağıdaki aralıklardaki
eleman sayılarının toplamı
Yaş Frekans
5-10
120
11-15
50
16-20
160
21-25
70
26-30
200
median  L1  (
Ortanca aralığın ilk elemanı
n / 2  ( f ) l
f median
)c
Ortanca aralığın
genişliği
Ortanca aralığın
frekansı
600 / 2  (170)
median  16  (
)5  16.9
160
Veri Madenciliği
Doç. Dr. Suat Özdemir
Mod (Mode)
 Veri seti içinde en çok tekrarlanan veri
– Unimodal
– Bimodal
– Trimodal
 Deneysel (empirical) formül
mean  mode  3  (mean  median)
Veri Madenciliği
Doç. Dr. Suat Özdemir
Simetrik ve Çarpık Veri
 Ortalama, ortanca ve
mod değerleri
Veri Madenciliği
Doç. Dr. Suat Özdemir
Simetrik ve Çarpık Veri
Veri Madenciliği
Doç. Dr. Suat Özdemir
15/41
Verinin dağılımı

Quartiles, outliers and boxplots
–
Çeyrek (Quartile): Q1 (25th percentile), Q3 (75th
percentile)
–
Inter-quartile range: IQR = Q3 – Q1
–
Five number summary: min, Q1, M, Q3, max
–
Boxplot: ends of the box are the quartiles, median is
marked, whiskers, and plot outlier individually
–
Sapan veri (Outlier):
•
usually, a value higher/lower than 1.5 x IQR
Veri Madenciliği
Doç. Dr. Suat Özdemir
Verinin dağılımı: Örnek
 “2, 5, 6, 9, 12” veri seti için five-number summary aşağıdaki
gibi verilir:
–
–
–
–
–
minimum = 2
1. quartile = 3.5
median = 6
3. quartile = 10.5
maximum = 12
 IQR = 10.5 – 3.5 = 7 olduğundan sapan veri tanımı için
1.5xIQR = 10.5 olarak hesaplanır. Bu durumda sapan verileri
bulmak için
– 1. quartile – 1.5xIQR = 3.5 – 10.5 = –7
– 3. quartile + 1.5xIQR = 10.5 + 10.5 = 21
 Değerleri hesaplanır. Veri seti içinde -7 den küçük ve 21 den
büyük herhangi bir değer olmadığından bu veri seti içinde
outlier/sapan veri yoktur denilir.
Veri Madenciliği
Doç. Dr. Suat Özdemir
17/41
Verinin dağılımı

Varyans ve standart sapma (örnekleme: s,
populasyon: σ)
–
Varyans:
n
n
n
1
1
1
2
2
2
s2 
(
x

x
)

[
x

(
x
)



i
i
i ]
n  1 i 1
n  1 i 1
n i 1
1
2
 
N
n
1
2
( xi   ) 

N
i 1
n
2
x


 i
2
i 1
Standart sapma s (veya σ) varyansın kare kökü
Veri Madenciliği
Doç. Dr. Suat Özdemir
Normal dağılım eğrisinin özellikleri
 Normal dağılım eğrisi
– (μ–σ) ile (μ+σ) arasında verilerin yaklaşık %68i
bulunur (μ: ortalama, σ: standart sapma)
– (μ–2σ) ile (μ+2σ) arasında %95i
– (μ–3σ) ile (μ+3σ) arasında %99.7si
Veri Madenciliği
Doç. Dr. Suat Özdemir
Görsel tanımlayıcı veri özetleme
 Veriyi daha iyi ifade edebilmek için kullandığımız
yöntemler
–
–
–
–
–
Boxplot
Histogram, sıklık histogramı, bar chart
Eşit bölen (Quantile) grafikleri
Q-Q grafikleri
Serpme (scatter) grafikleri
Veri Madenciliği
Doç. Dr. Suat Özdemir
Boxplot analizi
 Five number summary nin grafik
olarak gösterimi
– Minimum, Q1, M, Q3, Maximum
 Boxplot
– Veri bir kutu olarak gösterilir
– Kutunun alt ve üst çizgileri 1. ve
3. çeyreklerdir
– Ortanca bir çizgi ile belirtilir
– Max ve min değerleri kutunun
dışında iki çizgi (Whiskers) ile
belirtilir
Veri Madenciliği
Doç. Dr. Suat Özdemir
Histogram analizi
 Basit istatistiksel sınıfları gösteren grafik
– Veri setindeki çeşitli sınıflara ait verilerin sayısını ya da frekansını
veren dikdörtgenlerden oluşur
Veri Madenciliği
Doç. Dr. Suat Özdemir
Quantile plot
 Kullanıcının hem normal verileri hem de aykırılıklarını
görmesini sağlar
 Quantile bilgisi verir
– Veri xi ile gösterilirse, fi değeri veri setindeki verilerin %100fi
sinin xi den küçük ya da eşit olduğunu gösterir
 Tek değişkenli analiz
Veri Madenciliği
Doç. Dr. Suat Özdemir
Quantile-Quantile plot
 Karşılaştırma yapar, eğilimi gösterir
 Çift değişkenli analiz
Q3
M
Q1
Şube 1 de satılan ürünler şube 2 de
satılanlardan daha ucuz olma eğiliminde
Veri Madenciliği
Doç. Dr. Suat Özdemir
Quantile-quantile
plotları (q-q plot) iki veri
setinin aynı dağılım
özelliğe sahip olup
olmadığını görmek için
kullanılır.
Scatter plot
 Veri içindeki sapan verileri, kümeleri gösterir
Veri Madenciliği
Doç. Dr. Suat Özdemir
Özet: Veri Dağılımının Grafiksel Olarak Gösterimi





Histogram
Boxplot
Quantile plot: each value xi is paired with fi indicating that
approximately 100 fi % of data are  xi
Quantile-quantile (q-q) plot: graphs the quantiles of one
univariant distribution against the corresponding quantiles of
another
Scatter plot: each pair of values is a pair of coordinates and
plotted as points in the plane
Veri Madenciliği
Doç. Dr. Suat Özdemir
Veri önişleme
 Veri temizleme
– Eksik veri tamamlama, hatalı verileri düzeltme, tutarsız
verileri kaldırma
 Veri bütünleştirme
– Artık verileri ortadan kaldırma, veritabanlarını birleştirme
 Veri değiştirme
– Veriyi daha anlaşılabilir bir halde ifade etme,
normalizasyon
 Veri azaltma
– Veri bütünleştirme, nitelik alt kümesi seçme, boyut
küçültme, vb.
Veri Madenciliği
Doç. Dr. Suat Özdemir
Veri önişleme
Veri Madenciliği
Doç. Dr. Suat Özdemir
Veri önişleme
 Veri temizleme
– Eksik veri tamamlama, hatalı verileri düzeltme, tutarsız
verileri kaldırma
 Veri bütünleştirme
– Artık verileri ortadan kaldırma, veritabanlarını birleştirme
 Veri değiştirme
– Veriyi daha anlaşılabilir bir halde ifade etme,
normalizasyon
 Veri azaltma
– Veri bütünleştirme, nitelik alt kümesi seçme, boyut
küçültme, vb.
Veri Madenciliği
Doç. Dr. Suat Özdemir
Veri temizleme
 Eksik veri tamamlama, hatalı verileri düzeltme,
tutarsız verileri kaldırma
 Eksik veri tamamlama (missing values)
–
–
–
–
–
Kaydı yok say
Elle doldurma
Global bir değerle doldurma
Nitelik ortalamasıyla doldurma
Eksik verinin ait olduğu grubun nitelik ortalamasıyla
doldurma
– En olası değerle doldurma (regression, Bayesian
inference)
Veri Madenciliği
Doç. Dr. Suat Özdemir
Veri temizleme
 Hatalı verileri düzeltme (gürültülü-noisy data)
–
–
–
–
–
–
hatalı veri toplama gereçleri
veri giriş problemleri
veri girişi sırasında kullanıcıların hatalı yorumları
veri iletim hataları
teknolojik sınırlamalar
veri isimlendirmede veya yapısında uyumsuzluk
 Hatalı verinin tespiti?
– Sapan veriler
– Genelde alan uzmanı bilgisi gerektirir
Veri Madenciliği
Doç. Dr. Suat Özdemir
Veri temizleme
 Çözüm yöntemleri
– Kova metodu (Binning): Veriyi düzleştirme, lokal çözüm
• Kova ortalaması ile düzleştirme
• Kova ortancası ile düzleştirme
• Kova sınırları ile düzleştirme
– Eğri uydurma (Regression)
– Demetleme (Clustering)
– İnsan-bilgisayar incelemesi
Veri Madenciliği
Doç. Dr. Suat Özdemir
Kova metodu (Binning)
 Eşit genişlik (Equal-width (distance) partitioning)
– Veri setini N eşit aralığa böler: uniform grid
– Eğer A ve B veri setindeki en büyük ve en küçük değerler
ise her bir aralığın genişliği: W = (B –A)/N.
– Basit ancak sapan verilerden etkilenir
– Çarpık (skewed) veri iyi ifade edilemez
Veri Madenciliği
Doç. Dr. Suat Özdemir
Kova metodu (Binning)
 Eşit derinlik (Equal-depth (frequency) partitioning)
– Her bir veri aralığı yaklaşık olarak aynı sayıda veri içerir
– Ölçeklenebilir
Veri Madenciliği
Doç. Dr. Suat Özdemir
Binning - Örnek
Sorted data for price (in dollars):
4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34
 Partition into equal-frequency (equi-depth) bins:
- Bin 1: 4, 8, 9, 15
- Bin 2: 21, 21, 24, 25
- Bin 3: 26, 28, 29, 34
 Smoothing by bin means:
- Bin 1: 9, 9, 9, 9
- Bin 2: 23, 23, 23, 23
- Bin 3: 29, 29, 29, 29
 Smoothing by bin boundaries:
- Bin 1: 4, 4, 4, 15
- Bin 2: 21, 21, 25, 25
- Bin 3: 26, 26, 26, 34
Veri Madenciliği
Doç. Dr. Suat Özdemir
Regresyon
Y1
y=x+1
Y1’
X1
Veri Madenciliği
Doç. Dr. Suat Özdemir
x
Demetleme / Kümeleme
Veri Madenciliği
Doç. Dr. Suat Özdemir
Veri önişleme
 Veri temizleme
– Eksik veri tamamlama, hatalı verileri düzeltme, tutarsız
verileri kaldırma
 Veri bütünleştirme
– Artık verileri ortadan kaldırma, veritabanlarını birleştirme
 Veri değiştirme
– Veriyi daha anlaşılabilir bir halde ifade etme,
normalizasyon
 Veri azaltma
– Veri bütünleştirme, nitelik alt kümesi seçme, boyut
küçültme, vb.
Veri Madenciliği
Doç. Dr. Suat Özdemir
Veri bütünleştirme
 Artık verileri ortadan kaldırma, veritabanlarını
birleştirme
– Schema bütünleştirme
• Varlık tanımlama (entity identification) problem
– Veritabanı 1 -> Cust_id
– Veritabanı 2 -> Cust_number
• Metadata kullanımı
– Her niteliği tanımla
– Artık/tekrarlı veri temizleme
• Korelasyon analizi
• Chi-square test
Veri Madenciliği
Doç. Dr. Suat Özdemir
Korelasyon Analizi
 Correlation coefficient (also called Pearson’s product
moment coefficient)
rA, B
( A  A)( B  B)  ( AB)  N AB



NAB
NAB
where n is the number of tuples, A and B are the respective
means of A and B, σA and σB are the respective standard
deviation of A and B, and Σ(AB) is the sum of the AB crossproduct.
 If rA,B > 0, A and B are positively correlated (A’s values
increase as B’s). The higher, the stronger correlation.
 rA,B = 0: independent; rA,B < 0: negatively correlated
Veri Madenciliği
Doç. Dr. Suat Özdemir
Pearson’s product moment coefficient
 rA,B değerlerinin anlamı
Correlation
Negative
Positive
None
−0.09 to 0.0
0.0 to 0.09
Small
−0.3 to −0.1
0.1 to 0.3
Medium
−0.5 to −0.3
0.3 to 0.5
Strong
−1.0 to −0.5
0.5 to 1.0
Veri Madenciliği
Doç. Dr. Suat Özdemir
Korelasyon Analizi - Örnek
Veri Madenciliği
Doç. Dr. Suat Özdemir
Chi-square Test
 Ayrık / kategorik veri için korelasyon
 Χ2 (chi-square) test
2
(
Observed

Expected
)
2  
Expected
 The larger the Χ2 value, the more likely the variables are
related
 The cells that contribute the most to the Χ2 value are those
whose actual count is very different from the expected count
 Correlation does not imply causality
– # of hospitals and # of car-theft in a city are correlated
– Both are causally linked to the third variable: population
Veri Madenciliği
Doç. Dr. Suat Özdemir
Chi-square Test - Örnek
male
female
Sum (row)
fiction
250(90)
200(360)
450
non-fiction
50(210)
1000(840)
1050
Sum(col.)
300
1200
1500
 Χ2 (chi-square) calculation (numbers in parenthesis are expected counts
calculated based on the data distribution in the two categories)
(250  90) 2 (50  210) 2 (200  360) 2 (1000  840) 2
 



 507.93
90
210
360
840
 Bu hipotezin yanlış olduğunu red etmek için
2
– Bağımsızlık derecesi = (r-1)(c-1)=(2-1)(2-1)=1 ve belli bir önem derecesi için chisquare dağılımının kritik değer tablosuna bakılır
– 0.001 önem değeri için 10.828
 10.828 < 507.93 olduğundan Cinsiyet ve okuma tercihi birbirlerinden
bağımsız değil denir (çok kuvvetli bir ilişki vardır).
Veri Madenciliği
Doç. Dr. Suat Özdemir
Kritik değer tablosu
Veri Madenciliği
Doç. Dr. Suat Özdemir
Veri önişleme
 Veri temizleme
– Eksik veri tamamlama, hatalı verileri düzeltme, tutarsız
verileri kaldırma
 Veri bütünleştirme
– Artık verileri ortadan kaldırma, veritabanlarını birleştirme
 Veri değiştirme
– Veriyi daha anlaşılabilir bir halde ifade etme,
normalizasyon
 Veri azaltma
– Veri bütünleştirme, nitelik alt kümesi seçme, boyut
küçültme, vb.
Veri Madenciliği
Doç. Dr. Suat Özdemir
Veri değiştirme
 Veriyi daha anlaşılabilir bir halde ifade etme,
normalizasyon
–
–
–
–
Düzeltme (smoothing)
Birleştirme (aggregation)
Genelleme
Normalizasyon
• Max-min normalizasyon
• Z-score normalizasyon
• Normalizasyon by decimal scaling
– Nitelik oluşturma
• En-boy -> Alan
Veri Madenciliği
Doç. Dr. Suat Özdemir
Veri değiştirme
 Min-max normalization: to [new_minA, new_maxA]
v  minA
v' 
(new _ maxA  new _ minA)  new _ minA
maxA  minA
– Ex. Let income range $12,000 to $98,000 normalized to [0.0, 1.0].
– Then $73,600 is mapped to 73,600  12,000 (1.0  0)  0  0.716
98,000  12,000
 Z-score normalization (μ: mean, σ: standard deviation): v ' 
– Ex. Let μ = 54,000, σ = 16,000. Then
v  A

73,600  54,000
 1.225
16,000
 Normalization by decimal scaling
v
v'  j
10
Veri Madenciliği
Doç. Dr. Suat Özdemir
Where j is the smallest integer such that Max(|ν’|) < 1
v’<1 olacak şekilde v’ değerini en büyük yapacak j değeri
A
Veri önişleme
 Veri temizleme
– Eksik veri tamamlama, hatalı verileri düzeltme, tutarsız
verileri kaldırma
 Veri bütünleştirme
– Artık verileri ortadan kaldırma, veritabanlarını birleştirme
 Veri değiştirme
– Veriyi daha anlaşılabilir bir halde ifade etme,
normalizasyon
 Veri azaltma
– Veri bütünleştirme, nitelik alt kümesi seçme, boyut
küçültme, vb.
Veri Madenciliği
Doç. Dr. Suat Özdemir
Veri azaltma
 Veri boyutunu düşür
 Orijinal verinin özelliklerini koru
 Boyut küçültmek için harcanan zaman veri
madenciliği yaparken kazanacağımız zamanı
geçmemelidir
 Bazı metotlar
–
–
–
–
Veri küpü birleştirme
Nitelik altkümesi seçme
Boyut azaltma
Numerosity reduction (Veriyi modellerle yada görsel
olarak ifade etme)
– Ayrıştırma ve konsept hiyerarşisi geliştirme
Veri Madenciliği
Doç. Dr. Suat Özdemir
Nitelik altkümesi seçme
 Veriye ait tüm nitelikler yapılacak iş için önemli
olmayabilir
– Alışveriş eğiliminin belirlenmesi/müşterilerin telefon
numaraları
– Tekrarlı/redundant nitelikler
 Verinin dağılım özelliğini bozmadan veriyi ifade
edebilecek en küçük nitelik altkümesinin
seçilmesi
 Sonuçta ortaya çıkan örüntü sayısı azaltılarak
veri anlaşılması daha kolay hale getirilir
 Veriyi “iyi” şekilde ifade edecek nitelik altkümesi
nasıl bulunacak?
Veri Madenciliği
Doç. Dr. Suat Özdemir
Nitelik altkümesi seçme
• “İyi” ve “kötü” nitelikler bağımsızlık testleri, karar
ağaçları gibi yöntemlerle belirlenir
• Bilgi kazancı vb.
 n nitelik için 2n altküme (exponential)
 Sezgisel (heuristic) yöntemler :
– İleri adım adım seçme (Step-wise forward selection)
• Boş küme ile başlayıp en iyi nitelikler kümeye dahil
edilir
– Geri adım adım eleme (Step-wise backward
elimination)
• Tüm nitelikler ile başlanıp, her basamakta en kötü
olan(lar) elenir
– İleri seçme ve geri elemenin birleştirilmesi
– Karar ağacı çıkarma (Decision-tree induction)
• Ağaç ortaya çıkarılır ağaç üzerinde görülmeyen
nitelikler kötü/önemsiz olarak nitelendirilir ve elenir
Veri Madenciliği
Doç. Dr. Suat Özdemir
Nitelik altkümesi seçme
Sezgisel yöntemler
Veri Madenciliği
Doç. Dr. Suat Özdemir
53/41
Boyut azaltma (Dimentionality Reduction)
 Kodlama (encoding) ve değiştirmeyle veriyi sıkıştırma
– Wavelet transforms
– Principle Component Analysis (PCA)
Veri Madenciliği
Doç. Dr. Suat Özdemir
Numerosity reduction
 Veriyi modellerle yada görsel olarak daha küçük
formlarda ifade etme
–
–
–
–
Eğri uydurma modelleri
Histogramlar
Demetleme
Örnekleme
Veri Madenciliği
Doç. Dr. Suat Özdemir
Regresyon Analizi
 Bağımlı değişken ile bir veya daha
çok bağımsız değişken arasındaki
y
Y1
ilişkiyi incelemek amacıyla kullanılan
bir analiz yöntemidir.
Y1’
y=x+1
 Regresyon analizi ile bağımlı ve
bağımsız değişkenler arasında bir
ilişki var mıdır? Eğer bir ilişki varsa
bu ilişkinin gücü nedir? Değişkenler
arasında ne tür bir ilişki vardır? gibi
sorulara cevap aranmaya çalışılır.
Veri Madenciliği
Doç. Dr. Suat Özdemir
X1
x
Histogramlar
•Equ-width/Eşit genişlik
•Equ-depth/Eşit derinlik
•V optimal
•(Barlar arasında en düşük varyans)
•Olası bütün histogramlardan barlar
arasından en düşük varyansa sahip
olanı seç
•MaxDiff
40
35
30
25
20
15
•(Veriler arasındaki en fazla fark eden 10
değer çiftleri sınırları belirler)
5
•B kova sayısı
0
•En yüksek B-1 tane farkı belirle ve
kovaları ayır
Veri Madenciliği
Doç. Dr. Suat Özdemir
10000
30000
50000
70000
90000
Demetleme / Kümeleme
 Veri setini benzerliklerine göre demetlere ayırma
 Sadece demeti ifade eden bilgiyi sakla
– Merkez ve çap
 Gruplu yapıya sahip veri setinde daha iyi sonuç verir
 Hiyeraşik demetleme yapılabilir ve indeks ağaçları olarak
ifade edilebilir
Veri Madenciliği
Doç. Dr. Suat Özdemir
Örnekleme
 Tüm veri seti N’i temsil edecek küçük veri seti s’i seçmek
 Basit metotların performansı iyi değil
 Uyarlanabilir metotlar
– Strafied örnekleme
– Belli bir kurala göre sınıfla her sınıftan eşit sayıda örnek al
Veri Madenciliği
Doç. Dr. Suat Özdemir
Örnekleme çeşitleri
 Simple random sampling
– There is an equal probability of selecting any particular
item
 Sampling without replacement
– Once an object is selected, it is removed from the
population
 Sampling with replacement
– A selected object is not removed from the population
 Stratified sampling:
– Partition the data set, and draw samples from each
partition (proportionally, i.e., approximately the same
percentage of the data)
– Used in conjunction with skewed data
Veri Madenciliği
Doç. Dr. Suat Özdemir
Sampling: With or without Replacement
Raw Data
Veri Madenciliği
Doç. Dr. Suat Özdemir
Sampling: Cluster or Stratified Sampling
Raw Data
Veri Madenciliği
Doç. Dr. Suat Özdemir
Cluster/Stratified Sample
Ayrıştırma ve konsept hiyerarşisi geliştirme
 Sayısal veri
– Binning
– Histogram analizi
Veri Madenciliği
Doç. Dr. Suat Özdemir
 Kategorik veri
– Şema seviyesinde (kullanıcılar tarafından)
• Cadde<semt<şehir<ülke
– Gruplama
• {ankara,kayseri,konya}-> içanadolu
– Anlamsal bağlantılar
• Bazen adres olarak sadece şehir bilgisi yetebilir. Cadde sokak
numara nitelikleri atılır.
Veri Madenciliği
Doç. Dr. Suat Özdemir
66/41
Download