Veri Madenciliği
Bölüm 2. Veri Önişleme
Doç. Dr. Suat Özdemir
w3.gazi.edu.tr/~suatozdemir
Veri-Nesne-Nitelik
Veri: Nesneler ve nesnelerin
niteliklerinden oluşan küme
– Nesne terimi yerine kayıt
(record), varlık (entity), örnek
(sample, instance) kullanılabilir
Nitelik (Attributes)
Nitelik (attribute) bir
nesnenin (object) bir
özelliğidir bir insanın yaşı,
ortamın sıcaklığı..
– Nitelik yerine boyut
(dimension), özellik (feature,
Nesne
characteristic) kullanılabilir
(Objects)
– Nitelikler ve bu niteliklere ait
değerler bir nesneyi oluşturur.
Nesneler grubu veriyi
oluşturur
– Öğrenci kayıt listesi
Tid Refund Marital
Status
Taxable
Income Cheat
1
Yes
Single
125K
No
2
No
Married
100K
No
3
No
Single
70K
No
4
Yes
Married
120K
No
5
No
Divorced 95K
Yes
6
No
Married
No
7
Yes
Divorced 220K
No
8
No
Single
85K
Yes
9
No
Married
75K
No
10
No
Single
90K
Yes
10
VERİ
Veri Madenciliği
Doç. Dr. Suat Özdemir
60K
Ayrık ve sürekli nitelikler
Ayrık Nitelik / Discrete Attribute
– Sonlu sayıda değerden oluşan nitelikler
• E.g., posta kodu, meslek, ya da doküman seti
içerisindeki kelimeler
– Tamsayı değerler olarak ifade edilebilir
– İkili / binary nitelikler de ayrık niteliklerin özel bir
türüdür
Sürekli Nitelik / Continuous Attribute
– Değeri gerçek sayılar olan nitelikler
• E.g., sıcaklık, yükseklik, ya da ağırlık
– Floating-point değerler olarak ifade edilebilir
Veri Madenciliği
Doç. Dr. Suat Özdemir
Neden veri önişleme?
Gerçek hayatta karşılaştığımız veriler genelde eksik
(missing or incomplete), hatalı (noisy), ve tutarsız
(inconsistent) olma eğilimindedir.
– Düşük kaliteli veri
Veri kalitesini düşüren sorunlar:
–
–
–
–
–
–
–
Noise / Gürültü
Outliers / Sapan veri
Missing values / Eksik veri
Duplicate data / Tekrarlı veri
Veri iletim hataları
Teknolojik sınırlamalar
Veri isimlendirmede veya yapısında uyumsuzluk
Veri Madenciliği
Doç. Dr. Suat Özdemir
Noise / Gürültü
Orjinal veride oluşan istenmeyen değişimlerdir
– Örnek: telefonda konuşurken sesimizin bozulması, televizyon
ekranındaki karlanma
Anlamlandırılamayan veri
Verinin hata ve sapan veri içermesi
İki Sinüs Dalgası
Veri Madenciliği
Doç. Dr. Suat Özdemir
İki Sinüs Dalgası + Gürültü
Outliers / Sapan veri
Sapan veriler veri setinin geri kalan kısmından çok
farklı olan verilerdir.
Veri Madenciliği
Doç. Dr. Suat Özdemir
Missing Values / Eksik veri
Nedenler
– Bilginin toplanamaması
• Yaşını, kilosunu ya da gelirini belirtmek istemeyen insanlar
– Uygun olmayan nitelikler
• Çocuklar için gelir niteliği uygulanamaz
Çözümler
– Eksik verileri dikkate alma
– Eksik veriyi tahmin et (ortalama vs.)
Veri Madenciliği
Doç. Dr. Suat Özdemir
Duplicate Data / Tekrarlı veri
Birbirinin aynısı olan veriler
– Değişik veritabanlarının birleştirilmesi sırasında ortaya
çıkar
– Birden çok eposta adresine sahip insan
Çözüm
– Veri temizleme
Veri Madenciliği
Doç. Dr. Suat Özdemir
Neden veri önişleme?
Düşük kaliteli veri düşük kaliteli veri madenciliği
sonuçlarına yol açar
Veri önişleme?
– Veri madenciliği kalitesini artırmak
– Veri madenciliğini kolaylaştırmak
– Verimliliği artırmak hedeflenir
Veri Madenciliği
Doç. Dr. Suat Özdemir
http://ceng.gazi.edu.tr/~oz
Tanımlayıcı veri özetleme
Veri önişlemenin temeli
Veriyi daha iyi anlamak ve anlatmak
– Verinin merkezi eğilimi
• Ortalama, ortanca (median), mode
– Verinin dağılımı
• Çeyreklikler (quartiles), IQR, variance, boxplots
Veri Madenciliği
Doç. Dr. Suat Özdemir
Ortalama (Mean)
Ortalama (mean)
– Örnekleme
– Popülasyon
1 n
x xi
n i 1
x
N
n
– Ağırlıklı ortalama
x
w x
i 1
n
i
w
i 1
Veri Madenciliği
Doç. Dr. Suat Özdemir
i
i
Ortanca (Median)
Veri setinde ortadaki verinin değeri
– Çift sayıda veri varsa ortadaki iki verinin ortalaması
Gruplanmış veriler için interpolation yolu ile
bulunur
Ortanca aralıktan aşağıdaki aralıklardaki
eleman sayılarının toplamı
Yaş Frekans
5-10
120
11-15
50
16-20
160
21-25
70
26-30
200
median L1 (
Ortanca aralığın ilk elemanı
n / 2 ( f ) l
f median
)c
Ortanca aralığın
genişliği
Ortanca aralığın
frekansı
600 / 2 (170)
median 16 (
)5 16.9
160
Veri Madenciliği
Doç. Dr. Suat Özdemir
Mod (Mode)
Veri seti içinde en çok tekrarlanan veri
– Unimodal
– Bimodal
– Trimodal
Deneysel (empirical) formül
mean mode 3 (mean median)
Veri Madenciliği
Doç. Dr. Suat Özdemir
Simetrik ve Çarpık Veri
Ortalama, ortanca ve
mod değerleri
Veri Madenciliği
Doç. Dr. Suat Özdemir
Simetrik ve Çarpık Veri
Veri Madenciliği
Doç. Dr. Suat Özdemir
15/41
Verinin dağılımı
Quartiles, outliers and boxplots
–
Çeyrek (Quartile): Q1 (25th percentile), Q3 (75th
percentile)
–
Inter-quartile range: IQR = Q3 – Q1
–
Five number summary: min, Q1, M, Q3, max
–
Boxplot: ends of the box are the quartiles, median is
marked, whiskers, and plot outlier individually
–
Sapan veri (Outlier):
•
usually, a value higher/lower than 1.5 x IQR
Veri Madenciliği
Doç. Dr. Suat Özdemir
Verinin dağılımı: Örnek
“2, 5, 6, 9, 12” veri seti için five-number summary aşağıdaki
gibi verilir:
–
–
–
–
–
minimum = 2
1. quartile = 3.5
median = 6
3. quartile = 10.5
maximum = 12
IQR = 10.5 – 3.5 = 7 olduğundan sapan veri tanımı için
1.5xIQR = 10.5 olarak hesaplanır. Bu durumda sapan verileri
bulmak için
– 1. quartile – 1.5xIQR = 3.5 – 10.5 = –7
– 3. quartile + 1.5xIQR = 10.5 + 10.5 = 21
Değerleri hesaplanır. Veri seti içinde -7 den küçük ve 21 den
büyük herhangi bir değer olmadığından bu veri seti içinde
outlier/sapan veri yoktur denilir.
Veri Madenciliği
Doç. Dr. Suat Özdemir
17/41
Verinin dağılımı
Varyans ve standart sapma (örnekleme: s,
populasyon: σ)
–
Varyans:
n
n
n
1
1
1
2
2
2
s2
(
x
x
)
[
x
(
x
)
i
i
i ]
n 1 i 1
n 1 i 1
n i 1
1
2
N
n
1
2
( xi )
N
i 1
n
2
x
i
2
i 1
Standart sapma s (veya σ) varyansın kare kökü
Veri Madenciliği
Doç. Dr. Suat Özdemir
Normal dağılım eğrisinin özellikleri
Normal dağılım eğrisi
– (μ–σ) ile (μ+σ) arasında verilerin yaklaşık %68i
bulunur (μ: ortalama, σ: standart sapma)
– (μ–2σ) ile (μ+2σ) arasında %95i
– (μ–3σ) ile (μ+3σ) arasında %99.7si
Veri Madenciliği
Doç. Dr. Suat Özdemir
Görsel tanımlayıcı veri özetleme
Veriyi daha iyi ifade edebilmek için kullandığımız
yöntemler
–
–
–
–
–
Boxplot
Histogram, sıklık histogramı, bar chart
Eşit bölen (Quantile) grafikleri
Q-Q grafikleri
Serpme (scatter) grafikleri
Veri Madenciliği
Doç. Dr. Suat Özdemir
Boxplot analizi
Five number summary nin grafik
olarak gösterimi
– Minimum, Q1, M, Q3, Maximum
Boxplot
– Veri bir kutu olarak gösterilir
– Kutunun alt ve üst çizgileri 1. ve
3. çeyreklerdir
– Ortanca bir çizgi ile belirtilir
– Max ve min değerleri kutunun
dışında iki çizgi (Whiskers) ile
belirtilir
Veri Madenciliği
Doç. Dr. Suat Özdemir
Histogram analizi
Basit istatistiksel sınıfları gösteren grafik
– Veri setindeki çeşitli sınıflara ait verilerin sayısını ya da frekansını
veren dikdörtgenlerden oluşur
Veri Madenciliği
Doç. Dr. Suat Özdemir
Quantile plot
Kullanıcının hem normal verileri hem de aykırılıklarını
görmesini sağlar
Quantile bilgisi verir
– Veri xi ile gösterilirse, fi değeri veri setindeki verilerin %100fi
sinin xi den küçük ya da eşit olduğunu gösterir
Tek değişkenli analiz
Veri Madenciliği
Doç. Dr. Suat Özdemir
Quantile-Quantile plot
Karşılaştırma yapar, eğilimi gösterir
Çift değişkenli analiz
Q3
M
Q1
Şube 1 de satılan ürünler şube 2 de
satılanlardan daha ucuz olma eğiliminde
Veri Madenciliği
Doç. Dr. Suat Özdemir
Quantile-quantile
plotları (q-q plot) iki veri
setinin aynı dağılım
özelliğe sahip olup
olmadığını görmek için
kullanılır.
Scatter plot
Veri içindeki sapan verileri, kümeleri gösterir
Veri Madenciliği
Doç. Dr. Suat Özdemir
Özet: Veri Dağılımının Grafiksel Olarak Gösterimi
Histogram
Boxplot
Quantile plot: each value xi is paired with fi indicating that
approximately 100 fi % of data are xi
Quantile-quantile (q-q) plot: graphs the quantiles of one
univariant distribution against the corresponding quantiles of
another
Scatter plot: each pair of values is a pair of coordinates and
plotted as points in the plane
Veri Madenciliği
Doç. Dr. Suat Özdemir
Veri önişleme
Veri temizleme
– Eksik veri tamamlama, hatalı verileri düzeltme, tutarsız
verileri kaldırma
Veri bütünleştirme
– Artık verileri ortadan kaldırma, veritabanlarını birleştirme
Veri değiştirme
– Veriyi daha anlaşılabilir bir halde ifade etme,
normalizasyon
Veri azaltma
– Veri bütünleştirme, nitelik alt kümesi seçme, boyut
küçültme, vb.
Veri Madenciliği
Doç. Dr. Suat Özdemir
Veri önişleme
Veri Madenciliği
Doç. Dr. Suat Özdemir
Veri önişleme
Veri temizleme
– Eksik veri tamamlama, hatalı verileri düzeltme, tutarsız
verileri kaldırma
Veri bütünleştirme
– Artık verileri ortadan kaldırma, veritabanlarını birleştirme
Veri değiştirme
– Veriyi daha anlaşılabilir bir halde ifade etme,
normalizasyon
Veri azaltma
– Veri bütünleştirme, nitelik alt kümesi seçme, boyut
küçültme, vb.
Veri Madenciliği
Doç. Dr. Suat Özdemir
Veri temizleme
Eksik veri tamamlama, hatalı verileri düzeltme,
tutarsız verileri kaldırma
Eksik veri tamamlama (missing values)
–
–
–
–
–
Kaydı yok say
Elle doldurma
Global bir değerle doldurma
Nitelik ortalamasıyla doldurma
Eksik verinin ait olduğu grubun nitelik ortalamasıyla
doldurma
– En olası değerle doldurma (regression, Bayesian
inference)
Veri Madenciliği
Doç. Dr. Suat Özdemir
Veri temizleme
Hatalı verileri düzeltme (gürültülü-noisy data)
–
–
–
–
–
–
hatalı veri toplama gereçleri
veri giriş problemleri
veri girişi sırasında kullanıcıların hatalı yorumları
veri iletim hataları
teknolojik sınırlamalar
veri isimlendirmede veya yapısında uyumsuzluk
Hatalı verinin tespiti?
– Sapan veriler
– Genelde alan uzmanı bilgisi gerektirir
Veri Madenciliği
Doç. Dr. Suat Özdemir
Veri temizleme
Çözüm yöntemleri
– Kova metodu (Binning): Veriyi düzleştirme, lokal çözüm
• Kova ortalaması ile düzleştirme
• Kova ortancası ile düzleştirme
• Kova sınırları ile düzleştirme
– Eğri uydurma (Regression)
– Demetleme (Clustering)
– İnsan-bilgisayar incelemesi
Veri Madenciliği
Doç. Dr. Suat Özdemir
Kova metodu (Binning)
Eşit genişlik (Equal-width (distance) partitioning)
– Veri setini N eşit aralığa böler: uniform grid
– Eğer A ve B veri setindeki en büyük ve en küçük değerler
ise her bir aralığın genişliği: W = (B –A)/N.
– Basit ancak sapan verilerden etkilenir
– Çarpık (skewed) veri iyi ifade edilemez
Veri Madenciliği
Doç. Dr. Suat Özdemir
Kova metodu (Binning)
Eşit derinlik (Equal-depth (frequency) partitioning)
– Her bir veri aralığı yaklaşık olarak aynı sayıda veri içerir
– Ölçeklenebilir
Veri Madenciliği
Doç. Dr. Suat Özdemir
Binning - Örnek
Sorted data for price (in dollars):
4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34
Partition into equal-frequency (equi-depth) bins:
- Bin 1: 4, 8, 9, 15
- Bin 2: 21, 21, 24, 25
- Bin 3: 26, 28, 29, 34
Smoothing by bin means:
- Bin 1: 9, 9, 9, 9
- Bin 2: 23, 23, 23, 23
- Bin 3: 29, 29, 29, 29
Smoothing by bin boundaries:
- Bin 1: 4, 4, 4, 15
- Bin 2: 21, 21, 25, 25
- Bin 3: 26, 26, 26, 34
Veri Madenciliği
Doç. Dr. Suat Özdemir
Regresyon
Y1
y=x+1
Y1’
X1
Veri Madenciliği
Doç. Dr. Suat Özdemir
x
Demetleme / Kümeleme
Veri Madenciliği
Doç. Dr. Suat Özdemir
Veri önişleme
Veri temizleme
– Eksik veri tamamlama, hatalı verileri düzeltme, tutarsız
verileri kaldırma
Veri bütünleştirme
– Artık verileri ortadan kaldırma, veritabanlarını birleştirme
Veri değiştirme
– Veriyi daha anlaşılabilir bir halde ifade etme,
normalizasyon
Veri azaltma
– Veri bütünleştirme, nitelik alt kümesi seçme, boyut
küçültme, vb.
Veri Madenciliği
Doç. Dr. Suat Özdemir
Veri bütünleştirme
Artık verileri ortadan kaldırma, veritabanlarını
birleştirme
– Schema bütünleştirme
• Varlık tanımlama (entity identification) problem
– Veritabanı 1 -> Cust_id
– Veritabanı 2 -> Cust_number
• Metadata kullanımı
– Her niteliği tanımla
– Artık/tekrarlı veri temizleme
• Korelasyon analizi
• Chi-square test
Veri Madenciliği
Doç. Dr. Suat Özdemir
Korelasyon Analizi
Correlation coefficient (also called Pearson’s product
moment coefficient)
rA, B
( A A)( B B) ( AB) N AB
NAB
NAB
where n is the number of tuples, A and B are the respective
means of A and B, σA and σB are the respective standard
deviation of A and B, and Σ(AB) is the sum of the AB crossproduct.
If rA,B > 0, A and B are positively correlated (A’s values
increase as B’s). The higher, the stronger correlation.
rA,B = 0: independent; rA,B < 0: negatively correlated
Veri Madenciliği
Doç. Dr. Suat Özdemir
Pearson’s product moment coefficient
rA,B değerlerinin anlamı
Correlation
Negative
Positive
None
−0.09 to 0.0
0.0 to 0.09
Small
−0.3 to −0.1
0.1 to 0.3
Medium
−0.5 to −0.3
0.3 to 0.5
Strong
−1.0 to −0.5
0.5 to 1.0
Veri Madenciliği
Doç. Dr. Suat Özdemir
Korelasyon Analizi - Örnek
Veri Madenciliği
Doç. Dr. Suat Özdemir
Chi-square Test
Ayrık / kategorik veri için korelasyon
Χ2 (chi-square) test
2
(
Observed
Expected
)
2
Expected
The larger the Χ2 value, the more likely the variables are
related
The cells that contribute the most to the Χ2 value are those
whose actual count is very different from the expected count
Correlation does not imply causality
– # of hospitals and # of car-theft in a city are correlated
– Both are causally linked to the third variable: population
Veri Madenciliği
Doç. Dr. Suat Özdemir
Chi-square Test - Örnek
male
female
Sum (row)
fiction
250(90)
200(360)
450
non-fiction
50(210)
1000(840)
1050
Sum(col.)
300
1200
1500
Χ2 (chi-square) calculation (numbers in parenthesis are expected counts
calculated based on the data distribution in the two categories)
(250 90) 2 (50 210) 2 (200 360) 2 (1000 840) 2
507.93
90
210
360
840
Bu hipotezin yanlış olduğunu red etmek için
2
– Bağımsızlık derecesi = (r-1)(c-1)=(2-1)(2-1)=1 ve belli bir önem derecesi için chisquare dağılımının kritik değer tablosuna bakılır
– 0.001 önem değeri için 10.828
10.828 < 507.93 olduğundan Cinsiyet ve okuma tercihi birbirlerinden
bağımsız değil denir (çok kuvvetli bir ilişki vardır).
Veri Madenciliği
Doç. Dr. Suat Özdemir
Kritik değer tablosu
Veri Madenciliği
Doç. Dr. Suat Özdemir
Veri önişleme
Veri temizleme
– Eksik veri tamamlama, hatalı verileri düzeltme, tutarsız
verileri kaldırma
Veri bütünleştirme
– Artık verileri ortadan kaldırma, veritabanlarını birleştirme
Veri değiştirme
– Veriyi daha anlaşılabilir bir halde ifade etme,
normalizasyon
Veri azaltma
– Veri bütünleştirme, nitelik alt kümesi seçme, boyut
küçültme, vb.
Veri Madenciliği
Doç. Dr. Suat Özdemir
Veri değiştirme
Veriyi daha anlaşılabilir bir halde ifade etme,
normalizasyon
–
–
–
–
Düzeltme (smoothing)
Birleştirme (aggregation)
Genelleme
Normalizasyon
• Max-min normalizasyon
• Z-score normalizasyon
• Normalizasyon by decimal scaling
– Nitelik oluşturma
• En-boy -> Alan
Veri Madenciliği
Doç. Dr. Suat Özdemir
Veri değiştirme
Min-max normalization: to [new_minA, new_maxA]
v minA
v'
(new _ maxA new _ minA) new _ minA
maxA minA
– Ex. Let income range $12,000 to $98,000 normalized to [0.0, 1.0].
– Then $73,600 is mapped to 73,600 12,000 (1.0 0) 0 0.716
98,000 12,000
Z-score normalization (μ: mean, σ: standard deviation): v '
– Ex. Let μ = 54,000, σ = 16,000. Then
v A
73,600 54,000
1.225
16,000
Normalization by decimal scaling
v
v' j
10
Veri Madenciliği
Doç. Dr. Suat Özdemir
Where j is the smallest integer such that Max(|ν’|) < 1
v’<1 olacak şekilde v’ değerini en büyük yapacak j değeri
A
Veri önişleme
Veri temizleme
– Eksik veri tamamlama, hatalı verileri düzeltme, tutarsız
verileri kaldırma
Veri bütünleştirme
– Artık verileri ortadan kaldırma, veritabanlarını birleştirme
Veri değiştirme
– Veriyi daha anlaşılabilir bir halde ifade etme,
normalizasyon
Veri azaltma
– Veri bütünleştirme, nitelik alt kümesi seçme, boyut
küçültme, vb.
Veri Madenciliği
Doç. Dr. Suat Özdemir
Veri azaltma
Veri boyutunu düşür
Orijinal verinin özelliklerini koru
Boyut küçültmek için harcanan zaman veri
madenciliği yaparken kazanacağımız zamanı
geçmemelidir
Bazı metotlar
–
–
–
–
Veri küpü birleştirme
Nitelik altkümesi seçme
Boyut azaltma
Numerosity reduction (Veriyi modellerle yada görsel
olarak ifade etme)
– Ayrıştırma ve konsept hiyerarşisi geliştirme
Veri Madenciliği
Doç. Dr. Suat Özdemir
Nitelik altkümesi seçme
Veriye ait tüm nitelikler yapılacak iş için önemli
olmayabilir
– Alışveriş eğiliminin belirlenmesi/müşterilerin telefon
numaraları
– Tekrarlı/redundant nitelikler
Verinin dağılım özelliğini bozmadan veriyi ifade
edebilecek en küçük nitelik altkümesinin
seçilmesi
Sonuçta ortaya çıkan örüntü sayısı azaltılarak
veri anlaşılması daha kolay hale getirilir
Veriyi “iyi” şekilde ifade edecek nitelik altkümesi
nasıl bulunacak?
Veri Madenciliği
Doç. Dr. Suat Özdemir
Nitelik altkümesi seçme
• “İyi” ve “kötü” nitelikler bağımsızlık testleri, karar
ağaçları gibi yöntemlerle belirlenir
• Bilgi kazancı vb.
n nitelik için 2n altküme (exponential)
Sezgisel (heuristic) yöntemler :
– İleri adım adım seçme (Step-wise forward selection)
• Boş küme ile başlayıp en iyi nitelikler kümeye dahil
edilir
– Geri adım adım eleme (Step-wise backward
elimination)
• Tüm nitelikler ile başlanıp, her basamakta en kötü
olan(lar) elenir
– İleri seçme ve geri elemenin birleştirilmesi
– Karar ağacı çıkarma (Decision-tree induction)
• Ağaç ortaya çıkarılır ağaç üzerinde görülmeyen
nitelikler kötü/önemsiz olarak nitelendirilir ve elenir
Veri Madenciliği
Doç. Dr. Suat Özdemir
Nitelik altkümesi seçme
Sezgisel yöntemler
Veri Madenciliği
Doç. Dr. Suat Özdemir
53/41
Boyut azaltma (Dimentionality Reduction)
Kodlama (encoding) ve değiştirmeyle veriyi sıkıştırma
– Wavelet transforms
– Principle Component Analysis (PCA)
Veri Madenciliği
Doç. Dr. Suat Özdemir
Numerosity reduction
Veriyi modellerle yada görsel olarak daha küçük
formlarda ifade etme
–
–
–
–
Eğri uydurma modelleri
Histogramlar
Demetleme
Örnekleme
Veri Madenciliği
Doç. Dr. Suat Özdemir
Regresyon Analizi
Bağımlı değişken ile bir veya daha
çok bağımsız değişken arasındaki
y
Y1
ilişkiyi incelemek amacıyla kullanılan
bir analiz yöntemidir.
Y1’
y=x+1
Regresyon analizi ile bağımlı ve
bağımsız değişkenler arasında bir
ilişki var mıdır? Eğer bir ilişki varsa
bu ilişkinin gücü nedir? Değişkenler
arasında ne tür bir ilişki vardır? gibi
sorulara cevap aranmaya çalışılır.
Veri Madenciliği
Doç. Dr. Suat Özdemir
X1
x
Histogramlar
•Equ-width/Eşit genişlik
•Equ-depth/Eşit derinlik
•V optimal
•(Barlar arasında en düşük varyans)
•Olası bütün histogramlardan barlar
arasından en düşük varyansa sahip
olanı seç
•MaxDiff
40
35
30
25
20
15
•(Veriler arasındaki en fazla fark eden 10
değer çiftleri sınırları belirler)
5
•B kova sayısı
0
•En yüksek B-1 tane farkı belirle ve
kovaları ayır
Veri Madenciliği
Doç. Dr. Suat Özdemir
10000
30000
50000
70000
90000
Demetleme / Kümeleme
Veri setini benzerliklerine göre demetlere ayırma
Sadece demeti ifade eden bilgiyi sakla
– Merkez ve çap
Gruplu yapıya sahip veri setinde daha iyi sonuç verir
Hiyeraşik demetleme yapılabilir ve indeks ağaçları olarak
ifade edilebilir
Veri Madenciliği
Doç. Dr. Suat Özdemir
Örnekleme
Tüm veri seti N’i temsil edecek küçük veri seti s’i seçmek
Basit metotların performansı iyi değil
Uyarlanabilir metotlar
– Strafied örnekleme
– Belli bir kurala göre sınıfla her sınıftan eşit sayıda örnek al
Veri Madenciliği
Doç. Dr. Suat Özdemir
Örnekleme çeşitleri
Simple random sampling
– There is an equal probability of selecting any particular
item
Sampling without replacement
– Once an object is selected, it is removed from the
population
Sampling with replacement
– A selected object is not removed from the population
Stratified sampling:
– Partition the data set, and draw samples from each
partition (proportionally, i.e., approximately the same
percentage of the data)
– Used in conjunction with skewed data
Veri Madenciliği
Doç. Dr. Suat Özdemir
Sampling: With or without Replacement
Raw Data
Veri Madenciliği
Doç. Dr. Suat Özdemir
Sampling: Cluster or Stratified Sampling
Raw Data
Veri Madenciliği
Doç. Dr. Suat Özdemir
Cluster/Stratified Sample
Ayrıştırma ve konsept hiyerarşisi geliştirme
Sayısal veri
– Binning
– Histogram analizi
Veri Madenciliği
Doç. Dr. Suat Özdemir
Kategorik veri
– Şema seviyesinde (kullanıcılar tarafından)
• Cadde<semt<şehir<ülke
– Gruplama
• {ankara,kayseri,konya}-> içanadolu
– Anlamsal bağlantılar
• Bazen adres olarak sadece şehir bilgisi yetebilir. Cadde sokak
numara nitelikleri atılır.
Veri Madenciliği
Doç. Dr. Suat Özdemir
66/41