veri madenciliği

advertisement
VERİ MADENCİLİĞİ
veri
ambarlarındaki
bilgiler
Veritabanları
veya diğer bilgi
depolarındaki
bilgiler
Daha önceden
bilinmeyen,
geçerli ve
uygulanabilir
bilgiler
Karar Verme
Süreç Kontrol
Sorgulama
Bilgi Yönetimi
Veri
Madenciliği
Karar Verme
Sorgulama
Süreç Vontrol
Kuruluşlardaki
depolanmış
verilerden
faydalı bilgiler
Bilgi
Yönetimi
•
Uygulama Alanları
Bankacılık Ve Sigorta
– Dolandırıcılık Tespiti
Kredi Kartı
Dolandırıcılığı
Kara Para Aklama
Uygulama Alanları
• Sağlık
– Tanı İçin Karar Destek Sistemi Olarak
Uygulama Alanları
• Spor
– Futbol Ve Basketbol
Uygulama Alanları
• Telekominasyon Firmaları
– Mevcut Müşterilerin Elde Tutulması (Churn)
– Dolandırıcılık Tespiti
Uygulama Alanları
• Astronomi
– Yeni Keşifler
Uygulama Alanları
• Üretim Tesisleri
– Üretimden Kaynaklanan Hataların Altında Yatan
Gizli Nedenleri Ortaya Koyma
Perakende Satış Sektörü
– Müşterilerin Satın Alma Örüntüleri
–Pazar Sepeti Analizi
–Çapraz Satış
Satış Tahmini
Müşteri Profili Çıkarma
Müşterilerin demografik özellikleri ile satın aldıkları ürünler arasındaki ilişki
Diğer
– Genetik Mühendisliği
– Sinyal İşleme
– Telefon Görüşmelerindeki Kesintileri Tahmin
Yöntemiyle Giderme
Özet Olarak
Üretimde gözden kaçan
hatam var mı?
•Hangi müşterilerim, iyi, uzun dönemli ve değerli? Hangileri değil?
•Hangi müşterim beni dolandırabilir? Ödemesini aksatabilir?
•Daha etkin bir satış tekniği nasıl uygulayabilirm
Kullanan Firmalardan Bazıları
Değerlendirme
ve Sunuş
Problemin
belirlenmesi.
Bilgi
Sonuçlar
(Kurallar
)
Verinin
elde
edilmesi
Seçme ve
Dönüştürme
Veri Ambarı
Temizleme ve
Bütünleme
Veri Tabanları
Bilgi Keşfinde Veri Madenciliği Aşamaları ve Adımları
Değerlendirme
ve Sunuş
Problemin
belirlenmesi.
Bilgi
Sonuçlar
(Kurallar)
Seçme ve
Dönüştürme
Veri Ambarı
Temizleme ve
Bütünleme
Veri Tabanları
Bilgi Keşfinde Veri Madenciliği Aşamaları ve Adımları
Belirli bir döneme ait
Konu odaklı olarak
düzenlenmiş
Birleştirilmiş ve
sabitlenmiş
Dış çevreden elde
edilen bilgiler
Sadece okunabilir
İşletmelerde
kullanılan işlemsel
veritabanlarından ve
dış veri
kaynaklarından elde
edilir
Bilgiler kullanıma
hazır hale getirilir.
Veri analizi ve
sorgulama işlemleri
gerçekleştirilir
Karar verme
aşamasında
başvurulur
İşlemsel Veritabanları
Ekle
Güncelle
OLTP
Veritabanı
Sil
Oku
Some Applications on Records
Veri Madenciliği teknikleri
sayesinde Güncel Verilerin işlendiği
veritabanlarındaki veriler
Başvurulabilir Bilgi haline
dönüştürülür
Özellik
Güncel Verilerin işlendiği
Veritabanı Sistemi
OLTP
Analiz
ve Sorgulama Sistemi
OLAP
Nitelik
Günlük işlemler
Bilgi Elde Etme İşlemleri
Yönlendirme
İşlem
Analiz
Kullanıcı
Çalışanlar, Veritabanı Yöneticileri
ve uzmanları
Yöneticiler, Analistler ve Diğer
Karar Verici Kişiler
Yükümlülük
Günlük işlemler
Belli bir döneme ait bilgiler
Veri
Güncellenebilir günlük bilgiler
Geçmiş dönemi kapsayan bilgiler
Erişim
Okunabilir/Güncellenebilir
Çoğunlukla sadece okunabilir
Odaklanma
Kaydedilen veri
Elde edilen bilgi
Veritabanı1
Veritabanı2
Veritabanı3
Veritabanı4
Veri Ambarı
Müşteriler
Tablosu
Çalışanlar
Tablosu
Ürünler
Tablosu
Satışlar
Tablosu
Kesiti
Veritabanı1
(Müşteriler)
Müşteri ID
İsim
Soyad
Doğum Tarihi
132
Anıl
Arıkan
21.08.1991
234
Selen
Akın
19.07.1973
Veritabanı2
(Çalışanlar)
Çalışan ID
İsim
Soyad
Doğum Tarihi
1
Esra
Güney
25 .03.1970
2
Erdem
Erkin
11 .02 .1969
Veritabanı3
(Ürünler)
Ürün ID
Tür
Renk
Kumaş
5
Etek
Lacivert
Keten
8
Bluz
Pembe
İpek
11
Pantolon
Kahverengi
Gabardin
Veritabanı4
(Satışlar)
Müşteri ID
Ürün ID
Çalışan ID
Miktar
Tarih
132
5
1
1
08.08.2009
132
8
2
1
06.09.2009
?
5
1
1
03.10.2009
234
8
2
2
05.10.2009
234
11
2
1
05.10.2009
132
11
1
5
06.10.2009
234
5
1
3
06.10.2009
--
--
--
--
--
Veri Ambarı Kesiti
Sıcaklık
Ürün
Toplam
Ürün Sayısı
E
12
etek
3
Perşembe
H
13
pantolon
5
pembe
Pazar
H
8
bluz
2
Aslan
kahverengi
Pazar
H
6
pantolon
1
--
--
--
--
--
--
--
--
--
--
--
--
Burç
Renk
Gün
Aslan
lacivert
Salı
Yengeç
kahverengi
Aslan
Özel Gün
E: evet
H: hayır
Örnek Veri Ambarı
ZAMAN
ÜRÜN
ZAMAN ID
ÜRÜN ID
GÜN
MARKA
CİNS
YIL
TEDARİKÇİ TİPİ
HAFTANIN GÜNÜ
SAAT
ÖZEL GÜN MÜ ?
KİŞİ
SATIŞ ANA TABLO
KİŞİ ID
ZAMAN ID
YAŞ
KİŞİ ID
BURÇ
ÜRÜN ID
MESLEK
YER ID
YER
ÜCRET DİLİMİ
ORTALAMA SATIS (TL)
YER ID
CİNSİYET
TOPLAM SATIS (ADET)
CADDE
ORT. SATIS (ADET)
İLÇE
HESAPLAMALAR
İL
ZAMAN
TANI
ZAMAN ID
TANI ID
GÜN
BELİRTİLER
AY
YANETKİ
KLINIK
YIL
MUAYENE ANA
TABLO
HAFTANIN GÜNÜ
SAAT
23:00 – 07:00 ARASI MI?
ZAMAN ID
KİŞİ ID
KİŞİ
TANI ID
KİŞİ ID
YAŞ
YER ID
BURÇ
SEDİMANTASYON
MESLEK
YER
TRIGLISERİT
KAN GRUBU
CİNSİYET
YER ID
CADDE
ERİTROSİT
SOKAK
İLÇE
HESAPLAMALAR
İL
TA
ZAMAN
ZAMAN ID
NI
TANI ID
GÜN
BELİRTİ ID
AY
YANETKİ
BELİRTİ ID
BELİRTİ
RECETE ID
YIL
HAFTANIN GÜNÜ
BELİRTİ
MUAYENE ANA
TABLO
SAAT
23:00 – 07:00 ARASI MI?
REÇETE
ZAMAN ID
REÇETE ID
KİŞİ ID
ILAÇ ID
KİŞİ
TANI ID
KİŞİ ID
YAŞ
YER ID
BURÇ
SEDİMANTASYON
MESLEK
KAN GRUBU
TRIGLISERİT
İL
YER ID
İL ID
IL ID
İL
İLÇE
CİNSİYET
ERİTROSİT
HESAPLAMALAR
YER
SEMT
BELİRTİ
MUAYENE ANA
TABLO
BELİRTİ ID
TANI
KİŞİ ID
KİŞİ ID
BELİRTİ
BELİRTİ ID
TANI ID
ZAMAN ID
ZAMAN ID
BELİRTİ ID
YANETKİ
REÇETE
RECETE ID
REÇETE ID
TANI ID
TANI ID
ATEŞ
ILAÇ ID
TANSİYON
YER ID
YER
SEDİMANTASYON
TRIGLISERİT
NABIZ
YER ID
IL ID
İL
İL ID
ERİTROSİT
HESAPLAMALAR
İL
İLÇE
SEMT
Veri Ambarı Mimarisi
Kaynak
Kaynak
Kullanıcı
Veri Dönüşümü
ve
Bütünleştirme
Veri Ambarı
Kullanıcı
Kaynak
Kaynak
Kullanıcı
Değerlendirme
ve Sunuş
Bilgi
Sonuçlar
(Kurallar)
Seçme ve
Dönüştürme
Veri Ambarı
Temizleme ve
Bütünleme
Veri Tabanları
Bilgi Keşfinde Veri Madenciliği Aşamaları ve Adımları
Veri Madenciliği Modelleri
Sınıflandırma
• Satış Tahminleri
• Sipariş Tahminleri
• Üretim Hata Maliyetlerinin
Tahmini ve Nedenleri
• Dolandırıcılık Tespiti
Kümeleme
• Müşteri Profili Çıkarma
• Ürün Satış Profili Çıkarma
• Hata Yer ve Zamanlarının
Kümelenmesi
Birliktelik
Analizi
• Pazar Sepeti Analizi
• Zamana Bağlı Ardışık Satış
Veri Madenciliği Modelleri
Sınıflandırma
Algoritmaları
Kümeleme
Analizi
Birliktelik
Analizi
• C5
• C&R Tree
• CHAID
• En Yakın Komşu
Algoritması
• K-Mean
• Gri
• Appriori
Veri Madenciliği Modelleri
Tahmin
yapma
Veri
tabanlarındaki
gizli
örüntülerin
varlığını ortaya
koyma
Belirli ortak
özelliklere
göre verileri
gruplara
ayırma
Sınıflandırma
Veri Madenciliği Modelleri
Veri Madenciliğinde
Örüntü Nedir?
Bir varlık hakkında sayısal ortamda kayıtlı olan gözlemlenebilir ve
ölçülebilir bilgilerdir.
Veri Madenciliği Modelleri
Örüntü Tanıma İşlemi
Ele alınan bir örüntünün veritabanlarındaki benzerlerini
araştırmaktır.
 Örüntü tanımada yapılan işlemler bir çeşit sınıflandırmadır.
Sınıflandırma Yöntemleri
Karar Ağaçlarına Dayalı Algoritmalar
İstatistiğe Dayalı Algoritmalar
- Bayesyen Sınıflandırma
- Regresyon
Mesafeye Dayalı Algoritmalar
- K-En Yakın Komşu Algoritması
Yapay Sinir Ağları
Classification Process
Renk
A
Kahve
Pembe
Burç
Ürün
B
Aslan
D
3 ürün
Satış
C
Yengeç
E
2 ürün
Satış
Bluz
F
2 ürün
Satış
Etek
G
1 ürün
satış
Karar Ağacı İle Çıkartılan
Kural Örnekleri
Kural 1:
If renk = kahverengi Then
If burç=“aslan” Then
karar = 3 ürün satış ;
if burç = “yengeç” then
karar = 2 ürün satış;
Kural 2:
If renk =pembe Then
If ürün=“Bluz” Then
karar = 2 ürün satış;
If ürün=“Etek” Then
karar = 1 ürün satış;
Kümeleme
Kümeleme, veriyi benzerlikleri ile doğru oranda
kümelere ayırma işlemidir.
benzerlik
benzemezlik
Kümeleme Tekniğinin Kullanıldığı
Alanlar
İstatistik
Astronomi
Grupların
Alışveriş
Örüntüleri
Biyoloji
Farklı
Müşteri
Grupları
Makine
Öğrenimi
Coğrafik
Yerleşim
Kümeleme Tekniği
KullanılanYöntemler:
Çeşitli uzaklık ölçüleri kullanılarak
benzerlikler ortaya konur.
“ İzmit bölgesinde yaşayan kişiler giyim
tercihi açısından Karadeniz Bölgesinde
yaşayan kişilere Yalova’da yaşayan kişilerden
daha çok benzerler.”
Veri Madenciliği Modelleri
Birliktelik Kuralları (İlişki Analizi)
Veritabanındaki bir dizi bilgi ya da kaydın diğer
kayıtlarla olan bağlantısını açıklayan
işlemlerdir.
Birliktelik Kuralları
Pazar – Sepet Çözümlemesi
Müşterilerin bir alışverişte satın aldığı tüm ürünleri ele
alarak, satın alma eğilimini ortaya koyan bir
uygulamadır.
“Çocuk bezi alan bir müşterinin, mama alma
olasılığı diğer müşterilerden 3 kat daha
fazladır.”
Kullanılan Programlardan Bazıları
•
•
•
•
•
•
•
•
SPSS Clementine (IBM Modeller)
Weka
Data Miner
KNIME
Answer Tree
SEE5
Oracle Business Suite
SQL Server Business Intelligence Module
Örnek Uygulama
•Problem:
Üretim planı ve promosyon çalışmalarının piyasa
beklentileriyle uyum göstermemesi
•Amaç:
•Satışı yapılan ürünlerin, hangi renk ve hangi parça
olmalarının belli bir kurala bağlı olup olmadığının
araştırılması
•Veriler?
– İşletmenin elindeki klasik ilişkisel veri tabanını veri ambarı
haline dönüştürdük. Kullanılan parametreler şöyledir.
Veri Ambarı
Gün
Özel
Gün
Özel Gün
Öncesi
Ürün
Renk
Beden
Sıcaklık
Alınan
Ürün
Sayısı
X
Dizisindeki
Ana Renk
Pazar
E
1
Etek
Siyah
M
12
1
BEYAZ
Cuma
E
3
Ceket
Erkek
Siyah
M
12
2
BEYAZ
Salı
H
300
Hırka
kadın
yeşil
S
15
3
YEŞİL
.............
.......
..........
......
.......
........
.......
.........
........
Download