BİLGİNİN DEĞERİ/VERİNİN ÖNEMİ

advertisement
VERİ MADENCİLİĞİ SÜRECİ
Şule ÖZMEN
Marmara Üniversitesi İ.İ.B.F.
İngilizce İşletme Bölümü
http://suleozmen.marmara.edu.tr
sozmen@marmara.edu.tr
AMAÇ
• Veri madenciliği uygulama süreci
• Müşteri İlişkileri Yönetimine ilişkin
uygulamalar
Şule Özmen
İticu_Veri Madenciliği_9_Mayıs
İÇERİK
•
•
•
•
•
Bilginin Değeri / Verinin Önemi
Neden Veri Madenciliği
Veri Madenciliğinde kullanılan verinin özelliği
Veri Ambarı
Müşteri İlişkileri Yönetiminde Veri Madenciliği
uygulamaları
• Veri Madenciliği Standart Süreci
CRISP-DM: CRoss Industry Standard Process for Data Mining
Şule Özmen
İticu_Veri Madenciliği_9_Mayıs
Bilginin Değeri / Verinin Önemi
• Yeni ekonomide bilgi, üretimin faktörlerinden birisi
• Internet küreselleşmeyi körüklüyor
• Rekabet artıyor
• Kar marjları düşüyor
• Müşteriyi memnun etmek her geçen gün zorlaşıyor
• Tüketiciler, müşteriler bilgiyle donanıyor
• Sadakatleri azalıyor/azalabiliyor
Şule Özmen
İticu_Veri Madenciliği_9_Mayıs
Değişen koşullarla başa çıkmanın çaresi:
• Bilgi ile değer yaratmak
• Verileri toplamak, bilgi üretme amacına
yönelik hazırlamak
• Analiz etmek
• Elde edilen bilgileri eyleme yönelik olarak
kullanmak
Şule Özmen
İticu_Veri Madenciliği_9_Mayıs
Dijitalleşmenin etkisi
• Büyük miktarlarda verinin
• Çok hızlı bir biçimde
– toplanabilmesi
– depolanabilmesi ve
– analizinin mümkün olması
• Bilgiye dönüştürülen verinin
• Doğru ve zamanında karar alabilmesi için
onların kullanıcılara sunulması
Şule Özmen
İticu_Veri Madenciliği_9_Mayıs
Neden Veri Madenciliği?
 Bilgi Edinme İhtiyacı
GEÇMİŞ
BUGÜN
 Raporlama
Keşfetmek
 Karar Süreci
 Reaktif
Proaktif
 Sorgulama Türü
 Önceden
tanımlanmış
Anlık
 Basit
Karmaşık
 Özet
Detaylı
 Sorgu Karmaşıklığı
 Verinin Detay Düzeyi
ŞuleKıral
Özmen
Kaynak: Cenk
- Oracle
İticu_Veri
Madenciliği_9_Mayıs
Firması CRM Yöneticisi
SORGULAMA AŞAMALARI
RAPORLAMA
ANALİZ
TAHMİN
NE OLDU?
NEDEN OLDU?
NELER OLACAK?
Önceden
tanımlanmış
Sorgulamalar
Bağıntılarla ilgili
sorgulamalar
Şule Özmen
İticu_Veri Madenciliği_9_Mayıs
Analitik tahmin
modelleri
Kaynak: Oracle
NELER OLMALI?
OLMASI GEREKENi
GERÇEKLEŞTiR
Olmasını sağla
Şule Özmen
İticu_Veri Madenciliği_9_Mayıs
Kredi Kartı
müşterimiz aylık
ortalama
harcaması
su kadar
Vadeli ve vadesiz
mevduatı var
otomatik ödeme?
Konut kredisi almış
Hem bireysel
hem kurumsal krize rağmen ödemesini
aksatmamış
müşterimiz
Her ay
en az
Hizmetlerimizin
5 kez uğrar
çoğunu
yeni bir iş
alıyor
kuracak
Yeni
Müşteri!
Eski müşterimiz
bankaya
4 aydır
uğramadı
inaktif
Otomatik
Daima
ödeme
Promosyon
Kuponu kullanır talimatı var
Yeni
bebekleri
oldu
Biz zamanlar
Şule Özmen
en iyi müşterimizdi
İticu_Veri Madenciliği_9_Mayıs
Rakibimizle çalışıyor
Veri madenciliğinde veri
Enformasyonel veri
Operasyonel veri
Kişiye yöneliktir
• Uygulamaya yöneliktir
Bütünleşiktir
• Dağınıktır
Zaman içinde oluşan
• Kısa zamanda oluşur
Birleştirilmiş veriler
• Tekrarlayabilen veriler
Şule Özmen
İticu_Veri Madenciliği_9_Mayıs
Veri Ambarı (Data Warehouse)
Bir kurumda gerçekleşen
• tüm operasyonel işlemlerin,
• en alt düzeydeki verilerine kadar inebilen,
• etkili analiz yapılabilmesi için özel olarak
modellenen,
• tarihsel derinliği olan,
• fiziksel olarak operasyonel sistemlerden
farklı ortamdaki yapılardır.
Şule Özmen
İticu_Veri Madenciliği_9_Mayıs
VERİ MADENCİLİĞİ
• Eyleme yönelik bilgi elde edilmesini
amaçlar
• Enformasyonel verilerin Veri
Tabanlarında, Veri Ambarlarında
tutulması gereği vardır.
Şule Özmen
İticu_Veri Madenciliği_9_Mayıs
Sorgulama örnekleri(1)
• Karar Destek Sistemlerinde bir işlem sonucu oluşmuş tek bir veriye
bakmak yerine bir grup müşteri bilgisini analiz ederek eğilimleri
ortaya çıkarmak önemlidir. Çünkü Karar Destek Sistemlerinde
tasarlanan sorgulamalar iç içe girmiş birden fazla değişken
boyutuyla ilgilidir.
Örneğin:
“Son iki aydan beri evininin 100 km çevresindeki bir restoranda 75
milyon ve üzerinde hesap ödeyenler hangi özellikte insanlar?”
sorusuna cevap aramak.
“Kredi kartı ödemesini aksatmadan yapan, bankada otomatik ödeme
talimatı olan ve de maaşı o bankaya yatan müşterilerin özellikleri
nedir?”
Şule Özmen
İticu_Veri Madenciliği_9_Mayıs
Sorgulama örnekleri (2)
– Müşterilerim aldıkları mevcut ürünler
dışında diğer hangi ürünleri almak
isterler?
Çapraz satış yapabilmek için kullanılabilecek
bir sorgulama yöntemidir.
– En karlı müşterilerim kimlerdir ve
bunların özellikleri nelerdir?
Şule Özmen
İticu_Veri Madenciliği_9_Mayıs
Sorgulama örnekleri (3)
• Kurumumuzla çalışmayı bırakıpta
rakibe yönelen müşterilerim kimlerdir
ve (daha da önemlisi) bunların
özellikleri nelerdir?
• Yukarıdaki örnekte anlatıldığı gibi, bu sorunun cevabı
sadece bırakıp giden müşterilerin kimler olduğunu
raporlamak değildir. Amaç bunları ayrıştıran özellikleri
ortaya çıkaran bir model oluşturmak ve bu modeli
mevcut müşterilere uygulayarak müşteriyi rakibe
gitmeden önce belirleyip, gitmesini önleyecek
Şule Özmen
tedbirler
almaktır.
İticu_Veri
Madenciliği_9_Mayıs
Veri madenciliğinde amaç
Eyleme yönelik bilgi elde etmek
•
•
•
•
Hangi müşteriye
Hangi teklif
Hangi ortamda, hangi kanaldan
Ne zaman
sunulmalı
Şule Özmen
İticu_Veri Madenciliği_9_Mayıs
CRISP-DM Veri Madenciliği Standard Süreci
Bilgi İhtiyacı
AMAÇ
Veri Kaynakları
Veri İnceleme
Veri Hazırlama
VERİ
Kullanma
Modelleme
Değerlendirme
Şule Özmen
İticu_Veri
Kaynak
ClayMadenciliği_9_Mayıs
Helberg, Data Mining with Confidence, SPSS, 2002
Veri Madenciliği Süreci
•
•
•
•
•
•
Amaç: Bilgi ihtiyacının belirlenmesi,
problemin tanımı
Veri kaynaklarının belirlenmesi ve verilerin
incelenmesi
Verilerin hazırlanması
Modelin oluşturulması
Sürecin ve modelin değerlendirilmesi
Sonuçların kullanıma sunulması
Şule Özmen
İticu_Veri Madenciliği_9_Mayıs
Bilgi ihtiyacının belirlenmesi
• Hangi amaç için bilgiye ihtiyaç
var?
Şule Özmen
İticu_Veri Madenciliği_9_Mayıs
Genel Amaçlar
• Müşteri sayısını, sadakatini, karlılığını
artırmak (genel)
• Tedarik sürecinin etkinliğinin ve verimliliğini
artırmak (genel)
• E-ticaret sitesine giren ve alışveriş yapan
ziyaretçi sayısını artırmak (genel)
Şule Özmen
İticu_Veri Madenciliği_9_Mayıs
Bilgi ihtiyacının belirlenmesi
• Hangi amaç için bilgiye ihtiyaç var?
• Hangi bilgi bu amaca hizmet eder?
Şule Özmen
İticu_Veri Madenciliği_9_Mayıs
Amaca uygun bilgi nedir?
• Müşteri sayısını, sadakatini, karlılığını artırmak (amaç)
• Çapraz satış kampanyası için hedef müşteri
kitlesi bilgisi (ihtiyaç duyulan bilgi)
• Tedarik sürecinin etkinliğinin ve verimliliğini artırmak (amaç)
• Hangi tedarikçiden ne zaman ne miktarda mal
alınacağı bilgisi (ihtiyaç duyulan bilgi)
• E-ticaret sitesinin ziyaretçi ve alışveriş yapan müşteri sayısını
artırmak (amaç)
• Sitede uzun süre kalma ve alışveriş yapma olasılığını
artıran faktörlerin neler olduğu bilgisi (ihtiyaç duyulan
bilgi)
Şule Özmen
İticu_Veri Madenciliği_9_Mayıs
Bilgi ihtiyacının belirlenmesi
• Hangi amaç için bilgiye ihtiyaç var?
• Hangi bilgi bu amaca hizmet eder?
• Bu bilgiyi elde etmeye yönelik veri
madenciliği amacı nedir?
Şule Özmen
İticu_Veri Madenciliği_9_Mayıs
Veri Madenciliği’nin Amacı
• Çapraz satış kampanyası için hedef müşteri kitlesi
bilgisi (ihtiyaç duyulan bilgi)
• Kampanya sırasında satış teklifini kabul etme
olasılığı yüksek olan müşterileri isabetli tespit
edecek modeli kurmak (veri madenciliğinin
amacı)
• Sitede uzun süre kalma ve alışveriş yapma olasılığını
artıran faktörlerin neler olduğu bilgisi (ihtiyaç duyulan bilgi)
• Siteden alışveriş yapan ile yapmayan uzun
süre kalan ile kalmayanı ayırt edecek
faktörleri belirleyecek modeli kurmak
Şule Özmen
İticu_Veri Madenciliği_9_Mayıs
Bilgi ihtiyacının belirlenmesi
aşamasında
1. Aşamada nelere dikkat edilmeli
• Personel
• Veri
– mevcut mu, elde edilebilir mi?
• Donanım
– verilerin depolandığı,
– analiz için verinin seçilip yerleştirileceği donanım yeterli
mi?
• Yazılım
– veriye erişmek, analizini yapmak,
– raporlama ve sonuçları
kullanıma sunmak için uygun
Şule Özmen
İticu_Veri Madenciliği_9_Mayıs
mu?
1. Aşamada nelere dikkat edilmeli
• Fayda/maliyet analizi
• Başarı kriterinin belirlenmesi:
– ihtiyaç duyulan bilgiyi elde etme derecesi
– bu bilginin amaca ne derece hizmet ettiği
– kriter sadece modelin tahmin gücünün yüksek
olması değil elde edilen bilginin taşıdığı değer
• Modelin tahmin gücünün yanısıra satış başarı
oranı nedir?
• Sunulan teklifler hangi oranda kabul
görmüştür?
Şule Özmen
İticu_Veri Madenciliği_9_Mayıs
Veri Madenciliği Süreci
•
•
•
•
•
•
Amaç: Bilgi ihtiyacının belirlenmesi,
problemin tanımı
Veri kaynaklarının belirlenmesi ve verilerin
incelenmesi
Verilerin hazırlanması
Modelin oluşturulması
Sürecin ve modelin değerlendirilmesi
Sonuçların kullanıma sunulması
Şule Özmen
İticu_Veri Madenciliği_9_Mayıs
Veri kaynaklarının belirlenmesi
• Veriler hangi kaynaklardan elde edileceğine
karar verilmesi
• İhtiyaç duyulan veriler farklı kaynaklardan
elde edilmesi durumunda
– hangi ortamda nasıl birleştirileceğine
– aktarılacağı nihai ortama ve nasıl aktarılacağına
karar verilmesi
Şule Özmen
İticu_Veri Madenciliği_9_Mayıs
VERİ KAYNAKLARI - Örnek
• E-ticaret sitesinin ziyaretçi ve alışveriş yapan müşteri
sayısını artırmak (amaç)
• Sitede uzun süre kalma ve alışveriş yapma olasılığını
artıran faktörlerin neler olduğu bilgisi (ihtiyaç duyulan
bilgi)
VERİ KAYNAKLARI
• Web log: Ziyaretçilerin hangi sayfaları hangi sıklıkta
görüntülediklerinin vb. verilerin tutulduğu dosyalar
• Üye müşteri bilgilerinin tutulduğu dosyalar
• Alışveriş işlem verilerinin tutulduğu dosyalar
Şule Özmen
İticu_Veri Madenciliği_9_Mayıs
Verilerin incelenmesi, anlaşılması
• Veri nasıl tanımlanmış
– kodlamalar
– meta data: veri hakkındaki veriler
• Veri kalitesinin incelenmesi
– eksik veri olup olmadığına
– veri girişinin hatalı olup olmadığına
– kodlamalarda uyumsuzluk
– metadata hataları
Şule Özmen
İticu_Veri Madenciliği_9_Mayıs
Verilerin incelenmesi_kavranması
• Verinin keşfi ve hazırlanması
– Amaç: başlangıçta veriyle ilgili fikir elde etmek
• Tablolamalar Grafikler
– OLAP küpleri:Çok boyutlu tablolamalar
– Çeşitli kriterlere göre gruplandırmalar
– Satış dağılımları
• Bölgeler
• Ürünler veya
• Şube/mağaza bazında
– Ortalamalar, toplamlar,
sapmalar
Şule Özmen
İticu_Veri Madenciliği_9_Mayıs
2. Aşamada nelere dikkat edilmeli
Veri kalitesi
– Eksik veri
– Veri girişlerinde hata
– Kodlamalarda uyumsuzluk
– Metadata hataları
Şule Özmen
İticu_Veri Madenciliği_9_Mayıs
Veri Madenciliği Süreci
• Amaç: Bilgi ihtiyacının belirlenmesi,
problemin tanımı
• Veri kaynaklarının belirlenmesi ve verilerin
incelenmesi
• Verilerin hazırlanması
• Modelin oluşturulması
• Sürecin ve modelin değerlendirilmesi
• Sonuçların kullanıma sunulması
Şule Özmen
İticu_Veri Madenciliği_9_Mayıs
Verilerin hazırlanması
• Hangi veri alanları (değişkenler, sütünlar)
• Hangi kayıtlar (satırlar) kullanılacak
• Örnekleme
– Gözlem sayılarının fazla olması durumunda
zaman kazandırır, maliyeti azaltır
– Tabakalar; kampanyadan alanları ve almayanları
kapsamak açısından önemli
Şule Özmen
İticu_Veri Madenciliği_9_Mayıs
Verilerin temizlenmesi
• Verinin eksikliği ve veri kirliliğinin giderilmesi
• İdeal olan eksik verileri zaman içinde tamamlama
yoluna gidilmesi
• Tahmin yöntemiyle tamamlanması
• Hatalı verilerin
– Veri girişi esnasında önlem alma
– Otomatik kontrol yapılabilir; araba kredisi almış ama arabası
yok gözüküyor
Şule Özmen
İticu_Veri Madenciliği_9_Mayıs
Yeni veriler oluşturmak
• Verileri bazı işlemler yaparak farklı bir veri
setine dönüştürmek
– logaritma
– toplam, bölüm, fark
– yeniden kodlama
• Faktör analizi ile değişkenleri daha az sayıda
boyutlara indirgemek (RFM indeksi gibi)
Şule Özmen
İticu_Veri Madenciliği_9_Mayıs
Verileri hazırlarken nelere dikkat edilmeli
• Amaca hizmet etmeyecek değişkenler varsa
ayıklanmalı
• Eksik, hatalı ölçülen, hatalı veri girilen alanlar
ayıklanmalı
• Eksik verilerin sistematik bir hataya yol açıp
açmayacağı kontrol edilmeli
• Birbirine eşdeğer tekrar niteliğinde olan veri alanları
ayıklanmalı
• Eklenecek yeni değişkenin verisini hazırlamak için
gereken çabaya değer mi?
Şule Özmen
İticu_Veri Madenciliği_9_Mayıs
Veri Madenciliği Süreci
• Amaç: Bilgi ihtiyacının belirlenmesi,
problemin tanımı
• Veri kaynaklarının belirlenmesi ve verilerin
incelenmesi
• Verilerin hazırlanması
• Modelin oluşturulması
• Sürecin ve modelin değerlendirilmesi
• Sonuçların kullanıma sunulması
Şule Özmen
İticu_Veri Madenciliği_9_Mayıs
Modelin oluşturulması
• Modelin amacı:
– Sınıflandırma
– Tahmin
• Modelleme tekniği
– Modelin varsayımlarının kontrol edilmesi
– Algoritmaların seçilmesi
• Modelin uygunluğunun test edilmesi
• İsabetli tahmin oranı
• Kullanıcıların anlamaları ve kullanabilmeleri
Şule Özmen
İticu_Veri Madenciliği_9_Mayıs
Veri Madenciliği Süreci
• Amaç: Bilgi ihtiyacının belirlenmesi,
problemin tanımı
• Veri kaynaklarının belirlenmesi ve verilerin
incelenmesi
• Verilerin hazırlanması
• Modelin oluşturulması
• Sürecin ve modelin değerlendirilmesi
• Sonuçların kullanıma sunulması
Şule Özmen
İticu_Veri Madenciliği_9_Mayıs
Sürecin ve modelin değerlendirilmesi
• Modelin bulgularının incelenmesi
– Hangi gruplara ayırmış
– Bu grupların özellikleri nelerdir
• Model kurma ve bunun için gerekli verilerin
elde edilmesi kullanıma hazırlanma sürecinin
değerlendirilmesi
• İhtiyaç duyulan bilgi gerçekten elde edilmiş
mi?
Şule Özmen
İticu_Veri Madenciliği_9_Mayıs
ŞU ANDA
• Elde ne var biliyorsunuz
– Modeliniz, modelleriniz, bulgularınız
• Nasıl elde ettiğinizi biliyorsunuz
– hangi verileri,
– hangi aşamalardan geçirip hazırladıktan sonra
– hangi modeli, tekniği kullanarak
Şule Özmen
İticu_Veri Madenciliği_9_Mayıs
Değerlendirme sonucu alternatifleriniz
• Modeli ve bulguları kullanmak
• Daha iyi, daha güçlü bir model kurma kararı
• Kullanmaya değer bulmamak
• Yeni bir veri madenciliği süreci başlatmak
Şule Özmen
İticu_Veri Madenciliği_9_Mayıs
Veri Madenciliği Süreci
• Amaç: Bilgi ihtiyacının belirlenmesi,
problemin tanımı
• Veri kaynaklarının belirlenmesi ve verilerin
incelenmesi
• Verilerin hazırlanması
• Modelin oluşturulması
• Sürecin ve modelin değerlendirilmesi
• Sonuçların kullanıma sunulması
Şule Özmen
İticu_Veri Madenciliği_9_Mayıs
İstatistik ve Veri Madenciliği
• Veri üzerindeki kontrol (VM’de daha az)
• Verilerin büyüklüğü (VM’de daha çok)
• Hipotezlerin oluşturulup test edilmesi
– VM’de bunun yanısıra daha çok verileri, ve bu veriler
arasındaki örüntüyü keşfetmeye yöneliktir...
• İstatistiksel olarak anlamlı olmayan farklılıklar kar
zarar hanesine çok anlamlı bir biçimde yansıyabilir.
Şule Özmen
İticu_Veri Madenciliği_9_Mayıs
TEŞEKKÜRLER
• Sunuma erişim
http://suleozmen.marmara.edu.tr
Tebliğ ve Sunumlar bağlantısı
• CRISP-DM
http://www.crisp-dm.org
• CRISP-DM Konsorsiyum
–
–
–
–
NCR Teradata Division
SPSS
Daimler-Crysler
Şule Özmen
Ohra Bank İticu_Veri Madenciliği_9_Mayıs
Download