Slide 1

advertisement
Veri Madenciliği Temel
Bilgiler
21 Şubat 2006
Veri Ne Demektir?
•
•
•
•
•
•
•
Bazı Örnekler?
Veriyi Kimler Toplar?
İhtiyaç?
Gerekli mi?
Ne kadar bir süre için?
Mahremiyet?
Veri Depolama?
O Zaman Veri Madenciliği Nedir?
 Büyük hacimli veri içerisinden; anlamlı, gizli
kalmış ve kuruluşun karar destek sistemi için
potansiyel
olarak
faydalı
olabilecek,
uygulanabilir bilgilerin (knowledge) çıkarıldığı ve
geri planında istatistik, yapay zeka ve veritabanı
yönetim sistemlerinin bulunduğu veri analiz
tekniğine Veri Madenciliği (Data Mining) adı
verilir.
 Alternatif İsimler: Veritabanlarında Bilgi Keşfi,
Bilgi Çıkarımı, Veri Analizi, Veri Arkeolojisi, Bilgi
Hasatı, İş Zekası, vb.
Niçin Veri Madenciliği?
• Veri Analizi ve Karar Destek
– Pazar Araştırmaları ve Yönetimi
• Hedef Pazarlama, Müiteri İlişkileri Yönetimi, Sepet Analizi, Çapraz
Satış, Pazar Gruplama
– Risk Analizi ve Yönetimi
• Tahmin, Müşteri Memnuniyeti, İleri Sigortacılık Yöntemleri, Kalite
Kontrol, Rekabet Analizleri
– Hilekârlık ve Sahtekârlık Yakalama, Yaygın Olmayan Şablonların
(desenlerin) Yakalanması (outliers)
• Diğer Uygulamalar
– Metin Madenciliği (haber ve chat grupları, email, yazılı
dökümanlar - metinler) ve Web Madenciliği
– Sürekli Veri Madenciliği
– DNA ve biyolojik veri analizi
Veri Madenciliği (Data Mining):
Diğer Adlandırmalar
Information Harvesting
Knowledge Mining
Data Mining
Knowledge Discovery
in Databases
Data Dredging
Data Archaeology
Data Pattern Processing
Database Mining
Knowledge Extraction
Siftware
Desen algılama (Pattern Recognition), istatistiksel ve matematiksel
yöntemler yardımıyla, elektronik ortamda saklanmış çok büyük ölçekli
(devasa) veri yığınlarını elden geçirerek anlamlı yeni korelasyonların,
desenlerin ve eğilimlerin (trend) keşif süreci
Birçok Teknolojinin Bileşimi
Yapay
Zeka
Makina
Öğrenmesi
Veritabanı
Yönetimi
İstatistik
Görselleme
Algoritmalar
Veri
Madenciliği
Veri Madenciliğinin Sınıflandırılması
• Fonksiyonel Açıdan
– Tanımlayıcı veri madenciliği
– Tahmin edici veri madenciliği
• Farklı görüşler, farklı sınıflandırmalar
– Kullanılan veriye,
– Keşif edilecek bilgiye,
– Kullanılan tekniklere,
– Kullanılması gereken uygulamalara göre.
Veritabanlarında Bilgi Keşfi Süreci
Yorumlama/
Değerlendirme
Veri
Madenciliği
Bilgi
Ön-İşleme
Desenler
Seçim
İşlenmiş
Veri
Veri
Hedef
Veri
Kaynak:
U. Fayyad, et al. (1995), “From Knowledge Discovery to Data
Mining: An Overview,” Advances in Knowledge Discovery and
Data Mining, U. Fayyad et al. (Eds.), AAAI/MIT Press
Veri Madenciliğinin Çok-boyutlu
Görünümü
• Kullanılan Veriler
– İlişkisel, veri ambarı, muamele verisi, nesneye yönelik –ilişkisel,
serileri, zaman, uzaysal veri, metin, çoklu-ortam, heterojen
veritabanları, WWW
• Keşif Edilecek Bilgi
– Karakterizasyon, discriminasyon (ayırım), ilişki (bağlantı),
sınıflandırma, gruplama, eğilim/sapma, aykırı değer (outlier), vs.
• Kullanılan Teknikler
– Veritabanına yönelik, veri ambarı (OLAP), makina öğrenmesi,
istatistik, görselleştirme
• Uygulama Alanları
– Perakende, haberleşme, bankacılık, sahtekârlık analizi, biyolojik
veri analizi, borsa analizler, Web madenciliği vb.
Etkin Bir KDD Sürecinin Bileşenleri
Görselleştirme
ve Insan-Bilgisayar
Etkileşimi
Öğrenme
için
planlama
Hipotez
kurma ve
test etme
Öğrenme için amaçlar
Bilgi Keşfi
Bilgi Tabanı
Keşif Algoritmaları
Bilginin
ilgisini değerlendirme
Bilgi/Verinin
Değişimi
Veritabanları
Problem hakkında bilgi
Pazar Araştırmaları ve Yönetimi
• Veriler Nereden Gelir?
– Kredi kartı işlemleri, üyelik kartları, indirim kuponları, müşteri
şikayetleri
• Hedef pazarlama
– “Model” müşterilerin gruplarını bul, öyle ki bu müşteriler aynı
karateristikleri (gelir düzeyi, ilgi duydukları, harcama
alışkanlıkları vs) paylaşsınlar.
– Müşterilerin satın alma desenlerini (profillerini) zamana bağlı
olarak bul.
• Çapraz-Pazar Analizleri
– Ürün satışları arasındaki bağlantı ve ilişkileri bulma, ve bu
bağlantılara dayalı tahmin geliştirme
• Müşteri Profilleme
– Hangi tip müşteriler ne tür ürün almakta?
• Müşteri gereksinim analizi
– Farklı müşteri grupları için en iyi ürünlerin bulunması
– Hangi faktörlerin yeni müşteri kazanımında etkili olacağını
tahmin etme
Risk Yönetimi
• Finansal Planlama ve Varlık Değerlendirme
– Nakit akışı planlama ve analizi
– Zaman serileri analizleri (finansal oranlar, trend analizi
vb.)
• Kaynak Planlama
– Kaynak ve harcamaların özetlenip karşılaştırılması
• Rekabet
– Rakiplerin ve Pazar şartlarının takip edilmesi
– Müşterilerin sınıflara ayrılması ve buna göre
fiyatlandırmanın yapılması
– Fiyatlandırma stratejilerinin çok rekabetçi bir ortamda
belirlenmesi
Sahtekârlık Yakalama ve Yaygın
Olmayan Desenlerin Bulunması
• Yaklaşımlar: Sahtekârlık ve dış değer (outlier) analizi için gruplama
ve model kurumu
• Uygulamalar: Sağlık, perakendecilik, kredi kartı servisleri, ve
haberleşme
– Araç sigortalama: hasar halkaları
– Kara para aklama
– Sağlık sigortası
• Gereksiz veya birbiriyle ilgili sağlık testleri
– Haberleşme: Telefon görüşmelerindeki sahtekârlıklar
• Telefon görüşmelerinin modellenmesi: Aranan yer, arama süresi, aranan
zaman. Beklenen değerlerden sapmanın olduğu konuşmaları detaylı bir
şekilde incele.
– Perakendecilik sektörü
• Analistlerin bulgularına göre bu sektörde meydana gelebilecek küçülmelerin
%38 sebebi dürüst olmayan çalışanlar yüzündendir.
– Anti-terrorizm
Veri Madenciliği Neler Yapabilir?
• Gruplama
• Sınıflama
– Kategorik, regrseyon
• Özetleme
– Özet İstatistik ve Özet Kurallar
• Bağ Analizi ve Model Bağımlılıkları
– İlişki (bağlantı) kuralları
• Sıralama Analizi
– Zaman serileri, Sıralı bağlantılar (ilişkiler)
– Sapmaların bulunması
Gruplama
Birbirine yakın şeylerin gruplarını
bulmak
İstatistiksel teknikler bu bağlamda bazı
“uzaklık” tanımlarının yapılamsını
gerektirirken, kavramsal metodlar geri
plandaki bilgilere ve mantıksal
tanımlamalara dayanırlar
Kulanım Yerleri:
Demografik analizler, Pazar
segmentasyonu
“Seyahat tercihleri benzer olan kişileri
aynı gruplara yerleştir”
Kemal, Ali, Sevda, Ferhunde,
Burak
Gruplar
Sınıflandırma
• Önceden tanımlanmış gruplar
(sınıf) içine verilenleri ayrıştıracak
metodun bulunması
– X ve Y’nin aynı grupta olduklarını
biliyoruz. Acaba başka hangileri
aynı grup içersinde
• “Eğitim verileri”ni gerektirir: Öyleki
bu verilerin ait oldukları gruplar
önceden bilinir
Kullanım:
• Profilleme
Teknikler:
• Karar Ağaçları
• Yapay Sinir Ağları
Eğitim Verisi
Araçlar
Prosedürler
Gruplar
Sınıflayıcı
İlişki Kuralları
• Verilerdeki bağımlılıkların
belirlenmesi:
– X, Y’i mümkün kılıyor
• Her bağımlılığın öneminin
belirlenmesi
• Bayes Metodları
Kullanım:
• Hedef pazarlama
Teknikler:
• Apriori
“Birlikte yaygın olarak alınan
ürünlerin bulunması”
– Balık alanların marul alma
ihtimalleri çok yüksektir
– Ketçap alanların makarna
alma ihtimalleri?
Download