Veri Madenciliği Temel Bilgiler 21 Şubat 2006 Veri Ne Demektir? • • • • • • • Bazı Örnekler? Veriyi Kimler Toplar? İhtiyaç? Gerekli mi? Ne kadar bir süre için? Mahremiyet? Veri Depolama? O Zaman Veri Madenciliği Nedir? Büyük hacimli veri içerisinden; anlamlı, gizli kalmış ve kuruluşun karar destek sistemi için potansiyel olarak faydalı olabilecek, uygulanabilir bilgilerin (knowledge) çıkarıldığı ve geri planında istatistik, yapay zeka ve veritabanı yönetim sistemlerinin bulunduğu veri analiz tekniğine Veri Madenciliği (Data Mining) adı verilir. Alternatif İsimler: Veritabanlarında Bilgi Keşfi, Bilgi Çıkarımı, Veri Analizi, Veri Arkeolojisi, Bilgi Hasatı, İş Zekası, vb. Niçin Veri Madenciliği? • Veri Analizi ve Karar Destek – Pazar Araştırmaları ve Yönetimi • Hedef Pazarlama, Müiteri İlişkileri Yönetimi, Sepet Analizi, Çapraz Satış, Pazar Gruplama – Risk Analizi ve Yönetimi • Tahmin, Müşteri Memnuniyeti, İleri Sigortacılık Yöntemleri, Kalite Kontrol, Rekabet Analizleri – Hilekârlık ve Sahtekârlık Yakalama, Yaygın Olmayan Şablonların (desenlerin) Yakalanması (outliers) • Diğer Uygulamalar – Metin Madenciliği (haber ve chat grupları, email, yazılı dökümanlar - metinler) ve Web Madenciliği – Sürekli Veri Madenciliği – DNA ve biyolojik veri analizi Veri Madenciliği (Data Mining): Diğer Adlandırmalar Information Harvesting Knowledge Mining Data Mining Knowledge Discovery in Databases Data Dredging Data Archaeology Data Pattern Processing Database Mining Knowledge Extraction Siftware Desen algılama (Pattern Recognition), istatistiksel ve matematiksel yöntemler yardımıyla, elektronik ortamda saklanmış çok büyük ölçekli (devasa) veri yığınlarını elden geçirerek anlamlı yeni korelasyonların, desenlerin ve eğilimlerin (trend) keşif süreci Birçok Teknolojinin Bileşimi Yapay Zeka Makina Öğrenmesi Veritabanı Yönetimi İstatistik Görselleme Algoritmalar Veri Madenciliği Veri Madenciliğinin Sınıflandırılması • Fonksiyonel Açıdan – Tanımlayıcı veri madenciliği – Tahmin edici veri madenciliği • Farklı görüşler, farklı sınıflandırmalar – Kullanılan veriye, – Keşif edilecek bilgiye, – Kullanılan tekniklere, – Kullanılması gereken uygulamalara göre. Veritabanlarında Bilgi Keşfi Süreci Yorumlama/ Değerlendirme Veri Madenciliği Bilgi Ön-İşleme Desenler Seçim İşlenmiş Veri Veri Hedef Veri Kaynak: U. Fayyad, et al. (1995), “From Knowledge Discovery to Data Mining: An Overview,” Advances in Knowledge Discovery and Data Mining, U. Fayyad et al. (Eds.), AAAI/MIT Press Veri Madenciliğinin Çok-boyutlu Görünümü • Kullanılan Veriler – İlişkisel, veri ambarı, muamele verisi, nesneye yönelik –ilişkisel, serileri, zaman, uzaysal veri, metin, çoklu-ortam, heterojen veritabanları, WWW • Keşif Edilecek Bilgi – Karakterizasyon, discriminasyon (ayırım), ilişki (bağlantı), sınıflandırma, gruplama, eğilim/sapma, aykırı değer (outlier), vs. • Kullanılan Teknikler – Veritabanına yönelik, veri ambarı (OLAP), makina öğrenmesi, istatistik, görselleştirme • Uygulama Alanları – Perakende, haberleşme, bankacılık, sahtekârlık analizi, biyolojik veri analizi, borsa analizler, Web madenciliği vb. Etkin Bir KDD Sürecinin Bileşenleri Görselleştirme ve Insan-Bilgisayar Etkileşimi Öğrenme için planlama Hipotez kurma ve test etme Öğrenme için amaçlar Bilgi Keşfi Bilgi Tabanı Keşif Algoritmaları Bilginin ilgisini değerlendirme Bilgi/Verinin Değişimi Veritabanları Problem hakkında bilgi Pazar Araştırmaları ve Yönetimi • Veriler Nereden Gelir? – Kredi kartı işlemleri, üyelik kartları, indirim kuponları, müşteri şikayetleri • Hedef pazarlama – “Model” müşterilerin gruplarını bul, öyle ki bu müşteriler aynı karateristikleri (gelir düzeyi, ilgi duydukları, harcama alışkanlıkları vs) paylaşsınlar. – Müşterilerin satın alma desenlerini (profillerini) zamana bağlı olarak bul. • Çapraz-Pazar Analizleri – Ürün satışları arasındaki bağlantı ve ilişkileri bulma, ve bu bağlantılara dayalı tahmin geliştirme • Müşteri Profilleme – Hangi tip müşteriler ne tür ürün almakta? • Müşteri gereksinim analizi – Farklı müşteri grupları için en iyi ürünlerin bulunması – Hangi faktörlerin yeni müşteri kazanımında etkili olacağını tahmin etme Risk Yönetimi • Finansal Planlama ve Varlık Değerlendirme – Nakit akışı planlama ve analizi – Zaman serileri analizleri (finansal oranlar, trend analizi vb.) • Kaynak Planlama – Kaynak ve harcamaların özetlenip karşılaştırılması • Rekabet – Rakiplerin ve Pazar şartlarının takip edilmesi – Müşterilerin sınıflara ayrılması ve buna göre fiyatlandırmanın yapılması – Fiyatlandırma stratejilerinin çok rekabetçi bir ortamda belirlenmesi Sahtekârlık Yakalama ve Yaygın Olmayan Desenlerin Bulunması • Yaklaşımlar: Sahtekârlık ve dış değer (outlier) analizi için gruplama ve model kurumu • Uygulamalar: Sağlık, perakendecilik, kredi kartı servisleri, ve haberleşme – Araç sigortalama: hasar halkaları – Kara para aklama – Sağlık sigortası • Gereksiz veya birbiriyle ilgili sağlık testleri – Haberleşme: Telefon görüşmelerindeki sahtekârlıklar • Telefon görüşmelerinin modellenmesi: Aranan yer, arama süresi, aranan zaman. Beklenen değerlerden sapmanın olduğu konuşmaları detaylı bir şekilde incele. – Perakendecilik sektörü • Analistlerin bulgularına göre bu sektörde meydana gelebilecek küçülmelerin %38 sebebi dürüst olmayan çalışanlar yüzündendir. – Anti-terrorizm Veri Madenciliği Neler Yapabilir? • Gruplama • Sınıflama – Kategorik, regrseyon • Özetleme – Özet İstatistik ve Özet Kurallar • Bağ Analizi ve Model Bağımlılıkları – İlişki (bağlantı) kuralları • Sıralama Analizi – Zaman serileri, Sıralı bağlantılar (ilişkiler) – Sapmaların bulunması Gruplama Birbirine yakın şeylerin gruplarını bulmak İstatistiksel teknikler bu bağlamda bazı “uzaklık” tanımlarının yapılamsını gerektirirken, kavramsal metodlar geri plandaki bilgilere ve mantıksal tanımlamalara dayanırlar Kulanım Yerleri: Demografik analizler, Pazar segmentasyonu “Seyahat tercihleri benzer olan kişileri aynı gruplara yerleştir” Kemal, Ali, Sevda, Ferhunde, Burak Gruplar Sınıflandırma • Önceden tanımlanmış gruplar (sınıf) içine verilenleri ayrıştıracak metodun bulunması – X ve Y’nin aynı grupta olduklarını biliyoruz. Acaba başka hangileri aynı grup içersinde • “Eğitim verileri”ni gerektirir: Öyleki bu verilerin ait oldukları gruplar önceden bilinir Kullanım: • Profilleme Teknikler: • Karar Ağaçları • Yapay Sinir Ağları Eğitim Verisi Araçlar Prosedürler Gruplar Sınıflayıcı İlişki Kuralları • Verilerdeki bağımlılıkların belirlenmesi: – X, Y’i mümkün kılıyor • Her bağımlılığın öneminin belirlenmesi • Bayes Metodları Kullanım: • Hedef pazarlama Teknikler: • Apriori “Birlikte yaygın olarak alınan ürünlerin bulunması” – Balık alanların marul alma ihtimalleri çok yüksektir – Ketçap alanların makarna alma ihtimalleri?