VERİ MADENCİLİĞİ veri ambarlarındaki bilgiler Veritabanları veya diğer bilgi depolarındaki bilgiler Daha önceden bilinmeyen, geçerli ve uygulanabilir bilgiler Karar Verme Süreç Kontrol Sorgulama Bilgi Yönetimi Veri Madenciliği Karar Verme Sorgulama Süreç Vontrol Kuruluşlardaki depolanmış verilerden faydalı bilgiler Bilgi Yönetimi • Uygulama Alanları Bankacılık Ve Sigorta – Dolandırıcılık Tespiti Kredi Kartı Dolandırıcılığı Kara Para Aklama Uygulama Alanları • Sağlık – Tanı İçin Karar Destek Sistemi Olarak Uygulama Alanları • Spor – Futbol Ve Basketbol Uygulama Alanları • Telekominasyon Firmaları – Mevcut Müşterilerin Elde Tutulması (Churn) – Dolandırıcılık Tespiti Uygulama Alanları • Astronomi – Yeni Keşifler Uygulama Alanları • Üretim Tesisleri – Üretimden Kaynaklanan Hataların Altında Yatan Gizli Nedenleri Ortaya Koyma Perakende Satış Sektörü – Müşterilerin Satın Alma Örüntüleri –Pazar Sepeti Analizi –Çapraz Satış Satış Tahmini Müşteri Profili Çıkarma Müşterilerin demografik özellikleri ile satın aldıkları ürünler arasındaki ilişki Diğer – Genetik Mühendisliği – Sinyal İşleme – Telefon Görüşmelerindeki Kesintileri Tahmin Yöntemiyle Giderme Özet Olarak Üretimde gözden kaçan hatam var mı? •Hangi müşterilerim, iyi, uzun dönemli ve değerli? Hangileri değil? •Hangi müşterim beni dolandırabilir? Ödemesini aksatabilir? •Daha etkin bir satış tekniği nasıl uygulayabilirm Kullanan Firmalardan Bazıları Değerlendirme ve Sunuş Problemin belirlenmesi. Bilgi Sonuçlar (Kurallar ) Verinin elde edilmesi Seçme ve Dönüştürme Veri Ambarı Temizleme ve Bütünleme Veri Tabanları Bilgi Keşfinde Veri Madenciliği Aşamaları ve Adımları Değerlendirme ve Sunuş Problemin belirlenmesi. Bilgi Sonuçlar (Kurallar) Seçme ve Dönüştürme Veri Ambarı Temizleme ve Bütünleme Veri Tabanları Bilgi Keşfinde Veri Madenciliği Aşamaları ve Adımları Belirli bir döneme ait Konu odaklı olarak düzenlenmiş Birleştirilmiş ve sabitlenmiş Dış çevreden elde edilen bilgiler Sadece okunabilir İşletmelerde kullanılan işlemsel veritabanlarından ve dış veri kaynaklarından elde edilir Bilgiler kullanıma hazır hale getirilir. Veri analizi ve sorgulama işlemleri gerçekleştirilir Karar verme aşamasında başvurulur İşlemsel Veritabanları Ekle Güncelle OLTP Veritabanı Sil Oku Some Applications on Records Veri Madenciliği teknikleri sayesinde Güncel Verilerin işlendiği veritabanlarındaki veriler Başvurulabilir Bilgi haline dönüştürülür Özellik Güncel Verilerin işlendiği Veritabanı Sistemi OLTP Analiz ve Sorgulama Sistemi OLAP Nitelik Günlük işlemler Bilgi Elde Etme İşlemleri Yönlendirme İşlem Analiz Kullanıcı Çalışanlar, Veritabanı Yöneticileri ve uzmanları Yöneticiler, Analistler ve Diğer Karar Verici Kişiler Yükümlülük Günlük işlemler Belli bir döneme ait bilgiler Veri Güncellenebilir günlük bilgiler Geçmiş dönemi kapsayan bilgiler Erişim Okunabilir/Güncellenebilir Çoğunlukla sadece okunabilir Odaklanma Kaydedilen veri Elde edilen bilgi Veritabanı1 Veritabanı2 Veritabanı3 Veritabanı4 Veri Ambarı Müşteriler Tablosu Çalışanlar Tablosu Ürünler Tablosu Satışlar Tablosu Kesiti Veritabanı1 (Müşteriler) Müşteri ID İsim Soyad Doğum Tarihi 132 Anıl Arıkan 21.08.1991 234 Selen Akın 19.07.1973 Veritabanı2 (Çalışanlar) Çalışan ID İsim Soyad Doğum Tarihi 1 Esra Güney 25 .03.1970 2 Erdem Erkin 11 .02 .1969 Veritabanı3 (Ürünler) Ürün ID Tür Renk Kumaş 5 Etek Lacivert Keten 8 Bluz Pembe İpek 11 Pantolon Kahverengi Gabardin Veritabanı4 (Satışlar) Müşteri ID Ürün ID Çalışan ID Miktar Tarih 132 5 1 1 08.08.2009 132 8 2 1 06.09.2009 ? 5 1 1 03.10.2009 234 8 2 2 05.10.2009 234 11 2 1 05.10.2009 132 11 1 5 06.10.2009 234 5 1 3 06.10.2009 -- -- -- -- -- Veri Ambarı Kesiti Sıcaklık Ürün Toplam Ürün Sayısı E 12 etek 3 Perşembe H 13 pantolon 5 pembe Pazar H 8 bluz 2 Aslan kahverengi Pazar H 6 pantolon 1 -- -- -- -- -- -- -- -- -- -- -- -- Burç Renk Gün Aslan lacivert Salı Yengeç kahverengi Aslan Özel Gün E: evet H: hayır Örnek Veri Ambarı ZAMAN ÜRÜN ZAMAN ID ÜRÜN ID GÜN MARKA CİNS YIL TEDARİKÇİ TİPİ HAFTANIN GÜNÜ SAAT ÖZEL GÜN MÜ ? KİŞİ SATIŞ ANA TABLO KİŞİ ID ZAMAN ID YAŞ KİŞİ ID BURÇ ÜRÜN ID MESLEK YER ID YER ÜCRET DİLİMİ ORTALAMA SATIS (TL) YER ID CİNSİYET TOPLAM SATIS (ADET) CADDE ORT. SATIS (ADET) İLÇE HESAPLAMALAR İL ZAMAN TANI ZAMAN ID TANI ID GÜN BELİRTİLER AY YANETKİ KLINIK YIL MUAYENE ANA TABLO HAFTANIN GÜNÜ SAAT 23:00 – 07:00 ARASI MI? ZAMAN ID KİŞİ ID KİŞİ TANI ID KİŞİ ID YAŞ YER ID BURÇ SEDİMANTASYON MESLEK YER TRIGLISERİT KAN GRUBU CİNSİYET YER ID CADDE ERİTROSİT SOKAK İLÇE HESAPLAMALAR İL TA ZAMAN ZAMAN ID NI TANI ID GÜN BELİRTİ ID AY YANETKİ BELİRTİ ID BELİRTİ RECETE ID YIL HAFTANIN GÜNÜ BELİRTİ MUAYENE ANA TABLO SAAT 23:00 – 07:00 ARASI MI? REÇETE ZAMAN ID REÇETE ID KİŞİ ID ILAÇ ID KİŞİ TANI ID KİŞİ ID YAŞ YER ID BURÇ SEDİMANTASYON MESLEK KAN GRUBU TRIGLISERİT İL YER ID İL ID IL ID İL İLÇE CİNSİYET ERİTROSİT HESAPLAMALAR YER SEMT BELİRTİ MUAYENE ANA TABLO BELİRTİ ID TANI KİŞİ ID KİŞİ ID BELİRTİ BELİRTİ ID TANI ID ZAMAN ID ZAMAN ID BELİRTİ ID YANETKİ REÇETE RECETE ID REÇETE ID TANI ID TANI ID ATEŞ ILAÇ ID TANSİYON YER ID YER SEDİMANTASYON TRIGLISERİT NABIZ YER ID IL ID İL İL ID ERİTROSİT HESAPLAMALAR İL İLÇE SEMT Veri Ambarı Mimarisi Kaynak Kaynak Kullanıcı Veri Dönüşümü ve Bütünleştirme Veri Ambarı Kullanıcı Kaynak Kaynak Kullanıcı Değerlendirme ve Sunuş Bilgi Sonuçlar (Kurallar) Seçme ve Dönüştürme Veri Ambarı Temizleme ve Bütünleme Veri Tabanları Bilgi Keşfinde Veri Madenciliği Aşamaları ve Adımları Veri Madenciliği Modelleri Sınıflandırma • Satış Tahminleri • Sipariş Tahminleri • Üretim Hata Maliyetlerinin Tahmini ve Nedenleri • Dolandırıcılık Tespiti Kümeleme • Müşteri Profili Çıkarma • Ürün Satış Profili Çıkarma • Hata Yer ve Zamanlarının Kümelenmesi Birliktelik Analizi • Pazar Sepeti Analizi • Zamana Bağlı Ardışık Satış Veri Madenciliği Modelleri Sınıflandırma Algoritmaları Kümeleme Analizi Birliktelik Analizi • C5 • C&R Tree • CHAID • En Yakın Komşu Algoritması • K-Mean • Gri • Appriori Veri Madenciliği Modelleri Tahmin yapma Veri tabanlarındaki gizli örüntülerin varlığını ortaya koyma Belirli ortak özelliklere göre verileri gruplara ayırma Sınıflandırma Veri Madenciliği Modelleri Veri Madenciliğinde Örüntü Nedir? Bir varlık hakkında sayısal ortamda kayıtlı olan gözlemlenebilir ve ölçülebilir bilgilerdir. Veri Madenciliği Modelleri Örüntü Tanıma İşlemi Ele alınan bir örüntünün veritabanlarındaki benzerlerini araştırmaktır. Örüntü tanımada yapılan işlemler bir çeşit sınıflandırmadır. Sınıflandırma Yöntemleri Karar Ağaçlarına Dayalı Algoritmalar İstatistiğe Dayalı Algoritmalar - Bayesyen Sınıflandırma - Regresyon Mesafeye Dayalı Algoritmalar - K-En Yakın Komşu Algoritması Yapay Sinir Ağları Classification Process Renk A Kahve Pembe Burç Ürün B Aslan D 3 ürün Satış C Yengeç E 2 ürün Satış Bluz F 2 ürün Satış Etek G 1 ürün satış Karar Ağacı İle Çıkartılan Kural Örnekleri Kural 1: If renk = kahverengi Then If burç=“aslan” Then karar = 3 ürün satış ; if burç = “yengeç” then karar = 2 ürün satış; Kural 2: If renk =pembe Then If ürün=“Bluz” Then karar = 2 ürün satış; If ürün=“Etek” Then karar = 1 ürün satış; Kümeleme Kümeleme, veriyi benzerlikleri ile doğru oranda kümelere ayırma işlemidir. benzerlik benzemezlik Kümeleme Tekniğinin Kullanıldığı Alanlar İstatistik Astronomi Grupların Alışveriş Örüntüleri Biyoloji Farklı Müşteri Grupları Makine Öğrenimi Coğrafik Yerleşim Kümeleme Tekniği KullanılanYöntemler: Çeşitli uzaklık ölçüleri kullanılarak benzerlikler ortaya konur. “ İzmit bölgesinde yaşayan kişiler giyim tercihi açısından Karadeniz Bölgesinde yaşayan kişilere Yalova’da yaşayan kişilerden daha çok benzerler.” Veri Madenciliği Modelleri Birliktelik Kuralları (İlişki Analizi) Veritabanındaki bir dizi bilgi ya da kaydın diğer kayıtlarla olan bağlantısını açıklayan işlemlerdir. Birliktelik Kuralları Pazar – Sepet Çözümlemesi Müşterilerin bir alışverişte satın aldığı tüm ürünleri ele alarak, satın alma eğilimini ortaya koyan bir uygulamadır. “Çocuk bezi alan bir müşterinin, mama alma olasılığı diğer müşterilerden 3 kat daha fazladır.” Kullanılan Programlardan Bazıları • • • • • • • • SPSS Clementine (IBM Modeller) Weka Data Miner KNIME Answer Tree SEE5 Oracle Business Suite SQL Server Business Intelligence Module Örnek Uygulama •Problem: Üretim planı ve promosyon çalışmalarının piyasa beklentileriyle uyum göstermemesi •Amaç: •Satışı yapılan ürünlerin, hangi renk ve hangi parça olmalarının belli bir kurala bağlı olup olmadığının araştırılması •Veriler? – İşletmenin elindeki klasik ilişkisel veri tabanını veri ambarı haline dönüştürdük. Kullanılan parametreler şöyledir. Veri Ambarı Gün Özel Gün Özel Gün Öncesi Ürün Renk Beden Sıcaklık Alınan Ürün Sayısı X Dizisindeki Ana Renk Pazar E 1 Etek Siyah M 12 1 BEYAZ Cuma E 3 Ceket Erkek Siyah M 12 2 BEYAZ Salı H 300 Hırka kadın yeşil S 15 3 YEŞİL ............. ....... .......... ...... ....... ........ ....... ......... ........