ISE 302 VERİ MADENCİLİĞİ DR. TUĞRUL TAŞCI Ders Planı Hafta Konu Başlığı Hafta Konu Başlığı 1 Veri Madenciliği Nedir? Ne Değildir? 8 Sınıflandırma 2 Veri Tipleri, Verinin Yorumlanması 9 Kümeleme 3 Bilgi Keşfi Süreci ve Veri Madenciliği Aşamaları Ödev 10 11 4 5 Veri Temizleme, İndirgeme, Bütünleştirme 12 Veri Ambarı 6 Veri Dönüştürme Yaklaşımları ve Teknolojileri 13 7 Birliktelik Analizi Kısa Sınav 14 Ara Sınav MS Analysis Services ile VM Uygulamaları SQL Server, Analysis Services, Integration Services, Reporting Services, SQL Server Data Tools VM Araştırma Eğilimleri İmge Madenciliği Kısa Sınav Veri Madenciliği Nedir? Veri Madenciliği, örüntü tanıma, istatistik ve matematiksel yöntemlerin kullanımıyla devasa miktardaki güncel ya da geçmiş veri içerisinden ilgi çekici ( önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı ) bilginin gelecekteki eğilimleri kestirmek ya da sonraki aşamalarda analiz etmek üzere etkin şekilde çıkarılması sürecidir. Veri Madenciliğinin Önemi İşletmelerde verimlilik / karlılık artışı Giderlerinin azaltılması Zarar oluşmadan tahmin edip ortadan kaldırılması Risk Yönetimi / Hilekarlık Tespiti Bilimsel araştırmalarda hız ve etkinlik artışı İnsansız sistemlerin gelişimine destek Eğitim – Sağlık – Güvenlik ve diğer birçok sektörde önleyici tedbirler alınması ve hizmet iyileştirme Veri Kaynakları Müşteri Alış-veriş Kayıtları ( Fiziksel ve Sanal Mağazalar ) Müşteri İşlem Kayıtları ( Telekomünikasyon, Bankacılık ve Internet Bankacılığı ) İşletme İşlem Kayıtları ( Diğer işletmelerle yapılan alım-satımlar, banka işlemleri, borsa işlemleri ) Bilimsel Veriler (uzay araştırmaları, ilaç araştırmaları, okyanus ve yer altı araştırmaları, deprem araştırmaları, canlılarla ilgili araştırmalar ) Güvenlik ve Gözetleme Sistemleri (Şehir merkezleri, AVM’ler , Şehir giriş çıkışları, hava alanları, Otoparklar, Binalar) Uydu ve Haberleşme Sistemleri Olimpiyat Oyunlar, Ulusal ve uluslararası spor müsabakaları Dijital Medya: Dijital resim, müzik ve videolar ( Filmler ) Dijital Kütüphaneler Web Siteleri ve Mobil Uygulamalar E-Posta & Sosyal Medya: Youtube, Facebook, Twitter, Instagram, WhatsApp Tıbbi Kayıtlar ve Kişisel Veriler Verilerle Ne Tür Uygulamalar Yapılabilir ? Karakterizasyon: Belli bir sınıfa ait karakteristik özellikler Ayrıştırma: Belli sınıfları birbirinden ayırmak Ayda 30 kezden daha fazla alışveriş yapan müşteri sınıfı 30’dan fazla alışveriş yapanlar ile 5’ten az alış veriş yapanların ayrımı Evrilme ve Sapma: Zamanla değişen verilerle ilgili yapılan çalışmalardır. Evrilme analizi sonucunda karakterizasyon, karşılaştırma, sınıflandırma ve kümeleme ile ilgili çalışmalara zemin oluşturacak eğilimler tespit edilir. Sapma analizinde, ölçülen değerler ile beklenen değerler arasındaki farkların incelenir, ve beklentilerden neden sapma olduğu tespit edilir. Sınıflandırma: Verinin önceden belirlenmiş sınıflara bölümlenmesidir. Örneğin bir banka müşterilerini karlı, normal, riskli gibi gruplara ayırıp ürün pazarlamasını buna göre yapmak isteyebilir. Verilerle Ne Tür Uygulamalar Yapılabilir ? Kümeleme: Verilerin benzerliklerine göre gruplanması Tahmin: Eldeki verilerin benzer özniteliklerine göre bilinmeyen değerlerin tahmin edilmesi ya da yeni bir verinin özniteliklerine göre daha önce belirlenmiş sınıflardan hangisine girebileceğinin belirlenmesi Aykırılık Analizi: Aykırı ya da sıra dışı değerlerin/durumların tespit edilmesi Birliktelik Analizi: Veriler arasındaki karşılıklı ilişkilerin analizi. Özellikle market sepet analizinde kullanılır. Değişken Tespiti Görselleştirme Kredi kartı işlemleri şüpheli olan kişilerin ev sahipliği durumu, yaş, meslek ve gelir bilgilerini anlık ve grafiksel olarak keşfetme Veri Madenciliği Uygulamaları ( Sektörel ) Müşteri İlişkileri Yönetimi - Satış - Pazarlama: Müşterilerin satın alma davranışlarının belirlenmesi, Promosyon kampanyalarında cevap verme oranının tahmini ve artırılması, Eski müşterileri inceleyerek iyi yeni müşteri profilinin çıkarılması Yeni ürün ve hizmetlerin karlılık üzerindeki etkisi ne olacak? Hangi ürün promosyonlarının karlılık üzerindeki etkisi en yüksek? En iyi dağıtım kanalı hangisi? Müşteri kayıp analizi ve bunun sebeplerinin ortaya çıkarılması Çapraz satış ve üst kategori ürün satışı (Süt – Çocuk bezi) Veri Madenciliği Uygulamaları ( Sektörel ) Tıp Klinik testler ile hastalıkların erken teşhisi Hastalıkların teşhisi için görüntü analizi Semptomlar ve hastalıklar arasındaki ilişkilerin keşfi Eczacılık Yeni ilaçların belirlenmesi Eczane açılabilecek yerlerin tespit edilmesi Bilimsel veri analizi Alt galaksi kümelerinin incelenip yeni galaksilerin tespit edilmesi Keşfedilen yeni canlı türlerinin sınıflandırılması Veri Madenciliği Uygulamaları ( Sektörel ) Bankacılık ve Sigortacılık Kredi kartı ve sigorta dolandırıcılıklarının tespiti, Kredi kartı harcamalarına göre müşteri gruplarının belirlenmesi, Kredi skoru hesaplama Yeni sigorta poliçesi talep edecek müşterilerin tahmin edilmesi, Web Madenciliği Yeni satış stratejileri belirlenmesi Belli ürün grupları için uygun müşteri profilinin çıkarılması Müşterilerin satın alma davranışlarının öğrenilmesi Müşterilerin uygulama kullanma deneyimlerine göre web sitelerinin özelleştirilmesi Veri Madenciliği Uygulamaları ( Sektörel ) Güvenlik ve Hukuk Suç ve terörizm ile ilgili örüntülerin tespit edilmesi Biyolojik ve kimyasal saldırıların tespiti ve ortadan kaldırılması Bilgi altyapısına yönelik kötü niyetli atakların tespiti ve durdurulması Eğlence Prime-time’da gösterilecek programlara ve reklamlara nerede yer verilmesi gerektiğine karar verilmesi Filmlerin finansal başarısının tahmini Seyahat Farklı hizmetlerin (uçak bilet tipleri, oda tipleri, araç kiralama) satış tahmini En karlı müşterilerin tespiti ve özelleştirilmiş hizmetlerin sağlanması Veri Madenciliği Uygulamaları ( Sektörel ) Bilişim Sistemleri İstenmeyen web içerikleri ve mesajların belirlenmesi ve filtrelenmesi Bilgisayar ağ güvenlik köprülerinin tespiti ve korunması Borsa ve Menkul Kıymetler Belirli hisse fiyatlarının ne kadar ve ne zaman değişeceğinin tahmini Sermaye dalgalanmalarının yönü ve oranının tahmini Bazı olaylar ve konuların pazardaki hareketliliğe etkisinin değerlendirilmesi Menkul kıymetler ticaretindeki şüpheli aktivitelerin tespiti ve önlenmesi Perakendecilik ve Lojistik Market-sepet analizi Lojistik optimizasyonu için farklı ürün tiplerine ait tüketim seviyelerinin tahmini Tedarik zincirindeki ilginç örüntülerin keşfi Bilgi Keşfi Süreci ve Veri Madenciliği Veri Madenciliği Sürecindeki Zorluklar Problemin doğru tespiti Yüksek Boyut Karmaşık ve Düzensiz Veri Farklı ve uyumsuz veri kaynaklarından gelen verilerin birleştirilmesi Veri Kalitesi Tekrarlı, geçersiz, eksik veri, veri tipinin yanlış seçimi, örneklemenin yanlış yapılması Gizliliğin Korunması Veri Akışı Etkin Yöntemler Sürekli yeni veri gereksinimi Büyük miktarda verilerden anlamlı bilgi çıkarmak için etkin yöntemlere olan gereksinim Karmaşık Uygulama Yazılımları Veri Madenciliği Uygulama Araçları IBM SPSS Modeler / Clementine Selford Systems IBM DB2 Intelligent Miner Viscovery IBM Cognos BI Statistica Data Miner Oracle Data Mining Orange Microsoft Analysis Services KNIME Microsoft SharePoint Weka SAP Business Objects, BI DataMinerXL R, MATLAB, SCILAB, Mathematica XLMiner SQL Server Data Mining Add-ins for MSOffice Veri Seti Tipleri Kayıtlar İlişkisel kayıtlar, Çapraz kayıtlar, Metin, İşlemler Çoklu Ortam Verileri Site İçerikleri, Sosyal Ağ Profil Bilgileri, Paylaşımlar Sıralanmış Veri Setleri Ses, Resim, Video Web ve Sosyal Ağlar Konum Verileri Zaman serileri, Sıralı işlem Verileri, Genetik Kod Dizileri Haritalar ve GPS verileri Alana Özel Veriler Dil, Kimya, Tıp, Jeoloji vb. Veri Matrisi Matris çok boyutlu uzayda bir nokta olarak düşünülebilir. Veri çoğunlukla n×d boyutundaki bir matrisle temsil edilir. n verinin miktarını, d ise boyutsallığını temsil eder. Satırlar veri setindeki kayıtları, sütunlar ise verinin kullanılabilecek özelliklerini gösterir. Kişi Yaş Kilo Boy Cinsiyet K01 34 90 165 Erkek K02 23 65 178 Bayan K03 45 73 167 Erkek K04 26 58 159 Bayan K05 19 75 189 Erkek K06 21 49 175 Bayan K07 56 78 163 Erkek K08 33 57 161 Bayan K09 29 62 165 Bayan İlişkisel Veri İşlem Verisi & Sıralı Veri İşlem Verisi Müşteri İşlem M01 Ekmek, peynir, süt M02 Sigara, çakmak M03 Ekmek, çikolata M04 Yoğurt, Sucuk, Mısır M05 Un, nişasta M06 Yağ, şeker M07 Çay Sıralı Veri (A B) (D) (C E) (B D) (C) (E) (C D) (B) (A E) (D E) (A) (C) Metin Verisi Uluslararası hakemli dergilerde yayınlanan makaleler Tasci T., Oz C. (2014), "A Closer Look to Probabilistic State Estimation – Case: Particle Filtering", Optoelectronics & Advanced Materials – Rapid Communications, Vol. 8(5-6), pp. 521 – 534. Tasci T., Parlak Z., Kibar A., Tasbasi N. &, Cebeci H.I. (2014), " A Novel Agent-Supported Academic Online Examination System", Educational Technology & Society, Vol.17 (1), pp. 154 – 168. Uluslararası Diğer Hakemli Dergilerde Yayınlanan Makaleler Hiziroglu K., Tasci T. & Ozcelik T. O. (2012), "Analysis of Current Occupational Health and Safety Situation and Needs of SMEs in Turkey", Journal of Labor Relations, Vol. 3(2), pp. 66 – 89. Uluslararası Bildiriler Yolcu G., Oz C. & Tasci T., "Developing and Establishing a Painting Program Controlled by Hand Motions Using Kinect", 2nd International Symposium On Innovative Technologies In Engineering And Science (ISITES), Karabuk University, June 18-20, 2014, Karabuk, Turkey. Tasci T., Tasbasi N., Velichkov A., Kloos U. & Tullius G., "A Comparative Evaluation of Two 3D Optical Tracking Systems" ,JVRC 2012 - Joint Virtual Reality Conference of ICAT - EGVE - EuroVR, October 17-19,2012, Madrid, Spain Ulusal hakemli dergilerde yayınlanan makaleler Ulusal bilimsel toplantılarda sunulan ve bildiri kitabında basılan bildiriler Tasci, T., Goksu A. & Kantoglu B., "E-Dönüşümde Bilgi ve İletişim Teknolojilerinin Kullanımı", Akademik Bilişim Konferansı, February 11-13, 2004, Trabzon, Turkey Diğer Yayınlar Tuğrul TAŞCI "Temel Bilgi Teknolojisi Kullanımı - İşletim Sistemleri" ,Sakarya Üniversitesi, 978-605-4735-03-7, 2012. Gen Dizisi Verisi Infografik Verisi Harita ve Konum Verisi Resim & Video Verisi Resim Verisi Video Verisi Kare 65 Kare 70 Tıbbi & Kimyasal Veri Tıbbi Veri (MR) Kimyasal Veri Değişken Tipleri Nominal (Kategorik) Ordinal (Sıralı) Interval (Aralık) Ratio (Oran) Continuous (Sürekli) Discrete (Kesikli) Kesikli & Sürekli Değişken Kesikli (Discrete) Değişken Sadece sayılabilir değerler alan değişkenler. Çok fazla olası değer alan değişkenler: Bir gündeki şikayet sayısı Hane halkını sahip oldukları telefon sayısı Telefon açılmadan önce çalma sayısı Sürekli (Continuous) Değişken Sürekli (sayılamayan) değerler alan değişkenler. Bir parçanın kalınlığı Bir işi tamamlamak için geçen süre Solüsyonun ısısı Ağırlık Ölçümlerin doğruluk ve hassasiyetlerine bağlı olarak herhangi bir değer alabilirler. İki değer alan değişkenler: Cinsiyet: Kız veya Erkek Sorunlu Parça: Evet veya Hayır Kategorik & Sıralı Değişken Kategorik (Nominal) Değişken Sayısal büyüklük ifade etmeyen kategorik veri. Nominal değişkenler sadece niteliksel sınıflandırmalarda kullanılırlar. Bu değişkenlerin ölçümü ve sıralanması mümkün değildir. İnsanların medeni hali, cinsiyeti, mesleği, göz rengi buna örnek olarak gösterilebilir. Sıralı (Ordinal) Değişken Bu değişken ölçülen değerlerin birbirlerine göre büyüklüklerini belirleyen ancak bir değişkenin diğerinden ne kadar büyük ya da küçük olduğunu ifade edemeyen değişkenlerdir. Rütbe, derece, yükseklik (uzun, orta, kısa) gibi sıralı verileri içerir. Aralık & Oran Değişken Aralık (Interval) Değişken Sıcaklık, başarı, performans gibi niceliksel değişkenleri ölçmek için kullanılır. Aralık ölçeğinin oran ölçeğinden temel farkı bir başlangıç noktasının bulunmamasıdır. Diğer bir ifade ile “0” değeri aralık ölçeğinde yokluk ifade etmez. Örneğin termometrede görülen “0°C” belirli bir anlam taşır. Oran (Ratio) Değişken Ratio değişkenler interval değişkenlere benzerler, interval değişkenlerin özelliklerine ek olarak, tanımlanabilen bir sıfır noktasına sahiplerdir, böylece “X Y’den 2 kat daha fazladır” gibi ifadeler de kullanabiliriz. Aylık gelir, ağırlık, uzunluk, hız gibi değişkenleri ölçmek için kullanılır. Bu ölçekte başlangıç “0” noktasıdır. Departman Veriyi Anlama – Görsel Teknikler Nominal Veri Frekans Dağılımı Sütun Grafikleri Pasta diyagramı Pareto diyagramı Sayı Oran Muhasebe 73 28.9 Finans 52 20.6 Yönetim 36 14.2 Satış 64 25.3 Diğer 28 11.1 Toplam 253 100 Çizgi Grafikleri Frekans Dağılımı Histogram ve Ogive Stemplot Diyagramı Serpilme Diyagramı Diğer Satış Yönetim Finans 28, 11% 73, 29% Nümerik Veri Çalışanların Dağılımı Muhasebe 64, 25% 0 Sayı 52, 21% 36, 14% Muhasebe Finans Yönetim 20 Satış Diğer 40 60 80 Veriyi Anlama – Görsel Teknikler Nominal Veri Frekans Dağılımı Sütun Grafikleri Pasta diyagramı Pareto diyagramı Nümerik Veri Çizgi Grafikleri Frekans Dağılımı Histogram ve Ogive Stemplot Diyagramı Serpilme Diyagramı Sıcaklık – Dondurma Satışı 800 600 400 200 0 0 10 20 x y 30 Veriyi Anlama – Sayısal Teknikler Merkezi Eğilim Ölçütleri: Değişkenlik Ölçütleri: Doğrusal İlişki Ölçütleri: Ortalama: Değişim Aralığı: Kovaryans: Basit şekli ile bütün gözlem değerlerinin toplam gözlem adedine bölünmesi ile hesaplanır. Aykırı değerlerden çok etkilenir. Medyan: Sıralı veri setlerindeki ortanca değerdir. Aykırı değerlerden daha az etkilenir. Mod: Bir veri setinde en çok tekrarlanan değerdir. Ancak veri seti çok büyükse anlamlıdır. Veri setinin dağıldığı aralıktır. (Max-Min). Varyans: Gözlenen değer ile beklenen değer arasındaki farktır. Standart Sapma: Varyansın ortalama düzeyine normalleştirilmiş halidir. İki değişkenin birlikte değişme derecesini gösterir. Korelasyon Katsayısı: Kovaryans değerinin -1 ile +1 arasında normalleştirilmiş halidir. 31 Veri Kalitesi Verinin kalitesi temelde aşağıdaki üç etkenle belirlenir. Gürültü ve aykırı değerler Kayıp değerler Veri tekrarı 32 Veri Kalitesi / Gürültü Veri girişi veya veri toplanması esnasında oluşan sistem dışı hatalara gürültülü denir Kullanıcı tarafından sisteme verilerin yanlış girilmesi, ölçüm yönteminin yanlış seçilmesi veya doğru uygulanamaması sonucunda ortaya çıkar. Ancak günümüzde kullanılan ilişkisel veri tabanları bu tip hataların olasılıkları oldukça azalmaktadır. 33 Veri Kalitesi / Aykırı Değer Veri kümesinde, diğer nesnelerden ciddi şekilde farklı olan veri nesnelerinin gösterdiği karakteristiktir. 34 Veri Kalitesi / Eksik Değer Kayıp (Eksik) değerler için çeşitli sebepler vardır: Bilgi toplanamaması (Örn., insanlar yaşları ve kiloları ile ilgili bilgi vermeyi istemezler) Öznitelikler bütün durumlar için uygun olmayabilir (Örn., yıllık gelir çocuklar için uygun değildir) Kayıp değerlerle mücadele Eksik kayıtların dikkate alınmaması Kayıp değerler yerine tahminlerinin yerleştirilmesi Analizler müsaade ediyorsa eksik değerlerin es geçilmesi 35 Veri Kalitesi / Tekrar Eden Veri Veri seti tekrar eden kayıtlar içerebilir, veya bazı kayıtlar hemen hemen tamamen diğerine eşittir Bu durum genellikle heterojen kaynaklardan gelen veriler birleştirildiğinde meydana gelir. Aynı kişiye ait birden fazla mail adresinin bulunması Çözüm: Veri temizleme (Tekrar eden verilerin islenmesi ile ilgili bir prosestir.) 36 Elde Edilen Kirli Veri & Nedenler Eksik: Bazı nitelik değerleri girilmemiş. Meslek = “ ” Gürültülü: Mantıksal hatalar var. Maaş= “-10” Tutarsız: Nitelik değerleri veya isimleri uyumsuz. Eksik veri kayıtlarının nedenleri Veri toplandığı sırada bir nitelik değerinin elde edilememesi, bilinmemesi Veri toplandığı sırada bazı niteliklerin gerekliliğinin görülememesi İnsan, yazılım ya da donanım problemleri Hatalı veri kayıtlarının nedenleri Yaş= “35”, Doğum tarihi: “03/10/2004” Önceki oylama değerleri: “1,2,3”, yeni oylama değerleri: “A,B,C” Hatalı veri toplama gereçleri İnsan, yazılım ya da donanım problemleri Bir kaynakta nitelik değeri ‘ad’, diğerinde ‘isim’ Veri iletimi sırasında problemler Tutarsız veri kayıtlarının nedenleri Verinin farklı veri kaynaklarında tutulması İşlevsel bağımlılık kurallarına uyulmaması