VERİ MADENCİLİĞİNİN GÖREVLERİ VERİ MADENCİLİĞİNİN GÖREVLERİ Classification (Sınıflandırma) Karakterizasyon (Betimleme) Regression (İlişki Çıkarımı) Clustering (Kümeleme) Association (İlişki Analizi) Forecasting (Tahmin Yapma) CLASSIFICATION (SıNıFLANDıRMA) En popüler veri madenciliği çeşitlerinden birisidir.Temel olarak yaptığı şey yeni bir nesnenin niteliklerini inceleme ve bu nesneyi önceden tanımlanmış bir sınıfa atamaktadır. Burada önemli olan ,bir sınıfın özelliklerinin önceden net bir şekilde belirtilmiş olması gerektiğidir. Bir malın özellikleriyle müşteri özelliklerini eşleştirebiliriz.Böylece bir müşteri için ideal ürün veya bir ürün için ideal müşteri profili çıkarılabilir. CLASSIFICATION (SıNıFLANDıRMA) Veri içerisindeki ayrışmaların ve değişim noktalarının önceden bilindiği durumlarda, I.Yeni bir verinin yer alacağı grubun (sınıfın) belirlenmesi, II.Önceden gruplanmış (sınıflandırılmış) verilerin doğru sınıflandırılıp sınıflandırılmadığının tespiti ve yanlış sınıflandırma varsa gözlemin (nesnenin) doğru gruba atanması için kullanılır. ÖRNEK KARAKTERIZASYON Veriyi •tanımak, •anlamak, •doğru yöntem uygulamak, •doğru sonuçlar elde etmek için kullanılır. ÖRNEK REGRESSION Classification’a benzer. Temel fark, tahmin edilecek olan attribute’un continious number (parçalanabilir birimler -1.5, 23.8 gibi-) olmasıdır. Regresyon tekniği yüzyıllardır istatistik ana bilim dalının bir kolu olarak öğretilmektedir. Lineer ve lojistik regresyon, en popüler regresyon metotlarındandır. ÖRNEK CLUSTERING (KÜMELEME) Veri içerisindeki ayrışmaların ve değişim noktalarının önceden bilinmediği durumlarda, bir benzerlik veya benzemezlik ölçütüne göre verileri (nesneleri) gruplamayı sağlar. CLUSTERING (KÜMELEME) Cluster 1, düşük gelir grubuna sahip genç popülasyon Cluster 2, daha yüksek gelirli ve orta-yaşlı popülasyon Cluster 3 ise daha düşük gelirli ve yaşlı popülasyonu temsil ediyor. ÖRNEK ASSOCIATION (İLIŞKI ANALIZI) İlişki analizi, veri içinde güçlü bir şekilde ilişkilenmiş özelliklerin keşfini amaçlar. Genelde bu ilişkiler kurallar şeklinde ifade bulur. Verinin özellikleri arasındaki olası ilişkilerin, özellik sayısına bağlı olarak üstel bir şekilde artması nedeniyle, ilişki analizi bir yandan zayıf ilişkileri gözardı ederken, güçlü ilişkileri saptamaya çalışır. Birliktelik analizinin kullanıldığı alanlardan bir kaçı; gen gruplarının saptanması, web sitesi üzerinde birlikte gezilen sayfaların saptanması ve marketten birlikte satın alınan ürünlerin belirlenmesi sayılabilir. ASSOCIATION (İLIŞKI ANALIZI) Marketten birlikte alınma ihtimali yüksek ürünleri saptanmasına Market Sepeti Analizi (Market Basket Analysis) ismi verilmiştir. Market sepet analizi, müşterilerin birlikte satın alma ihtimali yüksek ürünlerin saptanarak, raf yerleşim ve fiyatlamayı ona göre düzenlemeyi ve ciroyu artırmayı amaçlamaktadır. Market sepet analizi sonucunda krem peynir alanların %80’inin ekmek aldığı bulunmuş ise bu iki ürün grubunu rafları birbirinden uzak raflara koyarak müşterinin markette daha uzun süre dolaşması sağlanabileceği gibi krem peynire yapılacak ufak bir indirime karşılık ekmekte yapılacak daha büyük bir fiyat artışı oluşan karı artıracaktır. ASSOCIATION (İLIŞKI ANALIZI) ÖRNEK FORECASTING Genellikle girdi olarak bir zaman serisi veri kümesi alır; örneğin zamanı temsil eden bir attribute ile bir dizi sayı. Zaman serileri verileri genellikle sıra bağımlı bir şekilde birbirine yakın değerlere sahip olurlar. Forecasting teknikleri, genel trendler ve periyodiklik ile uğraşır. En popüler zaman serileri tekniği ARIMA’dır. (AutoRegressive Integrated Moving Average) ÖRNEK