Veri Madencliği

advertisement
1

Veri Tabanı, Veri Ambarı, Veri Madenciliği
Bilgi Keşfi Aşamaları
Apriori Algoritması
Veri Madenciliği Yöntemleri
Problemler
 Veri Madenciliği Uygulama Alanları
2

Bir bilgisayarda sistematik şekilde saklanmış,
programlarca istenebilecek veri yığınıdır.
Veri Tabanı Yönetim Sistemi
Information Science
3
4
Veri tabanında asıl önemli kavram, kayıt yığını ya da
bilgi parçalarının tanımlanmasıdır.
 Buna ŞEMA adı verilir.
 Şema veri tabanında kullanılacak bilgi tanımlarının
nasıl modelleneceğini gösterir.
 Buna DATA MODEL denir.
 En yaygın olan data model İLİŞKİSEL MODEL’dir.
5
6
 Veri tabanı yazılımları ise verileri sistematik bir biçimde
depolayan yazılımlardır.
 Birçok yazılım bilgi depolayabilir ancak aradaki fark ,veri
tabanının bu bilgiyi verimli ve hızlı bir şekilde yönetip
değiştirebilmesidir.
7

8
Veri ambarı ilişkili verilerin
sorgulanabildiği ve analizlerin
yapılabildiği bir depodur.
Başlangıçta farklı kaynaklardan
gelen verinin üzerinde daha
etkili ve daha kolay sorguların
yapılmasını sağlamaktadır.
9
10
 Off-Line çalışır.
 Veri değişiminden çok
sorgulama yapılır.
 Eski veriler saklandığı
için veri miktarı çok.
 Üst yönetim ve
analistler
kullanır.(kullanıcı
sayısı az)
 Veri madenciliği gibi
uzun süreçler
sonucunda analizler
yapılır.
 On- Line çalışır.
 Veri değişimi işlemleri
yoğunluktadır.
 Güncel veriler saklandığı
için veri miktarı daha az.
 Veriye ulaşmak ve
değiştirmek isteyen her
kullanıcıya hitap
eder.(kullanıcı sayısı çok)
 Sorgularla istenilen
sonuçlara anında
ulaşılabilir.
11
12
 Veri madenciliği en basit şekilde büyük miktarda
veri içerisinden gelecekle ilgili tahmin yapmamızı
sağlayacak modellerin veya bağlantıların
oluşturulmasıdır.
13
 Riski az olan tüm kredi kartı başvurularını bul
 Harcama alışkanlığı benzer olan kredi kartı
sahiplerini bul
 DVD ile birlikte sıkça satılan ürünü bul
14
 Veri madenciliği yazılımı, genellikle ilgisiz
olarak görülen çok büyük hacimlerdeki
verilerden anlamlı örnekleri çıkarır.
15
1950
1960
1970
1980
1990
2000
• İlk bilgisayarlar
• Veri tabanı ve verilerin depolanması
• İlişkisel veri tabanı yönetim sistemleri
• Basit kurallara dayanan uzman sistemler ve makine öğrenimi
• Büyük miktarda veri içeren veri tabanları
• Veri tabanlarında bilgi keşfi
• Veri madenciliği için ilk yazılım
• Tüm alanlar için veri madenciliği uygulamaları
16
17

 Veri tabanlarında bilgi keşfi işlemleri, son
yıllarda veri tabanına sahip çevrelerde
büyük ilgi toplamaktadır.
 Bilgi keşfinin birkaç aşaması vardır.
18
Veri madenciliği
Şekil 1
Veri madenciliği buradaki modelin kurulması ve modelin değerlendirilmesi
aşamalarından meydana gelmektedir.
19

 Problemin tanımlanması: Uygulamanın hangi
işletme amacı için kullanılacağı belirlenir.
 Veri hazırlanması: Kendi içinde toplama ,değer
biçme,birleştirme ve temizleme,seçme ve
dönüştürme olarak ayrılır.
20
21

 Model kurulması: Yapılacak uygulama için en
güvenilir ve güçlü modeli bulmak gerekir. Model
çeşitleri ;
sınıflama,
kümeleme,
birliktelik kuralı.
 Modelin kullanılması: Modeller birçok alanda
kullanılıyor.
 Modelin izlenmesi: Değişen şartlara göre
güncelleme yapılmalıdır.
22

 Veri madenciliğinde ,birliktelik kuralı çıkarım
algoritmaları içerisinde en fazla kullanılan
algoritmadır.
24
 Bu algoritmada temel yaklaşım, “eğer k-öğe kümesi
minimum destek kriterini sağlıyorsa, bu kümenin alt
kümeleri de minimum destek kriterini sağlar. ”
şeklindedir.
Bir veya daha çok öğeden oluşan küme – köğe kümesidir.
25

 Destek kriteri, veride öğeler arasındaki bağıntının ne
kadar sık olduğunu belirtir.
X ve Y için destek her alışverişte birlikte
bulunmalarıdır.
Güven kriteri ise Y ürününün hangi olasılıkla X ürünü
ile beraber olacağını söyler.
26
Apriori algoritmasına örnek
27
Minimum destek
ve güven değeri
belirlenir
Üçlü birliktelikler
oluşturulur.
Öğeler kümesi
içerisindeki her
öğenin destek
değeri bulunur
Minimum destek
değerinden küçük
öğe kümeleri
çıkarılır
Minimum
değerden küçük
olanlar alınmaz
İkili birliktelikler
oluşturulur
Üçlü
birlikteliklerden
destek değerini
geçenler çıkarılır.
28
*TAHMİNİ YÖNTEMLER
*TAMAMLAYICI YÖNTEMLER
Tamamlayıcı yöntemler
Tahmini yöntemler
Sınıflandırma
En Yakın Komşu
Yapay Sinir Ağları
Karar Ağaçları
1.
Kümeleme
2.
Birliktelik
Kuralı
3.
Regresyon
30

Bellek tabanlı bir tekniktir.
1.
2.
• Yeni gelen birey sınıfa eklenir.
• k komşusuna bakılır.
3.
• Çeşitli uzaklık fonksiyonları kullanılarak
uzaklık hesaplanır.
4.
• En yakın neresi ise birey oraya atanır.
31

*YSA ile basit biyolojik
sinir sisteminin çalışma
şekli taklit edilir.
*Nöron sisteminin çeşitli
şekilde bağlanarak
oluşturduğu ağlar öğrenme, hafızaya alma
ve veriler arasındaki ilişkiyi ortaya çıkarma
kapasitesine sahiptirler.
32

Karar ağaçları ile ağaç oluşturulduktan sonra, kökten
yaprağa doğru inilerek kurallar yazılabilir.
33

• Karar düğümü:
Veriye uygulanacak test tanımlanır.
• Dal:
Testin sonucunu gösterir.
• Yaprak:
Dalın sonucunda bir sınıflandırma elde edilebiliyorsa yaprak elde edilmiş
olur.
34

Regresyon analizi, iki ya da daha çok değişken
arasındaki ilişkiyi ölçmek için kullanılan analiz
metodudur.
Örneğin;
Bir ziraatçi için buğday verimi ve gübre miktarı
arasındaki ilişki
Bir mühendis için basınç ve sıcaklık ilişkisi
35

Amaç, küme üyelerinin birbirlerine çok benzediği,
ancak özellikleri birbirlerinden çok farklı olan
kümelerin bulunması ve veri tabanındaki kayıtların
bu farklı kümelere bölünmesidir.
36

Veriler arasındaki ilginç birlikteliklerin,
ilişkilerin ve bağıntıların kurallar halinde
bulunması işlemidir.
Numa
ra
Ürünler
1
Ekmek, kola, süt
2
Meyve suyu, ekmek
3
Meyve suyu, kola, çocuk bezi,
süt
4
Meyve suyu, ekmek, çocuk bezi,
süt
5
Kola, çocuk bezi, süt
Bulunan Kurallar;
Süt  Kola
Çocuk bezi, Süt 
Meyve suyu
37
1-)Riski az olan tüm kredi kartı başvurularını bul
(sınıflandırma)
2-)Harcama alışkanlığı benzer olan kredi kartı
sahiplerini bul
(kümeleme)
3-)DVD birlikte sıkça satın alınan ürünü bul
(birliktelik kuralı)
38
PROBLEMLER
Artık Veri
Belirsizlik
Boş Veri
Dinamik Veri
Gürültü ve Kayıp Değerler
Veritabanı Boyutu

 Artık veri:
Problemde istenilen sonucu elde etmek için kullanılan
örneklem kümesindeki gereksiz niteliklerdir.
 Belirsizlik:
Yanlışlıkların şiddeti ve verideki gürültünün
derecesi ile ilgilidir.
 Gürültülü ve kayıp değerler:
Veri girişi veya veri toplanması esnasında
oluşan sistem dışı hatalara gürültü denir.
40

 Boş veri:
Boş değer, kendisi de dâhil olmak üzere
hiçbir değere eşit olmayan değerdir.
 Dinamik veri:
Kurumsal çevrim içi veri tabanları dinamiktir ve
içeriği sürekli olarak değişir.
 Veritabanı boyutu:
Büyük bir hızla artan veri tabanı boyutları küçük
örneklemleri ele alabilecek boyuttaki veri tabanı
algoritmalarını zorlar.
41
 Büyük hacimde veri bulunan
her yerde veri madenciliği
kullanmak mümkündür.
 Kaynaklar incelendiğinde veri
madenciliğinin en çok
kullanıldığı alan olarak tıp,
biyoloji ve genetik
görülmektedir.
43
Bunlar kullanım yerlerine göre aşağıdaki
gibi sınıflandırılmıştır:
Pazarlama

Taşımacılık ve ulaşım
Bankacılık
Turizm ve otelcilik
Sigortacılık
Belediyeler
Elektronik Ticaret
Eğitim
Telekomünikasyon
Bilim ve mühendislik
Tıbbi Araştırmalar
İnternet
44

Bu alanda en çok başvurulan veri

madenciliği yaklaşımı sepet analizidir.
 Müşterilerinin satın alma
alışkanlıklarının belirlenmesi
 Mevcut müşterilerin elde tutulması,
yeni müşterilerin kazanılması
 Müşteri ilişkileri yönetimi
 Müşteri değerlendirme
 Satış tahmini
45
 Kredi kartı dolandırıcılıklarının tespiti
 Kredi kartı harcamalarına göre müşteri guruplarının
belirlenmesi
 Kredi taleplerinin değerlendirilmesi
• Yeni poliçe talep edecek
müşterilerin tahmin edilmesi
• Sigorta dolandırıcılıklarının
tespit edilmesi
• Riskli müşteri guruplarının
belirlenmesi
46

Saldırıların çözümlenmesi
e-CRM uygulamalarının yönetimi
WEB sayfalarına yapılan ziyaretlerinin
çözümlenmesi
 Kullanıcı davranışlarına göre web sitesinin
yenilenmesi



47
 İletişim ağlarında sorunlu bölgelerin tespiti
 Kaçak hat kullanımlarının belirlenmesi
 Kullanıcı davranışlarının belirlenmesi
 Müşteri davranışlarına göre yeni hizmetlerin sunulması
• DNA içerisindeki genlerin sıralarının
belirlenmesi
• Protein analizlerinin yapılması
• Hastalık haritalarının hazırlanması
• Hastalık tanıları
• Sağlık politikalarına yön verilmesi
48
 Verilerin anlamlandırılması
 Üretim sistemlerinin benzetimi
 Simülasyon ve sistem kullanımının
arttırılması
 Kalite kontrol uygulamaları
 Deprem verilerinin analizi ile deprem ve etkilerinin
tahmini
 İnternet ve web üzerindeki veriler hem hacim hem de
karmaşıklık olarak hızla artmaktadır. Web madenciliği
özetle internetten faydalı bilginin keşfi olarak
tanımlanabilir.
 Örneğin internet üzerinden kitap satan Amazon şirketi
BookMatcher adlı programıyla müşterilerine okudukları ve sevdikleri
kitaplara göre satın almaları için kitap tavsiye etmektedir.
49
DEPREM VERİLERİNİN ANALİZ ÖRNEĞİ
04/12/2015 Tarihli Depremler

12
10
8
6
Derinlik
4
Büyüklük
2
Rms
0
Bingöl
Çanakkale
Amasya
Rms
Büyüklük
Erzurum
Derinlik
50

51

 Ulaş Baran Baloğlu tarafından 2006 yılında
gerçekleştirilen uygulamada, DNA veri kümesinde
bulunan biyolojik sıralar üzerinde veri
madenciliği yapılarak tekrarlı örüntüler ve
potansiyel motifler çıkartılmıştır. Önerilen yöntem
yukarıdan-aşağı veri madenciliği ve genetik
algoritma tabanlı hibrit bir çözümdür.
52

 Feridun Cemal Özçakır ve A. Yılmaz Çamurcu
(2007) tarafından gerçekleştirilen bir çalışmada, bir
firmanın pastane satış verileri üzerinde veri
madenciliği uygulamak için birliktelik kuralları ile
bir yazılım tasarlanmıştır. Genelde aynı ürün
grubuna ait ürünlerin, en sık birlikte satın alınan
ürünler olduğu görülmüştür.
53

•
•
•
•
BAŞAK ÇOBAN
MERVE SARITAŞ
AZİME AKÇAÖZ
BÜŞRA AYDEMİR
54
Download