Web Madenciliği - SABİS

advertisement
ISE 302
VERİ MADENCİLİĞİ
DR. TUĞRUL TAŞCI
Ders Planı
Hafta Konu Başlığı
Hafta
Konu Başlığı
1
Veri Madenciliği Nedir? Ne Değildir?
8
Sınıflandırma
2
Veri Tipleri, Verinin Yorumlanması
9
Kümeleme
3
Bilgi Keşfi Süreci ve Veri
Madenciliği Aşamaları
Ödev
10
11
4
5
Veri Temizleme, İndirgeme, Bütünleştirme
12
Veri Ambarı
6
Veri Dönüştürme Yaklaşımları ve
Teknolojileri
13
7
Birliktelik Analizi
Kısa Sınav
14
Ara Sınav
MS Analysis
Services ile VM
Uygulamaları
SQL Server, Analysis Services,
Integration Services,
Reporting Services, SQL
Server Data Tools
VM Araştırma
Eğilimleri İmge
Madenciliği
Kısa Sınav
Veri Madenciliği Nedir?

Veri Madenciliği, örüntü tanıma, istatistik ve matematiksel yöntemlerin kullanımıyla devasa
miktardaki güncel ya da geçmiş veri içerisinden ilgi çekici ( önemsiz olmayan, gizli,
önceden bilinmeyen, potansiyel olarak kullanışlı ) bilginin gelecekteki eğilimleri kestirmek
ya da sonraki aşamalarda analiz etmek üzere etkin şekilde çıkarılması sürecidir.
Veri Madenciliğinin Önemi

İşletmelerde verimlilik / karlılık artışı

Giderlerinin azaltılması

Zarar oluşmadan tahmin edip ortadan kaldırılması

Risk Yönetimi / Hilekarlık Tespiti

Bilimsel araştırmalarda hız ve etkinlik artışı

İnsansız sistemlerin gelişimine destek

Eğitim – Sağlık – Güvenlik ve diğer birçok sektörde önleyici tedbirler
alınması ve hizmet iyileştirme
Veri Kaynakları





Müşteri Alış-veriş Kayıtları ( Fiziksel ve
Sanal Mağazalar )
Müşteri İşlem Kayıtları (
Telekomünikasyon, Bankacılık ve Internet
Bankacılığı )
İşletme İşlem Kayıtları ( Diğer işletmelerle
yapılan alım-satımlar, banka işlemleri,
borsa işlemleri )
Bilimsel Veriler (uzay araştırmaları, ilaç
araştırmaları, okyanus ve yer altı
araştırmaları, deprem araştırmaları,
canlılarla ilgili araştırmalar )
Güvenlik ve Gözetleme Sistemleri (Şehir
merkezleri, AVM’ler , Şehir giriş çıkışları,
hava alanları, Otoparklar, Binalar)

Uydu ve Haberleşme Sistemleri

Olimpiyat Oyunlar, Ulusal ve uluslararası
spor müsabakaları

Dijital Medya: Dijital resim, müzik ve
videolar ( Filmler )

Dijital Kütüphaneler

Web Siteleri ve Mobil Uygulamalar

E-Posta & Sosyal Medya: Youtube,
Facebook, Twitter, Instagram, WhatsApp

Tıbbi Kayıtlar ve Kişisel Veriler
Verilerle Ne Tür Uygulamalar Yapılabilir ?

Karakterizasyon: Belli bir sınıfa ait karakteristik özellikler


Ayrıştırma: Belli sınıfları birbirinden ayırmak



Ayda 30 kezden daha fazla alışveriş yapan müşteri sınıfı
30’dan fazla alışveriş yapanlar ile 5’ten az alış veriş yapanların ayrımı
Evrilme ve Sapma: Zamanla değişen verilerle ilgili yapılan çalışmalardır.

Evrilme analizi sonucunda karakterizasyon, karşılaştırma, sınıflandırma ve kümeleme ile
ilgili çalışmalara zemin oluşturacak eğilimler tespit edilir.

Sapma analizinde, ölçülen değerler ile beklenen değerler arasındaki farkların
incelenir, ve beklentilerden neden sapma olduğu tespit edilir.
Sınıflandırma: Verinin önceden belirlenmiş sınıflara bölümlenmesidir.

Örneğin bir banka müşterilerini karlı, normal, riskli gibi gruplara ayırıp ürün
pazarlamasını buna göre yapmak isteyebilir.
Verilerle Ne Tür Uygulamalar Yapılabilir ?

Kümeleme: Verilerin benzerliklerine göre gruplanması

Tahmin: Eldeki verilerin benzer özniteliklerine göre bilinmeyen değerlerin tahmin
edilmesi ya da yeni bir verinin özniteliklerine göre daha önce belirlenmiş
sınıflardan hangisine girebileceğinin belirlenmesi

Aykırılık Analizi: Aykırı ya da sıra dışı değerlerin/durumların tespit edilmesi

Birliktelik Analizi: Veriler arasındaki karşılıklı ilişkilerin analizi. Özellikle market sepet
analizinde kullanılır.

Değişken Tespiti

Görselleştirme

Kredi kartı işlemleri şüpheli olan kişilerin ev sahipliği durumu, yaş, meslek ve gelir
bilgilerini anlık ve grafiksel olarak keşfetme
Veri Madenciliği Uygulamaları ( Sektörel )

Müşteri İlişkileri Yönetimi - Satış - Pazarlama:

Müşterilerin satın alma davranışlarının belirlenmesi,

Promosyon kampanyalarında cevap verme oranının tahmini ve artırılması,

Eski müşterileri inceleyerek iyi yeni müşteri profilinin çıkarılması

Yeni ürün ve hizmetlerin karlılık üzerindeki etkisi ne olacak?

Hangi ürün promosyonlarının karlılık üzerindeki etkisi en yüksek?

En iyi dağıtım kanalı hangisi?

Müşteri kayıp analizi ve bunun sebeplerinin ortaya çıkarılması

Çapraz satış ve üst kategori ürün satışı (Süt – Çocuk bezi)
Veri Madenciliği Uygulamaları ( Sektörel )



Tıp

Klinik testler ile hastalıkların erken teşhisi

Hastalıkların teşhisi için görüntü analizi

Semptomlar ve hastalıklar arasındaki ilişkilerin keşfi
Eczacılık

Yeni ilaçların belirlenmesi

Eczane açılabilecek yerlerin tespit edilmesi
Bilimsel veri analizi

Alt galaksi kümelerinin incelenip yeni galaksilerin tespit edilmesi

Keşfedilen yeni canlı türlerinin sınıflandırılması
Veri Madenciliği Uygulamaları ( Sektörel )


Bankacılık ve Sigortacılık

Kredi kartı ve sigorta dolandırıcılıklarının tespiti,

Kredi kartı harcamalarına göre müşteri gruplarının belirlenmesi,

Kredi skoru hesaplama

Yeni sigorta poliçesi talep edecek müşterilerin tahmin edilmesi,
Web Madenciliği

Yeni satış stratejileri belirlenmesi

Belli ürün grupları için uygun müşteri profilinin çıkarılması

Müşterilerin satın alma davranışlarının öğrenilmesi

Müşterilerin uygulama kullanma deneyimlerine göre web sitelerinin özelleştirilmesi
Veri Madenciliği Uygulamaları ( Sektörel )



Güvenlik ve Hukuk

Suç ve terörizm ile ilgili örüntülerin tespit edilmesi

Biyolojik ve kimyasal saldırıların tespiti ve ortadan kaldırılması

Bilgi altyapısına yönelik kötü niyetli atakların tespiti ve durdurulması
Eğlence

Prime-time’da gösterilecek programlara ve reklamlara nerede yer verilmesi
gerektiğine karar verilmesi

Filmlerin finansal başarısının tahmini
Seyahat

Farklı hizmetlerin (uçak bilet tipleri, oda tipleri, araç kiralama) satış tahmini

En karlı müşterilerin tespiti ve özelleştirilmiş hizmetlerin sağlanması
Veri Madenciliği Uygulamaları ( Sektörel )



Bilişim Sistemleri

İstenmeyen web içerikleri ve mesajların belirlenmesi ve filtrelenmesi

Bilgisayar ağ güvenlik köprülerinin tespiti ve korunması
Borsa ve Menkul Kıymetler

Belirli hisse fiyatlarının ne kadar ve ne zaman değişeceğinin tahmini

Sermaye dalgalanmalarının yönü ve oranının tahmini

Bazı olaylar ve konuların pazardaki hareketliliğe etkisinin değerlendirilmesi

Menkul kıymetler ticaretindeki şüpheli aktivitelerin tespiti ve önlenmesi
Perakendecilik ve Lojistik

Market-sepet analizi

Lojistik optimizasyonu için farklı ürün tiplerine ait tüketim seviyelerinin tahmini

Tedarik zincirindeki ilginç örüntülerin keşfi
Bilgi Keşfi Süreci ve Veri Madenciliği
Veri Madenciliği Sürecindeki Zorluklar

Problemin doğru tespiti

Yüksek Boyut

Karmaşık ve Düzensiz Veri


Farklı ve uyumsuz veri kaynaklarından gelen verilerin birleştirilmesi
Veri Kalitesi

Tekrarlı, geçersiz, eksik veri, veri tipinin yanlış seçimi, örneklemenin yanlış yapılması

Gizliliğin Korunması

Veri Akışı


Etkin Yöntemler


Sürekli yeni veri gereksinimi
Büyük miktarda verilerden anlamlı bilgi çıkarmak için etkin yöntemlere olan gereksinim
Karmaşık Uygulama Yazılımları
Veri Madenciliği Uygulama Araçları

IBM SPSS Modeler / Clementine

Selford Systems

IBM DB2 Intelligent Miner

Viscovery

IBM Cognos BI

Statistica Data Miner

Oracle Data Mining

Orange

Microsoft Analysis Services

KNIME

Microsoft SharePoint

Weka

SAP Business Objects, BI

DataMinerXL

R, MATLAB, SCILAB, Mathematica

XLMiner

SQL Server Data Mining Add-ins for MSOffice
Veri Seti Tipleri

Kayıtlar



İlişkisel kayıtlar, Çapraz kayıtlar, Metin,
İşlemler
Çoklu Ortam Verileri

Site İçerikleri, Sosyal Ağ Profil Bilgileri,
Paylaşımlar
Sıralanmış Veri Setleri


Ses, Resim, Video
Web ve Sosyal Ağlar


Konum Verileri


Zaman serileri, Sıralı işlem Verileri,
Genetik Kod Dizileri
Haritalar ve GPS verileri
Alana Özel Veriler

Dil, Kimya, Tıp, Jeoloji vb.
Veri Matrisi


Matris çok boyutlu uzayda bir nokta
olarak düşünülebilir.
Veri çoğunlukla n×d boyutundaki bir
matrisle temsil edilir.


n verinin miktarını, d ise boyutsallığını
temsil eder.
Satırlar veri setindeki kayıtları, sütunlar
ise verinin kullanılabilecek özelliklerini
gösterir.
Kişi
Yaş
Kilo
Boy
Cinsiyet
K01
34
90
165
Erkek
K02
23
65
178
Bayan
K03
45
73
167
Erkek
K04
26
58
159
Bayan
K05
19
75
189
Erkek
K06
21
49
175
Bayan
K07
56
78
163
Erkek
K08
33
57
161
Bayan
K09
29
62
165
Bayan
İlişkisel Veri
İşlem Verisi & Sıralı Veri
İşlem Verisi
Müşteri
İşlem
M01
Ekmek, peynir, süt
M02
Sigara, çakmak
M03
Ekmek, çikolata
M04
Yoğurt, Sucuk, Mısır
M05
Un, nişasta
M06
Yağ, şeker
M07
Çay
Sıralı Veri
(A B) (D) (C E)
(B D) (C) (E)
(C D) (B) (A E)
(D E) (A) (C)
Metin Verisi
Uluslararası hakemli dergilerde yayınlanan makaleler
Tasci T., Oz C. (2014), "A Closer Look to Probabilistic State Estimation – Case: Particle Filtering",
Optoelectronics & Advanced Materials – Rapid Communications, Vol. 8(5-6), pp. 521 – 534.
Tasci T., Parlak Z., Kibar A., Tasbasi N. &, Cebeci H.I. (2014), " A Novel Agent-Supported Academic Online
Examination System", Educational Technology & Society, Vol.17 (1), pp. 154 – 168.
Uluslararası Diğer Hakemli Dergilerde Yayınlanan Makaleler
Hiziroglu K., Tasci T. & Ozcelik T. O. (2012), "Analysis of Current Occupational Health and Safety Situation and
Needs of SMEs in Turkey", Journal of Labor Relations, Vol. 3(2), pp. 66 – 89.
Uluslararası Bildiriler
Yolcu G., Oz C. & Tasci T., "Developing and Establishing a Painting Program Controlled by Hand Motions
Using Kinect", 2nd International Symposium On Innovative Technologies In Engineering And Science (ISITES),
Karabuk University, June 18-20, 2014, Karabuk, Turkey.
Tasci T., Tasbasi N., Velichkov A., Kloos U. & Tullius G., "A Comparative Evaluation of Two 3D Optical Tracking
Systems" ,JVRC 2012 - Joint Virtual Reality Conference of ICAT - EGVE - EuroVR, October 17-19,2012, Madrid,
Spain
Ulusal hakemli dergilerde yayınlanan makaleler
Ulusal bilimsel toplantılarda sunulan ve bildiri kitabında basılan bildiriler
Tasci, T., Goksu A. & Kantoglu B., "E-Dönüşümde Bilgi ve İletişim Teknolojilerinin Kullanımı", Akademik Bilişim
Konferansı, February 11-13, 2004, Trabzon, Turkey
Diğer Yayınlar
Tuğrul TAŞCI "Temel Bilgi Teknolojisi Kullanımı - İşletim Sistemleri" ,Sakarya Üniversitesi, 978-605-4735-03-7, 2012.
Gen Dizisi Verisi
Infografik Verisi
Harita ve Konum Verisi
Resim & Video Verisi
Resim Verisi
Video Verisi
Kare 65
Kare 70
Tıbbi & Kimyasal Veri
Tıbbi Veri (MR)
Kimyasal Veri
Değişken Tipleri

Nominal (Kategorik)

Ordinal (Sıralı)

Interval (Aralık)

Ratio (Oran)

Continuous (Sürekli)

Discrete (Kesikli)
Kesikli & Sürekli Değişken
Kesikli (Discrete) Değişken

Sadece sayılabilir değerler alan değişkenler.

Çok fazla olası değer alan değişkenler:


Bir gündeki şikayet sayısı

Hane halkını sahip oldukları telefon sayısı

Telefon açılmadan önce çalma sayısı
Sürekli (Continuous) Değişken

Sürekli (sayılamayan) değerler alan değişkenler.

Bir parçanın kalınlığı

Bir işi tamamlamak için geçen süre

Solüsyonun ısısı

Ağırlık

Ölçümlerin doğruluk ve hassasiyetlerine bağlı
olarak herhangi bir değer alabilirler.
İki değer alan değişkenler:

Cinsiyet: Kız veya Erkek

Sorunlu Parça: Evet veya Hayır
Kategorik & Sıralı Değişken
Kategorik (Nominal) Değişken

Sayısal büyüklük ifade etmeyen
kategorik veri. Nominal değişkenler
sadece niteliksel sınıflandırmalarda
kullanılırlar. Bu değişkenlerin ölçümü ve
sıralanması mümkün değildir.

İnsanların medeni hali, cinsiyeti,
mesleği, göz rengi buna örnek olarak
gösterilebilir.
Sıralı (Ordinal) Değişken

Bu değişken ölçülen değerlerin
birbirlerine göre büyüklüklerini
belirleyen ancak bir değişkenin
diğerinden ne kadar büyük ya da
küçük olduğunu ifade edemeyen
değişkenlerdir.

Rütbe, derece, yükseklik (uzun, orta,
kısa) gibi sıralı verileri içerir.
Aralık & Oran Değişken
Aralık (Interval) Değişken

Sıcaklık, başarı, performans gibi
niceliksel değişkenleri ölçmek için
kullanılır. Aralık ölçeğinin oran
ölçeğinden temel farkı bir başlangıç
noktasının bulunmamasıdır. Diğer bir
ifade ile “0” değeri aralık ölçeğinde
yokluk ifade etmez. Örneğin
termometrede görülen “0°C” belirli bir
anlam taşır.
Oran (Ratio) Değişken

Ratio değişkenler interval değişkenlere
benzerler, interval değişkenlerin
özelliklerine ek olarak, tanımlanabilen
bir sıfır noktasına sahiplerdir, böylece
“X Y’den 2 kat daha fazladır” gibi
ifadeler de kullanabiliriz. Aylık gelir,
ağırlık, uzunluk, hız gibi değişkenleri
ölçmek için kullanılır. Bu ölçekte
başlangıç “0” noktasıdır.
Departman
Veriyi Anlama –
Görsel Teknikler


Nominal Veri

Frekans Dağılımı

Sütun Grafikleri

Pasta diyagramı

Pareto diyagramı
Sayı
Oran
Muhasebe
73
28.9
Finans
52
20.6
Yönetim
36
14.2
Satış
64
25.3
Diğer
28
11.1
Toplam
253
100
Çizgi Grafikleri

Frekans Dağılımı

Histogram ve Ogive

Stemplot Diyagramı

Serpilme Diyagramı
Diğer
Satış
Yönetim
Finans
28, 11%
73, 29%
Nümerik Veri

Çalışanların Dağılımı
Muhasebe
64, 25%
0
Sayı
52, 21%
36, 14%
Muhasebe
Finans
Yönetim
20
Satış
Diğer
40
60
80
Veriyi Anlama –
Görsel Teknikler


Nominal Veri

Frekans Dağılımı

Sütun Grafikleri

Pasta diyagramı

Pareto diyagramı
Nümerik Veri

Çizgi Grafikleri

Frekans Dağılımı

Histogram ve Ogive

Stemplot Diyagramı

Serpilme Diyagramı
Sıcaklık – Dondurma Satışı
800
600
400
200
0
0
10
20
x
y
30
Veriyi Anlama – Sayısal Teknikler
Merkezi Eğilim Ölçütleri:
Değişkenlik Ölçütleri:
Doğrusal İlişki Ölçütleri:
Ortalama:
Değişim Aralığı:
Kovaryans:

Basit şekli ile bütün gözlem
değerlerinin toplam gözlem
adedine bölünmesi ile hesaplanır.
Aykırı değerlerden çok etkilenir.
Medyan:

Sıralı veri setlerindeki ortanca
değerdir. Aykırı değerlerden daha
az etkilenir.
Mod:

Bir veri setinde en çok tekrarlanan
değerdir. Ancak veri seti çok
büyükse anlamlıdır.

Veri setinin dağıldığı aralıktır.
(Max-Min).
Varyans:

Gözlenen değer ile beklenen
değer arasındaki farktır.

Standart Sapma:

Varyansın ortalama düzeyine
normalleştirilmiş halidir.

İki değişkenin birlikte değişme
derecesini gösterir.
Korelasyon Katsayısı:

Kovaryans değerinin -1 ile +1
arasında normalleştirilmiş
halidir.
31
Veri Kalitesi

Verinin kalitesi temelde aşağıdaki üç etkenle belirlenir.

Gürültü ve aykırı değerler

Kayıp değerler

Veri tekrarı
32
Veri Kalitesi / Gürültü

Veri girişi veya veri toplanması esnasında oluşan sistem dışı hatalara
gürültülü denir

Kullanıcı tarafından sisteme verilerin yanlış girilmesi, ölçüm yönteminin yanlış
seçilmesi veya doğru uygulanamaması sonucunda ortaya çıkar.

Ancak günümüzde kullanılan ilişkisel veri tabanları bu tip hataların olasılıkları
oldukça azalmaktadır.
33
Veri Kalitesi / Aykırı Değer

Veri kümesinde, diğer nesnelerden ciddi şekilde farklı olan veri nesnelerinin
gösterdiği karakteristiktir.
34
Veri Kalitesi / Eksik Değer


Kayıp (Eksik) değerler için çeşitli sebepler vardır:

Bilgi toplanamaması (Örn., insanlar yaşları ve kiloları ile ilgili bilgi
vermeyi istemezler)

Öznitelikler bütün durumlar için uygun olmayabilir (Örn., yıllık gelir
çocuklar için uygun değildir)
Kayıp değerlerle mücadele

Eksik kayıtların dikkate alınmaması

Kayıp değerler yerine tahminlerinin yerleştirilmesi

Analizler müsaade ediyorsa eksik değerlerin es geçilmesi
35
Veri Kalitesi / Tekrar Eden Veri

Veri seti tekrar eden kayıtlar içerebilir, veya bazı kayıtlar hemen hemen
tamamen diğerine eşittir

Bu durum genellikle heterojen kaynaklardan gelen veriler birleştirildiğinde
meydana gelir.

Aynı kişiye ait birden fazla mail adresinin bulunması

Çözüm:

Veri temizleme (Tekrar eden verilerin islenmesi ile ilgili bir prosestir.)
36
Elde Edilen Kirli Veri & Nedenler

Eksik: Bazı nitelik değerleri girilmemiş.


Meslek = “ ”
Gürültülü: Mantıksal hatalar var.



Maaş= “-10”
Tutarsız: Nitelik değerleri veya isimleri uyumsuz.

Eksik veri kayıtlarının nedenleri

Veri toplandığı sırada bir nitelik değerinin
elde edilememesi, bilinmemesi

Veri toplandığı sırada bazı niteliklerin
gerekliliğinin görülememesi

İnsan, yazılım ya da donanım problemleri
Hatalı veri kayıtlarının nedenleri

Yaş= “35”, Doğum tarihi: “03/10/2004”

Önceki oylama değerleri: “1,2,3”, yeni oylama
değerleri: “A,B,C”

Hatalı veri toplama gereçleri

İnsan, yazılım ya da donanım problemleri
Bir kaynakta nitelik değeri ‘ad’, diğerinde ‘isim’

Veri iletimi sırasında problemler


Tutarsız veri kayıtlarının nedenleri

Verinin farklı veri kaynaklarında tutulması

İşlevsel bağımlılık kurallarına uyulmaması
Download