Untitled - Gazi Üniversitesi Açık Arşiv

advertisement
CEP TELEFONU KULLANICI DAVRANIŞI MODELLEME
Duygu SİNANÇ
YÜKSEK LİSANS TEZİ
BİLGİSAYAR MÜHENDİSLİĞİ ANABİLİM DALI
GAZİ ÜNİVERSİTESİ
FEN BİLİMLERİ ENSTİTÜSÜ
EYLÜL 2014
Duygu SİNANÇ tarafından hazırlanan “CEP TELEFONU KULLANICI DAVRANIŞI
MODELLEME” adlı tez çalışması aşağıdaki jüri tarafından OY BİRLİĞİ ile Gazi Üniversitesi
Bilgisayar Mühendisliği Anabilim Dalında YÜKSEK LİSANS TEZİ olarak kabul edilmiştir.
Danışman: Prof. Dr. Şeref SAĞIROĞLU
Bilgisayar Mühendisliği, Gazi Üniversitesi
Bu tezin, kapsam ve kalite olarak Yüksek Lisans Tezi olduğunu onaylıyorum
...…………………
Başkan : Doç. Dr. Erdal IRMAK
Elektrik-Elektronik Mühendisliği, Gazi Üniversitesi
Bu tezin, kapsam ve kalite olarak Yüksek Lisans Tezi olduğunu onaylıyorum
…………………...
Üye : Yrd. Doç. Dr. Mehmet DEMİRCİ
Bilgisayar Mühendisliği, Gazi Üniversitesi
Bu tezin, kapsam ve kalite olarak Yüksek Lisans Tezi olduğunu onaylıyorum
Tez Savunma Tarihi:
…………………...
01/09/2014
Jüri tarafından kabul edilen bu tezin Yüksek Lisans Tezi olması için gerekli şartları yerine
getirdiğini onaylıyorum.
…………………….…….
Prof. Dr. Şeref SAĞIROĞLU
Fen Bilimleri Enstitüsü Müdürü
ETİK BEYAN
Gazi Üniversitesi Fen Bilimleri Enstitüsü Tez Yazım Kurallarına uygun olarak
hazırladığım bu tez çalışmasında;

Tez içinde sunduğum verileri, bilgileri ve dokümanları akademik ve etik kurallar
çerçevesinde elde ettiğimi,

Tüm bilgi, belge, değerlendirme ve sonuçları bilimsel etik ve ahlak kurallarına uygun
olarak sunduğumu,

Tez çalışmasında yararlandığım eserlerin tümüne uygun atıfta bulunarak kaynak
gösterdiğimi,

Kullanılan verilerde herhangi bir değişiklik yapmadığımı,

Bu tezde sunduğum çalışmanın özgün olduğunu,
bildirir, aksi bir durumda aleyhime doğabilecek tüm hak kayıplarını kabullendiğimi beyan
ederim.
Duygu SİNANÇ
01/09/2014
iv
CEP TELEFONU KULLANICI DAVRANIŞI MODELLEME
(Yüksek Lisans Tezi)
Duygu SİNANÇ
GAZİ ÜNİVERSİTESİ
FEN BİLİMLERİ ENSTİTÜSÜ
Eylül 2014
ÖZET
Çevrim içi işlem trafiği, e-posta, metin, belge, video, ses, resim, tıklama akışları, sistem
günlükleri, arama sorguları, sosyal ağ etkileşimleri, istatistiksel veriler, sağlık kayıtları,
bilimsel veriler, devlet ve özel sektöre ait kayıtlar, sensörler ve cep telefonları tarafından
oluşturulan veri devasa boyutlara ulaşmaktadır. Bu büyük hacimli, çeşidi bol ve hızla akan
veri büyük veri olarak adlandırılmaktadır. Büyük verinin değere dönüştürülmesi, kurum ve
kuruluşların geleceğe yönelik yeni stratejiler oluşturması, mevcut problemlerinin tespiti ve
çözümüne yönelik yeni yollarının üretilmesine katkılar sağlamaktadır. Bu tez kapsamında,
öncelikle büyük veri analizlerinin yapılmasına temel teşkil etmesi bakımından veri
madenciliği süreçleri ve büyük veri olgusu ayrıntılı olarak incelenmiştir. Kullanıcıların,
mobil uygulama platformuna yaptıkları isteklere ait bilgilerin bulunduğu gerçek bir veri
seti daha doğru sonuçlar elde etmek için ön işlemden geçirilmiştir. Daha sonra, görsel ve
kural tabanlı analiz teknikleri bu veri seti üzerinde uygulanmıştır. Sonuç olarak, isteklerin
indirme veya ödeme işlemi ile sonuçlanma yüzdesinin tespit edildiği karar ağacı tabanlı
birliktelik kuralları oluşturulmuştur. Bu sayede platforma erişim sağlayan her kullanıcının,
büyük ihtimalle satın alacağı veya hiç ilgilenmeyeceği uygulamalar, kullanıcı henüz bu
davranışı gerçekleştirmeden tahmin edilir hale getirilmiştir. Son olarak da elde edilen
tecrübeler doğrultusunda, ideal bir mobil kullanıcı davranış modeli önerilmiştir. Bu tez
çalışması sayesinde, akademik literatürün ve mobil sektörün geliştirilmesinin
sağlanmasının yanı sıra, telekomünikasyon firmalarının gerek kurumsal üretim ve
pazarlama stratejileri belirlemesine, gerekse kullanıcı odaklı öneri veya kampanya
geliştirilmesi sürecine katkılar sağlanacak ve önerilen yeni modelin yapısı ile gelecekte
verilerin daha sağlıklı olarak değerlendirilmesi mümkün olacaktır.
Bilim Kodu
: 902.1.014
Anahtar Kelimeler : Veri madenciliği, büyük veri, tavsiye sistemleri, kullanıcı davranış
modelleri, birliktelik kuralları, karar ağacı, cep telefonu
Sayfa Adedi
: 68
Danışman
: Prof. Dr. Şeref SAĞIROĞLU
v
MOBILE PHONE USER BEHAVIOR MODELLING
(M. Sc. Thesis)
Duygu SINANC
GAZİ UNIVERSITY
GRADUATE SCHOOL OF NATURAL AND APPLIED SCIENCES
September 2014
ABSTRACT
Data is reaching gigantic size because of online transactions, e-mail, text, document, video,
audio, image, click stream, system logs, search queries, social network interactions,
statistical data, medical records, scientific data, government and industrial records, sensors
and mobile phones. This huge, various and stream data is named as big data. Converting
big data into valuable information provides many benefits for organizations and
institutions such as creating new strategies for the future or determination of the problems
and the generation of new ways to solve them. This thesis introduces big data phenomenon
and data mining process and examines big data and its analysis. A real data set containing
the information on the mobile phone users’ requests is first preprocessed for obtaining
more accurate results. Secondly, visual and rule based analyses are performed on the data
set. As a result of this step, decision tree based association rules were created to determine
the payments or downloads of users. By this way, user purchase status or no visit count of
the applications can be predicted before users’ visits. Finally, with the help of gained or
extracted information and experience, an ideal mobile user behavior model is proposed. It
is expected that the output of this thesis will provide new perception to the literature and
mobile phone industry. It will also contribute to telecommunication companies not only
identifying production and marketing strategies but also developing user oriented
suggestions, campaign or outcomes. In addition, with the help of the suggested model,
evaluating and analyzing big data better and accurate might be achieved for the future
processing.
Science Code
Key Words
Page Number
Supervisor
: 902.1.014
: Data mining, big data, recommendation systems, user behavior
patterns, association rules, decision tree, mobile phone
: 68
: Prof. Dr. Seref SAGIROGLU
vi
TEŞEKKÜR
Çalışmalarım boyunca değerli yardım ve katkılarıyla beni yönlendiren saygıdeğer
danışmanım Prof. Dr. Şeref SAĞIROĞLU’na, kıymetli tecrübelerinden faydalandığım
Dr. Uraz YAVANOĞLU’na Arş. Gör. Ramazan TERZİ'ye, maddi ve manevi destekleriyle
hiçbir zaman beni yalnız bırakmayan sevgili annem Hatice SİNANÇ, babam Recep
SİNANÇ ve ablam Burcu SİNANÇ’a sonsuz teşekkürlerimi sunarım.
vii
İÇİNDEKİLER
Sayfa
ÖZET ..............................................................................................................................
iv
ABSTRACT ....................................................................................................................
v
TEŞEKKÜR ....................................................................................................................
vi
İÇİNDEKİLER ..............................................................................................................
vii
ÇİZELGELERİN LİSTESİ.............................................................................................
ix
ŞEKİLLERİN LİSTESİ ..................................................................................................
x
RESİMLERİN LİSTESİ .................................................................................................
xi
HARİTALARIN LİSTESİ .................................................................................................
xii
SİMGELER VE KISALTMALAR................................................................................. xiii
1. GİRİŞ.......................................................................................................
1
2. VERİ MADENCİLİĞİ ...........................................................................................
5
2.1. Veri Madenciliği Modelleri .................................................................................
6
2.1.1. Sınıflandırma ve regresyon .......................................................................
7
2.1.2. Kümeleme .................................................................................................
7
2.1.3. Birliktelik Kuralları ...................................................................................
7
2.2. Veri Madenciliği Aşamaları...................................................................................
7
3. BÜYÜK VERİ ...............................................................................................................................................
11
3.1. Büyük Veri Bileşenleri ........................................................................................
16
3.2. Büyük Veri Madenciliği ......................................................................................
17
3.3. Veri Bilimi ..............................................................................................................
18
3.4. Büyük Veri Teknik ve Teknolojileri .....................................................................
19
4. KULLANICI DAVRANIŞI ANALİZ MODELLERİ .................................
25
4.1. Literatür Taraması ...............................................................................................
25
viii
Sayfa
4.1.1. Kullanıcı davranışlarının belirlenmesi ......................................................
25
4.1.2. Tavsiye sistemleri ......................................................................................
30
4.2. Mobil İletişim Sektörü ........................................................................................
33
4.3. Mevcut Modeller .................................................................................................
35
4.4. Önerilen Model .......................................................................................................
39
5. VERİ ANALİZ UYGULAMASI ........................................................................
41
5.1. Veriyi Anlama .....................................................................................................
41
5.2. Veri Seçme ve Birleştirme ..................................................................................
42
5.3. Veri Temizleme ...................................................................................................
43
5.4. Veri Dönüşümü ...................................................................................................
43
5.5. Verinin Görselleştirilmesi ...................................................................................
43
5.6. Model Kurma ......................................................................................................
44
5.6.1. Karar ağaçları ...........................................................................................
45
5.6.2. Alt modeller ..............................................................................................
46
5.7. Değerlendirmeler ve Öneriler..............................................................................
52
6. SONUÇ, TARTIŞMA VE ÖNERİLER ............................................................
55
KAYNAKLAR ...............................................................................................................
58
ÖZGEÇMİŞ ........................................................................................................................
67
ix
ÇİZELGELERİN LİSTESİ
Çizelge
Sayfa
Çizelge 3.1. Büyük verinin sınıflandırılması ....................................................................
15
Çizelge 3.2. Veri analizi yapan bilimlerin karşılaştırılması .............................................
18
Çizelge 3.3. Veri işleme platformları ve veri madenciliği araçları ................................
20
Çizelge 3.4. Büyük veri araçlarının karşılaştırmalı analizi ..............................................
24
Çizelge 4.1. Küresel mobil iletişim bilgileri .....................................................................
33
Çizelge 4.2. 2012-2013 yılı Türkiye mobil bilgileri ........................................................
34
Çizelge 4.3. Mobil uygulama marketi istatistikleri ..........................................................
35
Çizelge 4.4. İncelenen mobil kullanıcı modellerinin karşılaştırılması ............................
39
Çizelge 5.1. Karışıklık matrisi ...........................................................................................
47
Çizelge 5.2. 1. Alt modele ait karışıklık matrisi ve doğruluk oranları ............................
49
Çizelge 5.3. 2. Alt modele ait karışıklık matrisi ve doğruluk oranları ............................
50
Çizelge 5.4. 3. Alt modele ait karışıklık matrisi ve doğruluk oranları ............................
51
Çizelge 5.5. 4. Alt modele ait karışıklık matrisi ve doğruluk oranları ............................
52
Çizelge 5.6. 5. Alt modele ait karışıklık matrisi ve doğruluk oranları ............................
53
Çizelge 5.7. 6. Alt modele ait karışıklık matrisi ve doğruluk oranları ............................
54
Çizelge 5.8. 7. Alt modele ait karışıklık matrisi ve doğruluk oranları ............................
56
iv
ŞEKİLLERİN LİSTESİ
Şekil
Sayfa
Şekil 1.1. Tez kapsamında yapılan çalışmalar ...............................................................
3
Şekil 2.1. Bilgi keşfi sürecinde veri madenciliği ...........................................................
8
Şekil 2.2. Veri madenciliği sürecindeki adımların sunulduğu CRIPS-DM çevrimi ......
8
Şekil 3.1. Büyük veri uygulamaları örnekleri .................................................................
15
Şekil 3.2. Büyük veri bileşenleri.....................................................................................
16
Şekil 3.3. Büyük veri analiz araçları ...............................................................................
19
Şekil 4.1. Tez çalışmasının literatürdeki yeri .................................................................
26
Şekil 4.2. iOS ve Android cihazlarda, uygulamalarda zaman harcama yüzdeleri ..........
34
Şekil 4.3. Mobil veri toplama metotları ...........................................................................
37
Şekil 4.4. Kullanıcıların durum ve içerik bilgilerinin elde edilmesi süreci ....................
38
Şekil 4.5. Kural algoritması tabanlı mobil olay-durum-eylem modeli ...........................
38
Şekil 4.6. Tez kapsamında önerilen mobil kullanıcı davranış tespiti modeli .................
40
Şekil 5.1. Kullanıcının platformlar üzerindeki hareketleri .............................................
41
Şekil 5.2. Oluşturulan veri setindeki özniteliklerin kaynak alındığı tablolar .................
42
Şekil 5.3. Uygulama kategorilerinin veri setindeki dağılımı ..........................................
43
Şekil 5.4. Ağlara erişen kullanıcıların yıllık istek dağılımı ............................................
44
Şekil 5.5. Karar ağacından kuralların elde edilmesini sağlayan örnek dallar .................
48
Şekil 5.6. Tez kapsamında önerilen ideal mobil kullanıcı davranış modeli yapısı.........
71
v
RESİMLERİN LİSTESİ
Resim
Sayfa
Resim 3.1. Büyük veri kavramı ve dünyada kullanımı .....................................................
13
Resim 3.2. Büyük veri kavramı ve Türkiye’de kullanımı...............................................
14
vi
KISALTMALAR
Bu çalışmada kullanılmış kısaltmalar, açıklamaları ile birlikte aşağıda sunulmuştur.
Kısaltmalar
Açıklamalar
AĞ*
Kısaca * numaralı erişim ağı türü
BTK
Bilgi Teknolojileri ve İletişim Kurumu
ER
Entity Relationship
CDR
Call Detail Record
CHAID
Chi-Square Automatic Interaction Detector
CRISP-DM
Cross-Industry Standard Process for Data Mining
GPS
Global Positioning System
GSM
Global System for Mobile Communications
HTTP
Hyper-Text Transfer Protocol
IMEI
International Mobile Station Equipment Identity
IMSI
International Mobile Subscriber Identity
KA*
Kısaca * numaralı kategori içeriği
LAN
Local Area Network
NoSQL
Not Only SQL
TCP/IP
Transmission Control Protocol/ Internet Protocol
OP*
Kısaca * numaralı operatör bilgisi
TÜİK
Türkiye İstatistik Kurumu
UMTS
Universal Mobile Telecommunications System
URL
Uniform Resource Locator
UY*
Kısaca * numaralı uygulama adı
WAP
Wireless Application Protocol
WCDMA
Wideband Code Division Multiple Access
WLAN
Wireless Local Area Network
1
1. GİRİŞ
İnternet kullanımının yaygınlaşması ve teknoloji ile dinamik etkileşimin artması,
kişiselleştirilmiş ürün ve servislerin geniş kitlelere rekabetçi fiyatlarla sunulmasını
mümkün hale getirmiştir. İnternet kullanımının sürekli olarak artmasıyla birlikte son
dönemlerde asıl dikkat çekici artış mobil internette yaşanmakta, uygulama sunma
platformları ve altyapı yatırımları, mobil iletişim sektörüne doğru kaymaktadır. Bu
gelişmeler pazarlamacıları internetteki kişiselleştirme uygulamalarına daha fazla
odaklanmaya
zorlamaktadır.
Günümüz
rekabetçi
pazar
ortamında,
tüketicileri
gruplandırmak ve tüketicilerin farklı kişiselleştirme tiplerine karşı olan tutumlarını göz
önünde bulundurarak, doğru gruba doğru strateji ile yaklaşmak büyük önem arz
etmektedir.
Son yıllarda büyük önem kazanan büyük veri kavramı; algılayıcılar ve araçlar tarafından
oluşturulan, büyük hacimli, çeşidi bol ve hızla artan veriyi; toplama, saklama, temizleme,
görselleştirme, analiz etme ve anlamlandırma işlemlerinin gerçekleştirilmesini ifade
etmektedir [1]. Bu verilerin analizi ve incelenmesi; istatistik, veri madenciliği, makine
öğrenmesi, optimizasyon teknikleri, sosyal ağ analizi, sinyal işleme, örüntü tanıma ve
görselleştirme yaklaşımları gibi birçok disiplini içermektedir.
Literatürdeki, firmaların müşterileriyle olan ilişkilerini koruyarak ve geliştirerek kârlarını
yükseltme amacını taşıyan ve kullanıcıların da isteklerine kolayca erişebilmesini sağlayan
çalışmalar incelenerek, kurumların müşterilerine ve sundukları ürün ve hizmetlere ait
büyük çaptaki verilerini analiz ederek kişiselleştirilmiş uygulama ve servis sunmasının
büyük önem arz ettiği görülmüştür.
Kullanıcı davranışlarının belirlenmesi sürecinde öncü çalışmalar; web sayfalarının meta
verileri ve kullanıcı oturum verileri [2,3], sosyal ağlar [4], yazılım paketi kullanım şekli
[5,6] ve web sayfası üzerinde tıklama ve gezinme biçimi [7,8] gibi verilerinin analiz
edilmesiyle literatüre katkıda bulunmuşlardır. Mobil kullanıcıların alışkanlıkları üzerinde
yapılan çalışmalar ise konuya; mobil internet kayıtlarına ek olarak, analiz sürecine konum
bilgisinin eklenmesi [9,10], ilgilenilen içerik hakkında bilgi çıkarılması [11,12,13] ve
mobil cihazın ekranını kullanma biçimi [14] gibi bakış açılarından yaklaşmışlardır.
2
Belirli ölçütler dâhilinde benzer davranış gösteren veya aynı demografik örüntülere sahip
kullanıcılar gruplandırılarak [15,16] ya da her kullanıcının karakteristiği bireysel olarak
incelenerek [17,18] filtreleme ve tavsiye sistemleri geliştirilmiş, konu hakkında genel
perspektif [19] sahibi olunmuştur. Son olarak bu süreçte toplanması gereken veri türleri ve
dönüştürülecekleri durumlar belirlenerek mobil kullanıcı davranışı modelleri önerilmiştir
[20,21,22].
Akademik çalışmaların değerlendirilmesiyle; kişiselleştirilmiş uygulamaların ve tavsiye
sistemlerinin dikkate alınarak yapılan kullanıcı davranışı belirleme sürecinde, tercih edilen
mevcut kararlı bir veri toplama ve analiz modeli olmadığı görülmüştür. Bu sebeple, bu
çalışma kapsamında kullanılan veriler, çeşitli veri madenciliği yöntemleri ve bakış açıları
ile birleştirilip yorumlanarak analiz edilmiş, belirli veri türlerini ve tekniği kapsayan bir
model oluşturularak veri seti üzerinde uygulaması gerçekleştirilmiştir. Ayrıca daha kararlı
bir yapının elde edilmesi için toplanması gereken veriler belirlenerek ideal bir mobil
kullanıcı davranış modeli önerilmiştir.
Bu çalışma, telekomünikasyon verileri kullanılarak, Android işletim sistemine sahip cep
telefonundan mobil uygulamalara erişen kullanıcıların davranışları büyük veri kapsamında
öncelikle görselleştirilip daha sonra modellenerek; kullanıcıların güvenini kazanmak,
firmaya yeni perspektifler sunmak ve farklı ürün ve çözümler oluşturmak isteyen
pazarlamacılara, şirketinin stratejisini gözden geçirmek isteyen yöneticilere ve diğer
idarecilere; müşteri profilini görmeleri ve doğru tüketici grubuna, doğru kişiselleştirme
tekliflerini sunabilmeleri için öneriler sunmaktadır.
Tez kapsamında, mobil verilerin büyük veri çerçevesinde görselleştirilmesi yapılmış ve
mantıksal analizi veri madenciliği yaklaşımları kullanılarak gerçekleştirilmiştir. Kullanıcı
profillerinin oluşturulmasında, kolay anlaşılır ve yorumlanabilir olması ayrıca kural
çıkarımına izin vermesi nedeniyle karar ağaçları tekniği; sürekli ve kategorik değişken
tipleriyle çalışabilmesi ki-kare metriğiyle, ilişki düzeyine göre farklılık rastlanan grupları
ayrı ayrı sınıflayabilmesi ve ağaç yapraklarının verideki farklı yapı sayısı kadar dallanması
sebebiyle de CHAID algoritması kullanılmıştır [23]. Kısıtlı veriler ile yapılan analizler
sonucunda; cep telefonu kullanıcılarının istekte bulundukları durumların şartları ile
indirme ve ödeme işlemini gerçekleştirip gerçekleştirmedikleri bilgisi bir araya getirilerek;
verilerin hangi şartlar ve birliktelikler altında indirmeye veya ödemeye, yüzde kaç
3
oranında dönüşeceği kurallar şeklinde belirlenmiştir. Böylece, sistemi ziyaret eden bir
kullanıcının istek örüntüsü kullanılarak, ilgilendiği uygulamayı indirme veya para ödeme
oranı, henüz işlem tamamlanmadan bilinmiş olmaktadır.
Yukarıda bahsedildiği üzere, bu tez çalışması kapsamında yapılan araştırma, öneri ve
geliştirme süreci Şekil 1.1’de özetlenmiştir.
Şekil 1.1. Tez kapsamında yapılan çalışmalar
Tez kapsamında yapılan görselleştirme ve mantıksal analiz çalışmalarından elde edilen
bilgiler, aşağıda maddeler halinde verilen hususlarda katkılar sağlayacaktır. Bunlar:
1. Uygulama indirme ve satın alma olasılığı yüksek olan aktif kullanıcılar, sisteme giriş
yaptığında işlemi henüz sonuçlanmadığı halde davranışı daha önceden belirlendiği için;
kişiye direkt ilgisi dâhilinde sürekli önerilerde bulunulacaktır.
4
2. İndirme olasılığı sınır değerlerde olan kararsız kullanıcıların, trafik potansiyelini
düşüren faktörlerinin bulunarak, kişisel kampanya ve reklamlar sayesinde aktif
kullanıcı haline getirilmesi sağlanabilecektir.
3. Belirli bir örüntü içerisinde işlem yapma ihtimali çok düşük olan kullanıcının daha
farklı içerik ve etkinlik tavsiyeleriyle bulunduğu sınıftan çıkarılarak aktif hale
dönüştürülmesi sağlanabilecektir.
4. Kullanıcıların genel eğilimlerinin çıkarılmasıyla elde edilen büyük tabloda, firmanın
sektördeki konumunu belirleyerek yeni ortaklık, reklam, pazarlama ve uygulama
stratejileri belirlenebilecektir.
5. Kullanıcıların
elektronik
ortamları
daha
verimli
ve
keyifli
kullanmaları
sağlanabilecektir.
Bu tez çalışması içeriğinde; 2. Bölümde veri ve bilgi kavramı, veri madenciliği modelleri,
aşamaları ve araçları incelenmiş, 3. Bölümde büyük veri tanımı, olgusu, bileşenleri, teknik
ve teknolojileri, büyük veri madenciliği ve bu süreçte ortaya çıkan veri bilimi gözden
geçirilmiş ve değerlendirmeler yapılmış, 4. Bölümde literatürdeki kullanıcı davranışlarının
belirlenme süreçleri, tavsiye sistemleri ve modeller incelenerek, mevcut veri seti üzerinden
kullanıcı davranış modeli önerilmiş, 5. Bölümde veriler bir önceki bölümde önerilen
modele uygun olarak ve belirli senaryolar dâhilinde, veri madenciliği süreçleri kapsamında
analiz edilmiş, elde edilen sonuçlar değerlendirilerek ideal bir cep telefonu kullanıcı
davranış modeli oluşturulması için belirlenen parametreler önerilmiş, son olarak
6. Bölümde ise çalışmada elde edilen sonuçlar sunulmuş ve değerlendirmeler yapılmış,
çalışmanın bilime katkısı sunulmuş, gelecekte hedeflenen çalışmalar belirtilmiş ve
karşılaşılan güçlükler verilmiştir.
Bu çalışma kapsamında ve analiz süreçlerinde, gerçek veriler kullanıldığı için, sonuçların
gösterimi ve yorumlanması, yapılan gizlilik anlaşması sebebiyle bazı bölümlerde sınırlı
olarak sunulmuştur.
5
2. VERİ MADENCİLİĞİ
Bilişim teknolojisi açısından veri; bir durum hakkında, birbiriyle bağlantısı henüz
keşfedilmemiş varlıklar ya da sayısal ortamlarda bulunan sinyaller veya bit dizeleri olarak
tanımlanmaktadır. Verinin belli bir anlam ifade edecek şekilde düzenlenmiş haline bilgi
denilirken; aslında bir güç oluşturabilecek veya katma değer sağlayabilecek şekle
dönüşmek üzere, daha özenli olarak işlenmiş asıl değerli olan bilgi, özbilgi kavramıyla
ifade edilmekte, güvenilir yargı ve karar süreçlerinde özbilginin kullanılmasıyla da ulaşılan
son aşama, hikmet olarak adlandırılmaktadır [1,24]. Veri kavramı, üç başlık altında
incelenmektedir [25].
1. Yapılandırılmış Veri (Structured Data): Veriler aynı tanımlanmış formatta ve
uzunluktadır ve aynı düzeni izleyerek gruplandırılmıştır. Bilgi organizasyonunun satır
ve sütunlarla düzenlendiği geleneksel veri tabanı sistemleri bu türden verileri
barındırmaktadır.
2. Yapılandırılmamış Veri (Unstructured Data): Bu biçimdeki veriler herhangi bir format,
dizi veya kural izlemezler. Metin, video, ses, görüntü, e-posta, blog ve web sayfaları
yapılandırılmamıştır. Bu veriler içerikleri yenilendiğinde dinamik, düzenlenmeye
müsait olmayanları ise statik olarak sınıflandırılabilir.
3. Yarı Yapılandırılmış Veri (Semi Structured Data): Semantik çokluklar organize
edilerek benzerlikleri tamamen denk olmasa da gruplandırılmasıdır. Web verileri, eposta ve XML dokümanları örnek olarak verilebilir.
Veri madenciliği; veri ambarlarında tutulan, büyük miktarda ve çeşitli verinin analiz
edilerek daha önce keşfedilmemiş bilgileri ortaya çıkarmak, bunları karar vermede ve
gelecekle ilgili tahmin yapmada kullanma sürecidir [26,27]. Etkin bir veri madenciliği
uygulaması için, farklı tiplerdeki ve ortamdaki verileri kullanma; analiz algoritmasının
başarısı ve verimliliği; sonuçların kesinlik ve anlamlılık ölçütlerini sağlaması; keşfedilen
kuralların görselleştirilmesi; son olarak da gizlilik ve veri güvenliği şartlarının sağlanması
gerekmektedir [26].
Veri madenciliği aşağıda belirtildiği gibi pek çok alanda uygulanabilmektedir [27,28]:

Bankacılık: Kredi taleplerinin değerlendirilmesi, risk analizleri, usulsüzlük tespiti
6

Bilim ve Mühendislik: Bilimsel ve teknik problemlerin çözümlenmesi

Borsa: Hisse senedi fiyat tahmini, genel piyasa analizleri

CRM/Müşteri Analitiği: Müşteri memnuniyetinin artırılması, yeni müşterilerin
kazanılması, değerli müşterilerin elde tutulması, davranış analizi

Elektronik Ticaret: Müşteri ilişkileri yönetimi, saldırıların çözümlenmesi

Endüstri: Kalite kontrol, üretim süreci kontrolü

Pazarlama: Çapraz satış analizleri, müşteri değerlendirme, pazar sepeti analizi

Sigortacılık: Müşteri kaybı sebeplerinin belirlenmesi, usulsüzlüklerin önlenmesi

Telekomünikasyon: Müşteri bölünmeleri, hile tespiti, hatların yoğunluk tahminleri

Tıp: Tıbbi teşhis, uygun tedavi sürecinin belirlenmesi
Veri madenciliği, veri setlerinden özbilginin keşfedilmesi sürecinin temel adımıdır. Bu
sürecin verimli olarak gerçekleştirilmesi için, boyutu ve karmaşıklığı hızla artan verilerin
mantıksal ve istatistiksel analiz sürecini kolaylaştırmak adına; R, Weka, IBM SPSS,
Matlab, SAS, RapidMiner, Orange ve KNIME gibi birçok ticari veya açık kaynaklı araç
kullanılmaktadır [29,30]. Verinin hazırlanmasını ve analizini sağlayan bu araçlar, çeşitli
kütüphaneler ve eklentiler sayesinde; büyük veri, paralelizasyon, graf madenciliği, akan
veri analizi, zamansal ve mekânsal verilerin işlenmesi gibi ekstra yeteneklere sahip
olabilmektedirler [29].
2.1. Veri Madenciliği Modelleri
Veri madenciliği teknikleri, veri yapısı ve kullanım amacına bağlı olarak farklılaşmakta ve
temel olarak iki ana grupta toplanmaktadır [28].
1. Tanımlayıcı (Descriptive) Model: Veri tabanını sorgularıyla, veri ilişkilerini ve
modellerini bulmayı amaçlamaktadır.
2. Tahmin Edici (Predictive) Model: Verilerden elde edilen desenler yardımıyla,
gelecekteki değerleri öngörür.
Veri madenciliği modelleri işlevlerine göre sınıflandırma ve regresyon (classification and
regression), kümeleme (clustering) ve birliktelik kuralları (association rules) olmak üzere 3
ana başlık altında incelenmektedir [28,31-33].
7
2.1.1. Sınıflandırma ve regresyon
Herhangi bir konunun, olayın ya da değerin önceden belirlenen çıktılara göre ayrıştırılması
ya da bir nesnenin eksik kalan sınıf özelliğine hangi değerin geleceğinin tahmin edilmesi
için kullanılır [28]. Çıktılar, önceden bilindiği için, veri kümesini denetimli (supervised)
olarak öğrenir [33]. Sınıflandırma kategorik, regresyon süreklilik gösteren veriler üzerinde
uygulanırken; yaygın olarak kullanılan regresyon modellerinden doğrusal regresyonda
hedef değişkenin değeri, lojistik regresyonda ise alabileceği değerlerden birinin
gerçekleşme olasılığı belirlenmektedir [28,33]. Karar ağaçları (decision trees), yapay sinir
ağları (artificial neural networks), genetik algoritmalar (genetic algorithms), k-en yakın
komşu (k-nearest neighbor), destek vektör makineleri (support vector machine), Naive
Bayes, diskriminant analizi ve regresyon analizi teknikleri örnek olarak verilebilir [32-34].
2.1.2. Kümeleme
Bir dizi örüntüyü, homojen ve ayrık guruplar oluşturacak şekilde ayrıştırma işlemidir [28].
Sınıflandırmadan farklı olarak, kayıtların hangi sınıfa ait oldukları önceden tanımlanmaz.
Merkezi kümeleme (centroid) yöntemi, k-ortalamalar algoritması, kohonen ağları
kümeleme tekniklerinden bir kaçıdır [32,33].
2.1.3. Birliktelik kuralları
Veri kümesi içindeki ilginç ilişkileri, sık örüntüleri bulmak için; eş zamanlı oluşum, olay
ve durumların tespitini, birlikte olma olasılıklarını ve bunların şartlarını ortaya koyan
modeldir. AIS, apriori, eclat, direct hashing and pruning, partition ve frequent pattern
growth algoritmaları veri setlerindeki birliktelik analizlerinin tespiti için kullanılmaktadır
[28]. Birliktelik analizi, bir veri kümesindeki kayıtlar arasındaki bağlantıları arayan
denetimsiz (unsupervised) veri madenciliği şeklidir [33].
2.2. Veri Madenciliği Aşamaları
Verinin içindeki gizli örüntülerin çıkarılması ve verinin nitelikli bilgiye dönüştürülmesi
amacıyla, istatistiksel tekniklerin ve yapay zeka algoritmalarının kullanılarak, ham veriden
bilginin keşfedilmesi süreci Şekil 2.1’de gösterilmiştir.
8
Şekil 2.1. Bilgi keşfi sürecinde veri madenciliği [28,31,35]
Şekil 2.2. Veri madenciliği sürecindeki adımların sunulduğu CRIPS-DM çevrimi [28,35]
9
Şekil 2.2’deki, CRISP-DM (Cross-Industry Standard Process for Data Mining)
metodolojisi genişletilerek, bilgi keşfi sürecinin aşamaları aşağıda verilmiş olup her bir
aşamanın ayrıntıları belirtilmiştir [26,27,31,36].
1. Veriyi Anlama: Mevcut veri tabanındaki veya veri ambarındaki verinin niteliğini ve
kalitesini belirlemek
2. Veri Seçme ve Birleştirme: Veri kaynaklarından, yapılacak uygulama için uygun
verileri seçmek ve bir araya getirmek
3. Veri Temizleme: Gürültülü, tutarsız ve eksik verileri çıkarmak veya normalize etmek
4. Veri Dönüşümü: Veriyi, veri madenciliği tekniklerinde kullanılabilecek hale getirmek
için etiketlemek veya değiştirmek
5. Verinin Görselleştirilmesi: Opsiyonel olarak, büyük boyuttaki veriler arasındaki
ilişkilerin görülmesini kolaylaştırmak ve analiz için kurulan hipotezlerin doğruluk
ihtimalini sınamak
6. Veri Azaltma: Veri miktarı çok fazla olduğu zaman veri madenciliği algoritmalarının
çalışması ve sonuç üretmesi çok uzun sürebileceği için, sonucu nerdeyse hiç
değişmeyecek şekilde veriyi azaltmak
7. Model Kurma: Veri örüntülerini yakalayabilmek için uygun akıllı metotları uygulamak
8. Model Değerlendirme: Belirlenen veriler üzerinde farklı algoritmalar, farklı kriterlerde
çalıştırıldıktan sonra en doğru sonucu hangisinin verdiğini bulmak
9. Örüntü Değerlendirme ve Bilgi Sunumu: Belirli ölçütlere göre elde edilen bilgiyi
temsil eden örüntüleri tanımlamak ve bilgiye dönüştürülmüş ham verinin kullanıcıya
sunumunu gerçekleştirmek
Büyük hacimli veri tabanlarında ya da birden fazla veri tabanı veya farklı veri kaynakları
içeren sistemlerde, ilginç ve değerli olan bilgiye erişmeyi sağlayan bilgi keşif süreci
oldukça zordur. Bu sebeple uygulamalarını doğru bir şekilde gerçekleştirebilmek adına;
temel kavramların, kullanılan tekniklerin birbirlerinden farkının veya üstünlüğünün iyi
bilinmesi veya analiz aracı seçimi, veri madenciliği sürecinin daha kısa ve verimli
yönetilmesini sağlayacaktır.
10
11
3. BÜYÜK VERİ
Bilişim dünyası yapısı gereği hızla değişmekte ve bu değişim de yeni yapıları gündeme
getirmektedir. Günümüzde, küresel çapta dönen verinin büyüklüğünün petabyte (250 byte),
exabyte (260 byte) ve zetabyte (270 byte) boyutlarına ulaşmasıyla otoriteler, bu durumu
tanımlamak için Büyük Veri (Big Data) terimini kullanmaya başlamıştır [37].
Büyük veri; algılayıcılar ve araçlar tarafından oluşturulan, büyük hacimli, çeşidi bol ve
hızla gelen veriyi; toplama, saklama, temizleme, görselleştirme, analiz etme ve
anlamlandırma işlemlerinin gerçekleştirilmesidir [38]. Mevcut veri tabanı yönetimi araçları
veya geleneksel veri işleme uygulamaları kullanılarak işlenmesi zor olan, çok geniş ve
karmaşık veri setlerinden oluşması; verinin elde edilme, iyileştirilme, depolama, arama,
paylaşma, transfer, analiz ve görselleştirme aşamalarında zorlukların ortaya çıkmasına
sebep olmaktadır [39].
Büyük verinin güncel hayattaki yerini daha iyi kavramak için bazı istatistiksel bilgiler,
aşağıda belirtilmiştir [40-42].
1. Dünyadaki bütün verinin %90’ı son iki yılda oluşturulmuştur.
2. Dünya nüfusunun %40’ına denk gelen 2,923 milyon internet kullanıcısı bulunmaktadır.
Online popülasyonun da %73,4’ü internete mobil telefonlarından erişmektedir.
3. 10,2 milyar dolar pazar hacmine sahip büyük verinin değerinin, 2017’de 53,4 milyar
dolar olacağı tahmin edilmektedir.
4. Dijital dünyanın %70’i olan 900 exabyte veri kullanıcılar tarafından oluşturulmaktadır.
5. Firmalar, tüm verilerinin %80’ini saklamaktadırlar.
6. 2020 yılında verilerin üçte birinin bulutta saklanacağı öngörülmektedir.
7. Beyaz Saray, büyük veri projeleri için 200 milyon dolar yatırım yapmaktadır.
8. Veriye erişimin %10 artması Fortune 1000 şirketlerine 65,7 milyon dolar ek net gelir
getirmektedir.
9. 2013’de 2.712.239.573 internet kullanıcısı, Google’da yaklaşık olarak 1,2 trilyon
arama yapmıştır.
10. Günün her dakikasında 570’in üzerinde yeni web sitesi kurulmaktadır.
11. Her ay YouTube’u 1 milyar özgün kullanıcı ziyaret etmekte ve 6 milyar saatin üzerinde
video izlemektedirler.
12
12. Aylık 271 milyon aktif kullanıcıya sahip olan Twitter’da günde 500 milyon tweet
atılmaktadır.
13. Facebook’un 1,07 milyarı mobil olmak üzere 1,32 milyar aktif aylık kullanıcısı
bulunmaktadır.
14. 200 milyon aktif aylık kullanıcısı olan Instagram’da günde 60 milyon fotoğraf
paylaşılmaktadır.
15. LinkedIn, 200’ün üzerinde ülkeden 300 milyondan fazla üyeyi ve 3 milyondan fazla
firmayı barındırmaktadır.
Verilerin özellikle son iki yılda bu kadar ciddi boyutlara ulaşmasının ardından popülerlik
kazanan büyük veri olgusunun, ilk ve en önemli uygulayıcılarından olan Google’ın,
kullanıcıları tarafından sorgulanan anahtar kelimelerin hangi coğrafyalarda hangi
zamanlarda ve ne sıklıkta arandığını gösteren Trends platformuna göre büyük veriye ait
arama hacimleri Resim 3.1 ve Resim 3.2’de gösterilmiştir [43]. Sonuçlara göre, konuya
gösterilen ilgi 2011’den sonra çok hızlı bir şekilde artmıştır. Küresel çapta çok ilgi
gösteren ülke Hindistan ve Singapur olurken, Türkiye’den en fazla istek İstanbul ve
Ankara şehirlerinden gerçekleştirilmiştir. Konunun Türkiye için çok yeni olduğu arama
sonuçlarından da görülebilmektedir.
Büyük veri; verilerin dijitalleşmesi ve farklı boyutlarda alınan verilerin toplanıp,
düzenlenmesiyle insan davranışlarını anlama, tahminler yapma ve işletmelerin sahip
olduğu verilerden yola çıkarak akıllı yönetim imkânı sağlamaktadır [37]. Firmalara bu
süreçlerin sağlayabileceği faydalar 5 maddede özetlenebilir [39,44]:
1. Şirketler, dijital formatta daha fazla veri oluşturup, depolayarak ürün hakkında daha
doğru ve ayrıntılı bilgi toplayabilir ve bu bilgileri performans artırıcı eylemlerde
kullanma olanağına erişir.
2. Büyük veri, dar segmentasyondaki müşterilere özel ürün veya hizmetleri sunma imkânı
verir.
3. Büyük verinin iyi analiz edilmesi derin ve karmaşık bilgiyi daha anlamlı hale getirerek,
karar alma sürecinde markalara ciddi bir kolaylık sağlar.
4. Firmalar bu veriyi kullanarak, geliştireceği bir sonraki ürün veya hizmet hakkında fikir
sahibi olabilir.
5. Daha önceden bilinmeyen, düşünülemeyen veya görülemeyen pek çok yeni bilginin
elde edilmesine olanak sağlar.
13
Resim 3.1. Büyük veri kavramı ve dünyada kullanımı [43]
14
Resim 3.2. Büyük veri kavramı ve Türkiye’de kullanımı [43]
Şekil 3.1’de uygulama süreci gösterilen büyük verinin, büyük imkanlarından yararlanmak
isteyen sektörler, aşağıdaki uygulamalar sayesinde zaman ve maliyetten kazanarak,
kurumsal olarak daha isabetli stratejiler belirlemektedirler [45-47].
1. İşletme: Müşteri kişiselleştirme, müşteri kaybı sebeplerini belirleme, dağıtım ve lojistik
optimizasyonu
2. Teknoloji: İşlem süresini azaltma, gerçek zamanlı analiz, kriz dönemlerinde hızlı cevap
üretme, riskleri azaltmak için otomatik sistemler ile karar verme
3. Sağlık: Hastalık tespiti, seyrinin takibi ve sağlığı güçlendirmek için kişisel DNA
analizi yapma
15
4. Kamu Sektörü: Verilere erişilebilirlik sağlayarak şeffaflık oluşturma, uygun ürün ve
hizmetler için eylemlerin uyarlanması
5. Perakende Satış: Mağaza davranış analizi, çeşitlilik ve fiyat optimizasyonu, ürün
yerleştirme tasarımı, performansı geliştirme, işçi geliri optimizasyonu
6. Kişisel Konum Verileri: Akıllı yönlendirme, coğrafi hedefli reklamcılık, acil müdahale
7. Akıllı Şehirler: Doğal kaynakların yönetilerek, sürdürülebilir ekonomik gelişmenin ve
yüksek kaliteli yaşamın sağlanması
Temel Matematik
İstatistik
Optimizasyon
...
Veri Madenciliği
Makine Öğrenmesi
Sinyal İşleme
Görselleştirme Metotları
...
Sosyal Ağ
Finans
Biyomedikal
Astronomi
Devlet
Enerji
...
Şekil 3.1. Büyük veri uygulamaları örnekleri
Belirli karakteristik özellikler dâhilinde verinin sınıflandırılması, uygun büyük veri
örüntüleriyle eşleşmesinde kolaylık sağlamaktadır. Çizelge 3.1’de betimlenen anahtar
kategorilerin kombinasyonu ile veriye erişimden tüketim sürecine kadarki bütün aşamalar
belirlenmiş olur [48].
Çizelge 3.1. Büyük verinin sınıflandırılması [48,49]
Analiz Türü
Toplu, Akan, İnteraktif
İşleme
Metodolojisi
Veri Frekansı
Tahmine Dayalı, Analitik (Sosyal Ağ Analizi, Konum Tabanlı Analiz,
Özellik Çıkarımı, Metin Analizi, İstatistiksel Algoritmalar, Konuşma
Analizi, Uyarlama), Sorgu ve Raporlama, Diğer (3 Boyutlu
Modelleme, Dönüştürme)
İsteğe Bağlı, Sürekli, Gerçek Zamanlı, Zaman Serileri
Veri Türü
Meta Veri, Ana Veri, Geçmiş Veri, İşlemsel Veri
İçerik Biçimi
Yapısal Veri, Yarı-Yapısal Veri, Yapısal Olmayan Veri
Veri Kaynağı
Web ve Sosyal Medya, Makine Kaynaklı, İnsan Kaynaklı, Dâhili
Kaynaklar, İşlem Verisi, Biyometrik Veri, Veri Sağlayıcıları
İnsan, İş Süreci, Kurumsal Uygulamalar, Veri Ambarları
Veri
Tüketicileri
Donanım
Ticari Donanım, Gelişmiş Donanım
16
3.1. Büyük Veri Bileşenleri
Büyük veriyi anlamak için onun oluşumundaki beş bileşeni incelemek önemlidir. Bunlar;
Şekil 3.2’de görüldüğü gibi, kısaca 5V (volume, velocity, variety, verification, value)
olarak adlandırılabilir [38,47,49,50].
Şekil 3.2. Büyük veri bileşenleri
1. Miktar (Volume): Veri büyüklüğü artık, terabyte ve petabytedan daha büyük hale
geldiğinden, depolama ve analiz süreçleri için geleneksel yaklaşımlar yetersiz
kalmaktadır.
2. Hız (Velocity): Daha hızlı üreyen veri, o veriye muhtaç olan işlem sayısının ve
çeşitliliğinin de aynı hızda artması sonucunu doğurmaktadır.
3. Çeşitlilik (Variety): Üretilen verinin yüzde 80’i yapısal değildir ve her yeni teknoloji,
farklı
formatlarda
veri
üretmektedir.
Telefonlardan,
tabletlerden,
bütünleşik
devrelerden gelen çeşitli veri tipi ile uğraşılması ve birbirlerine dönüşmeleri
gerekmektedir.
4.
Doğrulama (Verification): Bu bilgi yoğunluğu içinde verinin akışı sırasında güvenli
olması da bir diğer bileşendir. Akış sırasında, doğru katmandan, olması gerektiği
güvenlik seviyesinde izlenmesi, doğru kişiler tarafından görünebilir veya gizli kalması
gerekmektedir.
17
5.
Değer (Value): Büyük verinin veri üretim ve işleme katmanlarından sonra kurum için
bir artı değer yaratıyor olması, karar veriş süreçlerine anlık olarak etki etmesi, doğru
kararı vermede hemen el altında olması gerekmektedir.
3.2. Büyük Veri Madenciliği
Veri, donanım, bilgisayar ağları, bilimsel hesaplamalar ve ticari eğilimlerin gelişmesi,
otomatikman veri madenciliğinin gelişme sürecini etkilemektedir [33]. Ağ oluşturma, veri
saklama ve veri toplama kapasitesinin hızla yükselmesi sayesinde; bilim ve ticaret
sektöründeki büyük veri madenciliği uygulamaları da süratle artmaktadır.
Büyük veri teknikleri; istatistik, veri madenciliği, makine öğrenmesi, optimizasyon
teknikleri, sosyal ağ analizi, sinyal işleme, örüntü tanıma ve görselleştirme yaklaşımları
gibi birçok disiplini kapsamaktadır [51].
Büyük verinin analiz edilerek anlamlandırılması sürecinde; büyük hacim, karmaşıklık, veri
setinin birçok boyutta genişlemesi, verinin otonom kaynaklardan toplanması ve dağıtık
olarak kontrol edilmesi gibi karakteristik özelliklerinden ötürü zorluklar ortaya
çıkmaktadır. Büyük veri madenciliğinde karşılaşılan sorunlar aşağıda özetlenmiştir
[45,52]:
1. Veri madenciliği tekniklerinin uygulanarak analizin gerçekleştirilmesi sürecinde, klasik
alt yapının aksine büyük veri; yüksek performanslı hesaplama yapabilen bilgisayar
kümelerine, MapReduce veya ECL gibi birçok düğüm üzerinde paralel programlama
yapabilen araçlara ve bu koordinasyonları sağlayacak yazılımlara ihtiyaç duymaktadır.
2. Global optimuma ulaşmak için sistem, bütün dağıtık kaynaklar arasında bilgi değişimi
ve birleştirme mekanizmalarını sağlamak zorundadır. Veri işleme, model oluşturma ve
bilgi çıkarımı aşamalarında analiz, her bir farklı birimde lokal olarak gerçekleştirilir ve
birimler arasında takas edilerek, global korelasyon sağlanır.
3. Karmaşıklığı artan sırada verilen; anahtar-değer ambarı, geniş sütun ambarı, doküman
veritabanı ve graf veritabanı gibi geleneksel veri modellerinin aksine, büyük veri ile
başa çıkabilecek etkili ve verimli bir model yoktur.
4. Dev boyutlara ulaşan veri, fiziksel olarak farklı lokasyonlara dağıtılmış halde
olduğundan analiz sürecinde bulut bilişim servislerinin veya veri madencisi gibi
18
üçüncü partilerin kullanılması gizlilik ihlallerine sebebiyet vermektedir.
5. Geleneksel tekniklerin, birçok kaynaktan akan ve dinamik olarak artan heterojen veride
yetersiz kalması, uygulanan madencilik tekniklerinin özelleştirilerek sisteme adapte
edilmesini, daha verimli ve hızlı çalışan bilgi çıkarımı algoritmalarının geliştirilmesini
zorunlu kılmaktadır.
6. Verinin boyutu, kalitesiyle eşdeğer olmadığı için gürültüsüz, tekrarsız, çelişmeyen
doğru verilerin analiziyle doğru sonuçlar elde edilmektedir.
7. Kişinin haberi olmaksızın veya kanun ve politika açıkları kullanılarak yapılan kişisel
verilerin bireysel profil oluşturmada kullanılması, etik problemlere de yol açmaktadır.
3.3. Veri Bilimi
Günümüzde veri, istatistik biliminin ele alabildiği kapsamın dışına taşmaya başlamıştır.
Dağınık, düzensiz ve kaotik yapıdaki bu veriden anlam çıkarılarak büyük resmin
görülmesini sağlayan büyük veri analizi sürecinde yeni bir branş olarak veri bilimi ortaya
çıkmıştır [1]. Veri bilimi; bilgisayar programlama, matematik, istatistik, işletme ve
bilimsel araştırma gibi çeşitli kaynaklardan beslenmektedir [39]. Bu bilimlerle olan
benzerlik ve farklılıkları Çizelge 3.2’de verilmiştir.
Veri bilimci ise; teknik uzmanlık, merak, girişimcilik, hikaye anlatma yeteneği ve
problemlere farklı açıdan bakabilme yeteneğine sahip olan kişilerdir. Disiplinler arası bir
yaklaşımla verinin toplanmasından, temizlenmesi, düzenlenmesi ve sonuçların elde
edilmesine kadar problemin bütün yönleriyle uğraşarak soruna yeni bir bakış açısı
geliştirirler [25].
Çizelge 3.2. Veri analizi yapan bilimlerin karşılaştırılması [25]
Özellik
İstatistik
Veri
Veri
Madenciliği
Bilimi
Varsayımlara dayanmak
Var
Yok
Yok
Veri ürünleri üretmek
Yok
Yok
Var
Var/Yok
Var
Var/Yok
Var
Yapılandırılmamış ve yarı yapılandırılmış verileri Yok
kullanmak
Hız ve miktar anlamında büyük veri ile çalışmak
Yok
19
3.4. Büyük Veri Teknik ve Teknolojileri
Kuruluşlar,
ortakları,
müşterileri
ve
bilim
insanları
açısından
büyük
veriden
faydalanılması; geniş çapta, çeşitlilikte ve hızla artan veriden zeki ve sezgisel ürünlerin
elde edilmesi ile sağlanmaktadır. 2013 yılında analiz edilebilen veri miktarı 750 exabyte
iken, 2020 yılında 13,000 exabyte olacağı tahmin edilmektedir [53]. Büyük verinin
üstesinden gelirken, depolama ve hesaplama süreçleri klasik yöntemlere göre farklılık
göstermektedir. Değerli bilgilerin keşfedilmesi için gereken teknik ve teknolojiler
disiplinler arası metotları ve yeni yaklaşımları kapsaması gerekmektedir. Büyük veri
analitiğinde kullanılan araçlar Şekil 3.3’de sınıflandırılmıştır [54].
Analitik
Görselleştirme
Tahminsel
Analiz
Veri
Madenciliği
Anlamsal Analiz
Veri Kalitesi & Veri Yönetimi
Şekil 3.3. Büyük veri analiz araçları [54]
Analitik görselleştirme, verinin altında yatan detaylara erişerek hedef kitleye cevapları
sunar. Veri madenciliği, gizli örüntüleri ortaya çıkarır. Tahminsel analiz, görselleştirme ve
madencilik algoritmaları ve araçları sayesinde öngörülerde bulunmayı sağlar. Anlamsal
analiz, yapısal olmayan verinin çözümleme, özünü elde etme ve analiz süreçlerini
kapsamaktadır. Veri kalitesi ve veri yönetimi ise, kalite ve yönetim süreçlerinin
tanımlandığı denetim uygulamaları ve kurumsal işlemleri içeren teknolojik araçlarla yapılır
[50,55].
20
Çizelge 3.3’de kategorileştirildiği gibi büyük veri araçları genellikle açık kaynaklı olmakla
beraber, dağıtık dosya sistemleri, paralel hesaplama algoritmaları veya NoSQL (Not Only
SQL) veri tabanları kullanmaktadırlar.
Çizelge 3.3. Veri işleme platformları ve veri madenciliği araçları [51,56-59]
Platform
Lokal
Bulut
SQL
Sütun Şeklinde
NoSQL
Veri
Tabanı
Anahtar-Değer
Doküman Tabanlı
Graf Tabanlı
Veri İşleme
Veri Ambarı
Veri Birleştirme ve Transfer
Sorgu Dili
İstatistik &
Makine Öğrenmesi
İş Zekâsı
Görselleştirme
Sosyal Medya
Hadoop,
MapR,
Cloudera,
Hortonworks,
InfoSphere, BigInsights, Asterix
AWS, Google Compute Engine, Azure, Pure
System, HPCC
Greenplum, Aster Data, Vertica, SpliceMachine
HBase, HadoopDB, Cassandra, Hypertable,
BigTable, PNUTS
Redis, Flare, Sclaris, MemcacheDB, Valdemort,
Riak, BerkeleyDB, Tokyo Cabinet
SimpleDB, MongoDB, Terrastore, CouchDB,
Neo4J, InfoGrid, Infinite Graph
MapReduce, Dryad, YARN, Storm, S4, Kafka,
BigQuery
Hive, HadoopDB, Hadapt
Sqoop, Flume, Chukwa
Pig Latin, HiveQL, DryadLINQ, MRQL, SCOPE,
ECL
Mahout, Weka, R, SAS, SPSS, Pyhton, Pig,
RapidMiner, Orange, BigML, Skytree
Talend, Jaspersoft, Pentaho, KNIME
Google Charts, Fusion Charts, Tableau Software
Radian6, Clarabridge
Büyük veri olgusunun gelişimi kronolojik olarak incelendiğinde, Çizelge 3.3’de Çizelge
3.3’de Veri İşleme kısmında görüleceği gibi, süreç MapReduce ile başlamıştır.
MapReduce, Google tarafından geliştirilmiş, birbirine bağlı ve birlikte çalışan bilgisayar
grubunun büyük veri kümeleri üzerinde dağıtık programlamayı destekleyen bir yazılım
kütüphanesidir [47]. Süreçler basitçe ifade edilecek olursa, map aşamasında analiz edilen
veri içerisinden almak istenen veriler çekilir, reduce aşamasında ise bu çekilen veri
üzerinde istenilen map aşamasında ana düğüm (master node) problem veriyi alıp ufak
parçalara ayırarak işçi düğümlere (worker node) dağıtır. İşçi düğümler bu işleri
tamamladıkça sonucunu ana düğüme geri gönderir. Reduce aşamasında ise tamamlanan
işler işin mantığına göre birleştirilerek sonuç verisi elde edilir [39]. Map aşamasındaki
işlemler birbirinden bağımsız olarak gerçekleşebildiği için paralel olarak çalışabilir. Bu
21
sayede büyük miktardaki veri, küme içerisindeki düğümler tarafından hızlı bir şekilde
okunabilir. reduce aşamasında ise aynı anahtara sahip veriler paralel olarak işlenebilir.
BigQuery, Google'ın 2012'de başlattığı bulut bilişim hizmetlerinden biridir. Verinin içeri
veya dışarı aktarılması, SQL benzeri sorguların çalıştırılması ve diğer kullanıcı ve yönetim
görevlerinin gerçekleştirilmesini sağlayan bir grafik web ara yüzünden oluşmaktadır.
BigQuery, Google'ın çekirdek altyapılarından olan, bulut destekli paralel sorgu servisi,
Dremel'i kullanmaktadır. Dremel, MapReduce'e nazaran, veri kümesi sorgu işlemlerini
daha kısa zamanda gerçekleştirme ve programlamacı olmayan kişiler tarafından bile
kullanılabilecek basitlikte geliştirilmiştir. Dremel büyük veri setleri için etkileşimli bir veri
analizi aracı olarak tasarlanmıştır. Benzer gibi görünen MapReduce ise, büyük veri setleri
üzerinde toplu işlem gerçekleştiren bir programlama çerçevesidir [60].
Hadoop, sıradan sunuculardan oluşan küme üzerinde büyük verileri işlemek amaçlı
uygulamaları çalıştıran ve HDFS (Hadoop Distributed File System) olarak adlandırılan bir
dağıtık dosya sistemi ile Hadoop MapReduce özelliklerini bir araya getiren, Java ile
geliştirilmiş açık kaynaklı bir yazılımdır [47,61]. HDFS sunucuların disklerini bir araya
gelerek büyük, tek bir sanal disk oluşturulur. HDFS, NameNode ve DataNode
süreçlerinden oluşmaktadır. NameNode master süreç olarak blokların sunucular üzerindeki
dağılımından, oluşturulmasından, silinmesinden, bir blokta sorun meydana geldiğinde
yeniden oluşturulmasından ve her türlü dosya erişiminden sorumludur. DataNode ise işlevi
blokları saklamak olan slave süreçtir. Her DataNode kendi yerel diskindeki veriden
sorumludur. Ayrıca diğer DataNode’lardaki verilerin yedeklerini de barındırır [39].
Hadoop MapReduce ise HDFS üzerindeki büyük dosyaları verileri işleyebilmek amacıyla
kullanılan bir yöntemdir. İstediğiniz verileri filtrelemek için kullanılan Map fonksiyonu ve
bu verilerden sonuç elde etmenizi sağlayan Reduce fonksiyonlarından oluşan program
yazıldıktan sonra Hadoop üzerinde çalıştırılır. Hadoop Map ve Reduce’lerden oluşan iş
parçacıklarını küme üzerinde dağıtarak aynı anda işlenmesini ve bu işler sonucunda oluşan
verilerin tekrar bir araya getirilmesinden sorumludur [51,62] .
Düşük maliyet ile yüksek derecede ölçeklenebilirlik sağlayan Hadoop projesi geleceğin
veri işleme platformu olarak adlandırılmakta ve aşağıda bir kısmı belirtilen birçok büyük
firma tarafından desteklenmektedir [45,50,62]:
1. Amazon: Amazon Elastic MapReduce altyapısının sağladığı esneklik sayesinde
Hadoop kullanmaya yeni başlayacaklar ya da ihtiyaçları anlık olarak değişebilecek
22
firmalar için hizmet sunmaktadır.
2. Cloudera: Açık kaynaklı olan projeyi kurumsal altyapılara uygun hale getirmeye
odaklanmıştır.
3. EMC: EMC Greenplum HD ürünü ile tek bir yazılım platformu üzerinde ilişkisel
veritabanı sistemini ve Hadoop’un gücünü birleştirmektedir.
4. Hortonworks: Yahoo tarafından kurulmuş, Hadoop’un açık kaynaklı gelişmesine
odaklanmış, bağımsız bir firmadır.
5. Hadapt: Apache Hive projesinde olduğu gibi SQL arayüzünü kullanarak ilişkisel
veritabanı ve Hadoop sistemini bulut ortamında birleştirmektedir.
6. IBM: InfoSphere BigInsights ürününde Apache Hadoop sistemini Apache Pig analiz
dili ile beraber DB2 veri tabanı desteğini bir araya getiriyor.
7. Microsoft: Azure bulut sistemlerine beta olarak Hadoop’u dâhil etmiştir.
8. Oracle: büyük veri işleme konusunda kendisine en iyi alternatif olan Hadoop projesini
kendi ürünleri ile çok iyi şekilde entegre ederek bunu bir avantaja dönüştürmektedir.
HPCC (High Performance Computing Cluster) platformu, büyük veriden faydalanmak
için, verileri sıradan hesaplama kümeleri üzerinde paralel olarak işleyerek yüksek
performans sağlayan bir yazılımdır. HPCC 3 ana bileşene sahiptir [63].
1. Thor (Veri Rafinerisi): Ham verinin temizlenmesi, entegrasyonu ve toplu iş odaklı veri
işleme sağlayan büyük ölçekte paralel ETL (Extract, Transform, Load) motorudur.
2. Roxie (Veri Dağıtım Motoru): Verileri paralel olarak işleyen, çevrimiçi, yüksek
performanslı yapısal sorgulama ve analiz platformu.
3. ECL (Enterprise Control Language): Düğümler arasında iş yükünü otomatik dağıtan,
büyük veri sorgu işlemleri için optimize edilmiş, kullanımı basit bir programlama
dildir.
Hadoop ve HPCC'nin özelliklerinin karşılaştırılması [64]:
1. HPCC kümeleri Thor ve Roxie kullanılarak, Hadoop kümeleri MapReduce işleme ile
çalıştırılır.
2. HPCC ECL, Hadoop Java programlama dilini kullanır.
3. Hadoop'un aksine HPCC veri modeli kullanıcı tarafından tanımlanır.
4. HPCC Community Edition ücretsizdir, Enterprise License sistemin türüne ve boyutuna
göre değişir. Hadoop ücretsizdir, farklı satıcılar tarafından desteklenen türlerinden
23
bakım ücreti alınmaktadır.
5. Yapısal sorgu ve analiz gibi veri ambarı yeteneklerini HPCC'de Roxie, Hadoop'da Hive
sağlar.
6. Dağıtım, HPCC'de çevresel kofigürasyon araçlarıyla sağlanırken, Hadoop da bu
işlemler 3. parti uygulamalar kullanılarak gerçekleştirilir.
7. HPCC platformu dağıtık dosya sistemi dosyaları üzerinde çok anahtarlı, çok değişkenli
dizinler oluşturabilirken, HBase olarak adlandırılan Hadoop için bir eklenti sistemi
anahtarlı erişim ile sütun odaklı veri tabanı yeteneği sağlar.
8. HPCC yapılandırmaları, aynı işlem performansı için Hadoop kümesinden daha az
düğüme gerek duyar.
9. Aynı donanıma sahip 400 düğümlü sistemde, HPCC işlemleri 6.27 dakikada, Hadoop
25.28 dakikada gerçekleştirmiştir.
IBM’in büyük veri platformu, çekirdeğe entegre edilebilen esnek ve çevik bileşenlerden
oluştuğu için projenin başarısını artırmak ve teslimatı hızlandırmak gibi birçok fayda
sağlamaktadır [50]. Depolama, veri iletimi, analiz ve tüketim katmanlarında; InfoSphere
Data Explorer, InfoSphere BigInsights, InfoSphere Streams, SPSS Modeller ve SPSS
Statistics araçları kullanılır [65].
1. InfoSphere Data Explorer: Gerçek zamanlı erişim ve farklı uygulamalardaki farklı
verileri birleştirme yeteneğiyle daha fazla öngörü ve yatırım getirisi sağlar.
2. InfoSphere BigInsights: Büyük hacimli yapısal ve yapısal olmayan verinin; metin
analizi, görselleştirme, performans, güvenlik ve yönetimsel özellikler ile yönetimini ve
analizini yapan Apache Hadoop tabanlı sistemdir.
3. InfoSphere Streams: Kısa zaman içerisinde, büyük boyutta akan verinin sürekli
analizini sağlayarak karar destek sürecini geliştiren ve olaylara gerçek zamanlı
müdahale eden yazılımdır.
4. Netezza: Gelişmiş analizler ve derin anlayışlar sunmak için geliştirilmiş belirli
amaçlara göre kurulabilen yüksek performanslı veri ambarı cihazıdır.
Büyük veri kavramının kısa bir zaman içerisinde yoğun bir ilgi görmesinin ardından;
Apache, Google, Amazon, IBM, Oracle, SAP, Apple ve Microsoft gibi büyük firmaların
öncülüğünde değişken ihtiyaçlara çözüm üreten, farklı yeteneklere sahip araçlar bu pazarda
yer almaya başlamıştır. Mevcut araçlar; toplu işlem araçları, akış işleme araçları ve
24
interaktif analiz araçları olarak üç sınıfta incelenebilir [39]. Büyük oranda Hadoop temelli
olan açık kaynaklı veya ticari bazı platformlara ait bilgiler Çizelge 3.4’de özetlenmiştir.
Çizelge 3.4. Büyük veri araçlarının karşılaştırmalı analizi [39]
İsim
Apache Hadoop
Dryad
Apache Mahout
Jaspersoft
BI Suite
Pentaho
Business
Analytics
Skytree Server
Tableau
Toplu Veri İşleme Araçları
Kullanım Alanı
Üstünlükleri
Altyapı ve platform
Yüksek
ölçeklenebilirlik,
güvenilirlik, tamlık
Altyapı ve platform
Yüksek performanslı dağıtık işleme,
iyi programlanabilirlik
İşletmede makine öğrenmesi İyi olgunluk
algoritmaları
İşletme zekâsı yazılımı
Uygun maliyet, self servis
İşletme analitiği platformu
Bilgi
keşfinde
sağlamlık,
ölçeklenebilirlik, esneklik
Makine öğrenmesi ve gelişmiş
analizler
Veri görselleştirme, işletme
analitiği
Büyük veri çalışma alanı
Büyük veri kümelerini yüksek hızda
ve doğru işleme
Daha hızlı, akıllı, güzel ve
kullanımı kolay
İşbirlikçi ve standartlara dayalı
kısıtsız analitik ve self servis
Karmasphere
Studio
and Analyst
Talend
Open Veri yönetimi ve uygulama Kolay kullanımlı, eclipse tabanlı
Studio
bütünleştirme
grafik ortamı
Akan Veri İşleme Araçları
Storm
Gerçek zamanlı hesaplama Ölçeklenebilir, hata toleranslı,
sistemi
kurması ve işletmesi kolay
S4
Sürekli sınırsız akan veri Kanıtlanmış, dağıtık, ölçeklenebilir,
işleme
hataya dayanıklı platform
SQLstream
Sensör, M2M ve telematik SQL tabanlı, gerçek zamanlı akan
s-Server
uygulamalar
büyük veri platformu
Splunk
Makine verisini toplama ve Hızlı ve kolay kullanımlı, dinamik
demetleme
ortamlar, laptoptan veri merkezine
kadar ölçeklenebilir
Apache Kafka
Dağıtık
yayıncı-abone Sabit faaliyet verilerinin yüksek
mesajlaşma sistemi
verimli akışı
SAP Hana
Gerçek zamanlı iş platformu
Hızlı iç bellek hesaplama ve gerçek
zamanlı analiz
İnteraktif Analiz Araçları
Google Dremel İç içe verinin analizi
Birçok CPU üzerinde büyük
sorguları birleştirerek hızlı cevap
üretme
Apache Drill
Büyük ölçekli özel amaçlı Farklı
sorgu
dillerini,
veri
sorgulama
formatlarını ve veri kaynaklarını
destekleme
25
4. KULLANICI DAVRANIŞI ANALİZ MODELLERİ
Mobil telefonların kullanımının yaygınlaşması, barındırdıkları sensörlerin ve kurulan
uygulamaların artmasıyla beraber elde edilen büyük çaptaki mobil ağ operatör verisinin ve
akıllı telefon duyarlı verinin analiz süreci, bilişim ve sosyal bilimler alanında önemli
boyuttaki araştırmalara konu olmuştur. Bu çalışmalar; teknolojik gelişimin insan hayatına
etkilerini incelemeyi, mobil telefon kullanıcılarının gerçek hayattaki davranışlarını
öngörmeyi, gelişmiş mobil ağ deneyimlerini gerçekleştirmeyi ve yeni model veya
inovasyon önerilerinde bulunmayı amaçlamaktadır [66].
Bu bölümde literatürde bulunan, mobil kullanıcı davranışlarının belirlenmesi için
izlenmesi gereken süreçlerin modellenmesi ele alınmıştır.
4.1. Literatür Taraması
Firmaya değer katan müşterilerle ilişkileri korumak ve geliştirmek böylece kâr marjını
yükseltmek amaçlı, müşteri odaklı ve gerçek zamanlı pazarlama stratejisi, müşterinin bilgi
vermesi karşılığında kendisine özel hizmet almasını sağlayan bir fayda ilişkisi temeline
dayanmaktadır [32].
Bu bölümde, kullanıcıların ne tür verileri kullanılarak ne tür davranışlarının
belirlenebileceği ve bu bilgi ışığında kullanıcıya ve firmaya nasıl tavsiyelerde
bulunulabileceği hakkında yapılan akademik çalışmalar özetlenmiştir. Bu bölümde sunulan
çalışmalarda literatürde bir örneği bulunmadığından karşılıklı görüşmeler sonucunda ve
literatürden de faydalanılarak aşağıda alt başlıklarda çalışmalar açıklanmıştır.
4.1.1. Kullanıcı davranışlarının belirlenmesi
İnternet ortamları ile dinamik etkileşimin artması, kişiselleştirilmiş ürün ve servislerin
kitlelere efektif bir şekilde sunulmasını mümkün kılmaktadır. Teknoloji ile kullanıcı
davranışları arasındaki ilişki; kullanıcının işleri yapma biçimi olarak tanımlanan sosyal
çevre ve altyapı ile pazarlama faaliyetlerini kapsayan teknolojik çevre arasındaki
etkileşimden ortaya çıkmaktadır [67]. Kullanıcılara kişiselleştirilmiş bir platform sunmak
ya da kullanıcıları gruplandırarak farklı kişiselleştirme tiplerine karşı doğru strateji ile
yaklaşmak, kullanıcıyı beklenen hedefe en kısa yoldan ulaştırarak, firmaların sektörde
rakipleri arasından sıyrılmasını sağlamaktadır.
Şekil 4.1. Tez çalışmasının literatürdeki yeri
26
27
Bu bölümde, kullanıcı faaliyetlerinin incelenerek davranış modellerinin önerildiği
çalışmalara yer verilmiştir. İncelenen literatür Şekil 4.1’de özetlenmiştir. Uygulama
platformları üzerindeki trafiğin analiz edilmesini kapsayan bu tez çalışması, kategorisinde
öncü niteliğini taşımaktadır.
Liu ve diğerleri (2006), kullanıcı davranışlarını belirlemek amacıyla, web sayfalarının
meta verilerini kullanan hiyerarşik bir model önermiştir. Sistem; URL erişimi, aktivite ve
oturum bilgisi olarak 3 katmandan oluşmaktadır. Modelin test edilmesi için seçilen site;
450 kullanıcının 4000'in üzerindeki URL erişim isteklerini kaydetmiştir. Siteden, bir
haftalık log çıkarılmıştır. Daha sonra sitenin hyperlink yapısı ve durum değişkenlerine
bağlı olarak, her kullanıcının erişim isteğini belirlemek için web log analizi
gerçekleştirilmiştir. Son olarak, kullanıcıların erişim istekleri manuel olarak işaretlenip
semantik ilişkili olan istekler birleştirilmiştir. Böylece istekte bulunulan URL adreslerinin
aktivite birliktelik frekanslarına bağlı olarak, kullanıcılara ait davranış dizileri elde
edilmiştir [2].
Kotiyalt ve diğerleri (2013), kullanıcının gelecekte muhtemelen ilgileneceği web
sayfalarının tanımlandığı, kişiselleştirilmiş web servisi sağlayan kural bazlı zeki sistemler
önermiştir. Kullanıcı davranışları, Eclat ve Apriori algoritmaları kullanılarak tahmin
edilmiş, işletim zamanları ve kaynak kullanımları karşılaştırılmıştır. Web servisi logları
üzerinde sıralı örüntü madenciliği teknikleri kullanılarak, kullanıcının ziyaret edebileceği
siteler; normal navigasyon, bilgi teknolojileri ile ilgili siteler, arama motoru kullanımı,
eğitim siteleri, veri indirilen siteler ve devlet kurumlarına ait siteler olarak belirlenmiştir.
294 işlem ve 5 sütunun olduğu test kümesinde Eclat daha verimli sonuçlara ulaşmıştır [3].
Benevenutoy ve diğerlerinin (2009) yapmış olduğu çalışma; daha iyi site ara yüzü tasarımı,
kişisel reklamlar veya kampanyalar yapılması amacıyla kullanıcıların sosyal ağlar
üzerindeki davranışlarını belirlemektedir. Analizler, 37024 kullanıcının; Orkut, MySpace,
Hi5 ve LinkedIn sitelerine erişimini içeren 802574 HTTP isteği ve 58860 oturum
bilgisinden oluşan, tıklama veri seti üzerinde gerçekleştirilmiştir. Veri trafiği ve oturum
örüntüleri çıkarılarak, kullanıcıların ne sıklıkla sosyal ağlara bağlandığı ve ne kadar süre
bağlı kaldıkları belirlenmiştir. Kullanıcıların, sosyal ağlarda yaptıkları aktiviteler
istatistiksel olarak analiz edilmiştir [4].
28
Zhao ve diğerleri (2013), kümeleme analizi ile kullanıcıların web ve yazılım kullanımı
verileri üzerinden günlük davranış örüntüleri çıkararak; yeni kullanıcıların, yapmış
oldukları yarım günlük aktivite kayıtlarından davranışının sınıflandırılmasını sağlayacak
bir model önermiştir. Sınıflandırma işlemi; 6863756 erişim kaydı, 585496 farklı URL ve
9895 farklı yazılım verisi üzerinde gerçekleştirilmiştir. Veri; yazılım ya da web sayfası
kategorisi ve davranışın oluştuğu zaman periyodu olarak iki boyutta tanımlanmıştır.
Davranışlar, öğleden önce ve öğleden sonra zaman bazında çalışma, eğlence ve yaşam
kategorilerine ayrılıp J48 ve Naive Bayes algoritmalarıyla sınıflandırılmıştır. 10- kat
çapraz geçerleme işlemi sonucunda sistemin ortalama sınıflandırma başarısı J48 ile
%76,77 olmuştur [5].
Kullanıcıların; yazılımları nasıl ve hangi fonksiyonları hangi sıklıkla kullandığını
çözümlemek, elde edilen bilgilerle yazılım sürecini geliştirmek amacıyla Pachidi ve
diğerleri (2014) tarafından önerilen bu model 3 aşamadan oluşmaktadır. Sınıflandırma
analizi; kullanıcının kararlarını belirleyen faktörleri anlamak için gerçekleştirilir. Bu
aşamada lojistik regresyon, sınıflandırma ağacı ve çok katmanlı algılayıcı modelleri
kullanılmıştır. Kullanıcı profili oluşturma aşamasında; kullanıcıların işlem ve oturum
bilgileri kümeleme analizi ve kohonen haritalama yöntemleri ile analiz edilmiştir. Son
teknik olan tıklama bilgilerinin analizi; sıralı örüntü işleme, olasılıksal uzman sistemler ve
markov zinciri metotları kullanılarak belirlenmiştir. 908 kullanıcıya ait, 44000 satırlı, 12
öznitelikli veri setinde %85,7 doğru sınıflandırma oranı elde edilmiştir [6].
Kullanıcıların; kelimeci-görselci ve parçacı-bütüncü olarak bilişsel seviyede davranışlarını
sınıflandıran çalışmalar, kullanıcı grupları ile bilgisayar sistemleri arasındaki semantik
boşluğun doldurulmasını amaçlamaktadır. Belk ve diğerlerinin (2013) çalışması, 106
kullanıcının Wikipedia'da gezinim ve bağlantıları tıklama kayıtları üzerinde, web kullanım
madenciliği teknikleri uygulanarak, bağlantılara tıklama ilişkileri; bağlantıların mutlak
mesafesi, sıralı bağlantıların ortalaması ve sıralı olmayan bağlantıların ortalaması
kriterlerine bağlı olarak kümelendirmiştir [7]. Kinley ve diğerleri ise (2013), 50
kullanıcının web üzerinde arama davranışları, sesli yorumları ve demografik bilgileriyle
beraber analiz edilerek kullanıcıların bilişsel niteliklerine göre aramaları; yukarıdanaşağıya, aşağıdan-yukarıya ve karışık, gezinme örüntüleri; düzenli ve düzensiz, bilgi
işleme yaklaşımları; okuyarak, tarayarak ve karışık olarak sınıflandırmıştır [8].
29
Ma ve diğerleri (2012), ham içerik kayıtlarındaki konum tabanlı verileri ve kullanıcı
etkileşim kayıtlarını normalize ederek davranış örüntüleri oluşturduktan sonra, bayesian
matris ayrıştırma tekniği ile kullanıcıların ortak alışkanlıklarını çıkarıp, bunları hiper
davranış örüntü modeline dönüştüren bir yaklaşım sunmuştur. Mobil uygulamaların
etkileşim türleri 13 kategoriye ayrılmış ve 443 kullanıcıya ait 1097189 içerik kaydı analiz
edilip, kullanıcılar segmentlere ayrılarak, zaman ve mekan bilgileri doğrultusunda ortak
uygulama kullanma alışkanlıkları belirlenmiştir [9].
Tseng ve Lin (2006) tarafından yapılan çalışmada, mobil kullanıcıların istekte bulundukları
servislerle ilgili olarak, sıralı hareket örüntülerinin keşfedilmesini sağlayan yeni bir veri
madenciliği algoritması önermiştir. Kullanıcının bir sonraki lokasyonu, sonraki istenilecek
servisi ve sonraki lokasyon ve servisi birlikte tahminleyen kurallar, geliştirilmiş bir Ngram tabanlı modelle üretilmiştir. Önerilen yeni teknikler simülasyon ortamında test
edilmiştir [10].
Ghose ve Han (2011), mobil telefon bazlı içerik oluşturma ile kullanma davranışı
arasındaki ilişkiyi araştırmıştır. Kullanıcıların yaş, cinsiyet, telefon yaşı, konum, telefon
araması, haftalık internet oturumları ve multimedya içerikleri indirme ve yükleme
bilgilerini kapsayan 180000 mobil kullanıcıya ait 2,34 milyon mobil verinin işlenmesi
sonucunda; istatistiksel olarak içerik kullanımının, içerik oluşturma üzerinde negatif
etkisinin olduğu bulunurken, kullanıcıların coğrafik mobiliteleri arttığında, içerik
oluşturmaktansa içerik kullanımlarının daha fazla arttığı gözlemlenmiştir [11].
Mayrhofer ve diğerleri (2003), mobil cihaz kullanıcılarının davranışlarından öğrenerek,
içeriğin tanınmasını ve tahmin edilmesini sağlayan 4 aşamalı bir mimari önermiştir.
Öznitelik çıkarımı; sensör verilerinin daha ilişkili sunulması, sınıflandırma; veri setindeki
benzerliklerin ve ortak örüntülerin bulunması, etiketleme; belirlenen sınıflara basit içerik
isimlerinin verilmesi, son olarak öngörü; kullanıcının önceki davranışlarından, gelecek
içeriğin tahminlenmesi amacıyla yapılmıştır. Haftanın günü, WLAN ve Bluetooth
bağlantıları özellikleri, çevresel gürültü ve şarja takılı olma durumu gibi 11 öznitelikli,
100000 örnekli veri seti, cihazların bir akıllı odada yerleştirilmesiyle elde edilmiştir. Bu
şekilde proaktif uygulamaların geliştirilmesi; kullanıcıya zorla belirli arayüzleri öğretmek
yerine, bilgi araçlarının kullanıcılara uygun bir şekilde adapte edilmesini sağlamaktadır
[12].
30
Vojnovic ve diğerleri (2008), mobil cihazlardan yapılan bilgi aramalarını; zamansal,
anlamsal ve sorguların konusu açısından deneysel olarak analiz etmiştir. Analiz, bir
haftalık Microsoft Live Search mobil arama IIS kayıtları kullanılarak gerçekleştirilmiştir.
Kullanıcıların bir sorguyu arama süreçleri, günün belirli saatlerinde ve hafta içerisinde
incelenerek bu davranışlarının büyük bir yoğunlukla başlayıp, üssel olarak azaldığı
gözlemlenmiştir [13].
Normalde masaüstü ve dizüstü bilgisayar için kullanılabilir olan belge, resim, web sayfası
ve harita gibi bilgi alanları, mobil cihaz kullanıcıları tarafından da hızla kullanılmaya
başlanmıştır. Mobil cihazların; küçük ekran, farklı çevresel birim ve sınırlı hesaplama
yetenekleri yüzünden, var olan her uygulamanın mobile aktarılması işlemi kolay
olmamaktadır. Kullanıcılar küçük ekranda bir bilgi alanı tararken, mecburen sadece
görmek istediği bir alanı seçmektedir. Bu işlemi; sayfayı yatay ve dikey olarak kaydırarak,
herhangi bir yönde sürükleyerek veya zoom yaparak gerçekleştirmektedirler. Araştırmalar
genellikle kullanıcı davranışlarını; görüntülenen web siteleri, görseller, videolar ve
etkileşim kayıtları üzerinden tahmin etmektedir. Burigat ve diğerleri (2008) tarafından
geliştirilen harita uygulamasıyla, kullanıcıların oturum süresince gerçekleştirdikleri bakış
ve dokunuş izleri; yatay ve dikey olarak düzenli, yapısal olmayan ve ilk iki tekniğin
birleştirilmesiyle 3 farklı şekilde görselleştirilmiştir [14].
4.1.2. Tavsiye sistemleri
Tavsiye sistemleri, tüketicinin beğenisini öğrenerek özel önerilerde bulunan ve tüketicinin
ürün seçim sürecini verimli bir şekilde yöneten akıllı mekanizmalardır. Bu alanda en
yaygın olarak kullanılan yöntemler aşağıda sıralanmıştır [34,68,69].
1. Demografik Yöntemler: Kullanıcıların; cinsiyet, yaş eğitim, ırk ve benzeri bilgileri
kullanılarak gruplandırılmasıdır.
2. İçerik Tabanlı Filtreleme: Kullanıcının aktiviteleri ile öğeler arasında kurulan ilişkiyi
temel alan filtreleme sürecidir.
3. İşbirlikçi Filtreleme: Kullanıcıların ortak özellikleri ya da ürünler arasındaki
benzerlikler göz önünde bulundurularak tavsiye işleminin gerçekleştirilmesidir.
4. Melez Filtreleme Sistemleri: Daha isabetli tavsiyeler için, her tekniğin avantajlarından
faydalanılarak birden fazla yöntemin bir arada kullanılmasıdır.
31
Bu yöntemler kullanılarak, tavsiye sistemlerinin e-ticaret uygulamalarında yer almasının
amaçları aşağıdaki gibidir [34]:
1. Ürün tavsiyesi: Kullanıcının anlık amacı göz önüne alınarak yeni ürün önerilmesi.
2. Reklam tavsiyesi: Kullanıcının ilgilenebileceği kampanyaların otomatik oluşturulması
ve reklam e-postalarının ya da mesajlarının kişiselleştirilmesi.
3. Kişisel ana sayfa tavsiyesi: Kullanıcının geçmiş hareketleri göz önüne alınarak genel
profiline göre karşılama sayfası oluşturulması.
4. Çapraz ürün satışı: Beraber satılan ürünlerin gösterilmesi veya toplu indirim
uygulanması.
Hedef kitlenin belirlenerek, isabetli pazarlama ve reklam kararları alınmasını sağlayan
öneri sistemlerinin uygulanmasının getirdiği verim ve karın yanında aşağıda belirtildiği
gibi bazı sorunlarla karşılaşılmaktadır [25]:
1. Ölçeklenebilirlik: Mevcut kullanıcı ve öğe sayısındaki artışa bağlı olarak sistemler hızlı
sonuç üretmek zorundadır.
2. İlk çalıştırma: Kullanıcının, ürünün ya da her ikisinin birden yeni olması durumunda
yeterli bilgi olmadığı için, tavsiye üretilmesi güçtür.
3. Popüler nesneler: Yüksek derecelere sahip ürünler, sistem olmaksızın da bulunacağı
için önerinin önemi kalmaz.
4. Önerilerin değerlendirilmesi: Tavsiyenin hangi ölçülerle nasıl değerlendirileceği bir
diğer sorundur.
5. Kullanıcı ara yüzü: Önerilerin kabulünü kolaylaştırmak için kullanıcıya basit ve
anlaşılır bir şekilde sunulması gerekir.
Bu bölümde, kullanıcı faaliyetlerinin incelenerek modellenmesinin sonucunda hayata
geçirilen tavsiye sistemleri model ve tekniklerini içeren bilimsel çalışmalar özetlenmiştir.
Park ve diğerlerinin (2012), 2001 ve 2010 yılları arasında tavsiye sistemleri konusunda
hazırlamış oldukları inceleme makalesinde, literatürde bulunan 210 makale; 8 uygulama
alanı ve 8 veri madenciliği tekniğine göre kategorilere ayrılmıştır. Tavsiye sistemleri, en
çok; resim (7), müzik (9), TV programları (9), kitap (13), belge (18), alışveriş (42), film
(53) ve diğer alanlarda (59) kullanılırken, analiz yöntemi olarak; yapay sinir ağları (7),
karar ağaçları (8), regresyon (14), link analizi (22), birliktelik kuralları (24), kümeleme
32
(37), k-en yakın komşu (55) ve diğer sezgisel metotlar (72) tercih edilmiştir. Yayın yılları
dikkate alındığında; 2001'de 3, 2002'de 5, 2003'de 9, 2004'de 19, 2005'de 15, 2006'da 11,
2007'de 25, 2008'de 32, 2009'da 45 son olarak 2010'da 46 makale, toplamda 46 farklı
dergide basılmıştır [19].
Dong ve diğerleri (2006), web log dosyalarındaki gezinim bilgilerini, günlük aralıklara
bölüp, kullanıcıları kümelemiştir. Tavsiye sisteminin daha efektif çalışması için birliktelik
kuralı teknikleri uygulanmıştır. Ayrıca yeni bir tavsiye performans ölçütü önerilmiştir. 457
URL, 178747 aktif oturum kaydı ve 8776 kullanıcının verileri işlendikten sonra, sonuçlar
farklı güven ve küme benzerliği değerleri kullanılarak karşılaştırılmıştır. Yeni performans
oranının, kümeleme işleminde iyileştirme sağladığı görülmüştür [15].
Zhang ve Jiao (2007), işletmeden tüketiciye e-ticaret uygulamalarında kişiselleştirme için,
ilişkili sınıflandırma tabanlı tavsiye sistemi önermiştir. Müşterilerin heterojen ihtiyaçlarını
doğru bir şekilde tahmin edebilmek adına, kurulan model bilgi çıkarımı teknikleri
uygulanarak desteklenmiş ve sistemin geçerliliği üç katmanlı internet programlama
ortamında hazırlanan mobil telefon satış e-ticaret uygulaması ile doğrulanmıştır. İşlem veri
tabanındaki istekler, önceden tanımlanmış ifadelere dönüştürülerek ön işleme ve anlamsal
analize tabi tutulur. Düzenlenmiş kayıtlar apriori algoritması uygulanarak sınıflandırılır ve
CBA-CB tekniği ile gereksiz bilgiler budanır. Sistemin performansı, sınıf etiketi belli olan
test verileri üzerinde doğrulandıktan sonra elde edilen sınıflandırma kuralları sisteme
kaydedilir [16].
Kim ve Cho (2009), GPS sensörlerinden ve cep telefonlarından elde edilen içerik verisiyle,
kullanıcının gelecekteki davranışlarını tahmin etmiştir. Davranışlar (uyku, hareket,
çalışma, yemek yeme, toplantı, ödev yapma, dinlenme...), haftanın günleri,
saat ve
lokasyon (ev, sınıf, kütüphane, restoran, bilim merkezi...) verileri alınarak kullanıcıların
gelecekte yapacağı davranışlar, bu davranışların günü saati ve konumu dinamik bayes
ağları yöntemi ile tahmin edilmiştir. Sistem güncel verilere göre, kullanıcıya 30 dakikada
bir yeni öneride bulunmaktadır. Çalışmada 5 lisans öğrencisinin 4 haftalık verisi
kullanılarak %80-%91 arasında doğru tahmin oranları elde edilmiştir [17].
Ying ve diğerleri (2013), tavsiye işlemi için, mobil kullanıcılara ait gezinim bilgilerine ait
hem coğrafik hem de semantik özelliklerin baz alındığı yeni bir yaklaşım önermiştir.
Sistem tavsiye modelini geliştirmek için, temelde kümeleme tabanlı konum kestirim
33
sistemine dayanmaktadır. Mobil kullanıcının sonraki konumu, benzer kullanıcıların sık
davranışları ağaç yapısı şeklinde semantik olarak skorlanıp, benzer kümede tanımlanarak
tahmin edilir. Her konum için, yüksek yararlılıktaki öğe seti belirlenerek, kullanıcının
ziyaret edebileceği konumla ilgili öğeler tavsiye edilir [18].
İncelenen akademik çalışmalar sonucunda, gerek web gerekse mobil kullanıcıların
davranışlarının belirlenmesinde somut bir veri toplama süreci ve analiz yöntemi
bulunmadığı görülmüştür.
4.2. Mobil İletişim Sektörü
İletişim teknolojilerinin artan gelişim ve değişim sürecinin bir parçası olarak, haberleşme
sektörü de mobil iletişim ihtiyacı sebebiyle son yıllarda hızlı bir ivmeyle ilerlemektedir.
2013 yılına ait dünya çapındaki verilerin baz alındığı Çizelge 4.1’de belirtildiği gibi mobil
cihaz, abone, alt yapı ve gelir boyutunun 10 yıldan az bir sürede yaklaşık olarak 1 katından
fazla artacağı tahmin edilmektedir.
Çizelge 4.1. Küresel mobil iletişim bilgileri [53]
Kriterler
Tekil Abone
Bağlı Mobil Cihaz
Mobil Genişbant Gelişimi
Toplam Gelir
2013
3,4 milyar
6,9 milyar
2,2 milyar bağlantı
2 trilyon dolar
2020
4,3 milyar
10,8 milyar
5,9 milyar bağlantı
2,9 trilyon dolar
1980’lerde yalnızca analog ses iletişiminin mümkün olduğu 1. Nesil (1G) araç
telefonlarından, 1990’lı yıllarda GSM, TDMA ve CDMA gibi veri iletimlerinin de
yapılabildiği 2. Nesil (2G) sistemlerden sonra mobil haberleşme sistemlerinin 2000’li
yıllardaki durağı 3. Nesil (3G) teknolojileri ile IP temelli iletişim şebekelerinin hayata
geçirilmesi olmuştur [70]. Türkiye’de mobil iletişim hizmetleri ise, 1986’da analog NMT
sistemi ile başlayarak, 1990’den sonra GSM ve 2000 yılında WAP, GPRS ve UMTS ile
gelişimine hızla devam etmiştir [70].
Çizelge 4.2’de görüldüğü gibi TÜİK ve BTK’nın 2012-2013 verilerine göre, Türkiye
nüfusunun çok büyük çoğunluğu, telefon ve tablet gibi mobil cihaz kullanmakta ve yoğun
bir trafiğe sebep olmaktadırlar.
34
Çizelge 4.2. 2012-2013 yılı Türkiye mobil bilgileri [71,72]
Kriterler
Değişim
2012
2013
Toplam Nüfus
75 627 384
76 667 864
1,37
Mobil Abone Sayısı
64 313 834
65 847 193
2,38
1 674 533
1 701 014
1,58
18 045 808
22 472 129
24,53
169,8
185,9
9,48
174 882
174 882
1,57
69 073
141 637
105,05
Mobil Hizmetlerden Elde Edilen Gelir (milyar TL)
16,56
18,70
12,9
Mobil Abone Başına Aylık Gelir (ARPU, TL/ay)
21,16
21,93
3,64
Mobil Bilgisayardan İnternet Abone Sayısı
Mobil Cepten İnternet Abone Sayısı
Toplam Mobil Ses Trafiği (milyar dakika)
Toplam SMS Trafiği (milyon adet)
Toplam Mobil Genişbant İnternet Data Trafiği (terabayt)
(%)
Mobil bant genişliğinin iyileştirilmesine sebep olan 3G ve 4G teknolojileri ile birlikte;
içerik ve servis hizmetleri de hızla gelişerek mobil cihaz donanım özelliklerini, kişisel
bilgisayar seviyesine getirmiştir. Kullanıcı alışkanlıklarının da daha katılımcı modellere
doğru kaymasını sağlayan bu gelişmeler, mobil ekosistemi oluşturan yatırımcılar ve
yazılım geliştiriciler tarafından akıllı telefonlar veya tabletler için içerik ve uygulama
servisinin yapılmasını sağlayan mobil uygulama mağaza modeliyle sonuçlanmıştır [73].
2014 yılında; Apple AppStore, Google Play ve Windows Phone gibi mağazalar hakkındaki
genel istatistiklere Çizelge 4.3'de yer verilmiştir. AppStore ve Google Play'deki
uygulamalar içerisinde, kullanıcıların ilgilendikleri kategoriler ise yüzdelik oranlarıyla
Şekil 4.2'de gösterilmiştir
Şekil 4.2. iOS ve Android cihazlarda, uygulamalarda zaman harcama yüzdeleri [42]
35
Çizelge 4.3. Mobil uygulama marketi istatistikleri [74]
Ücret Ödenerek İndirilen Uygulama Sayısı
9,19 milyar
Ücretsiz İndirilen Uygulama Sayısı
92,88 milyar
Dünya Genelindeki Uygulama Geliri
26,68 milyar dolar
Mobil cihaz kullanımının ve sektörel hizmetlerin son yıllarda büyük bir hızla artması,
uygulama geliştiriciler ve altyapı sağlayıcıların yanında mobil pazarlama ve reklamcılık
çalışanları içinde önemli bir gelir kapısı haline gelmiştir. Mobil pazarlama; uygulama
tabanlı, arama sonuçları reklamlarına göre, SMS ile, coğrafi konum bazlı, QR kodlar
vasıtasıyla ve mobil resim reklamları şeklinde yapılabilmektedir [76]. Bunların yanında,
cihaz kullanıcısının karakterini ve alışkanlıklarını tespit ederek, kişiselleştirilmiş uygulama
ve ürün geliştirme, önerilerde bulunma ve ilgilenebileceği reklamları sunma faaliyetleri de
hızla önem kazanmaktadır.
4.3. Mevcut Modeller
Kişiselleştirilmiş uygulamaların devreye konulması için yapılan kullanıcı davranışlarının
belirlemesi sürecinde, mevcut stabil bir veri toplama ve analiz modeli olmadığı
görülmüştür. Literatürde var olan mobil veri toplama, içeriği tespit etme ve tavsiyede
bulunma modelleri incelenerek, tez kapsamında kullanılan model oluşturulmuştur.
Gerçek mobil servis kullanımı hakkında güvenilir ve şeffaf bilgi; endüstri, pazarlama, iş ve
ürün geliştirme, ağ planlama ve yönetimi sektörlerindeki hissedarlar ve akademisyenler
için önemli değerler taşımaktadır. Bu yüzden, verinin toplanma sürecinin iyi bir şekilde
anlaşılması ve yönetilmesi gerekmektedir. Kivi, mobil kullanıcı davranışları ve servislerin
kullanımı hakkında nitelikli bilgi sahibi olunabilmesi için, veri toplama metotlarını
aşağıdaki şekilde 5 kategoriye ayırmıştır (Şekil 4.3) [20].
1.
Anketler ve tüketici panelleri: Anketler ve panellerden elde edilebilecek bilgiler; her
ne kadar katılımcının dürüstlüğüne, hafızasına, motivasyonuna ve cevap verme
yeteneğine bağlı olarak değişse de; bu sayede örneklendikleri grubun tutum, değer,
inanç ve alışkanlıkları gibi geniş çapta bilgi elde edilebilir.
2.
Son kullanıcı cihaz izleme: Mobil cihaz izleme yazılımları sayesinde bütün cihaz
özellikleri ve uygulamaların kullanım sıklığı, süresi ve hacmi ölçülebilir. Sesli arama,
36
mesajlaşma gibi iletişim verileri; GSM, WCDMA ve WLAN benzeri farklı radyo
frekanslarındaki trafik kayıtları; Bluetooth, WLAN gibi muhtemel ad-hoc bağlantıları;
kamera, multimedya yürütücüsü ve oyunlar gibi çevrimdışı özellikler; FM radyo,
DVB-H tabanlı televizyon benzeri multimedya yayınları; son olarak GSM Cell ID
kodu, WLAN access point adı ve GPS koordinatları ile konum verileri elde
edilmektedir.
3.
TCP/IP trafiği ölçümleri: GSM/UMTS ağları üzerinden, mobil terminallerden ağlara
bağlanma sürecindeki trafik; WLAN bağlantısı ile de access point ve router iletişim
paketleri izlenebilir. Ayrıca TCP/IP iletişiminde HTTP protokol başlığından,
kullanılan internet tarayıcısı, işletim sistemi ve mobil telefon modeli bilgileri elde
edilebilirken; zaman bilgisi, transfer paketinin boyutu, iletişim protokolü ve servisi,
trafiğin karakterize edilmesini sağlamaktadır.
4.
Kullanım muhasebe sistemleri ve kayıtları: Veri iletişimi verilerine ek olarak IMSI
abone kodu ve IMEI numarası, ödeme ve fatura bilgilerini içeren CDRs kayıtlarından
elde edilir.
5.
Sunucu tarafı ölçümleri: Web portalı, özel web/wap sitesi/sunucusu, arama motorları
ve proxy gibi çeşitli sunuculardan elde edilen log dosyaları, kullanım ve davranış
örüntülerinin çıkarılmasında rol oynamaktadır.
Mobil cihaz örüntülerinin ve davranışlarının tespit edilebilmesi için mobil kullanıcıların
durum ve içerik bilgilerinin elde edilmesi gerekmektedir. Cristoph ve diğerleri tarafından
(2010) yapılan çalışmada, mobil içeriğin otomatik olarak belirlenmesini sağlayan, 3
katmanlı entegre bir yaklaşım önerilmiştir (Şekil 4.4) [21]. Veri veya sinyal kaynağı
katmanı; saat, ışık sensörü, kamera, radyo sinyalleri, mikrofon, ivmeölçer, pusula ve yakın
alan iletişimi ara yüzünden oluşur. Bilgi katmanı; sinyal katmanında toplanan veri veya
sinyal şeklindeki bilgiyi dönüştürür. Bilginin, içerik tespit servisi tarafından işlenebilmesi
için öz bilgiye dönüştürülmesi gerekmektedir. Bu dönüşüm, örüntü deposunda tanımlı
uygun öz bilgi etiketleri ile eşleştiren ek bilgi işlem hizmetleri tarafından yapılır. Bu
sayede; kullanıcının birçok kaynaktan gelen konum, aktivite gibi bilgisi birleştirilerek
davranışları hakkında bilgi edinildikten sonra mobil uygulamalar veya temel aygıt
yapılandırılması için yorumlanabilir [21].
37
Şekil 4.3. Mobil veri toplama metotları [20]
W.P. Lee ve K.H. Lee (2014), akıllı telefon kullanıcılarının en kullanışlı ve talep gören
servislere zamanında erişmelerini sağlamak için, kullanıcının niyetini tahmin ederek uygun
servisleri aktifleştiren bağlam bağımsız bir tavsiye mekanizması geliştirmiştir [22].
Tahminleme için akıllı telefon kullanıcılarının davranış örüntülerini çıkaran ve kullanıcının
isteyebileceği servisleri öneren, kural algoritması tabanlı olay-durum-eylem modeli
önerilmiştir (Şekil 4.5).
Kural karmaşıklığını azaltmak için bulanık sınıflandırma
kullanılmıştır. Sistem girdileri; arama geçmişi, iş programı gibi kullanıcıların kişisel
bilgileri; coğrafi konum, yatay-düşey hareket gibi akıllı telefonundan alınan sensör
bilgileri; gelen aramalar, şarj durumu gibi pasif işlem verileri; servislerin kullanıcı ara
yüzüyle iletişime geçilen aktif işlem verileri olmak üzere 4 tanedir. Sistem çekirdeği,
kullanıcıların sıralı örüntülerinin analiz edilip kural setlerinin oluşturulduğu; kural
başlatma ve olay belirlendiğinde içeriği durum kurallarıyla karşılaştırıp muhtemel eylem
tavsiyelerinin yapıldığı kural çıkarımı olmak üzere iki modülden oluşmaktadır.
Öngörülebilir servisler; telefon görüşmesi yapma, kısa mesaj veya mail alma veya
38
gönderme, web üzerinde arama yapma, fotoğraf çekme, uygulama başlatma ve medya
oynatma gibi eylemleri içermektedir [22].
Şekil 4.4. Kullanıcıların durum ve içerik bilgilerinin elde edilmesi süreci [21]
Şekil 4.5. Kural algoritması tabanlı mobil olay-durum-eylem modeli [22]
39
Çizelge 4.4. İncelenen mobil kullanıcı modellerinin karşılaştırılması
Kullanılan Veri Türü
Kaynak
Modelin Amacı
Anketler ve tüketici panelleri, Son kullanıcı cihaz Veri Toplama
[20]
[21]
[22]
izleme, TCP/IP trafiği ölçümleri, Kullanım muhasebe
sistemleri ve kayıtları, Sunucu tarafı ölçümleri
Saat, ışık sensörü, kamera,
radyo sinyalleri, İçerik Tespiti
mikrofon, ivmeölçer, pusula ve yakın alan iletişimi
Kişisel bilgiler, Sensör bilgileri, Pasif işlem verileri, Tavsiye Sistemi
Aktif işlem verileri
Literatür değerlendirmesinin sonucunda; kişiselleştirilmiş uygulamaların ve tavsiye
sistemlerinin devreye konulması için yapılan kullanıcı davranışı belirleme sürecinde,
mevcut stabil bir veri toplama ve analiz modeli olmadığı görülmüştür (Çizelge 4.4). Bu
sebeple, bu çalışma kapsamında kullanılan veriler, çeşitli veri madenciliği yöntemleri ve
bakış açıları ile birleştirilip yorumlanarak analiz edilmiş, belirli veri türlerini ve tekniği
kapsayan bir model oluşturularak veri seti üzerinde uygulaması gerçekleştirilerek, cep
telefonu kullanıcılarının, mobil uygulama platformları üzerindeki davranış alışkanlıkları
belirlenmiştir.
4.4. Önerilen Model
İncelenen modeller ve eldeki veriler ışığında, kullanıcıların erişim sağladıkları bir
uygulamaya ait; ücretli ve ücretsiz indirme veya sadece istekte bulunma, ödeme, içerik
türü, bağlantı kanalı, zaman, telefon modeli ve operatör bilgisi kullanılarak Şekil 4.6’daki
mobil kullanıcı davranış tespiti modeli önerilmiştir. Bu model sonucunda, tüm
kullanıcılara ait verilerden, kural tabanlı ortak örüntüler elde edilmiştir.
40
MOBİL KULLANICI
MOBİL PLATFORM
İşletme Verilerinin Analizi
TELEFON
UYGULAMA
İNDİRME
ÖDEME
Kullanıcı Verilerinin Analizi
Verilerin Tanımlanması
Veri Kalitesinin Doğrulanması
Analizi Yapılacak Verilerin Seçilmesi
Verilerin Biçimlendirilmesi
Verilerin Temizlenmesi
Verinin Karar Ağacıyla Sınıflandırılması
Doğruluğunun Test Edilmesi
Senaryolar Kapsamında Kuralların Oluşturulması
Sonuçta Oluşan Kuralların Değere Dönüşmesi
Şekil 4.6. Tez kapsamında önerilen mobil kullanıcı davranış tespiti modeli
41
5. VERİ ANALİZ UYGULAMASI
Bu bölümde, mobil uygulama platformuna yapılmış bir isteğe ait verilerin belirli şartları
sağlaması
sonucunda,
o
uygulamanın
indirilme
veya
satın
alınma
işleminin
gerçekleştirilme ihtimalinin belirlenmesi süreci, veri madenciliği aşamaları kapsamında
adım adım incelenmiş ve yapılan analiz çalışmaları açıklanmıştır
5.1. Veriyi Anlama
İlk etapta telekomünikasyon firmasının, tabloları arasındaki muhtemel ilişkilerin
belirlenerek ER diyagramları modellenmiş, verilerin tür ve kalite analizinin yapılabilmesi
açısından veri tabanına keşif sorguları yapılmış, tutarsızlıklar ve uyumsuzluklar tespit
edilmiştir.
Şekil 5.1. Kullanıcının platformlar üzerindeki hareketleri
Şekil 5.1’de görüldüğü gibi; bir kullanıcı, firmanın multimedya içerik sunduğu
platformlardan birine erişim sağladığında kaydı ziyaret tablosuna, bir içerik talebinde
bulunduğunda istek tablosuna, satın alma işlemi gerçekleştiğinde indirme tablosuna eğer
uygulama ücretliyse ödeme tablosuna kaydedilir. Bu tablolardaki kayıtlar, yıl bazında
bölümlere ayrılmıştır. Ayrıca tablolarda ortak olarak, kullanıcının platforma eriştiği kanal
42
verileri kanal, erişilen mobil telefonun niteliğine ait veriler telefon, uygulama içeriklerinin
türleri ve ayrıntılı verileri uygulama kategorisi tablolarına kaynaktır.
5.2. Veri Seçme ve Birleştirme
Veri keşfi süreci sonunda, milyarlarca verinin bulunduğu tablolarda aslında birçok
özniteliğin ve verinin tekrar ettiği, ilişkili olan tablolarda tutarsızlıkların olduğu
belirlenmiştir. Veri madenciliği algoritmalarının uygulanması için Şekil 5.2’deki
tablolardaki 2013 yılına ait veriler seçilerek birleştirilmiş ayrıca ek olarak yeni alanlar
oluşturulmuştur. Tek tek kullanıcıların yaptığı isteklerin niteliklerinden oluşturulan veri
seti, genel davranışların belirlenmesini sağlayacak kuralların çıkarılması amacıyla
oluşturulmuştur.
Şekil 5.2. Oluşturulan veri setindeki özniteliklerin kaynak alındığı tablolar
43
5.3. Veri Temizleme
Oluşturulan veri kümesindeki; eksik, tekrar eden ve tutarsız veriler silinerek, analiz
sürecinin daha efektif geçirilmesi hedeflenmiştir.
Bu süreç için, istek ve indirme tabloları birleştirilip, referans verilen tablolardan asıl
verilere ulaşılarak, boyutu 1110000 satır olan rastgele seçilmiş bir örneklem uzayı elde
edilmiştir. Veri madenciliği teknikleri, bu yeni tablo üzerinde uygulanmıştır.
5.4. Veri Dönüşümü
Veri setine ait kategorisel veriler etiketlendikten sonra analize tabi tutulmuştur.
5.5. Verinin Görselleştirilmesi
Bu aşamada, mantıksal analiz sürecine fikir vermesi açısından verilerin ilişkisi şematik
olarak, ücretsiz versiyonunda bir milyon verinin işlenmesine izin veren, Tableau büyük
veri görselleştirme aracı ile incelenmiştir. Örüntülerin görülebilir olması, trendlerin
belirlenmesi ve kavramların keşfedilmesini sağlayacaktır.
Şekil 5.3. Uygulama kategorilerinin veri setindeki dağılımı
44
Şekil 5.4. Ağlara erişen kullanıcıların yıllık istek dağılımı
Model kurma aşamasında, Şekil 5.3 ve Şekil 5.4’deki gibi kullanıcıların uygulama istekleri
ve ödeme bilgilerinden elde edilen görsellerden yararlanılmıştır. Uygulama kategorileri,
operatör bilgileri, telefon marka ve modeli gibi verilerin aralarındaki ilişki ve zamansal
dağılımları gözlemlenmiştir.
5.6. Model Kurma
Verilerin görselleştirilmesi sonucunda net olarak görülebilen, muhtemelen ilişkili
öznitelikler; belirli senaryolara uygun şekilde bir araya getirilerek, karar ağacı tekniğinin
uygulanmasıyla
kullanıcılara
ait
davranış
kuralları
elde
edilmiştir.
Senaryolar;
kullanıcıların yapmış oldukları isteklerin, hangi şartlarda ve yüzde kaç olasılıkla indirme
hareketine dönüşeceğinin belirlenmesi amacıyla kurulmuştur.
45
5.6.1. Karar ağaçları
Karar ağaçları; verilerin alt kümelere bölünüp, her seviyedeki en iyi değişken baz alınarak
kuralların oluşturulduğu tümevarımsal bir tekniktir. Maliyetinin az, veri tabanı sistemleri
ile entegrasyonunun, anlaşılmasının ve yorumlanmasının kolay olması nedeniyle
sınıflandırma ve tahminleme modelleri içerisindeki en popüler tekniktir [28,32].
Her bir düğüm ya alt dalların bağlı olduğu bir gövde düğümüdür ya da hedef özelliğin
sınıfını gösteren bir yaprak düğümüdür. Bir karar ağacı, kök düğümden yaprak düğüme
ulaşıncaya kadar ilerlenerek verileri sınıflamayı sağlayan iç içe geçmiş eğer/ise (if/then)
kuralları dizisidir [35]. Birbirlerinden kök, düğüm, dallanma ve budama kriteri seçimleri
açısından farklılaşan bazı karar ağacı algoritmaları aşağıda belirtilmiş ve yapılan
karşılaştırmalar sonucunda, bu çalışmadaki analiz sürecinde CHAID algoritması tercih
edilmiştir [28,32,35].
1. CART/C&RT (Classification and Regression Trees) : Bütün aşamalarda her bir grubu
kendinden daha homojen olacak şekilde alt gruplara ayırmayı hedefleyen ve ikili olarak
büyüyen bir algoritmadır. Öznitelik seçilirken; bağımlı değişkenler için gini ve twoing
indeks, sürekli değişkenler için ise en küçük kare sapması hesaplamalarını kullanır.
2. ID3 (Iterative Dichotomiser 3) : Değişkenler içinden sınıflandırmada en ayırt edici
olanı önce derinlik ilkesine göre bulurken, belirsizliği ve beklenmeyen durumun ortaya
çıkma olasılığını gösteren entropiden yararlanır.
3. C4.5: ID3 algoritmasının eksik yönlerini gidermek amacıyla önerilmiş bu karar ağacı,
normalizasyon işlemi yaparak büyük veri setleri üzerinde verimli çalışmakta, kayıp
verileri diğer veriler yardımıyla tahminleyerek, daha hassas ve anlamlı kurallar
oluşturmaktadır.
4. CHAID (Chi-Squared Automatic Interaction Detector): En uygun öznitelikleri seçmek
amacıyla chi-square testini kullanmaktadır. İkili olmadığı için daha geniş ağaç
yapılandırma eğilimindedir. Popülasyonu farklı segmentlere yinelemeli olarak bölen
bir tekniktir. Hedef değişkeni dikkate alarak istatistiksel olarak benzer değişkenleri
birleştirir ve farklı olanla işlemi sürdürür.
5. SLIQ (Supervised Learning In Quest): Her değişken için ayrı bir liste kullanarak, en
iyi dallara ayırma kriterine sahip olabilmek amacıyla verileri sıraya dizme işlemini
sadece bir kez yapan, önce genişlik ilkesiyle çalışan düşük maliyetli bir modeldir.
46
5.6.2. Alt modeller
Artan rekabet ortamında alınan kararların riski de büyüdüğü için bu sürecin, yöneticilerin
sezgilerinden çok, bilimsel yöntemlerle desteklenmesi ile doğru ve hızlı karar verebilme
yetkinliğine sahip olması gerekmektedir. Organizasyonların veri ambarlarındaki daha
önemli bilgilere yoğunlaşmasına yardımcı olan veri madenciliği teknikleriyle, firmalar
stratejik kararlar alabilmektedirler [54].
Bu çalışmada kullanıcı profillerinin oluşturulmasında, kolay anlaşılır ve kolay
yorumlanabilir olması ve kural çıkarımına izin vermesi nedeniyle, veri madenciliği
modellerinden karar ağaçları tekniği; sürekli ve kategorik değişken tipleriyle çalışabilmesi,
ki-kare metriğiyle, ilişki düzeyine göre farklılık rastlanan grupları ayrı ayrı sınıflayabilmesi
ve ağaç yapraklarının verideki farklı yapı sayısı kadar dallanması sebebiyle de CHAID
algoritması tercih edilmiştir [23]. Ayrıca, cep telefonu kullanıcılarının mobil uygulama
platformlarına ziyaretleri, uygulama indirme ve ödeme yapma kayıtlarının tutulduğu
tablolar birleştirilmiş ayrıca veriler dönüştürülerek yeni alanlar oluşturulmuştur. İşlemlerin
gerçekleştiği ay, gün, saat, telefon markası, telefon modeli, operatör, uygulama fiyatı,
iletişim protokolü, erişim kanalı ve erişim servisi bilgileri arasında çeşitli kombinasyonlar
oluşturularak senaryolar üretilmiştir.
Senaryolar, tablolardaki veriler arasında benzerlik, uyumsuzluk ve birliktelik olup
olmadığını kontrol etme amacıyla kurulmuş, doğruluğu karar ağacı tekniği ile sınanmıştır.
Karar ağacından kuralların elde edilmesi, basitçe EĞER-İSE mantığı kullanılarak
gerçekleştirilmiş ve sözelleştirilmiştir. Kuralların anlaşılmasını ve yorumlamasını
kolaylaştıran ağaç yapısının bir başka avantajı, kuralın belirlenmesi için illa ki yaprağa
ulaşmayı şart koşmamasıdır. Ara bir dallanma da anlamlı sonuç üreten bir kural
oluşturmaktadır.
Tez kapsamında 7 senaryo için 7 ağaç yapısı oluşturulmuş, her senaryoda Şekil 5.5’deki
gibi oluşan pek çok kuraldan örnek bir tane seçilerek anlamsal hale dönüştürülmüştür.
Ayrıca her senaryonun başarısı, 10 katlamalı (10 fold) çapraz doğrulama tekniğiyle
sınanarak başarı oranları tablolaştırılmıştır.
47
Model başarımı değerlendirirken,
Çizelge 5.1’de belirtilen karışıklık matrisindeki
(confusion matrix) değerlerden yararlanılarak elde edilen; doğruluk ya da hata oranı,
kesinlik, duyarlılık ve f-ölçütü kullanılmaktadır [77].
Doğru sınıfa atanan örnek sayısı ve yanlış sınıfa atılan örnek sayısı nicelikleriyle alakalı
olarak modele ait doğruluk oranı bulunmuş ve bu oranlar dikkate alınarak değerlendirmeler
yapılmıştır. Bu değer, Eş. 5.1’deki gibi oransal olarak ifade edilmiştir.
TP; olumlu sonucu olan ve olumlu öngörülmüş örnek sayısını, FN; olumlu sonucu olan ve
olumsuz öngörülmüş örnek sayısını, FP; olumsuz sonucu olan ve olumlu öngörülmüş
örnek sayısını ve FP; olumsuz sonucu olan ve olumsuz öngörülmüş örnek sayısını ifade
etmektedir.
Çizelge 5.1. Karışıklık matrisi [77]
Doğru Sınıf
Öngörülen Sınıf
Sınıf=1
Sınıf=0
Sınıf=1
True Pozitif
(TP)
False Negatif
(FN)
Sınıf=0
False Pozitif
(FP)
True Negatif
(TN)
Doğruluk =
TP + TN
TP + FP + TN + FN
(5.1)
Oluşturulan kurallarda kullanılan uygulamalar kısaca UY, uygulamalara ait kategori
bilgileri KA, ve operatör bilgisi ise OP ön eki ile belirtilmiştir.
Şekil 5.5. Karar ağacından kuralların elde edilmesini sağlayan örnek dalların bir kısmı
48
49
1. Alt model
Kullanıcıların ilgilendikleri uygulamaların kategorileri ile indirme işleminin gerçekleştiği
ay, gün ve saat arasında bir ilişki modeli oluşturulmuştur. Aşağıdaki örnek kuraldan da
görülebileceği gibi, elde edilen sonuçlar, belirli bir veya bir kaç kategoriye yapılan
isteklerin ayın belirli günlerinde ve günün belirli saatlerinde yoğunlaştığını veya azaldığını
göstermektedir.
Çizelge 5.2’de görüldüğü üzere modelin genel başarısı %81,7 olarak hesaplanmıştır.
Başarılı indirmelere ait doğruluk oranı %93,4 iken başarısız indirmelerin tahmin edilmesi
oranı %54,5 olarak belirlenmiştir. Buna, tüm kullanıcılar için bu ilişkinin varlığının kontrol
edilmesinin olduğu, genel örüntüye uymayan kullanıcıların bu duruma sebebiyet verdiği
öngörülmektedir.
Çizelge 5.2. 1. Alt modele ait karışıklık matrisi ve doğruluk oranları
Gözlemlenen
Başarısız İndirme
Başarılı İndirme
Genel Ortalama
Başarısız İndirme
182315
50994
% 21,0
Tahmin Edilen
Başarılı İndirme
152135
724556
% 79,0
Doğruluk Oranı
% 54,5
% 93,4
% 81,7
Örnek Kural
EĞER (Kategori = KA1) İSE İndirme_Olasılığı = %93,2
{
EĞER (Saat <= 5) İSE İndirme_Olasılığı = %96,3
EĞER (Saat > 5 || Saat <= 20) İSE İndirme_Olasılığı = %92,3
EĞER (Saat > 20 || Saat <= 21) İSE İndirme_Olasılığı = %93,1
{
EĞER (Gün = 1 || 7 || 10 || 12 || 15) İSE İndirme_Olasılığı = %93,1
EĞER (Gün = 3 || 5 || 8 || 9 || 16) İSE İndirme_Olasılığı = %91,6
EĞER (Gün = 2 || 4 || 6 || 11 || 13 || 14) İSE İndirme_Olasılığı = %94,4
}
EĞER (Saat <= 21) İSE İndirme_Olasılığı = %96,4
}
50
2. Alt model
Kullanıcıların kullandıkları telefon marka ve
telefon modeli
ile
ilgilendikleri
uygulamaların kategorileri arasında bir indirme ilişkisinin olup olmadığı kontrol edilmiştir.
Çizelge 5.3’deki karışıklık matrisine göre, modelin genel başarısı %83,1’dir. Örnek
kurallardan elde edilen sonuçlara göre, uygulama indirme olasılığı direkt belirli marka
telefonlara sahip olan kullanıcılar için %90’ın üzerine çıkarken farklı marka ve modeldeki
telefonlar içinse %0’a kadar düşebilmektedir.
Çizelge 5.3. 2. Alt modele ait karışıklık matrisi ve doğruluk oranları
Gözlemlenen
Başarısız İndirme
Başarılı İndirme
Genel Ortalama
Başarısız İndirme
184172
37587
% 20,0
Tahmin Edilen
Başarılı İndirme
150278
737963
% 80,0
Doğruluk Oranı
% 55,1
% 95,2
% 83,1
3. Alt model
Kullanıcıların telefon operatörleri ile ilgilendikleri uygulamaların kategorileri arasında bir
indirme ilişkisi modeli oluşturulmuş ve elde edilen sonuçlar değerlendirilmiştir.
%83 doğruluk oranına sahip olan (Çizelge 5.4) bu model sonucunda, çeşitli operatörlerden,
uygulama kategorilerine istekte bulunan kullanıcıların davranış biçimleri elde edilmiştir.
Trafiğin büyük çoğunluğunun, belirli operatörlere sahip kullanıcılar tarafından
oluşturulduğu görülmüştür.
Çizelge 5.4. 3. Alt modele ait karışıklık matrisi ve doğruluk oranları
Gözlemlenen
Başarısız İndirme
Başarılı İndirme
Genel Ortalama
Başarısız İndirme
194590
48681
% 21,9
Tahmin Edilen
Başarılı İndirme
139860
726869
% 78,1
Doğruluk Oranı
% 58,2
% 93,7
% 83,0
51
4. Alt model
Bu modelde, kullanıcıların ilgilendikleri uygulamanın kategorisi ile uygulamanın fiyatı
arasındaki indirme ilişkisi araştırılmıştır.
Çizelge 5.5’de görüldüğü gibi %90,8 başarım oranına sahip bu model, uygulamaların
indirilme olasılığının hangi fiyatlar çerçevesinde arttığını veya azaldığını göstermiştir.
Çizelge 5.5. 4. Alt modele ait karışıklık matrisi ve doğruluk oranları
Gözlemlenen
Başarısız İndirme
Başarılı İndirme
Genel Ortalama
Başarısız İndirme
251974
20004
% 24,5
Tahmin Edilen
Başarılı İndirme
82476
755546
% 75,5
Doğruluk Oranı
% 75,3
% 97,4
% 90,8
5. Alt model
Kullanıcıların ilgilendikleri uygulama ve uygulama kategorisi ile indirme işleminin
gerçekleştiği ay, gün ve saat arasındaki ilişkinin varlığı incelenmiştir.
Bir kategoriye ait uygulamaların, hangi gün veya saatlerde kullanıcılar tarafından yüzde
kaç ihtimalle indirileceği %88,5 doğrulukla (Çizelge 5.6) tahmin edilmiştir.
Çizelge 5.6. 5. Alt modele ait karışıklık matrisi ve doğruluk oranları
Gözlemlenen
Başarısız İndirme
Başarılı İndirme
Genel Ortalama
Başarısız İndirme
225628
19321
% 22,1
Tahmin Edilen
Başarılı İndirme
108822
756229
% 77,9
Doğruluk Oranı
% 67,5
% 97,5
% 88,5
6. Alt model
Kullanıcıların ilgilendikleri uygulama, uygulama kategorisi, operatör, iletişim protokolü,
telefon markası, telefon modeli, erişim kanalı ve servisi ile indirme işleminin gerçekleştiği
ay, gün ve saat arasında bir ilişki vardır.
Veri setindeki tüm alanların kullanılarak, kurallar oluşturulmasının amaçlandığı bu
modelde Çizelge 5.7’de görüldüğü üzere %93 doğruluk oranı elde edilmiştir. Bu ilişkiler
mevcut veri setindeki birlikteliklere göre çeşitlenmiştir.
52
Çizelge 5.7. 6. Alt modele ait karışıklık matrisi ve doğruluk oranları
Gözlemlenen
Başarısız İndirme
Başarılı İndirme
Genel Ortalama
Başarısız İndirme
302095
44967
% 31,3
Tahmin Edilen
Başarılı İndirme
32355
730583
% 68,7
Doğruluk Oranı
% 90,3
% 94,2
% 93,0
7. Alt model
Önerilen son model, kullanıcıların para harcama alışkanlıkları hakkında bilgi edinilmesi
amacıyla kurulmuştur. Kullanıcıların ilgilendikleri uygulamaların kategorileri ile satın
alma işleminin gerçekleşmesi arasındaki ilişki zamansal olarak değerlendirilmiştir.
%99,9 başarıya (Çizelge 5.8) sahip olan model, diğer modellere nazaran daha az sayıda
kural üretmiştir. Buna veri setinde, ödemenin sonuçlanma durumlarının birbirine yakın
olarak dağılmamasının sebep olduğu öngörülmektedir.
Çizelge 5.8. 7. Alt modele ait karışıklık matrisi ve doğruluk oranları
Gözlemlenen
Ödeme Var
Ödeme Yok
Genel Ortalama
Tahmin Edilen
Ödeme Yok
328
1083
% 0,1
Ödeme Var
1108172
417
% 99,9
Doğruluk Oranı
% 100
% 72,2
% 99,9
5.7. Değerlendirmeler ve Öneriler
Tez kapsamında, mobil uygulama platformu üzerinde gerçekleştirilen trafiği içeren büyük
veride
yapılan
inceleme
ve
araştırma
çalışmalarının
yanında,
gerçekleştirilen
görselleştirme ve mantıksal analiz tekniklerinin sonucunda cep telefonu kullanıcılarına ait
kural tabanlı davranış örüntüleri belirlenmiştir.
Elde edinilen bilgilerin, katma değer üretmesi ve farklı pazarlama ve satış stratejilerinin
belirlenmesi için taktikler oluşturmasında kullanılabileceği belirlenmiş ve kazanımlar
aşağıda maddeler halinde sıralanmıştır:
1.
Uygulama indirme ve para harcama olasılığı yüksek olan aktif kullanıcılar, sisteme
giriş yaptığında işlemi henüz sonuçlanmadığı halde davranışı tespit edildiği için;
53
kişiye direkt ilgisi dâhilinde önerilerde bulunularak bu faaliyetlerini devamlı hale
getirilebilir.
2.
İndirme olasılığı sınır değerlerde olan kararsız kullanıcıların, trafik potansiyelini
düşüren faktörlerinin bulunarak, kişisel kampanya ve reklamlar sayesinde aktif
kullanıcı haline getirilebilir.
3.
Belirli bir örüntü içerisinde işlem yapma ihtimali çok düşük olan kullanıcının daha
farklı içerik ve etkinlik tavsiyeleriyle bulunduğu sınıftan çıkarılarak aktif hale
dönüştürülebilir.
4.
Kullanıcıların genel eğilimlerinin çıkarılmasıyla elde edilen büyük tabloda, firmanın
sektördeki konumunu belirleyerek yeni ortaklık, reklam, pazarlama ve uygulama
stratejileri belirlenebilir.
5. Kullanıcıların
elektronik
ortamları
daha
verimli
ve
keyifli
kullanmaları
sağlanabilecektir.
Kullanıcıları, temel bilgileri ve davranışları göz önünde bulundurarak sınıflandırmak ve bu
şekilde kişiselleştirilmiş ürün ve hizmet sunmak amacıyla yapılan akademik çalışmalar
incelendiğinde, ideal bir veri toplama düzeni veya modelin olmadığı görülmüştür. Bu
sebeple, davranış analizi için yeni bir model önerilmiştir. Mobil kullanıcıların karakterize
edilmesini sağlamak amacıyla gerçekleştirilen ideal bir davranış modelinde, doğruluk oranı
yüksek sonuçların elde edilmesi için toplanması gereken veriler aşağıda belirtilmiştir
[9,11,12,14,66,75]:
1.
Mobil cihaza ait bilgiler: Kullanım yılı, marka, model vs.
2.
Kullanıcının demografik bilgileri: Yaş, cinsiyet, meslek vs.
3.
Konum bilgisi: Ev, iş, okul vs.
4.
Sensörler: Mikrofon, parlaklık, bluetooth, wireless, açma-kapama, batarya yüzdesi,
GPS, GSM, pusula, ivmeölçer, ekran pozisyonu, sıcaklık, basınç, biyometrik vs.
5.
Uygulamalar: Mesajlaşma, arama, mail, web servisi, multimedia, hizmet programı,
navigasyon, sistem, referans, oyun, yönetim, iş vs.
6.
Medya: Fotoğraf, video, ses kayıtları vs.
7.
Ajanda: Kişisel takvim, alarm, randevu vs.
8.
Web kayıtları: Arama ve gezinme logları vs.
9.
Doküman: Mail eki, e-kitap vs.
10. Sosyal ağlar: Beğeniler, arkadaşlık ilişkileri, oturum bilgileri vs.
54
Bu veriler, Şekil 5.6’da önerilen yeni model doğrultusunda ileri veri analizi teknikleri
kullanılarak işlendiğinde, kullanıcılara ait gerçeklik oranı yüksek sonuçların elde edileceği
öngörü sistemlere uyarlanabilecek ve daha kapsamlı ve farklı soruların da cevabının
kolaylıkla bulunabileceği çözümler getirilebilecektir. Bunu yanında, bilgilerin toplanma
süreci, kullanıcıların kişisel mahremiyetinin korunması konusunu da beraberinde getirdiği
için; analiz, kullanıcıların izni dahilinde hatta verilerin şifrelenmiş şekilde işlenmesiyle
gerçekleştirilmesi, ihlallerin de önüne geçecektir.
Mobil Cihaz
Konum
Demografik
Uygulamalar
Sensör
Medya
Web Kayıtları
Ajanda
Sosyal Ağ
Doküman
Kişisel Verilerin
Mahremiyetinin Sağlanması
Yeni Kullanıcı mı?
Evet
Bütün
Kullanıcıların
Davranışlarına
Göre Karar
Verilir
Hayır
Kullanıcının
Profiline
Uygun Olarak
Karar Verilir
Şekil 5.6. Tez kapsamında önerilen ideal mobil kullanıcı davranış modeli yapısı
55
6. SONUÇ VE TARTIŞMA
İnternetin kişisel olarak hayatımıza girmesi ile birlikte insanlar tarafından ulaşılabilir olan
bilgi hacmi giderek artmaya başlamıştır. Online olarak mevcut kitap, film, haber, doküman
ve reklam gibi çevrim içi bilgi miktarı şaşırtıcı boyutlara ulaşmaktadır. Bu büyüklükte bir
veri yığını içerisinden, işe yarar bilgiyi elde edebilmek, gerekli olana ulaşmak, beğeniye
göre filtreleme yapmak, ihtiyaçları karşılayacak bilgiye ulaşabilmek kullanıcı için zor bir
hal almıştır. Kullanıcılıların bu ihtiyaçları doğrultusunda, talep edebilecekleri ürün ve
hizmetlerin önceden belirlenip, kişiselleştirilmiş öneri sistemlerinin sunulması sektörde
hızla önem kazanmaktadır. Veri içinde önceden bilinmeyen veya görülemeyen desenleri
ortaya çıkarmak amacıyla, bilgiler arasındaki sıralamanın, sınıflandırmanın, birlikteliğin ve
tahminlemenin sonucunda gerek kullanıcı gerekse hizmet sağlayıcısı açısından maliyetin
azalması, verimin artması, doğru sonuç üretme zamanının hızlanması, ilişkilerin kararlı
hale gelmesi ve uyumlu faaliyetlerin sağlanması gibi birçok kolaylık sağlamaktadır.
Bu tez kapsamında, mobil telekomünikasyon verileri üzerinde veri madenciliği teknikleri
uygulanarak, kullanıcıların davranışları incelenmiş, analiz edilmiş ve sınıflandırılmış, elde
edilen sonuçlar ile karar verme sürecine katkıda bulunulacak çözümler sunulmuş ve
kullanıcıların daha odaklı ve kaliteli hizmet alması için öneriler sunulmuştur. Yapılan
analizlerin sonuçları aşağıda maddeler halinde özetlenmiştir.
1. Kullanıcıların
istekte
bulundukları
durumların
şartları
ve
indirme
işlemini
gerçekleştirdikleri kriterleri bir araya getirerek; hangi parametreler ve birliktelikler
altında indirme işleminin yüzde kaç olasılıkla gerçekleşeceği tahmin edilmiştir.
2. Telefon marka ve modeli, operatör, uygulama platformlarına giriş yaptıkları kanal ile
indirdikleri uygulama kategorisi arasında zamana bağlı ilişkiler olduğu belirlenmiş ve
bu ilişkiler kurallar halinde genelleştirilmiştir.
3. Mobil telekomünikasyon verileri üzerinde veri madenciliği teknikleri uygulanarak,
kullanıcıların davranışları sınıflandırılmıştır.
4. Analiz sonucunda karakteristiklerin elde edilmesiyle; karar verme sürecine katkıda
bulunulacak çözümler sunulmuş ve kullanıcıların daha odaklı ve kaliteli hizmet alması
için önerilerde bulunulmuştur.
5. Yapılan analizler; kullanıcıların istekte bulundukları durumların şartları ve indirme
işlemini gerçekleştirdikleri kriterleri bir araya getirerek; hangi parametreler ve
56
birliktelikler altında indirme işleminin yüzde kaç olasılıkla gerçekleşeceği tahmin
edilmiştir.
6. Telefon marka ve modeli, operatör, uygulama platformlarına giriş yaptıkları kanal ile
indirdikleri uygulama kategorisi arasında zamana bağlı ilişkiler olduğu belirlenmiş ve
bu ilişkiler kurallar halinde genelleştirilmiştir.
7. Mevcut sistemin modeli çıkarılarak, literatüre yeni bir model önerilmiştir.
Bu tezin bilime sağlamış olduğu katkılar aşağıdaki şekilde sıralanabilir:
1.
Kullanıcı davranışlarının belirlenmesi, ticari olarak büyük yatırımların yapıldığı bir
alan olmasına rağmen, akademik ortamlarda yapılan çalışmaların yetersiz olduğu
görülerek, gerek araştırma gerekse uygulama bakımından bu eksiklik giderilmeye
çalışılmıştır.
2.
Literatürde kullanılan veri setleri incelendiğinde, bu çalışma mobil uygulama sunan
platformlar üzerindeki trafiğin analiz edilmesi bakımından yapılan ilk çalışma
örneğidir.
3.
Karar ağacı yapısında kural tabanlı davranışların belirlendiği bir metodoloji
önerilmiştir.
4.
Gerçek verilerden elde edilen deneysel sonuçlar, ticari sektörde uygulama geliştirme
ve pazarlama departmanlarında önemli yeniliklere ve maddi kazanç sağlayacak yeni
modellerin üretilmesine katkılar sağlayacağı düşünülmektedir
5.
Dinamik, bireysel veya genel perspektifi yansıtan modellemelerin yapılacağı, gelecek
çalışmalara ışık tutacaktır.
6.
Yeni bakış açıları ve stratejiler belirlenmesine katkılar sağlayacaktır.
Mevcut veri madenciliği analiz araçlarının yetersiz olması sebebiyle, milyarlarca veri
arasından
yaklaşık
1
milyon
veri
işlenerek
bilgi
ve
kural
çıkarımı
süreci
gerçekleştirilmiştir. Her ne kadar başarılı sonuçlar elde edilse de, çalışma bütün büyük
resmi gösterememektedir. Bu yüzden bu çalışmada sunulan yaklaşımla yapılacak gelecek
çalışmalar, daha kapsamlı verilerin büyük veri ve bulut bilişim gibi teknolojiler
çerçevesinde analiz edilmesiyle daha kolay gerçekleştirilecektir.
Bu tez çalışması için verinin elde edilmesi konusu, karşılaşılan güçlüklerin başında
gelmektedir. Bu sorun aşıldıktan sonra da erişilen veri hacminin çok büyük olmasından
57
dolayı, veri setleri arasında ilişkilerin kurularak, görsel ve mantıksal analizlerin
gerçekleştirilmesi sürecinde uygun yöntem ve yaklaşımların belirlenmesinde zorluklarla
karşılaşılmıştır. Kullanıcılardan elde edilen veriler doğrultusunda, bireyin düşünce yapısını
ve hislerini tespit ederek kişiselleştirilmiş ürün ve hizmet sunumunu sağlayan sonuçların
üretilmesi firmalara ve müşterilere sağladığı avantajların yanı sıra gizlilik ihlali gibi
konularda daha kapsamlı çalışmalar yapılabilecektir.
Sonraki çalışmalarımızda, önerilen yeni ideal modele uygun olarak verilerin toplanıp veri
setinin boyutları genişletilerek, analiz sürecinde büyük veri ve bulut bilişimi kapsayan yeni
teknik ve teknolojilerin kullanılması ile verilerin daha kapsamlı analizi yapılacak ve veriler
daha yorumlanabilir hale dönüştürülecektir. Böylece hem kullanıcıların ilgilenebileceği
hizmet ve servislere erişmesi hem de veriyi tutan operatörlerin farklı çözümleri
kullanıcılara sunması kolaylaşacaktır.
Gelecek çalışmalarda kişisel verilerin mahremiyeti konusuna daha çok önem verilmesi ve
çalışmalarda bu konuya odaklanılması kişilerin özel hayatlarına duyulması gereken saygıyı
arttıracaktır.
58
59
KAYNAKLAR
1.
Jifa, G., and Lingling, Z. (2014). Data, DIKW, Big data and Data science. Procedia
Computer Science, 31, 814-821.
2.
Liu, J., Zheng, Q., and Chan, F. (2006). A Method for User Behavior Modeling
Based on Web Page Metadata. 10th International Conference on Computer
Supported Cooperative Work in Design, Nanjing, 1-6.
3.
Kotiyalt, B., Kumar, A., Pant, B., Goudar, R. H., Chauhan, S., and Junee, S. (2013).
User Behavior Analysis in Web Log through Comparative Study of Eclat and
Apriori, 7th International Conference on Intelligent Systems and Control (ISCO),
Coimbatore, Tamil Nadu, India, 421-426.
4.
Benevenutoy, F., Rodriguesy, T., Cha, M., and Almeida, V. (2009). Characterizing
User Behavior in Online Social Networks. 9th ACM SIGCOMM Conference on
Internet Measurement Conference, Chicago, Illinois, USA, 49-62.
5.
Zhao, W., Liu, J., Ye, D., and Wei, J. (2013). Mining User Daily Behavior Patterns
from Access Logs of Massive Software and Websites. 5th Asia-Pacific Symposium
on Internetware, Changsha, China, 18.
6.
Pachidi, S., Spruit, M., and Weerd, I. (2014). Understanding Users’ Behavior with
Software Operation Data Mining. Computers in Human Behavior, 30, 583-594.
7.
Belk, M., Papatheocharous, E., Germanakos, P., and Samaras, G. (2013). Modeling
Users on the World Wide Web Based on Cognitive Factors, Navigation Behavior
and Clustering Techniques. The Journal of Systems and Software, 86, 2995-3012.
8.
Kinley, K., Tjondronegoro, D., Partridge, H., and Edwards, S. (2014). Modeling
Users’ Web Search Behavior and Their Cognitive Styles. Journal of the
Association for Information Science And Technology, 65(6), 1107-1123.
9.
Ma, H., Cao, H., Yang, Q., Chen, E., and Tian, J. (2012). A Habit Mining
Approach for Discovering Similar Mobile Users. 21st international conference on
World Wide Web, Lyon, France, 231-240.
10.
Tseng, V. S., and Lin, K. W. (2006). Efficient Mining and Prediction of User
Behavior Patterns in Mobile Web Systems. Information and Software Technology,
48 357-369.
11.
Ghose, A., and Han, S. P. (2011). An Empirical Analysis of User Content
Generation and Usage Behavior on the Mobile Internet, Management Science,
57(9), 1671-1691.
60
12.
Mayrhofer, R., Radi, H., and Ferscha, A., (2003). Recognizing and Predicting
Context by Learning from User Behavior. The International Conference on
Advances in Mobile Multimedia (MoMM2003), 171, 25-35.
13.
Vojnovic, M. (2008). On Mobile User Behaviour Patterns. IEEE International
Zurich Seminar on Communications, Zurich, 26-29.
14.
Burigat, S., Chittaro, L., Ieronutti, L. (2008). Mobrex: Visualizing Users' Mobile
Browsing Behaviors. IEEE Computer Graphics and Applications, 28(1), 24- 32.
15.
Dong, Y., Zhang, H., and Jiao, L. (2006). Research on Application of User
Navigation Pattern Mining Recommendation. The Sixth World Congress on
Intelligent Control and Automation, 2, Dalian, 6106-6110.
16.
Zhang, Y., and Jiao, J. (2007). An associative classification-based recommendation
system for personalization in B2C e-commerce applications. Expert Systems with
Applications, 33, 357–367.
17.
Kim, Y., and Cho, S.B. (2009). A Recommendation Agent for Mobile Phone Users
Using Bayesian Behavior Prediction. Third International Conference on Mobile
Ubiquitous Computing, Systems, Services and Technologies, Sliema, 283-288.
18.
Ying, J. C., Chen, H. S., Lin, K. W., Lu, E. H., Tseng, V. S., Tsai, H. W., Cheng,
K. H., and Lin, S. C. (2014). Semantic trajectory-based high utility item
recommendation system. Expert Systems with Applications, 41, 4762–4776.
19.
Park, D. H., Kim, H. K., Choi, Y., and Kim, J. K. (2012). A literature review and
classification of recommender systems research. Expert Systems with Applications,
39, 10059-10072.
20.
Kivi, A. (2009). Measuring mobile service usage, methods and measurement
points. International Journal of Mobile Communications, 7(4), 415-435.
21.
Christoph, U., Krempels, K. H., Stülpnagel J., and Terwelp, C. (2010). Automatic
Context Detection of a Mobile User. International Conference on Wireless
Information Networks and Systems (WINSYS), Athens, 1-6.
22.
Lee, W. P., and Lee, K. H. (2014). Making smartphone service recommendations
by predicting users’ intentions: A context-aware approach. Information Sciences,
277, 21–35.
23.
Albayrak, A. S., Yılmaz, Ş. K. (2009). Veri Madenciliği: Karar Ağacı
Algoritmaları ve İMKB Verileri Üzerine Bir Uygulama. Süleyman Demirel
Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi,14(1), 31-52.
24.
Canbek, G., ve Sağıroğlu, Ş. (2006). Bilgi, Bilgi Güvenliği ve Süreçleri Üzerine Bir
İnceleme. Politeknik Dergisi, 9(3), 165-174.
25.
Gürsakal, N. (2013). Büyük Veri (1.Baskı), Bursa: Dora Yayıncılık, 32,37,200.
61
26.
Dener, M., Dörterler, M., ve Orman, A. (2009). Açık Kaynak Kodlu Veri
Madenciliği Programları: WEKA’da Örnek Uygulama. Akademik Bilişim’09,
Harran Üniversitesi, Şanlıurfa, 787- 796.
27.
Tekerek, A. (2011). Veri Madenciliği Süreçleri ve Açık Kaynak Kodlu Veri
Madenciliği Araçları. Akademik Bilişim’11, İnönü Üniversitesi, Malatya, 161-169.
28.
Erol, B. (2013). Müşteri İlişkileri Yönetimi İçin Veri Madenciliği Kullanılması Ve
Sigortacılık Sektörü Üzerine Bir Uygulama. Yüksek Lisans Tezi, Marmara
Üniversitesi Fen Bilimleri Enstitüsü, İstanbul, 23,25-50.
29.
Jovic, A., Brkic, K., and Bogunovic, N. (2014). An overview of free software tools
for general data mining. 37th International Convention on Information and
Communication Technology, Electronics and Microelectronics (MIPRO), Opatija
1112-1117.
30.
Louridas, P., and Ebert, C. (2013). Embedded Analytics and Statistics for Big Data.
IEEE Software, 30(6), 33-39.
31.
Savaş, S., Topaloğlu, N., ve Yılmaz, M. (2012). Veri Madenciliği ve Türkiye’deki
Uygulama Örnekleri. İstanbul Ticaret Üniversitesi Fen Bilimleri Dergisi, (21), 123.
32.
Tezcanlar, P. (2007). Müşteri İlişkileri Yönetimi, Veri Madenciliği ve Bir
Uygulama. Yüksek Lisans Tezi, İstanbul Üniversitesi Sosyal Bilimler Enstitüsü,
İstanbul, 5,100-104.
33.
Akbulut, S. (2006). Veri Madenciliği Teknikleri ile Bir Kozmetik Markanın Ayrılan
Müşteri Analizi ve Müşteri Segmentasyonu. Yüksek Lisans Tezi, Gazi Üniversitesi
Fen Bilimleri Enstitüsü, 5-6.
34.
Ekmekçiler, E. (2012). Tavsiye Sistemlerinde Veri Bütünleştirme. Yüksek Lisans
Tezi, Başkent Üniversitesi Fen Bilimleri Enstitüsü, 8-15.
35.
Karakuş, K. (2009). Veri Madenciliği Teknikleri İle Mobil Telekom Sektöründe
Müşterilerin Kredi Skorlamasına İlişkin İstatistiksel Bir Analiz. Yüksek Lisans
Tezi, Marmara Üniversitesi Sosyal Bilimler Enstitüsü, 124-126.
36.
Oğuzlar, A. (2003). Veri Ön İşleme. Erciyes Üniversitesi İktisadi ve İdari Bilimler
Fakültesi Dergisi, (21), 67-76.
37.
Chen, M., Mao, S., and Liu, Y. (2014). Big Data: A Survey. Mobile Networks and
Applications, 19(2), 171-209.
38.
Demchenko, Y., Grosso, P., Laat, C., and Membrey, P. (2013). Addressing Big
Data Issues in Scientific Data Infrastructure. International Conference on
Collaboration Technologies and Systems (CTS), San Diego, CA, 48-55.
62
39.
Chen, C. L. P., and Zhang, C. Y. (2014). Data-intensive applications, challenges,
techniques and technologies: A survey on Big Data. Information Sciences, 275,
314-347.
40.
İnternet: Mason, K.J. Social Media Statistics and Facts of 2013. Growing Social
Media.URL:
http://www.webcitation.org/query?url=http%3A%2F%2Fgrowingsocialmedia.com
%2Fsocial-media-statistics-and-facts-of-2013-infographic%2F&date=2014-08-20,
Son Erişim Tarihi: 20.08.2014.
41.
İnternet: McCafferty, D. Surprising Statistics About Big Data. Baselinemag. URL:
http://www.webcitation.org/query?url=http%3A%2F%2Fwww.baselinemag.com%
2Fanalytics-big-data%2Fslideshows%2Fsurprising-statistics-about-bigdata.html&date=2014-08-20, Son Erişim Tarihi: 20.08.2014.
42.
İnternet: From character to personality. Global number of worlwide Internet users
2000-2014.
Connected
Vivaki
Business
Intelligence.
URL:
http://www.webcitation.org/query?url=http%3A%2F%2Fwww.connectedvivaki.co
m%2Fwp-content%2Fuploads%2F2014%2F08%2FInternetUsage.jpg&date=2014-09-01, Son Erişim Tarihi: 01.09.2014.
43.
İnternet: From character to personality. Arama Trendleri. Google. URL:
http://www.webcitation.org/query?url=https%3A%2F%2Fwww.google.com.tr%2F
trends%2F&date=2014-09-01, Son Erişim Tarihi: 01.09.2014.
44.
Spiess, J., T’Joens, Y., Dragnea, R., Spencer, P., and Philippart, L. (2014). Using
Big Data to Improve Customer Experience and Business Performance. Bell Labs
Technical Journal, 18(4), 3–17.
45.
Fan, W., and Bifet, A. (2012). Mining Big Data: Current Status, and Forecast to the
Future. ACM SIGKDD Explorations, 14(2), 1-5.
46.
Kaisler, S., Armour, F., Espinosa, J. A., and Money, W. (2013). Big Data: Issues
and Challenges Moving Forward. 46th Hawaii International Conference on System
Sciences, Wailea, Maui, HI, 995- 1004.
47.
Katal, A., Wazid, M., and Goudar, R.H. (2013). Big Data: Issues, Challenges,
Tools and Good Practices. Sixth International Conference on Contemporary
Computing (IC3), Noida, 404-409.
48.
İnternet: Mysore, D., Khupat, S., and Jain S. Big data architecture and patterns.
IBMDeveloperworks.URL:
http://www.webcitation.org/query?url=http%3A%2F%2Fwww.ibm.com%2Fdevel
operworks%2Flibrary%2Fbdarchpatterns1%2Findex.html%3Fca%3Ddrs&date=2014-08-20, Son Erişim Tarihi:
20.08.2014.
63
49.
Bilgi Teknolojileri ve İletişim Kurumu. (2014). Elektronik Haberleşme Sektöründe
Teknolojik Gelişmeler ve Eğilimler; BTK Araştırma Raporları, Ankara.
50.
Singh, S., and Singh, N. (2012). Big Data Analytics. International Conference on
Communication, Information & Computing Technology (ICCICT), Mumbai, India,
1-4.
51.
Wang, E., and Chen, G. (2013). An Overview of Big Data Mining: Methods And
Tools. International Symposium on Signal Processing, Biomedical Engineering
and Informatics, Hangzhou, China, 377-382.
52.
Wu, X., Zhu, X., Wu, G. Q., and Ding, W. (2014). Data Mining with Big Data.
IEEE Transactions on Knowledge and Data Engineering, 26(1), 97-107.
53.
Groupe Speciale Mobile Association. (2014). The Mobile Economy; GSMA
Intelligence, London.
54.
Çolak, I., Sağıroğlu, S., and Yeşilbudak, M. (2012). Data mining and wind power
prediction: A literature review. Renewable Energy, 46, 241-247.
55.
İnternet: Sacolick, I. Top Five Tools of Big Data Analytics. Starcio.URL:
http://www.webcitation.org/query?url=http%3A%2F%2Fblogs.starcio.com%2F201
2%2F03%2Ftop-five-tools-of-bigdata-analytics.html&date=2014-08-20,
Son
Erişim Tarihi: 20.08.2014.
56.
İnternet: Harvey, C. 50 Top Open Source Tools for Big Data. Datamation.URL:
http://www.webcitation.org/query?url=http%3A%2F%2Fwww.datamation.com%2
Fdata-center%2F50-top-open-source-tools-for-big-data-1.html&date=2014-08-20,
Son Erişim Tarihi: 20.08.2014.
57.
İnternet: Toll, W. Top 45 Big Data Tools for Developers. ProfitBricks.URL:
http://www.webcitation.org/query?url=http%3A%2F%2Fblog.profitbricks.com%2
Ftop-45-big-data-tools-for-developers%2F&date=2014-08-20, Son Erişim Tarihi:
20.08.2014.
58.
Cattell, R. (2010). Scalable SQL and NoSQL data stores. ACM SIGMOD Record,
39(4), 12-27.
59.
Eken, S., Kaya, F., Sayar, A. ve Kavak, A. (2014, Mayıs). Doküman Tabanlı
NoSQL Veritabanları: MongoDB ve CouchDB yatay ölçeklenebilirlik
karşılaştırması. 7. Mühendislik ve Teknoloji Sempozyumunda sunuldu, Ankara
60.
İnternet: From character to personality. Google BigQuery. Google Developers.
URL:
http://www.webcitation.org/query?url=https%3A%2F%2Fdevelopers.google.com
%2Fbigquery&date=2014-08-20, Son Erişim Tarihi: 20.08.2014.
64
61.
İnternet: From character to personality. What Is Apache Hadoop?. Hadoop URL:
http://www.webcitation.org/query?url=http%3A%2F%2Fhadoop.apache.org%2F&
date=2014-08-20, Son Erişim Tarihi: 20.08.2014.
62.
Chandrasekhar, U., Reddy, A., and Rath, R. (2013). A Comparative Study of
Enterprise and Open Source Big Data Analytical Tools. IEEE Conference on
Information & Communication Technologies (ICT), JeJu Island, 372-377.
63.
İnternet: From character to personality. The HPCC Systems Platform. HPCC
Systems.URL:
http://www.webcitation.org/query?url=http%3A%2F%2Fhpccsystems.com%2F&d
ate=2014-08-20, Son Erişim Tarihi: 20.08.2014.
64.
İnternet: From character to personality. HPCC vs Hadoop Detailed Comparison.
HPCCSystems.URL:
http://www.webcitation.org/query?url=http%3A%2F%2Fhpccsystems.com%2FWh
y-HPCC%2FHPCC-vs-Hadoop%2FHPCC-vs-Hadoop-Detail&date=2014-08-20,
Son Erişim Tarihi: 20.08.2014.
65.
Zikopoulos, P. C., Roos, D., Parasuraman, K., Deutsch, T., Corrigan, D., and Giles,
J. (2013). Harness the Power of Big Data. The IBM Big Data Platform, United
States: The McGraw-Hill Companies.
66.
Laurila, J. K., Gatica-Perez, D., Aad, I., Blom, J., Bornet, O., Do,T. M., Dousse, O.,
Eberle, J., Miettinen, M. (2013). From big smartphone data to worldwide research:
The Mobile Data Challenge. Pervasive and Mobile Computing, 9(6), 752-771.
67.
Verbeek, P. P., and Slob, A. (2006). Analyzing the relations between technologies
and user behavior. User Behavior and Technology Development, 20, 385-399.
68.
Şimşekli, U., Birdal, T., Koç, E., ve Cemgil, A.T. (2013). A Factorization Based
Recommender System for Online Services. 21st Signal Processing and
Communications Applications Conference (SIU), Haspolat, 1-4.
69.
Kazienko, P., and Kolodziejski, P. (2006). Personalized Integration of
Recommendation Methods for E-commerce, International Journal of Computer
Science & Applications, 3(3), 12-26.
70.
Darıcı, A. (2002). 3.Nesil Mobil Haberleşme Sistemleri; BTK Araştırma Raporları
Ankara.
71.
Türkiye İstatistik Kurumu. (2014). Yıllara, Yaş Grubu ve Cinsiyete Göre Nüfus,
Genel
Nüfus
Sayımları–ADNKS;
TÜİK
Nüfus
ve
Demografi,
http://www.tuik.gov.tr/PreIstatistikTablo.do?istab_id=1588.
72.
Bilgi Teknolojileri ve İletişim Kurumu. (2014). Türkiye Elektronik Haberleşme
Pazar Verileri Raporu 2013 Yılı 4. Çeyrek; BTK Üç Aylık Pazar Verileri Raporu,
Ankara.
65
73.
Cuadrado, F., and Duenas, J.C. (2012). Mobile application stores: success factors,
existing approaches, and future developments. IEEE Communications Magazine,
50(11), 160-167.
74.
İnternet: From character to personality. Statistics and facts about Mobile App
Usage.
The
Statistics
Portal.
URL:
http://www.webcitation.org/query?url=http%3A%2F%2Fwww.statista.com%2Ftop
ics%2F1002%2Fmobile-app-usage%2F&date=2014-09-01, Son Erişim Tarihi:
01.09.2014.
75.
Smith, E. G., Noort, G. V., and Voorveld, H. A. M. (2014). Understanding online
behavioural advertising: User knowledge, privacy concerns and online coping
behaviour in Europe. Computers in Human Behavior, 32, 15-22.
76.
İnternet: From character to personality. The Mobile Landscape for 2014. WebDAM
Systems.URL:
http://www.webcitation.org/query?url=http%3A%2F%2Fwww.webdam.com%2F2
014-mobile-marketing-infographic%2F&date=2014-08-21, Son Erişim Tarihi:
21.08.2014.
77.
Coşkun, C., ve Baykal, A. (2011). Veri Madenciliğinde Sınıflandırma
Algoritmalarının Bir Örnek Üzerinde Karşılaştırılması. Akademik Bilişim’11, İnönü
Üniversitesi, Malatya, 51-58.
66
67
67
ÖZGEÇMİŞ
Kişisel Bilgiler
Soyadı, adı
: SİNANÇ, Duygu
Uyruğu
: T.C.
Doğum tarihi ve yeri
: 20.09.1988 Elazığ
Medeni hali
: Bekâr
Telefon
: 0 (312) 202 37 23
Faks
: 0 (312) 202 37 10
e-mail
: duygusinanc@gazi.edu.tr
Eğitim
Derece
Eğitim Birimi
Mezuniyet Tarihi
Yüksek Lisans
Gazi Üniversitesi / Bilgisayar Mühendisliği
2014
Lisans
Selçuk Üniversitesi / Bilgisayar Mühendisliği
2011
Lise
Elazığ Anadolu Lisesi
2006
İş Deneyimi
Yıl
Yer
Görev
2013-Devam Ediyor
Gazi Üniversitesi
Araştırma Görevlisi
2013
Amasya Üniversitesi
Araştırma Görevlisi
2012
Pamukkale Üniversitesi
Araştırma Görevlisi
Yabancı Dil
İngilizce
Yayınlar
1. Sagiroglu, S., and Sinanc, D. Big data: A review. IEEE International Conference on
Collaboration Technologies and Systems, San Diego, CA, 42-47.
2. Sinanc, D., and Sagiroglu, S. (2013). A Review on Cloud Security. The 6th
International Conference on Security of Information and Networks, Aksaray, Turkey,
321-325.
68
3. Sinanc, D., and Yavanoglu, U., (2013). A New Approach to Detecting Content
Anomalies in Wikipedia, The 12th IEEE International Conference on Machine
Learning and Applications, Miami, FL, 2, 288-293.
4. Sinanc, D., Sahin, M., Esen, Z., Yavanoglu, U., and Sagiroglu, S., (In press, 2014). An
Intelligent Feedback Control Mechanism for Brushless DC Motors. 16th International
Power Electronics and Motion Control Conference and Exposition, Antalya, Turkey.
69
GAZİ GELECEKTİR...
Download