CEP TELEFONU KULLANICI DAVRANIŞI MODELLEME Duygu SİNANÇ YÜKSEK LİSANS TEZİ BİLGİSAYAR MÜHENDİSLİĞİ ANABİLİM DALI GAZİ ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ EYLÜL 2014 Duygu SİNANÇ tarafından hazırlanan “CEP TELEFONU KULLANICI DAVRANIŞI MODELLEME” adlı tez çalışması aşağıdaki jüri tarafından OY BİRLİĞİ ile Gazi Üniversitesi Bilgisayar Mühendisliği Anabilim Dalında YÜKSEK LİSANS TEZİ olarak kabul edilmiştir. Danışman: Prof. Dr. Şeref SAĞIROĞLU Bilgisayar Mühendisliği, Gazi Üniversitesi Bu tezin, kapsam ve kalite olarak Yüksek Lisans Tezi olduğunu onaylıyorum ...………………… Başkan : Doç. Dr. Erdal IRMAK Elektrik-Elektronik Mühendisliği, Gazi Üniversitesi Bu tezin, kapsam ve kalite olarak Yüksek Lisans Tezi olduğunu onaylıyorum …………………... Üye : Yrd. Doç. Dr. Mehmet DEMİRCİ Bilgisayar Mühendisliği, Gazi Üniversitesi Bu tezin, kapsam ve kalite olarak Yüksek Lisans Tezi olduğunu onaylıyorum Tez Savunma Tarihi: …………………... 01/09/2014 Jüri tarafından kabul edilen bu tezin Yüksek Lisans Tezi olması için gerekli şartları yerine getirdiğini onaylıyorum. …………………….……. Prof. Dr. Şeref SAĞIROĞLU Fen Bilimleri Enstitüsü Müdürü ETİK BEYAN Gazi Üniversitesi Fen Bilimleri Enstitüsü Tez Yazım Kurallarına uygun olarak hazırladığım bu tez çalışmasında; Tez içinde sunduğum verileri, bilgileri ve dokümanları akademik ve etik kurallar çerçevesinde elde ettiğimi, Tüm bilgi, belge, değerlendirme ve sonuçları bilimsel etik ve ahlak kurallarına uygun olarak sunduğumu, Tez çalışmasında yararlandığım eserlerin tümüne uygun atıfta bulunarak kaynak gösterdiğimi, Kullanılan verilerde herhangi bir değişiklik yapmadığımı, Bu tezde sunduğum çalışmanın özgün olduğunu, bildirir, aksi bir durumda aleyhime doğabilecek tüm hak kayıplarını kabullendiğimi beyan ederim. Duygu SİNANÇ 01/09/2014 iv CEP TELEFONU KULLANICI DAVRANIŞI MODELLEME (Yüksek Lisans Tezi) Duygu SİNANÇ GAZİ ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ Eylül 2014 ÖZET Çevrim içi işlem trafiği, e-posta, metin, belge, video, ses, resim, tıklama akışları, sistem günlükleri, arama sorguları, sosyal ağ etkileşimleri, istatistiksel veriler, sağlık kayıtları, bilimsel veriler, devlet ve özel sektöre ait kayıtlar, sensörler ve cep telefonları tarafından oluşturulan veri devasa boyutlara ulaşmaktadır. Bu büyük hacimli, çeşidi bol ve hızla akan veri büyük veri olarak adlandırılmaktadır. Büyük verinin değere dönüştürülmesi, kurum ve kuruluşların geleceğe yönelik yeni stratejiler oluşturması, mevcut problemlerinin tespiti ve çözümüne yönelik yeni yollarının üretilmesine katkılar sağlamaktadır. Bu tez kapsamında, öncelikle büyük veri analizlerinin yapılmasına temel teşkil etmesi bakımından veri madenciliği süreçleri ve büyük veri olgusu ayrıntılı olarak incelenmiştir. Kullanıcıların, mobil uygulama platformuna yaptıkları isteklere ait bilgilerin bulunduğu gerçek bir veri seti daha doğru sonuçlar elde etmek için ön işlemden geçirilmiştir. Daha sonra, görsel ve kural tabanlı analiz teknikleri bu veri seti üzerinde uygulanmıştır. Sonuç olarak, isteklerin indirme veya ödeme işlemi ile sonuçlanma yüzdesinin tespit edildiği karar ağacı tabanlı birliktelik kuralları oluşturulmuştur. Bu sayede platforma erişim sağlayan her kullanıcının, büyük ihtimalle satın alacağı veya hiç ilgilenmeyeceği uygulamalar, kullanıcı henüz bu davranışı gerçekleştirmeden tahmin edilir hale getirilmiştir. Son olarak da elde edilen tecrübeler doğrultusunda, ideal bir mobil kullanıcı davranış modeli önerilmiştir. Bu tez çalışması sayesinde, akademik literatürün ve mobil sektörün geliştirilmesinin sağlanmasının yanı sıra, telekomünikasyon firmalarının gerek kurumsal üretim ve pazarlama stratejileri belirlemesine, gerekse kullanıcı odaklı öneri veya kampanya geliştirilmesi sürecine katkılar sağlanacak ve önerilen yeni modelin yapısı ile gelecekte verilerin daha sağlıklı olarak değerlendirilmesi mümkün olacaktır. Bilim Kodu : 902.1.014 Anahtar Kelimeler : Veri madenciliği, büyük veri, tavsiye sistemleri, kullanıcı davranış modelleri, birliktelik kuralları, karar ağacı, cep telefonu Sayfa Adedi : 68 Danışman : Prof. Dr. Şeref SAĞIROĞLU v MOBILE PHONE USER BEHAVIOR MODELLING (M. Sc. Thesis) Duygu SINANC GAZİ UNIVERSITY GRADUATE SCHOOL OF NATURAL AND APPLIED SCIENCES September 2014 ABSTRACT Data is reaching gigantic size because of online transactions, e-mail, text, document, video, audio, image, click stream, system logs, search queries, social network interactions, statistical data, medical records, scientific data, government and industrial records, sensors and mobile phones. This huge, various and stream data is named as big data. Converting big data into valuable information provides many benefits for organizations and institutions such as creating new strategies for the future or determination of the problems and the generation of new ways to solve them. This thesis introduces big data phenomenon and data mining process and examines big data and its analysis. A real data set containing the information on the mobile phone users’ requests is first preprocessed for obtaining more accurate results. Secondly, visual and rule based analyses are performed on the data set. As a result of this step, decision tree based association rules were created to determine the payments or downloads of users. By this way, user purchase status or no visit count of the applications can be predicted before users’ visits. Finally, with the help of gained or extracted information and experience, an ideal mobile user behavior model is proposed. It is expected that the output of this thesis will provide new perception to the literature and mobile phone industry. It will also contribute to telecommunication companies not only identifying production and marketing strategies but also developing user oriented suggestions, campaign or outcomes. In addition, with the help of the suggested model, evaluating and analyzing big data better and accurate might be achieved for the future processing. Science Code Key Words Page Number Supervisor : 902.1.014 : Data mining, big data, recommendation systems, user behavior patterns, association rules, decision tree, mobile phone : 68 : Prof. Dr. Seref SAGIROGLU vi TEŞEKKÜR Çalışmalarım boyunca değerli yardım ve katkılarıyla beni yönlendiren saygıdeğer danışmanım Prof. Dr. Şeref SAĞIROĞLU’na, kıymetli tecrübelerinden faydalandığım Dr. Uraz YAVANOĞLU’na Arş. Gör. Ramazan TERZİ'ye, maddi ve manevi destekleriyle hiçbir zaman beni yalnız bırakmayan sevgili annem Hatice SİNANÇ, babam Recep SİNANÇ ve ablam Burcu SİNANÇ’a sonsuz teşekkürlerimi sunarım. vii İÇİNDEKİLER Sayfa ÖZET .............................................................................................................................. iv ABSTRACT .................................................................................................................... v TEŞEKKÜR .................................................................................................................... vi İÇİNDEKİLER .............................................................................................................. vii ÇİZELGELERİN LİSTESİ............................................................................................. ix ŞEKİLLERİN LİSTESİ .................................................................................................. x RESİMLERİN LİSTESİ ................................................................................................. xi HARİTALARIN LİSTESİ ................................................................................................. xii SİMGELER VE KISALTMALAR................................................................................. xiii 1. GİRİŞ....................................................................................................... 1 2. VERİ MADENCİLİĞİ ........................................................................................... 5 2.1. Veri Madenciliği Modelleri ................................................................................. 6 2.1.1. Sınıflandırma ve regresyon ....................................................................... 7 2.1.2. Kümeleme ................................................................................................. 7 2.1.3. Birliktelik Kuralları ................................................................................... 7 2.2. Veri Madenciliği Aşamaları................................................................................... 7 3. BÜYÜK VERİ ............................................................................................................................................... 11 3.1. Büyük Veri Bileşenleri ........................................................................................ 16 3.2. Büyük Veri Madenciliği ...................................................................................... 17 3.3. Veri Bilimi .............................................................................................................. 18 3.4. Büyük Veri Teknik ve Teknolojileri ..................................................................... 19 4. KULLANICI DAVRANIŞI ANALİZ MODELLERİ ................................. 25 4.1. Literatür Taraması ............................................................................................... 25 viii Sayfa 4.1.1. Kullanıcı davranışlarının belirlenmesi ...................................................... 25 4.1.2. Tavsiye sistemleri ...................................................................................... 30 4.2. Mobil İletişim Sektörü ........................................................................................ 33 4.3. Mevcut Modeller ................................................................................................. 35 4.4. Önerilen Model ....................................................................................................... 39 5. VERİ ANALİZ UYGULAMASI ........................................................................ 41 5.1. Veriyi Anlama ..................................................................................................... 41 5.2. Veri Seçme ve Birleştirme .................................................................................. 42 5.3. Veri Temizleme ................................................................................................... 43 5.4. Veri Dönüşümü ................................................................................................... 43 5.5. Verinin Görselleştirilmesi ................................................................................... 43 5.6. Model Kurma ...................................................................................................... 44 5.6.1. Karar ağaçları ........................................................................................... 45 5.6.2. Alt modeller .............................................................................................. 46 5.7. Değerlendirmeler ve Öneriler.............................................................................. 52 6. SONUÇ, TARTIŞMA VE ÖNERİLER ............................................................ 55 KAYNAKLAR ............................................................................................................... 58 ÖZGEÇMİŞ ........................................................................................................................ 67 ix ÇİZELGELERİN LİSTESİ Çizelge Sayfa Çizelge 3.1. Büyük verinin sınıflandırılması .................................................................... 15 Çizelge 3.2. Veri analizi yapan bilimlerin karşılaştırılması ............................................. 18 Çizelge 3.3. Veri işleme platformları ve veri madenciliği araçları ................................ 20 Çizelge 3.4. Büyük veri araçlarının karşılaştırmalı analizi .............................................. 24 Çizelge 4.1. Küresel mobil iletişim bilgileri ..................................................................... 33 Çizelge 4.2. 2012-2013 yılı Türkiye mobil bilgileri ........................................................ 34 Çizelge 4.3. Mobil uygulama marketi istatistikleri .......................................................... 35 Çizelge 4.4. İncelenen mobil kullanıcı modellerinin karşılaştırılması ............................ 39 Çizelge 5.1. Karışıklık matrisi ........................................................................................... 47 Çizelge 5.2. 1. Alt modele ait karışıklık matrisi ve doğruluk oranları ............................ 49 Çizelge 5.3. 2. Alt modele ait karışıklık matrisi ve doğruluk oranları ............................ 50 Çizelge 5.4. 3. Alt modele ait karışıklık matrisi ve doğruluk oranları ............................ 51 Çizelge 5.5. 4. Alt modele ait karışıklık matrisi ve doğruluk oranları ............................ 52 Çizelge 5.6. 5. Alt modele ait karışıklık matrisi ve doğruluk oranları ............................ 53 Çizelge 5.7. 6. Alt modele ait karışıklık matrisi ve doğruluk oranları ............................ 54 Çizelge 5.8. 7. Alt modele ait karışıklık matrisi ve doğruluk oranları ............................ 56 iv ŞEKİLLERİN LİSTESİ Şekil Sayfa Şekil 1.1. Tez kapsamında yapılan çalışmalar ............................................................... 3 Şekil 2.1. Bilgi keşfi sürecinde veri madenciliği ........................................................... 8 Şekil 2.2. Veri madenciliği sürecindeki adımların sunulduğu CRIPS-DM çevrimi ...... 8 Şekil 3.1. Büyük veri uygulamaları örnekleri ................................................................. 15 Şekil 3.2. Büyük veri bileşenleri..................................................................................... 16 Şekil 3.3. Büyük veri analiz araçları ............................................................................... 19 Şekil 4.1. Tez çalışmasının literatürdeki yeri ................................................................. 26 Şekil 4.2. iOS ve Android cihazlarda, uygulamalarda zaman harcama yüzdeleri .......... 34 Şekil 4.3. Mobil veri toplama metotları ........................................................................... 37 Şekil 4.4. Kullanıcıların durum ve içerik bilgilerinin elde edilmesi süreci .................... 38 Şekil 4.5. Kural algoritması tabanlı mobil olay-durum-eylem modeli ........................... 38 Şekil 4.6. Tez kapsamında önerilen mobil kullanıcı davranış tespiti modeli ................. 40 Şekil 5.1. Kullanıcının platformlar üzerindeki hareketleri ............................................. 41 Şekil 5.2. Oluşturulan veri setindeki özniteliklerin kaynak alındığı tablolar ................. 42 Şekil 5.3. Uygulama kategorilerinin veri setindeki dağılımı .......................................... 43 Şekil 5.4. Ağlara erişen kullanıcıların yıllık istek dağılımı ............................................ 44 Şekil 5.5. Karar ağacından kuralların elde edilmesini sağlayan örnek dallar ................. 48 Şekil 5.6. Tez kapsamında önerilen ideal mobil kullanıcı davranış modeli yapısı......... 71 v RESİMLERİN LİSTESİ Resim Sayfa Resim 3.1. Büyük veri kavramı ve dünyada kullanımı ..................................................... 13 Resim 3.2. Büyük veri kavramı ve Türkiye’de kullanımı............................................... 14 vi KISALTMALAR Bu çalışmada kullanılmış kısaltmalar, açıklamaları ile birlikte aşağıda sunulmuştur. Kısaltmalar Açıklamalar AĞ* Kısaca * numaralı erişim ağı türü BTK Bilgi Teknolojileri ve İletişim Kurumu ER Entity Relationship CDR Call Detail Record CHAID Chi-Square Automatic Interaction Detector CRISP-DM Cross-Industry Standard Process for Data Mining GPS Global Positioning System GSM Global System for Mobile Communications HTTP Hyper-Text Transfer Protocol IMEI International Mobile Station Equipment Identity IMSI International Mobile Subscriber Identity KA* Kısaca * numaralı kategori içeriği LAN Local Area Network NoSQL Not Only SQL TCP/IP Transmission Control Protocol/ Internet Protocol OP* Kısaca * numaralı operatör bilgisi TÜİK Türkiye İstatistik Kurumu UMTS Universal Mobile Telecommunications System URL Uniform Resource Locator UY* Kısaca * numaralı uygulama adı WAP Wireless Application Protocol WCDMA Wideband Code Division Multiple Access WLAN Wireless Local Area Network 1 1. GİRİŞ İnternet kullanımının yaygınlaşması ve teknoloji ile dinamik etkileşimin artması, kişiselleştirilmiş ürün ve servislerin geniş kitlelere rekabetçi fiyatlarla sunulmasını mümkün hale getirmiştir. İnternet kullanımının sürekli olarak artmasıyla birlikte son dönemlerde asıl dikkat çekici artış mobil internette yaşanmakta, uygulama sunma platformları ve altyapı yatırımları, mobil iletişim sektörüne doğru kaymaktadır. Bu gelişmeler pazarlamacıları internetteki kişiselleştirme uygulamalarına daha fazla odaklanmaya zorlamaktadır. Günümüz rekabetçi pazar ortamında, tüketicileri gruplandırmak ve tüketicilerin farklı kişiselleştirme tiplerine karşı olan tutumlarını göz önünde bulundurarak, doğru gruba doğru strateji ile yaklaşmak büyük önem arz etmektedir. Son yıllarda büyük önem kazanan büyük veri kavramı; algılayıcılar ve araçlar tarafından oluşturulan, büyük hacimli, çeşidi bol ve hızla artan veriyi; toplama, saklama, temizleme, görselleştirme, analiz etme ve anlamlandırma işlemlerinin gerçekleştirilmesini ifade etmektedir [1]. Bu verilerin analizi ve incelenmesi; istatistik, veri madenciliği, makine öğrenmesi, optimizasyon teknikleri, sosyal ağ analizi, sinyal işleme, örüntü tanıma ve görselleştirme yaklaşımları gibi birçok disiplini içermektedir. Literatürdeki, firmaların müşterileriyle olan ilişkilerini koruyarak ve geliştirerek kârlarını yükseltme amacını taşıyan ve kullanıcıların da isteklerine kolayca erişebilmesini sağlayan çalışmalar incelenerek, kurumların müşterilerine ve sundukları ürün ve hizmetlere ait büyük çaptaki verilerini analiz ederek kişiselleştirilmiş uygulama ve servis sunmasının büyük önem arz ettiği görülmüştür. Kullanıcı davranışlarının belirlenmesi sürecinde öncü çalışmalar; web sayfalarının meta verileri ve kullanıcı oturum verileri [2,3], sosyal ağlar [4], yazılım paketi kullanım şekli [5,6] ve web sayfası üzerinde tıklama ve gezinme biçimi [7,8] gibi verilerinin analiz edilmesiyle literatüre katkıda bulunmuşlardır. Mobil kullanıcıların alışkanlıkları üzerinde yapılan çalışmalar ise konuya; mobil internet kayıtlarına ek olarak, analiz sürecine konum bilgisinin eklenmesi [9,10], ilgilenilen içerik hakkında bilgi çıkarılması [11,12,13] ve mobil cihazın ekranını kullanma biçimi [14] gibi bakış açılarından yaklaşmışlardır. 2 Belirli ölçütler dâhilinde benzer davranış gösteren veya aynı demografik örüntülere sahip kullanıcılar gruplandırılarak [15,16] ya da her kullanıcının karakteristiği bireysel olarak incelenerek [17,18] filtreleme ve tavsiye sistemleri geliştirilmiş, konu hakkında genel perspektif [19] sahibi olunmuştur. Son olarak bu süreçte toplanması gereken veri türleri ve dönüştürülecekleri durumlar belirlenerek mobil kullanıcı davranışı modelleri önerilmiştir [20,21,22]. Akademik çalışmaların değerlendirilmesiyle; kişiselleştirilmiş uygulamaların ve tavsiye sistemlerinin dikkate alınarak yapılan kullanıcı davranışı belirleme sürecinde, tercih edilen mevcut kararlı bir veri toplama ve analiz modeli olmadığı görülmüştür. Bu sebeple, bu çalışma kapsamında kullanılan veriler, çeşitli veri madenciliği yöntemleri ve bakış açıları ile birleştirilip yorumlanarak analiz edilmiş, belirli veri türlerini ve tekniği kapsayan bir model oluşturularak veri seti üzerinde uygulaması gerçekleştirilmiştir. Ayrıca daha kararlı bir yapının elde edilmesi için toplanması gereken veriler belirlenerek ideal bir mobil kullanıcı davranış modeli önerilmiştir. Bu çalışma, telekomünikasyon verileri kullanılarak, Android işletim sistemine sahip cep telefonundan mobil uygulamalara erişen kullanıcıların davranışları büyük veri kapsamında öncelikle görselleştirilip daha sonra modellenerek; kullanıcıların güvenini kazanmak, firmaya yeni perspektifler sunmak ve farklı ürün ve çözümler oluşturmak isteyen pazarlamacılara, şirketinin stratejisini gözden geçirmek isteyen yöneticilere ve diğer idarecilere; müşteri profilini görmeleri ve doğru tüketici grubuna, doğru kişiselleştirme tekliflerini sunabilmeleri için öneriler sunmaktadır. Tez kapsamında, mobil verilerin büyük veri çerçevesinde görselleştirilmesi yapılmış ve mantıksal analizi veri madenciliği yaklaşımları kullanılarak gerçekleştirilmiştir. Kullanıcı profillerinin oluşturulmasında, kolay anlaşılır ve yorumlanabilir olması ayrıca kural çıkarımına izin vermesi nedeniyle karar ağaçları tekniği; sürekli ve kategorik değişken tipleriyle çalışabilmesi ki-kare metriğiyle, ilişki düzeyine göre farklılık rastlanan grupları ayrı ayrı sınıflayabilmesi ve ağaç yapraklarının verideki farklı yapı sayısı kadar dallanması sebebiyle de CHAID algoritması kullanılmıştır [23]. Kısıtlı veriler ile yapılan analizler sonucunda; cep telefonu kullanıcılarının istekte bulundukları durumların şartları ile indirme ve ödeme işlemini gerçekleştirip gerçekleştirmedikleri bilgisi bir araya getirilerek; verilerin hangi şartlar ve birliktelikler altında indirmeye veya ödemeye, yüzde kaç 3 oranında dönüşeceği kurallar şeklinde belirlenmiştir. Böylece, sistemi ziyaret eden bir kullanıcının istek örüntüsü kullanılarak, ilgilendiği uygulamayı indirme veya para ödeme oranı, henüz işlem tamamlanmadan bilinmiş olmaktadır. Yukarıda bahsedildiği üzere, bu tez çalışması kapsamında yapılan araştırma, öneri ve geliştirme süreci Şekil 1.1’de özetlenmiştir. Şekil 1.1. Tez kapsamında yapılan çalışmalar Tez kapsamında yapılan görselleştirme ve mantıksal analiz çalışmalarından elde edilen bilgiler, aşağıda maddeler halinde verilen hususlarda katkılar sağlayacaktır. Bunlar: 1. Uygulama indirme ve satın alma olasılığı yüksek olan aktif kullanıcılar, sisteme giriş yaptığında işlemi henüz sonuçlanmadığı halde davranışı daha önceden belirlendiği için; kişiye direkt ilgisi dâhilinde sürekli önerilerde bulunulacaktır. 4 2. İndirme olasılığı sınır değerlerde olan kararsız kullanıcıların, trafik potansiyelini düşüren faktörlerinin bulunarak, kişisel kampanya ve reklamlar sayesinde aktif kullanıcı haline getirilmesi sağlanabilecektir. 3. Belirli bir örüntü içerisinde işlem yapma ihtimali çok düşük olan kullanıcının daha farklı içerik ve etkinlik tavsiyeleriyle bulunduğu sınıftan çıkarılarak aktif hale dönüştürülmesi sağlanabilecektir. 4. Kullanıcıların genel eğilimlerinin çıkarılmasıyla elde edilen büyük tabloda, firmanın sektördeki konumunu belirleyerek yeni ortaklık, reklam, pazarlama ve uygulama stratejileri belirlenebilecektir. 5. Kullanıcıların elektronik ortamları daha verimli ve keyifli kullanmaları sağlanabilecektir. Bu tez çalışması içeriğinde; 2. Bölümde veri ve bilgi kavramı, veri madenciliği modelleri, aşamaları ve araçları incelenmiş, 3. Bölümde büyük veri tanımı, olgusu, bileşenleri, teknik ve teknolojileri, büyük veri madenciliği ve bu süreçte ortaya çıkan veri bilimi gözden geçirilmiş ve değerlendirmeler yapılmış, 4. Bölümde literatürdeki kullanıcı davranışlarının belirlenme süreçleri, tavsiye sistemleri ve modeller incelenerek, mevcut veri seti üzerinden kullanıcı davranış modeli önerilmiş, 5. Bölümde veriler bir önceki bölümde önerilen modele uygun olarak ve belirli senaryolar dâhilinde, veri madenciliği süreçleri kapsamında analiz edilmiş, elde edilen sonuçlar değerlendirilerek ideal bir cep telefonu kullanıcı davranış modeli oluşturulması için belirlenen parametreler önerilmiş, son olarak 6. Bölümde ise çalışmada elde edilen sonuçlar sunulmuş ve değerlendirmeler yapılmış, çalışmanın bilime katkısı sunulmuş, gelecekte hedeflenen çalışmalar belirtilmiş ve karşılaşılan güçlükler verilmiştir. Bu çalışma kapsamında ve analiz süreçlerinde, gerçek veriler kullanıldığı için, sonuçların gösterimi ve yorumlanması, yapılan gizlilik anlaşması sebebiyle bazı bölümlerde sınırlı olarak sunulmuştur. 5 2. VERİ MADENCİLİĞİ Bilişim teknolojisi açısından veri; bir durum hakkında, birbiriyle bağlantısı henüz keşfedilmemiş varlıklar ya da sayısal ortamlarda bulunan sinyaller veya bit dizeleri olarak tanımlanmaktadır. Verinin belli bir anlam ifade edecek şekilde düzenlenmiş haline bilgi denilirken; aslında bir güç oluşturabilecek veya katma değer sağlayabilecek şekle dönüşmek üzere, daha özenli olarak işlenmiş asıl değerli olan bilgi, özbilgi kavramıyla ifade edilmekte, güvenilir yargı ve karar süreçlerinde özbilginin kullanılmasıyla da ulaşılan son aşama, hikmet olarak adlandırılmaktadır [1,24]. Veri kavramı, üç başlık altında incelenmektedir [25]. 1. Yapılandırılmış Veri (Structured Data): Veriler aynı tanımlanmış formatta ve uzunluktadır ve aynı düzeni izleyerek gruplandırılmıştır. Bilgi organizasyonunun satır ve sütunlarla düzenlendiği geleneksel veri tabanı sistemleri bu türden verileri barındırmaktadır. 2. Yapılandırılmamış Veri (Unstructured Data): Bu biçimdeki veriler herhangi bir format, dizi veya kural izlemezler. Metin, video, ses, görüntü, e-posta, blog ve web sayfaları yapılandırılmamıştır. Bu veriler içerikleri yenilendiğinde dinamik, düzenlenmeye müsait olmayanları ise statik olarak sınıflandırılabilir. 3. Yarı Yapılandırılmış Veri (Semi Structured Data): Semantik çokluklar organize edilerek benzerlikleri tamamen denk olmasa da gruplandırılmasıdır. Web verileri, eposta ve XML dokümanları örnek olarak verilebilir. Veri madenciliği; veri ambarlarında tutulan, büyük miktarda ve çeşitli verinin analiz edilerek daha önce keşfedilmemiş bilgileri ortaya çıkarmak, bunları karar vermede ve gelecekle ilgili tahmin yapmada kullanma sürecidir [26,27]. Etkin bir veri madenciliği uygulaması için, farklı tiplerdeki ve ortamdaki verileri kullanma; analiz algoritmasının başarısı ve verimliliği; sonuçların kesinlik ve anlamlılık ölçütlerini sağlaması; keşfedilen kuralların görselleştirilmesi; son olarak da gizlilik ve veri güvenliği şartlarının sağlanması gerekmektedir [26]. Veri madenciliği aşağıda belirtildiği gibi pek çok alanda uygulanabilmektedir [27,28]: Bankacılık: Kredi taleplerinin değerlendirilmesi, risk analizleri, usulsüzlük tespiti 6 Bilim ve Mühendislik: Bilimsel ve teknik problemlerin çözümlenmesi Borsa: Hisse senedi fiyat tahmini, genel piyasa analizleri CRM/Müşteri Analitiği: Müşteri memnuniyetinin artırılması, yeni müşterilerin kazanılması, değerli müşterilerin elde tutulması, davranış analizi Elektronik Ticaret: Müşteri ilişkileri yönetimi, saldırıların çözümlenmesi Endüstri: Kalite kontrol, üretim süreci kontrolü Pazarlama: Çapraz satış analizleri, müşteri değerlendirme, pazar sepeti analizi Sigortacılık: Müşteri kaybı sebeplerinin belirlenmesi, usulsüzlüklerin önlenmesi Telekomünikasyon: Müşteri bölünmeleri, hile tespiti, hatların yoğunluk tahminleri Tıp: Tıbbi teşhis, uygun tedavi sürecinin belirlenmesi Veri madenciliği, veri setlerinden özbilginin keşfedilmesi sürecinin temel adımıdır. Bu sürecin verimli olarak gerçekleştirilmesi için, boyutu ve karmaşıklığı hızla artan verilerin mantıksal ve istatistiksel analiz sürecini kolaylaştırmak adına; R, Weka, IBM SPSS, Matlab, SAS, RapidMiner, Orange ve KNIME gibi birçok ticari veya açık kaynaklı araç kullanılmaktadır [29,30]. Verinin hazırlanmasını ve analizini sağlayan bu araçlar, çeşitli kütüphaneler ve eklentiler sayesinde; büyük veri, paralelizasyon, graf madenciliği, akan veri analizi, zamansal ve mekânsal verilerin işlenmesi gibi ekstra yeteneklere sahip olabilmektedirler [29]. 2.1. Veri Madenciliği Modelleri Veri madenciliği teknikleri, veri yapısı ve kullanım amacına bağlı olarak farklılaşmakta ve temel olarak iki ana grupta toplanmaktadır [28]. 1. Tanımlayıcı (Descriptive) Model: Veri tabanını sorgularıyla, veri ilişkilerini ve modellerini bulmayı amaçlamaktadır. 2. Tahmin Edici (Predictive) Model: Verilerden elde edilen desenler yardımıyla, gelecekteki değerleri öngörür. Veri madenciliği modelleri işlevlerine göre sınıflandırma ve regresyon (classification and regression), kümeleme (clustering) ve birliktelik kuralları (association rules) olmak üzere 3 ana başlık altında incelenmektedir [28,31-33]. 7 2.1.1. Sınıflandırma ve regresyon Herhangi bir konunun, olayın ya da değerin önceden belirlenen çıktılara göre ayrıştırılması ya da bir nesnenin eksik kalan sınıf özelliğine hangi değerin geleceğinin tahmin edilmesi için kullanılır [28]. Çıktılar, önceden bilindiği için, veri kümesini denetimli (supervised) olarak öğrenir [33]. Sınıflandırma kategorik, regresyon süreklilik gösteren veriler üzerinde uygulanırken; yaygın olarak kullanılan regresyon modellerinden doğrusal regresyonda hedef değişkenin değeri, lojistik regresyonda ise alabileceği değerlerden birinin gerçekleşme olasılığı belirlenmektedir [28,33]. Karar ağaçları (decision trees), yapay sinir ağları (artificial neural networks), genetik algoritmalar (genetic algorithms), k-en yakın komşu (k-nearest neighbor), destek vektör makineleri (support vector machine), Naive Bayes, diskriminant analizi ve regresyon analizi teknikleri örnek olarak verilebilir [32-34]. 2.1.2. Kümeleme Bir dizi örüntüyü, homojen ve ayrık guruplar oluşturacak şekilde ayrıştırma işlemidir [28]. Sınıflandırmadan farklı olarak, kayıtların hangi sınıfa ait oldukları önceden tanımlanmaz. Merkezi kümeleme (centroid) yöntemi, k-ortalamalar algoritması, kohonen ağları kümeleme tekniklerinden bir kaçıdır [32,33]. 2.1.3. Birliktelik kuralları Veri kümesi içindeki ilginç ilişkileri, sık örüntüleri bulmak için; eş zamanlı oluşum, olay ve durumların tespitini, birlikte olma olasılıklarını ve bunların şartlarını ortaya koyan modeldir. AIS, apriori, eclat, direct hashing and pruning, partition ve frequent pattern growth algoritmaları veri setlerindeki birliktelik analizlerinin tespiti için kullanılmaktadır [28]. Birliktelik analizi, bir veri kümesindeki kayıtlar arasındaki bağlantıları arayan denetimsiz (unsupervised) veri madenciliği şeklidir [33]. 2.2. Veri Madenciliği Aşamaları Verinin içindeki gizli örüntülerin çıkarılması ve verinin nitelikli bilgiye dönüştürülmesi amacıyla, istatistiksel tekniklerin ve yapay zeka algoritmalarının kullanılarak, ham veriden bilginin keşfedilmesi süreci Şekil 2.1’de gösterilmiştir. 8 Şekil 2.1. Bilgi keşfi sürecinde veri madenciliği [28,31,35] Şekil 2.2. Veri madenciliği sürecindeki adımların sunulduğu CRIPS-DM çevrimi [28,35] 9 Şekil 2.2’deki, CRISP-DM (Cross-Industry Standard Process for Data Mining) metodolojisi genişletilerek, bilgi keşfi sürecinin aşamaları aşağıda verilmiş olup her bir aşamanın ayrıntıları belirtilmiştir [26,27,31,36]. 1. Veriyi Anlama: Mevcut veri tabanındaki veya veri ambarındaki verinin niteliğini ve kalitesini belirlemek 2. Veri Seçme ve Birleştirme: Veri kaynaklarından, yapılacak uygulama için uygun verileri seçmek ve bir araya getirmek 3. Veri Temizleme: Gürültülü, tutarsız ve eksik verileri çıkarmak veya normalize etmek 4. Veri Dönüşümü: Veriyi, veri madenciliği tekniklerinde kullanılabilecek hale getirmek için etiketlemek veya değiştirmek 5. Verinin Görselleştirilmesi: Opsiyonel olarak, büyük boyuttaki veriler arasındaki ilişkilerin görülmesini kolaylaştırmak ve analiz için kurulan hipotezlerin doğruluk ihtimalini sınamak 6. Veri Azaltma: Veri miktarı çok fazla olduğu zaman veri madenciliği algoritmalarının çalışması ve sonuç üretmesi çok uzun sürebileceği için, sonucu nerdeyse hiç değişmeyecek şekilde veriyi azaltmak 7. Model Kurma: Veri örüntülerini yakalayabilmek için uygun akıllı metotları uygulamak 8. Model Değerlendirme: Belirlenen veriler üzerinde farklı algoritmalar, farklı kriterlerde çalıştırıldıktan sonra en doğru sonucu hangisinin verdiğini bulmak 9. Örüntü Değerlendirme ve Bilgi Sunumu: Belirli ölçütlere göre elde edilen bilgiyi temsil eden örüntüleri tanımlamak ve bilgiye dönüştürülmüş ham verinin kullanıcıya sunumunu gerçekleştirmek Büyük hacimli veri tabanlarında ya da birden fazla veri tabanı veya farklı veri kaynakları içeren sistemlerde, ilginç ve değerli olan bilgiye erişmeyi sağlayan bilgi keşif süreci oldukça zordur. Bu sebeple uygulamalarını doğru bir şekilde gerçekleştirebilmek adına; temel kavramların, kullanılan tekniklerin birbirlerinden farkının veya üstünlüğünün iyi bilinmesi veya analiz aracı seçimi, veri madenciliği sürecinin daha kısa ve verimli yönetilmesini sağlayacaktır. 10 11 3. BÜYÜK VERİ Bilişim dünyası yapısı gereği hızla değişmekte ve bu değişim de yeni yapıları gündeme getirmektedir. Günümüzde, küresel çapta dönen verinin büyüklüğünün petabyte (250 byte), exabyte (260 byte) ve zetabyte (270 byte) boyutlarına ulaşmasıyla otoriteler, bu durumu tanımlamak için Büyük Veri (Big Data) terimini kullanmaya başlamıştır [37]. Büyük veri; algılayıcılar ve araçlar tarafından oluşturulan, büyük hacimli, çeşidi bol ve hızla gelen veriyi; toplama, saklama, temizleme, görselleştirme, analiz etme ve anlamlandırma işlemlerinin gerçekleştirilmesidir [38]. Mevcut veri tabanı yönetimi araçları veya geleneksel veri işleme uygulamaları kullanılarak işlenmesi zor olan, çok geniş ve karmaşık veri setlerinden oluşması; verinin elde edilme, iyileştirilme, depolama, arama, paylaşma, transfer, analiz ve görselleştirme aşamalarında zorlukların ortaya çıkmasına sebep olmaktadır [39]. Büyük verinin güncel hayattaki yerini daha iyi kavramak için bazı istatistiksel bilgiler, aşağıda belirtilmiştir [40-42]. 1. Dünyadaki bütün verinin %90’ı son iki yılda oluşturulmuştur. 2. Dünya nüfusunun %40’ına denk gelen 2,923 milyon internet kullanıcısı bulunmaktadır. Online popülasyonun da %73,4’ü internete mobil telefonlarından erişmektedir. 3. 10,2 milyar dolar pazar hacmine sahip büyük verinin değerinin, 2017’de 53,4 milyar dolar olacağı tahmin edilmektedir. 4. Dijital dünyanın %70’i olan 900 exabyte veri kullanıcılar tarafından oluşturulmaktadır. 5. Firmalar, tüm verilerinin %80’ini saklamaktadırlar. 6. 2020 yılında verilerin üçte birinin bulutta saklanacağı öngörülmektedir. 7. Beyaz Saray, büyük veri projeleri için 200 milyon dolar yatırım yapmaktadır. 8. Veriye erişimin %10 artması Fortune 1000 şirketlerine 65,7 milyon dolar ek net gelir getirmektedir. 9. 2013’de 2.712.239.573 internet kullanıcısı, Google’da yaklaşık olarak 1,2 trilyon arama yapmıştır. 10. Günün her dakikasında 570’in üzerinde yeni web sitesi kurulmaktadır. 11. Her ay YouTube’u 1 milyar özgün kullanıcı ziyaret etmekte ve 6 milyar saatin üzerinde video izlemektedirler. 12 12. Aylık 271 milyon aktif kullanıcıya sahip olan Twitter’da günde 500 milyon tweet atılmaktadır. 13. Facebook’un 1,07 milyarı mobil olmak üzere 1,32 milyar aktif aylık kullanıcısı bulunmaktadır. 14. 200 milyon aktif aylık kullanıcısı olan Instagram’da günde 60 milyon fotoğraf paylaşılmaktadır. 15. LinkedIn, 200’ün üzerinde ülkeden 300 milyondan fazla üyeyi ve 3 milyondan fazla firmayı barındırmaktadır. Verilerin özellikle son iki yılda bu kadar ciddi boyutlara ulaşmasının ardından popülerlik kazanan büyük veri olgusunun, ilk ve en önemli uygulayıcılarından olan Google’ın, kullanıcıları tarafından sorgulanan anahtar kelimelerin hangi coğrafyalarda hangi zamanlarda ve ne sıklıkta arandığını gösteren Trends platformuna göre büyük veriye ait arama hacimleri Resim 3.1 ve Resim 3.2’de gösterilmiştir [43]. Sonuçlara göre, konuya gösterilen ilgi 2011’den sonra çok hızlı bir şekilde artmıştır. Küresel çapta çok ilgi gösteren ülke Hindistan ve Singapur olurken, Türkiye’den en fazla istek İstanbul ve Ankara şehirlerinden gerçekleştirilmiştir. Konunun Türkiye için çok yeni olduğu arama sonuçlarından da görülebilmektedir. Büyük veri; verilerin dijitalleşmesi ve farklı boyutlarda alınan verilerin toplanıp, düzenlenmesiyle insan davranışlarını anlama, tahminler yapma ve işletmelerin sahip olduğu verilerden yola çıkarak akıllı yönetim imkânı sağlamaktadır [37]. Firmalara bu süreçlerin sağlayabileceği faydalar 5 maddede özetlenebilir [39,44]: 1. Şirketler, dijital formatta daha fazla veri oluşturup, depolayarak ürün hakkında daha doğru ve ayrıntılı bilgi toplayabilir ve bu bilgileri performans artırıcı eylemlerde kullanma olanağına erişir. 2. Büyük veri, dar segmentasyondaki müşterilere özel ürün veya hizmetleri sunma imkânı verir. 3. Büyük verinin iyi analiz edilmesi derin ve karmaşık bilgiyi daha anlamlı hale getirerek, karar alma sürecinde markalara ciddi bir kolaylık sağlar. 4. Firmalar bu veriyi kullanarak, geliştireceği bir sonraki ürün veya hizmet hakkında fikir sahibi olabilir. 5. Daha önceden bilinmeyen, düşünülemeyen veya görülemeyen pek çok yeni bilginin elde edilmesine olanak sağlar. 13 Resim 3.1. Büyük veri kavramı ve dünyada kullanımı [43] 14 Resim 3.2. Büyük veri kavramı ve Türkiye’de kullanımı [43] Şekil 3.1’de uygulama süreci gösterilen büyük verinin, büyük imkanlarından yararlanmak isteyen sektörler, aşağıdaki uygulamalar sayesinde zaman ve maliyetten kazanarak, kurumsal olarak daha isabetli stratejiler belirlemektedirler [45-47]. 1. İşletme: Müşteri kişiselleştirme, müşteri kaybı sebeplerini belirleme, dağıtım ve lojistik optimizasyonu 2. Teknoloji: İşlem süresini azaltma, gerçek zamanlı analiz, kriz dönemlerinde hızlı cevap üretme, riskleri azaltmak için otomatik sistemler ile karar verme 3. Sağlık: Hastalık tespiti, seyrinin takibi ve sağlığı güçlendirmek için kişisel DNA analizi yapma 15 4. Kamu Sektörü: Verilere erişilebilirlik sağlayarak şeffaflık oluşturma, uygun ürün ve hizmetler için eylemlerin uyarlanması 5. Perakende Satış: Mağaza davranış analizi, çeşitlilik ve fiyat optimizasyonu, ürün yerleştirme tasarımı, performansı geliştirme, işçi geliri optimizasyonu 6. Kişisel Konum Verileri: Akıllı yönlendirme, coğrafi hedefli reklamcılık, acil müdahale 7. Akıllı Şehirler: Doğal kaynakların yönetilerek, sürdürülebilir ekonomik gelişmenin ve yüksek kaliteli yaşamın sağlanması Temel Matematik İstatistik Optimizasyon ... Veri Madenciliği Makine Öğrenmesi Sinyal İşleme Görselleştirme Metotları ... Sosyal Ağ Finans Biyomedikal Astronomi Devlet Enerji ... Şekil 3.1. Büyük veri uygulamaları örnekleri Belirli karakteristik özellikler dâhilinde verinin sınıflandırılması, uygun büyük veri örüntüleriyle eşleşmesinde kolaylık sağlamaktadır. Çizelge 3.1’de betimlenen anahtar kategorilerin kombinasyonu ile veriye erişimden tüketim sürecine kadarki bütün aşamalar belirlenmiş olur [48]. Çizelge 3.1. Büyük verinin sınıflandırılması [48,49] Analiz Türü Toplu, Akan, İnteraktif İşleme Metodolojisi Veri Frekansı Tahmine Dayalı, Analitik (Sosyal Ağ Analizi, Konum Tabanlı Analiz, Özellik Çıkarımı, Metin Analizi, İstatistiksel Algoritmalar, Konuşma Analizi, Uyarlama), Sorgu ve Raporlama, Diğer (3 Boyutlu Modelleme, Dönüştürme) İsteğe Bağlı, Sürekli, Gerçek Zamanlı, Zaman Serileri Veri Türü Meta Veri, Ana Veri, Geçmiş Veri, İşlemsel Veri İçerik Biçimi Yapısal Veri, Yarı-Yapısal Veri, Yapısal Olmayan Veri Veri Kaynağı Web ve Sosyal Medya, Makine Kaynaklı, İnsan Kaynaklı, Dâhili Kaynaklar, İşlem Verisi, Biyometrik Veri, Veri Sağlayıcıları İnsan, İş Süreci, Kurumsal Uygulamalar, Veri Ambarları Veri Tüketicileri Donanım Ticari Donanım, Gelişmiş Donanım 16 3.1. Büyük Veri Bileşenleri Büyük veriyi anlamak için onun oluşumundaki beş bileşeni incelemek önemlidir. Bunlar; Şekil 3.2’de görüldüğü gibi, kısaca 5V (volume, velocity, variety, verification, value) olarak adlandırılabilir [38,47,49,50]. Şekil 3.2. Büyük veri bileşenleri 1. Miktar (Volume): Veri büyüklüğü artık, terabyte ve petabytedan daha büyük hale geldiğinden, depolama ve analiz süreçleri için geleneksel yaklaşımlar yetersiz kalmaktadır. 2. Hız (Velocity): Daha hızlı üreyen veri, o veriye muhtaç olan işlem sayısının ve çeşitliliğinin de aynı hızda artması sonucunu doğurmaktadır. 3. Çeşitlilik (Variety): Üretilen verinin yüzde 80’i yapısal değildir ve her yeni teknoloji, farklı formatlarda veri üretmektedir. Telefonlardan, tabletlerden, bütünleşik devrelerden gelen çeşitli veri tipi ile uğraşılması ve birbirlerine dönüşmeleri gerekmektedir. 4. Doğrulama (Verification): Bu bilgi yoğunluğu içinde verinin akışı sırasında güvenli olması da bir diğer bileşendir. Akış sırasında, doğru katmandan, olması gerektiği güvenlik seviyesinde izlenmesi, doğru kişiler tarafından görünebilir veya gizli kalması gerekmektedir. 17 5. Değer (Value): Büyük verinin veri üretim ve işleme katmanlarından sonra kurum için bir artı değer yaratıyor olması, karar veriş süreçlerine anlık olarak etki etmesi, doğru kararı vermede hemen el altında olması gerekmektedir. 3.2. Büyük Veri Madenciliği Veri, donanım, bilgisayar ağları, bilimsel hesaplamalar ve ticari eğilimlerin gelişmesi, otomatikman veri madenciliğinin gelişme sürecini etkilemektedir [33]. Ağ oluşturma, veri saklama ve veri toplama kapasitesinin hızla yükselmesi sayesinde; bilim ve ticaret sektöründeki büyük veri madenciliği uygulamaları da süratle artmaktadır. Büyük veri teknikleri; istatistik, veri madenciliği, makine öğrenmesi, optimizasyon teknikleri, sosyal ağ analizi, sinyal işleme, örüntü tanıma ve görselleştirme yaklaşımları gibi birçok disiplini kapsamaktadır [51]. Büyük verinin analiz edilerek anlamlandırılması sürecinde; büyük hacim, karmaşıklık, veri setinin birçok boyutta genişlemesi, verinin otonom kaynaklardan toplanması ve dağıtık olarak kontrol edilmesi gibi karakteristik özelliklerinden ötürü zorluklar ortaya çıkmaktadır. Büyük veri madenciliğinde karşılaşılan sorunlar aşağıda özetlenmiştir [45,52]: 1. Veri madenciliği tekniklerinin uygulanarak analizin gerçekleştirilmesi sürecinde, klasik alt yapının aksine büyük veri; yüksek performanslı hesaplama yapabilen bilgisayar kümelerine, MapReduce veya ECL gibi birçok düğüm üzerinde paralel programlama yapabilen araçlara ve bu koordinasyonları sağlayacak yazılımlara ihtiyaç duymaktadır. 2. Global optimuma ulaşmak için sistem, bütün dağıtık kaynaklar arasında bilgi değişimi ve birleştirme mekanizmalarını sağlamak zorundadır. Veri işleme, model oluşturma ve bilgi çıkarımı aşamalarında analiz, her bir farklı birimde lokal olarak gerçekleştirilir ve birimler arasında takas edilerek, global korelasyon sağlanır. 3. Karmaşıklığı artan sırada verilen; anahtar-değer ambarı, geniş sütun ambarı, doküman veritabanı ve graf veritabanı gibi geleneksel veri modellerinin aksine, büyük veri ile başa çıkabilecek etkili ve verimli bir model yoktur. 4. Dev boyutlara ulaşan veri, fiziksel olarak farklı lokasyonlara dağıtılmış halde olduğundan analiz sürecinde bulut bilişim servislerinin veya veri madencisi gibi 18 üçüncü partilerin kullanılması gizlilik ihlallerine sebebiyet vermektedir. 5. Geleneksel tekniklerin, birçok kaynaktan akan ve dinamik olarak artan heterojen veride yetersiz kalması, uygulanan madencilik tekniklerinin özelleştirilerek sisteme adapte edilmesini, daha verimli ve hızlı çalışan bilgi çıkarımı algoritmalarının geliştirilmesini zorunlu kılmaktadır. 6. Verinin boyutu, kalitesiyle eşdeğer olmadığı için gürültüsüz, tekrarsız, çelişmeyen doğru verilerin analiziyle doğru sonuçlar elde edilmektedir. 7. Kişinin haberi olmaksızın veya kanun ve politika açıkları kullanılarak yapılan kişisel verilerin bireysel profil oluşturmada kullanılması, etik problemlere de yol açmaktadır. 3.3. Veri Bilimi Günümüzde veri, istatistik biliminin ele alabildiği kapsamın dışına taşmaya başlamıştır. Dağınık, düzensiz ve kaotik yapıdaki bu veriden anlam çıkarılarak büyük resmin görülmesini sağlayan büyük veri analizi sürecinde yeni bir branş olarak veri bilimi ortaya çıkmıştır [1]. Veri bilimi; bilgisayar programlama, matematik, istatistik, işletme ve bilimsel araştırma gibi çeşitli kaynaklardan beslenmektedir [39]. Bu bilimlerle olan benzerlik ve farklılıkları Çizelge 3.2’de verilmiştir. Veri bilimci ise; teknik uzmanlık, merak, girişimcilik, hikaye anlatma yeteneği ve problemlere farklı açıdan bakabilme yeteneğine sahip olan kişilerdir. Disiplinler arası bir yaklaşımla verinin toplanmasından, temizlenmesi, düzenlenmesi ve sonuçların elde edilmesine kadar problemin bütün yönleriyle uğraşarak soruna yeni bir bakış açısı geliştirirler [25]. Çizelge 3.2. Veri analizi yapan bilimlerin karşılaştırılması [25] Özellik İstatistik Veri Veri Madenciliği Bilimi Varsayımlara dayanmak Var Yok Yok Veri ürünleri üretmek Yok Yok Var Var/Yok Var Var/Yok Var Yapılandırılmamış ve yarı yapılandırılmış verileri Yok kullanmak Hız ve miktar anlamında büyük veri ile çalışmak Yok 19 3.4. Büyük Veri Teknik ve Teknolojileri Kuruluşlar, ortakları, müşterileri ve bilim insanları açısından büyük veriden faydalanılması; geniş çapta, çeşitlilikte ve hızla artan veriden zeki ve sezgisel ürünlerin elde edilmesi ile sağlanmaktadır. 2013 yılında analiz edilebilen veri miktarı 750 exabyte iken, 2020 yılında 13,000 exabyte olacağı tahmin edilmektedir [53]. Büyük verinin üstesinden gelirken, depolama ve hesaplama süreçleri klasik yöntemlere göre farklılık göstermektedir. Değerli bilgilerin keşfedilmesi için gereken teknik ve teknolojiler disiplinler arası metotları ve yeni yaklaşımları kapsaması gerekmektedir. Büyük veri analitiğinde kullanılan araçlar Şekil 3.3’de sınıflandırılmıştır [54]. Analitik Görselleştirme Tahminsel Analiz Veri Madenciliği Anlamsal Analiz Veri Kalitesi & Veri Yönetimi Şekil 3.3. Büyük veri analiz araçları [54] Analitik görselleştirme, verinin altında yatan detaylara erişerek hedef kitleye cevapları sunar. Veri madenciliği, gizli örüntüleri ortaya çıkarır. Tahminsel analiz, görselleştirme ve madencilik algoritmaları ve araçları sayesinde öngörülerde bulunmayı sağlar. Anlamsal analiz, yapısal olmayan verinin çözümleme, özünü elde etme ve analiz süreçlerini kapsamaktadır. Veri kalitesi ve veri yönetimi ise, kalite ve yönetim süreçlerinin tanımlandığı denetim uygulamaları ve kurumsal işlemleri içeren teknolojik araçlarla yapılır [50,55]. 20 Çizelge 3.3’de kategorileştirildiği gibi büyük veri araçları genellikle açık kaynaklı olmakla beraber, dağıtık dosya sistemleri, paralel hesaplama algoritmaları veya NoSQL (Not Only SQL) veri tabanları kullanmaktadırlar. Çizelge 3.3. Veri işleme platformları ve veri madenciliği araçları [51,56-59] Platform Lokal Bulut SQL Sütun Şeklinde NoSQL Veri Tabanı Anahtar-Değer Doküman Tabanlı Graf Tabanlı Veri İşleme Veri Ambarı Veri Birleştirme ve Transfer Sorgu Dili İstatistik & Makine Öğrenmesi İş Zekâsı Görselleştirme Sosyal Medya Hadoop, MapR, Cloudera, Hortonworks, InfoSphere, BigInsights, Asterix AWS, Google Compute Engine, Azure, Pure System, HPCC Greenplum, Aster Data, Vertica, SpliceMachine HBase, HadoopDB, Cassandra, Hypertable, BigTable, PNUTS Redis, Flare, Sclaris, MemcacheDB, Valdemort, Riak, BerkeleyDB, Tokyo Cabinet SimpleDB, MongoDB, Terrastore, CouchDB, Neo4J, InfoGrid, Infinite Graph MapReduce, Dryad, YARN, Storm, S4, Kafka, BigQuery Hive, HadoopDB, Hadapt Sqoop, Flume, Chukwa Pig Latin, HiveQL, DryadLINQ, MRQL, SCOPE, ECL Mahout, Weka, R, SAS, SPSS, Pyhton, Pig, RapidMiner, Orange, BigML, Skytree Talend, Jaspersoft, Pentaho, KNIME Google Charts, Fusion Charts, Tableau Software Radian6, Clarabridge Büyük veri olgusunun gelişimi kronolojik olarak incelendiğinde, Çizelge 3.3’de Çizelge 3.3’de Veri İşleme kısmında görüleceği gibi, süreç MapReduce ile başlamıştır. MapReduce, Google tarafından geliştirilmiş, birbirine bağlı ve birlikte çalışan bilgisayar grubunun büyük veri kümeleri üzerinde dağıtık programlamayı destekleyen bir yazılım kütüphanesidir [47]. Süreçler basitçe ifade edilecek olursa, map aşamasında analiz edilen veri içerisinden almak istenen veriler çekilir, reduce aşamasında ise bu çekilen veri üzerinde istenilen map aşamasında ana düğüm (master node) problem veriyi alıp ufak parçalara ayırarak işçi düğümlere (worker node) dağıtır. İşçi düğümler bu işleri tamamladıkça sonucunu ana düğüme geri gönderir. Reduce aşamasında ise tamamlanan işler işin mantığına göre birleştirilerek sonuç verisi elde edilir [39]. Map aşamasındaki işlemler birbirinden bağımsız olarak gerçekleşebildiği için paralel olarak çalışabilir. Bu 21 sayede büyük miktardaki veri, küme içerisindeki düğümler tarafından hızlı bir şekilde okunabilir. reduce aşamasında ise aynı anahtara sahip veriler paralel olarak işlenebilir. BigQuery, Google'ın 2012'de başlattığı bulut bilişim hizmetlerinden biridir. Verinin içeri veya dışarı aktarılması, SQL benzeri sorguların çalıştırılması ve diğer kullanıcı ve yönetim görevlerinin gerçekleştirilmesini sağlayan bir grafik web ara yüzünden oluşmaktadır. BigQuery, Google'ın çekirdek altyapılarından olan, bulut destekli paralel sorgu servisi, Dremel'i kullanmaktadır. Dremel, MapReduce'e nazaran, veri kümesi sorgu işlemlerini daha kısa zamanda gerçekleştirme ve programlamacı olmayan kişiler tarafından bile kullanılabilecek basitlikte geliştirilmiştir. Dremel büyük veri setleri için etkileşimli bir veri analizi aracı olarak tasarlanmıştır. Benzer gibi görünen MapReduce ise, büyük veri setleri üzerinde toplu işlem gerçekleştiren bir programlama çerçevesidir [60]. Hadoop, sıradan sunuculardan oluşan küme üzerinde büyük verileri işlemek amaçlı uygulamaları çalıştıran ve HDFS (Hadoop Distributed File System) olarak adlandırılan bir dağıtık dosya sistemi ile Hadoop MapReduce özelliklerini bir araya getiren, Java ile geliştirilmiş açık kaynaklı bir yazılımdır [47,61]. HDFS sunucuların disklerini bir araya gelerek büyük, tek bir sanal disk oluşturulur. HDFS, NameNode ve DataNode süreçlerinden oluşmaktadır. NameNode master süreç olarak blokların sunucular üzerindeki dağılımından, oluşturulmasından, silinmesinden, bir blokta sorun meydana geldiğinde yeniden oluşturulmasından ve her türlü dosya erişiminden sorumludur. DataNode ise işlevi blokları saklamak olan slave süreçtir. Her DataNode kendi yerel diskindeki veriden sorumludur. Ayrıca diğer DataNode’lardaki verilerin yedeklerini de barındırır [39]. Hadoop MapReduce ise HDFS üzerindeki büyük dosyaları verileri işleyebilmek amacıyla kullanılan bir yöntemdir. İstediğiniz verileri filtrelemek için kullanılan Map fonksiyonu ve bu verilerden sonuç elde etmenizi sağlayan Reduce fonksiyonlarından oluşan program yazıldıktan sonra Hadoop üzerinde çalıştırılır. Hadoop Map ve Reduce’lerden oluşan iş parçacıklarını küme üzerinde dağıtarak aynı anda işlenmesini ve bu işler sonucunda oluşan verilerin tekrar bir araya getirilmesinden sorumludur [51,62] . Düşük maliyet ile yüksek derecede ölçeklenebilirlik sağlayan Hadoop projesi geleceğin veri işleme platformu olarak adlandırılmakta ve aşağıda bir kısmı belirtilen birçok büyük firma tarafından desteklenmektedir [45,50,62]: 1. Amazon: Amazon Elastic MapReduce altyapısının sağladığı esneklik sayesinde Hadoop kullanmaya yeni başlayacaklar ya da ihtiyaçları anlık olarak değişebilecek 22 firmalar için hizmet sunmaktadır. 2. Cloudera: Açık kaynaklı olan projeyi kurumsal altyapılara uygun hale getirmeye odaklanmıştır. 3. EMC: EMC Greenplum HD ürünü ile tek bir yazılım platformu üzerinde ilişkisel veritabanı sistemini ve Hadoop’un gücünü birleştirmektedir. 4. Hortonworks: Yahoo tarafından kurulmuş, Hadoop’un açık kaynaklı gelişmesine odaklanmış, bağımsız bir firmadır. 5. Hadapt: Apache Hive projesinde olduğu gibi SQL arayüzünü kullanarak ilişkisel veritabanı ve Hadoop sistemini bulut ortamında birleştirmektedir. 6. IBM: InfoSphere BigInsights ürününde Apache Hadoop sistemini Apache Pig analiz dili ile beraber DB2 veri tabanı desteğini bir araya getiriyor. 7. Microsoft: Azure bulut sistemlerine beta olarak Hadoop’u dâhil etmiştir. 8. Oracle: büyük veri işleme konusunda kendisine en iyi alternatif olan Hadoop projesini kendi ürünleri ile çok iyi şekilde entegre ederek bunu bir avantaja dönüştürmektedir. HPCC (High Performance Computing Cluster) platformu, büyük veriden faydalanmak için, verileri sıradan hesaplama kümeleri üzerinde paralel olarak işleyerek yüksek performans sağlayan bir yazılımdır. HPCC 3 ana bileşene sahiptir [63]. 1. Thor (Veri Rafinerisi): Ham verinin temizlenmesi, entegrasyonu ve toplu iş odaklı veri işleme sağlayan büyük ölçekte paralel ETL (Extract, Transform, Load) motorudur. 2. Roxie (Veri Dağıtım Motoru): Verileri paralel olarak işleyen, çevrimiçi, yüksek performanslı yapısal sorgulama ve analiz platformu. 3. ECL (Enterprise Control Language): Düğümler arasında iş yükünü otomatik dağıtan, büyük veri sorgu işlemleri için optimize edilmiş, kullanımı basit bir programlama dildir. Hadoop ve HPCC'nin özelliklerinin karşılaştırılması [64]: 1. HPCC kümeleri Thor ve Roxie kullanılarak, Hadoop kümeleri MapReduce işleme ile çalıştırılır. 2. HPCC ECL, Hadoop Java programlama dilini kullanır. 3. Hadoop'un aksine HPCC veri modeli kullanıcı tarafından tanımlanır. 4. HPCC Community Edition ücretsizdir, Enterprise License sistemin türüne ve boyutuna göre değişir. Hadoop ücretsizdir, farklı satıcılar tarafından desteklenen türlerinden 23 bakım ücreti alınmaktadır. 5. Yapısal sorgu ve analiz gibi veri ambarı yeteneklerini HPCC'de Roxie, Hadoop'da Hive sağlar. 6. Dağıtım, HPCC'de çevresel kofigürasyon araçlarıyla sağlanırken, Hadoop da bu işlemler 3. parti uygulamalar kullanılarak gerçekleştirilir. 7. HPCC platformu dağıtık dosya sistemi dosyaları üzerinde çok anahtarlı, çok değişkenli dizinler oluşturabilirken, HBase olarak adlandırılan Hadoop için bir eklenti sistemi anahtarlı erişim ile sütun odaklı veri tabanı yeteneği sağlar. 8. HPCC yapılandırmaları, aynı işlem performansı için Hadoop kümesinden daha az düğüme gerek duyar. 9. Aynı donanıma sahip 400 düğümlü sistemde, HPCC işlemleri 6.27 dakikada, Hadoop 25.28 dakikada gerçekleştirmiştir. IBM’in büyük veri platformu, çekirdeğe entegre edilebilen esnek ve çevik bileşenlerden oluştuğu için projenin başarısını artırmak ve teslimatı hızlandırmak gibi birçok fayda sağlamaktadır [50]. Depolama, veri iletimi, analiz ve tüketim katmanlarında; InfoSphere Data Explorer, InfoSphere BigInsights, InfoSphere Streams, SPSS Modeller ve SPSS Statistics araçları kullanılır [65]. 1. InfoSphere Data Explorer: Gerçek zamanlı erişim ve farklı uygulamalardaki farklı verileri birleştirme yeteneğiyle daha fazla öngörü ve yatırım getirisi sağlar. 2. InfoSphere BigInsights: Büyük hacimli yapısal ve yapısal olmayan verinin; metin analizi, görselleştirme, performans, güvenlik ve yönetimsel özellikler ile yönetimini ve analizini yapan Apache Hadoop tabanlı sistemdir. 3. InfoSphere Streams: Kısa zaman içerisinde, büyük boyutta akan verinin sürekli analizini sağlayarak karar destek sürecini geliştiren ve olaylara gerçek zamanlı müdahale eden yazılımdır. 4. Netezza: Gelişmiş analizler ve derin anlayışlar sunmak için geliştirilmiş belirli amaçlara göre kurulabilen yüksek performanslı veri ambarı cihazıdır. Büyük veri kavramının kısa bir zaman içerisinde yoğun bir ilgi görmesinin ardından; Apache, Google, Amazon, IBM, Oracle, SAP, Apple ve Microsoft gibi büyük firmaların öncülüğünde değişken ihtiyaçlara çözüm üreten, farklı yeteneklere sahip araçlar bu pazarda yer almaya başlamıştır. Mevcut araçlar; toplu işlem araçları, akış işleme araçları ve 24 interaktif analiz araçları olarak üç sınıfta incelenebilir [39]. Büyük oranda Hadoop temelli olan açık kaynaklı veya ticari bazı platformlara ait bilgiler Çizelge 3.4’de özetlenmiştir. Çizelge 3.4. Büyük veri araçlarının karşılaştırmalı analizi [39] İsim Apache Hadoop Dryad Apache Mahout Jaspersoft BI Suite Pentaho Business Analytics Skytree Server Tableau Toplu Veri İşleme Araçları Kullanım Alanı Üstünlükleri Altyapı ve platform Yüksek ölçeklenebilirlik, güvenilirlik, tamlık Altyapı ve platform Yüksek performanslı dağıtık işleme, iyi programlanabilirlik İşletmede makine öğrenmesi İyi olgunluk algoritmaları İşletme zekâsı yazılımı Uygun maliyet, self servis İşletme analitiği platformu Bilgi keşfinde sağlamlık, ölçeklenebilirlik, esneklik Makine öğrenmesi ve gelişmiş analizler Veri görselleştirme, işletme analitiği Büyük veri çalışma alanı Büyük veri kümelerini yüksek hızda ve doğru işleme Daha hızlı, akıllı, güzel ve kullanımı kolay İşbirlikçi ve standartlara dayalı kısıtsız analitik ve self servis Karmasphere Studio and Analyst Talend Open Veri yönetimi ve uygulama Kolay kullanımlı, eclipse tabanlı Studio bütünleştirme grafik ortamı Akan Veri İşleme Araçları Storm Gerçek zamanlı hesaplama Ölçeklenebilir, hata toleranslı, sistemi kurması ve işletmesi kolay S4 Sürekli sınırsız akan veri Kanıtlanmış, dağıtık, ölçeklenebilir, işleme hataya dayanıklı platform SQLstream Sensör, M2M ve telematik SQL tabanlı, gerçek zamanlı akan s-Server uygulamalar büyük veri platformu Splunk Makine verisini toplama ve Hızlı ve kolay kullanımlı, dinamik demetleme ortamlar, laptoptan veri merkezine kadar ölçeklenebilir Apache Kafka Dağıtık yayıncı-abone Sabit faaliyet verilerinin yüksek mesajlaşma sistemi verimli akışı SAP Hana Gerçek zamanlı iş platformu Hızlı iç bellek hesaplama ve gerçek zamanlı analiz İnteraktif Analiz Araçları Google Dremel İç içe verinin analizi Birçok CPU üzerinde büyük sorguları birleştirerek hızlı cevap üretme Apache Drill Büyük ölçekli özel amaçlı Farklı sorgu dillerini, veri sorgulama formatlarını ve veri kaynaklarını destekleme 25 4. KULLANICI DAVRANIŞI ANALİZ MODELLERİ Mobil telefonların kullanımının yaygınlaşması, barındırdıkları sensörlerin ve kurulan uygulamaların artmasıyla beraber elde edilen büyük çaptaki mobil ağ operatör verisinin ve akıllı telefon duyarlı verinin analiz süreci, bilişim ve sosyal bilimler alanında önemli boyuttaki araştırmalara konu olmuştur. Bu çalışmalar; teknolojik gelişimin insan hayatına etkilerini incelemeyi, mobil telefon kullanıcılarının gerçek hayattaki davranışlarını öngörmeyi, gelişmiş mobil ağ deneyimlerini gerçekleştirmeyi ve yeni model veya inovasyon önerilerinde bulunmayı amaçlamaktadır [66]. Bu bölümde literatürde bulunan, mobil kullanıcı davranışlarının belirlenmesi için izlenmesi gereken süreçlerin modellenmesi ele alınmıştır. 4.1. Literatür Taraması Firmaya değer katan müşterilerle ilişkileri korumak ve geliştirmek böylece kâr marjını yükseltmek amaçlı, müşteri odaklı ve gerçek zamanlı pazarlama stratejisi, müşterinin bilgi vermesi karşılığında kendisine özel hizmet almasını sağlayan bir fayda ilişkisi temeline dayanmaktadır [32]. Bu bölümde, kullanıcıların ne tür verileri kullanılarak ne tür davranışlarının belirlenebileceği ve bu bilgi ışığında kullanıcıya ve firmaya nasıl tavsiyelerde bulunulabileceği hakkında yapılan akademik çalışmalar özetlenmiştir. Bu bölümde sunulan çalışmalarda literatürde bir örneği bulunmadığından karşılıklı görüşmeler sonucunda ve literatürden de faydalanılarak aşağıda alt başlıklarda çalışmalar açıklanmıştır. 4.1.1. Kullanıcı davranışlarının belirlenmesi İnternet ortamları ile dinamik etkileşimin artması, kişiselleştirilmiş ürün ve servislerin kitlelere efektif bir şekilde sunulmasını mümkün kılmaktadır. Teknoloji ile kullanıcı davranışları arasındaki ilişki; kullanıcının işleri yapma biçimi olarak tanımlanan sosyal çevre ve altyapı ile pazarlama faaliyetlerini kapsayan teknolojik çevre arasındaki etkileşimden ortaya çıkmaktadır [67]. Kullanıcılara kişiselleştirilmiş bir platform sunmak ya da kullanıcıları gruplandırarak farklı kişiselleştirme tiplerine karşı doğru strateji ile yaklaşmak, kullanıcıyı beklenen hedefe en kısa yoldan ulaştırarak, firmaların sektörde rakipleri arasından sıyrılmasını sağlamaktadır. Şekil 4.1. Tez çalışmasının literatürdeki yeri 26 27 Bu bölümde, kullanıcı faaliyetlerinin incelenerek davranış modellerinin önerildiği çalışmalara yer verilmiştir. İncelenen literatür Şekil 4.1’de özetlenmiştir. Uygulama platformları üzerindeki trafiğin analiz edilmesini kapsayan bu tez çalışması, kategorisinde öncü niteliğini taşımaktadır. Liu ve diğerleri (2006), kullanıcı davranışlarını belirlemek amacıyla, web sayfalarının meta verilerini kullanan hiyerarşik bir model önermiştir. Sistem; URL erişimi, aktivite ve oturum bilgisi olarak 3 katmandan oluşmaktadır. Modelin test edilmesi için seçilen site; 450 kullanıcının 4000'in üzerindeki URL erişim isteklerini kaydetmiştir. Siteden, bir haftalık log çıkarılmıştır. Daha sonra sitenin hyperlink yapısı ve durum değişkenlerine bağlı olarak, her kullanıcının erişim isteğini belirlemek için web log analizi gerçekleştirilmiştir. Son olarak, kullanıcıların erişim istekleri manuel olarak işaretlenip semantik ilişkili olan istekler birleştirilmiştir. Böylece istekte bulunulan URL adreslerinin aktivite birliktelik frekanslarına bağlı olarak, kullanıcılara ait davranış dizileri elde edilmiştir [2]. Kotiyalt ve diğerleri (2013), kullanıcının gelecekte muhtemelen ilgileneceği web sayfalarının tanımlandığı, kişiselleştirilmiş web servisi sağlayan kural bazlı zeki sistemler önermiştir. Kullanıcı davranışları, Eclat ve Apriori algoritmaları kullanılarak tahmin edilmiş, işletim zamanları ve kaynak kullanımları karşılaştırılmıştır. Web servisi logları üzerinde sıralı örüntü madenciliği teknikleri kullanılarak, kullanıcının ziyaret edebileceği siteler; normal navigasyon, bilgi teknolojileri ile ilgili siteler, arama motoru kullanımı, eğitim siteleri, veri indirilen siteler ve devlet kurumlarına ait siteler olarak belirlenmiştir. 294 işlem ve 5 sütunun olduğu test kümesinde Eclat daha verimli sonuçlara ulaşmıştır [3]. Benevenutoy ve diğerlerinin (2009) yapmış olduğu çalışma; daha iyi site ara yüzü tasarımı, kişisel reklamlar veya kampanyalar yapılması amacıyla kullanıcıların sosyal ağlar üzerindeki davranışlarını belirlemektedir. Analizler, 37024 kullanıcının; Orkut, MySpace, Hi5 ve LinkedIn sitelerine erişimini içeren 802574 HTTP isteği ve 58860 oturum bilgisinden oluşan, tıklama veri seti üzerinde gerçekleştirilmiştir. Veri trafiği ve oturum örüntüleri çıkarılarak, kullanıcıların ne sıklıkla sosyal ağlara bağlandığı ve ne kadar süre bağlı kaldıkları belirlenmiştir. Kullanıcıların, sosyal ağlarda yaptıkları aktiviteler istatistiksel olarak analiz edilmiştir [4]. 28 Zhao ve diğerleri (2013), kümeleme analizi ile kullanıcıların web ve yazılım kullanımı verileri üzerinden günlük davranış örüntüleri çıkararak; yeni kullanıcıların, yapmış oldukları yarım günlük aktivite kayıtlarından davranışının sınıflandırılmasını sağlayacak bir model önermiştir. Sınıflandırma işlemi; 6863756 erişim kaydı, 585496 farklı URL ve 9895 farklı yazılım verisi üzerinde gerçekleştirilmiştir. Veri; yazılım ya da web sayfası kategorisi ve davranışın oluştuğu zaman periyodu olarak iki boyutta tanımlanmıştır. Davranışlar, öğleden önce ve öğleden sonra zaman bazında çalışma, eğlence ve yaşam kategorilerine ayrılıp J48 ve Naive Bayes algoritmalarıyla sınıflandırılmıştır. 10- kat çapraz geçerleme işlemi sonucunda sistemin ortalama sınıflandırma başarısı J48 ile %76,77 olmuştur [5]. Kullanıcıların; yazılımları nasıl ve hangi fonksiyonları hangi sıklıkla kullandığını çözümlemek, elde edilen bilgilerle yazılım sürecini geliştirmek amacıyla Pachidi ve diğerleri (2014) tarafından önerilen bu model 3 aşamadan oluşmaktadır. Sınıflandırma analizi; kullanıcının kararlarını belirleyen faktörleri anlamak için gerçekleştirilir. Bu aşamada lojistik regresyon, sınıflandırma ağacı ve çok katmanlı algılayıcı modelleri kullanılmıştır. Kullanıcı profili oluşturma aşamasında; kullanıcıların işlem ve oturum bilgileri kümeleme analizi ve kohonen haritalama yöntemleri ile analiz edilmiştir. Son teknik olan tıklama bilgilerinin analizi; sıralı örüntü işleme, olasılıksal uzman sistemler ve markov zinciri metotları kullanılarak belirlenmiştir. 908 kullanıcıya ait, 44000 satırlı, 12 öznitelikli veri setinde %85,7 doğru sınıflandırma oranı elde edilmiştir [6]. Kullanıcıların; kelimeci-görselci ve parçacı-bütüncü olarak bilişsel seviyede davranışlarını sınıflandıran çalışmalar, kullanıcı grupları ile bilgisayar sistemleri arasındaki semantik boşluğun doldurulmasını amaçlamaktadır. Belk ve diğerlerinin (2013) çalışması, 106 kullanıcının Wikipedia'da gezinim ve bağlantıları tıklama kayıtları üzerinde, web kullanım madenciliği teknikleri uygulanarak, bağlantılara tıklama ilişkileri; bağlantıların mutlak mesafesi, sıralı bağlantıların ortalaması ve sıralı olmayan bağlantıların ortalaması kriterlerine bağlı olarak kümelendirmiştir [7]. Kinley ve diğerleri ise (2013), 50 kullanıcının web üzerinde arama davranışları, sesli yorumları ve demografik bilgileriyle beraber analiz edilerek kullanıcıların bilişsel niteliklerine göre aramaları; yukarıdanaşağıya, aşağıdan-yukarıya ve karışık, gezinme örüntüleri; düzenli ve düzensiz, bilgi işleme yaklaşımları; okuyarak, tarayarak ve karışık olarak sınıflandırmıştır [8]. 29 Ma ve diğerleri (2012), ham içerik kayıtlarındaki konum tabanlı verileri ve kullanıcı etkileşim kayıtlarını normalize ederek davranış örüntüleri oluşturduktan sonra, bayesian matris ayrıştırma tekniği ile kullanıcıların ortak alışkanlıklarını çıkarıp, bunları hiper davranış örüntü modeline dönüştüren bir yaklaşım sunmuştur. Mobil uygulamaların etkileşim türleri 13 kategoriye ayrılmış ve 443 kullanıcıya ait 1097189 içerik kaydı analiz edilip, kullanıcılar segmentlere ayrılarak, zaman ve mekan bilgileri doğrultusunda ortak uygulama kullanma alışkanlıkları belirlenmiştir [9]. Tseng ve Lin (2006) tarafından yapılan çalışmada, mobil kullanıcıların istekte bulundukları servislerle ilgili olarak, sıralı hareket örüntülerinin keşfedilmesini sağlayan yeni bir veri madenciliği algoritması önermiştir. Kullanıcının bir sonraki lokasyonu, sonraki istenilecek servisi ve sonraki lokasyon ve servisi birlikte tahminleyen kurallar, geliştirilmiş bir Ngram tabanlı modelle üretilmiştir. Önerilen yeni teknikler simülasyon ortamında test edilmiştir [10]. Ghose ve Han (2011), mobil telefon bazlı içerik oluşturma ile kullanma davranışı arasındaki ilişkiyi araştırmıştır. Kullanıcıların yaş, cinsiyet, telefon yaşı, konum, telefon araması, haftalık internet oturumları ve multimedya içerikleri indirme ve yükleme bilgilerini kapsayan 180000 mobil kullanıcıya ait 2,34 milyon mobil verinin işlenmesi sonucunda; istatistiksel olarak içerik kullanımının, içerik oluşturma üzerinde negatif etkisinin olduğu bulunurken, kullanıcıların coğrafik mobiliteleri arttığında, içerik oluşturmaktansa içerik kullanımlarının daha fazla arttığı gözlemlenmiştir [11]. Mayrhofer ve diğerleri (2003), mobil cihaz kullanıcılarının davranışlarından öğrenerek, içeriğin tanınmasını ve tahmin edilmesini sağlayan 4 aşamalı bir mimari önermiştir. Öznitelik çıkarımı; sensör verilerinin daha ilişkili sunulması, sınıflandırma; veri setindeki benzerliklerin ve ortak örüntülerin bulunması, etiketleme; belirlenen sınıflara basit içerik isimlerinin verilmesi, son olarak öngörü; kullanıcının önceki davranışlarından, gelecek içeriğin tahminlenmesi amacıyla yapılmıştır. Haftanın günü, WLAN ve Bluetooth bağlantıları özellikleri, çevresel gürültü ve şarja takılı olma durumu gibi 11 öznitelikli, 100000 örnekli veri seti, cihazların bir akıllı odada yerleştirilmesiyle elde edilmiştir. Bu şekilde proaktif uygulamaların geliştirilmesi; kullanıcıya zorla belirli arayüzleri öğretmek yerine, bilgi araçlarının kullanıcılara uygun bir şekilde adapte edilmesini sağlamaktadır [12]. 30 Vojnovic ve diğerleri (2008), mobil cihazlardan yapılan bilgi aramalarını; zamansal, anlamsal ve sorguların konusu açısından deneysel olarak analiz etmiştir. Analiz, bir haftalık Microsoft Live Search mobil arama IIS kayıtları kullanılarak gerçekleştirilmiştir. Kullanıcıların bir sorguyu arama süreçleri, günün belirli saatlerinde ve hafta içerisinde incelenerek bu davranışlarının büyük bir yoğunlukla başlayıp, üssel olarak azaldığı gözlemlenmiştir [13]. Normalde masaüstü ve dizüstü bilgisayar için kullanılabilir olan belge, resim, web sayfası ve harita gibi bilgi alanları, mobil cihaz kullanıcıları tarafından da hızla kullanılmaya başlanmıştır. Mobil cihazların; küçük ekran, farklı çevresel birim ve sınırlı hesaplama yetenekleri yüzünden, var olan her uygulamanın mobile aktarılması işlemi kolay olmamaktadır. Kullanıcılar küçük ekranda bir bilgi alanı tararken, mecburen sadece görmek istediği bir alanı seçmektedir. Bu işlemi; sayfayı yatay ve dikey olarak kaydırarak, herhangi bir yönde sürükleyerek veya zoom yaparak gerçekleştirmektedirler. Araştırmalar genellikle kullanıcı davranışlarını; görüntülenen web siteleri, görseller, videolar ve etkileşim kayıtları üzerinden tahmin etmektedir. Burigat ve diğerleri (2008) tarafından geliştirilen harita uygulamasıyla, kullanıcıların oturum süresince gerçekleştirdikleri bakış ve dokunuş izleri; yatay ve dikey olarak düzenli, yapısal olmayan ve ilk iki tekniğin birleştirilmesiyle 3 farklı şekilde görselleştirilmiştir [14]. 4.1.2. Tavsiye sistemleri Tavsiye sistemleri, tüketicinin beğenisini öğrenerek özel önerilerde bulunan ve tüketicinin ürün seçim sürecini verimli bir şekilde yöneten akıllı mekanizmalardır. Bu alanda en yaygın olarak kullanılan yöntemler aşağıda sıralanmıştır [34,68,69]. 1. Demografik Yöntemler: Kullanıcıların; cinsiyet, yaş eğitim, ırk ve benzeri bilgileri kullanılarak gruplandırılmasıdır. 2. İçerik Tabanlı Filtreleme: Kullanıcının aktiviteleri ile öğeler arasında kurulan ilişkiyi temel alan filtreleme sürecidir. 3. İşbirlikçi Filtreleme: Kullanıcıların ortak özellikleri ya da ürünler arasındaki benzerlikler göz önünde bulundurularak tavsiye işleminin gerçekleştirilmesidir. 4. Melez Filtreleme Sistemleri: Daha isabetli tavsiyeler için, her tekniğin avantajlarından faydalanılarak birden fazla yöntemin bir arada kullanılmasıdır. 31 Bu yöntemler kullanılarak, tavsiye sistemlerinin e-ticaret uygulamalarında yer almasının amaçları aşağıdaki gibidir [34]: 1. Ürün tavsiyesi: Kullanıcının anlık amacı göz önüne alınarak yeni ürün önerilmesi. 2. Reklam tavsiyesi: Kullanıcının ilgilenebileceği kampanyaların otomatik oluşturulması ve reklam e-postalarının ya da mesajlarının kişiselleştirilmesi. 3. Kişisel ana sayfa tavsiyesi: Kullanıcının geçmiş hareketleri göz önüne alınarak genel profiline göre karşılama sayfası oluşturulması. 4. Çapraz ürün satışı: Beraber satılan ürünlerin gösterilmesi veya toplu indirim uygulanması. Hedef kitlenin belirlenerek, isabetli pazarlama ve reklam kararları alınmasını sağlayan öneri sistemlerinin uygulanmasının getirdiği verim ve karın yanında aşağıda belirtildiği gibi bazı sorunlarla karşılaşılmaktadır [25]: 1. Ölçeklenebilirlik: Mevcut kullanıcı ve öğe sayısındaki artışa bağlı olarak sistemler hızlı sonuç üretmek zorundadır. 2. İlk çalıştırma: Kullanıcının, ürünün ya da her ikisinin birden yeni olması durumunda yeterli bilgi olmadığı için, tavsiye üretilmesi güçtür. 3. Popüler nesneler: Yüksek derecelere sahip ürünler, sistem olmaksızın da bulunacağı için önerinin önemi kalmaz. 4. Önerilerin değerlendirilmesi: Tavsiyenin hangi ölçülerle nasıl değerlendirileceği bir diğer sorundur. 5. Kullanıcı ara yüzü: Önerilerin kabulünü kolaylaştırmak için kullanıcıya basit ve anlaşılır bir şekilde sunulması gerekir. Bu bölümde, kullanıcı faaliyetlerinin incelenerek modellenmesinin sonucunda hayata geçirilen tavsiye sistemleri model ve tekniklerini içeren bilimsel çalışmalar özetlenmiştir. Park ve diğerlerinin (2012), 2001 ve 2010 yılları arasında tavsiye sistemleri konusunda hazırlamış oldukları inceleme makalesinde, literatürde bulunan 210 makale; 8 uygulama alanı ve 8 veri madenciliği tekniğine göre kategorilere ayrılmıştır. Tavsiye sistemleri, en çok; resim (7), müzik (9), TV programları (9), kitap (13), belge (18), alışveriş (42), film (53) ve diğer alanlarda (59) kullanılırken, analiz yöntemi olarak; yapay sinir ağları (7), karar ağaçları (8), regresyon (14), link analizi (22), birliktelik kuralları (24), kümeleme 32 (37), k-en yakın komşu (55) ve diğer sezgisel metotlar (72) tercih edilmiştir. Yayın yılları dikkate alındığında; 2001'de 3, 2002'de 5, 2003'de 9, 2004'de 19, 2005'de 15, 2006'da 11, 2007'de 25, 2008'de 32, 2009'da 45 son olarak 2010'da 46 makale, toplamda 46 farklı dergide basılmıştır [19]. Dong ve diğerleri (2006), web log dosyalarındaki gezinim bilgilerini, günlük aralıklara bölüp, kullanıcıları kümelemiştir. Tavsiye sisteminin daha efektif çalışması için birliktelik kuralı teknikleri uygulanmıştır. Ayrıca yeni bir tavsiye performans ölçütü önerilmiştir. 457 URL, 178747 aktif oturum kaydı ve 8776 kullanıcının verileri işlendikten sonra, sonuçlar farklı güven ve küme benzerliği değerleri kullanılarak karşılaştırılmıştır. Yeni performans oranının, kümeleme işleminde iyileştirme sağladığı görülmüştür [15]. Zhang ve Jiao (2007), işletmeden tüketiciye e-ticaret uygulamalarında kişiselleştirme için, ilişkili sınıflandırma tabanlı tavsiye sistemi önermiştir. Müşterilerin heterojen ihtiyaçlarını doğru bir şekilde tahmin edebilmek adına, kurulan model bilgi çıkarımı teknikleri uygulanarak desteklenmiş ve sistemin geçerliliği üç katmanlı internet programlama ortamında hazırlanan mobil telefon satış e-ticaret uygulaması ile doğrulanmıştır. İşlem veri tabanındaki istekler, önceden tanımlanmış ifadelere dönüştürülerek ön işleme ve anlamsal analize tabi tutulur. Düzenlenmiş kayıtlar apriori algoritması uygulanarak sınıflandırılır ve CBA-CB tekniği ile gereksiz bilgiler budanır. Sistemin performansı, sınıf etiketi belli olan test verileri üzerinde doğrulandıktan sonra elde edilen sınıflandırma kuralları sisteme kaydedilir [16]. Kim ve Cho (2009), GPS sensörlerinden ve cep telefonlarından elde edilen içerik verisiyle, kullanıcının gelecekteki davranışlarını tahmin etmiştir. Davranışlar (uyku, hareket, çalışma, yemek yeme, toplantı, ödev yapma, dinlenme...), haftanın günleri, saat ve lokasyon (ev, sınıf, kütüphane, restoran, bilim merkezi...) verileri alınarak kullanıcıların gelecekte yapacağı davranışlar, bu davranışların günü saati ve konumu dinamik bayes ağları yöntemi ile tahmin edilmiştir. Sistem güncel verilere göre, kullanıcıya 30 dakikada bir yeni öneride bulunmaktadır. Çalışmada 5 lisans öğrencisinin 4 haftalık verisi kullanılarak %80-%91 arasında doğru tahmin oranları elde edilmiştir [17]. Ying ve diğerleri (2013), tavsiye işlemi için, mobil kullanıcılara ait gezinim bilgilerine ait hem coğrafik hem de semantik özelliklerin baz alındığı yeni bir yaklaşım önermiştir. Sistem tavsiye modelini geliştirmek için, temelde kümeleme tabanlı konum kestirim 33 sistemine dayanmaktadır. Mobil kullanıcının sonraki konumu, benzer kullanıcıların sık davranışları ağaç yapısı şeklinde semantik olarak skorlanıp, benzer kümede tanımlanarak tahmin edilir. Her konum için, yüksek yararlılıktaki öğe seti belirlenerek, kullanıcının ziyaret edebileceği konumla ilgili öğeler tavsiye edilir [18]. İncelenen akademik çalışmalar sonucunda, gerek web gerekse mobil kullanıcıların davranışlarının belirlenmesinde somut bir veri toplama süreci ve analiz yöntemi bulunmadığı görülmüştür. 4.2. Mobil İletişim Sektörü İletişim teknolojilerinin artan gelişim ve değişim sürecinin bir parçası olarak, haberleşme sektörü de mobil iletişim ihtiyacı sebebiyle son yıllarda hızlı bir ivmeyle ilerlemektedir. 2013 yılına ait dünya çapındaki verilerin baz alındığı Çizelge 4.1’de belirtildiği gibi mobil cihaz, abone, alt yapı ve gelir boyutunun 10 yıldan az bir sürede yaklaşık olarak 1 katından fazla artacağı tahmin edilmektedir. Çizelge 4.1. Küresel mobil iletişim bilgileri [53] Kriterler Tekil Abone Bağlı Mobil Cihaz Mobil Genişbant Gelişimi Toplam Gelir 2013 3,4 milyar 6,9 milyar 2,2 milyar bağlantı 2 trilyon dolar 2020 4,3 milyar 10,8 milyar 5,9 milyar bağlantı 2,9 trilyon dolar 1980’lerde yalnızca analog ses iletişiminin mümkün olduğu 1. Nesil (1G) araç telefonlarından, 1990’lı yıllarda GSM, TDMA ve CDMA gibi veri iletimlerinin de yapılabildiği 2. Nesil (2G) sistemlerden sonra mobil haberleşme sistemlerinin 2000’li yıllardaki durağı 3. Nesil (3G) teknolojileri ile IP temelli iletişim şebekelerinin hayata geçirilmesi olmuştur [70]. Türkiye’de mobil iletişim hizmetleri ise, 1986’da analog NMT sistemi ile başlayarak, 1990’den sonra GSM ve 2000 yılında WAP, GPRS ve UMTS ile gelişimine hızla devam etmiştir [70]. Çizelge 4.2’de görüldüğü gibi TÜİK ve BTK’nın 2012-2013 verilerine göre, Türkiye nüfusunun çok büyük çoğunluğu, telefon ve tablet gibi mobil cihaz kullanmakta ve yoğun bir trafiğe sebep olmaktadırlar. 34 Çizelge 4.2. 2012-2013 yılı Türkiye mobil bilgileri [71,72] Kriterler Değişim 2012 2013 Toplam Nüfus 75 627 384 76 667 864 1,37 Mobil Abone Sayısı 64 313 834 65 847 193 2,38 1 674 533 1 701 014 1,58 18 045 808 22 472 129 24,53 169,8 185,9 9,48 174 882 174 882 1,57 69 073 141 637 105,05 Mobil Hizmetlerden Elde Edilen Gelir (milyar TL) 16,56 18,70 12,9 Mobil Abone Başına Aylık Gelir (ARPU, TL/ay) 21,16 21,93 3,64 Mobil Bilgisayardan İnternet Abone Sayısı Mobil Cepten İnternet Abone Sayısı Toplam Mobil Ses Trafiği (milyar dakika) Toplam SMS Trafiği (milyon adet) Toplam Mobil Genişbant İnternet Data Trafiği (terabayt) (%) Mobil bant genişliğinin iyileştirilmesine sebep olan 3G ve 4G teknolojileri ile birlikte; içerik ve servis hizmetleri de hızla gelişerek mobil cihaz donanım özelliklerini, kişisel bilgisayar seviyesine getirmiştir. Kullanıcı alışkanlıklarının da daha katılımcı modellere doğru kaymasını sağlayan bu gelişmeler, mobil ekosistemi oluşturan yatırımcılar ve yazılım geliştiriciler tarafından akıllı telefonlar veya tabletler için içerik ve uygulama servisinin yapılmasını sağlayan mobil uygulama mağaza modeliyle sonuçlanmıştır [73]. 2014 yılında; Apple AppStore, Google Play ve Windows Phone gibi mağazalar hakkındaki genel istatistiklere Çizelge 4.3'de yer verilmiştir. AppStore ve Google Play'deki uygulamalar içerisinde, kullanıcıların ilgilendikleri kategoriler ise yüzdelik oranlarıyla Şekil 4.2'de gösterilmiştir Şekil 4.2. iOS ve Android cihazlarda, uygulamalarda zaman harcama yüzdeleri [42] 35 Çizelge 4.3. Mobil uygulama marketi istatistikleri [74] Ücret Ödenerek İndirilen Uygulama Sayısı 9,19 milyar Ücretsiz İndirilen Uygulama Sayısı 92,88 milyar Dünya Genelindeki Uygulama Geliri 26,68 milyar dolar Mobil cihaz kullanımının ve sektörel hizmetlerin son yıllarda büyük bir hızla artması, uygulama geliştiriciler ve altyapı sağlayıcıların yanında mobil pazarlama ve reklamcılık çalışanları içinde önemli bir gelir kapısı haline gelmiştir. Mobil pazarlama; uygulama tabanlı, arama sonuçları reklamlarına göre, SMS ile, coğrafi konum bazlı, QR kodlar vasıtasıyla ve mobil resim reklamları şeklinde yapılabilmektedir [76]. Bunların yanında, cihaz kullanıcısının karakterini ve alışkanlıklarını tespit ederek, kişiselleştirilmiş uygulama ve ürün geliştirme, önerilerde bulunma ve ilgilenebileceği reklamları sunma faaliyetleri de hızla önem kazanmaktadır. 4.3. Mevcut Modeller Kişiselleştirilmiş uygulamaların devreye konulması için yapılan kullanıcı davranışlarının belirlemesi sürecinde, mevcut stabil bir veri toplama ve analiz modeli olmadığı görülmüştür. Literatürde var olan mobil veri toplama, içeriği tespit etme ve tavsiyede bulunma modelleri incelenerek, tez kapsamında kullanılan model oluşturulmuştur. Gerçek mobil servis kullanımı hakkında güvenilir ve şeffaf bilgi; endüstri, pazarlama, iş ve ürün geliştirme, ağ planlama ve yönetimi sektörlerindeki hissedarlar ve akademisyenler için önemli değerler taşımaktadır. Bu yüzden, verinin toplanma sürecinin iyi bir şekilde anlaşılması ve yönetilmesi gerekmektedir. Kivi, mobil kullanıcı davranışları ve servislerin kullanımı hakkında nitelikli bilgi sahibi olunabilmesi için, veri toplama metotlarını aşağıdaki şekilde 5 kategoriye ayırmıştır (Şekil 4.3) [20]. 1. Anketler ve tüketici panelleri: Anketler ve panellerden elde edilebilecek bilgiler; her ne kadar katılımcının dürüstlüğüne, hafızasına, motivasyonuna ve cevap verme yeteneğine bağlı olarak değişse de; bu sayede örneklendikleri grubun tutum, değer, inanç ve alışkanlıkları gibi geniş çapta bilgi elde edilebilir. 2. Son kullanıcı cihaz izleme: Mobil cihaz izleme yazılımları sayesinde bütün cihaz özellikleri ve uygulamaların kullanım sıklığı, süresi ve hacmi ölçülebilir. Sesli arama, 36 mesajlaşma gibi iletişim verileri; GSM, WCDMA ve WLAN benzeri farklı radyo frekanslarındaki trafik kayıtları; Bluetooth, WLAN gibi muhtemel ad-hoc bağlantıları; kamera, multimedya yürütücüsü ve oyunlar gibi çevrimdışı özellikler; FM radyo, DVB-H tabanlı televizyon benzeri multimedya yayınları; son olarak GSM Cell ID kodu, WLAN access point adı ve GPS koordinatları ile konum verileri elde edilmektedir. 3. TCP/IP trafiği ölçümleri: GSM/UMTS ağları üzerinden, mobil terminallerden ağlara bağlanma sürecindeki trafik; WLAN bağlantısı ile de access point ve router iletişim paketleri izlenebilir. Ayrıca TCP/IP iletişiminde HTTP protokol başlığından, kullanılan internet tarayıcısı, işletim sistemi ve mobil telefon modeli bilgileri elde edilebilirken; zaman bilgisi, transfer paketinin boyutu, iletişim protokolü ve servisi, trafiğin karakterize edilmesini sağlamaktadır. 4. Kullanım muhasebe sistemleri ve kayıtları: Veri iletişimi verilerine ek olarak IMSI abone kodu ve IMEI numarası, ödeme ve fatura bilgilerini içeren CDRs kayıtlarından elde edilir. 5. Sunucu tarafı ölçümleri: Web portalı, özel web/wap sitesi/sunucusu, arama motorları ve proxy gibi çeşitli sunuculardan elde edilen log dosyaları, kullanım ve davranış örüntülerinin çıkarılmasında rol oynamaktadır. Mobil cihaz örüntülerinin ve davranışlarının tespit edilebilmesi için mobil kullanıcıların durum ve içerik bilgilerinin elde edilmesi gerekmektedir. Cristoph ve diğerleri tarafından (2010) yapılan çalışmada, mobil içeriğin otomatik olarak belirlenmesini sağlayan, 3 katmanlı entegre bir yaklaşım önerilmiştir (Şekil 4.4) [21]. Veri veya sinyal kaynağı katmanı; saat, ışık sensörü, kamera, radyo sinyalleri, mikrofon, ivmeölçer, pusula ve yakın alan iletişimi ara yüzünden oluşur. Bilgi katmanı; sinyal katmanında toplanan veri veya sinyal şeklindeki bilgiyi dönüştürür. Bilginin, içerik tespit servisi tarafından işlenebilmesi için öz bilgiye dönüştürülmesi gerekmektedir. Bu dönüşüm, örüntü deposunda tanımlı uygun öz bilgi etiketleri ile eşleştiren ek bilgi işlem hizmetleri tarafından yapılır. Bu sayede; kullanıcının birçok kaynaktan gelen konum, aktivite gibi bilgisi birleştirilerek davranışları hakkında bilgi edinildikten sonra mobil uygulamalar veya temel aygıt yapılandırılması için yorumlanabilir [21]. 37 Şekil 4.3. Mobil veri toplama metotları [20] W.P. Lee ve K.H. Lee (2014), akıllı telefon kullanıcılarının en kullanışlı ve talep gören servislere zamanında erişmelerini sağlamak için, kullanıcının niyetini tahmin ederek uygun servisleri aktifleştiren bağlam bağımsız bir tavsiye mekanizması geliştirmiştir [22]. Tahminleme için akıllı telefon kullanıcılarının davranış örüntülerini çıkaran ve kullanıcının isteyebileceği servisleri öneren, kural algoritması tabanlı olay-durum-eylem modeli önerilmiştir (Şekil 4.5). Kural karmaşıklığını azaltmak için bulanık sınıflandırma kullanılmıştır. Sistem girdileri; arama geçmişi, iş programı gibi kullanıcıların kişisel bilgileri; coğrafi konum, yatay-düşey hareket gibi akıllı telefonundan alınan sensör bilgileri; gelen aramalar, şarj durumu gibi pasif işlem verileri; servislerin kullanıcı ara yüzüyle iletişime geçilen aktif işlem verileri olmak üzere 4 tanedir. Sistem çekirdeği, kullanıcıların sıralı örüntülerinin analiz edilip kural setlerinin oluşturulduğu; kural başlatma ve olay belirlendiğinde içeriği durum kurallarıyla karşılaştırıp muhtemel eylem tavsiyelerinin yapıldığı kural çıkarımı olmak üzere iki modülden oluşmaktadır. Öngörülebilir servisler; telefon görüşmesi yapma, kısa mesaj veya mail alma veya 38 gönderme, web üzerinde arama yapma, fotoğraf çekme, uygulama başlatma ve medya oynatma gibi eylemleri içermektedir [22]. Şekil 4.4. Kullanıcıların durum ve içerik bilgilerinin elde edilmesi süreci [21] Şekil 4.5. Kural algoritması tabanlı mobil olay-durum-eylem modeli [22] 39 Çizelge 4.4. İncelenen mobil kullanıcı modellerinin karşılaştırılması Kullanılan Veri Türü Kaynak Modelin Amacı Anketler ve tüketici panelleri, Son kullanıcı cihaz Veri Toplama [20] [21] [22] izleme, TCP/IP trafiği ölçümleri, Kullanım muhasebe sistemleri ve kayıtları, Sunucu tarafı ölçümleri Saat, ışık sensörü, kamera, radyo sinyalleri, İçerik Tespiti mikrofon, ivmeölçer, pusula ve yakın alan iletişimi Kişisel bilgiler, Sensör bilgileri, Pasif işlem verileri, Tavsiye Sistemi Aktif işlem verileri Literatür değerlendirmesinin sonucunda; kişiselleştirilmiş uygulamaların ve tavsiye sistemlerinin devreye konulması için yapılan kullanıcı davranışı belirleme sürecinde, mevcut stabil bir veri toplama ve analiz modeli olmadığı görülmüştür (Çizelge 4.4). Bu sebeple, bu çalışma kapsamında kullanılan veriler, çeşitli veri madenciliği yöntemleri ve bakış açıları ile birleştirilip yorumlanarak analiz edilmiş, belirli veri türlerini ve tekniği kapsayan bir model oluşturularak veri seti üzerinde uygulaması gerçekleştirilerek, cep telefonu kullanıcılarının, mobil uygulama platformları üzerindeki davranış alışkanlıkları belirlenmiştir. 4.4. Önerilen Model İncelenen modeller ve eldeki veriler ışığında, kullanıcıların erişim sağladıkları bir uygulamaya ait; ücretli ve ücretsiz indirme veya sadece istekte bulunma, ödeme, içerik türü, bağlantı kanalı, zaman, telefon modeli ve operatör bilgisi kullanılarak Şekil 4.6’daki mobil kullanıcı davranış tespiti modeli önerilmiştir. Bu model sonucunda, tüm kullanıcılara ait verilerden, kural tabanlı ortak örüntüler elde edilmiştir. 40 MOBİL KULLANICI MOBİL PLATFORM İşletme Verilerinin Analizi TELEFON UYGULAMA İNDİRME ÖDEME Kullanıcı Verilerinin Analizi Verilerin Tanımlanması Veri Kalitesinin Doğrulanması Analizi Yapılacak Verilerin Seçilmesi Verilerin Biçimlendirilmesi Verilerin Temizlenmesi Verinin Karar Ağacıyla Sınıflandırılması Doğruluğunun Test Edilmesi Senaryolar Kapsamında Kuralların Oluşturulması Sonuçta Oluşan Kuralların Değere Dönüşmesi Şekil 4.6. Tez kapsamında önerilen mobil kullanıcı davranış tespiti modeli 41 5. VERİ ANALİZ UYGULAMASI Bu bölümde, mobil uygulama platformuna yapılmış bir isteğe ait verilerin belirli şartları sağlaması sonucunda, o uygulamanın indirilme veya satın alınma işleminin gerçekleştirilme ihtimalinin belirlenmesi süreci, veri madenciliği aşamaları kapsamında adım adım incelenmiş ve yapılan analiz çalışmaları açıklanmıştır 5.1. Veriyi Anlama İlk etapta telekomünikasyon firmasının, tabloları arasındaki muhtemel ilişkilerin belirlenerek ER diyagramları modellenmiş, verilerin tür ve kalite analizinin yapılabilmesi açısından veri tabanına keşif sorguları yapılmış, tutarsızlıklar ve uyumsuzluklar tespit edilmiştir. Şekil 5.1. Kullanıcının platformlar üzerindeki hareketleri Şekil 5.1’de görüldüğü gibi; bir kullanıcı, firmanın multimedya içerik sunduğu platformlardan birine erişim sağladığında kaydı ziyaret tablosuna, bir içerik talebinde bulunduğunda istek tablosuna, satın alma işlemi gerçekleştiğinde indirme tablosuna eğer uygulama ücretliyse ödeme tablosuna kaydedilir. Bu tablolardaki kayıtlar, yıl bazında bölümlere ayrılmıştır. Ayrıca tablolarda ortak olarak, kullanıcının platforma eriştiği kanal 42 verileri kanal, erişilen mobil telefonun niteliğine ait veriler telefon, uygulama içeriklerinin türleri ve ayrıntılı verileri uygulama kategorisi tablolarına kaynaktır. 5.2. Veri Seçme ve Birleştirme Veri keşfi süreci sonunda, milyarlarca verinin bulunduğu tablolarda aslında birçok özniteliğin ve verinin tekrar ettiği, ilişkili olan tablolarda tutarsızlıkların olduğu belirlenmiştir. Veri madenciliği algoritmalarının uygulanması için Şekil 5.2’deki tablolardaki 2013 yılına ait veriler seçilerek birleştirilmiş ayrıca ek olarak yeni alanlar oluşturulmuştur. Tek tek kullanıcıların yaptığı isteklerin niteliklerinden oluşturulan veri seti, genel davranışların belirlenmesini sağlayacak kuralların çıkarılması amacıyla oluşturulmuştur. Şekil 5.2. Oluşturulan veri setindeki özniteliklerin kaynak alındığı tablolar 43 5.3. Veri Temizleme Oluşturulan veri kümesindeki; eksik, tekrar eden ve tutarsız veriler silinerek, analiz sürecinin daha efektif geçirilmesi hedeflenmiştir. Bu süreç için, istek ve indirme tabloları birleştirilip, referans verilen tablolardan asıl verilere ulaşılarak, boyutu 1110000 satır olan rastgele seçilmiş bir örneklem uzayı elde edilmiştir. Veri madenciliği teknikleri, bu yeni tablo üzerinde uygulanmıştır. 5.4. Veri Dönüşümü Veri setine ait kategorisel veriler etiketlendikten sonra analize tabi tutulmuştur. 5.5. Verinin Görselleştirilmesi Bu aşamada, mantıksal analiz sürecine fikir vermesi açısından verilerin ilişkisi şematik olarak, ücretsiz versiyonunda bir milyon verinin işlenmesine izin veren, Tableau büyük veri görselleştirme aracı ile incelenmiştir. Örüntülerin görülebilir olması, trendlerin belirlenmesi ve kavramların keşfedilmesini sağlayacaktır. Şekil 5.3. Uygulama kategorilerinin veri setindeki dağılımı 44 Şekil 5.4. Ağlara erişen kullanıcıların yıllık istek dağılımı Model kurma aşamasında, Şekil 5.3 ve Şekil 5.4’deki gibi kullanıcıların uygulama istekleri ve ödeme bilgilerinden elde edilen görsellerden yararlanılmıştır. Uygulama kategorileri, operatör bilgileri, telefon marka ve modeli gibi verilerin aralarındaki ilişki ve zamansal dağılımları gözlemlenmiştir. 5.6. Model Kurma Verilerin görselleştirilmesi sonucunda net olarak görülebilen, muhtemelen ilişkili öznitelikler; belirli senaryolara uygun şekilde bir araya getirilerek, karar ağacı tekniğinin uygulanmasıyla kullanıcılara ait davranış kuralları elde edilmiştir. Senaryolar; kullanıcıların yapmış oldukları isteklerin, hangi şartlarda ve yüzde kaç olasılıkla indirme hareketine dönüşeceğinin belirlenmesi amacıyla kurulmuştur. 45 5.6.1. Karar ağaçları Karar ağaçları; verilerin alt kümelere bölünüp, her seviyedeki en iyi değişken baz alınarak kuralların oluşturulduğu tümevarımsal bir tekniktir. Maliyetinin az, veri tabanı sistemleri ile entegrasyonunun, anlaşılmasının ve yorumlanmasının kolay olması nedeniyle sınıflandırma ve tahminleme modelleri içerisindeki en popüler tekniktir [28,32]. Her bir düğüm ya alt dalların bağlı olduğu bir gövde düğümüdür ya da hedef özelliğin sınıfını gösteren bir yaprak düğümüdür. Bir karar ağacı, kök düğümden yaprak düğüme ulaşıncaya kadar ilerlenerek verileri sınıflamayı sağlayan iç içe geçmiş eğer/ise (if/then) kuralları dizisidir [35]. Birbirlerinden kök, düğüm, dallanma ve budama kriteri seçimleri açısından farklılaşan bazı karar ağacı algoritmaları aşağıda belirtilmiş ve yapılan karşılaştırmalar sonucunda, bu çalışmadaki analiz sürecinde CHAID algoritması tercih edilmiştir [28,32,35]. 1. CART/C&RT (Classification and Regression Trees) : Bütün aşamalarda her bir grubu kendinden daha homojen olacak şekilde alt gruplara ayırmayı hedefleyen ve ikili olarak büyüyen bir algoritmadır. Öznitelik seçilirken; bağımlı değişkenler için gini ve twoing indeks, sürekli değişkenler için ise en küçük kare sapması hesaplamalarını kullanır. 2. ID3 (Iterative Dichotomiser 3) : Değişkenler içinden sınıflandırmada en ayırt edici olanı önce derinlik ilkesine göre bulurken, belirsizliği ve beklenmeyen durumun ortaya çıkma olasılığını gösteren entropiden yararlanır. 3. C4.5: ID3 algoritmasının eksik yönlerini gidermek amacıyla önerilmiş bu karar ağacı, normalizasyon işlemi yaparak büyük veri setleri üzerinde verimli çalışmakta, kayıp verileri diğer veriler yardımıyla tahminleyerek, daha hassas ve anlamlı kurallar oluşturmaktadır. 4. CHAID (Chi-Squared Automatic Interaction Detector): En uygun öznitelikleri seçmek amacıyla chi-square testini kullanmaktadır. İkili olmadığı için daha geniş ağaç yapılandırma eğilimindedir. Popülasyonu farklı segmentlere yinelemeli olarak bölen bir tekniktir. Hedef değişkeni dikkate alarak istatistiksel olarak benzer değişkenleri birleştirir ve farklı olanla işlemi sürdürür. 5. SLIQ (Supervised Learning In Quest): Her değişken için ayrı bir liste kullanarak, en iyi dallara ayırma kriterine sahip olabilmek amacıyla verileri sıraya dizme işlemini sadece bir kez yapan, önce genişlik ilkesiyle çalışan düşük maliyetli bir modeldir. 46 5.6.2. Alt modeller Artan rekabet ortamında alınan kararların riski de büyüdüğü için bu sürecin, yöneticilerin sezgilerinden çok, bilimsel yöntemlerle desteklenmesi ile doğru ve hızlı karar verebilme yetkinliğine sahip olması gerekmektedir. Organizasyonların veri ambarlarındaki daha önemli bilgilere yoğunlaşmasına yardımcı olan veri madenciliği teknikleriyle, firmalar stratejik kararlar alabilmektedirler [54]. Bu çalışmada kullanıcı profillerinin oluşturulmasında, kolay anlaşılır ve kolay yorumlanabilir olması ve kural çıkarımına izin vermesi nedeniyle, veri madenciliği modellerinden karar ağaçları tekniği; sürekli ve kategorik değişken tipleriyle çalışabilmesi, ki-kare metriğiyle, ilişki düzeyine göre farklılık rastlanan grupları ayrı ayrı sınıflayabilmesi ve ağaç yapraklarının verideki farklı yapı sayısı kadar dallanması sebebiyle de CHAID algoritması tercih edilmiştir [23]. Ayrıca, cep telefonu kullanıcılarının mobil uygulama platformlarına ziyaretleri, uygulama indirme ve ödeme yapma kayıtlarının tutulduğu tablolar birleştirilmiş ayrıca veriler dönüştürülerek yeni alanlar oluşturulmuştur. İşlemlerin gerçekleştiği ay, gün, saat, telefon markası, telefon modeli, operatör, uygulama fiyatı, iletişim protokolü, erişim kanalı ve erişim servisi bilgileri arasında çeşitli kombinasyonlar oluşturularak senaryolar üretilmiştir. Senaryolar, tablolardaki veriler arasında benzerlik, uyumsuzluk ve birliktelik olup olmadığını kontrol etme amacıyla kurulmuş, doğruluğu karar ağacı tekniği ile sınanmıştır. Karar ağacından kuralların elde edilmesi, basitçe EĞER-İSE mantığı kullanılarak gerçekleştirilmiş ve sözelleştirilmiştir. Kuralların anlaşılmasını ve yorumlamasını kolaylaştıran ağaç yapısının bir başka avantajı, kuralın belirlenmesi için illa ki yaprağa ulaşmayı şart koşmamasıdır. Ara bir dallanma da anlamlı sonuç üreten bir kural oluşturmaktadır. Tez kapsamında 7 senaryo için 7 ağaç yapısı oluşturulmuş, her senaryoda Şekil 5.5’deki gibi oluşan pek çok kuraldan örnek bir tane seçilerek anlamsal hale dönüştürülmüştür. Ayrıca her senaryonun başarısı, 10 katlamalı (10 fold) çapraz doğrulama tekniğiyle sınanarak başarı oranları tablolaştırılmıştır. 47 Model başarımı değerlendirirken, Çizelge 5.1’de belirtilen karışıklık matrisindeki (confusion matrix) değerlerden yararlanılarak elde edilen; doğruluk ya da hata oranı, kesinlik, duyarlılık ve f-ölçütü kullanılmaktadır [77]. Doğru sınıfa atanan örnek sayısı ve yanlış sınıfa atılan örnek sayısı nicelikleriyle alakalı olarak modele ait doğruluk oranı bulunmuş ve bu oranlar dikkate alınarak değerlendirmeler yapılmıştır. Bu değer, Eş. 5.1’deki gibi oransal olarak ifade edilmiştir. TP; olumlu sonucu olan ve olumlu öngörülmüş örnek sayısını, FN; olumlu sonucu olan ve olumsuz öngörülmüş örnek sayısını, FP; olumsuz sonucu olan ve olumlu öngörülmüş örnek sayısını ve FP; olumsuz sonucu olan ve olumsuz öngörülmüş örnek sayısını ifade etmektedir. Çizelge 5.1. Karışıklık matrisi [77] Doğru Sınıf Öngörülen Sınıf Sınıf=1 Sınıf=0 Sınıf=1 True Pozitif (TP) False Negatif (FN) Sınıf=0 False Pozitif (FP) True Negatif (TN) Doğruluk = TP + TN TP + FP + TN + FN (5.1) Oluşturulan kurallarda kullanılan uygulamalar kısaca UY, uygulamalara ait kategori bilgileri KA, ve operatör bilgisi ise OP ön eki ile belirtilmiştir. Şekil 5.5. Karar ağacından kuralların elde edilmesini sağlayan örnek dalların bir kısmı 48 49 1. Alt model Kullanıcıların ilgilendikleri uygulamaların kategorileri ile indirme işleminin gerçekleştiği ay, gün ve saat arasında bir ilişki modeli oluşturulmuştur. Aşağıdaki örnek kuraldan da görülebileceği gibi, elde edilen sonuçlar, belirli bir veya bir kaç kategoriye yapılan isteklerin ayın belirli günlerinde ve günün belirli saatlerinde yoğunlaştığını veya azaldığını göstermektedir. Çizelge 5.2’de görüldüğü üzere modelin genel başarısı %81,7 olarak hesaplanmıştır. Başarılı indirmelere ait doğruluk oranı %93,4 iken başarısız indirmelerin tahmin edilmesi oranı %54,5 olarak belirlenmiştir. Buna, tüm kullanıcılar için bu ilişkinin varlığının kontrol edilmesinin olduğu, genel örüntüye uymayan kullanıcıların bu duruma sebebiyet verdiği öngörülmektedir. Çizelge 5.2. 1. Alt modele ait karışıklık matrisi ve doğruluk oranları Gözlemlenen Başarısız İndirme Başarılı İndirme Genel Ortalama Başarısız İndirme 182315 50994 % 21,0 Tahmin Edilen Başarılı İndirme 152135 724556 % 79,0 Doğruluk Oranı % 54,5 % 93,4 % 81,7 Örnek Kural EĞER (Kategori = KA1) İSE İndirme_Olasılığı = %93,2 { EĞER (Saat <= 5) İSE İndirme_Olasılığı = %96,3 EĞER (Saat > 5 || Saat <= 20) İSE İndirme_Olasılığı = %92,3 EĞER (Saat > 20 || Saat <= 21) İSE İndirme_Olasılığı = %93,1 { EĞER (Gün = 1 || 7 || 10 || 12 || 15) İSE İndirme_Olasılığı = %93,1 EĞER (Gün = 3 || 5 || 8 || 9 || 16) İSE İndirme_Olasılığı = %91,6 EĞER (Gün = 2 || 4 || 6 || 11 || 13 || 14) İSE İndirme_Olasılığı = %94,4 } EĞER (Saat <= 21) İSE İndirme_Olasılığı = %96,4 } 50 2. Alt model Kullanıcıların kullandıkları telefon marka ve telefon modeli ile ilgilendikleri uygulamaların kategorileri arasında bir indirme ilişkisinin olup olmadığı kontrol edilmiştir. Çizelge 5.3’deki karışıklık matrisine göre, modelin genel başarısı %83,1’dir. Örnek kurallardan elde edilen sonuçlara göre, uygulama indirme olasılığı direkt belirli marka telefonlara sahip olan kullanıcılar için %90’ın üzerine çıkarken farklı marka ve modeldeki telefonlar içinse %0’a kadar düşebilmektedir. Çizelge 5.3. 2. Alt modele ait karışıklık matrisi ve doğruluk oranları Gözlemlenen Başarısız İndirme Başarılı İndirme Genel Ortalama Başarısız İndirme 184172 37587 % 20,0 Tahmin Edilen Başarılı İndirme 150278 737963 % 80,0 Doğruluk Oranı % 55,1 % 95,2 % 83,1 3. Alt model Kullanıcıların telefon operatörleri ile ilgilendikleri uygulamaların kategorileri arasında bir indirme ilişkisi modeli oluşturulmuş ve elde edilen sonuçlar değerlendirilmiştir. %83 doğruluk oranına sahip olan (Çizelge 5.4) bu model sonucunda, çeşitli operatörlerden, uygulama kategorilerine istekte bulunan kullanıcıların davranış biçimleri elde edilmiştir. Trafiğin büyük çoğunluğunun, belirli operatörlere sahip kullanıcılar tarafından oluşturulduğu görülmüştür. Çizelge 5.4. 3. Alt modele ait karışıklık matrisi ve doğruluk oranları Gözlemlenen Başarısız İndirme Başarılı İndirme Genel Ortalama Başarısız İndirme 194590 48681 % 21,9 Tahmin Edilen Başarılı İndirme 139860 726869 % 78,1 Doğruluk Oranı % 58,2 % 93,7 % 83,0 51 4. Alt model Bu modelde, kullanıcıların ilgilendikleri uygulamanın kategorisi ile uygulamanın fiyatı arasındaki indirme ilişkisi araştırılmıştır. Çizelge 5.5’de görüldüğü gibi %90,8 başarım oranına sahip bu model, uygulamaların indirilme olasılığının hangi fiyatlar çerçevesinde arttığını veya azaldığını göstermiştir. Çizelge 5.5. 4. Alt modele ait karışıklık matrisi ve doğruluk oranları Gözlemlenen Başarısız İndirme Başarılı İndirme Genel Ortalama Başarısız İndirme 251974 20004 % 24,5 Tahmin Edilen Başarılı İndirme 82476 755546 % 75,5 Doğruluk Oranı % 75,3 % 97,4 % 90,8 5. Alt model Kullanıcıların ilgilendikleri uygulama ve uygulama kategorisi ile indirme işleminin gerçekleştiği ay, gün ve saat arasındaki ilişkinin varlığı incelenmiştir. Bir kategoriye ait uygulamaların, hangi gün veya saatlerde kullanıcılar tarafından yüzde kaç ihtimalle indirileceği %88,5 doğrulukla (Çizelge 5.6) tahmin edilmiştir. Çizelge 5.6. 5. Alt modele ait karışıklık matrisi ve doğruluk oranları Gözlemlenen Başarısız İndirme Başarılı İndirme Genel Ortalama Başarısız İndirme 225628 19321 % 22,1 Tahmin Edilen Başarılı İndirme 108822 756229 % 77,9 Doğruluk Oranı % 67,5 % 97,5 % 88,5 6. Alt model Kullanıcıların ilgilendikleri uygulama, uygulama kategorisi, operatör, iletişim protokolü, telefon markası, telefon modeli, erişim kanalı ve servisi ile indirme işleminin gerçekleştiği ay, gün ve saat arasında bir ilişki vardır. Veri setindeki tüm alanların kullanılarak, kurallar oluşturulmasının amaçlandığı bu modelde Çizelge 5.7’de görüldüğü üzere %93 doğruluk oranı elde edilmiştir. Bu ilişkiler mevcut veri setindeki birlikteliklere göre çeşitlenmiştir. 52 Çizelge 5.7. 6. Alt modele ait karışıklık matrisi ve doğruluk oranları Gözlemlenen Başarısız İndirme Başarılı İndirme Genel Ortalama Başarısız İndirme 302095 44967 % 31,3 Tahmin Edilen Başarılı İndirme 32355 730583 % 68,7 Doğruluk Oranı % 90,3 % 94,2 % 93,0 7. Alt model Önerilen son model, kullanıcıların para harcama alışkanlıkları hakkında bilgi edinilmesi amacıyla kurulmuştur. Kullanıcıların ilgilendikleri uygulamaların kategorileri ile satın alma işleminin gerçekleşmesi arasındaki ilişki zamansal olarak değerlendirilmiştir. %99,9 başarıya (Çizelge 5.8) sahip olan model, diğer modellere nazaran daha az sayıda kural üretmiştir. Buna veri setinde, ödemenin sonuçlanma durumlarının birbirine yakın olarak dağılmamasının sebep olduğu öngörülmektedir. Çizelge 5.8. 7. Alt modele ait karışıklık matrisi ve doğruluk oranları Gözlemlenen Ödeme Var Ödeme Yok Genel Ortalama Tahmin Edilen Ödeme Yok 328 1083 % 0,1 Ödeme Var 1108172 417 % 99,9 Doğruluk Oranı % 100 % 72,2 % 99,9 5.7. Değerlendirmeler ve Öneriler Tez kapsamında, mobil uygulama platformu üzerinde gerçekleştirilen trafiği içeren büyük veride yapılan inceleme ve araştırma çalışmalarının yanında, gerçekleştirilen görselleştirme ve mantıksal analiz tekniklerinin sonucunda cep telefonu kullanıcılarına ait kural tabanlı davranış örüntüleri belirlenmiştir. Elde edinilen bilgilerin, katma değer üretmesi ve farklı pazarlama ve satış stratejilerinin belirlenmesi için taktikler oluşturmasında kullanılabileceği belirlenmiş ve kazanımlar aşağıda maddeler halinde sıralanmıştır: 1. Uygulama indirme ve para harcama olasılığı yüksek olan aktif kullanıcılar, sisteme giriş yaptığında işlemi henüz sonuçlanmadığı halde davranışı tespit edildiği için; 53 kişiye direkt ilgisi dâhilinde önerilerde bulunularak bu faaliyetlerini devamlı hale getirilebilir. 2. İndirme olasılığı sınır değerlerde olan kararsız kullanıcıların, trafik potansiyelini düşüren faktörlerinin bulunarak, kişisel kampanya ve reklamlar sayesinde aktif kullanıcı haline getirilebilir. 3. Belirli bir örüntü içerisinde işlem yapma ihtimali çok düşük olan kullanıcının daha farklı içerik ve etkinlik tavsiyeleriyle bulunduğu sınıftan çıkarılarak aktif hale dönüştürülebilir. 4. Kullanıcıların genel eğilimlerinin çıkarılmasıyla elde edilen büyük tabloda, firmanın sektördeki konumunu belirleyerek yeni ortaklık, reklam, pazarlama ve uygulama stratejileri belirlenebilir. 5. Kullanıcıların elektronik ortamları daha verimli ve keyifli kullanmaları sağlanabilecektir. Kullanıcıları, temel bilgileri ve davranışları göz önünde bulundurarak sınıflandırmak ve bu şekilde kişiselleştirilmiş ürün ve hizmet sunmak amacıyla yapılan akademik çalışmalar incelendiğinde, ideal bir veri toplama düzeni veya modelin olmadığı görülmüştür. Bu sebeple, davranış analizi için yeni bir model önerilmiştir. Mobil kullanıcıların karakterize edilmesini sağlamak amacıyla gerçekleştirilen ideal bir davranış modelinde, doğruluk oranı yüksek sonuçların elde edilmesi için toplanması gereken veriler aşağıda belirtilmiştir [9,11,12,14,66,75]: 1. Mobil cihaza ait bilgiler: Kullanım yılı, marka, model vs. 2. Kullanıcının demografik bilgileri: Yaş, cinsiyet, meslek vs. 3. Konum bilgisi: Ev, iş, okul vs. 4. Sensörler: Mikrofon, parlaklık, bluetooth, wireless, açma-kapama, batarya yüzdesi, GPS, GSM, pusula, ivmeölçer, ekran pozisyonu, sıcaklık, basınç, biyometrik vs. 5. Uygulamalar: Mesajlaşma, arama, mail, web servisi, multimedia, hizmet programı, navigasyon, sistem, referans, oyun, yönetim, iş vs. 6. Medya: Fotoğraf, video, ses kayıtları vs. 7. Ajanda: Kişisel takvim, alarm, randevu vs. 8. Web kayıtları: Arama ve gezinme logları vs. 9. Doküman: Mail eki, e-kitap vs. 10. Sosyal ağlar: Beğeniler, arkadaşlık ilişkileri, oturum bilgileri vs. 54 Bu veriler, Şekil 5.6’da önerilen yeni model doğrultusunda ileri veri analizi teknikleri kullanılarak işlendiğinde, kullanıcılara ait gerçeklik oranı yüksek sonuçların elde edileceği öngörü sistemlere uyarlanabilecek ve daha kapsamlı ve farklı soruların da cevabının kolaylıkla bulunabileceği çözümler getirilebilecektir. Bunu yanında, bilgilerin toplanma süreci, kullanıcıların kişisel mahremiyetinin korunması konusunu da beraberinde getirdiği için; analiz, kullanıcıların izni dahilinde hatta verilerin şifrelenmiş şekilde işlenmesiyle gerçekleştirilmesi, ihlallerin de önüne geçecektir. Mobil Cihaz Konum Demografik Uygulamalar Sensör Medya Web Kayıtları Ajanda Sosyal Ağ Doküman Kişisel Verilerin Mahremiyetinin Sağlanması Yeni Kullanıcı mı? Evet Bütün Kullanıcıların Davranışlarına Göre Karar Verilir Hayır Kullanıcının Profiline Uygun Olarak Karar Verilir Şekil 5.6. Tez kapsamında önerilen ideal mobil kullanıcı davranış modeli yapısı 55 6. SONUÇ VE TARTIŞMA İnternetin kişisel olarak hayatımıza girmesi ile birlikte insanlar tarafından ulaşılabilir olan bilgi hacmi giderek artmaya başlamıştır. Online olarak mevcut kitap, film, haber, doküman ve reklam gibi çevrim içi bilgi miktarı şaşırtıcı boyutlara ulaşmaktadır. Bu büyüklükte bir veri yığını içerisinden, işe yarar bilgiyi elde edebilmek, gerekli olana ulaşmak, beğeniye göre filtreleme yapmak, ihtiyaçları karşılayacak bilgiye ulaşabilmek kullanıcı için zor bir hal almıştır. Kullanıcılıların bu ihtiyaçları doğrultusunda, talep edebilecekleri ürün ve hizmetlerin önceden belirlenip, kişiselleştirilmiş öneri sistemlerinin sunulması sektörde hızla önem kazanmaktadır. Veri içinde önceden bilinmeyen veya görülemeyen desenleri ortaya çıkarmak amacıyla, bilgiler arasındaki sıralamanın, sınıflandırmanın, birlikteliğin ve tahminlemenin sonucunda gerek kullanıcı gerekse hizmet sağlayıcısı açısından maliyetin azalması, verimin artması, doğru sonuç üretme zamanının hızlanması, ilişkilerin kararlı hale gelmesi ve uyumlu faaliyetlerin sağlanması gibi birçok kolaylık sağlamaktadır. Bu tez kapsamında, mobil telekomünikasyon verileri üzerinde veri madenciliği teknikleri uygulanarak, kullanıcıların davranışları incelenmiş, analiz edilmiş ve sınıflandırılmış, elde edilen sonuçlar ile karar verme sürecine katkıda bulunulacak çözümler sunulmuş ve kullanıcıların daha odaklı ve kaliteli hizmet alması için öneriler sunulmuştur. Yapılan analizlerin sonuçları aşağıda maddeler halinde özetlenmiştir. 1. Kullanıcıların istekte bulundukları durumların şartları ve indirme işlemini gerçekleştirdikleri kriterleri bir araya getirerek; hangi parametreler ve birliktelikler altında indirme işleminin yüzde kaç olasılıkla gerçekleşeceği tahmin edilmiştir. 2. Telefon marka ve modeli, operatör, uygulama platformlarına giriş yaptıkları kanal ile indirdikleri uygulama kategorisi arasında zamana bağlı ilişkiler olduğu belirlenmiş ve bu ilişkiler kurallar halinde genelleştirilmiştir. 3. Mobil telekomünikasyon verileri üzerinde veri madenciliği teknikleri uygulanarak, kullanıcıların davranışları sınıflandırılmıştır. 4. Analiz sonucunda karakteristiklerin elde edilmesiyle; karar verme sürecine katkıda bulunulacak çözümler sunulmuş ve kullanıcıların daha odaklı ve kaliteli hizmet alması için önerilerde bulunulmuştur. 5. Yapılan analizler; kullanıcıların istekte bulundukları durumların şartları ve indirme işlemini gerçekleştirdikleri kriterleri bir araya getirerek; hangi parametreler ve 56 birliktelikler altında indirme işleminin yüzde kaç olasılıkla gerçekleşeceği tahmin edilmiştir. 6. Telefon marka ve modeli, operatör, uygulama platformlarına giriş yaptıkları kanal ile indirdikleri uygulama kategorisi arasında zamana bağlı ilişkiler olduğu belirlenmiş ve bu ilişkiler kurallar halinde genelleştirilmiştir. 7. Mevcut sistemin modeli çıkarılarak, literatüre yeni bir model önerilmiştir. Bu tezin bilime sağlamış olduğu katkılar aşağıdaki şekilde sıralanabilir: 1. Kullanıcı davranışlarının belirlenmesi, ticari olarak büyük yatırımların yapıldığı bir alan olmasına rağmen, akademik ortamlarda yapılan çalışmaların yetersiz olduğu görülerek, gerek araştırma gerekse uygulama bakımından bu eksiklik giderilmeye çalışılmıştır. 2. Literatürde kullanılan veri setleri incelendiğinde, bu çalışma mobil uygulama sunan platformlar üzerindeki trafiğin analiz edilmesi bakımından yapılan ilk çalışma örneğidir. 3. Karar ağacı yapısında kural tabanlı davranışların belirlendiği bir metodoloji önerilmiştir. 4. Gerçek verilerden elde edilen deneysel sonuçlar, ticari sektörde uygulama geliştirme ve pazarlama departmanlarında önemli yeniliklere ve maddi kazanç sağlayacak yeni modellerin üretilmesine katkılar sağlayacağı düşünülmektedir 5. Dinamik, bireysel veya genel perspektifi yansıtan modellemelerin yapılacağı, gelecek çalışmalara ışık tutacaktır. 6. Yeni bakış açıları ve stratejiler belirlenmesine katkılar sağlayacaktır. Mevcut veri madenciliği analiz araçlarının yetersiz olması sebebiyle, milyarlarca veri arasından yaklaşık 1 milyon veri işlenerek bilgi ve kural çıkarımı süreci gerçekleştirilmiştir. Her ne kadar başarılı sonuçlar elde edilse de, çalışma bütün büyük resmi gösterememektedir. Bu yüzden bu çalışmada sunulan yaklaşımla yapılacak gelecek çalışmalar, daha kapsamlı verilerin büyük veri ve bulut bilişim gibi teknolojiler çerçevesinde analiz edilmesiyle daha kolay gerçekleştirilecektir. Bu tez çalışması için verinin elde edilmesi konusu, karşılaşılan güçlüklerin başında gelmektedir. Bu sorun aşıldıktan sonra da erişilen veri hacminin çok büyük olmasından 57 dolayı, veri setleri arasında ilişkilerin kurularak, görsel ve mantıksal analizlerin gerçekleştirilmesi sürecinde uygun yöntem ve yaklaşımların belirlenmesinde zorluklarla karşılaşılmıştır. Kullanıcılardan elde edilen veriler doğrultusunda, bireyin düşünce yapısını ve hislerini tespit ederek kişiselleştirilmiş ürün ve hizmet sunumunu sağlayan sonuçların üretilmesi firmalara ve müşterilere sağladığı avantajların yanı sıra gizlilik ihlali gibi konularda daha kapsamlı çalışmalar yapılabilecektir. Sonraki çalışmalarımızda, önerilen yeni ideal modele uygun olarak verilerin toplanıp veri setinin boyutları genişletilerek, analiz sürecinde büyük veri ve bulut bilişimi kapsayan yeni teknik ve teknolojilerin kullanılması ile verilerin daha kapsamlı analizi yapılacak ve veriler daha yorumlanabilir hale dönüştürülecektir. Böylece hem kullanıcıların ilgilenebileceği hizmet ve servislere erişmesi hem de veriyi tutan operatörlerin farklı çözümleri kullanıcılara sunması kolaylaşacaktır. Gelecek çalışmalarda kişisel verilerin mahremiyeti konusuna daha çok önem verilmesi ve çalışmalarda bu konuya odaklanılması kişilerin özel hayatlarına duyulması gereken saygıyı arttıracaktır. 58 59 KAYNAKLAR 1. Jifa, G., and Lingling, Z. (2014). Data, DIKW, Big data and Data science. Procedia Computer Science, 31, 814-821. 2. Liu, J., Zheng, Q., and Chan, F. (2006). A Method for User Behavior Modeling Based on Web Page Metadata. 10th International Conference on Computer Supported Cooperative Work in Design, Nanjing, 1-6. 3. Kotiyalt, B., Kumar, A., Pant, B., Goudar, R. H., Chauhan, S., and Junee, S. (2013). User Behavior Analysis in Web Log through Comparative Study of Eclat and Apriori, 7th International Conference on Intelligent Systems and Control (ISCO), Coimbatore, Tamil Nadu, India, 421-426. 4. Benevenutoy, F., Rodriguesy, T., Cha, M., and Almeida, V. (2009). Characterizing User Behavior in Online Social Networks. 9th ACM SIGCOMM Conference on Internet Measurement Conference, Chicago, Illinois, USA, 49-62. 5. Zhao, W., Liu, J., Ye, D., and Wei, J. (2013). Mining User Daily Behavior Patterns from Access Logs of Massive Software and Websites. 5th Asia-Pacific Symposium on Internetware, Changsha, China, 18. 6. Pachidi, S., Spruit, M., and Weerd, I. (2014). Understanding Users’ Behavior with Software Operation Data Mining. Computers in Human Behavior, 30, 583-594. 7. Belk, M., Papatheocharous, E., Germanakos, P., and Samaras, G. (2013). Modeling Users on the World Wide Web Based on Cognitive Factors, Navigation Behavior and Clustering Techniques. The Journal of Systems and Software, 86, 2995-3012. 8. Kinley, K., Tjondronegoro, D., Partridge, H., and Edwards, S. (2014). Modeling Users’ Web Search Behavior and Their Cognitive Styles. Journal of the Association for Information Science And Technology, 65(6), 1107-1123. 9. Ma, H., Cao, H., Yang, Q., Chen, E., and Tian, J. (2012). A Habit Mining Approach for Discovering Similar Mobile Users. 21st international conference on World Wide Web, Lyon, France, 231-240. 10. Tseng, V. S., and Lin, K. W. (2006). Efficient Mining and Prediction of User Behavior Patterns in Mobile Web Systems. Information and Software Technology, 48 357-369. 11. Ghose, A., and Han, S. P. (2011). An Empirical Analysis of User Content Generation and Usage Behavior on the Mobile Internet, Management Science, 57(9), 1671-1691. 60 12. Mayrhofer, R., Radi, H., and Ferscha, A., (2003). Recognizing and Predicting Context by Learning from User Behavior. The International Conference on Advances in Mobile Multimedia (MoMM2003), 171, 25-35. 13. Vojnovic, M. (2008). On Mobile User Behaviour Patterns. IEEE International Zurich Seminar on Communications, Zurich, 26-29. 14. Burigat, S., Chittaro, L., Ieronutti, L. (2008). Mobrex: Visualizing Users' Mobile Browsing Behaviors. IEEE Computer Graphics and Applications, 28(1), 24- 32. 15. Dong, Y., Zhang, H., and Jiao, L. (2006). Research on Application of User Navigation Pattern Mining Recommendation. The Sixth World Congress on Intelligent Control and Automation, 2, Dalian, 6106-6110. 16. Zhang, Y., and Jiao, J. (2007). An associative classification-based recommendation system for personalization in B2C e-commerce applications. Expert Systems with Applications, 33, 357–367. 17. Kim, Y., and Cho, S.B. (2009). A Recommendation Agent for Mobile Phone Users Using Bayesian Behavior Prediction. Third International Conference on Mobile Ubiquitous Computing, Systems, Services and Technologies, Sliema, 283-288. 18. Ying, J. C., Chen, H. S., Lin, K. W., Lu, E. H., Tseng, V. S., Tsai, H. W., Cheng, K. H., and Lin, S. C. (2014). Semantic trajectory-based high utility item recommendation system. Expert Systems with Applications, 41, 4762–4776. 19. Park, D. H., Kim, H. K., Choi, Y., and Kim, J. K. (2012). A literature review and classification of recommender systems research. Expert Systems with Applications, 39, 10059-10072. 20. Kivi, A. (2009). Measuring mobile service usage, methods and measurement points. International Journal of Mobile Communications, 7(4), 415-435. 21. Christoph, U., Krempels, K. H., Stülpnagel J., and Terwelp, C. (2010). Automatic Context Detection of a Mobile User. International Conference on Wireless Information Networks and Systems (WINSYS), Athens, 1-6. 22. Lee, W. P., and Lee, K. H. (2014). Making smartphone service recommendations by predicting users’ intentions: A context-aware approach. Information Sciences, 277, 21–35. 23. Albayrak, A. S., Yılmaz, Ş. K. (2009). Veri Madenciliği: Karar Ağacı Algoritmaları ve İMKB Verileri Üzerine Bir Uygulama. Süleyman Demirel Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi,14(1), 31-52. 24. Canbek, G., ve Sağıroğlu, Ş. (2006). Bilgi, Bilgi Güvenliği ve Süreçleri Üzerine Bir İnceleme. Politeknik Dergisi, 9(3), 165-174. 25. Gürsakal, N. (2013). Büyük Veri (1.Baskı), Bursa: Dora Yayıncılık, 32,37,200. 61 26. Dener, M., Dörterler, M., ve Orman, A. (2009). Açık Kaynak Kodlu Veri Madenciliği Programları: WEKA’da Örnek Uygulama. Akademik Bilişim’09, Harran Üniversitesi, Şanlıurfa, 787- 796. 27. Tekerek, A. (2011). Veri Madenciliği Süreçleri ve Açık Kaynak Kodlu Veri Madenciliği Araçları. Akademik Bilişim’11, İnönü Üniversitesi, Malatya, 161-169. 28. Erol, B. (2013). Müşteri İlişkileri Yönetimi İçin Veri Madenciliği Kullanılması Ve Sigortacılık Sektörü Üzerine Bir Uygulama. Yüksek Lisans Tezi, Marmara Üniversitesi Fen Bilimleri Enstitüsü, İstanbul, 23,25-50. 29. Jovic, A., Brkic, K., and Bogunovic, N. (2014). An overview of free software tools for general data mining. 37th International Convention on Information and Communication Technology, Electronics and Microelectronics (MIPRO), Opatija 1112-1117. 30. Louridas, P., and Ebert, C. (2013). Embedded Analytics and Statistics for Big Data. IEEE Software, 30(6), 33-39. 31. Savaş, S., Topaloğlu, N., ve Yılmaz, M. (2012). Veri Madenciliği ve Türkiye’deki Uygulama Örnekleri. İstanbul Ticaret Üniversitesi Fen Bilimleri Dergisi, (21), 123. 32. Tezcanlar, P. (2007). Müşteri İlişkileri Yönetimi, Veri Madenciliği ve Bir Uygulama. Yüksek Lisans Tezi, İstanbul Üniversitesi Sosyal Bilimler Enstitüsü, İstanbul, 5,100-104. 33. Akbulut, S. (2006). Veri Madenciliği Teknikleri ile Bir Kozmetik Markanın Ayrılan Müşteri Analizi ve Müşteri Segmentasyonu. Yüksek Lisans Tezi, Gazi Üniversitesi Fen Bilimleri Enstitüsü, 5-6. 34. Ekmekçiler, E. (2012). Tavsiye Sistemlerinde Veri Bütünleştirme. Yüksek Lisans Tezi, Başkent Üniversitesi Fen Bilimleri Enstitüsü, 8-15. 35. Karakuş, K. (2009). Veri Madenciliği Teknikleri İle Mobil Telekom Sektöründe Müşterilerin Kredi Skorlamasına İlişkin İstatistiksel Bir Analiz. Yüksek Lisans Tezi, Marmara Üniversitesi Sosyal Bilimler Enstitüsü, 124-126. 36. Oğuzlar, A. (2003). Veri Ön İşleme. Erciyes Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi, (21), 67-76. 37. Chen, M., Mao, S., and Liu, Y. (2014). Big Data: A Survey. Mobile Networks and Applications, 19(2), 171-209. 38. Demchenko, Y., Grosso, P., Laat, C., and Membrey, P. (2013). Addressing Big Data Issues in Scientific Data Infrastructure. International Conference on Collaboration Technologies and Systems (CTS), San Diego, CA, 48-55. 62 39. Chen, C. L. P., and Zhang, C. Y. (2014). Data-intensive applications, challenges, techniques and technologies: A survey on Big Data. Information Sciences, 275, 314-347. 40. İnternet: Mason, K.J. Social Media Statistics and Facts of 2013. Growing Social Media.URL: http://www.webcitation.org/query?url=http%3A%2F%2Fgrowingsocialmedia.com %2Fsocial-media-statistics-and-facts-of-2013-infographic%2F&date=2014-08-20, Son Erişim Tarihi: 20.08.2014. 41. İnternet: McCafferty, D. Surprising Statistics About Big Data. Baselinemag. URL: http://www.webcitation.org/query?url=http%3A%2F%2Fwww.baselinemag.com% 2Fanalytics-big-data%2Fslideshows%2Fsurprising-statistics-about-bigdata.html&date=2014-08-20, Son Erişim Tarihi: 20.08.2014. 42. İnternet: From character to personality. Global number of worlwide Internet users 2000-2014. Connected Vivaki Business Intelligence. URL: http://www.webcitation.org/query?url=http%3A%2F%2Fwww.connectedvivaki.co m%2Fwp-content%2Fuploads%2F2014%2F08%2FInternetUsage.jpg&date=2014-09-01, Son Erişim Tarihi: 01.09.2014. 43. İnternet: From character to personality. Arama Trendleri. Google. URL: http://www.webcitation.org/query?url=https%3A%2F%2Fwww.google.com.tr%2F trends%2F&date=2014-09-01, Son Erişim Tarihi: 01.09.2014. 44. Spiess, J., T’Joens, Y., Dragnea, R., Spencer, P., and Philippart, L. (2014). Using Big Data to Improve Customer Experience and Business Performance. Bell Labs Technical Journal, 18(4), 3–17. 45. Fan, W., and Bifet, A. (2012). Mining Big Data: Current Status, and Forecast to the Future. ACM SIGKDD Explorations, 14(2), 1-5. 46. Kaisler, S., Armour, F., Espinosa, J. A., and Money, W. (2013). Big Data: Issues and Challenges Moving Forward. 46th Hawaii International Conference on System Sciences, Wailea, Maui, HI, 995- 1004. 47. Katal, A., Wazid, M., and Goudar, R.H. (2013). Big Data: Issues, Challenges, Tools and Good Practices. Sixth International Conference on Contemporary Computing (IC3), Noida, 404-409. 48. İnternet: Mysore, D., Khupat, S., and Jain S. Big data architecture and patterns. IBMDeveloperworks.URL: http://www.webcitation.org/query?url=http%3A%2F%2Fwww.ibm.com%2Fdevel operworks%2Flibrary%2Fbdarchpatterns1%2Findex.html%3Fca%3Ddrs&date=2014-08-20, Son Erişim Tarihi: 20.08.2014. 63 49. Bilgi Teknolojileri ve İletişim Kurumu. (2014). Elektronik Haberleşme Sektöründe Teknolojik Gelişmeler ve Eğilimler; BTK Araştırma Raporları, Ankara. 50. Singh, S., and Singh, N. (2012). Big Data Analytics. International Conference on Communication, Information & Computing Technology (ICCICT), Mumbai, India, 1-4. 51. Wang, E., and Chen, G. (2013). An Overview of Big Data Mining: Methods And Tools. International Symposium on Signal Processing, Biomedical Engineering and Informatics, Hangzhou, China, 377-382. 52. Wu, X., Zhu, X., Wu, G. Q., and Ding, W. (2014). Data Mining with Big Data. IEEE Transactions on Knowledge and Data Engineering, 26(1), 97-107. 53. Groupe Speciale Mobile Association. (2014). The Mobile Economy; GSMA Intelligence, London. 54. Çolak, I., Sağıroğlu, S., and Yeşilbudak, M. (2012). Data mining and wind power prediction: A literature review. Renewable Energy, 46, 241-247. 55. İnternet: Sacolick, I. Top Five Tools of Big Data Analytics. Starcio.URL: http://www.webcitation.org/query?url=http%3A%2F%2Fblogs.starcio.com%2F201 2%2F03%2Ftop-five-tools-of-bigdata-analytics.html&date=2014-08-20, Son Erişim Tarihi: 20.08.2014. 56. İnternet: Harvey, C. 50 Top Open Source Tools for Big Data. Datamation.URL: http://www.webcitation.org/query?url=http%3A%2F%2Fwww.datamation.com%2 Fdata-center%2F50-top-open-source-tools-for-big-data-1.html&date=2014-08-20, Son Erişim Tarihi: 20.08.2014. 57. İnternet: Toll, W. Top 45 Big Data Tools for Developers. ProfitBricks.URL: http://www.webcitation.org/query?url=http%3A%2F%2Fblog.profitbricks.com%2 Ftop-45-big-data-tools-for-developers%2F&date=2014-08-20, Son Erişim Tarihi: 20.08.2014. 58. Cattell, R. (2010). Scalable SQL and NoSQL data stores. ACM SIGMOD Record, 39(4), 12-27. 59. Eken, S., Kaya, F., Sayar, A. ve Kavak, A. (2014, Mayıs). Doküman Tabanlı NoSQL Veritabanları: MongoDB ve CouchDB yatay ölçeklenebilirlik karşılaştırması. 7. Mühendislik ve Teknoloji Sempozyumunda sunuldu, Ankara 60. İnternet: From character to personality. Google BigQuery. Google Developers. URL: http://www.webcitation.org/query?url=https%3A%2F%2Fdevelopers.google.com %2Fbigquery&date=2014-08-20, Son Erişim Tarihi: 20.08.2014. 64 61. İnternet: From character to personality. What Is Apache Hadoop?. Hadoop URL: http://www.webcitation.org/query?url=http%3A%2F%2Fhadoop.apache.org%2F& date=2014-08-20, Son Erişim Tarihi: 20.08.2014. 62. Chandrasekhar, U., Reddy, A., and Rath, R. (2013). A Comparative Study of Enterprise and Open Source Big Data Analytical Tools. IEEE Conference on Information & Communication Technologies (ICT), JeJu Island, 372-377. 63. İnternet: From character to personality. The HPCC Systems Platform. HPCC Systems.URL: http://www.webcitation.org/query?url=http%3A%2F%2Fhpccsystems.com%2F&d ate=2014-08-20, Son Erişim Tarihi: 20.08.2014. 64. İnternet: From character to personality. HPCC vs Hadoop Detailed Comparison. HPCCSystems.URL: http://www.webcitation.org/query?url=http%3A%2F%2Fhpccsystems.com%2FWh y-HPCC%2FHPCC-vs-Hadoop%2FHPCC-vs-Hadoop-Detail&date=2014-08-20, Son Erişim Tarihi: 20.08.2014. 65. Zikopoulos, P. C., Roos, D., Parasuraman, K., Deutsch, T., Corrigan, D., and Giles, J. (2013). Harness the Power of Big Data. The IBM Big Data Platform, United States: The McGraw-Hill Companies. 66. Laurila, J. K., Gatica-Perez, D., Aad, I., Blom, J., Bornet, O., Do,T. M., Dousse, O., Eberle, J., Miettinen, M. (2013). From big smartphone data to worldwide research: The Mobile Data Challenge. Pervasive and Mobile Computing, 9(6), 752-771. 67. Verbeek, P. P., and Slob, A. (2006). Analyzing the relations between technologies and user behavior. User Behavior and Technology Development, 20, 385-399. 68. Şimşekli, U., Birdal, T., Koç, E., ve Cemgil, A.T. (2013). A Factorization Based Recommender System for Online Services. 21st Signal Processing and Communications Applications Conference (SIU), Haspolat, 1-4. 69. Kazienko, P., and Kolodziejski, P. (2006). Personalized Integration of Recommendation Methods for E-commerce, International Journal of Computer Science & Applications, 3(3), 12-26. 70. Darıcı, A. (2002). 3.Nesil Mobil Haberleşme Sistemleri; BTK Araştırma Raporları Ankara. 71. Türkiye İstatistik Kurumu. (2014). Yıllara, Yaş Grubu ve Cinsiyete Göre Nüfus, Genel Nüfus Sayımları–ADNKS; TÜİK Nüfus ve Demografi, http://www.tuik.gov.tr/PreIstatistikTablo.do?istab_id=1588. 72. Bilgi Teknolojileri ve İletişim Kurumu. (2014). Türkiye Elektronik Haberleşme Pazar Verileri Raporu 2013 Yılı 4. Çeyrek; BTK Üç Aylık Pazar Verileri Raporu, Ankara. 65 73. Cuadrado, F., and Duenas, J.C. (2012). Mobile application stores: success factors, existing approaches, and future developments. IEEE Communications Magazine, 50(11), 160-167. 74. İnternet: From character to personality. Statistics and facts about Mobile App Usage. The Statistics Portal. URL: http://www.webcitation.org/query?url=http%3A%2F%2Fwww.statista.com%2Ftop ics%2F1002%2Fmobile-app-usage%2F&date=2014-09-01, Son Erişim Tarihi: 01.09.2014. 75. Smith, E. G., Noort, G. V., and Voorveld, H. A. M. (2014). Understanding online behavioural advertising: User knowledge, privacy concerns and online coping behaviour in Europe. Computers in Human Behavior, 32, 15-22. 76. İnternet: From character to personality. The Mobile Landscape for 2014. WebDAM Systems.URL: http://www.webcitation.org/query?url=http%3A%2F%2Fwww.webdam.com%2F2 014-mobile-marketing-infographic%2F&date=2014-08-21, Son Erişim Tarihi: 21.08.2014. 77. Coşkun, C., ve Baykal, A. (2011). Veri Madenciliğinde Sınıflandırma Algoritmalarının Bir Örnek Üzerinde Karşılaştırılması. Akademik Bilişim’11, İnönü Üniversitesi, Malatya, 51-58. 66 67 67 ÖZGEÇMİŞ Kişisel Bilgiler Soyadı, adı : SİNANÇ, Duygu Uyruğu : T.C. Doğum tarihi ve yeri : 20.09.1988 Elazığ Medeni hali : Bekâr Telefon : 0 (312) 202 37 23 Faks : 0 (312) 202 37 10 e-mail : duygusinanc@gazi.edu.tr Eğitim Derece Eğitim Birimi Mezuniyet Tarihi Yüksek Lisans Gazi Üniversitesi / Bilgisayar Mühendisliği 2014 Lisans Selçuk Üniversitesi / Bilgisayar Mühendisliği 2011 Lise Elazığ Anadolu Lisesi 2006 İş Deneyimi Yıl Yer Görev 2013-Devam Ediyor Gazi Üniversitesi Araştırma Görevlisi 2013 Amasya Üniversitesi Araştırma Görevlisi 2012 Pamukkale Üniversitesi Araştırma Görevlisi Yabancı Dil İngilizce Yayınlar 1. Sagiroglu, S., and Sinanc, D. Big data: A review. IEEE International Conference on Collaboration Technologies and Systems, San Diego, CA, 42-47. 2. Sinanc, D., and Sagiroglu, S. (2013). A Review on Cloud Security. The 6th International Conference on Security of Information and Networks, Aksaray, Turkey, 321-325. 68 3. Sinanc, D., and Yavanoglu, U., (2013). A New Approach to Detecting Content Anomalies in Wikipedia, The 12th IEEE International Conference on Machine Learning and Applications, Miami, FL, 2, 288-293. 4. Sinanc, D., Sahin, M., Esen, Z., Yavanoglu, U., and Sagiroglu, S., (In press, 2014). An Intelligent Feedback Control Mechanism for Brushless DC Motors. 16th International Power Electronics and Motion Control Conference and Exposition, Antalya, Turkey. 69 GAZİ GELECEKTİR...