birliktelik kuralları ve uygulamaları: literatür

advertisement
BİRLİKTELİK KURALLARI VE UYGULAMALARI:
LİTERATÜR TARAMASI (2000-2014)
Doç. Dr. Namık Kemal ERDOĞAN* - Araş. Gör. Bayezid GÜLCAN** - Araş.
Gör. Çağlar KARAMAŞA***
Özet
Günümüz iş ortamında en değerli varlık olan bilgiye büyük miktardaki veri yığını arasından
ulaşılmasını sağlayan veri madenciliği firmaların başarısında önemli bir yer tutmaktadır. Veri
madenciliği tekniklerinden olan birliktelik kuralları ise veri tabanlarında yığın halinde olan bilgi yada
kayıtlar arasındaki bağlantıyı açıklayan işlemler dizisidir. Birliktelik kuralı madenciliği
çalışmalarının internetin genel kullanıma açıldığı 2000’den 2014 yılına kadar nasıl bir değişim
gösterdiğinin incelenmesi amacıyla bu çalışmada yazın taraması gerçekleştirilmiştir. Anahtar kelime
indisleri ve makale özetlerinden yararlanarak birliktelik kuralları ile ilişkili sayıda akademik
dergiden sayıda makaleye ulaşılmıştır. Ayrıca birliktelik kuralı madenciliği uygulamalarına yönelik
gelecekte yapılabilecek düzenlemeler tartışılmıştır.
Anahtar kelimeler: Veri Madenciliği, Literatür Taraması, Birliktelik Kuralları, Birliktelik
Kuralları Uygulamaları
Abstract
Data mining which enables discovering information from data, the most valuable asset in today’s
business environment, plays important role for firms. Association rule, a data mining technique, is a
sequence of operations that considers relation between information or records stacked in data bases.
This paper analyses the change of association rule mining applications through literature review from
2000, starting period of general Internet usage, to 2014. For the period from 2000 to 2014 articles
were found from journals with usage of keyword indices and article abstracts. Furthermore future
arrangements towards association rule mining applications was discussed.
Keywords: Data Mining, Literature Review, Association Rules, Association Rules Applications
1.Giriş
Günümüz toplumunda bilgisayar ve iletişim teknolojilerinde yaşanan ilerlemeler büyük miktarda
verinin depolanıp işlenmesini zorunlu hale getirmiştir. Bilgi hacimi ve dolayısıyla veri tabanındaki
olağanüstü artış bilgiyi zeki biçimde kullanan teknolojilerin geliştirilmesini gerekli kılmıştır. Karar
vericilerin toplanan büyük miktardaki verilerden yararlanma ve nihai ürün olan bilgiyi elde etmede
konusunda veri madenciliği önemli bir araştırma disiplini haline gelmiştir (Fayyad, Djorgovski ve
Weir, 1996). Veri madenciliği değerli bilginin elde edilmesi için büyük miktardaki verinin
incelenmesine olanak sağlar (Weiss ve Indurkhya, 1998).
Verilerin nitelikli biçimde analiz edilip gizli örüntülerin ortaya çıkarılmasını sağlayan veri
madenciliği veriyi pratik hale dönüştürerek eylem planları oluşturur (Ay ve Çil, 2010). Veri
madenciliğinin tanımlayıcı modellerinden olan birliktelik kuralları büyük miktardaki veriler
arasındaki ilginç örüntüleri bulmada yararlanılan tekniklerden birisidir. Literatürde pazar sepeti
analizi olarak da adlandırılan birliktelik kuralları birlikte satın alınma eğilimi olan ürünlere ilişkin bilgi
sağlamakta ve müşterilerin çapraz satın alma davranışları hakkında bilgi vermektedir (Yang ve Lai,
2006).
*
Anadolu Üniversitesi İktisadi ve İdari Bilimler Fakültesi İşletme Bölümü, nkerdoga@anadolu.edu.tr
Karamanoğlu Mehmetbey Üniversitesi İktisadi ve İdari Bilimler Fakültesi İşletme Bölümü,
bgulcan@kmu.edu.tr
***
Anadolu Üniversitesi İşletme Fakültesi İşletme Bölümü, ckaramasa@anadolu.edu.tr
**
Bu çalışmada internetin genel kullanıma açıldığı 2000’den 2014 yılına kadar olan dönemde
birliktelik kuralı madenciliği çalışmalarının nasıl değişim gösterdiği literatür taraması yoluyla
incelenmiştir. Bu amaçla anahtar kelime indisleri ve makale özetlerinden yararlanarak beş elektronik
veritabanı ( EbscoHost, Elsevier SCOPUS, SpringerLink, Ieeexplore ve WileyInterscience) üzerinde
literatür taraması gerçekleştirilmiştir. Öncelikle birliktelik kuralı ifadesini içeren makale özetleri
bulunmuş daha sonrasında ise birliktelik kuralı uygulamaları anahtar kelimesiyle ilişkili olacak şekilde
filtreleme yapılmıştır.
2.Birliktelik Kuralları
Birliktelik kuralları verideki güçlü birliktelik özelliklerini tanımlayan örüntüleri keşfetmek için
kullanılan bir analiz yöntemidir. Keşfedilmiş olan örüntüler, özel olarak çıkarılan kurallar veya özellik
alt grupları şeklinde temsil edilebilir. Araştırma uzayının üssel büyüklüğünden dolayı birliktelik
analizinin amacı önemli örüntülerin (affinity) analizi olarak da anılır.
Bu teknik genellikle diğer olayların meydana gelişi verildiğinde belirli bir olayın ortaya çıkışının
olasılıklarını veya meyillerinin ölçülmesiyle ilgilidir. Bu metodolojiler veritabanındaki tüm olası ilginç
örüntülere erişir. Tüm noktaları incelemesi bu yöntemin olumlu yanını gösterirken, büyük miktardaki
yeni bilgi altında analizin zor ve zaman alıcı olması bu yöntemin olumsuz yanıdır. Birliktelik kuralları
veri öğeleri arasındaki ilişkileri göstermek için kullanılır. Birliktelik kuralları açısından süpermarket
nakit kayıt işlemlerine yönelik veriler aşağıdaki tabloda gösterilmiştir.
Tablo 1. Birliktelik Kurallarını Göstermek İçin Örnek Veri Seti
İşlem/Hareket
Elemanlar
t1
t2
t3
t4
t5
Ekmek, Jöle, Yerfıstığı yağı
Ekmek, Yerfıstığı yağı
Ekmek, Süt, Yerfıstığı yağı
Bira, Ekmek
Bira, Süt
Kaynak:Dunham, 2003
Özel kural formundaki bu kurallar sol ve sağ kısım olmak üzere birbiriyle bağlantılı iki kısımdan
oluşur. Bu iki kısımda yapılan iş veya nesneler yer alır ve veriler arasındaki ilişkiler eğer-sonra ifadeleri
vasıtasıyla gösterilir. Eğer kısmı ile ilgili durumlar öncül ve sonra kısmı ile ilgili durumlar sonuç olarak
ifade edilir (Tüzüntürk, 2010:82).
Birliktelik kurallarında önemli olan konu gürültülü veriden değerli bilgiyi ayırt etmeyi sağlayan
eşik değerini bulmaktır. Bu amaçla ilginç birliktelik kurallarından ilginç olmayanları ayırmak için
destek (support) ve güven (confidence) adı verilen iki önemli ölçütten faydalanılır (Dolgun ve Zor,
2006).
Pazar sepet analizi için ürünlerin satın alınıp alınmamasına yönelik verilerin olması durumunda
ürünler arasındaki ilişkiler destek ve güven ölçütleri yardımıyla bulunur. Büyük destek ve güvenilirlik
ölçütleri ilginç kurallar için ön koşuldur (Tuğ ve Bulun, 2006). Güvenilirlik kuralın gücünü ölçerken
destek ise kuralın veritabanında ne kadar sıklıkla görüldüğünün bulunmasında kullanılır. Tipik olarak
büyük güvenilirlik ve küçük destek değerleri kullanılır (Dunham, 2003).
Tablo 1’de bulunan elemanların tüm alt kümelerinin destek değerleri Tablo 2’de gösterilmiştir.
Tablo 2’de beş elemandan oluşan orijinal kümeden 31 tane eleman kümesi elde edildiği görülmektedir.
Tablo 2. Tablo 1’deki elemanların tüm kümelerinin destek değerleri
Küme
Destek Değeri
Bira
40
Ekmek
80
Jöle
20
Süt
40
Yerfıstığı yağı
60
Bira, Ekmek
20
Bira, Jöle
0
Bira, Süt
20
Bira, Yerfıstığı yağı
0
Ekmek, Jöle
20
Ekmek, Süt
20
Ekmek, Yerfıstığı yağı
60
Jöle, Süt
0
Jöle, Yerfıstığı yağı
20
Süt, Yerfıstığı yağı
20
Bira, Ekmek, Jöle
0
Bira, Ekmek, Süt
0
Bira, Ekmek, Yerfıstığı yağı
0
Bira, Jöle, Süt
0
Bira, Jöle, Yerfıstığı yağı
0
Bira, Süt, Yerfıstığı yağı
0
Ekmek, Jöle, Süt
0
Ekmek, Jöle, Yerfıstığı yağı
20
Ekmek, Süt, Yerfıstığı yağı
20
Jöle, Süt, Yerfıstığı yağı
0
Bira, Ekmek, Jöle, Süt
0
Bira, Ekmek, Jöle, Yerfıstığı yağı
0
Bira, Ekmek, Süt, Yerfıstığı yağı
0
Bira, Jöle, Süt, Yerfıstığı yağı
0
Ekmek, Jöle, Süt, Yerfıstığı yağı
0
Bira, Ekmek, Jöle, Süt, Yerfıstığı yağı
0
Kaynak:Dunham (2003)
Birliktelik kuralları oluşturulurken öncelikle minimum destek eşik değerini sağlayan sık nesne
kümeler bulunur daha sonrasında ise bu nesne kümeleri kullanılarak minimum güvenilirlik eşik
değerini sağlayan ilginç kurallar bulunur. Birliktelik kurallarının oluşturulmasında karşılaşılan en
önemli problem sık geçen nesne kümelerinin fazlalığı olup bu durum birliktelik kurallarında
yararlanılan algoritmaların performansını belirler (Ay ve Çil, 2008).Birliktelik kuralı algoritmalarının
verimliliği veritabanı için gerekli olan taranma sayısı ve sayılması gereken eleman kümelerinin
maksimum sayısı ile ilişkilidir. Birliktelik kurallarının bulunmasına yönelik en yaygın yaklaşıma göre
ilk önce gerçekleşme sayısı bir eşik değerinin üzerinde olan büyük eleman kümeleri bulunur. Daha
sonrasında ise bu eleman kümelerinden kurallar oluşturulur. Büyük eleman kümelerinin sayısının
üstel olarak artmasından dolayı birliktelik kuralı problemini çözme sorunu genellikle tüm büyük
eleman kümelerinin nasıl verimli şekilde belirleneceği ile ilişkilidir. Birçok birliktelik kuralı
algoritması sayılacak eleman kümelerinin sayısını azaltmak için akıllı yollara dayalı olarak ortaya
konulmuştur (Dunham, 2003). Aşağıda tablo 1’deki veri setinden elde edilen bazı birliktelik kuralları
için bulunan destek ve güvenilirlik değerleri gösterilmektedir:
Destek değeri (s)
Güvenilirlik değeri
Ekmek  Yerfıstığı yağı
%60
%75
 Ekmek
%60
%100
%20
%50
%20
%33,3
%20
%100
%0
%0
Yerfıstığı yağı
 Ekmek
Yerfıstığı yağı  Jöle
Jöle  Yerfıstığı yağı
Jöle  Süt
Bira
( )
Kaynak:Dunham, 2003
Birliktelik kurallarının güçlü yönleri açık ve anlaşılır sonuçlar üretmesi, yönlendirilmemiş veri
madenciliğini desteklemesi, çeşit sayısı fazla ve büyük miktardaki veri üzerinde çalışabilmesi,
hesaplamaların anlaşılma kolaylığı olurken zayıf yönleriyse problem boyutunun hesaplama
karmaşıklığı nedeniyle artması, doğru özellik sayısının bulunmasındaki güçlük, nadir görülen
özelliklerin göz ardı edilmesi olarak sıralanmaktadır.
Birliktelik kurallarına ilişkin modelde
kümesine nesneler kümesi denmekte
ve i’ler nesneleri oluşturmaktadır. İşlemler kümesi olarak adlandırılan D veri tabanındaki tüm
hareketleri gösterirken bir işlemdeki ürünleri gösteren T ise ürünlerin her bir hareketini simgeler. TID
her hareketi ifade eden belirteçtir. I kümesindeki bazı iş yada nesneler seti olan A için bir T işlemler
kümesi
burada
ise T, A’yı kapsıyor denilir. Birliktelik kuralı
,
ve
biçiminde tanımlanabilir ve
olmaktadır. Birliktelik kuralları oluşturulurken kuralların
ilginçliğini ve ilgililiğini ifade eden destek ve güven ölçütleri belirlenir.
kuralının destek
değeri
’nin D işlemler kümesinde bulunma olasılığı iken
kuralının güven değeri D
işlemler kümesinde A’yı içeren işlemlerin B’yi de içerme olasılığıdır (Agrawal, 1994). Başka bir ifade
ile
kuralı için destek
gösterilebilir:
ve güvenilirlik değerlerine yönelik formüller aşağıdaki biçimde
Destek değeri: P(A ve B)= A ve B mallarını satın alan müşteri sayısı/ Toplam müşteri sayısı
Güvenilirlik değeri : P(A/B)= P(A ve B)/P(A)= A ve B mallarını satın alan müşteri sayısı/ A malını
satın alan müşteri sayısı
Birliktelik kuralları oluşturmada ele alınan yönteme göre her sık nesne kümesi I ve boş olmayan
altkümeleri
için minimum destek ve güvenilirlik eşik değerini sağlayan
biçiminde
olası kurallar oluşturulur (Han ve Kamber, 2006). Güvenilirlik değeri %100 olduğu durumlarda
kurallar kesin kural adını almakta ve bütün veri analizlerinde doğru olmaktadır. Birliktelik kuralı
madenciliğine yönelik geliştirilen algoritmalara örnek olarak AIS, SETM, Apriori, Partition,
RapidAssociaitonRuleMining (RARM), CHARM verilebilir. Bunlar arasında en yaygın kullanılan ise
önsel (Apriori) algoritmasıolmaktadır (Özçakır ve Çamurcu, 2007).
3. Yazın Taraması
Yapılan literatür taraması sonucunda çeşitli kriterler açısından (makale sayısı, uygulandığı
disiplinler, çözümde kullanıldığı problem türleri ve yararlanılan algoritma yapıları) elde edilen
sonuçlar aşağıdaki tablolarda gösterilmektedir:
Tablo 4. 2000-2014 yılları arasındaki birliktelik kurallarına yönelik yapılan makale sayısı
Anahtar Kelime: Birliktelik Kuralları
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
2014
Makale Sayısı
0
0
0
1
0
0
0
2
1
3
0
1
2
3
2
Tablo 5. Birliktelik kurallarının uygulandığı disiplinler
Disiplinler
Telekomünikasyon
Ulaştırma
Deniz balıkçılığı
Yazarlar
Li (2009)
Lanka ve Jena (2014)
Su, Zhou ve Shi (2004)
Tablo 6. Birliktelik kurallarının çözümde kullanıldığı problem türleri
Problem türleri
Trafik kaza hacminin tahmini
Yazarlar
Zhou vd. (2009)
Tablo 7. Yararlanılan algoritma yapıları
Algoritma yapıları
Bulanık kümeleme üzerinde sayısal birliktelik
kuralı algoritması
Yazarlar
Li (2009)
4.Sonuç
Veri madenciliği uygulamaları kâr amacı güden veya gütmeyen sanayi ve hizmet sektöründe çok
geniş bir kullanım olanağına sahiptir. İçerisinde birçok farklı yöntem ve teknik barındıran veri
madenciliği konularından birisi de birliktelik kurallarıdır(association rules). Müşteri ilişkileri
yönetimi(CRM) denilince akla ilk gelen müşteriyi ve alışkanlıklarını çok iyi tanıyıp uzun vadeli ilişkileri
yönetmek akla gelir. Müşteri satın alma alışkanlıklarından perakendecilik dâhilinde sepet analizi gibi
alanlarda birliktelik kurallarının teşkili ve bunlara dayalı olarak bilgi üretimi ve bu bilginin yönetsel
kararlarda kullanımı çok verimli bir yoldur. Fakat görülmektedir ki alan yazında çalışma sayısı
kısıtlıdır. Türkiye’deki akademik çalışmalarda veri madenciği tekniklerinin ve bu tekniklerden
birliktelik kurallarının kullanımı çok yoğun değildir. Fakat tekniğin sağlayabileceği faydalar göz önüne
alındığında bu tekniğin piyasada kullanımı çok önem arzetmektedir. Bu çalışmada buna dikkat
çekilmek istenmiştir.
Kaynaklar
Agrawal, R.,Srikant, R. (1994) Fastalgorithmsforminingassociationrules, Proceedings of the 20th
VLDB Conference, Santiago, pp.487-499.
Ay, D. ve Çil, İ. (2010) Migros Türk A.Ş.’de Birliktelik Kurallarının Yerleşim Düzeni Planlamada
Kullanılması, Endüstri Mühendisliği Dergisi, 21(2), 14-29.
Dolgun, M.Ö. ve Zor, İ. (2006) Bir Alışveriş Merkezinden Yapılan Satışlar İçin Sepet Analizi,
www.spss.com.tr/bilisim06_dosyalar/muhsin_ozgur_dolgun.pdf.
Dunham, M. H. (2003) Data Mining: Introductoryand Advanced Topics, PrenticeHallPublication.
Han, J., Kamber, M. (2006) Data Mining: ConceptsandTechniques, Morgan KaufmannPublishers,
pp. 105-259.
Lanka, S ve Jena, S.K. (2014) A Study on Time BasedAssociationRuleMining on Spatial-Temporal
Data forIntelligentTransportation Applications, First International Conference on Networks&Soft
Computing, 395-399.
Li, Q. (2009) An Algorithm of QuantitativeAssociationRule on Fuzzy Clustering with Application to
Cross-selling in TelecomIndustry, International Joint Conference on
ComputationalSciencesandOptimization, 759-762.
Timor, M.,Ezerçe, A. ve Gürsoy, U.T. (2011) Müşteri Profili ve Alışveriş Davranışlarını Belirlemede
leKümeleme ve Birliktelik Kuralları Analizi: Perakende Sektöründe Bir Uygulama, Yönetim, 22(68),
128-147.
Timor, M. ve Şimşek, U.T. (2008) Veri Madenciliğinde Sepet Analizi ile Tüketici Davranışı
Modellemesi, Yönetim, 19(59), 3-10.
Liao, S.,Chu, P. ve Hsiao, P. (2012) Data miningtechniquesandapplications- A decadereviewfrom
2000 to 2011, ExpertSystemswith Applications, 39, 11303-11311.
Özçakır, F.C. ve Çamurcu, A.Y. (2007) Birliktelik Kuralı Yöntemi İçin Bir Veri Madenciliği Yazlımı
Tasarımı ve Uygulaması, İstanbul Ticaret Üniversitesi Fen Bilimleri Dergisi, 6(12), 21-37.
Su, F.,Zhou, C. ve Shi, W. (2004) Geo-eventassociationruleDiscovery model based on rough set
withmarinefisheryapplication,
Weiss, S.H. ve Indurkhya, N. (1998) Predictive Data Mining: A Practical Guide. San Francisco, CA:
Morgan KaufmannPublishers.
Yang, T.C.,Lai, H. (2006) Comparison of Product BundlingStrategies on DifferentOnline
ShoppingBehaviors, Electronic Commerce Researchand Applications, 4(5), 295-304.
Tuğ, E. ve Bulun, M. (2006) Tıbbi Veri Tabanlarında Gizli Bilgilerin Keşfedilmesi, www.tbd.org.tr
Fayyad, U.,Djorgovski, S.G. ve Weir, N. (1996) Automatingtheanalysisandcataloging of skysurveys.
In U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, ve R. Uthurusamy (Eds.), Advances in Knowledge
Discoveryand Data Mining (pp.471-494). Cambridge, MA: MIT Press.
Zhou, H.,Mabu, S., Mainali, M.K., Li, X., Shimada, K. ve Hirasawa, K. (2009) GeneralizedAssociation
RulesMiningwith Multi-Branches: Full PathsandIts Application toTraffic Volume Prediction, ICROSSICE International Joint Conference, 147-152.
Download