Veri Ambarları 1 Veri ambarı nedir? Çok boyutlu veri modeli Veri ambarından veri madenciliğine 2 Farklı şekillerde tanımlanabilir. ◦ Organizasyonun eylemsel veritabanından ayrı/bağımsız olarak kurulan karar destek veritabanı ◦ Tarihsel veri üzerinde analiz yaparak bilgiyi işlemeyi sağlar ◦ çok boyutlu ve karmaşık verileri özetleyen ve katagorize eden teknolojidir Bir veri ambarı yönetimsel karar vermeye yardımcı olacak verilerin konu odaklı, birleştirilmiş, zaman değişken ve sabit olarak toplanmasıdır (W.H.Inmon) Data warehousing (veri ambarcılığı): ◦ Veri ambarı oluşturma ve kullanma işlemi 3 Müşteri, ürün, satış gibi ana konular için geliştirilirler Karar verici makamlar için verinin modellenmesine ve analizine odaklanır ◦ Günlük işlemler ya da alışveriş hareketliliği veri ambarlarının konusu değildir Gereksiz verileri ayıklar ve odaklandığı konu çerçevesinde basit ve anlaşılabilir bilgiyi sunar 4 Farklı kaynakların birleştirilmesi ile oluşur ◦ relational databases, flat files, on-line transaction records Veri temizleme ve birleştirme teknikleri uygulanır ◦ Isimlendirme yöntemlerinde tutarlılık kontolü, birim (metric) ◦ Değişik veri kaynakları arasındaki tutarlılık sağlanır Veri ambarına aktarılırken çevrimler yapılır ◦ Tutarlılık sağlanır 5 Zaman değişkeni canlı veri tabanlarına göre çok daha uzundur ◦ Operasyonel veritabanları: güncel değerler (max 1 yıl) ◦ Veri ambarları: Geçmiş hakkında bilgi verir (geçmiş 5-10 yıl) Veri ambarlarındaki her yapı direk yada dolaylı olarak bir zaman elemanı içerir ◦ Zaman içindeki değişikliklere odaklanır 6 Canlı veritabanlarından alınan veri farklı bir fiziksel bir ortamda saklanır Veri ambarında veri güncellemesi olmaz Canlı veritabanlarındaki değişim veri ambarlarını etkilemez Sadece “ilk veri yüklemesi” ve “veri erişimi” işlemlerini kullanır 7 Veritabanlarının birleştirilmesi - OLTP (on-line transaction processing) ◦ Geleneksel veritabanlarındaki temel işlem ◦ Farklı veritabanları arasında bir arabulucu katman ◦ Her veritabanında ayrı sorgu yapıp sonra birleştirir ◦ Günlük işlemler Veri Ambarları - OLAP (on-line analytical processing) ◦ Veri ambarlarındaki temel işlem ◦ Veri analizi ve karar alma Farklı özellikleri (OLTP vs. OLAP): ◦ Kullanıcı / sistem odaklı: müşteri vs. sektör ◦ Veri içeriği: güncel, detaylı vs. tarihsel, özetlenmiş ◦ Erişim: güncelleme, basit sql sorguları vs. read-only ama karmaşık sorgular 8 OLTP OLAP fonksiyon Günlük işlemler Karar desteği VT tasarım Uygulama odaklı Konu odaklı veri tarihsel, özet, çok boyutlu birleştirilmiş, tümleşik Çok fazla tarama sorgular güncel detaylı izole Okuma/yazma Temel anahtar ile indeks/özüt Kısa basit # erişilen kayıt onlarca milyonlarca #kullanıcı binlerce yüzlerce VT boyutu 100MB-10GB 100GB-10TB erişim karmaşık 9 Veri ambarı nedir? Çok boyutlu veri modeli Veri ambarından veri madenciliğine 10 Veri ambarlarının temeli olan çok boyutlu veri modelinde veri, veri kübü şeklinde ifade edilir Örnek olarak satış bilgisi içeren veri küpünün farklı boyutları: ◦ Ürün, zaman, konum gibi ◦ Her boyut için bir Boyut tablosu (Dimension table), ürün (ürün_ismi, markası, cinsi) yada zaman(hafta, ay, mevsim, yıl) ◦ Değer tablosu (Fact table) sayısal ölçüm değerlerini tutar Kaç tane satıldı, toplam ürün cirosu gibi Ayrıca ilgili boyut tabloları için anahtarları tutar 11 Yıldız (Star) şema: Merkezde bir değer tablosu (fact table) çevresindeki boyut tablolarını (dimention table) birleştirir Kartanesi (Snowflake) şema: Yıldız şemasının gelişmiş halidir. Yıldızın uç noktaları genişleyerek baska alt-boyutlara açılır. Bu nedenle görüntüsü kar tanesini andırır. ◦ Her boyut birden fazla boyut tablosu ile ifade edilir 12 time item time_key day day_of_the_week month quarter year Sales Fact Table time_key item_key branch_key branch location_key branch_key branch_name branch_type units_sold dollars_sold avg_sales item_key item_name brand type supplier_type location location_key street city state_or_province country Measures 13 14 time time_key day day_of_the_week month quarter year item Sales Fact Table time_key item_key branch_key branch location_key branch_key branch_name branch_type units_sold dollars_sold avg_sales Measures item_key item_name brand type supplier_key supplier supplier_key supplier_type location location_key street city_key city city_key city state_or_province country 15 16 Çok boyutlu verinin modellenmesini ve görsel ifadesini sağlar Yıldız şemaya benzer farklı bir ifade yöntemi Kayıtlar/değerler küpün boyutları üzerinde tutulur ◦ Zaman, ürün, reyon, konum… Her boyut için bir boyut tablosu (dimension table) vardır 17 • 4-D küpler farklı 3-D küpler ile ifade edilebilir Supplier 1 Supplier 2 Supplier 3 18 Veri küpü genellikle küboid (cuboid) olarak adlandırılır Boyutların herhangi bir alt kümesi için küboid tasarlanabilir ◦ Farklı seyiyelerde özetleme sağlar N-D küp baz küboid ◦ En alt seviye özet, detaylı bilgi 0-D küp tepe (apex) küboid ◦ En üst seviye özet ◦ Tüm boyutlarda özet 19 all time 0-D(apex) cuboid item time,location location item,location time,supplier time,item supplier 1-D cuboids location,supplier 2-D cuboids item,supplier time,location,supplier 3-D cuboids time,item,location time,item,supplier item,location,supplier 4-D(base) cuboid time, item, location, supplier 20 (2-D) tabloda ürün-zaman boyutları için satış değerleri tablosu TV PC VCR 1st Qtr 1000 850 350 2nd Qtr 1352 940 298 3rd Qtr 1450 658 314 4th Qtr 1500 965 365 USA 21 TV PC VCR TV PC VCR TV PC VCR 1st Q 1000 850 350 2600 750 425 1300 850 350 2nd Q 1352 940 298 1752 860 236 1200 1000 400 3rd Q 1450 658 314 1055 458 520 1150 555 510 4th Q 1500 965 365 1350 1065 390 900 750 425 USA Canada Mexico 22 Örnek veri küpü 2Qtr 3Qtr 4Qtr sum U.S.A Canada Mexico Country TV PC VCR sum 1Qtr Date Total annual sales of TV in U.S.A. sum 23 all product product,date date 0-D tepe(apex) cuboid country product,country 1-D cuboids date, country 2-D cuboids product, date, country 3-D baz (base) cuboid 24 Ürün ay ve bölgenin bir fonksiyonu olarak satış verisi Ürün konum ve zaman boyutları Örnek hiyerarşi yapısı Industry Region Year Category Country Quarter Product Product City Office Month Week Day Month 25 Konum boyutu için örnek hiyerarşi yapsı all all Europe region country city office Germany Frankfurt ... ... ... Spain North_America Canada Vancouver ... L. Chan ... ... Mexico Toronto M. Wind 26 Genelleme - Roll up (drill-up): veriyi özetler, 2 şekilde yapılabilir ◦ hiyeraşi üzerinde yukarı doğru çıkılır (ay yıl) ◦ Boyut azaltımı yapılır Derinleme - Drill down (roll down): roll-up işleminin tersi ◦ hiyeraşi üzerinde aşağılara inilerek veri detaylandırılır ◦ Yeni boyutlar yaratılabilir Dilimleme - Slice and dice: yansıt ve seç ◦ Veride istenilen bölge (dilim ya da küp) belirlenir ve “kesilerek” alınır Pivot (rotate): ◦ Veri küpü çevrilir, görsel olarak değiştirilir ◦ 3B veriden 2B veriler serisine çevrilebilir 27 28 Veri ambarı nedir? Çok boyutlu veri modeli Veri ambarından veri madenciliğine 32 Üç temel veri ambarı uygulaması vardır: ◦ Bilgi İşleme Sorguları, basit istatistiksel analizleri destekler, tablolar, grafikler ve çizimler ile raporlama yapar ◦ Analitik İşleme Verilerin çok boyutlu analizi basit OLAP operasyonlarını destekler, slice-dice, drilling, pivoting ◦ Veri Madenciliği - Data mining Gizli kalıpların içinden bilgi çıkartmak Ilişkilendirme, analitik model çıkarma, sınıflandırma ve öngörü metodları uygulama, madencilik sonuçlarını görselleştirme gibi işlemleri destekler 33 Neden veri ambarları? Çok boyutlu veri ambarı modelleri ◦ Yıldız şeması, kartanesi şeması ◦ Farklı boyutlar ve bu boyutlar için ölçüm değerleri tutan veri küpleri OLAP operasyonları: drilling, rolling, slicing, dicing and pivoting Veri ambarları mimarisi 34