Veri ambarı

advertisement
Veri Ambarları
1

Veri ambarı nedir?

Çok boyutlu veri modeli

Veri ambarından veri madenciliğine
2

Farklı şekillerde tanımlanabilir.
◦ Organizasyonun eylemsel veritabanından ayrı/bağımsız
olarak kurulan karar destek veritabanı
◦ Tarihsel veri üzerinde analiz yaparak bilgiyi işlemeyi sağlar
◦ çok boyutlu ve karmaşık verileri özetleyen ve katagorize
eden teknolojidir


Bir veri ambarı yönetimsel karar vermeye yardımcı
olacak verilerin konu odaklı, birleştirilmiş, zaman
değişken ve sabit olarak toplanmasıdır (W.H.Inmon)
Data warehousing (veri ambarcılığı):
◦ Veri ambarı oluşturma ve kullanma işlemi
3

Müşteri, ürün, satış gibi ana konular için

geliştirilirler
Karar verici makamlar için verinin modellenmesine
ve analizine odaklanır
◦ Günlük işlemler ya da alışveriş hareketliliği veri ambarlarının
konusu değildir

Gereksiz verileri ayıklar ve odaklandığı konu
çerçevesinde basit ve anlaşılabilir bilgiyi sunar
4


Farklı kaynakların birleştirilmesi ile oluşur
◦ relational databases, flat files, on-line transaction
records
Veri temizleme ve birleştirme teknikleri uygulanır
◦ Isimlendirme yöntemlerinde tutarlılık kontolü, birim (metric)
◦ Değişik veri kaynakları arasındaki tutarlılık sağlanır

Veri ambarına aktarılırken çevrimler yapılır
◦ Tutarlılık sağlanır
5

Zaman değişkeni canlı veri tabanlarına göre çok
daha uzundur
◦ Operasyonel veritabanları: güncel değerler (max 1 yıl)
◦ Veri ambarları: Geçmiş hakkında bilgi verir (geçmiş 5-10 yıl)

Veri ambarlarındaki her yapı direk yada dolaylı
olarak bir zaman elemanı içerir
◦ Zaman içindeki değişikliklere odaklanır
6




Canlı veritabanlarından alınan veri farklı bir fiziksel
bir ortamda saklanır
Veri ambarında veri güncellemesi olmaz
Canlı veritabanlarındaki değişim veri ambarlarını
etkilemez
Sadece “ilk veri yüklemesi” ve “veri erişimi”
işlemlerini kullanır
7



Veritabanlarının birleştirilmesi - OLTP (on-line transaction
processing)
◦ Geleneksel veritabanlarındaki temel işlem
◦ Farklı veritabanları arasında bir arabulucu katman
◦ Her veritabanında ayrı sorgu yapıp sonra birleştirir
◦ Günlük işlemler
Veri Ambarları - OLAP (on-line analytical processing)
◦ Veri ambarlarındaki temel işlem
◦ Veri analizi ve karar alma
Farklı özellikleri (OLTP vs. OLAP):
◦ Kullanıcı / sistem odaklı: müşteri vs. sektör
◦ Veri içeriği: güncel, detaylı vs. tarihsel, özetlenmiş
◦ Erişim: güncelleme, basit sql sorguları vs. read-only ama
karmaşık sorgular
8
OLTP
OLAP
fonksiyon
Günlük işlemler
Karar desteği
VT tasarım
Uygulama odaklı
Konu odaklı
veri
tarihsel,
özet, çok boyutlu
birleştirilmiş, tümleşik
Çok fazla tarama
sorgular
güncel
detaylı
izole
Okuma/yazma
Temel anahtar ile
indeks/özüt
Kısa basit
# erişilen kayıt
onlarca
milyonlarca
#kullanıcı
binlerce
yüzlerce
VT boyutu
100MB-10GB
100GB-10TB
erişim
karmaşık
9

Veri ambarı nedir?

Çok boyutlu veri modeli

Veri ambarından veri madenciliğine
10

Veri ambarlarının temeli olan çok boyutlu veri modelinde veri,
veri kübü şeklinde ifade edilir

Örnek olarak satış bilgisi içeren veri küpünün farklı boyutları:
◦ Ürün, zaman, konum gibi
◦ Her boyut için bir Boyut tablosu (Dimension table), ürün
(ürün_ismi, markası, cinsi) yada zaman(hafta, ay, mevsim,
yıl)
◦ Değer tablosu (Fact table) sayısal ölçüm değerlerini tutar
 Kaç tane satıldı, toplam ürün cirosu gibi
 Ayrıca ilgili boyut tabloları için anahtarları tutar
11

Yıldız (Star) şema: Merkezde bir değer
tablosu (fact table) çevresindeki boyut
tablolarını (dimention table) birleştirir

Kartanesi (Snowflake) şema: Yıldız şemasının
gelişmiş halidir. Yıldızın uç noktaları
genişleyerek baska alt-boyutlara açılır. Bu
nedenle görüntüsü kar tanesini andırır.
◦ Her boyut birden fazla boyut tablosu ile ifade edilir
12
time
item
time_key
day
day_of_the_week
month
quarter
year
Sales Fact Table
time_key
item_key
branch_key
branch
location_key
branch_key
branch_name
branch_type
units_sold
dollars_sold
avg_sales
item_key
item_name
brand
type
supplier_type
location
location_key
street
city
state_or_province
country
Measures
13
14
time
time_key
day
day_of_the_week
month
quarter
year
item
Sales Fact Table
time_key
item_key
branch_key
branch
location_key
branch_key
branch_name
branch_type
units_sold
dollars_sold
avg_sales
Measures
item_key
item_name
brand
type
supplier_key
supplier
supplier_key
supplier_type
location
location_key
street
city_key
city
city_key
city
state_or_province
country
15
16



Çok boyutlu verinin modellenmesini ve görsel
ifadesini sağlar
Yıldız şemaya benzer farklı bir ifade yöntemi
Kayıtlar/değerler küpün boyutları üzerinde
tutulur
◦ Zaman, ürün, reyon, konum…

Her boyut için bir boyut tablosu (dimension
table) vardır
17
• 4-D küpler farklı 3-D küpler ile ifade edilebilir
Supplier 1
Supplier 2
Supplier 3
18


Veri küpü genellikle küboid (cuboid) olarak
adlandırılır
Boyutların herhangi bir alt kümesi için küboid
tasarlanabilir
◦ Farklı seyiyelerde özetleme sağlar

N-D küp  baz küboid
◦ En alt seviye özet, detaylı bilgi

0-D küp  tepe (apex) küboid
◦ En üst seviye özet
◦ Tüm boyutlarda özet
19
all
time
0-D(apex) cuboid
item
time,location
location
item,location
time,supplier
time,item
supplier
1-D cuboids
location,supplier
2-D cuboids
item,supplier
time,location,supplier
3-D cuboids
time,item,location
time,item,supplier
item,location,supplier
4-D(base) cuboid
time, item, location, supplier
20

(2-D) tabloda ürün-zaman boyutları için satış
değerleri tablosu
TV
PC
VCR
1st Qtr
1000
850
350
2nd Qtr
1352
940
298
3rd Qtr
1450
658
314
4th Qtr
1500
965
365
USA
21
TV
PC
VCR
TV
PC
VCR
TV
PC
VCR
1st Q
1000
850
350
2600
750
425
1300
850
350
2nd Q
1352
940
298
1752
860
236
1200
1000
400
3rd Q
1450
658
314
1055
458
520
1150
555
510
4th Q
1500 965
365
1350
1065
390
900
750
425
USA
Canada
Mexico
22
Örnek veri küpü
2Qtr
3Qtr
4Qtr
sum
U.S.A
Canada
Mexico
Country
TV
PC
VCR
sum
1Qtr
Date
Total annual sales
of TV in U.S.A.
sum
23
all
product
product,date
date
0-D tepe(apex)
cuboid
country
product,country
1-D cuboids
date, country
2-D cuboids
product, date, country
3-D baz (base)
cuboid
24
Ürün ay ve bölgenin bir fonksiyonu olarak
satış verisi
Ürün konum ve zaman boyutları
Örnek hiyerarşi yapısı
Industry Region
Year
Category Country Quarter
Product

Product
City
Office
Month Week
Day
Month
25
Konum boyutu için örnek hiyerarşi yapsı
all
all
Europe
region
country
city
office
Germany
Frankfurt
...
...
...
Spain
North_America
Canada
Vancouver ...
L. Chan
...
...
Mexico
Toronto
M. Wind
26




Genelleme - Roll up (drill-up): veriyi özetler, 2 şekilde yapılabilir
◦ hiyeraşi üzerinde yukarı doğru çıkılır (ay  yıl)
◦ Boyut azaltımı yapılır
Derinleme - Drill down (roll down): roll-up işleminin tersi
◦ hiyeraşi üzerinde aşağılara inilerek veri detaylandırılır
◦ Yeni boyutlar yaratılabilir
Dilimleme - Slice and dice: yansıt ve seç
◦ Veride istenilen bölge (dilim ya da küp) belirlenir ve “kesilerek”
alınır
Pivot (rotate):
◦ Veri küpü çevrilir, görsel olarak değiştirilir
◦ 3B veriden 2B veriler serisine çevrilebilir
27
28

Veri ambarı nedir?

Çok boyutlu veri modeli

Veri ambarından veri madenciliğine
32

Üç temel veri ambarı uygulaması vardır:
◦ Bilgi İşleme
 Sorguları, basit istatistiksel analizleri destekler,
 tablolar, grafikler ve çizimler ile raporlama yapar
◦ Analitik İşleme
 Verilerin çok boyutlu analizi
 basit OLAP operasyonlarını destekler, slice-dice, drilling,
pivoting
◦ Veri Madenciliği - Data mining
 Gizli kalıpların içinden bilgi çıkartmak
 Ilişkilendirme, analitik model çıkarma, sınıflandırma ve
öngörü metodları uygulama, madencilik sonuçlarını
görselleştirme gibi işlemleri destekler
33

Neden veri ambarları?

Çok boyutlu veri ambarı modelleri
◦ Yıldız şeması, kartanesi şeması
◦ Farklı boyutlar ve bu boyutlar için ölçüm değerleri tutan veri
küpleri


OLAP operasyonları: drilling, rolling, slicing, dicing and
pivoting
Veri ambarları mimarisi
34
Download