Lineer Modeller Bazı Lineer Model Örnekleri Deney

advertisement
3. Ders
Lineer Modeller
Bazı Lineer Model Örnekleri
Deney Tasarımı Modelleri
Y gerçek dünyada bir olgu ile ilgili bir özellik üzerinde yapılan n
tane gözlemin oluşturduğu vektör, gözlemlerin n × 1 mertebeli vektörü,
rasgele vektör; X : n × p (n < p) gözlenen ya da bilinen sayıların matrisi,
olgu ile ilgili p1 ( p1 ≤ p) tane başka özellik-açıklayıcı değişken için n
tane gözlem ve etken ismini taşıyan p2 ( p2 ≤ p , p1 + p2 = p) tane özellik
ile ilgili tespit edilmiş n tane değerin oluşturduğu n × p mertebeli matrisi;
β : p ×1 bilinmeyen parametrelerin vektörü; ε : n×1 rasgele değişkenlerin
gözlenebilir olmayan bir vektörü ( E (ε ) = 0, Cov(ε ) = Σ) olmak üzere,
bunlar arasında,
Y = Xβ + ε
biçiminde varsayılan bağıntıya lineer model denir.
Bu model pekçok özel hallere sahiptir. Bunlar, ε nun dağılımına,
Σ kovaryans matrisine, X in yapısına ve rankına bağlıdır.
Aksi belirtilmedikçe, rank ( X) = p olduğunu kabul edeceğiz, yani
modelimizdeki X matrisi tam sütun ranklı olacaktır. ε ‘nun dağılımı
hakkında aşağıdaki üç durumu göz önüne alacağız:
1.Durum : ε ∼ N (0, σ 2I)
2.Durum:
ε
bilinmeyen
bir
dağılıma
sahiptir
ve
E (ε ) = 0 , Cov(ε ) = σ 2I dır. Bu durumu ε ∼ (0, σ 2I ) biçiminde göstereceğiz.
3. Durum: Cov(ε ) = σ 2 V , V bilinen pozitif tanımlı bir matris.
Birinci durumda herbir εi , 0 ortalamalı bilinmeyen σ2 varyanslı
normal dağılıma sahiptir ve εi , i = 1, 2,..., n ler bağımsızdır. Đkinci
durumda, herbir εi nin beklenen değeri sıfır, εi ler ilişkisiz (uncorrelated)
ve εi ler bilinmeyen ortak σ2 varyansına sahiptirler.
Birinci ve ikinci durumdaki varsayımlar altındaki modellere
Gauss-Markov modelleri denir. Đkinci durumdaki modellere bazen en
küçük kareler modelleri denir. Hata terimi normal dağılımlı olduğunda
modellere hipotez modelleri denir.
Y = X β + ε lineer modelinde X β ya modelin deterministik kısmı, Y
ve ε ‘a da modelin stokastik kısmı denir. Y vektörü, bağımlı değişken,
tepki değişkeni, açıklanan değişken denen bir rasgele değişken ile ilgili
gözlemlerin vektörüdür. X matrisine tasarım matrisi, açıklayıcı
değişkenlerin gözlem matrisi, bağımlı değişkenlerin gözlem matrisi gibi
isimler verilmektedir. ε vektörüne hata vektörü denmektedir.
Gerçek dünyadaki olayların lineer model olarak modellenmesi
sırasında Y , X, β ve ε çok değişik şekilde anlamlandırılmaktadır. Bazı
modellerde Y üretim miktarı, bazılarında boy uzunluğu, bazılarında bir
ekonomi değişkeni,...ile ilgili gözlem vektörüdür.
Bir Açıklayıcı Değişkenli Lineer Modeller
Genel olarak bir açıklayıcı değişkenli (X) bir lineer model
Y = g( X ) + ε
biçimindedir. Buradaki g ( x ) ifadesi bazı parametrelere göre lineer bir
ifadedir. Örneğin,
g ( x ) = βx
g ( x ) = β0 + β1x
g ( x ) = β0 + β1x + β2 x2
g ( x ) = β0 + β1x + β2e x
gibi olabilir. g ( x ) ifadesi parametrelere göre lineer olmadığında lineer
olmayan bir model sözkonusudur. Bağımlı değişken Y ile ilgili
gözlemlere dayalı olarak,
Yi = β0 + β1 X i + εi , i = 1, 2 ,..., n
biçiminde bir ifade sözkonusu olduğunda modele Basit Lineer Model
denir.
Basit Lineer Regresyon Modelleri ( E (Y / X = x) = α + β x ) de,
Y/ X = x = α + β x + ε
olarak, Lineer Model çerçevesinde düşünülebilir.
Örnek Belli bir tür elmadaki meyve suyu miktarını, elmanın ağırlığına
bağlı olarak incelemeyi düşünelim. Gerçekte bir elmadaki meyve suyu
miktarı sadece elmanın ağırlığına bağlı değildir, ama ağırlık ile meyve
suyu arasında bir fonksiyonel bağıntının (bilinmeyen parametrelere göre
lineer bir ifade olabilir) varlığını kabul edip gözlemlerin bunu doğrulayıp
doğrulamadığını, gözlemlerden çıkıp bir bağıntının bulunmasını ve
bunların neticesinde ağırlığa bağlı olarak meyve suyu miktarını
"belirlemeyi" (tahmin etmeyi) düşünebiliriz. Bu örnekteki açıklayıcı
değişken olan elmanın ağırlığı ve açıklanan (bağımlı) değişken olan
elmadaki meyve suyu miktarı birer rasgele değişkendir. Ağırlığı X , meyve
suyu miktarını Y ile gösterirsek X ile Y nin bir ortak dağılımı sözkonusu
olacaktır.
E (Y / X = x ) = g ( x )
ifadesine Y nin X üzerindeki Regresyon Denklemi dendiğini ve X ile Y
‘nin ortak dağılımı normal olduğunda,
E (Y / X = x ) = β0 + β1x
biçiminde olduğunu hatırlatalım. ( X , Y ) nin dağılımından n birimlik
örneklem, ( X1, Y1), ( X 2 , Y2 ),..., ( X n , Yn ) olmak üzere,
Yi = β 0 + β1 X i + ε i , i = 1, 2,..., n
,
ε i ∼ N (0, σ 2 ) , ε i 'ler bağımsız
veya
 Y1 
1 X 1 
 ε1 
Y 
1 X 
ε 
 β0 
2
2


Y=
, X=
, β =   , ε =  2
⋮
⋮ ⋮ 
⋮
 β1 
 


 
Yn 
1 X n 
ε n 
gösterimi altında,
Y = X β + ε , ε ∼ N (0, σ 2 I )
modeline Basit Lineer Regresyon Modeli denir.
Elmanın ağırlığı X ile elmadaki meyve suyu miktarı Y ‘nin ortak
dağılımı normal olmayabilir. Amacımız, seçilen bir elma için X ‘in
gözlenen değerine bağlı olarak Y ‘nin değerini tahmin etmek veya X = x
olan elmaların koşullu ortalamasını (beklenen değerini) tahmin etmek
olduğunda,
Yi = β0 + β1 X i + εi , i = 1, 2 ,..., n , E(ε i ) = 0 , Var (ε i ) = σ 2 , ε i 'ler bağımsız
biçiminde bir Basit Lineer Model söz konusudur.
Birden Çok Açıklayıcı Değişkenli Lineer Modeller
Bir malzemenin imalatında sıcaklık ( x1) ile basıncın ( x2 ) sertlik (Y )
üzerindeki etkisini incelemeyi düşünelim. Đmalat sırasında sıcaklık (o C )
ve basınç ( kg / cm2 ) ,
l
q
D = ( x1, x2 ): 500 ≤ x1 ≤ 1500, 1000 ≤ x2 ≤ 2000
bölgesinde değerler almak üzere, sertlik üzerinde etkisi,
Y ( x1, x2 ) = β 0 + β1x1 + β 2 x2 + β3 x1x2 + ε , E (ε ) = 0
gibi bir model ile anlatılmış (modellenmiş) olsun. β1 katsayısı sıcaklığın
sertlik üzerinde etkisini, β2 katsayısı basıncın ve β3 katsayısı da ikisinin
ortak etkisini anlatmaktadır. Bu etkileri veya kısaca model
parametrelerini tahmin etmek için, ( x1i , x2i ) ∈ D , i = 1, 2,..., n sıcaklık ve
basınç değerlerinde imal edilen parçaların Yi , i = 1, 2,..., n sertlikleri
ölçülüp, gözlemler,
 Y1 
1 x11
Y 
1 x
2
21

Y=
, X=
⋮
⋮ ⋮
 

Yn 
1 xn1
x12
x22
⋮
xn 2
x11.x12 
x21.x22 
⋮ 

xn1.xn 2 
olsun. β katsayılar vektörü olmak üzere, söylenilenler
Y = Xβ + ε
lineer modeli ile ifade edilir.
Sıcaklık ile basıncın, sertlik üzerindeki etkisinin fonksiyon
biçiminde bir bağıntı ile ifade edilip edilemiyeceği, bu bağıntının
biçiminin ne olacağı veya sıcaklık ile basınç değişkenlerinin sertliği ne
derece etkileyip etkilemediği gibi sorunlar ilk olarak metalurji biliminin
sorunlarıdır. Örneğin:
a) Metalurji biliminin kanunlarına göre sıcaklık ile basıncın sertlik
üzerindeki etkisi tam olarak belirlenmiş ( y = 2e x1+3 x2 ?) olabilir. Bu
durumda istatistikçinin yapacağı fazla bir şey kalmamıştır. Belki
belirlenmiş olan modelin geçerliliğinin sınanmasında yardımcı olabilir.
b) Bağıntı biçimsel olarak belirlenmiş ancak içinde bilinmeyen
parametreler vardır. Bu parametreler, deneylerle elde edilen gözlemlere
dayalı olarak tahmin edilecektir.
c) Aralarında bir bağıntı var ama ne olduğu bilinmiyor
y = g ( x1 , x2 )
 ∂g ( x1 , x2 ) 


 ∂x1 

g ( x1 , x2 ) = g (0, 0) + [ x1 x2 ] 
 ∂g ( x1 , x2 ) 


 ∂x2 
(0,0)
 ∂g ( x1 , x2 )

 ∂x1∂x1
1
+ [ x1 x2 ] ' 
 ∂g ( x1 , x2 )
2!

 ∂x2∂x1
∂g ( x1 , x2 ) 


[ x1 x2 ] + ...
∂g ( x1 , x2 ) 

∂x2∂x2  (0,0)
∂x1∂x2 
y = g ( x1 , x2 ) ≈ β0 + β1x1 + β2 x2 + β3 x12 + β4 x1 x2 + β5 x22
olabilir. Taylor açılımı, (0,0) noktası yerine, daha uygun başka bir nokta
komşuluğunda yapılabilir. Sonuçta, gözlemler için
Yi = β0 + β1 x1i + β2 x2i + β3 x12i + β4 x1i x2i + β5 x22i + εi , i = 1, 2,..., n
şeklinde, parametrelerine göre lineer bir model yazılabilir. Amaç
belirlendikten sonra (örneğin bu amaç hangi sıcaklık ve basınçta
malzemenin sertliği maksimum olmaktadır olabilir) gözlemlerin alınacağı
en iyi deney tasarımının ve ardından istatistiksel sonuç çıkarımın
yapılması Đstatistik biliminin sorunudur.
Đkinci bir örnek olarak belli bir mısır türünün verimini incelemeyi
düşünelim. Verim, toprak ve hava ile ilgili birçok tabiat şartı yanında
sulama, gübreleme, toprağı işleme gibi bazı etkenlere bağlıdır.
Modelleme sırasında, çok karmaşık olan gerçek dünyadaki ilişkilerden
bazılarını ihmal ederek, verim ( Y ) için toplam yağış miktarı ( X1 kg / m2 ) ,
sıcaklık ortalaması ( X 2 oC , bitkinin yetişmesi boyunca hergün bir defa
ölçülen sıcaklıkların ortalaması), gübre miktarı ( X 3 kg / m 2 ) , bir
metrekaredeki bitki sayısına ( X 4 ) bağlı olarak,
Y = β0 + β1 X1 + β2 X 2 + β3 X 3 + β4 X 4 + ε
gibi bir modelin geçerli olduğunu varsayalım. Gerek modelin
geçerliliğinin sınanması, gerekse geçerli olacak bir modelde açıklayıcı
değişkenlerin etkilerinin, yani parametrelerin tahmin edilmesi amacıyla
yapılacak araştırmada veri toplama savhası uygulamada pek kolay
olmayacaktır. Modeldeki yağış miktarı ve sıcaklık ortalaması ile ilgili
açıklayıcı değişkenler birer rasgele değişkendir, gübre miktarı ile ilgili
açıklayıcı değişken bir deterministik değişken olarak görülebilir.
Açıklayıcı değişkenlerin birer rasgele değişken olup olmamasına
bakmaksızın, bundan sonra açıklayıcı değişkenler ile ilgili X matrisini,
gözlem değerlerinin bir matrisi, yani sabitlerin bir matrisi olarak
düşüneceğiz. Bu örnek için,
1 x11
1 x
21
X=
⋮ ⋮

1 xn1
dır.
x12
x22
⋮
xn 2
x13 x14 
x23 x24 
⋮ ⋮ 

xn 3 xn 4 
Genel olarak,
Y = Xβ + ε
gibi bir lineer modelde,
 x11
 Y1 
x
Y 
21
2

Y=
, X=
 ⋮
⋮

 
 xn1
Yn 
x12 ⋯ x1 p 
 β1 
 ε1 



ε 
x22 ⋯ x2 p 
β2
, β=  , ε =  2
⋮ 
⋮
⋮ 
⋮

 
 
xn 2 ⋯ xnp 
 β p 
ε n 
olmak üzere, X matrisinin sütun vektörlerini,
 x1 j 
x 
2j
X j =   , j = 1, 2,..., p
 ⋮ 
 
 xnj 
gibi büyük harflerle, satır vektörlerini ise
x i' =  xi1 , xi 2 , ⋯, xip  , i = 1, 2,..., n


gibi küçük harflerle göstereceğiz. Bazı durumlarda X 1, X 2 ,..., X p
vektörlerini veya x1, x 2 ,..., xn vektörlerini birer rasgele vektör olarak
görmek isteyeceğiz. Böyle durumlarda rasgele değişkenlerin alışılmış
büyük harfler ile gösterimi için sıkıntılar ortaya çıkacağını belirtelim.
Genel olarak çoklu lineer modeler,
Y : n × 1 , X : n × p , β : p × 1 , ε : n ×1 , E (ε ) = 0 , Cov(ε ) = σ 2I
olmak üzere,
Y = Xβ+ ε
Y = β1 X1 + β2 X 2 + ... + β p X p + ε
Yi = β1xi 1 + β2 xi 2 + ... + β p xip + εi , i = 1, 2 ,..., n
biçiminde gösterilir.
 x11
x
21
X=
 ⋮

 xn1
x12 ⋯ x1 p 
x22 ⋯ x2 p 
⋮
⋮ 

xn 2 ⋯ xnp 
matrisine açıklayıcı değişkenlerin gözlem matrisi, veya tasarım matrisi
denir.
E (Yi ) = β1xi1 + β2 xi 2 +... +β p xip , i = 1, 2 ,..., n
olmak üzere Yi (i = 1, 2 ,..., n ) rasgele değişkeni, beklenen değeri,
µi = β1xi1 + β2 xi 2 +... +β p xip , i = 1, 2,..., n
olan ve varyansı σ2 olan dağılımdan bir gözlem olarak düşünülebilir.
Kısaca,
 µ1 
µ 
Y ∼ (µ =  2  , σ 2I )
⋮ 
 
 µn 
{
}
yazılabilir. Bu durumda parametre kümesi ( µ , σ 2 ) : µ ∈ [ X] , σ 2 > 0 dır. X
matrisinin sütun vektörlerinin gerdiği [ X] ⊂ R n×1 vektör uzayına tahmin
uzayı (estimation space) denir. [ X] tahmin uzayı ile model katsayılarının
oluşturduğu β parametre vektörünün bulunduğu R p×1 parametre uzayı
arasında, rank( X ) = p olduğunda bire-bir bir geçiş vardır.
X : R p → [ X] ⊂ R n
β → Xβ
ve tersine µ = X β ∈ [ X] vektörünün ters görüntüsü,
β = ( X ' X ) −1 X ' µ
dır. rank ( X) < p olduğunda, µ ∈ [ X] parametre vektörüne, R p parametre
uzayında birden çok β değeri karşılık gelecektir. Bu durum, β nın tahmin
edilmesinde sorunlar yaratacaktır.
Deney Tasarımı Modelleri
Y = X β + ε modelinde X matrisi sadece 0 ile 1 lerden oluştuğunda
modele tasarım modeli denir. Bu modeller çok değişik uygulamalarda
karşımıza çıkmaktadır. Bazılarını örneklerle ele alalım.
Belli bir kitlenin ortalaması veya daha somut olarak, bir aylık olan
civcivlerin ağırlık ortalaması ile ilgilendiğimizi düşünelim. µ , ağırlık
ortalaması ve Y1, Y2 ,..., Yn , n birimlik örneklem olmak üzere,
Yi = µ + εi , i = 1, 2,..., n , E (εi ) = 0 , Var (εi ) = σ 2 , εi ler bağımsız (ilişkisiz)
veya
 Y1 
 ε1 
1
Y 
ε 
1
2



Y=
,X =
, ε =  2
⋮
⋮
⋮ 
 
 

1
Yn 
ε n 
gösterimi ile,
Y = X µ + ε , E ( ε ) = 0 , Cov ( ε ) = σ2 I
yazılabilir. Şimdi, civcivlere farklı iki gıda rejimi uygulansın ve sonuçta
ağırlık ortalamaları karşılaştırılmak istensin. Birinci gıda rejimi
sonucunda kitle ortalaması µ1, diğerinde µ 2 olsun. Y11, Y12 ,..., Y1n birinci
kitleden n birimlik örneklem, Y21, Y22 ,..., Y2 m ikinci kitleden m birimlik
örneklem olmak üzere,
 Y11  1
 Y  1
 12  
 ⋮  ⋮
  
 Y1n  = 1
 Y21  0
  
 Y22  0
 ⋮  ⋮
  
Y2 m  0
0
 ε11 
ε 

0
 12 
 ⋮ 
⋮
 

0   µ1   ε 1n 
+
1   µ2   ε 21 
 

1
 ε 22 
 ⋮ 

⋮
 

1 
ε 2 m 
gibi bir lineer model düşünülebilir. Hata vektörü için kitle varyanslarının
eşit olması durumunda,
E ( ε ) = 0 , Cov( ε ) =σ2In + m
gibi bir varsayım, farklı olması durumunda,
σ 2 I
0 
E (ε ) = 0 , Cov(ε ) =  1 n

2
σ 2 Im 
 0
gibi bir varsayım sözkonusu olacaktır.
Her iki gıda rejiminin ortalama ağırlık üzerindeki etkisini görmek
istediğizde, µ gıda rejimi uygulanmadığında ortalama ağırlık, µ + α1
birinci gıda rejiminde ortalama ağırlık, µ + α2 ikinci gıda rejiminde
ortalama ağırlık olmak üzere,
 Y11  1
 Y  1
 12  
 ⋮  ⋮
  
 Y1n  = 1
 Y21  1
  
 Y22  1
 ⋮  ⋮
  
Y2 m  1
veya
1
1
⋮
1
0
0
⋮
0
0
 ε11 
ε 

0
 12 
 ⋮ 
⋮
 µ   
0     ε 1n 
α1 +
1     ε 21 
 α   
1   2   ε 22 
 ⋮ 
⋮
 

1 
ε 2 m 
Yij = µ + αi + εij , i = 1, 2 , j = 1, 2 ,..., ni , (i = 1 için ni = n , i = 2 için ni = m)
gibi bir model düşünülebilir. Bu durumda tasarım matrisi X aşağıdaki
gibi yazılabilir.
1 1n 0 
X =

1 0 1m 
Bu iki gıda rejimi üç farklı ırk üzerine uygulandığında, gıda
rejimlerinin ağırlık ortalaması üzerindeki etkileri α 1 ve α 2 , ırkların
etkileri β1 , β 2 ve β 3 ile gösterilip etkilerin toplanabilir ve etkenlerin
(faktörlerin, gıda rejimi ve ırk) ortak etkisi olmadığı gibi varsayımlar
altında,
Yij = µ + αi + β j + εij , i = 1, 2 , j = 1, 2 , 3 , k = 1, 2,..., nij
gibi bir model düşünülebilir. Bu durumda X tasarım matrisi,
1 1n11
1 1
n12

1 1n13
X =
1 0
1 0

1 0
0
0
0
1n21
1n22
1n23
1n11
0
0
1n12
0
0
1n21 0
0 1n22
0
0
0
0 
1n13 

0
0

1n23 
biçimindedir. i = 1, 2 ve j = 1, 2, 3 için nij değerleri aynı olduğunda modele
dengeli (balanced) denir. Tüm nij ler 1 olduğunda,
1 1 0 I 3 
X =

1 0 1 I 3 
ve tüm nij ler n olduğunda,
1
1

1
X =
1
1

1
1n
0 1n
1n
0
0
1n
0
0
0 1n 1n
0 1n
0
0 1n
0
0
1n 0 

0 1n 
 = I6 ⊗ 1n , I2 ⊗ 13n , I3 ⊗ 1n
0 0
1n 0 

0 1n 
0
biçiminde yazılabilir.
Ağırlık üzerinde etkenler (faktörler) olarak gıda rejimi ve
civcivlerin ırkı gözönüne alındı. Gıda rejimi etkeninin 2 düzeyi, ırk
etkeninin de 3 düzeyi gözönüne alındı. Đki etkenin birlikte etkisi de söz
komusu olursa,
Yijk = µ + αi + β j + δij + εijk , i = 1, 2 , j = 1, 2 , 3 , k = 1, 2,..., nij
gibi bir model yazılır. Bu modele 2 etkenli etkileşimli model veya 2
yönlü etkileşimli model denir. Dikkat edilirse etkenlerden birinin herbir
düzeyi diğer etkenin herbir düzeyi ile ortaya çıkabilmektedir. Bu
durumda tam çapraz bir tasarım sözkonusudur denir. Bir etkenin bazı
düzeyleri diğer etkenin bazı düzeyleri ile aynı anda ortaya çıkamıyorsa
kısmi çapraz bir tasarım sözkonusudur. Eğer etkenlerden birinin herhangi
bir düzeyi ikinci etkenin birden çok düzeyi ile aynı anda ortaya
çıkamıyorsa bu etkene ikinci etken içinde yuvalanmış (nested) denir.
Đki yönlü iç içe model (two-way nested model) ile ilgili bir örnek
ele alalım. Đki farklı gıda rejiminin tavukların yumurtaları (ağırlığı)
üzerinde etkisi incelenmek istensin. Birinci gıda rejimi 4 tavuğa
uygulansın ve herbir tavuğun yumurtalarından 2 tanesinin ağırlığı
gözlensin. Aynı gözlemler ikinci gıda rejiminin uygulandığı başka 3
tavuk için yapılsın.
Yijk = µ + α i + β ij + ε ijk , i = 1, 2 , j = 1, 2 ,..., ni , k = 1,2 , ni =
veya
RS4 , i = 1 için
T3 , i = 2 için
 Y111  1
Y  1
 112  
 Y121  1
  
Y122  1
 Y131  1
  
Y132  1
 Y  1
 141  = 
Y142  1
Y  1
 211  
Y212  1
  
Y221  1
Y222  1
  
Y231  1
Y  1
 232  
1
1
1
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
0
0
0
0 
0  µ 

0   α1 
0  α 2 
 
0   β11 
0   β12 
   +ε
0   β13 
0   β14 
 
0   β 21 

0   β 22 
 
0   β 23 

1
1 
gibi bir model yazılabilir.
Burada iki etkenli (faktörlü) tasarım modellerine örnekler verildi.
Đkiden fazla etkenli modeller benzer biçimde düşünülür. Dikkat edilirse
bir etken, örneğin gıda rejimi için sabit sayıda olan 2 düzey düşünüldü.
Böyle modellere sabit etkili modeller denir. Belli iki gıda rejiminin
karşılaştırılması sırasında olaya böyle bir model ile yaklaşımda
bulunulabilir.
Varyans Bileşenleri ve Karma Modeller
Bu kısımda ele alınacak modellerin de tasarım modelleri
çerçevesine girdiğini hatırlatalım.
Varyans bileşenleri modelleri, rasgele etkenli modeller olarak da
isimlendirilmektedir. Bir etkenin (faktörün) çok sayıda veya sonsuz
sayıda düzeyi varsa ve seçilen (gözönüne alınan) düzeyler rasgele bir
örneklem oluşturuyorsa bu etkene (faktöre) rasgele etken (faktör) denir.
Doğal olarak modelimizdeki (veya veri kümesindeki) bir rasgele etken
seçilen sonlu sayıdaki düzeyi ile temsil edilecektir. Seçilen bu sonlu
sayıdaki düzey, büyük hacimli bir kitleden (düzeylerin kitlesinden)
rasgele seçilmiş örneklem olarak düşünülecektir.
Belli bir ürün ile ilgili, işleme zamanı üzerinde işçi faktörünün
etkilerini gözönüne alalım. Ürünün üretim zamanı bir rasgele değişken
olmak üzere, değişkenlik üretim yönteminin kendisinden ve işçiden
kaynaklansın. Rasgele seçilen bir işçi için ürünü üretme zamanı, tüm
işçilerin ürünü üretme zamanlarının olasılık dağılımından bir gözlem
olacaktır. Đşçiden işçiye farkeden bu zamanı T rasgele değişkeni ile
gösterelim. Đşçiler arasındaki değişim Var ( T ) ile anlatılsın. T rasgele
değişkeni doğrudan gözlenememekte, çünkü üretimdeki yöntemden
kaynaklanan bir rasgelelik daha sözkonusudur. Bu ikinci rasgeleliği
anlatan rasgele değişken ε olmak üzere T ile ε nun ilişkisiz ve E ( ε ) = 0
olduğunu varsayalım. ε da tek başına gözlenememektedir. Rasgele
seçilen i = 1, 2,..., a tane işçinin herbiri için j = 1, 2,..., n kez ürünü üretme
zamanları Yij gözlenmiş olsun. Ürünü üretme zamanı Y rasgele
değişkenin ortalaması µ ve varyansı σY2 olsun.
Y = µ + ( T − µ ) + (Y − T ) = µ + T * + ε
düşüncesiyle,
Yij = µ + Ti* + εij
, i = 1, 2,..., a , j = 1, 2,..., n
Yij ler gözlenebilen rasgele değişkenler, µ bilinmeyen parametre
E ( ε ij ) = 0 , Var ( ε ij ) = σ 2ε
Ti* = Ti − µ , E ( Ti* ) = 0 , Var ( Ti* ) = Var ( T ) = σ 2T
Ti* ve ε ij ler ilişkisiz, gözlenemeyen rasgele değişkenler
σ Y2 = σ 2T + σ 2ε
gibi bir model kurulabilir. Bu modele bir faktörlü varyans bileşenleri
modeli denir. Gözlenemeyen T * ve ε rasgele değişkenlerin sahip
oldukları dağılımlar ile ilgili varsayımlar da modelde yer alabilir. Dikkat
edilirse, doğrudan gözlenemeyen T rasgele değişkenin varyansı σ2T , Y nin
varyansı içinde bir bileşen olarak yer aldı. Bu modellerde amaçlardan
birisi de varyans bileşenlerini tahmin etmektir.
Faktörlerin herbiri rasgele olan birden çok (örneğin iki) faktörlü
varyans bileşenleri modelleri,
Yijm = µ + Ai + Bij + ε ijm
biçiminde gösterilir. Ai , Bij , ε ijm ler gözlenemeyen sıfır ortalamalı ilişkisiz
rasgele değişkenlerdir ve
σ Y2 = σ 2A + σ 2B + σ 2ε
dır. Modelin deterministik kısmı sadece µ den, stokastik kısmı
Ai + Bij + ε ijm den oluşmaktadır.
Faktörlerden bazıları sabit etkili bazıları rasgele etkili olan
modellere karma (mixed) model denir. Örneğin, üretim ile ilgili olarak
yukarıda gözönüne alınan bir faktörlü varyans bileşenleri modelinde
üretim ile ilgili üç farklı yöntem (düzey) sözkonusu olsun. Bu üç düzey
ile birlikte yöntemin kendisi de bir faktör olarak önceki modelde yer
aldığında,
Y kij = µ + αk + Tki* + εkij , k = 1, 2,3 , i = 1, 2,..., a , j = 1, 2,..., n
gibi bir model sözkonusu olacaktır. µ + α k modelin deterministik kısmını,
Tki* + ε kij de stokastik kısmını oluşturmaktadır. Tki* , ε kij ler 0 ortalamalı
gözlenemeyen ilişkisiz rasgele değişkenler olmak üzere,
σY2 = σ2T + σ2ε
dır.
Rasgele Katsayılı Modeller
m tane birimin herbirinden n tane
Yij ( i = 1, 2 ,..., m, j = 1, 2 ,..., n )
gözlemlerinin alınması durumunda,
Yij = βi1 Xij1 + βi2 X ij 2 +... +βip X ijp + εij , i = 1, 2 ,..., m, j = 1, 2 ,..., n
gibi bir modelin geçerli olduğunu varsayalım. Bu modeli,
Yij = X ′ij β i + εij , i = 1, 2,..., m , j = 1, 2,..., n
biçiminde yazıp βi = (βi1, βi 2 ,..., βip )′ , i = 1, 2,..., m parametre vektörlerini,
rasgele seçilen birimler ile ilgili m birimlik bir örneklem (sample) olarak
düşünebiliriz. βi , i = 1, 2,..., m vektörleri, β ortalamalı, ∆ varyans-kovaryans
matrisli bir dağılımdan m birimlik bir örneklem olsun ve ayrıca βi ‘ler ile
εij ‘ler bağımsız olsun. Kısaca,
1) E ( εij ) = 0,Var ( εij ) = σ2 , εij ‘ler ( i = 1, 2 ,..., m , j = 1, 2 ,..., n ) ilişkisiz,
gözlenemeyen rasgele değişkenler,
2) E (βi ) = β , Cov (βi ) = ∆ , βi ‘ler ( i = 1, 2 ,..., m) bağımsız rasgele
değişkenler,
3) βi ‘ler ile εij ‘ler ( i = 1, 2 ,..., m , j = 1, 2 ,..., n ) bağımsız,
4) X ij : p × 1 vektörü p tane açıklayıcı değişkenin, rasgele seçilmiş
olan i. birimi üzerinde j. gözlem vektörü,
 xi11
x
i 21
Xi = 
 ⋮

 xin1
xi12 ⋯ xi1 p 
xi 22 ⋯ xi 2 p 
⋮
⋮ 

xin 2 ⋯ xinp 
n× p
matrisi i . birim ile ilgili açıklayıcı değişkenlerin matrisi (sabitlerin
matrisi)
5) Yij , i = 1, 2,..., m , j = 1, 2,..., n ,
i . birim üzerinde j . gözlemi
gösteren bir rasgele değişken ve
Yi1 
Y 
Y i =  i2 
⋮ 
 
Yin 
i . birim üzerinde gözlemlerin rasgele vektörü olmak üzere;
Y i = Xi β + εi , i = 1, 2 ,..., m
i
modeline rasgele katsayılı lineer model denir. Bu modelde rasgele
vektörler olan βi ler kendi ortalamaları cinsinden,
βi = β + δi , i = 1, 2,..., m
olarak yazılıp modelde yerine konursa,
Y i = Xi β + Xi δi + εi , i = 1, 2 ,..., m
i
yazılır. Bu modelde Xi βi modelin deterministik kısmını Xi δi + εi de
stokastik kısmını oluşturmaktadır. i = 1, 2,..., m için δi ler bağımsız
Cov ( δi ) = ∆ ve δi ler ile εi ler bağımsızdır.
E (Y i ) = Xi β , Cov(Y i ) = Xi ∆Xi + σ2 In
olmak üzere modelde amaç βi rasgele katsayılarının ortalaması olan β
vektörünü tahmin etmek olabilir.
m tane vektörü alt alta yazıp bir sütun vektörü olarak ele alırsak,
rasgele katsayılı bir lineer model, genel olarak
 X1
 Y 1   X1 



Y 
 2  =  X2  β +  0
⋮
 ⋮   ⋮ 

   
Y m   X m 
0
0
X2
⋮
0
0  δ 1  ε1 
⋯ 0   δ 2   ε 2 
+
⋮  ⋮   ⋮ 
   
⋯ X m  δ m  ε m 
⋯
biçiminde yazılabilir. Modelin stokastik kısmındaki gözlenemeyn rasgele
vektörler ile ilgili bazı dağılım varsayımları yapılabilir.
Uygulamalarda çok değişik durumlar rasgele katsayılı lineer model
ile modellenmektedir. Örneğin rasgele seçilen birim, bir insan grubundan
rasgele seçilen kişi ( i = 1, 2 ,..., m, bu birim üzerinde Yij gözlemleri zaman
içinde ( j = 1, 2 ,..., n ) kişinin günlük harcamaları olabilir. Günlük harcama
Y , gelir ( X1) , kişinin bakmakla yükümlü olduğu birey sayısı ( X 2 ) ,
oturduğu yer ( X 3 ) gibi açıklayıcı değişkenlerin bir lineer fonksiyonu
olarak ifade edilebilir. Bu lineer ifadedeki katsayılar kişiden kişiye
değişebilir. Bu değişkenlik rasgele katsayılı bir model ile modellenebilir.
Ölçme Hatalı Değişkenler Đçeren Modeller
Bu kısıma kadar göz önüne alınan modellerde değişkenler ile ilgili
ölçümlerin (gözlemlerin) alınmasında hataların olmadığını, yani ölçme
sırasında gözlenen değerlerin gerçek gözlenmek istenen değerler
olduğunu düşündük. Ölçme aletindeki hatalardan dolayı, veya ölçmek
istediğimiz niceliğin doğrudan ölçülemiyor olmasından dolayı
gözlenmesi gereken bir X değeri yerine,
W = X + U , E (U )=0 , Var (U ) = σ
2
u
olmak üzere, W gözlensin.
Yi = β0 + β1 Xi + εi , i = 1, 2 ,..., n
Wi = X i + U i
X i ‘ler yerine Wi ‘ler gözleniyor
 E (ε )=0 , Var (ε ) = σ 2 , ε ler ilişkisiz
 i
i
ε
i

2
 E (Ui )=0 , Var (U i )=σu
ε 'ler ile U 'ler bağımsız
i
 i
 X i 'ler ile U i 'ler bağımsız

gibi bir modele, açıklayıcı değişkeni ölçüm hatası bulunduran model
veya kısaca hatalı ölçümlü model denir. Hatalar hakkında değişik
varsayımlar yapılabilir.
Hatalı ölçümlü basit lineer modelin uygulanmasında belli bir
üründe verim (Y ) ile topraktaki azot miktarı ( X ) arasındaki ilişkiyi
anlatan
Yi = β0 + β1 Xi + εi , i = 1, 2 ,..., n
Wi = X i + U i
modeli ele alınabilir. Bu modelde Wi , topraktaki i . ölçüm yapıldığında
gözlenen azot miktarıdır. Gerçek miktar olan X i değerinin bulunamaması
(ölçülememsi) ölçme işleminden kaynaklanmaktadır. Azot miktarının
gerçek X i = xi değeri yerine,
Wi = xi + U i , i =1,2,...,n
gibi, Wi değerlerinin gözleneceğini düşünmek daha akılcı görünmektedir.
Bu kitapta hatalı ölçümlü modeller üzerinde durulmayacaktır.
Download