σ β β H β ≠ β β β β σ

advertisement
ÇOKLU DOĞRUSAL REGRESYONDA HİPOTEZ TESTİ
Modeldeki parametrelerin kestirimi yapıldığında, iki soruyla karşı karşıya kalınır.
1. Modelin genel yeterliliği nedir?
2. Bağımsız değişkenlerden hangileri önemli görünmektedir.
Birçok hipotez test işlemi, bu soruları yanıtlamada yararlı olacaktır. Bu testler, rastgele hataların
bağımsız olmaları, E ( )  0 ve Var ( i )   2 ile Normal dağılmaları kuralını gerektirir.
Regresyonun Anlamlılık Testi
Regresyonun anlamlılık testi, y yanıt değişkeni ile x1 , x2 ,..., xk bağımsız değişkenleri arasında
doğrusal bir ilişkinin olup olmadığına karar vermek için kullanılan bir testtir. Bu amaçla
kullanılacak uygun hipotezler aşağıdadır:
H 0 : 1   2  ....   k  0
H1 :  j  0 en az bir j için
Sıfır hipotezinin reddedilmesi, x1 , x2 ,..., xk bağımsız değişkenlerinden en az birinin modele
anlamlı bir katkısı olduğunu gösterir.
Toplam değişim, SST ; regresyon kareler toplamı, SS R ve artık kareler toplamı, SSRe s olmak
üzere;
F0 
SS R
SS Re s
k
n  k 1

MS R
MS Re s
oranı, Fk ,n  k 1 dağılır.  *  ( 1,  2 ,...,  k ) ' ve "merkezileştirilmiş" model matrisi X c ,
 x11  x1
x  x
 21 1
 ...
Xc  
 xi1  x1
 ...

 xn1  x1
x12  x2
x22  x2
...
xi 2  x2
...
xn 2  x2
... x1k  xk 
... x2k  xk 
...
... 

... xik  xk 
...
... 

... xnk  xk 
olmak üzere,
E ( MSRe s )   2
E ( MS R )   2 
 *' X 'c X c  *
k 2
olup eğer F0 değeri büyükse, en az bir  j  0 olması olasıdır.
En az bir  j  0 ise k ve n  k  1 serbestlik dereceleriyle F0 ,  
 * ' X 'c X c  *
2
merkezi
olmama parametresi ile merkezi olmayan bir F dağılımına sahip olur. Eğer,
F0  F ,k ,n  k 1
ise H 0 reddedilir.
TABLO 2.5 Çoklu Regresyonda Regresyonun Anlamlılığı İçin Varyans Analizi
Kareler
Kareler
Değişimin Kaynağı
Toplamı
Serbestlik Derecesi
Ortalaması
Regresyon
SS R
Artıklar
SS Re s
Toplam
SST
k
MS R
n  k 1
F0
MS R / MS Re s
MSRe s
n 1
2
Regresyon
kareler
toplamı,
 n 
  yi 
SS R  ˆ ' X ' y   i 1  olup
n
artık
kareler
toplamı,
2
SSRe s
 n 
  yi 
 y ' y  ˆ ' X ' y ve toplam değişim, SST  y ' y   i 1  eşitliği ile elde edilir.
n
Örnek 2.3 The Delivery Time Data
Örnek 2.1'deki teslim süresi verileri kullanılarak regresyonun anlamlılığı test edilmek istensin.
2
 n 
  yi 
(559.60)2
SST  y ' y   i 1   18,310.6290 
 5784.5426 ve
n
25
2
 n 
  yi 
(559.60)2
'
 5550.8166 olmak üzere,
SS R  ˆ ' X y   i 1   18, 076.9030 
n
25
SSRe s  SST  SS R  y ' y  ˆ ' X ' y  233.7260
şeklinde elde edilir. H 0 : 1   2  0 hipotezini test etmek için F0 test istatistiği,
F0 
MS R
2775.4083

 261.24
10.6239
MS Re s
olarak hesaplanır.
TABLO 2.6 Örnek 2.3 İçin Regresyonun Anlamlılık Testi
Değişim
Kareler
Serbestlik
Kareler
Kaynağı
Toplamı
Derecesi
Ortalaması
Regresyon
Artıklar
Toplam
5550.8166
233.7260
5784.5426
2
22
24
2775.4083
10.6239
p-değeri
F0
4.7  1016
261.24
Teslim süresinin, teslim hacmine ya da mesafeye bağlı olduğu sonucuna varılabilir.
R 2 ve Düzeltilmiş R 2 : Modelin genel anlamda yeterliliği ile ilgili olarak diğer iki yol, R 2 ve
R 2 Adj ile gösterilen düzeltilmiş R 2 'dir.
R 2 Adj  1 
SS Re s / ( n  p )
SST / (n  1)
(2.14)
2
Tablo 2.4'te teslim süresi verilerinin çoklu regresyon modeli için R 2 değeri, R  0.96 olarak
bulunmuştur. Örnek 1.9'da sadece tek bir bağımsız değişken x1 kullanıldığında R 2 değeri daha
küçüktür.( R 2  0.93 ) Genellikle R 2 değeri, modele bir bağımsız değişken eklendiğinde
değişkenin katkısına bakmaksızın asla azalmaz. Tek değişkenli( x1 ) basit doğrusal regresyon için
R 2 Adj  0.927 iken iki değişkenli model için R 2 Adj  0.956 olarak bulunmuştur. Burada x2
modele eklendiğinde toplam değişimde anlamlı bir azalma olduğu sonucuna varılabilir.
Tek Tek Regresyon Katsayıları ve Katsayıların Alt Kümeleri İçin Testler
Herhangi bir regresyon katsayısının, örneğin  j 'nin anlamlılığının testi için hipotezler,
H0 :  j  0
,
H1 :  j  0
(2.15)
olarak kullanılır. Eğer H 0 :  j  0 reddedilemezse bu durumda x j bağımsız değişkeni modelden
çıkarılabilir.
Bu hipotez için test istatistiği,
t0 
ˆ j
ˆ 2C jj

ˆ j
se( ˆ j )
(2.16)
olup burada C jj , ˆ j 'ya karşılık gelen ( X ' X ) 1 'in köşegen elemanıdır. Eğer t0  t /2, nk 1 ise
H 0 :  j  0 hipotezi reddedilir. Bu test, kısmi ya da marjinal test olarak adlandırılmakta olup
modelde diğer bağımsız değişkenler varken x j 'nin katkısını test etmektedir.
Örnek 2.4 Teslim Süresi Verileri
Modelde x1 (teslim hacmi) değişkeni varken x2 (mesafe) bağımsız değişkeninin değerlendirilmek
istenildiği varsayılsın.
H 0 : 2  0 ,
H1 :  2  0
Test istatistiği,
t0 
ˆ2
ˆ 2C22

0.01438
 3.98
(10.6239)(0.00000123)
t0.025,22  2.074 olduğundan H 0 :  2  0 hipotezi reddedilir ve modelde x1 (teslim hacmi)
bağımsız değişkeni varken x2 (mesafe) bağımsız değişkeninin modele anlamlı bir katkı sağladığı
görülmüştür.
Kısmi F Testi
xi (i  j ) bağımsız değişkenleri modelde varken x j 'nin katkısı katkı kareler toplamıyla
belirlenebilir. Bu yöntem aynı zamanda modelde bağımsız değişkenlerin bir alt kümesinin
katkısının da araştırılmasında kullanılabilir.
k bağımsız değişkenli regresyon modeli,
y  X 
olup burada y , n1 ; X , n  p ;  , p  1 ;  , n 1 boyutlu ve p  k  1 'dir.
Regresyon katsayıları vektörü,
 1 

 2 
 
şeklinde parçalanabilir. Burada 1 , ( p  r )  1 ve  2 , r  1 'dir.
H 0 : 2  0 ,
H1 :  2  0
(2.17)
hipotezi test edilmek istensin. Bu durumda model,
y  X     X 11  X 2  2  
(2.18)
olup tam model olarak adlandırılmaktadır. Burada n  ( p  r ) boyutlu X1 matrisi, 1 'e karşılık
gelen X 'in sütunlarını ve n  r boyutlu X 2 matrisi ise  2 'ye karşılık gelen X 'in sütunlarını
göstermektedir.
Tam model için, ˆ  ( X ' X ) 1 X ' y olmak üzere regresyon kareler toplamı ve artık kareler
ortalaması,
SS R (  )  ˆ ' X ' y ( p serbestlik derecesiyle)
MSRe s 
y ' y  ˆ ' X ' y
n p
eşitliği ile hesaplanır.
Regresyona  2 teriminin katkısını bulmak için sıfır hipotezi H 0 :  2  0 'ın doğru olduğu
varsayımı ile bir model kurulur. Bu indirgenmiş model,
y  X11  
(2.19)
olup 1 'in en küçük kareler kestiricisi ˆ1  ( X1 ' X1 )1 X1 ' y olarak elde edilir. Regresyon kareler
toplamı, SS R ( 1 )  ˆ1 ' X1 ' y ( p  r serbestlik derecesiyle) eşitliği ile elde edilir.
Modelde  1 varken  2 'den dolayı regresyon kareler toplamı, p  ( p  r )  r serbestlik
derecesiyle SS R (  2 / 1 )  SS R (  )  SS R ( 1 ) eşitliği kullanılarak hesaplanır. Bu kareler toplamı,
 2 için katkı kareler toplamı olarak adlandırılır.
SS R (  2 /  1 ) , MSRe s 'den bağımsız olmak üzere;  2  0 hipotezi,
F0 
SS R (  2 \ 1 ) / r
MS Re s
(2.20)
istatistiği ile test edilir. Eğer  2  0 ise F0 , merkezi olmayan F dağılımı gösterir. Merkezi
olmama parametresi ise

1
2
 2 ' X 2 '  I  X1 ( X1 ' X1 )1 X1 ' X 2  2
eşitliği ile hesaplanır.  2 gerçekte önemli olsa bile  yaklaşık olarak sıfır olabilir. Bu ilişki, aynı
zamanda X1 ve X 2 birbirlerine dik olduklarında testin maksimum gücünü göstermektedir. (Dik
terimi ile X 2 ' X1  0 olduğu kastedilmektedir.)
Eğer F0  F ,r ,n  p ise H 0 reddedilir; X 2 'deki xk r 1 , xk r  2 ,..., xk bağımsız değişkenlerinden en
az birinin regresyon modeline anlamlı katkısı olduğu sonucuna ulaşılır. Bu test, X1 'deki bağımsız
değişkenler modelde iken X 2 'deki bağımsız değişkenlerin modele katkısını ölçtüğü için "kısmi
F testi" olarak da adlandırılır.
y   0  1 x1   2 x2  3 x3  
modeli ele alınsın.
SS R ( 1 \  0 ,  2 , 3 ) ,
SS R (  2 \  0 , 1 , 3 ) ,
SS R ( 3 \  0 , 1 ,  2 )
kareler toplamları, diğer tüm bağımsız değişkenler modelde iken her bir x j , j  1, 2, 3 bağımsız
değişkeninin modele katkısını ölçen tek serbestlik dereceli kareler toplamlarıdır. Yani x j bağımsız
değişkeni modelde yokken x j 'nin modele eklenmesini değerlendirmiş oluyoruz.
SST  SS R ( 1 ,  2 , 3 \  0 )  SS Re s
olmak üzere, üç serbestlik dereceli regresyon kareler toplamı,
SS R ( 1 ,  2 , 3 \  0 )  SS R ( 1 \  0 )  SS R (  2 \  0 , 1 )  SS R ( 3 \ 1 ,  2 ,  0 )
olarak parçalanabilir. Alternatif olarak,
SS R ( 1 ,  2 , 3 \  0 )  SS R (  2 \  0 )  SS R ( 1 \  2 ,  0 )  SS R ( 3 \ 1 ,  2 ,  0 )
biçiminde de parçalanabilir. Katkı kareler toplamı yöntemi, genel olarak,
SS R ( 1 ,  2 , 3 \  0 )  SS R ( 1 \  2 , 3 ,  0 )  SS R (  2 \ 1 , 3 ,  0 )  SS R ( 3 \ 1 ,  2 ,  0 )
ifadesinden dolayı her zaman regresyon kareler toplamının parçalara ayrılmasını sağlamayabilir.
Minitab Çıktısı : Tablo 2.4'te regresyon kareler toplamının ardışık parçalanması verilmektedir.
SS R ( 1 ,  2 \  0 )  SS R ( 1 \  0 )  SS R (  2 \ 1 ,  0 )
5550.8  5382.4  168.4
Örnek 2.5 Teslim Süresi Verileri
H 0 :  2  0 , H1 :  2  0
olmak üzere  2 için oluşacak katkı kareler toplamı,
SS R (  2 \ 1 ,  0 )  SS R ( 1 ,  2 ,  0 )  SS R ( 1 ,  0 )
 SS R ( 1 ,  2 \  0 )  SS R ( 1 \  0 )
Örnek 2.3'te elde edildiği gibi,
2
 n 
  yi 
ˆ
SS R ( 1 ,  2 \  0 )   ' X ' y   i 1   5550.8166 (2 serbestlik dereceli)
n
olup Örnek 1.9'daki y   0  1 x1   indirgenmiş modeli için regresyon kareler toplamı,
SS R ( 1 \  0 )  ˆ1S xy  (2.1762)(2473.3440)
= 5382.4077 (1 serbestlik dereceli)
olarak elde edilir. Bu durumda, x1 modeldeyken x2 'nin modele eklenmesiyle regresyon kareler
toplamındaki artış,
SS R (  2 \ 1 ,  0 )  5550.8166  5382.4088
= 168.4078 (1 serbestlik dereceli)
olur. H 0 :  2  0 hipotezinin testi için test istatistiği,
F0 
SS R (  2 \ 1 ,  0 ) 168.4078 / 1

 15.85
MS Re s
10.6239
olup bu ifadenin paydasındaki MSRe s , tam modelden elde edilen değerdir. F0.05,1,22  4.30
olduğundan H 0 hipotezi reddedilir ve x2 değişkeninin modele katkısının anlamlı olduğu
sonucuna varılır.

Bu kısmi F testi, tek bir değişken içerdiği için t testine eş değerdir. t0 2  (3.98) 2  15.84  F0

Genel Doğrusal Hipotez Testleri
İlgilenilen sıfır hipotezinin H 0 : T   0 olduğu varsayılsın. Burada T , m  p boyutlu sabitler
matrisidir. Öyle ki sadece T   0 'daki " m " denklemden " r " tanesi bağımsızdır. Tam model (
FM ), y  X    olup bu model için artık kareler toplamı,
SSRe s ( FM )  y ' y  ˆ ' X ' y
( n  p serbestlik derecesiyle)
ile bulunur.
İndirgenmiş modeli elde etmek için T   0 'daki " r " bağımsız eşitlik, tam modelde geriye kalan
p  r regresyon katsayıları türünden " r " regresyon katsayılarını çözmek için kullanılır. Bu durum,
y  Z    indirgenmiş modelini oluşturur. Bu modelde, Z , n  ( p  r ) matrisi ve  , ( p  r )  1
bilinmeyen regresyon katsayıları vektörüdür.
 'nın kestirimi,
ˆ  ( Z ' Z ) 1 Z ' y
olup indirgenmiş model ( RM ) için artık kareler toplamı,
SS Re s ( RM )  y ' y  ˆ ' Z ' y
(n  p  r serbestlik derecesiyle)
ile bulunur.
İndirgenmiş model, tam modelden daha az parametre içermektedir. Sonuç olarak,
SS Re s ( RM )  SSRe s ( FM ) olur. H 0 : T   0 hipotezini test etmek için n  p  r  ( n  p )  r
serbestlik dereceli artık kareler toplamları arasındaki fark,
SS H  SSRe s ( RM )  SSRe s ( FM )
(2.21)
olup H 0 : T   0 hipotezi için kareler toplamı olarak adlandırılır. Bu hipotez için test istatistiği,
F0 
SS H / r
SS Re s ( FM ) / ( n  p )
(2.22)
ile bulunur. Eğer, F0  F , r , n p ise H 0 : T   0 hipotezi reddedilir.
Örnek 2.6 Regresyon Katsayılarının Eşitlik Testi
y   0  1 x1   2 x2  3 x3  
modeli ele alınsın. Tam model için SSRe s ( FM ) , n  p  n  4 serbestlik derecesine sahiptir.
H 0 : 1  3 hipotezi test edilmek istensin. Bu hipotez H 0 : T   0 olarak ifade edilebilir. Burada,
T   0, 1, 0,  1 , 1  4 'lük satır vektörüdür.
T   0 'da tek bir eşitlik vardır yani 1  3  0 'dır. Bu eşitlik tam modelde yerine yazıldığında
indirgenmiş model elde edilir.
y   0  1 x1   2 x2  1 x3  
  0  1 ( x1  x3 )   2 x2  
  0   1 z1   2 z2  
Burada,  0   0 ,
 1  1 ( 3 ) , z1  x1  x3 ,  2   2 ve z2  x2 alınır. F oranı,
F0   SS H /1  SSRe s ( FM ) / (n  4) olup bu hipotez, t istatistiği kullanılarak da (n-4) serbestlik
derecesiyle test edilebilir.
t0 
ˆ1  ˆ3

se( ˆ1  ˆ3 )
ˆ1  ˆ3
ˆ 2 (C11  C33  2C13 )
Örnek 2.7
y   0  1 x1   2 x2  3 x3  
olmak üzere, H 0 : 1  3 ,  2  0 hipotezi test edilmek istensin.
0 1 0 1
T 

0 0 1 0 
T   0 'da  1   3  0 ve  2  0 olmak üzere iki eşitlik vardır. Bu eşitlikler, aşağıdaki
indirgenmiş modeli verirler :
y   0  1 x1  1 x3  
  0  1 ( x1  x3 )  
  0   1 z1  
Bu örnekte, SS Re s ( RM ) , n  2 serbestlik derecesine sahiptir. SS R ise n  2  ( n  4)  2 serbestlik
derecesine sahiptir. F oranı, F0  ( SS H / 2) /  SSRe s ( FM ) / (n  4) olarak elde edilir.

Genel doğrusal hipotez için test istatistiği,
1
F0 
ˆ ' T ' T ( X ' X ) 1T ' T ˆ / r
SSRe s ( FM ) / (n  p)
(2.23)
biçiminde de yazılabilir. Test istatistiğinin bu şekli, Örnek 2.6 ve örnek 2.7'deki test işlemi için
geliştirilebilir.

Genel doğrusal hipotezler,
H 0 : T   c , H1 : T   c
(2.24)
olarak test edilmek istendiğinde, test istatistiği,
1
F0 
(T ˆ  c)' T ( X ' X ) 1T ' (T ˆ  c) / r
SSRe s ( FM ) / (n  p)
(2.25)
şeklinde kullanılır. Eğer F0  F ,r ,n  p ise H 0 : T   c hipotezi reddedilir. Eğer
H 0 : T   0 (ya da H 0 : T   c ) reddedilemez ise bu durumda sıfır hipotezine konulan
kısıtlara göre 
kestirimi yapmak güvenilir olabilir. Bilindik en küçük kareler
kestiricisinin bu kısıtları sağlaması olası değildir. Bu gibi durumlarda kısıtlı en küçük
kareler kestiricisini kullanmak yararlı olabilir.
Ödev
3 bağımsız değişkeni olan ve 12 örneklemden oluşturulmuş bir çoklu regresyon modelinden
üretilen ANOVA tablosu verilmiştir. Tablodaki harflerin yerine gelecek sayıları bulunuz.
Kaynak
d.f
S.S.
M.S.
F
Regresyon
a
d
f
96
Artık
b
e
12
Toplam
c
Download