ÇOKLU DOĞRUSAL REGRESYONDA HİPOTEZ TESTİ Modeldeki parametrelerin kestirimi yapıldığında, iki soruyla karşı karşıya kalınır. 1. Modelin genel yeterliliği nedir? 2. Bağımsız değişkenlerden hangileri önemli görünmektedir. Birçok hipotez test işlemi, bu soruları yanıtlamada yararlı olacaktır. Bu testler, rastgele hataların bağımsız olmaları, E ( ) 0 ve Var ( i ) 2 ile Normal dağılmaları kuralını gerektirir. Regresyonun Anlamlılık Testi Regresyonun anlamlılık testi, y yanıt değişkeni ile x1 , x2 ,..., xk bağımsız değişkenleri arasında doğrusal bir ilişkinin olup olmadığına karar vermek için kullanılan bir testtir. Bu amaçla kullanılacak uygun hipotezler aşağıdadır: H 0 : 1 2 .... k 0 H1 : j 0 en az bir j için Sıfır hipotezinin reddedilmesi, x1 , x2 ,..., xk bağımsız değişkenlerinden en az birinin modele anlamlı bir katkısı olduğunu gösterir. Toplam değişim, SST ; regresyon kareler toplamı, SS R ve artık kareler toplamı, SSRe s olmak üzere; F0 SS R SS Re s k n k 1 MS R MS Re s oranı, Fk ,n k 1 dağılır. * ( 1, 2 ,..., k ) ' ve "merkezileştirilmiş" model matrisi X c , x11 x1 x x 21 1 ... Xc xi1 x1 ... xn1 x1 x12 x2 x22 x2 ... xi 2 x2 ... xn 2 x2 ... x1k xk ... x2k xk ... ... ... xik xk ... ... ... xnk xk olmak üzere, E ( MSRe s ) 2 E ( MS R ) 2 *' X 'c X c * k 2 olup eğer F0 değeri büyükse, en az bir j 0 olması olasıdır. En az bir j 0 ise k ve n k 1 serbestlik dereceleriyle F0 , * ' X 'c X c * 2 merkezi olmama parametresi ile merkezi olmayan bir F dağılımına sahip olur. Eğer, F0 F ,k ,n k 1 ise H 0 reddedilir. TABLO 2.5 Çoklu Regresyonda Regresyonun Anlamlılığı İçin Varyans Analizi Kareler Kareler Değişimin Kaynağı Toplamı Serbestlik Derecesi Ortalaması Regresyon SS R Artıklar SS Re s Toplam SST k MS R n k 1 F0 MS R / MS Re s MSRe s n 1 2 Regresyon kareler toplamı, n yi SS R ˆ ' X ' y i 1 olup n artık kareler toplamı, 2 SSRe s n yi y ' y ˆ ' X ' y ve toplam değişim, SST y ' y i 1 eşitliği ile elde edilir. n Örnek 2.3 The Delivery Time Data Örnek 2.1'deki teslim süresi verileri kullanılarak regresyonun anlamlılığı test edilmek istensin. 2 n yi (559.60)2 SST y ' y i 1 18,310.6290 5784.5426 ve n 25 2 n yi (559.60)2 ' 5550.8166 olmak üzere, SS R ˆ ' X y i 1 18, 076.9030 n 25 SSRe s SST SS R y ' y ˆ ' X ' y 233.7260 şeklinde elde edilir. H 0 : 1 2 0 hipotezini test etmek için F0 test istatistiği, F0 MS R 2775.4083 261.24 10.6239 MS Re s olarak hesaplanır. TABLO 2.6 Örnek 2.3 İçin Regresyonun Anlamlılık Testi Değişim Kareler Serbestlik Kareler Kaynağı Toplamı Derecesi Ortalaması Regresyon Artıklar Toplam 5550.8166 233.7260 5784.5426 2 22 24 2775.4083 10.6239 p-değeri F0 4.7 1016 261.24 Teslim süresinin, teslim hacmine ya da mesafeye bağlı olduğu sonucuna varılabilir. R 2 ve Düzeltilmiş R 2 : Modelin genel anlamda yeterliliği ile ilgili olarak diğer iki yol, R 2 ve R 2 Adj ile gösterilen düzeltilmiş R 2 'dir. R 2 Adj 1 SS Re s / ( n p ) SST / (n 1) (2.14) 2 Tablo 2.4'te teslim süresi verilerinin çoklu regresyon modeli için R 2 değeri, R 0.96 olarak bulunmuştur. Örnek 1.9'da sadece tek bir bağımsız değişken x1 kullanıldığında R 2 değeri daha küçüktür.( R 2 0.93 ) Genellikle R 2 değeri, modele bir bağımsız değişken eklendiğinde değişkenin katkısına bakmaksızın asla azalmaz. Tek değişkenli( x1 ) basit doğrusal regresyon için R 2 Adj 0.927 iken iki değişkenli model için R 2 Adj 0.956 olarak bulunmuştur. Burada x2 modele eklendiğinde toplam değişimde anlamlı bir azalma olduğu sonucuna varılabilir. Tek Tek Regresyon Katsayıları ve Katsayıların Alt Kümeleri İçin Testler Herhangi bir regresyon katsayısının, örneğin j 'nin anlamlılığının testi için hipotezler, H0 : j 0 , H1 : j 0 (2.15) olarak kullanılır. Eğer H 0 : j 0 reddedilemezse bu durumda x j bağımsız değişkeni modelden çıkarılabilir. Bu hipotez için test istatistiği, t0 ˆ j ˆ 2C jj ˆ j se( ˆ j ) (2.16) olup burada C jj , ˆ j 'ya karşılık gelen ( X ' X ) 1 'in köşegen elemanıdır. Eğer t0 t /2, nk 1 ise H 0 : j 0 hipotezi reddedilir. Bu test, kısmi ya da marjinal test olarak adlandırılmakta olup modelde diğer bağımsız değişkenler varken x j 'nin katkısını test etmektedir. Örnek 2.4 Teslim Süresi Verileri Modelde x1 (teslim hacmi) değişkeni varken x2 (mesafe) bağımsız değişkeninin değerlendirilmek istenildiği varsayılsın. H 0 : 2 0 , H1 : 2 0 Test istatistiği, t0 ˆ2 ˆ 2C22 0.01438 3.98 (10.6239)(0.00000123) t0.025,22 2.074 olduğundan H 0 : 2 0 hipotezi reddedilir ve modelde x1 (teslim hacmi) bağımsız değişkeni varken x2 (mesafe) bağımsız değişkeninin modele anlamlı bir katkı sağladığı görülmüştür. Kısmi F Testi xi (i j ) bağımsız değişkenleri modelde varken x j 'nin katkısı katkı kareler toplamıyla belirlenebilir. Bu yöntem aynı zamanda modelde bağımsız değişkenlerin bir alt kümesinin katkısının da araştırılmasında kullanılabilir. k bağımsız değişkenli regresyon modeli, y X olup burada y , n1 ; X , n p ; , p 1 ; , n 1 boyutlu ve p k 1 'dir. Regresyon katsayıları vektörü, 1 2 şeklinde parçalanabilir. Burada 1 , ( p r ) 1 ve 2 , r 1 'dir. H 0 : 2 0 , H1 : 2 0 (2.17) hipotezi test edilmek istensin. Bu durumda model, y X X 11 X 2 2 (2.18) olup tam model olarak adlandırılmaktadır. Burada n ( p r ) boyutlu X1 matrisi, 1 'e karşılık gelen X 'in sütunlarını ve n r boyutlu X 2 matrisi ise 2 'ye karşılık gelen X 'in sütunlarını göstermektedir. Tam model için, ˆ ( X ' X ) 1 X ' y olmak üzere regresyon kareler toplamı ve artık kareler ortalaması, SS R ( ) ˆ ' X ' y ( p serbestlik derecesiyle) MSRe s y ' y ˆ ' X ' y n p eşitliği ile hesaplanır. Regresyona 2 teriminin katkısını bulmak için sıfır hipotezi H 0 : 2 0 'ın doğru olduğu varsayımı ile bir model kurulur. Bu indirgenmiş model, y X11 (2.19) olup 1 'in en küçük kareler kestiricisi ˆ1 ( X1 ' X1 )1 X1 ' y olarak elde edilir. Regresyon kareler toplamı, SS R ( 1 ) ˆ1 ' X1 ' y ( p r serbestlik derecesiyle) eşitliği ile elde edilir. Modelde 1 varken 2 'den dolayı regresyon kareler toplamı, p ( p r ) r serbestlik derecesiyle SS R ( 2 / 1 ) SS R ( ) SS R ( 1 ) eşitliği kullanılarak hesaplanır. Bu kareler toplamı, 2 için katkı kareler toplamı olarak adlandırılır. SS R ( 2 / 1 ) , MSRe s 'den bağımsız olmak üzere; 2 0 hipotezi, F0 SS R ( 2 \ 1 ) / r MS Re s (2.20) istatistiği ile test edilir. Eğer 2 0 ise F0 , merkezi olmayan F dağılımı gösterir. Merkezi olmama parametresi ise 1 2 2 ' X 2 ' I X1 ( X1 ' X1 )1 X1 ' X 2 2 eşitliği ile hesaplanır. 2 gerçekte önemli olsa bile yaklaşık olarak sıfır olabilir. Bu ilişki, aynı zamanda X1 ve X 2 birbirlerine dik olduklarında testin maksimum gücünü göstermektedir. (Dik terimi ile X 2 ' X1 0 olduğu kastedilmektedir.) Eğer F0 F ,r ,n p ise H 0 reddedilir; X 2 'deki xk r 1 , xk r 2 ,..., xk bağımsız değişkenlerinden en az birinin regresyon modeline anlamlı katkısı olduğu sonucuna ulaşılır. Bu test, X1 'deki bağımsız değişkenler modelde iken X 2 'deki bağımsız değişkenlerin modele katkısını ölçtüğü için "kısmi F testi" olarak da adlandırılır. y 0 1 x1 2 x2 3 x3 modeli ele alınsın. SS R ( 1 \ 0 , 2 , 3 ) , SS R ( 2 \ 0 , 1 , 3 ) , SS R ( 3 \ 0 , 1 , 2 ) kareler toplamları, diğer tüm bağımsız değişkenler modelde iken her bir x j , j 1, 2, 3 bağımsız değişkeninin modele katkısını ölçen tek serbestlik dereceli kareler toplamlarıdır. Yani x j bağımsız değişkeni modelde yokken x j 'nin modele eklenmesini değerlendirmiş oluyoruz. SST SS R ( 1 , 2 , 3 \ 0 ) SS Re s olmak üzere, üç serbestlik dereceli regresyon kareler toplamı, SS R ( 1 , 2 , 3 \ 0 ) SS R ( 1 \ 0 ) SS R ( 2 \ 0 , 1 ) SS R ( 3 \ 1 , 2 , 0 ) olarak parçalanabilir. Alternatif olarak, SS R ( 1 , 2 , 3 \ 0 ) SS R ( 2 \ 0 ) SS R ( 1 \ 2 , 0 ) SS R ( 3 \ 1 , 2 , 0 ) biçiminde de parçalanabilir. Katkı kareler toplamı yöntemi, genel olarak, SS R ( 1 , 2 , 3 \ 0 ) SS R ( 1 \ 2 , 3 , 0 ) SS R ( 2 \ 1 , 3 , 0 ) SS R ( 3 \ 1 , 2 , 0 ) ifadesinden dolayı her zaman regresyon kareler toplamının parçalara ayrılmasını sağlamayabilir. Minitab Çıktısı : Tablo 2.4'te regresyon kareler toplamının ardışık parçalanması verilmektedir. SS R ( 1 , 2 \ 0 ) SS R ( 1 \ 0 ) SS R ( 2 \ 1 , 0 ) 5550.8 5382.4 168.4 Örnek 2.5 Teslim Süresi Verileri H 0 : 2 0 , H1 : 2 0 olmak üzere 2 için oluşacak katkı kareler toplamı, SS R ( 2 \ 1 , 0 ) SS R ( 1 , 2 , 0 ) SS R ( 1 , 0 ) SS R ( 1 , 2 \ 0 ) SS R ( 1 \ 0 ) Örnek 2.3'te elde edildiği gibi, 2 n yi ˆ SS R ( 1 , 2 \ 0 ) ' X ' y i 1 5550.8166 (2 serbestlik dereceli) n olup Örnek 1.9'daki y 0 1 x1 indirgenmiş modeli için regresyon kareler toplamı, SS R ( 1 \ 0 ) ˆ1S xy (2.1762)(2473.3440) = 5382.4077 (1 serbestlik dereceli) olarak elde edilir. Bu durumda, x1 modeldeyken x2 'nin modele eklenmesiyle regresyon kareler toplamındaki artış, SS R ( 2 \ 1 , 0 ) 5550.8166 5382.4088 = 168.4078 (1 serbestlik dereceli) olur. H 0 : 2 0 hipotezinin testi için test istatistiği, F0 SS R ( 2 \ 1 , 0 ) 168.4078 / 1 15.85 MS Re s 10.6239 olup bu ifadenin paydasındaki MSRe s , tam modelden elde edilen değerdir. F0.05,1,22 4.30 olduğundan H 0 hipotezi reddedilir ve x2 değişkeninin modele katkısının anlamlı olduğu sonucuna varılır. Bu kısmi F testi, tek bir değişken içerdiği için t testine eş değerdir. t0 2 (3.98) 2 15.84 F0 Genel Doğrusal Hipotez Testleri İlgilenilen sıfır hipotezinin H 0 : T 0 olduğu varsayılsın. Burada T , m p boyutlu sabitler matrisidir. Öyle ki sadece T 0 'daki " m " denklemden " r " tanesi bağımsızdır. Tam model ( FM ), y X olup bu model için artık kareler toplamı, SSRe s ( FM ) y ' y ˆ ' X ' y ( n p serbestlik derecesiyle) ile bulunur. İndirgenmiş modeli elde etmek için T 0 'daki " r " bağımsız eşitlik, tam modelde geriye kalan p r regresyon katsayıları türünden " r " regresyon katsayılarını çözmek için kullanılır. Bu durum, y Z indirgenmiş modelini oluşturur. Bu modelde, Z , n ( p r ) matrisi ve , ( p r ) 1 bilinmeyen regresyon katsayıları vektörüdür. 'nın kestirimi, ˆ ( Z ' Z ) 1 Z ' y olup indirgenmiş model ( RM ) için artık kareler toplamı, SS Re s ( RM ) y ' y ˆ ' Z ' y (n p r serbestlik derecesiyle) ile bulunur. İndirgenmiş model, tam modelden daha az parametre içermektedir. Sonuç olarak, SS Re s ( RM ) SSRe s ( FM ) olur. H 0 : T 0 hipotezini test etmek için n p r ( n p ) r serbestlik dereceli artık kareler toplamları arasındaki fark, SS H SSRe s ( RM ) SSRe s ( FM ) (2.21) olup H 0 : T 0 hipotezi için kareler toplamı olarak adlandırılır. Bu hipotez için test istatistiği, F0 SS H / r SS Re s ( FM ) / ( n p ) (2.22) ile bulunur. Eğer, F0 F , r , n p ise H 0 : T 0 hipotezi reddedilir. Örnek 2.6 Regresyon Katsayılarının Eşitlik Testi y 0 1 x1 2 x2 3 x3 modeli ele alınsın. Tam model için SSRe s ( FM ) , n p n 4 serbestlik derecesine sahiptir. H 0 : 1 3 hipotezi test edilmek istensin. Bu hipotez H 0 : T 0 olarak ifade edilebilir. Burada, T 0, 1, 0, 1 , 1 4 'lük satır vektörüdür. T 0 'da tek bir eşitlik vardır yani 1 3 0 'dır. Bu eşitlik tam modelde yerine yazıldığında indirgenmiş model elde edilir. y 0 1 x1 2 x2 1 x3 0 1 ( x1 x3 ) 2 x2 0 1 z1 2 z2 Burada, 0 0 , 1 1 ( 3 ) , z1 x1 x3 , 2 2 ve z2 x2 alınır. F oranı, F0 SS H /1 SSRe s ( FM ) / (n 4) olup bu hipotez, t istatistiği kullanılarak da (n-4) serbestlik derecesiyle test edilebilir. t0 ˆ1 ˆ3 se( ˆ1 ˆ3 ) ˆ1 ˆ3 ˆ 2 (C11 C33 2C13 ) Örnek 2.7 y 0 1 x1 2 x2 3 x3 olmak üzere, H 0 : 1 3 , 2 0 hipotezi test edilmek istensin. 0 1 0 1 T 0 0 1 0 T 0 'da 1 3 0 ve 2 0 olmak üzere iki eşitlik vardır. Bu eşitlikler, aşağıdaki indirgenmiş modeli verirler : y 0 1 x1 1 x3 0 1 ( x1 x3 ) 0 1 z1 Bu örnekte, SS Re s ( RM ) , n 2 serbestlik derecesine sahiptir. SS R ise n 2 ( n 4) 2 serbestlik derecesine sahiptir. F oranı, F0 ( SS H / 2) / SSRe s ( FM ) / (n 4) olarak elde edilir. Genel doğrusal hipotez için test istatistiği, 1 F0 ˆ ' T ' T ( X ' X ) 1T ' T ˆ / r SSRe s ( FM ) / (n p) (2.23) biçiminde de yazılabilir. Test istatistiğinin bu şekli, Örnek 2.6 ve örnek 2.7'deki test işlemi için geliştirilebilir. Genel doğrusal hipotezler, H 0 : T c , H1 : T c (2.24) olarak test edilmek istendiğinde, test istatistiği, 1 F0 (T ˆ c)' T ( X ' X ) 1T ' (T ˆ c) / r SSRe s ( FM ) / (n p) (2.25) şeklinde kullanılır. Eğer F0 F ,r ,n p ise H 0 : T c hipotezi reddedilir. Eğer H 0 : T 0 (ya da H 0 : T c ) reddedilemez ise bu durumda sıfır hipotezine konulan kısıtlara göre kestirimi yapmak güvenilir olabilir. Bilindik en küçük kareler kestiricisinin bu kısıtları sağlaması olası değildir. Bu gibi durumlarda kısıtlı en küçük kareler kestiricisini kullanmak yararlı olabilir. Ödev 3 bağımsız değişkeni olan ve 12 örneklemden oluşturulmuş bir çoklu regresyon modelinden üretilen ANOVA tablosu verilmiştir. Tablodaki harflerin yerine gelecek sayıları bulunuz. Kaynak d.f S.S. M.S. F Regresyon a d f 96 Artık b e 12 Toplam c