İ Ç İ N D E K İ L E R BASİT REGRESYON VE KORELASYON ANALİZİ Kesin (Deterministik) Model Stokastik (Olasılıklı) Model Değişkenler arasındaki ilişki Regresyon Parametrelerinin Tahmininde Kullanılan Metot EN KÜÇÜK KARELER (EKK) YÖNTEMİ İLE BİR DOĞRUNUN UYUMU 1. Normal Denklemler 2. Determinant Metodu 3.Orijin Kaydırma Yöntemi REGRESYON DENKLEMİNİN İNCELENMESİ Tahminlenen Regresyonun Duyarlılığı Korelasyon Katsayısı Katsayıların Standart Hataları Katsayıların Güven Aralıkları Parametrelerin Teker Teker Anlamlılığı Testi TAHMİNİN VARYANSI VE GÜVEN ARALIĞININ BULUNMASI Tahminin standart hatası ve varyansı Katsayıların standart hata ve varyansları Katsayıların güven aralıkları Katsayıların anlamlılıklarını testi 2 R Belirlilik Katsayısı Korelasyon Katsayısı Tahminin Güven Aralığı Regresyon, iki yada daha çok değişken arasındaki ortalama ilişkinin matematiksel bir fonksiyonla incelenmesidir. Değişkenler arasındaki ilişkinin derecesi ve yönü ise korelasyon analizi ile açıklanır. Değişkenler arasındaki ilişkilere bazı örnekler vermek gerekirse; -İnsanların boyları ile kiloları -Futbol takımlarının çalışma süreleri ve maç skorları toplamları -Öğrencilerin çalışma miktarları ve sınav notları -Bir malın fiyatı ve talep miktarı -Bir ürünün verimi ve verilen gübre miktarı, vb. 1 Değişkenler arasındaki ilişkiler aşağıdaki gibi sınıflandırılabilir: i) Belirleyici (deterministik) ilişkiler ii) Yarı belirleyici ilişkiler iii) Deneysel (ampirik, stokastik) ilişkiler Kesin (Deterministik) Model Değişkenler arasında kesin bir ilişki olduğunu varsayan modeller, kesin (deterministik) modeller olarak adlandırılmaktadır. Örneğin arz miktarı y'nin, fiyat düzeyi x'in tam bir buçuk katı olduğuna inanıyorsak: y=1.5x Bu denklem, x ve y değişkenleri arasındaki kesin bir ilişkiyi temsil etmektedir. Bu tahminde hata payı yoktur. 2 Stokastik (Olasılıklı) Model Eğer arz miktarında, önemli fakat ele alınmayan değişkenlerin veya tesadüfi olguların yol açtığı açıklanmayan değişimlerin olacağına inanıyorsak, kesin model yerine tesadüfi hataya yer veren modelden yararlanmamız gerekir. Olasılıklı model hem kesin öğeyi hem de tesadüfi hata öğesini içerir. Örneğin eğer arz miktarı y'nin, fiyat düzeyi x ile: y = 1.5x + Tesadüfi Hata şeklinde bir ilişkisi olduğunu düşünüyorsak, x ile y arasında olasılıklı bir ilişki olduğunu anlarız. Görüldüğü gibi, olasılıklı modelin kesin öğesi 1.5x’tir. 3 Kesin (Deterministik) ve Stokastik (Olasılıklı) Model... Bu kez grafikten yararlanalım: Kesin Model: y=1.5x Olasılıklı Model: y=1.5x + Tesadüfi hata 4 Yarı belirleyici ve deneysel ilişkilerin (stokastik) incelenmesi regresyon analizinin kapsamına girmektedir. Regresyon analizinde değişkenler iki grup altında incelenir: - Bağımsız değişkenler (açıklayıcı değişkenler) - Bağımlı değişkenler Bağımlı değişken: belirlenirken, Modelin ifade ettiği olay tarafından Bağımsız değişken: Modelin ifade edilen olaydan bağımsız olan verileridir. 6 Örneğin kişilerin gelirlerinin değişmesi, harcama miktarlarının da değişmesine neden olur. Bu durumda gelir bağımsız değişken, harcama miktarı ise bağımlı değişkendir. Regresyon analizinde genellikle bağımsız değişkenler (X) , bağımlı değişkenler (Y) ile gösterilirler. 7 Basit doğrusal regresyondaki basit kelimesi iki değişken arasındaki ilişkiyi açıklamak için kullanılır. Doğrusal kelimesi, kurulan modelin parametreleri açısından doğrusal bir model olmasındandır. İki değişken arasındaki en basit ilişki, bir doğru ile açıklanabilen ilişkidir. Genel olarak bir doğrunun matematik gösterimi: Y Y=0+ 1X şeklindedir. Burada 1 , X eğimdir ve X’teki 1 birimlik değişmenin Y’de yaptığı değişikliği gösterir. 0 ise X’in değeri 0 olduğunda Y’nin almış olduğu değerdir ve Y ekseninin kesme noktası olarak isimlendirilir. 8 Değişkenler arasındaki ilişki Doğrusal ilişki Doğrusal olmayan ilişki Y 0 1 X Y 0 1 X 1 2 X 2 Eğrisel İlişki: Logaritmik İlişki: Katlı Ortak Doğrusal İlişki: Gecikmeli (lag) İlişki: 9 Regresyon Parametrelerinin Tahmininde Kullanılan Metot EKK Metodu Normal Denklemlerle Klasik Çözüm Yolu Determinantlarla Çözüm Yolu Orjin kaydırma Çözüm Yöntemi 10 EN KÜÇÜK KARELER (EKK) YÖNTEMİ İLE BİR DOĞRUNUN UYUMU 1. NORMAL DENKLEMLER Gözlemleri en iyi açıklayan doğrunun belirlenmesi için çeşitli yöntemler ileri sürülebilir. Fakat günümüzde en çok kullanılan yöntem “En Küçük Kareler” adı verilen yöntemdir. Bu yöntem gözlemlerin belirlenen doğrudan uzaklıklarının (hata terimlerinin) karelerinin toplamının en küçük yapılmasına dayanır. Y 0 1 X e e Y 0 1 X n n i 1 i 1 modelinde hata terimi: olarak yazılabilir. Bu ifadenin karesi alınıp tüm gözlemler için toplanırsa: 2 2 e i Y 0 1 X ifadesi elde edilir. EKK yöntemine göre bu ifadeyi minimize eden b0 ve b1 değerleri 0 ve 1’in tahmincileri olur. 11 n n i 1 i 1 2 2 e i Y 0 1 X İfadesini minimize eden parametre tahmincilerinin değerlerini bulabilmek için eşitliğin 0 ve 1’e göre türevleri alınıp 0’a eşitlenir. 0’a göre türev alınırsa; 2 n 2 n Y 0 1 X ei 0 i 1 0 i 1 1’e göre türev alınırsa; 2 n 2 n Y 0 1 X ei 1 i 1 1 i 1 n 2 X Y 0 1 X n 2 Y 0 1 X i 1 i 1 Her iki denklemi de 0’a eşitlersek; n 2 Y b0 b1 X 0 i 1 n Y b0 b1 X 0 i 1 n 2. X .Y b0 b1 X 0 i 1 n X .Y b i 1 0 b1 X 0 12 n 2 Y b0 b1 X 0 i 1 n Y b0 b1 X 0 i 1 n 2. X .Y b0 b1 X 0 i 1 n X .Y b i 1 0 b1 X 0 Parantezleri açarsak; Y n.b0 b1 X 0 XY b0 X b1 X 2 0 Bu denklemlere doğrunun NORMAL DENKLEMLERİ denir. Normal denklemler alt alta yazılıp birlikte çözüldüklerinde b0 ve b1 tahmincileri bulunur. ( X ).( Y ) XY n Y n.b0 b1 X b1 2 ( X ) 2 2 X XY b0 X b1 X n b0 Y b1 X şeklindeki formüller yardımıyla da tahminciler bulunabilir. 13 2.DETERMİNANT METODU Y nb b X X Y b X b X i 0 i i 1 0 i i Y X X Y X n X X X i bˆo i 2 i i i i Y bˆ0 bˆ1 X n bˆ1 1 X i 2 i Y X Y X X YX n X i i i i i n X i i 2 i Normal Eşitlikler 2 i 2 i 2 i X i X iYi ( X i ) 2 n X iYi X i Yi n X i 2 ( X i ) 2 14 3.ORJİN KAYDIRMA YÖNTEMİ Orijini Y b0 b1 X y b1 x Olarak gösterirsek Olur. Burada hata karelerini minimum yapmak için aşağıdaki yol izlenir. S ( y b1 x) 2 dS 2 x( y bˆ1 x) 0 db1 xy bˆ x2 0 bˆ1 1 xy x 2 da modele tekrar b0’ ı ekleyebiliriz. Y Y0 b1 ( X X ) x X X kaydırmasak da doğrunun eğimi değişmeyeceğinden istersek Y b0 b1 X y Y Y kaydırsak b0 Y b1 X x 0 olacağından x X X b0 alınarak x Y b 1 b̂0 Y n veya yerine konulursa bˆ0 Y n Bulunur. Y bˆ0 bˆ1 x 15 Bir fabrikada taşıma işleri için kullanılan tırların yaşı ile bakım harcamaları arasındaki ilişkiyi ele alalım. Verilerin grafiği çizildiğinde tam olarak düz bir doğrunun üzerinde olmadıkları, fakat tırlar eskidikçe bakım harcamalarının da arttığı görülmektedir. Burada bağımsız değişken yaş, bağımlı değişken ise bakım harcamalarıdır, çünkü yaş değiştikçe bakım harcamaları değişiklik göstermektedir. Pratiklik olması açısından yaş ve bakım harcaması arasındaki ilişkinin bir doğru şeklinde olduğunu varsayarsak, bu modelin matematik gösterimi: Bakım harcaması 2.0 4.5 4.5 4.0 5.0 5.5 5.0 0.5 6.0 1.0 1.0 3.0 2500 9200 4950 4400 7900 10500 9700 1950 8000 2025 3700 6800 Hata terimi yaş bakım harcaması yaş-bakım harcam ası grafiği bakım harcam ası yaş (yıl) Y 0 1 X e 12000 11000 10000 9000 8000 7000 6000 5000 4000 3000 2000 1000 0 0.0 1.0 2.0 3.0 4.0 yaş 5.0 6.0 7.0 16 bakım harcam ası yaş-bakım harcam ası grafiği 12000 11000 10000 9000 8000 7000 6000 5000 4000 3000 2000 1000 0 0.0 e hata terimi, tır için yapılan harcamanın, ilişkiyi açıklayan doğrudan ne kadar saptığını gösterir. 1.0 2.0 3.0 4.0 5.0 6.0 7.0 yaş Tırların yaşı ile yapılan bakım harcamaları arasındaki gerçek ilişkiyi belirleyen model henüz belirlenmiş değildir. Bunun için modelde bulunan parametrelerin (0 ve 1) bilinmesi gerekir. 0 ve 1 birer parametre olduklarından, gerçek değerlerinin bulunması için taşıma işinde kullanılan tüm tırların (populasyonun) bakım harcamaları ve yaşlarının bilinmesi gerekmektedir. Bu da çoğu zaman imkansız olduğundan elimizdeki örneği kullanarak parametreleri tahminleriz veya başka bir ifade şekliyle grafikteki noktalara en iyi uyan bir doğruyu buluruz. 17 Böylece veri noktalarımızdan geçen en iyi doğru denklemi: Yˆ b0 b1 X Gerçek Y’nin tahmincisi Traktör örneğimiz için gereken hesaplamaları yapıp normal denklemleri oluşturalım: Y n.b b X 0 yaş (yıl) (X) bakım harcaması (Y) X2 Y2 XY 2.0 2500 4 6250000 5000 4.5 9200 20.25 84640000 41400 4.5 4950 20.25 24502500 22275 4.0 5500 16 30250000 22000 5.0 7900 25 62410000 39500 5.5 10500 30.25 110250000 57750 5.0 9700 25 94090000 48500 0.5 1950 0.25 3802500 975 6.0 8000 36 64000000 48000 1.0 2025 1 4100625 2025 1.0 3700 1 13690000 3700 3.0 6800 9 46240000 20400 toplam 42.0 72725.0 188.0 544225625.0 311525.0 ortalama 3.5 6060.4 1 XY b0 X b1 X 2 72725 = 12b0+42b1 311525= 42b0 +188b1 3.5*(72725 = 12b0+42b1) 311525= 42b0 +188b1 254537.5 =42b0 +147b1 - 311525 = 42b + 188b 0 1 -56988 = -41b1 b1=1390 18 72725 =12b0 +42b1 72725 =12b0 +42*1390 b0 = 1195 Tahmincileri elde etmek için normal denklemler yerine formüller kullanılırsa da aynı sonuçlar elde edilir. Doğrunun denklemi: Yˆ 1195 1390 X Hesaplanan bu denklem kullanılarak yaşını bildiğimiz bir tır için yapılacak ortalama bakım masrafını tahmin edebiliriz. Örneğin x=4 yaşındaki bir tır için bakım masrafları: Yˆ 1195 1390 X Yˆ 1195 (1390)( 4) 6755 olarak bulunur. 19 Örnek: Firmanın 1993-1999 yılları arasındaki yıllık satışları aşağıda verildiği gibidir. Bu verilere dayanarak regresyon (yalın regresyon) denkleminin tahminlenmesi istenmektedir. (Satışlar 1000 br olarak) Yıllar Satışlar (Y) X XY X2 1993 15 1 15 1 1994 18 2 36 4 Y nb b X X Y b X b X i 0 i i 1 0 i i 1 2 i 1995 25 3 75 9 1996 30 4 120 16 1997 40 5 200 25 1998 60 6 360 36 1999 82 7 574 49 1380 28b0 140b1 270 28 1380 140 300 28b1 b1 300 / 28 10.7 270 7b0 28b1 1380 28b0 140b 1 1080 28b0 112b1 Paremetrelerin E.K.K.tahminlerini elde etmek için X Y (28)(270) n 7 b1 10.7 2 2 ( X ) (28) 140 X2 n 7 270 28 b0 Y b1 X (10.7) 4.2 7 7 XY 1380 Y = - 4.2 +10.7 x şeklinde regresyon denklemi elde edilir. 20 Determinant metodu ile parametre tahminlerinin hesaplaması ise ; Y X X XY 270(140) 28(1380) 30 7 n X ( X ) 7(140) (28) 2 b0 2 b1 2 n XY X Y n X 2 ( X ) 2 2 7(1380) 28(270) 75 2 7 7(140) (28) orjin kaydırma ile parametre tahmini ise; Yıllar 1993 1994 1995 1996 1997 1998 1999 Toplam Y 15 18 25 30 40 60 82 270 y -23.5 -20.5 -13.5 -8.5 1.5 21.5 43.5 Y X 1 2 3 4 5 6 7 x -3 -2 -1 0 1 2 3 b1 xy 70.5 41 13.5 0 1.5 43 130.5 300 x2 9 4 1 0 1 4 9 28 b0 xy x 30 75 X 7 7 b0 2 Y n Y 270 Y 38.5 b1 Y = 38.5 + 10.7 x n 7 xY 300 75 10.7 x 28 7 2 21 Y Y Y=-4.2+10.7X Y=38,5+10,7x 38.5 3 0 0 - 4.2 X x tg = b 1 =10.7 Y 30 75 x 7 7 Modeli için Y=38.5+10.7x modeli de yapılacak aynı tahminler de aynı sonucu verecektir. a) 2001 yılı satışları ne olacaktır? Y2001=-4.2+10.7(9)=92.1 a) 2001 yılı satışları ne olacaktır? Y=38.5+10.7(5)=92 br. b) Hangi yıl 100 birim satar? 100 = -4.2 + 10.7 x x = 9.7 b) Hangi yıl 100 birim satar? 100=38.5+10.7 x x=5.7 (2001 yılı 8. ayın ortaları) 2001 yılı 8. ayın ortalarında 22 REGRESYON DENKLEMİNİN İNCELENMESİ Regresyon denklemini incelerken genellikle bizi en çok ilgilendiren soru incelediğimiz iki değişken arasında gerçekten bir ilişki olup olmadığı sorusudur. Bu soru aslında basit doğrusal regresyonda 1’in değerinin 0 olup olmadığının araştırılmasıdır. Bu araştırmayı yaparken istatistiksel testle kullanmak gerektiğinden hata terimi ve parametre tahmincilerinin dağılışları hakkında bazı varsayımlarda bulunmak gerekir. Hata terimi e’ler, ortalaması 0 ve varyansı s2 olan birbirinden bağımsız normal dağılışlar gösterirler. E(e)=0 Var(e)= s2 - Tahminin Standart Hatası ve Varyansı Tahminin standart hatası s, noktaların regresyon doğrusu etrafındaki dağılımlarının ortalama bir ölçüsünü verir. 2 2 e e 23 s s2 nk nk Tahminlenen Regresyonun Duyarlılığı Regresyon denklemi tahminlendikten sonra bu denklemin ilişkiyi ne derece açıkladığı ve bu denklem kullanılarak yapılacak tahminlerin ne derece hassas olacağının araştırılması gerekir. Bunun için gözlenen değerler ile tahmini değerleri arasındaki farkı yazıp y’lerin ortalamasını buna ekleyip çıkarırsak aşağıdaki ifadeyi elde ederiz. Bu ifadenin grafiksel karşılığı şekilde görülmektedir. (Y Y) (Y Y) (Y Y) e Gözlem değeri (Y) (Y Yˆ ) (Y Y ) (Yˆ Y ) Regresyon doğrusu Yˆ b0 b1 X Y ortalama doğrusu Yi tahmin değeri 24 (Y Y) (Y Y) (Y Y) Daha sonra her iki tarafın kareleri alınıp tüm gözlemler için toplanırsa; (Y Y ) (Y Y ) (Y Y ) 2 2 2 İfade tekrar düzenlenirse: (Y Y ) (Y Y ) (Y Y ) 2 Ortalama etrafındaki kareler toplamı (genel KT) Gözlem değeri (Y) (Y Y ) (Y Yˆ ) (Yˆ Y ) Yi tahmin değeri 2 Regresyon kareler toplamı 2 Regresyondan sapmalar (hata) kareler toplamı Regresyon doğrusu Yˆ b0 b1 X Y ortalama doğrusu 25 Eğer gözlenen değerlerin hepsi tahmin edilen doğru üzerinde olsaydı, hata kareler toplamı “0” olacak ve uyumun çok iyi olduğu söylenebilecektir. Bu bilgiyi kullanarak, regresyon doğrusunun ne derece iyi tahminlenmiş olduğunu regresyon kareler toplamının ortalama etrafındaki kareler toplamına oranına bakarak söyleyebiliriz. Bu orana BELİRLEME KATSAYISI adı verilir ve R2 ile gösterilir. 2 regresyon kareler to plamı ( Y Y ) R2 genel kareler toplamı ( Y Y ) 2 R2’nin 1’e yaklaşan değerleri bize uyumun iyi olduğunu belirtir. (0<R2<1) Şekilden de görüldüğü gibi, Gözlem regresyon kareler toplamının değeri (Y) (Y Yˆ ) Regresyon doğrusu büyümesi, gözlem değerinin Yˆ b0 b1 X (Y Y ) tahminlenmiş regresyon doğrusuna (Yˆ Y ) yaklaşması anlamına gelmektedir ve Y bu da belirleme katsayısını arttırır. ortalama Yi tahmin değeri doğrusu 26 Hesaplama kolaylığı açısından kareler toplamları formülleri aşağıdaki şekilde de kullanılabilir: Genel kareler toplamı (GKT) ( Y Y ) 2 Y 2 ( Y ) 2 / n Regresyon kareler toplamı (RKT) (Y Y) 2 b12 X 2 ( X) 2 / n Hata kareler toplamı (HKT) (Y Y) 2 ilk ikisinin farkı 27 Korelasyon Katsayısı Korelasyon katsayısı, regresyon modeli ile bulunan tahmini Y değerlerinin, gerçek değerlere uygunluğunu ölçmede kullanılır. Korelasyon katsayısı -1 ile 1 arasında değişir. Katsayının -1 çıkması, iki değişken arasında ters yönlü tam bir ilişkinin olduğunu, 1 çıkması ise doğru yönlü tam bir ilişkinin olduğunu ifade eder. Katsayının -1’e doğru yaklaşması, değişkenler arasında ters yönlü kuvvetli bir ilişkiyi gösterirken, 1’e yaklaşması değişkenler arasında doğru yönlü kuvvetli bir ilişkiyi ifade eder. Korelasyon katsayısının işareti, regresyon doğru veya eğrisine ait eğim katsayısının işaretidir. Korelasyon katsayısının karesi, (determinasyon katsayısını) verir. belirleme katsayısını 28 Sınırlı sayıda veri üzerinden hesaplanan korelasyon katsayısı bir istatistiktir ve r ile gösterilir. Bu istatistiğin anakütle parametresi olarak karşılığı ’dur. Korelasyon katsayısı için genel formül; r ya da xy ( x )( y r 2 2 2 ˆ ( Y Y ) 2 ( Y Y ) ) Bu formülde; xy XY y Y 2 2 ( X )( Y ) n 2 2 x X ( X ) 2 n ( Y ) 2 n 29 Bütün bu değerler n katsayısı ile çarpılırsa sonuç değişmez ve korelasyon katsayısı; r n XY ( X )( Y ) n X 2 ( X ) 2 n Y 2 ( Y ) 2 Hesaplanan korelasyon katsayısının gerçekten önemli olup olmadığını anlamak için belirli bir önem seviyesinde test etmek gerekir. Doğrusal korelasyon katsayısının önemli olup olmadığını test ederken test hipotezleri, H0 : 0 H1 : 0 30 v=n-2 sd. ve 2 değerlerine göre t kritik değerleri tespit edilir. Test istatistiği; r th sr sr korelasyon katsayısının standart hatasıdır. 1 r 2 sr n2 31 Test istatistiği, mutlak olarak kritik değerden büyük çıktığında X ile Y değişkenleri arasında önemli bir ilişki olduğunu söyleyebiliriz. Bununla birlikte bu değişkenlerin arasında mantıki bir ilişkinin bulunması şarttır. Bazen hiç alakası olmayan değişkenler arasında da yüksek bir korelasyon çıkabilmektedir. Bu tip korelasyonlara sahte korelasyon denir. ÖRNEK Bir süper market yöneticisi tesadüfi olarak seçilen bir saatlik sürelerde kasaya gelen müşteri sayısını ve ödedikleri toplam para miktarını aşağıdaki gibi kaydetmiştir. Müşteri Sayısı Ödenen Para (10000 TL) 25 12.5 20 10.4 50 25.3 35 20.2 40 24.1 32 Müşteri sayısını bağımsız (X), kasalara ödenen para miktarını bağımlı değişken(Y) olarak kabul ederek, doğrusal korelasyon katsayısı; r n XY ( X )( Y ) n X 2 ( X ) 2 n Y 2 ( Y ) 2 formülü ile kolayca hesaplanabilir. Toplam X Y XY X2 Y2 25 12.5 312.5 625 156.2 20 10.4 208 400 108.1 50 25.3 1265 2500 640.09 35 20.2 707 1225 408.04 40 24.1 964 1600 580.81 170 92.5 3456.5 6350 1893.3 33 r 5(3456.5) 170(92.5) 56350 170 5(1893.3) (92.5) 2 2 0.9669 Korelasyon katsayısının önemli olup olmadığı %5 önem düzeyinde test edilirse, test hipotezleri H0 : 0 H1 : 0 şeklinde kurulur. v=n-2=5-2=3 sd. ve 2 0.05 2 0.025 önem seviyesine göre kritik değerler 3.182‘dir. 34 th r 1 r 2 n2 0.9669 1 (0.9669) 2 52 6.5635 Test istatistiği, kritik t değerinden büyük olduğu için %5 önem seviyesinde H0 hipotezi reddedilerek hesaplanan doğrusal korelasyon katsayısının önemli olduğuna karar verilir. 35 Katsayıların Standart Hataları 2 s X 2 ( X ) 2 / n E(b0)=0 Var (b0 ) E(b1)=1 s2 X 2 Var (b1 ) n X 2 ( X ) 2 / n s(bˆ0 ) s. s(bˆ1 ) 2 X n x 2 s 2 x Katsayıların Güven Aralıkları bˆ0 ttabs(bˆ0 ) bˆ1 ttabs(bˆ1 ) 36 Parametrelerin teker teker anlamlılığı testi: Sabit terim 0’ın testi için hipotezler: H0 :0=0 H1 :00 ˆ b b test istatistiği: t 0 0 Var (b0 ) Eğim katsayısı 1‘in testi için hipotezler: H0 :1=0 H1 :10 test istatistiği: t bˆ1 b1 Var (b1 ) t istatistiği değerleri genelde paket programlar tarafından hesaplanıp verilmektedir. Hesaplanan test istatistikleri (n-2) serbestlik dereceli t dağılışı değeri ile kontrol edilir. 37 Regresyon doğrusunun tüm parametrelerinin istatistiksel açıdan anlamlı olup olmadığını test etmek için önce Varyans Analizi Tablosu aşağıdaki şekilde oluşturulur: Varyasyon kaynağı Regresyon Hata Genel (toplam) Serbestlik Kareler toplamı derecesi 1 RKT n-2 HKT=GKT-RKT n-1 GKT Kareler ortalaması RKO=RKT/1 HKO=HKT/(n-2) Daha sonra sabit terim dışındaki parametrelerin 0’dan farklı olup olmadığı hipotezi test edilir. H0 : 1=0 H1 : 10 Test İstatistiği: F Regresyon Kareler Ortalamas ı Hata Kareler Ortalamas ı Serbestlik derecesi: 1, (n-2) 38 TAHMİNİN VARYANSI VE GÜVEN ARALIĞININ BULUNMASI Regresyon denkleminin elde edilmesinin en önemli amaçlarından biri bağımsız değişkenin herhangi bir değeri için Y’nin alacağı değerin tahminlenmesidir. Yˆk b0 b1 X k şeklinde hesaplanan bu tahminin, varyansı ve o noktadaki gerçek değer için güven aralıklarının bulunması istenir. Bu tahminin varyansı: Hatanın varyansı 1 2 (Xk X ) s .s 2 2 n X ( X ) / n 2 2 yˆ k 1 ( X k X )2 yada s yˆ k s 1 2 n x Xk noktasında Y’nin alacağı ortalama değer için güven % (1- )’lık güven aralığı: Yˆk t / 2,n2.s yˆ k 39 Örnek:1996-2005 yıllarındaki Türkiye’nin turizm gelirleri ile Türkiye’ye gelen turist sayısı tabloda verilmiştir. Yıllar Turizm Gelirleri Yabancı Ziyaretçi Sayısı 1996 5.650 8.614 1997 7.008 9.689 1998 7.177 9.752 1999 5.193 7.464 2000 7.636 10.412 2001 8.090 11.569 2002 8.481 13.247 2003 9.677 14.030 2004 12.125 17.517 2005 13.929 21.122 40 Turizm Gelirleri ile Yabancı Ziyaretçi Sayısı verileri arasındaki dağılma diyagram Turizm Gelirleri 16 14 12 10 8 6 4 2 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 Yabancı Ziyaretçi Sayısı 41 Doğrusal gelir fonksiyonunun normal denklemler yoluyla tahmini: Tablo 2: Verilerin normal denklemler ile çözüm için düzenlenmesi Y X YX X2 5.650 8.614 48.6691 74.201 7.008 9.689 67.9005 93.8767 7.177 9.752 69.9901 95.1015 5.193 7.464 38.7605 55.7113 7.636 10.412 79.5060 108.4097 8.090 11.569 93.5932 133.8418 8.481 13.247 112.3478 175.4830 9.677 14.030 135.7683 196.8409 12.125 17.517 212.3936 306.8452 13.929 21.122 294.2083 446.1388 Y=84.966 X=123.416 YX=1153.138 X2=1686.4501 42 Doğrusal gelir fonksiyonunun normal denklemler yoluyla tahmini: Y = b0.n + b1.X YX = b0.X + b1. X2 84.96 = b0.10 + b1. 123.4 1153.13= b0.123.4 + b1. 1686.4 b0=0.597 b1=0.640 Yˆ 0.597 0.640 X Yabancı ziyaretçi sayısı arttıkça turizm geliri artmaktadır. 43 Doğrusal gelir fonksiyonunun formülden tahmini: bˆ0 2 X Y X YX n X X 2 2 (1686.45) * (84.966) (123.416) * (1153.138) 0.597 2 10 * (1686.45) (123.416) ( bˆ1 n YX X Y n X X 2 2 10 * (1153.138) (123.416) * (84.966) 0.640 2 10 * (1686.45) (123.416) 44 Doğrusal gelir fonksiyonunun ortalamadan farklara göre tahmini 2 xX X yx x -2.8466 -3.7276 10.6109 13.8950 8.1031 -1.4886 -2.6526 3.9486 7.0362 2.2159 -1.3196 -2.5896 3.4172 6.7060 1.7413 -3.3036 -4.8776 16.1136 23.7909 10.9137 -0.8606 -1.9296 1.6606 3.7233 0.7406 -0.4066 -0.7726 0.3141 0.5969 0.1653 -0.0156 0.9054 -0.0141 0.8197 0.0002 1.1804 1.6884 1.9929 2.8506 1.3933 3.6284 5.1754 18.7784 26.7847 13.1652 5.4324 8.7804 47.6986 77.0954 29.5109 y=0.0000 x=0.0000 yx=104.5212 x2=163.2991 y2=67.9499 y Y Y y2 45 b1 yx 104.5212 0.640 x 163.2991 2 b0 Y b1 X 8.4966 (0.640) *12.3416 0.590 46 Tahminin standart hatası ve varyansı: s e 2 nk s 2 2 e nk e Y Yˆ Y Y2 Yˆ 0.597 0.640 X 5.65 31.92 0.597 + 0.640(8.614) = 6.1099 -0.460 0.2115 7.008 49.11 0.597 + 0.640(9.689) = 6.7979 0.210 0.0441 7.177 51.51 0.597 + 0.640(9.752) = 6.8382 0.339 0.1147 5.193 26.96 0.597 + 0.640(7.464) = 5.3739 -0.181 0.0327 7.636 58.31 0.597 + 0.640(10.412) = 7.2606 0.375 0.1408 8.09 65.45 0.597 + 0.640(11.569) = 8.0011 0.089 0.0078 8.481 71.93 0.597 + 0.640(13.247) = 9.0750 -0.594 0.3529 9.677 93.65 0.597 + 0.640(14.030) = 9.5762 0.101 0.0101 12.125 147.02 0.597 + 0.640(17.517) = 11.8078 0.317 0.1005 13.929 194.02 0.597 + 0.640(21.122) = 14.1150 -0.186 0.0346 Y2 =789.8721 Yˆ 84.966 0.010 e2 = 1.0501 e2 47 2 e 1.0501 0.362 nk 10 2 s s 2 (0.362) 2 0.131 Katsayıların standart hata ve varyansları: 2 X s(bˆ0 ) s. 1686.45 0.362 * 0.367 2 n x 10 *163.299 s(bˆ1 ) s 0.362 0.028 2 163.299 x Var(bˆ0 ) (0.367)2 0.134 Var (bˆ1 ) (0.028) 2 0.00078 Yˆ 0.597 0.640 X s (bi ) (0.367) (0.028) t (1.626) (22.85) 48 Katsayıların güven aralıkları bˆ1 ttabs(bˆ1 ) bˆ0 ttabs(bˆ0 ) 0.597 2.306. (0.367) 0.640 2.306 . (0.028) 0.640 0.0645 0.597 0.8463 -0.2493 b0 1.4433 0.5755 b1 0.7045 Katsayıların anlamlılıklarını testi H0 : b0= 0 H1 : b0 0 t0.05/2, 8 = 2.306 thes =1.626 < t0.05/2 , 8= 2.306 thes bˆ0 b0 0.597 0 H0 Reddedilemez. 1.626 ˆ 0.367 s(b0 ) b0 istatistiki olarak anlamsız 49 H0 : b1= 0 H1 : b1 0 thes t0.05/2 ,8 = 2.306 bˆ1 b1 0.640 0 22.85 0.028 s(bˆ1 ) thes =22.85 > t0.05/2 , 8= 2.306 H0 Red b1istatistiki olarak anlamlı 50 Yˆ 0.597 0.640 X s (bi ) (0.367) (0.028) t (1.626) (2.306) Genel kareler toplamı (GKT) ( Y Y ) 2 Y 2 ( Y ) 2 / n Regresyon kareler toplamı (RKT) ( Y Y) 2 b12 X 2 ( X) 2 / n Hata kareler toplamı (HKT) X2=1686.4501 (Y Y) 2 ilk ikisinin farkı X=123.416 Y=84.966 Y2 =789.8721 2 2 ( X ) ( 123 . 416 ) 2 2 2 ˆ RKT b1 X ( (0.640) 1686.4501 66.8873 n 10 GKT (Y Y ) 2 Y 2 ( Y ) 2 / n 789.8721 7219.229 10 67.9499 51 Turizm örneği için varyans analizi tablosunu oluşturup regresyonun anlamlılığını test edersek: H0 : 1=0 H1 : 10 Regresyon Hata Genel sd 1 8 9 KT 66.8873 1.0501 67.9499 KO 66.8873 0.1312 2 ( 123 . 416 ) 2 RKT (0.640) 1686.4501 66.8873 10 2 HKT e 1.0501 GKT (Y Y ) 2 Y 2 ( Y ) 2 / n 789.8721 7219.229 10 67.9499 F 66.8873 509.81 0.1312 F0.05,1,8 = 5.32 Fhesap> Ftablo ; H0 reddedilir, katsayı istatistiksel olarak anlamlıdır. 52 R2 Belirlilik Katsayısı: 2 regresyon kareler to plamı ( Y Y ) 66.8873 2 R 0.9844 2 genel kareler to plamı 67.9499 (Y Y ) YORUM: Bu sonuç bize, turizm gelirlerindeki değişkenliğin (varyasyonun) %98.44’ünün gelen ziyaretçi sayısı ile açıklanabildiğini göstermektedir. Korelasyon Katsayısı r 0.98.44 0.9922 Turizm geliri ile gelen ziyaretçi değişkenleri arasında pozitif yönde kuvvetli bir ilişki vardır. 53 Tahminin Güven Aralığı 1 (Xk X ) ˆ Yk ttab .s 1 2 n x Xk = 8.614 Yˆk 6.1099 2 (İlk gözlem) 1 (8.614 12.3416) 2 6.1099 2.306 (0.362) . 1 10 163.2991 5.20124 YkXk 7.0185 0.05 2 0.025 n 2 8 sd. ttab 2.306 54 ÖRNEK İstatistik dersi sınavına çalışmak için 5 öğrencinin etkin olarak harcadıkları süreler ve sınav sonuçları aşağıda verilmiştir. Bu veriler ışığında çalışılan süre ile sınav notu arasındaki ilişkiyi çiziniz, denklemini tahmin ediniz. Belirleme katsayısını hesaplayarak yorumlayınız. Daha sonra varyans analizi tablosunu hazırlayarak belirlediğiniz doğrunun eğiminin 0 olup olmadığını kontrol ediniz. Aynı hipotezi t testi ile tekrar kontrol ediniz ve bulgularınızı karşılaştırınız. Süre (X) 5 3 1 6 10 Toplam 25 Ortalama 5 Not (Y) 4.1 3.5 2 4.5 4.9 19 3.8 X2 25 9 1 36 100 171 XY 20.5 10.5 2 27 49 109 Y2 16.81 12.25 4 20.25 24.01 77.32 55 Y n.b0 b1 X 0 XY b0 X b1 X 2 0 6 5 not 4 3 19 - 5. b0 - 25b1 = 0 2 1 109-25b0 - 171b1 =0 0 5*(19 - 5b0 - 25b1 = 0) 0 1 2 3 4 5 6 7 8 9 10 11 süre 109 - 25b0 - 171b1 =0 95 - 25b0 - 125b1 = 0 19 - 5. b0 - 25b1 = 0 - 109 - 25b - 171b =0 0 19-5b0 -25*0.3=0 -14 + 46b1=0 b0 = 2.3 b1 = 0.3 1 Formülle hesaplarsak: b1 ( X ).( Y ) 25 *19 109 n 5 14 0.3 625 ( X ) 2 46 2 171 X 5 n XY b0 Y b1 X 3.8 0.3 * 5 2.3 56 Böylece doğrunun denklemi: Yˆ b0 b1 X 2.3 0.3 X (Y Y ) 2 Y 2 ( Y ) 2 / n 77.32 19 2 / 5 5.12 (Yˆ Y ) 2 b12 X 2 ( X ) 2 / n 0.32 171 252 / 5 4.14 2 ˆ regresyon kareler to plamı ( Y Y ) 4.14 2 R 0.81 2 genel kareler to plamı 5.12 (Y Y ) YORUM: Bu sonuç bize, sınavdan alınan notların değişkenliğinin (varyasyonunun) %81’inin çalışılan saatler arasındaki farklılıklar ile açıklanabildiğini göstermektedir. 57