Karşılaştırma Deneyleri Bu kısımda anlatılacakların büyük bir kısmı istatistik bölümü 3 sınıf öğrencileri tarafından bilinmektedir. Örnek 1. Yeni doğan civcivlerin ilk ayında uygulanan farklı iki beslenme rejimi ile ilgili Giriş Bölümündeki Örnek 4 ‘ü göz önüne alalım. Burada, beslenme sonucu ağırlıkların dağılımının normal ve her iki beslenme rejimi için varyansların aynı olduğu varsayımı vardır. Rasgele seçilen n tane civcive birinci, m tane civcive ikinci gıda rejiminin uygulanması sonucunda Y11, Y12 ,..., Y1n ve Y21, Y22 ,..., Y2 m verisi elde edilsin. Bunları N ( µ1,σ 2 ) ve N ( µ2 ,σ 2 ) dağılımlarından alınan birbirinden bağımsız birer örneklem olarak düşünürsek, olabilirlik fonksiyonu, L(µ1, µ2 ,σ 2 ) = ( 1 2πσ n − 1 2 ∑ ( y1i − µ1)2 )n e 2σ i=1 ( 1 2πσ m − 1 2 ∑ ( y2 j − µ2 )2 2σ j=1 )m e olmak üzere, parametrelerin en çok olabilirlik tahmin edicileri, m n µˆ1 = ∑ Y1i i=1 n = Y1 , µˆ 2 = ∑ Y2 j j =1 n = Y2 , σˆ 2 = n m i=1 j =1 ∑ (Y1i −Y1)2 + ∑ (Y2 j −Y2 )2 n+m dır. Đlk ikisi yansız olup varyans için yansızlaştırılmış tahmin edici, m i=1 j=1 ∑ (Y1i −Y1)2 + ∑ (Y2 j −Y2 )2 σɶ2 = S P2 = dır. n n + m−2 H 0 : µ1 = µ 2 , H1 : µ1 ≠ µ 2 hipotezlerinin testi için α anlam düzeyli olabilirlik oranı test fonksiyonu, 1 , T ≥ t 1−α / 2,n+m−2 ψ = 0 , T < t 1−α / 2,n+m−2 dır. Buradaki T test istatistiği, T= Y1 −Y2 ∼ tn+m−2 1 1 SP + n m dır. Bu, test istatistiğine aşağıdaki gibi bir düşünce tarzı ile de ulaşılabilir. m n ∑ (Y 1i − Y1 ) i =1 σ 2 ∑ (Y 2 2j ∼ χn2−1 , j =1 σ n − Y2 ) 2 2 ∼ χm2−1 ⇒ ( n + m − 2) S σ 2 2 P m ∑ (Y 1i = 2 − Y1 ) + i =1 ∑ (Y 2j j =1 σ 2 − Y2 ) 2 ∼χ 2 n+ m −2 ve Y1 − Y2 − (µ1 − µ2 ) ∼ tn+m−2 1 1 + SP n m olmak üzere, H 0 : µ1 − µ2 = 0 , H1 : µ1 − µ 2 ≠ 0 hipotezlerinin testinde, sıfır hipotezi altında, T= Y1 − Y2 ∼ t n + m −2 1 1 + SP n m olmak üzere, 1 , T ≥ t 1−α / 2,n+m−2 ψ = 0 , T < t1−α / 2,n+m−2 test fonksiyonu yazılabilir. Ortalamalar arası fark için 1− α güven katsayılı bir güven aralığı, 1 1 1 1 P(Y1 − Y2 − t1−α / 2,n+m−2 S P + < µ1 − µ2 < Y1 − Y2 + t1−α / 2,n+m−2 S P + ) = 1− α n m n m şeklindedir. σ 2 bilindiğinde başka bir güven aralığı, 1 1 1 1 + < µ1 − µ2 < Y1 − Y2 + z1−α / 2σ + ) = 1− α P(Y1 − Y2 − z1−α / 2σ n m n m dır. Đki beslenme rejimi için varyansların aynı olmadığı, yani beslenme sonunda ağırlıklar için dağılımların N ( µ1 , σ 12 ) ve N ( µ 2 , σ 22 ) olması ve varyansların bilinmesi durumunda, ortalamalar arası fark için 1− α güven katsayılı bir güven aralığı, P (Y1 − Y2 − z1−α / 2 σ12 σ22 σ2 σ2 + < µ1 − µ2 < Y1 − Y2 + z1−α / 2 1 + 2 ) = 1− α n m n m dır. Varyansların bilinmiyor olması durumunda, 2 S12 S 22 + n m υ= 1 2 2 1 ( S1 ) ( S 22 ) 2 2 2 n +m n −1 m −1 olmak üzere, P(Y1 −Y2 − t1−α / 2,υ S12 n + S22 m < µ1 − µ2 < Y1 −Y2 + t1−α / 2,υ S12 n + S22 m dır. Burada, m n S12 = ∑ (Y1i − Y1 ) 2 i =1 n −1 ∑ (Y 2j , S 22 = − Y2 ) 2 j =1 m −1 olup, bunlar aynı zamanda bilinmeyen varyanslar için yansız birer tahmin edicidir. ) = 1− α Beslenme rejimleri sonundaki ağırlıkların varyanslarının eşitliği ile ilgili, H 0 : σ12 = σ 22 H 0 : σ12 ≠ σ 22 hipotezleri test edilmek istensin. (n −1) S12 / σ12 ∼ Fn−1,m−1 (m −1) S 22 / σ22 olmak üzere, F= S12 S 22 bir test istatistiğidir. Bu test istatistiği olabilirlik oranı test fonksiyonundaki test istatistiğidir. Giriş Bölümü Örnek 4 de anlatıldığı gibi Y11, Y12 ,..., Y1n ve Y21, Y22 ,..., Y2 m gözlemleri için, Y11 1 0 ε11 Y 1 0 ε 12 12 ⋮ ⋮ ⋮ ⋮ Y1n = 1 0 µ1 + ε 1n Y21 0 1 µ2 ε 21 Y22 0 1 ε 22 ⋮ ⋮ ⋮ ⋮ Y2 m 0 1 ε 2 m gibi bir lineer model yazılabilir. Hata vektörü için kitle varyanslarının eşit olması durumunda, E ( ε ) = 0 , Cov( ε ) =σ2In + m gibi bir varsayım, farklı olması durumunda, σ 2 I 0 E (ε ) = 0 , Cov(ε ) = 1 n 2 σ 2 Im 0 gibi bir varsayım söz konusu olacaktır. Yukarıdaki istatistiksel sonuç çıkarım lineer model teorisi çerçevesinde yürütülebilir. Örnek 2 Kamu Personeli Seçme Sınavı (KPSS) ile ilgili bir dershane iki aylık bir kurs sonucu katılanların Đstatistik puanında bir artış sağlamak istemektedir. Amacına ulaşıp ulaşamadığını araştırmak için KPSS’ye katılanlar arasından rasgele seçtiği n kişiye bu kursu verip, yeni sınav sonuçlarını öncekilerle karşılaştıracaktır. Seçilen n kişi 1,2,…,n sayıları ile numaralansın. Birinci ve ikinci sınavın sonuçları Y11, Y12 ,..., Y1n ve Y21, Y22 ,..., Y2n olsun. Bu veriler N ( µ1 , σ 12 ) ve N ( µ 2 , σ 22 ) dağılımlarından alınmış bağımsız iki örneklem olarak ele alınırsa, Y1 − Y2 ∼ N (µ1 − µ2 , σ12 σ22 + ) n m olup, varyansların biliniyor olması durumunda ortalamalar arası fark için P (Y1 − Y2 − z1−α / 2 σ12 σ22 σ2 σ2 + < µ1 − µ2 < Y1 − Y2 + z1−α / 2 1 + 2 ) = 1− α n m n m gibi bir güven aralığı yazılabilir. Ancak, i = 1, 2,..., n için Cov(Y1i , Y2i ) değerleri sıfırdan farklıdır, yani önceki sınav ile sonraki sınav notları ilişkisiz değildir. Birinci ve ikinci sınavın sonuçları Y11, Y12 ,..., Y1n ve Y21, Y22 ,..., Y2n sırasıyla, N ( µ1 , σ 12 ) ve N ( µ 2 , σ 22 ) dağılımlarından alınmış bağımsız olmayan iki örneklem olarak ele alınırsa, σ2 σ2 1 n Y1 − Y2 ∼ N µ1 − µ2 , 1 + 2 − 2 Cov(Y1i , Y2i ) n m n i=1 ∑ olup, ortalamalar arası fark için 2 σ1 P (Y1 − Y2 − z1−α / 2 2 + n σ2 m − 1 n 2 2 n ∑ Cov (Y , Y 1i 2i ) < µ1 − µ2 < Y1 − Y2 + z1−α / 2 i =1 σ1 2 + σ2 n m − 1 n 2 n ∑ Cov(Y , Y 1i 2i ) ) = 1− α i =1 gibi bir güven aralığı yazılabilir. Kovaryans değerleri bilinmediği için bu güven aralığını kullanamayız. Di = Y1i −Y2i , i = 1, 2,..., n rasgele değişkenleri bağımsız olmak üzere, D1 , D2 ,..., Dn değerlerini bir D ∼ N (µD = µ1 − µ2 , σD2 ) rasgele değişkeninin dağılımından örneklem olarak düşünebiliriz. Örneklem ortalaması, n D= Di ∑ i=1 σD2 = Y1 − Y2 ∼ N µD = µ1 − µ2 , n n σ12 σ22 1 n = + − 2 ∑ Cov(Y1i , Y2i ) n m n i=1 ve örneklem varyansı, n S D2 = ( Di − D)2 ∑ i=1 n −1 dır. µD = µ1 − µ2 , yani ortalamalar arası fark için 1− α güven katsayılı bir güven aralığı, P( D − t1−α / 2,n−1S D / n < µD < D + t1−α / 2,n−1S D / n ) = 1− α dır. H 0 : µ1 − µ2 = 0 (µ D = 0) H1 : µ1 − µ2 ≠ 0 ( µ D = 0) hipotezlerinin testinde, T= D − µD ∼ tn−1 SD / n istatistiği kullanılabilir. Bu örnekte olduğu gibi, aynı birim üzerinde tekrarlı gözlem yapılması durumunda iki gruptaki gözlemler birbirinden bağımsız olarak düşünülemez. Bu durumlar deney tasarımında tekrarlı ölçümlü modeller olarak ele alınmaktadır. Örnek 3 Belli bir ırk tavuklar için yeni doğan civcivlerin ağırlık ortalamasının µ0 gram olup olmadığı, yani ağırlık ortalaması ( µ ) için H 0 : µ = µ0 , H1 : µ ≠ µ0 hipotezleri test edilmek istenmektedir. Böyle bir araştırma için deney tasarımı safhaları aşağıdaki gibi olabilir. DENEY: Yumurtadan çıkan civcivlerin ağırlık ortalaması için H 0 : µ = µ0 , H1 : µ ≠ µ0 hipotezleri test edilmek istenmektedir. Ağırlığı etkileyen baskın bir etken olmayacak şekilde yumurtalar kuluçkaya yatırılıp çıkan civcivlerin ağırlıkları (Y) gözlenecektir. DÜZENLEME: Bu ırka ait tavukların yumurtalarından rasgele seçilen belli sayıdaki yumurtadan sağ çıkan n tane civcivin ağırlıkları Y1 , Y2 ,..., Yn olarak gözlensin. Bu gözlemler için Yi = µ + ε i , i = 1, 2,..., n ε i ∼ BND (0, σ ε2 ) gibi bir lineer model düşünülebilir. Normallik varsayımını kaldırarak, Yi = µ + ε i , i = 1, 2,..., n ε i ∼ BAD (0, σ ε2 ) gibi bir model de düşünülebilir. Burada BAD kısaltması Bağımsız Aynı Dağılımlı sözcüklerinin ilk harfleridir. Hatalar için normallik sınaması yapılıp modellerden bir tanesi tercih edilecektir. ANALĐZ: Yi = µ + ε i , i = 1, 2,..., n ε i ∼ BND (0, σ ε2 ) modelinin tercih edilmesi durumunda α anlam düzeyli test fonksiyonu, Y − µ0 ≥t 1 , σˆ ε / n 1−α / 2,n−1 ψ = 0 , Y − µ0 < t σˆ ε / n 1−α / 2,n−1 n dır. Burada, Y = ∑ Yi i=1 n ∑ (Y −Y ) 2 i ve σˆ ε2 = i =1 dır. n n −1 Yi = µ + ε i , i = 1, 2,..., n ε i ∼ BAD (0, σ ε2 ) modelinin tercih edilmesi durumunda örneklem hacmi yeterince büyük olduğunda α anlam düzeyli test fonksiyonu, Y − µ0 ≥ z1−α / 2 1 , ˆ σ / n ε ψ = 0 , Y − µ0 < z 1−α / 2 σˆ ε / n dır. Örneklem hacmi küçük olduğunda dağılımdan bağımsız (distribution free) hipotez testine başvurulabilir. Bu örnekte, başlangıçtaki amacımız hipotez testi olmayıp, yeni doğan civcivlerin ağırlık ortalaması ile varyansının nokta ve aralık tahmini olabilir. Araştırma, yine yukarıdaki gibi bir Deney Tasarımı çerçevesinde yapılsın. Her iki model çerçevesinde, n µˆ = Y = Yi ∑ i=1 n n σˆ ε2 = (Yi − Y )2 ∑ i=1 n −1 tahmin edicileri yansız olup, birinci model çerçevesinde bu tahmin ediciler düzgün en küçük varyanslı yansız (UMVU) tahmin edicilerdir. Örnek 4 Kandaki kolestrol miktarı (Y ) ile yaş ( X ) arasında, Yi = α + β X i + εi , i = 1, 2,..., n , εi ∼ BND(0, σε2 ) gibi basit doğrusal regresyon bağıntısı olduğu bilinmektedir. Farklı iki şehirdeki kadınlar için kandaki kolestrol karşılaştırılmak istenmektedir. Daha doğrusu, iki şehirdeki kadınlar için söz konusu olan regresyon denklemlerinin aynı olup olmadığı karşılaştırılmak istenmektedir. Đstatistik dili ile, Y1i = α1 + β1 X1i + ε1i , i = 1,2,..., n1 , ε1i ∼ BND(0, σε2 ) Y2i = α2 + β2 X 2i + ε2i , i = 1,2,..., n2 , ε2i ∼ BND(0, σε2 ) gibi iki model için, H 0 : α1 = α2 , β1 = β2 H1 : α1 ≠ α2 veya β1 ≠ β2 hipotezleri test edilmek istenmektedir. Bu amaçla yapılan bir deney düzenlemesi sonucunda, birinci şehirden rasgele seçilen 11 ve ikinci şehirden rasgele seçilen 19 kadın için aşağıdaki gözlemler elde edilmiştir. Y1i X 1i Y2i X 2i 181 228 182 249 259 201 121 339 224 112 189 46 52 39 65 54 33 49 76 71 41 58 187 173 177 241 225 223 110 257 337 189 214 140 196 262 261 356 159 191 197 18 44 33 78 51 43 34 58 63 19 42 30 47 58 70 67 41 21 56 H 0 : α1 = α2 , β1 = β2 H1 : α1 ≠ α2 veya β1 ≠ β2 hipotezleri için olabilirlik oranı test fonksiyonundaki test istatistiği, n = 11 + 19 = 30 olmak üzere, (n − 2)σˆ ω2 − (n − 4)σˆΩ2 n − 4 W (Y ) = 2 (n − 4)σˆΩ2 dır (Akdeniz ve Öztürk (1996), Kısım 4.5.4). Burada, σ̂Ω2 değeri, hata varyansı için Y 1 11 Y 1 12 ⋮ ⋮ Y1n1 1 = Y21 0 Y 0 22 ⋮ ⋮ Y 0 2n2 X 11 X 12 ⋮ X 1n1 0 0 ⋮ 0 0 0 ⋮ 0 1 1 ⋮ 1 ε 11 ε 12 ⋮ α 1 ε β 1n 1 + 1 X 21 α2 ε21 X 22 β2 ε22 ⋮ ⋮ ε X 2n2 2n2 0 0 ⋮ 0 modelinden elde edilen, 2 σˆΩ2 = ni (Yij −Yˆij )2 ∑∑ i=1 j=1 n−4 değeri (Artıkların Kareler Ortalaması) ve σˆ ω2 değeri, hata varyansı için Y 1 X ε 11 11 11 Y 1 X ε 12 12 12 ⋮ ⋮ ⋮ ⋮ Y 1 X ε 1n1 1n 1n1 α + 1 = Y21 1 X 21 β ε21 Y 1 X ε 22 22 22 ⋮ ⋮ ⋮ ⋮ Y 1 X ε 2 n2 2 n2 2n2 modelinden elde edilen, 2 σˆ ω2 = ni (Yij −Yˆij )2 ∑∑ i=1 j=1 n−2 değeridir. MINITAB veri sayfası: C1 C2 C3 C4 181 1 46 0 C5 0 228 182 249 259 201 121 339 224 112 189 187 173 177 241 225 223 110 257 337 189 214 140 196 262 261 356 159 191 197 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 52 39 65 54 33 49 76 71 41 58 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 18 44 33 78 51 43 34 58 63 19 42 30 47 58 70 67 41 21 56 Regression Analysis: C1 versus C2; C3; C4; C5 The regression equation is C1 = 35,8 C2 + 3,24 C3 + 105 C4 + 2,41 C5 Predictor Noconstant C2 C3 C4 C5 Coef SE Coef T P 35,81 3,238 104,73 2,4114 59,77 1,094 30,90 0,6306 0,60 2,96 3,39 3,82 0,554 0,006 0,002 0,001 S = 46,79 Analysis of Variance Source DF SS MS Regression 4 1408424 352106 Residual Error 26 56916 2189 Total 30 1465340 Sıfır hipotezi altında indirgenmiş model için MINITAB veri sayfası: C1 C2 181 46 F 160,85 P 0,000 228 52 182 39 249 65 259 54 201 33 121 49 339 76 224 71 112 41 189 58 187 18 173 44 177 33 241 78 225 51 223 43 110 34 257 58 337 63 189 19 214 42 140 30 196 47 262 58 261 70 356 67 159 41 191 21 197 56 Regression Analysis: C1 versus C2 The regression equation is C1 = 93,9 + 2,45 C2 Predictor Constant C2 S = 47,25 Coef 93,87 2,4461 SE Coef 27,56 0,5389 R-Sq = 42,4% T 3,41 4,54 P 0,002 0,000 R-Sq(adj) = 40,3% Analysis of Variance Source Regression Residual Error Total DF 1 28 29 olmak üzere, test istatistiğinin değeri, SS 46007 62520 108527 MS 46007 2233 F 20,60 P 0,000 (n − 2)σˆ ω2 − (n − 4)σˆΩ2 n − 4 = (28*47.25^2-26*46.79^2)/(26*46.79^2)*(26/2) =1.2766 2 (n − 4)σˆΩ2 ve tablo değeri, F0.96;2,26 = 3.37 olduğundan sıfır hipotezi reddedilemez. Birinci şehirdeki gözlemler için regresyon denklemi, Yˆ = 35,8 + 3,24 X S = 48,90 Đkinci şehirdeki gözlemler için regresyon denklemi, Yˆ =91,2 + 2,28X S = 44,51 Tüm gözlemler için regresyon denklemi, Yˆ =93,9 + 2,45 X S = 47,25 Birinci şehir, ikinci şehir ve tüm veriler için serpilme diyagramları aşağıdadır. 350 300 250 200 150 100 30 40 50 60 70 80 350 300 250 200 150 100 20 30 40 50 60 70 80 20 30 40 50 60 70 80 350 300 250 200 150 100 Birinci şehirdeki gözlemler arasından serpilme diyagramındaki en sağ üst köşedeki gözlem atılırsa regresyon denklemi, Yˆ =88,5 + 2,09X ve S = 45,11 olmaktadır. Bu durumda şehirler için bireysel ve birlikte olan regresyon denklemleri, Yˆ =88,5 + 2,09X Yˆ =91,2 + 2,28X Yˆ =99,3 + 2,27X dır. S = 45,11 S = 44,51 S = 44,76