korelasyon ve regresyon analizi

advertisement
KORELASYON VE REGRESYON ANALİZİ Yrd. Doç. Dr. Esra Kürüm KAVRAMLAR •  Popülasyon (Kitle): Üzerinde çalışılan tüm gruba ya da ista=s=ksel sonuçların genelleş=rileceği gruba popülasyon ya da kitle denir. •  Örneklem: Bir kitlenin belirli bir özelliğini incelemek üzere kitleden belli kurallara seçilen birimler topluluğuna örneklem ya da örnek denir. •  Denek: Kitlede ya da örneklemde yer alan her bir birey ya da birime denir Rassal Değişken •  Ölçülebilen her türlü özelliğe değişken denir. •  Birden fazla değer alabilen ve hangi değeri alacağı şans eseri belirlenen değişkene rassal değişken denir. •  Diğer bir ifadeyle rassal değişken deney sonuçlanmadan alacağı değer kes=rilemeyen, ancak deney yapıldıktan sonra aldığı değerler gözlemlene bilen değişkene denir. •  Rassal değişkenleri isimlendirmek için X, Y, Z gibi büyük harfler kullanılır. •  Rassal değişkenin alacağı değerler x, y, z gibi küçük harflerle gösterilir. Örnek •  Türkiye'deki 25-­‐34 yaş arasındaki bir erkeğin kolesterol seviyesi •  Bir para ile yapılan 10 aXşta gelecek yazı sayısı •  Amerika’daki bir kadının sahip olduğu çocuk sayısı KULLANILAN DEĞİŞKEN TÜRLERİ •  Nitel ya da Kategorik (Qualita=ve) Değişken •  Özellik belirten ya da Sınıflayıcı değişken (nominal) •  Sıralama değişkeni (ordinal) •  Nicel ya da Sayısal (Quan=ta=ve) Değişken •  Sürekli sayısal değişken (con=nuous) •  Süreksiz sayısal değişken (discrete) Olasılık Dağılımları •  Bir deney için olabilecek tüm sonuçlar ile bunların gerçekleşme olasılıklarını bir arada gösteren 'diyagramlara' olasılık dağılımları denir. •  Her rassal değişkenin kendine özgü bir olasılık dağılımı vardır. Normal Dağılım •  ortalama = 3.8, varyans = 14.44 •  Kaynak: hcp://www.statsdirect.com/help/default.htm#distribu=ons/
normal.htm KORELASYON VE REGRESYON ANALİZİ Günlük yaşamda karşılaşılan olayların çoğu birbirinden bağımsız olarak düşünülemezler. Örneğin, reklamlar ile saXşlar, gelir ile harcama, hastanın ilaç kullanım süresi ile iyileşme süresi arasındaki ilişki araşXrılmak istenebilir. KORELASYON VE REGRESYON ANALİZİ İki ya da daha çok değişken arasındaki ilişkinin matema=ksel yapısı Regresyon Analizi ile ilişkinin yönü ve derecesi ise Korelasyon Analizi ile incelenir. KORELASYON VE REGRESYON ANALİZİ İki ya da daha çok değişkenin yer aldığı ista=s=ksel modellerde genellikle sebep-­‐sonuç ilişkileri üzerinde durulur. Yani değişkenlerden bir ya da birkaçının diğer bir ya da birkaç değişkeni ne ölçüde etkilediği incelenir. Eğer değişkenler arasında ilişki varsa, ilişkinin yönü ve derecesi ile matema=ksel fonksiyonu belirlenmeye çalışılır. Doğrusal İlişki Kaynak: hcp://en.wikipedia.org/wiki/Linear_regression KORELASYON ANALİZİ •  İki değişken arasındaki ilişkinin gücünü̈ (derecesini) ve yönünü̈ belirlemek için hesaplanan bir sayıdır. •  İki çeşit korelasyon katsayısı vardır: •  Pearson Korelasyon Katsayısı: İki sürekli nicel değişken arasındaki doğrusal ilişki miktarının hesaplanmasında kullanılır. •  Spearman Rho Katsayısı: Pearson Korelasyon katsayısının nonparametrik versiyonudur, iki değişken arasındaki ilişki miktarının hesaplanmasında kullanılır (bu ilişki doğrusal olmayabilir ve değişkenler sürekli olmayabilir). Pearson Korelasyon Katsayısı •  r ile gösterilir. •  İki değişken arasında doğrusal bir ilişki yok ise korelasyon katsayısı r=0 bulunur. •  r>0 ise iki değişken arasında aynı yönde bir ilişki, •  r<0 ise de değişkenler arasında ters yönlü̈ bir ilişki söz konusudur. •  Her zaman için -­‐1≤r≤1 eşitsizliği geçerlidir. Pearson Korelasyon Katsayısı Spearman ve Pearson Korelasyon Katsayıları •  Kaynak:hcp://en.wikipedia.org/wiki/Spearman's_rank_correla=on_coefficient Örnek •  We wish to inves=gate the rela=onship between the percentage of children who have been immunized against the infec=ous diseases diphtheria, pertussis, and tetanus (DPT) in a given country and the corresponding mortality rate for children under five years of age in that country. Örnek Na<on Percentage Immunized Mortality rate per 1000 Live Births Bolivia 77 118 Cambodia 32 184 ... … … Senegal 47 145 Turkey 76 87 United Kingdom 90 9 Soru: Ölüm oranı ile aşı yapılarak bağışıklık kazananlar arasında nasıl bir ilişki vardır? Örnek •  Soru: Ölüm oranı ile aşı yapılarak bağışıklık kazananlar arasında nasıl bir ilişki vardır? •  Pearson's product-­‐moment correla<on •  p-­‐value = 3.281e-­‐05 •  alterna=ve hypothesis: true correla=on is not equal to 0 •  r = -­‐0.7910654 • 
• 
• 
• 
Spearman's rank correla<on rho p-­‐value = 0.01332 alterna=ve hypothesis: true rho is not equal to 0 rho = -­‐0.5431913 KORELASYON VE REGRESYON ANALİZİ İki ya da daha çok değişken arasındaki ilişkinin matema=ksel yapısı Regresyon Analizi ile ilişkinin yönü ve derecesi ise Korelasyon Analizi ile incelenir. REGRESYON ANALİZİ Regresyon Analizi’nde Bağımlı (Açıklanan) ve Bağımsız (Açıklayan) olmak üzere iki tür değişken söz konusudur. •  Bağımlı Değişken (Dependent Variable) İlgilenilen olayı tanımlayan değişken (tahmin etmek istediğimiz) •  Bağımsız Değişken (Independent Variable) İlgilenilen olayı etkilediği düşünülen değişken (tahmin ederken kullanacaklarımız), olarak tanımlanır. REGRESYON ANALİZİ Regresyon Analizi; Basit Doğrusal Regresyon Analizi; Yˆ =a + bX + e
Çoklu Doğrusal Regresyon Analizi; Yˆ = a + b1 X 1 + b2 X 2 + b3 X 3 + ..... + bk X k + e
Doğrusal Olmayan Regresyon Analizi; ˆ =a + b * log( X ) + e
Y
olarak sınıflanabilir. REGRESYON ANALİZİ Bağımlı değişken ile bir ya da birkaç bağımsız değişken arasında kurulan modeldeki bilinmeyenleri tahmin ederek, bağımsız değişkenlerin belirlenen değerleri için bağımlı değişkenin alacağı değeri tahmin etmeye Regresyon Problemi denir. REGRESYON ANALİZİ Hastanın kolesterol seviyesi “Y” ile kullandığı ilaç miktarı “X” arasındaki ilişkinin doğrusal olduğu varsayılır ve kullandığı ilaç miktarına bağlı olarak kolesterol seviyesinin tahminin yapılması istenirse; basit doğrusal regresyon modeli kurulur. Modelin tahmin edilmesinde gözlem değerleri kullanılır. Yˆ =a + bX + e
Basit doğrusal regresyon denkleminde yer alan e hata payı, kolesterol seviyesinin ilaç kullanımı tara~ndan açıklanamayan miktarını ifade etmektedir. Gözlem değerlerine uyan en iyi doğruyu belirlemek için hiçbir varsayımı bulunmayan En Küçük Kareler Yöntemi ile “a” ve “b” katsayıları tahmin edilir. REGRESYON ANALİZİ Yˆ =a + bX + e
Basit regresyon analizinde “a” katsayısı “X” bağımsız değişkeninin değeri sı~r olduğunda “Y” bağımlı değişkeninin alacağı değeri ve aynı zamanda doğrunun “Y” dikey eksenini kes=ği başlangıç noktasını gösterir. Kaynak:hcp://www.camo.com/rt/Resources/
linear_regression_model.html 26
REGRESYON ANALİZİ Yˆ =a + bX + e
“b” katsayısı ise, “X” bağımsız değişkeninin değerinde meydana gelecek bir birimlik değişimin“Y” bağımlı değişkeninde meydana ge=receği değişiklik miktarını gösterir. Ayrıca, modelin ifade e•ği doğrunun da eğimine karşılık gelir. Kaynak:hcp://www.camo.com/rt/Resources/
linear_regression_model.html REGRESYON ANALİZİ Yˆ =a + bX + e
•  Eğer b = 0 ise, X ve Y değişkenleri arasında ilişki yoktur. •  b < 0 ise, Y ve X arasında ters (nega=f) yönlü ilişki, •  b > 0 ise, Y ve X arasında olumlu (pozi=f) yönlü ilişki vardır. Regresyon analizlerinde, tahmin yapılmadan önce modelin ista=s=ksel anlamlılık düzeyinin test edilmesi doğru tahmin işlemi için gereklilik=r. 28
Doğrusal Regresyon Varsayımları •  Bağımlı değişken ile bağımsız değişken(ler) arasındaki ilişki doğrusaldır. Rainbow test ya da Harvey-­‐Collier Test yapılabilir. •  Hatalar zaman içinde ve kendi aralarında birbirine bağımlı değildir. Buna otokorelasyon veya serisel korelasyon bulunmaması varsayımı adı verilir. Zaman serilerinde bakılır. •  Hata varyansı sabi•r ve veriler arasında hiç değişmediği varsayılır. Bu eşvaryanslılık veya homoskedas<site varsayımı adı ile anılır. Breusch-­‐Pagan test ya da Non-­‐constant variance score test. Doğrusal Regresyon Varsayımları •  Eğer çoklu regresyon analizi yapılıyor ve üç veya daha çok parametre için kes=rim isteniyorsa, bağımsız değişkenlerin birbirleri ile bağlanXsının olmaması gereklidir. Buna çoklu doğrudaşlık (mul<colliearity) olmaması varsayımı adı verilir. Variance infla<on factor ile bakılır, 3’den büyükse çoklu doğrudaşlık problemi vardır. •  Hatalar bir normal dağılım gösterir. Örnek •  This data set is collected on women aged 55-­‐80 years with osteoporosis. This trial is being conducted at 11 clinical centers around the United States with a coordina=ng center at UC San Francisco. Pa=ents were randomly assigned to one of the two groups: placebo and alendronate, which is an aminobisphosphonate and suspected to reduce the rate of fractures. Placebo group did not receive any kind of medica=on. Soru •  Bir hastanın ilaç aldıktan sonraki kemik yoğunluğunu sigara içimi, ilaç tedavisi, yas ve kolesterol seviyesi etkiler mi? •  Bu değişkenler kullanılarak hastanın kemik yoğunluğu tahmin edilebilir mi? Regresyon analizi •  Bone mineral density~ Age+ smoking+ treatment + cholesterol •  Varsayımlar: •  Doğrusallık (Rainbow test) p-­‐value: 0.3245 •  Eşvaryanslılık (Non-­‐constant variance score test) p-­‐value: 0.056 •  Çoklu doğrudaşlık (Variance infla<on factor) Age 1.021244 Smoking 1.020063 Treatment 1.004928 Cholesterol 1.009016 •  Normal dağılım (Shapiro-­‐wilk test) p-­‐value: 0.067
Sonuçlar •  F test: •  H0: Modelimiz uygundur (Overall this is a good fit). •  H1: Modelimiz uygun değildir. •  p-­‐değeri: 0.0000 2 R
•  Kurduğumuz regresyon modelindeki gözlem değerlerinin modele uyumluluğunu belirlilik katsayısı ile ölçebiliriz. Belirlilik katsayısı R2 ile gösterilir. •  R2 bağımlı değişkendeki değişimin % kaçının bağımsız değişken tara~ndan açıklandığını gösterir. •  R2, 1’e yaklaşXkça modelin uygunluğu artar (0≤R2≤1). •  R2: 0.798. Sonuçlar Coefficients Es<mate Std. Error T value P-­‐value Intercept 0.8235 0.2960 27.981 0.000 Age -­‐0.0350 0.0037 -­‐9.417 0.000 Smoking (Smoker) -­‐2.5200 0.0067 -­‐3.776 0.000169 Treatment (Placebo) 0.2609 0.0043 -­‐5.967 0.0000 Cholesterol 0.0061 0.0005 1.123 0.2618 •  Bone mineral density= -­‐0.0350Age -­‐ 2.5200 smoking + 0.2609 treatment + 0.0061 cholesterol 
Download