Basit ve çoklu regresyon ile korelasyon konusunda Devrim Erdem, Mücahit Kağan ve Fuat Tanhan’ın hazırlamış oldukları çalışmayı yazının devamında okuyabilirsiniz. REGRESYON ANALİZİ
Yazarlar (soyadı sırasına göre): Devrim Erdem, Mücahit Kaan, Fuat Tanhan
GıRış
Bu çalışma kapsamında, regresyon analizi üç bölümde incelenmiştir. Birinci bölümde regresyon analizinin temel mantığına ilişkin temel kavramlar ele alınmıştır. Sözkonusu kavramlar tartışılarak ve birbiriyle ilişkili bir biçimde irdelenmeye çalışılmıştır. ıkinci bölümde ise basit doğrusal regresyon analizi açıklanmıştır. Üçüncü bölümde ise çoklu doğrusal regresyon ele alınmıştır.
BÖLÜM I
TEMEL KAVRAMLAR
Neden Regresyon ve Korelasyon analizine ihtiyaç vardır?
Daha önce de görüdüğümüz üzere, t-testi, varyans analizi gibi ortalama farkları ile ilgili hipotez testleri değişkenler arasındaki ilişkiye dair herhangi bir bilgi vermemektedir. Oysa serpilme diyagramlarına bakıldığında değişkenler anrasında bir ilişki olabileceği hissedilebilmekte fakat bu tür analizlerle bu ilişkiler ortaya koyulamamaktadır. Dolayısıyla değişkenler arasındaki ilişkinin şeklini, yönünü ve kuvvetini belirleyebilmemiz için yeni metotlara ihtiyaç vardır. Bu metotlar ise genel olarak regresyon (eğri uydurma) ve korelasyon analizi olarak adlandırılır.
Değişkenlerin birlikte değişim ölçülerinin istatistiksel açıdan anlamlı olması, bu değişkenler arasında bir neden-sonuç ilişkisi bulunacağı anlamına gelir mi?
ıki değişkene ait değerlerin birlikte azalıp- çoğalmaları istatistiksel açıdan anlamlı olsa bile bu değişkenler arasında bir neden-sonuç ilişkisi bulunmayabilir. Örneğin, bir ülkede giyim eşyalarının ve gıda maddelerinin imalatı bir arada ve aynı süre içinde artış gösterebilir. Fakat bu, söz konusu değişkenler arasında sebep-sonuç ilişkisinin bulunduğundan değil, ekonominin genel durumundan veya milli gelir ve nüfus artışından ileri geliyor olabilir. Bir başka deyişle, değişkenleri etkileyen başka faktörler mevcuttur.
Peki, sözgelimi iki değişken arasında bir ilişki olduğu tahmin edilebiliyor ise, bu ilişki matematiksel bir denklem yardımıyla ifade edilebilir mi?
Eğer iki değişken arasında bir ilişki olduğu tahmin ediliyor ise bu ilişki en iyi şekilde matematiksel bir denklem yardımıyla ifade edilebilir.
Sözkonusu değişkenler arası ilişkiyi en iyi belirten bir matematiksel denklem/fonksiyon elde etmek araştırmacıya ne tür faydalar sağlar?
Değişkenler arasındaki ilişkiyi ifade edebilen bir denklemin ortaya çıkarıldığında;
· ılişkinin yönü belirlenebilir
· ılişkinin şekli belirlenebilir
· Bilinmeyen değerlere dair yordamalar/tahminler yapılabilir
Peki, değişkenler arasındaki ilişkiler, ne tür ilişkilerdir?
ılişkiyi en iyi biçimde belirten matematiksel fonksiyon iki parametreli doğrusal bir denklem olabileceği gibi, iki veya daha çok sayıda parametre içeren eğri fonksiyonlar da olabilir. Hangi tür fonksiyonun daha uygun olabileceği meydana getirilecek bir serpilme diyagramındaki noktaların durumundan anlaşılabilir. Örneğin, noktalar bir doğru etrafında toplanmış ise doğrusal, bükülme noktaları seçilebiliyorsa eğrisel bir fonksiyonun kullanılması daha uygun olacaktır. Ayrıca bükülme noktalarının sayısına göre fonksiyonların kaçıncı dereceden oldukları da belirlenebilir. (Bir bükülme noktası ikinci dereceden, iki bükülme noktası ise üçüncü dereceden bir fonksiyonun kullanılmasını gerektirir.)
Düz doğru |
Y= ao+ a1X |
|
Parabol |
Y= ao+ a1X + a2X2 |
|
Kübik eğri |
Y= ao+ a1X + a2X2 + a3X3 |
|
Üstel eğri |
Y= abX veya logY= loga+ (logb)X = ao+ a1X |
|
Değişkenler arasındaki ilişkiler, pekala eğriselsel de olabilmektedir. Peki, neden doğrusal ilişkiler ağıllıklı olarak incelenmektidir?
Birleşik seriler arasındaki ilişkilerin belirlenmesinde uygulama sahası en geniş olanlar doğrusal denklemler ile ikinci dereceden fonksiyonlar yani parabollerdir. Bunlar arasında en önemli yeri doğrusal denklemler tutmaktadır. Sıklıkla doğrusal denklemlerin kullanılmasının sebepleri ise şunlardır:
· Bir çok ilişkinin şekli doğrusaldır.
· Doğrusal denklemler, aksi halde matematik ifadesi çok zor olan birçok ilişkinin uygun birer tahmini olduklarından pratik bakımdan büyük önem taşımakta ve bundan dolayı ortaya çıkacak hata da önemsiz sayılabilecek kadar küçük olmaktadır.
· Doğrusal olmayan birçok ilişki logaritmik ifadelerle doğrusal hale dönüştürülebilmektedir.
ıki değişken arasındaki ilişkinin matematiksel bir denklemle ifade edilebilmesi hangi varsayım altında olabilmektedir?
ıki seri arasındaki ilişkinin matematiksel bir fonksiyonla ifadesi değişkenlerden birinin “bağımlı” diğerinin “bağımsız” değişken olarak kabul edilmesi ile mümkündür. Bu şekilde oluşturulacak fonksiyon bir regresyon doğrusunun veya eğrisinin denklemi olacaktır. Daha önce de belirtildiği gibi, ilişkiyi ifade edebilen bir denklemin ortaya çıkarılmasının ilişkinin yönünü ve şeklini belirleyebilmenin yanı sıra diğer bir yararlı yönü vardır ki bu, Y= a+ bX şeklinde denklem ile , bir X değeri verildiği takdirde buna karşılık gelen Y değerinin de bulunabilmesi ve dolayısıyla “tahmin yapabilmenin” mümkün olmasıdır. Ancak, özellikle ileriye yönelik tahmin yaparken fonksiyonun şeklinin değişebileceği ihtimalini göz önünde bulundurmak gerekir.
Regresyon analizi ile değişkenler arasındaki ilişkinin kuvveti ve derecesi hakkında kesin bir bilgi sağlanabilir mi?
Hayır. Regresyon analizi, iki değişkenden birini bağımlı diğerini bağımsız değişken olarak kabul ettiğimiz durumlarda bize ilişkiyi ifade eden bir denklem vermektedir. Ancak regresyon analizi ilişkinin kuvveti ve derecesi hakkında kesin bir bilgi sağlayamamaktadır. Bu bilgiyi elde edebilmek için “korelasyon” analizine ihtiyaç vardır. Gerek regresyon gerekse korelasyon analizinin önemli bir varsayımı, eldeki veriler yardımıyla inceleme konusu değişkenler arasındaki “gerçek” ilişkinin bir tahmininin yapılabileceğidir.
Değişkenler arasındaki ilişki sadece tek bir doğruyla ifade edilebilir mi?
Hayır. Serpilme diyagramı yardımıyla tespit edilen doğrusal bir ilişki çok sayıda doğru ile gösterilebilir (şekil 1.a). Ancak ilişkiyi en iyi belirleyecek denklem en küçük kareler yöntemi ile belirlenecek olan denklemdir. Bu yönteme göre veri kümesine en iyi uyan eğri, bu eğriden serpilme diyagramındaki noktalara olan dikey uzaklıkların karelerinin toplamının en küçük (minimum) olduğu eğridir (şekil 1.b).
şekil 1. a
|
şekil 1. b
|
Peki neden kriter olarak uzaklıkların (hataların) toplamı değil de, bu uzaklıkların karelerinin toplamı kullanılmaktadır?
Çünkü, fark alındığında bazı değerler pozitif bazı değerler de negatif olacağından toplam sıfıra yakın çıkacak; bu ise gerçek farkları ortaya çıkarmayacaktır. Fakat kareler yardımıyla gerçek farklılıklar ön plana çıkmaktadır.
EN KÜÇÜK KARELER YÖNTEMı: |
Veri noktalarının (X1,Y1), (X2,Y2) , ………., (Xn,Yn) olarak verildiğini kabul edelim. Bu ikili değerleri bir doğru denklemi ile ifade edebiliriz. Bu durumda her X değerine karşılık gelen bir gözlenen bir de teorik olmak üzere iki ayrı Y değeri vardır. Örneğin, X1 için gözlemlerle bulunmuş olan Y değerini Y1 ile ve denklem vasıtasıyla elde edilmiş olan teorik Y değerini Ŷ = (a+bXi) ile gösterelim.Gözlenen Yi ve teorik Ŷ = (a+bXi) arasındaki farklar sapma/hata/ ya da artık olarak tanımlanabilir. Yani; ei = Yi – (a+bXi) ; i= 1,2,………..n
En küçük kareler yöntemine göre bu farkların karelerinin toplamının “minimum” olması gerekmektedir. Yani; Σ [Yi – (a+bXi)]2 = minimum Σ ei2 = minimum
Σ [Yi – (a+bXi)]2 denklemin minimumunu bulabilmek için önce a’ya daha sonra da b’ye göre kısmi türevler alınarak 0 a eşitlemek gerekir. Bu şekilde ortaya çıkacak denklemler de normal denklemler olarak adlandırılmaktadır.
Σ Yi = Na + b ΣXi Σ YiXi = a ΣXi + b ΣXi2
Araştırma/gözlem ile elde edilen verilere dayanarak N, Σ Yi, ΣXi, Σ YiXi ve ΣXi2 değerlerini hesaplamak mümkündür. Böylece a ve b katsayılarının değerleri bulunabilir.
Bu şekilde elde edeceğimiz doğru denklemi X’in bağımsız Y’nin ise bağımlı değişken olarak kabul edilmesi halinde ve en küçük kareler yöntemi kullanılarak ortaya çıkacak doğrudur ve Y’nin X’e göre regresyon doğrusu olarak tanımlanmaktadır. |
BÖLÜM II
BASıT DOğRUSAL REGRESYON
Daha önce de değinildiği gibi, iki değişken arasındaki ilişkiler çeşitli şekillerde ortaya çıkabilmektedir. Bu ilişkiler arasında en yaygın olarak kullanılanı ise değişkenler arasında doğrusal ilişkinin olduğu durumdur. Bir bağımlı ve bir bağımsız değişkenin olduğu doğrusal regresyon çözümlemesi basit doğrusal regresyon olarak adlandırılır.
Basit Doğrusal Regresyon Modeli:
i=1, 2, …., n (1.1)
: Doğrunun y-eksenini kestiği nokta
b: Doğrunun eğimi veya regresyon katsayısı
e: şansa bağlı hata değeri
(1.1) ile verilen denklemde , regresyon doğrusunun y eksenini kestiği noktayı gösterir ve sabit (constant) olarak adlandırılır. , x bağımsız değişkenin değeri 0 iken , y değişkeninin alacağı ortalama değeri verir. b, regresyon katsayısı olarak adlandırılır; ve bağımsız değişkende (x) bir birimlik değişme (artma veya azalma) olduğunda, bağımlı değişkende (y) meydana gelecek ortalama değişkenlik miktarını verir. e, hata terimidir; y’deki değişimin, regresyon modeli (+bx) ile açıklanamayan kısmını gösterir. Aslında modeldeki ve b değerleri, regresyon modelinin tüm evrendeki verileri kullanılarak hesaplanan teorik değerlerdir. Ancak yine de dikkate alınmayan bağımsız değişkenler olabileceğinden, verilerin rassal (şansa bağlı) değişimlerini gösteren hata değeri e modele eklenmiştir.
Bir regresyon denklemi, bağımlı değişken ile bağımsız değişken arasındaki ilişkiyi matematiksel bir model olarak belirtir. Gerçek hayat uygulanamalarında ve b değerleri bilinmiyorsa, evrenden örneklem alınarak bunların kestiricisi olan a ve b kullanılır.
, i=1, 2, …., n (1.2)
: y’nin tahmini değeri
a ve b Katsayılarının Bulunması:
Regresyon denkleminin bilinmeyenleri olan ve b değerlerinin örneklemden elde edilen kestiricileri olan a ve b katsayıları en küçük kareler yöntemi (Least Squares Method) kullanılarak bulunur. Burada esas, serpilme diagramında (scatter diagram) görülen tüm noktalar için doğruya uzaklıklarının bulunması ve bunların toplamının minimize edilmesidir. Ancak regresyon analizinde bu toplam fonksiyonu daima sıfır olacağından a ve b değerlerini bulmada kullanılamaz.
Bu durumda hataların (regresyon denkleminden sapmaların) karelerinin toplamı bulunarak yeni bir fonksiyon oluşturulur.
Bu yeni fonksiyonu minimize eden optimal a ve b, ve b’ın tahmini değerleri olacaktır. Yukarıdaki fonksiyon içbükey (convex) olduğundan, fonksiyonu minimize eden optimal değerleri bulmak için fonsiyonun a ve b ye göre kısmi türevlerini sıfır yapan değerleri almak yeterli olacaktır.
(1.3)
(1.4)
xi: bağımsız değişkenin i. gözlemi, i=1,2,…,n.
yi: bağımlı değişkenin i. gözlemi, i=1,2,…,n.
: bağımsız değişkenin örneklem ortalaması ()
: bağımlı değişkenin örneklem ortalaması ()
n: toplam gözlem sayısı.
(1.3) ve (1.4) eşitlikleri yardımıyla örnekleme ilişkin regresyon kestirim denklemi gözlemler cinsinden ;
olarak yazılır. Bu denklemde her bir xi değerinin yerine konması ile elde edilen değerleri regresyon doğrusu üzerinde yer alır. Diğer bir deyişle, değerleri regresyon doğrusunu tanımlayan değerlerdir. Gözlenen y değeri ile kestirilen y değeri () arasındaki farka atık (residual) denir ve eşitliği ile ifade edilir. Atık değeri ne kadar küçük ise modelin veriye o kadar uyduğu söylenebilir.
Varsayımlar:
- Regresyon çözümlemesinde bağımsız değişken değerleri hatasız ölçülür. Ancak, hiç bir ölçüm mükemmel olmadığından bu ifadenin anlamı; bağımsız değişkendeki ölçüm hatalarının ihmal edilebileceği şeklinde yorumlanır.
- Her bir x değeri için birden çok y değeri söz konusudur. Her bir x değerine karşılık gelen y değerleri kümesi normal dağılım gösterir. Normality
- Her bir x değişkenine karşılık gelen y değerleri kümelerine ilişkin varyanslar homojendir. Homoscedasticity
- y değerleri istatistiksel olarak bağımsızdır. Yani, bağımsız değişkenin herhangi bir değeri için elde edilen y değeri, x in bir diğer değeri için elde edilen y değerinden etkilenmez.
- y alt kümelerinin oluşturduğu dağılımlara ilişkin ortalamalar bir doğru üzerindedir. Linearity
Grafik 1. Basit Doğrusal Regresyon Modelinin Gösterimi
Grafik 1 de görüldüğü gibi, her bir x değerine karşılık gelen birden çok y değeri vardır ve bu y değerleri eşit varyans ile normal dağılım gösterirler. Ayrıca y alt kümelerinin ortalamaları bir doğru üzerindedir.
Hipotez Testi:
( denklemine uyum anlamlı değildir.)
( denklemine uyum anlamlıdır.)
Bir regresyonun anlamlı olması aslında doğrunun eğimi olan b’in sıfırdan farklı olması ile eşdeğerdir.
Test ıstatistiği:
Yukarıdaki hipotezi test etmek için t-testi kullanılır:
|
Test istatistiği:
Kritik değer :
Karar Verme:
Eğer veya reddedilir.
Ya da,
Eğer p – değeri reddedilir.
Yorum:
reddedilirse, a yanılma olasılığı ile ’dır; yani y değerleri x’e bağlı olarak değişim gösterirler ve bu durumda regresyon anlamlıdır.
Regresyon katsayısının (b) anlamlılığı varyans analizi (ANOVA) ile de test edilebilir.
Bu durumda F istatistiği;
(1.5)
RKO: Regresyon kareler ortalaması
AKO: Atık kareler ortalaması
ıstatistiksel karar için, bulunan F istatistiği, seçilen a yanılma düzeyinde regresyon ve regresyondan ayrılış serbestlik dereceli F tablo istatistiği ile karşılaştırılır.
Unutulmamalıdır ki, sadece bir bağımsız değişken olduğunda, F-testi ve t – testi kullanılarak yapılan hipotez testleri aynı p – değerini vereceklerdir.
Regresyon Modelinin Performansı ( r² ) :
Regresyon analizinde araştırmacının temel ilgi odağı, yapılan tahminin ne kadar güçlü olduğu noktasındadır. Yani, ulaşılan regresyon modeli, Y’deki değişmelerin ne kadarını açıklamaktadır? Regresyon analizinde, regresyonun sunduğu tahminin ne kadar güçlü olduğunu belirten istatistik determinasyon katsayısı olarak adlandırılır. Regresyon analizinde determinasyon katsayısı (r2), X’in Y’de açıkladığı değişme oranını gösterir.
Pearson Momentler Çarpımı Korelasyon Katsayısı hesaplandığında;
r =
ıki ve daha fazla tahmin edici değişkenin olduğu çoklu regresyon analizinde korelasyon katsayısı R ve determinasyon katsayısı ile gösterilir.
BÖLÜM III
ÇOKLU DOğRUSAL REGRESYON
AMACI
Bağımsız değişken sayısının birden fazla olduğu regresyon modellerine çoklu regresyon modelleri denir. Çoklu regresyon çözümlemesinde, bir bağımlı değişken ve bu bağımlı değişkeni etkilediği düşünülen birden daha çok bağımsız değişken söz konusudur. Kısaca, çoklu regresyon analizi, basit doğrusal regresyonun genişletilmiş şekli olarak düşünülebilir. Buna ek olarak ise kısmi korelasyon analizini kullanır.
Çoklu reggresyon analizini kullanan bir araştırmacının iki genel amacı olabileceğinden bahsedilebilir (Alpar, 2001):
· Kolay elde edilebilir bağımsız değişkenler yardımıyla bağımlı değişken değerini kestirmek,
· Bağımsız değişkenlerden hangisi veya hangilerinin bağımlı değişkeni daha çok etkilediğini belirlemek.
Model:
, k=1,2,….
Hipotez Testi: Hipotez testinde bağımsız değişkenin bağımlı değişkeni yordamada manidar olup olmadığı test edilir.
değerlerinden en az biri 0 değil.
Test istatistiği :
Karar Kuralı: ş hipotezi reddedilir
F değerine karşılık gelen p–değeri ş hipotezi reddedilir.
<b style=’mso-bidi-font-weight:normal’>Yorum: p-değeri ise hipotezi reddedilir. Bu da, bağımsız değişkenlerle bağımlı değişken y arasında belirgin nitelikte bir ilişki olduğunu gösterir. Yani bağımsız değişkenler, bağımlı değişkeni etkileyen faktörlerdir. Testin reddedilmemesi (’ın kabul edilmesi) durumunda, bağımsız değişkenlerin bağımlı değişkeni açıklayamadığı sonucu doğar. Bu durumda ya örnek sayısı arttırılabilir veya bağımlı değişkeni etkileyebilecek yeni faktörler (bağımsız değişkenler aranır.)
REGRESYON ÇÖZÜMLEMESı SIRASINDA DıKKAT EDıLECEK ÖNEMLı NOKTALAR
- Bağımlı değişken sürekli veya kesikli sayısal veriler olmalıdır; kategorik olmamalıdır.
- Bağımsız değişkenler kategorik de olabilir. Böyle durumlarda bu bağımsız değişken sözde/yapay (dummy) değişken olarak adlandırılır.
- Bağımsız değişkenler arasında “çoklubağıntı” (multicollinearity) görülmemelidir. Çoklubağıntı, bağımsız değişkenlerin birbirleriyle ilişkili olduğunu gösterir (Tacq, 1997). Bağımsız değişkenler arasında böyle bir ilişkinin olması, değişkenlerden birinin modele ek bir katkı getirmediğine dikkat çeker. Bu durum, bağımsız (yordayıcı) değişkenler arasındaki korelasyon katsayılarının mutlak değerinin .80 den büyük bulunmasıyla belirlenebilir. Multicollinearity olup olmadığını anlayabilmek için VIF değerlerine bakılmalıdır (Alpar, 2001). Çoklu bağıntı (veya çoklu birlikte doğrusallık) belirlendikten sonra bu sorunu aşabilmek için araştırmacı, araştırmanın kuramsal temellerini dikkate alarak bu değişkenlerden sadece birini analize dahil edip, diğerini/diğerlerini analiz dışında tutabilir.
- Bağımsız değişken sayısı fazla olduğunda çeşitli yöntemler yardımıyla modele katkısı en fazla olan daha az sayıdaki değişken veya değişkenler belirlenebilir. Söz konusu yöntemler arasında; adım adım regresyon yöntemi (stepwise), ileriye doğru seçim (foward selection), geriye doğru çıkarma (backward elemination) gibi yööntemler sayılabilir.
- Gözlem sayısı (n), bağımsız değişken sayısının en az 5 katı kadar olmalıdır. ıdeali ise, gözlem sayısının bağımsız değişken sayısının 20 katı kadar olmasıdır. Yordamaya yönelik çalışmalarda bu sayının daha da arttırılması ve evrene genelleme yapabilmek için çalışılacak örneklemin genelleme yapılabilecek şekilde, uygun örneklem alma yöntemlerinin kullanılarak seçilmesi gerekir.
- Regresyon çözümlemelerinde aykırı değerlere (outlier) dikkat edilmelidir. Çoklu regresyon analizinde doğrusallık ve normallik varsayımlarının karşılanmasını güçleştiren uç değerlerin olup olmadığı, atık değerler (residual) üzerine kurulu grafiklerle incelenebilir. Bunun yanı sıra Mahalanobis uzaklık değerleri kullanılarak da belirlenebilir (Büyüköztürk, 2004).
Çoklu Regresyon ıstatistikleri
bi : |
Regresyon katsayıları. Diğer değişkenler sabit tutulduğunda, sözkonusu yordayıcı değişkendeki birim artışa karşılık yardanan (bağımlı) değişkendeki değişim miktarını gösterir. Aynı zamanda kısmi eğim ya da kısmı regresyon katsayısı olarak da isimlendirilir. |
S(bi) : |
Regresyon katsayılarının standart hataları |
BETA : |
Standartlaştırılmış regresyon katsayıları. Modele katkısı daha fazla olan (y’yi daha fazla açıklayan) değişkenin BETA katsayısı daha büyüktür. |
VIF : |
Varyans şişme Değeri. Bağımsız değişkenler arasında bir bağıntı olup olmadığını gösterir. VIF değerlerinin 10 un üzerinde olmaması istenir. VIF>10 olduğu durumlarda çoklu bağıntının varlığı (multicollinearity) sözkonusudur. |
t : |
Regresyon katsayılarının anlamlılığına ilişkin t istatistiği. t değerleri regresyon katsayılarının standart hatalara bölünmesi ile bulunur. |
p : |
Regresyon katsayılarının anlamlılığına ilişkin p olasılığı. Örneğin, alfa () yanılma düzeyi .05 alınırsa, p<.05 koşulunu sağlayan p değerlerine sahip katsayıların modele katkısının anlamlı olduğu söylenebilir. |
s : |
Regresyon denkleminin standart hatası. |
R : |
Çoklu korelasyon katsayısı (Multiple R). Bağımlı değişken ile bağımsız değişken arasındaki ilişkinin derecesini verir. |
R2 : |
Çoklu açıklayıcılık katsayısı (R2). Çoklu korelasyon katsayısının karesidir. Bağımsız değişkenlerin bağımlı değişkeni ne oranda açıkladığını gösterir. . Örn; R2= .81, verilerin % 81 i oluşturulan regresyon doğrusuyla açıklanabilir. |
F : |
Regresyon katsayılarının sıfıra eşit olup olmadığına ilişkin tümel F değeri olup regresyona ilişkin olarak yapılan varyans analizi sonucunda elde edilir. F değeri anlamlı ise en azından bir regresyon katsayısı sıfırdan farklıdır; başka bir deyişle bu değişkenin modele katkısı anlamlıdır. Bazen, regresyon katsayılarının tümü anlamsız iken, F değeri anlamlı çıkabilir. Bu durumda da verilerde çoklu bağıntı sorunu vardır. |
ÇOKLU REGRESYON ANALıZDE KULLANILAN YÖNTEMLER
Çoklu regresyon analizinde kullanılan pek çok yöntem vardır. En yaygın olarak kullanılan anliz yöntemleri ise şunlardır: i. Stardart Çoklu Regresyon (Standard multiple regression), ii. Hiyerarşik Çoklu Regresyon (Squential / Hierarchical multiple regression), iii. Aşamalı veya ıstatistiksel Çoklu Regresyon (Stepwise / Statistical multiple regression)
- Stardart Çoklu Regresyon (Standard multiple regression): Bu regresyon yönteminde, öncelikle bütün bağımsız değişkenler denkleme girer. Bağımsız değişkenlerin herbiri, diğer bağımsız değişkenlerin hepsi denkleme girdikten ssonra denkleme alınmış gibi değerlendirilir. Her bir bağımsız değişken, bağımlı değişkeni yordamada, diğer bağmsız değişkenlerin tümünden farklı olarak ne kadar katkıda bulunduğu açısından değerlendirilir (Tabachnick & Fidell, 2001). Bu yöntemde, tüm bağımsız değişkenlerin bağımlı değişkendeki ortak etkilerinin incelenmesi esastır.
- Hiyerarşik Çoklu Regresyon (Squential / Hierarchical multiple regression): Hiyerarşik regresyonda, bağımsız değişkenler araştırmacının belirlediği sırada denkleme girer. Herbir bağımsız değişken, denkleme girdiği noktada eşitliğe ne kadar katkıda bulunduğu açısından değerlendirilir. Bağımsız değişkenlerin denkleme giriş sırasını araştırmacı mantıksal veya kuramsal bir yapıya göre belirler. Fakat, araştırmacı daha önemli gördüğü değişkenleri son aşamalarda denkleme almak; modele daha az katkısı olabilecek değişkenlere ise girişte öncelik vermek gibi bir yol da izleyebilir. Bağımsız değişkenler, modele katkıda bulunmaları bakımından değerlendirilir.
- ıstatistiksel Çoklu Regresyon (Statistical multiple regression): Bu yöntem aynı zamanda aşamalı (stepwise) çoklu regresyon yöntemi olarak da adlandırılır. Bu yöntemde, regresyon eşitliğine sadece bağımlı değişkenin manidar yordayıcıları olan değişkenler alınır; diğer değişkenler eşitlik dışı bırakılır. Aşamalı çoklu regresyon analiiznde, öncelikle bağımlı değişken ile en yüksek korelasyonu veren, yani bağımlı değişkenin varyansına en yüksek katkıyı sağlayabilecek bağımsız değişken seçilerek işleme başlanır. Daha sonra bağımlı değişkenin varyansına birinviyle birlikte en yüksek katkıyı veren ikinci bağımsız değişken işleme alınır ve işlem bu şekilde sürdürülür. ıstatistiksel çoklu regresyon analizi üç farklı yolla yapılabilir:
i. ıleriye Doğru Seçme (Foward Selection) – Her bir bağımsız değişkenle bağımlı değişken arasındaki korelasyon hesaplanır ve öncelikle bağımlı değişkenle en yüksek korelasyonu veren bağımlı değişken analize alınır. Bu değişkenin katkısı (R2) değerlendirilir. Daha sonra, ikinci olarak bağımlı değişkenle yüksek korelasyon veren yordayıcı analize alınarak ve açıklayıcılık katsayısındaki artışa göre sözkonusu değişkenin modele katkısı incelenir. Bu işlem, artık bağımsız (yordayıcı) değişkenlerin bağımlı değişkeni açıklamada manidar bir katkılarının olmadığı noktaya kadar devam eder.
ii. Adım Adım Regresyon (Stepwise) – ıleriye doğru seçme yönteminin daha gelişmişi olarak da düşünülebilir yalnız her adımda o an modelde bulunan tüm bağımsız değişkenler sanki modele en son girmiş gibi değerlendirilir. Bu şekilde, her bir değişkenin modele girmesiyle yeniden tüm modelin değerlendirilmesi sayesinde başta iyi bir yordayıcı olarak görülen bir değişkenin daha sonra tüm model içinde etkili bir katkısının olmadığı belirlenebilir (Pedhazur, 1982).
iii. Geriye Doğru Çıkarma (Backward Elemination) – ılk aşamada, bütün yordayıcı değişkenler analize dahil edilir. Daha sonra, her bir yordayıcının modele katkısının manidarlığını belirlemek için, sözkonusu değişken sanki en son modele giriyormuş gibi kısmi F testi yapılır. En küçük F değerini veren değişken modelden çıkarılır. Bu işlem, modele manidar (significant) katkısı olan bağımsız (yordayıcı) değişkenler belirlene kadar devam eder.
Bu üç yöntemden eğer diğer yöntemlerin kullanılması için önemli gerekçeler yoksa “Standart Çoklu Regresyon” un kullanılması önerilir (Tabachnick & Fidell, 2001). Hiyerarşik ve ıstatistiksel regresyon için kullanılan programlar ve elde edilen sonuçlar arasında bazı benzerlikler olmasına rağmen, bağımsız değişkenlerin eşitliğe girmesi ve sonuçların yorumlanması konularında bu iki yöntem arasında farklılıklar bulunmaktadır. Hiyerarşik regresyonda araştırmacı değişkenlerin girişini kontrol ederken, istatistiksel yöntemde verilerden elde edilen istatistiksel değişken girişini kontrol eder. Bu yöntemler, model test etme yerine model oluşturma yöntemleri olarak kabul edilmektedir.
ÇOKLU KORELASYON ANALıZı
Çoklu regresyon fonksiyonu belirlendikten sonra X1 ve X2 değişkenlerinin Y değişkenini açıklamadaki “önemlerini” ve fonksiyonun “uyum derecesini” ölçmek için bir ölçüye ihtiyaç vardır. Her iki X1 ve X2 değişkenlerinin katkısını bir arada dikkate alan çoklu korelasyon katsayısı R, ve onun karesi olan çoklu determinasyon katsayısı R2 nin anlamı üzerinde durulduktan sonra, herbir bağımsız değişkenin (diğer bağımsız değişkenler sabit tutulduğu durumda) katsayısını ayrı ayrı ölçen kısmi korelasyon katsayıları r ile , bunların kareleri olan kısmi determinasyon (belirleme) katsayıları r2 değerlerinin anlamına değinilecektir.
Çoklu Korelasyon Katsayısı (R) ve Çoklu Açıklayıcılık Katsayısı (R2):
R2 = 0,9570 ve R=0,98
Bu değerler her iki bağımsız değişken bir arada dikkate alındığında ilişki ile açıklanabilen değişkenliğin yaklaşık %95 olduğunu (yani bu oluşturulan regresyon düzlemi ile verilerin %95 i açıklanabilir) ve korelasyon katsayısının yaklaşık 0,98 olduğunu göstermektedir. ılişkinin kuvvetli görünmesine karşılık hangi bağımsız değişkenin katsayısının daha fazla olduğunu anlamak mümkün değildir. Bunun için kısmi korelasyon katsayılarının incelenmesi gerekmektedir.
Kısmi Korelasyon Katsayıları:
Çoklu korelasyon katsayısı R ile bağımsız değişkenlerin (X1 ve X2) bağımlı değişkeni (Y) açıklamadaki önemlerini yani X1 ve X2 nin birarada katkılarının kuvveti ölçülmektedir. Kısmi korelasyon katsayısı ile de sadece bir bağımsız değişkenin (örneğin sadece X1 in) diğer bağımsız değişkenler sabit tutulduğu yani bütün bağımsız değişkenlerin etkilerinin kaldırıldığı halde yaptığı katkı ölçülmektedir.
X1 sabit tutulduğunda, X2 nin ilişkiyi açıklamadaki katkısı:
X2 sabit tutulduğunda, X1 nin ilişkiyi açıklamadaki katkısı:
KAYNAKÇA
ALPAR, Reha. Spor Bilimlerinde Uygulamalı ıstatistik. Nobel Yayın Dağıtım, Ankara, 2001.
ARICI, Hüsnü. ıstatistik Yöntemler ve Uygulamalar. Meteksan A.ş., Ankara, 2001.
Büyüköztürk, ş.. Sosyal Bilimler ıçin Veri Analizi El kitabı. Pegem Yayıncılık. Ankara, 2004.
KÖKSAL, B. A.. ıstatistik analiz Metodları. 5. Baskı. Çağlayan Kitapevi. ıstanbul, 1998.
MERTLER, C. A. & VANNATTA, R. A.. Advanced and Multivariate Statistical Methods: Practical Aplication and Interpretation. (2th ed.). Pyrczak Publishing. Los Angeles, 2002.
PEDHAZUR, E. J.. Multiple Regression in Behavioral Research: Explanation and Prediction. Fort Worth, TX: Holt, Rinehart, and Winston, 1982.
TABACHNICK, B.G., & FIDELL, L. S.. Using Multivariate Statistics. (4th ed.). Needham Heights, MA: Allyn & Bacon, 2001.
Tacq, J.. Multivariate Analysis Techniques in Social Science Research. Sage Publication, 1997.
TATLIDıL, Hüseyin. Uygulamalı Çok Değişkenli ıstatistiksel Analiz. Cem Web Ofset L.ş., Ankara, 1996.
Bir yanıt yazın