SAĞLAM KISMĠ EN KÜÇÜK KARELER REGRESYON 

ANALĠZĠNDE YENĠ YAKLAġIMLAR 

 
NEW APPROACHES IN ROBUST PARTIAL LEAST 

SQUARES REGRESSION ANALYSIS 

 
ESRA POLAT 

 
PROF. DR. SÜLEYMAN GÜNAY 

Tez DanıĢmanı 

 
Hacettepe Üniversitesi 

Lisansüstü Eğitim-Öğretim ve Sınav Yönetmeliğinin 

İstatistik Anabilim Dalı için Öngördüğü 

DOKTORA TEZİ olarak hazırlanmıştır. 

 
2014 

 
 i 

ÖZET 

 
SAĞLAM KISMİ EN KÜÇÜK KARELER REGRESYON ANALİZİNDE 
YENİ YAKLAŞIMLAR 

 
Esra POLAT 

Doktora, İstatistik Bölümü 

Tez Danışmanı: Prof. Dr. Süleyman GÜNAY 

Mart 2014, 136 Sayfa 

 
Kısmi En Küçük Kareler Regresyon (Partial Least Squares Regression/PLSR), bir 

gizli değiĢkenler (Latent Variables/LV) regresyon yöntemidir. Bu yöntemde, ilkin 

iliĢkisiz LV’lerin bir kümesi kestirilir ve daha sonra, bu LV’lerin bağımlı değiĢken ile 

olan iliĢkisi modellenir. PLSR modelini elde etmek için literatürde en sık kullanılan 

algoritmalar, NIPALS ve SIMPLS algoritmalarıdır. NIPALS algoritması tek bir 

bağımlı değiĢken olduğunda PLS1 ve çoklu Y değiĢkeni için kullanıldığında ise 

PLS2 adını alır. Ancak, NIPALS algoritmasında yüklerin, bileĢenlerin ve regresyon 

katsayılarının hesaplanmasında klasik En Küçük Kareler (Least Squares/LS) 

regresyon adımları kullandığından ve SIMPLS algoritması bağımlı ile bağımsız 

değiĢkenler arasındaki varyans-kovaryans matrisine ve LS regresyonuna dayalı 

olduğundan, veri kümesinde aykırı değerler olduğunda her iki algoritma ile elde 

edilen sonuçlar da etkilenir. Bu nedenle, literatürde PLS1, PLS2 ve SIMPLS 

algoritmalarının bazı sağlamlaĢtırılmıĢ biçimleri olan sağlam PLSR yöntemleri 

önerilmiĢtir. Doktora tez çalıĢmamızda, modelde tek bir bağımlı değiĢken olması 

durumunda PLSR modelindeki regresyon katsayılarını kestirmek için kullanılan 

klasik PLS1 algoritmasının, seçenek tanımındaki kovaryans matrisini sağlam bir 

Ģekilde kestirerek literatürde önerilen sağlam PLSR yöntemlerinden yola çıkılarak, 


 ii 

üç yeni sağlam PLSR yöntemi önerilmiĢtir. PLS-ARWMCD, PLS-Smult ve       

PLS-MMmult olarak adlandırılan bu üç yeni sağlam PLSR yöntemi, PLS1 

algoritmasındaki kovaryans matrisini sırasıyla, ‘ ilk adımda konum ve kovaryansın 

sağlam başlangıç kestiricileri olarak En Küçük Kovaryans Determinantı 

kestiricilerini kullanan, uyarlanabilir yeniden ağırlıklandırılmış bir kovaryans 

kestiricisi ‘, ‘ S-kestiricileri ’ ve ‘ MM-kestiricileri ’ kullanılarak sağlam bir Ģekilde 

kestirerek bulunmuĢtur. Bu üç yeni sağlam PLSR yöntemi, literatürde var olan 

klasik PLSR yöntemi ve sağlam PLSR yöntemleri RSIMPLS, Kısmi Sağlam         

M-Regresyon (PRM), Stahel-Donoho kestiricisine dayalı sağlam PLSR yöntemi 

(PLS-SD), yansımaların basıklık katsayısına ve Stahel-Donoho kestiricisine dayalı 

sağlam PLSR yöntemi (PLS-KurSD) ile etkinlik, veriye uyum ve kestirimdeki 

baĢarıları açısından benzetim çalıĢmaları ve gerçek bir veri kümesi üzerinde 

uygulama ile karĢılaĢtırılmıĢtır. Yeni önerilen üç sağlam PLSR yöntemi de, küçük 

boyutlu ve makul düzeyde aykırı değerler tarafından bozulan veri kümelerine 

uygulandığında özellikle klasik PLSR yönteminden ve bazı aykırı değer türlerinde 

sağlam PRM, PLS-SD ve PLS-KurSD yöntemlerinden daha sağlam ve etkin 

sonuçlar verir. 

 
Anahtar Kelimeler: Sağlam Kısmi En Küçük Kareler Regresyonu, RSIMPLS, 

PLS-SD, PLS-KurSD, PRM, En Küçük Kovaryans Determinantı, sağlam ve etkin 

uyarlanabilir yeniden ağırlıklandırılmıĢ kovaryans kestiricisi, S-kestiricileri,        

MM-kestiricileri, uyum iyiliği, kestirim, etkinlik, sağlamlık. 

 
 iii 

ABSTRACT 

 
NEW APPROACHES IN ROBUST PARTIAL LEAST SQUARES 
REGRESSION ANALYSIS 

 
Esra POLAT 

Doctor of Philosophy, Department of Statistics 

Supervisor: Prof. Dr. Süleyman GÜNAY 

March 2014, 136 pages 

 
Partial Least Squares Regression (PLSR) method is a Latent Variables (LVs) 

regression method. Therefore, in this method, firstly, a set of unrelated LVs is 

predicted and then, the relationship of these LVs with dependent variable is 

modeled. The most popular algorithms used in literature for obtaining PLSR model 

are NIPALS and SIMPLS algorithms. NIPALS algorithm called PLS1, when it is 

used for one dependent variable and called PLS2, when it is used for multiple Y 

variables. However, classic Least Squares (LS) steps are used in NIPALS 

algorithm for obtaining loadings, components and regression coefficients and 

SIMPLS algorithm depends on the covariance matrix between independent and 

dependent variables and LS regression. Therefore, if there are outliers in the data 

set, the results obtained with both of the these two algorithms are affected. Hence, 

the robust PLSR methods, which are the robust versions of PLS1, PLS2 and 

SIMPLS algorithms, suggested in literature. In our doctoral thesis study, three new 

robust PLSR methods were suggested based on robust PLSR methods existing in 

literature that robustly predicts the covariance matrix in the alternative definition of 

classical PLS1 algorithm used for predicting regression coefficients in PLSR model 

in case of being one dependent variable in the model. These three new PLSR 


 iv 

methods, called as PLS-ARWMCD, PLS-Smult and PLS-MMmult, found by 

robustly predicting the covariance matrix in the PLS1 algorithm by using                 

‘ an adaptive reweighted estimator of covariance using Minimum Covariance 

Determinant estimators in the first step as robust initial estimators of location and 

covariance ‘, ‘ S-estimators ‘ and ‘ MM-estimators ‘, respectively. These three new 

suggested PLSR methods were compared in terms of efficiency, model fit and 

success in predictions, with classic PLSR method and robust PLSR methods 

RSIMPLS, Partial Robust M-Regression (PRM), the robust PLSR method based 

on Stahel-Donoho estimator (PLS-SD) and the robust PLSR method based on 

kurtosis coefficient of projections and Stahel-Donoho estimator (PLS-KurSD) 

existing in literature, by using simulation studies and applications on a real data. 

Three of the new suggested robust PLSR methods, when applied on data sets in 

low dimensions and contaminated by reasonable level of outliers, give more robust 

and efficient results than especially classical PLSR method and in some types of 

outliers than robust PRM, PLS-SD and PLS-KurSD methods. 

 
Keywords: Robust Partial Least Squares Regression, RSIMPLS, PLS-SD,     

PLS-KurSD, PRM, Minimum Covariance Determinant, robust and efficient 

adaptive reweighted estimator of covariance, S-estimators, MM-estimators, 

goodness of fit, prediction, efficiency, robustness. 

 
 v 

TEŞEKKÜR 

 
Tez çalıĢmamın her aĢamasında bilgi ve manevi desteği ile her zaman yanımda 

olan, değerli katkı ve eleĢtirileri ile bana yol gösteren, emeğini ve zamanını 

esirgemeyen değerli danıĢmanım Sayın Prof. Dr. Süleyman GÜNAY’a en içten 

dileklerimle teĢekkür ederim. 

 
Tezin izlenmesi ve değerlendirilmesi aĢamalarında değerli yorumları ile bana 

katkıda bulunan Sayın Prof. Dr. Gül ERGÜN’e, Sayın Prof. Dr. Hamza 

GAMGAM’a, Sayın Doç. Dr. Meral ÇETĠN’e ve Sayın Doç. Dr. Haydar 

DEMĠRHAN’a teĢekkür ederim. Bilimsel eğitimime ve doktora tez çalıĢmama 

verdiği burs ile destek olan TÜBĠTAK’a teĢekkür ederim.  

 
Tez çalıĢmam süresi boyunca manevi desteklerini esirgemedikleri için değerli 

arkadaĢlarım Doç. Dr. Gamze ÖZEL’e, Dr. Nursel KOYUNCU’ya, Dr. Nilgün 

ÖZGÜL’e ve diğer bütün çalıĢma arkadaĢlarıma içtenlikle teĢekkür ederim. 

 
Son olarak çalıĢmam boyunca gösterdiği anlayıĢ, sabır ve yardımlarından dolayı 

değerli arkadaĢım Dr. Semra TÜRKAN’a ve her zaman gösterdikleri sevgi, anlayıĢ 

ve güvenle yanımda olarak bana destek olan baĢta CANIM ANNEM olmak üzere, 

AĠLEM’e içtenlikle teĢekkür ederim. 

 
 vi 

İÇİNDEKİLER 

Sayfa 

ÖZET…………………………………………………………………………...…...………i 

ABSTRACT…………………………………………………………………………….....iii 

TEġEKKÜR………………………………………………………………………………..v 

ĠÇĠNDEKĠLER……………………………………………………………………………..vi 

ÇĠZELGELER……………………………………………………………………………..ix 

SĠMGELER VE KISALTMALAR………………………………………………………....x 

1.GĠRĠġ…………………………………………………………………………………….1 

2. KISMI EN KÜÇÜK KARELER REGRESYONU…………………………………….9 

2.1. Kısmi En Küçük Kareler Regresyon Yöntemi…………………………………….9 

2.2. Doğrusal Olmayan Yinelemeli En Küçük Kareler (NIPALS) Algoritması…….11 

2.2.1. Tek Bir Bağımlı DeğiĢken için DikleĢtirilmiĢ PLSR Algoritması……………..13 

2.2.2. Klasik PLS1 Algoritmasının Seçenek Tanımı…………………………………14 

2.3. PLS Yönteminin Ġstatistiksel Olarak EsinlenilmiĢ DeğiĢikliğinin Basit Bir 

Uygulaması (SIMPLS) Algoritması…………………………………………………….17 

3. SAĞLAM KISMĠ EN KÜÇÜK KARELER REGRESYONU……………………….21 

3.1. Sağlam Kestiricilerin Sahip Olması Gereken Özellikler ve Önemli Sağlamlık  

Ölçütleri…………………………………………………………………………………..21 

3.1.1. Kırılma Noktası…………………………………………………………………...21 

3.1.2. Etki Fonksiyonu…………………………………………………………………..22 

3.1.3. Ġstatistiksel Etkinlik……………………………………………………………….23 

3.2. Sağlam Kısmi En Küçük Kareler Regresyon Yöntemleri………………………24 

3.3. PLS1 ve PLS2 Algoritmalarından Elde Edilen Sağlam PLSR Yöntemleri…...25 

3.3.1. Yinelemeli Olarak Yeniden AğırlıklandırılmıĢ En Küçük Kareler (IRLS)  

           Yöntemi…………………………………………………………………………..25 

3.3.2. Ġç Yinelemeli Yeniden Ağırlıklandırma PLSR Algoritmaları……….…………26 

3.3.3. DıĢ Yeniden Ağırlıklandırma PLSR Algoritması ……………………………..27 

3.3.4. Kısmi En Küçük Mutlak Sapmalar (PLAD) Yöntemi………………………….29 

3.4. Klasik PLS1 Algoritmasının Seçenek Tanımındaki Kovaryans Matrisini  

       Sağlam Bir Yöntem ile Kestirerek Önerilen Sağlam PLSR Yöntemleri………30 

3.4.1. Stahel-Donoho Kestiricisine Dayalı Sağlam PLSR Yöntemi (PLS-SD)……31 

 
 vii 

3.4.2. BACON Algoritmasına Dayalı Sağlam Kısmi En Küçük Kareler Regresyon  

          Yöntemi……………………………………………………………………………34 

3.4.3. Yansımaların Basıklık Katsayısına ve Stahel-Donoho Kestiricisine Dayalı  

          Sağlam PLSR Yöntemi (PLS-KurSD)…………………………………… ……35 

3.5. SIMPLS Algoritmasının SağlamlaĢtırılmasıyla Elde Edilen Sağlam PLSR  

       Yöntemleri…………………………………………………………………………..40 

3.5.1. MCD Regresyonunu Kullanılarak Elde Edilen RSIMCD Algoritması…….…42 

3.5.2. ROBPCA Regresyonunu Kullanılarak Elde Edilen RSIMPLS Algoritması...44 

3.5.3. Kısmi Sağlam M-Regresyon……………………………………………………46 

3.5.4. Mekansal ĠĢaret DönüĢümü ile PLSR Yöntemini SağlamlaĢtırmak………...55 

4. SAĞLAM KISMĠ EN KÜÇÜK KARELER REGRESYON ANALĠZĠNDE YENĠ  

    YAKLAġIMLAR……………………………………………………………………….58 

4.1. Önerilen Sağlam PLSR Yöntemi PLS-ARWMCD………………………………58 

4.1.1. FAST-MCD Algoritmasında Kullanılan C-adımı ve Dayandığı Teorem……60 

4.1.2. H1 BaĢlangıç Alt Kümelerinin OluĢturulması………………………………….62 

4.1.3. Seçmeli Yineleme………………………………………………………………..62 

4.1.4. Ġç içe Eklemeler…………………………………………………………………..63 

4.1.5. FAST-MCD Algoritması ve ĠĢleyiĢi……………………………………………..64 

4.1.6. Sağlam ve Etkin Uyarlanabilir Yeniden AğırlıklandırılmıĢ Bir Kovaryans 

Kestiricisi…………………………………………………………………………………69 

4.2. Önerilen Sağlam PLSR Yöntemleri PLS-Smult ve PLS-MMmult……………..73 

4.2.1. Çok DeğiĢkenli Konum ve Kovaryans için S-Kestiricileri ile MM  

          kestiricileri………………………………………………………………………...74 

4.2.2. Çok DeğiĢkenli Konum ve Kovaryans için S-kestiricilerini Hesaplayan FastS  

          Algoritması…………………………………………..………...………………….76 

4.2.3. Çok DeğiĢkenli Konum ve Kovaryans için MM-kestiricilerini Hesaplayan  

          FastMM Algoritması…………………………………………………….............79 

5. UYGULAMA…………………………………………………………………………..82 

5.1. Benzetim ÇalıĢması………………………………………………………………..82 

5.1.1. Birinci Benzetim Düzeni…………………………………………………………84 

5.1.2. Ġkinci Benzetim Düzeni……………………………………………………..…...93 

5.1.3. Aykırı Değerler Tarafından Bozulmayan Temiz Modeldeki Hata Terimlerinin  

          Farklı Dağılımlardan Geldiği Benzetim Düzeni……………………….……..103 


 viii 

5.1.4. Yeni Önerilen Sağlam PLSR Yöntemlerinin Hesaplama Zamanı ………...108 

5.2. Gerçek Veri Kümesi Üzerinde Uygulama………………………………………112 

6. SONUÇ VE TARTIġMA……………………………………………………………118 

KAYNAKLAR……………………………………………………………………...……124 

EKLER…………………………………………………………………………………..128 

ÖZGEÇMĠġ……………………………………………………………………………..137 

 
 ix 

ÇİZELGELER 

Sayfa 

Çizelge 3.1. Adım 1 ve Adım 2 için tek değiĢkenli yansımalar için kesim 

değerleri…………………………………………………………………………………..39 

Çizelge 5.1. n=100 ve p=6, temiz veri kümesi, m=1000 tekrar için benzetim 

sonuçları………………………………………………………………………………….87 

Çizelge 5.2. n=100 ve p=6, gözlemlerin ilk %10’u kötü kaldıraç gözlemleri, m=1000 

tekrar için benzetim sonuçları …………………………………………………………88 

Çizelge 5.3. n=100 ve p=6, gözlemlerin ilk %10’u dikey aykırı değerler, m=1000 

tekrar için benzetim sonuçları………………………………………………………….90 

Çizelge 5.4. n=200, p=5 ve k=2, aykırı değer oranı % 10, m=1000 tekrar için 

benzetim sonuçları………………………………………………………………………97 

Çizelge 5.5. n=200, p=5 ve k=2, aykırı değer oranı % 20, m=1000 tekrar için 

benzetim sonuçları………………………………………………………………………99 

Çizelge 5.6. Gözlem sayısının (n) ve bağımsız değiĢken sayısının (p) farklı 

seçildiği üç örneklem Ģeması için farklı hata dağılımlarında m=1000 tekrar 

yapılarak benzetim ile elde edilmiĢ MSE’ler ……………………………………..…105 

Çizelge 5.7. ÇalıĢma kümesi 40 ve test kümesi 5 gözlemli balık verisi için GOF ve 

RMSE değerleri.………………………………………………………………………..114 

 
 x 

SİMGELER VE KISALTMALAR 

Kısaltmalar 

 
ARWMCD     Uyarlanabilir Yeniden AğırlıklandırılmıĢ En Küçük Kovaryans    

                      Determinantı (Adaptive Reweighted Minimum Covariance  

                      Determinant) 

BACON         Parçalı Uyarlanabilir Hesaplama Yönünden Etkin Aykırı Gözlem  

                      Belirleyicisi (Blocked Adaptive Computationally Efficient Outlier    

                      Nominators) 

BDP              Kırılma Noktası (Breakdown Point) 

CV                Çapraz geçerlik (Cross-validation) 

GOF             Uyum iyiliği (Goodness-of-fit) 

HBDP           Yüksek Kırılma Noktası (High Breakdown Point) 

IF                  Etki Fonksiyonu (Influence Function) 

IRLS             Yinelemeli Olarak Yeniden AğırlıklandırılmıĢ En Küçük Kareler  

                     (Iteratively Reweighted Least Squares) 

LAD              En Küçük Mutlak Sapmalar (Least Absolute Deviations) 

LMS              En Küçük Ortanca Kareler (Least Median Squares) 

LOOCV         Birini-dıĢarıda-bırakma çapraz geçerlik (Leave-one-out cross- 

                      validation) 

LS                 En Küçük Kareler (Least Squares) 

LV            Gizli DeğiĢken (Latent Variable) 

MAD             Ortanca Mutlak Sapma (Median Absolute Deviation) 

MCD             En Küçük Kovaryans Determinantı (Minimum Covariance  

                     Determinant) 

MLR           Çoklu Doğrusal Regresyon (Multiple Linear Regression) 

MSE             Hata Kareler Ortalaması (Mean Square Error) 

MVE             En Küçük Hacimli Elipsoid (Minimum Volume Ellipsoid) 

NIPALS        Doğrusal Olmayan Yinelemeli Kısmi En Küçük Kareler  

                     (Non-linear Iterative Partial Least Squares) 

NIR               Kızıl Ötesi Yansıyan Spektrumu (Near Infrared Reflectance) 

PC                Temel BileĢen (Principal Component) 

PCA              Temel BileĢenler Analizi (Principal Component Analysis) 


 xi 

PCR             Temel BileĢenler Regresyonu (Principal Component Regression) 

PLAD            Kısmi En Küçük Mutlak Sapmalar (Partial Least Absolute Deviations) 

PLS               Kısmi En Küçük Kareler (Partial Least Squares) 

PLSR            Kısmi En Küçük Kareler Regresyonu (Partial Least Squares Regression) 

PM                Kısmi M-kestiricisi (Partial M-estimator) 

PRESS         Kestirim Hata Kareler Toplamı (Prediction Error Sum of Squares) 

PRM             Kısmi Sağlam M (Partial Robust M) 

RM               Tekrarlı Ortanca (Repeated Median) 

RMCD          Yeniden AğırlıklandırılmıĢ En Küçük Kovaryans Determinantı  

                     (Reweighted Minimum Covariance Determinant) 

RMSE          Hata Kareler Ortalamasının Karekökü (Root Mean Squared Error) 

SDE              Stahel-Donoho Kestiricisi (Stahel-Donoho Estimator) 

SIMPLS         PLS yönteminin Ġstatistiksel olarak EsinlenilmiĢ DeğiĢikliğinin Basit        

                      bir Uygulaması (Straightforward Implementation of a Statistically  

                      Inspired Modification of the PLS method) 

SPD               Simetrik Pozitif Tanımlı (Symmetric Positive Definite) 

SS-PP            Mekansal ĠĢaret Ön ĠĢleme (Spatial Sign Preprocessing) 

SVD               Tekil Değer AyrıĢımı (Singular Value Decomposition) 

 
 1 

1. GĠRĠġ 

 
Aykırı gözlemler, veri kümesinin çoğunluğunun sahip olduğu dağılımdan farklı bir 

dağılıma ya da aynı dağılıma ancak farklı parametrelere sahip oldukları düşünülen 

ve veri kümesinin çoğunluğundan uzakta bulunan gözlemlerdir [39]. Bir regresyon 

modelinde üç tür aykırı değer vardır: Birincisi, bağımsız değişkenlere ilişkin X 

matrisinde gözlemlerin çoğunun bulunduğu ana bölümden uzakta bulunan, ancak 

o gözlemler ile aynı regresyon modeline sahip ‘iyi kaldıraç’ gözlemleridir. İkincisi, X 

matrisinin ana kısmından uzakta bulunan ve regresyon modelinden önemli bir 

şekilde sapan ‘kötü kaldıraç’ gözlemleridir. Üçüncüsü ise kaldıraç gözlemleri 

olmayan, ancak regresyonda büyük kestirilen y artıklarına sahip olan, bu nedenle 

de ‘dikey aykırı’ değerler olarak adlandırılanlardır [23].  

 
Genellikle, regresyon parametre kestirimlerinde aykırı gözlemlerin etkisinin yüksek 

oranda olduğu bilinmektedir. Sağlam yöntemlerde amaç, aykırı değerlerin etkisini 

azaltmak ya da gidermek ve geriye kalan gözlemlerin büyük bir çoğunlukla 

sonuçları belirlemesine olanak sağlamaktır. Bir kestirici, veri kümesinde bulunan 

aykırı gözlemlerin varlığından etkilenmiyor ise o kestirici sağlam, etkileniyor ise 

sağlam olmayan kestiricidir. Daha genel bir ifade ile veri kümesinde küçük 

değişimler ya da genel olarak varsayımlarda küçük sapmalar olduğunda bile iyi 

performans gösteren kestiriciler, ‘sağlam kestiriciler’ olarak adlandırılır. Benzer bir 

yaklaşım ile kestirim yöntemi de, sağlam ve sağlam olmayan yöntem şeklinde 

isimlendirilir [23, 36, 39]. Sağlam kestiriciler ilk olarak 1960 yılında, alanının 

öncülerinden olan Tukey tarafından tanıtılmıştır. Daha sonra ilerleyen yıllarda 

sağlam regresyon çözümlemesiyle ilgili yapılan birçok çalışma sonucunda bulunan 

en dikkat çekici sonuç, hatalar normal bir dağılıma sahip olmadığında ya da veri 

kümesinde aykırı değerler olduğunda, Klasik En Küçük Kareler (Least 

Squares/LS) kestiricisinin sağlam olmayan kestirimler vermesidir. Bu nedenle, veri 

kümesi normallikten sapmalar gösterdiğinde ya da aykırı değerler içerdiğinde, 

sağlam kestirimler verecek kestiriciler türetilmeye çalışılmıştır [18, 36]. 

 
 2 

Kısmi En Küçük Kareler Regresyonu (Partial Least Squares Regression/PLSR), 

bir ya da daha fazla bağımlı değişkeni çok sayıda bağımsız değişken ile 

ilişkilendirmek için kullanılan bir yöntemdir. PLSR, bağımlı ve bağımsız 

değişkenler arasındaki doğrusal ilişkiyi dikkate alan bir veri indirgeme yöntemidir. 

PLSR yöntemi ile bağımlı değişkenleri kesin bir anlamda açıklayacak bileşenler 

seçilir. PLSR, bir gizli değişkenler (Latent Variables/LV) regresyon yöntemidir. Bu 

yöntemde, ilkin ilişkisiz LV’lerin bir kümesi kestirilir ve daha sonra, bu LV’lerin 

bağımlı değişken ile olan ilişkisi modellenir. PLSR yöntemi normal olmama, 

gözlemlerin bağımsız olmaması ve çoklubağlantı gibi bozulumlara karşı sağlam bir 

yöntemdir. Ölçümlerin dağılımı ne olursa olsun, PLSR kullanılabilir. Bu nedenle, 

PLSR özellikle normallik varsayımının sağlanmadığı veriler için uygun bir 

yöntemdir [11, 21]. 

 
PLSR modelini elde etmek için literatürde en sık kullanılan yaklaşımlar, Doğrusal 

Olmayan Yinelemeli Kısmi En Küçük Kareler (Non-linear Iterative Partial Least 

Squares/NIPALS) ve PLS yönteminin İstatistiksel olarak Esinlenilmiş Değişikliğinin 

Basit bir Uygulaması (Straightforward Implementation of a Statistically Inspired 

Modification of the PLS method/SIMPLS) algoritmalarıdır. NIPALS algoritması, tek 

bir y değişkeni olduğunda ‘PLS1’ ve çoklu Y değişkeni için kullanıldığında ise 

‘PLS2’ adını alır. Ancak, NIPALS algoritmasında yüklerin, bileşenlerin ve 

regresyon katsayılarının hesaplanmasında klasik LS regresyon adımları 

kullandığından ve SIMPLS algoritması bağımlı ile bağımsız değişkenler arasındaki 

varyans-kovaryans matrisine ve LS regresyonuna dayalı olduğundan, veri 

kümesinde aykırı değerler olduğunda her iki algoritma ile elde edilen sonuçlar da 

etkilenir. Bu nedenle, literatürde PLS1, PLS2 ve SIMPLS algoritmalarının bazı 

sağlamlaştırılmış biçimleri olan sağlam PLSR algoritmaları önerilmiştir. Sağlam 

PLSR yapmak için literatürde iki ana yöntem vardır: Birincisi, PLSR modelini elde 

etmek için kullanılan algoritmalarda yer alan regresyon adımlarında LS yerine 

sağlam regresyon yöntemlerini kullanarak aykırı değerlerin ağırlığını azaltmak ve 

ikincisi, bu algoritmalarda kullanılan kovaryans matrisini sağlam bir regresyon 

yöntemi ile sağlam kestirmektir. İlk yöntem ile oluşturulan sağlam regresyon 

yöntemleri, yarı-sağlam (semi-robust) olarak nitelendirilir. Çünkü bu yöntemler, ya 


 3 

sağlam olmayan başlangıç ağırlıklarına sahiptir ya da ağırlıklar kaldıraç 

gözlemlerine karşı dirençli değildir [11, 15, 21]. 

 
Literatürde PLS1 ve PLS2 algoritmalarında bazı değişiklikler yapılarak, önerilen 

sağlam PLSR yöntemleri vardır. İlk olarak, Wakeling ve Macfie [37] PLS2 

algoritmasındaki X değişkenine ilişkin w ağırlıklarının ve Y değişkenine ilişkin c 

ağırlıklarının hesaplandığı tek değişkenli regresyon adımlarını sağlamlaştırılmış 

biçimleri ile değiştirerek, ilk sağlam PLSR algoritmasını geliştirmiştir. Bu amaç ile 

yinelemeli olarak yeniden ağırlıklandırılmış en küçük kareler (iteratively reweighted 

least squares/IRLS) algoritmasından faydalanmıştır. Bu sağlam algoritma, bağımlı 

Y değişkeninde rasgele aykırı değerler olduğunda etkin bulunmuştur [37]. Griep 

vd. [11] ise, PLS1 algoritmasında X değişkenine ilişkin w ağırlıklarının 

hesaplandığı ilk adımında klasik LS yöntemi yerine En Küçük Ortanca Kareler 

(Least Median Squares/LMS), Siegel’in Tekrarlı Ortanca’sı (Repeated Median/RM) 

ve IRLS gibi sağlam yöntemler kullanmıştır. Bu çalışmaya göre, daha küçük 

boyutlarda bu algoritma, aykırı değerler kaç tane ve ne büyüklükte olursa olsun 

etkin sonuçlar verdiğinden en iyi yöntemdir [11]. Cummins ve Andrews [1] ise, 

yinelemeli olarak yeniden ağırlıklandırılmış regresyonu, PLS1 algoritmasına 

genelleştirmeyi önermiştir. Mantık, klasik IRLS’deki ile aynıdır. Ancak, bu 

algoritmada IRLS’den farklı olarak Çoklu Doğrusal Regresyon’un (Multiple Linear 

Regression/MLR) artıkları yerine PLSR’nin artıkları kullanılır. Klasik bir Kısmi En 

Küçük Kareler (Partial Least Squares/PLS) uyguladıktan sonra, ağırlıklar 

hesaplanır ve bir sonraki PLS algoritması için kullanılır. Bu algoritma, sadece bir 

tane bağımlı değişken olan model için geçerlidir ve kaldıraç gözlemlerine karşı 

dirençli değildir [1]. Dodge vd. [4] tarafından geliştirilen Kısmi En Küçük Mutlak 

Sapmalar (Partial Least Absolute Deviations/PLAD) regresyonu algoritması, PLS1 

algoritmasındaki bileşenlerin diklik özelliklerini koruyarak, bağımlı y değişkenini 

elde edilen bileşenlerden En Küçük Mutlak Sapmalar (Least Absolute 

Deviations/LAD/L1) regresyon yöntemini kullanarak kestirir. ir , i. gözlem için artığı 

göstermek üzere LAD, 


n

1i

iˆ
rmin

β
 şeklinde artıkların mutlak değerlerinin toplamlarını 

en küçük yapar [4]. 

 
 4 

Literatürde, PLS1 algoritmasının seçenek bir tanımı olan algoritmadaki kovaryans 

matrisini sağlam bir yöntem ile kestirerek önerilen sağlam PLSR yöntemleri de 

mevcuttur. PLS1 algoritmasının seçenek bir tanımı olan bu algoritmada, Helland 

(1988)’de verilen yaklaşımı kullanarak PLSR bileşenlerini hesaplamadan ve 

doğrudan algoritmada kullanılan ağırlık matrisini hesaplayarak, sadece üç adımda 

PLSR kestirimleri elde edilir [10]. Algoritmanın her bir adımında ağırlıklar, sadece 

daha önce hesaplanan ağırlık vektörlerine ve xS , xy,s  kovaryanslarına dayalıdır. 

Bu nedenle,   Xyz ,  şeklinde X ve y değişkenlerinden oluşan birleşik veri 

kümesinin kovaryans matrisi sağlamlaştırıldığında da, sürecin sağlamlaştırılacağı 

düşünülür. Bu amaçla, algoritmanın bu biçimine ilişkin literatürde çeşitli sağlam 

PLSR yöntemleri önerilmiştir. İlk olarak Gil ve Romera [9], X değişkenlerinin 

örneklem kovaryans matrisi xS  ile X ve y değişkenleri arasındaki kovaryans 

matrisi Xy,s ’i Stahel-Donoho kestiricisi (Stahel-Donoho estimator/SDE) ile 

sağlamlaştırarak, sağlam bir PLS1 yöntemi elde etmiştir. Bu yöntem, sadece 

gözlem sayısının değişken sayısından büyük olduğu (n>p) veriye uyar ve 

hesaplanması için açık bir algoritma elde edilememiştir. Hesaplanması çok zaman 

alacağından, SDE her zaman tam biçimi ile hesaplanamamaktadır. Genelde alt 

örnekleme süreçleri ile birlikte, yakınsama yöntemleri kullanılmaktadır. Bu sağlam 

PLSR algoritmasını, González vd. [10], ‘PLS-SD’ olarak adlandırmıştır [7, 9, 10, 

15]. Gil ve Romera [9] çalışmasına benzer bir şekilde Kondylis ve Hadi [19], 

varyans-kovaryans matrisini sağlam bir şekilde kestirmek ve sağlam PLSR analizi 

yapmak için Billor vd. (2000) tarafından önerilen BACON algoritmasını 

kullanmıştır. Kondylis ve Hadi [19], önerdikleri sağlam PLSR algoritmasını 

‘BACON-PLSR (BPLSR)’ olarak adlandırmıştır. Hem gerçek veriden hem de 

benzetim çalışmasından elde edilen sonuçlar, BPLSR algoritmasının aykırı 

değerlere karşı dirençli olduğunu gösterir. Regresyon kestirimleri, en azından 

aykırı değerlerin varlığı ile makul düzeylerde bozulmuş veri kümelerinde, aykırı 

değerlerden fazla etkilenmemektedir. Sadece yüksek bozulma düzeylerinde ve 

veri kümelerinin göreceli olarak yüksek boyutlularında (p>n), BPLSR’nin kestirim 

başarısı düşmektedir. González vd.’de [10] ise ‘PLS-KurSD’ olarak adlandırılan, 

sağlam bir PLSR algoritması önerilmiştir. Bu algoritma, çok değişkenli aykırı 

değerlerden temizlenmiş bir kovaryans matrisini elde etmek için tasarlanmıştır. 

Algoritma, üç adıma sahiptir. İlk adımda, yansımaların (projections) basıklık 


 5 

katsayısını en büyük ve en küçük yaparak iki özel yön üretilir ve bu yönlerde aykırı 

değerler için tek değişkenli araştırma yapılır. İkinci adımda, Pena ve Prieto [25]’de 

söz edilen tabakalı örneklemeye ilişkin süreç takip edilerek rasgele yönler üretilir 

ve yeniden aykırı değerler tespit edilir. Üçüncü adımda, tüm şüpheli gözlemler 

örneklemden geçici olarak silinir ve geriye kalan verinin ortalaması ve kovaryans 

matrisi hesaplanır. Daha sonra, Mahalanobis uzaklığını kullanarak tüm şüpheli 

gözlemler kontrol edilir. Aykırı gözlemler olarak belirlenen gözlemler örneklemden 

silinir ve daha fazla aykırı değer bulunmayana kadar, sürecin üç adımı yeni 

temizlenmiş örnekleme yeniden uygulanır. Yukarıda anlatılan üç adım, daha fazla 

aykırı değer bulunmayana kadar tekrarlanır. Böylece elde edilen sağlam 

kovaryans matrisi, PLS1’nin seçenek tanımında kullanılarak sağlam PLSR yöntemi 

elde edilmiş olur. 

 
Literatürde, klasik SIMPLS algoritmasını sağlamlaştırarak önerilen sağlam PLSR 

yöntemleri de bulunmaktadır. Hubert ve Vanden Branden [15], çok değişkenli 

regresyon yöntemi olan En Küçük Kovaryans Determinantı (Minimum Covariance 

Determinant/MCD) regresyon ve ROBPCA regresyon yöntemlerini kullanarak, 

algoritmanın sağlamlaştırılmış biçimleri olan, sırasıyla RSIMCD ve RSIMPLS 

algoritmalarını geliştirmiştir. RSIMPLS ve RSIMCD algoritmalarının her ikisi de, tek 

ya da birden çok bağımlı değişkenin olduğu durum için de kullanılabilir. Hubert ve 

Vanden Branden [15], RSIMCD’den iki kat daha hızlı olduğu için RSIMPLS 

algoritmasının kullanılmasını tavsiye etmiştir. RSIMPLS algoritması hesaplama 

açısından çok hızlı olduğu için bağımsız değişken sayısının gözlem sayısından 

fazla olduğu yüksek boyutlu veri kümelerinde kolaylıkla kullanılır [15]. Serneels vd. 

[31] ise modelde tek bir bağımlı değişken olduğunda M regresyon kestiricilerinin 

‘kısmi’ bir biçimini önermiş ve bu kestirici, Kısmi Sağlam M (partial robust M/PRM) 

regresyon kestiricisi olarak adlandırılmıştır. Aykırı değerlerin ağırlığı azaltılarak 

oluşturulan PRM regresyonunda, y ve x değişkenler uzayındaki aykırı gözlemlerin 

etkisini azaltmak için yinelemeli bir şemada sıfır ile bir arasında değişen ağırlıklar 

hesaplanır [21]. Sağlam PLSR’ye ilişkin daha önceki çalışmalarda PLSR 

kestiricilerinin sağlam biçimlerini geliştirmeye odaklanılmışken, Serneels vd. [31] 

çalışmasında sağlam bir kestiricinin kısmi bir biçimini önermiştir. Bu şekilde 

oluşturulan bir başka kestirici de, PLAD kestiricileridir. Ancak, PRM yöntemi 


 6 

hesaplama açısından daha kolay olduğundan, literatürde daha çok ilgi çekmiştir [7, 

31]. Önerilen biçimine yönelik yapılan benzetim çalışmaları, yöntemin iyi bir etkinlik 

ve yüksek bir sağlamlık özelliğine sahip olduğunu gösterir. PRM hesaplama 

açısından çok hızlıdır ve yüksek boyutlu veri kümeleri için kullanılabilir [7]. 

Serneels vd. [32] ise, SIMPLS algoritmasındaki kovaryans matrisi için ‘mekansal 

işaret kovaryans matrisi’ olarak adlandırılan, kovaryans matrisinin sağlam bir 

şeklini kullanılarak sağlam bir PLSR algoritması elde etmiştir. Bu yöntem, veriye 

mekansal işaret ön işleme (spatial sign preprocessing/SS-PP) ve akabinde 

standart bir PLS algoritmasının uygulanmasına eş olduğu için ‘SS-PP+PLS’ olarak 

adlandırılır [7, 32]. SS-PP kavramsal olarak basittir ve kolay hesaplanır. Çünkü 

ayarlanması gereken herhangi bir parametre ya da fonksiyon içermez [32].        

SS-PP+PLS yönteminin hesaplanmasının kolay, normal modelde kabul edilir bir 

şekilde etkin ve hata terimleri Cauchy, Laplace gibi normal olmayan bazı 

dağılımlardan gelen modellerde iyi sonuçlar verdiği ve veri kümesinde aykırı 

değerlerden kaynaklanan çok fazla bozulmaya karşı kısmen sağlam olduğu 

sonuçlarına ulaşılmıştır. Mekansal işaret dönüşümünün yan özellikleri 

RSIMPLS’nin yan özelliklerinden daha az tercih edilebilir olduğundan, mekansal 

işaret dönüşümünün sadece hesaplama zamanının bir problem olduğu durumlarda 

kullanılması gerektiği belirtilmiştir [32].  

 
Bu doktora tez çalışmasında, literatürde önerilen sağlam PLSR yöntemleri ayrıntılı 

olarak incelenmiştir. Literatürde var olan sağlam PLSR yöntemlerden özellikle 

yukarıda söz edilen PLS1 algoritmasının seçenek tanımındaki kovaryans matrisini 

sağlam bir kovaryans kestirim yöntemi ile kestirerek önerilen yöntemlerin 

uygulanış kolaylığı göz önüne alınarak, üç yeni sağlam PLSR yöntemi önerilmiştir. 

Önerilen bu üç yeni sağlam PLSR yöntemi, dik yükler algoritması olarak da 

adlandırılan PLS1 algoritması ile hesaplanan klasik PLSR yöntemi ve literatürdeki 

dört sağlam PLSR yöntemi RSIMPLS, PRM, PLS-SD ve PLS-KurSD ile etkinlik, 

veriye uyum ve kestirimdeki başarıları açısından benzetim çalışmaları ve gerçek 

bir veri kümesi üzerinde yapılan uygulamalar ile karşılaştırılmıştır. 

 
 7 

Bu çalışma altı bölümden oluşmaktadır. Birinci bölüm olarak ele alınan giriş 

bölümünde tezin konusu, önemi, bu konuda yapılan önceki çalışmalar, tezin içeriği 

ve izlenecek düzen ana hatları ile verilmiştir. 

 
İkinci Bölüm’de, klasik PLSR yöntemi hakkında genel bilgi verilmiş ve bu yöntem 

ile parametre kestirimlerini elde etmek için kullanılan yinelemeli klasik PLSR 

algoritmaları ‘NIPALS (PLS1 ve PLS2)’ ile ‘SIMPLS’ algoritmaları incelenmiştir.  

 
Üçüncü Bölüm’de, ilk olarak sağlam bir kestiricinin sahip olması gereken özellikler 

ve önemli sağlamlık ölçütlerinden kısaca söz edilmiştir. Daha sonra, literatürdeki 

sağlam PLSR yöntemleri detaylı olarak tanıtılmıştır.  

 
Dördüncü Bölüm’de, Helland (1988)’de verilen yaklaşımı kullanarak PLSR 

bileşenlerini hesaplamadan ve doğrudan algoritmada kullanılan ağırlık matrisini 

hesaplayarak, PLSR kestirimlerinin sadece üç adımda elde edildiği PLS1 

algoritmasının seçenek tanımındaki kovaryans matrisini sağlam bir şekilde 

kestirerek önerilen üç yeni sağlam PLSR yöntemi tanıtılmıştır. PLS-ARWMCD, 

PLS-Smult ve PLS-MMmult olarak adlandırılan bu üç yeni sağlam PLSR yöntemi 

sırasıyla, ‘ ilk adımda konum ve kovaryansın sağlam başlangıç kestiricileri olarak 

En Küçük Kovaryans Determinantı kestiricilerini kullanan, uyarlanabilir yeniden 

ağırlıklandırılmış bir kovaryans kestiricisi ‘, ‘ S-kestiricileri ’ ve ‘ MM-kestiricileri ’ 

olarak bilinen üç ayrı sağlam kovaryans kestirim yöntemini kullanarak önerilmiştir.  

 
Beşinci Bölüm’de ise, yapılan benzetim çalışmaları ve gerçek bir veri kümesi 

üzerindeki uygulama ile yeni önerilen üç sağlam PLSR yöntemi PLS-ARWMCD, 

PLS-Smult, PLS-MMmult ile klasik PLSR yöntemi ve literatürde var olan dört 

sağlam PLSR yöntemi RSIMPLS, PRM, PLS-SD, PLS-KurSD karşılaştırılmıştır. 

Yeni önerilen üç sağlam PLSR yöntemi de küçük boyutlu ve makul düzeyde aykırı 

değerler tarafından bozulan veri kümelerine uygulandığında, özellikle klasik PLSR 

yönteminden ve bazı durumlarda literatürde var olan sağlam RSIMPLS, PRM, 


 8 

PLS-SD ve PLS-KurSD yöntemlerinden daha sağlam ve etkin sonuçlar 

vermektedir. 

 
Altıncı Bölüm’de ise, beşinci bölümde benzetim çalışmaları ve gerçek bir veri 

kümesi üzerindeki uygulamalar ile elde edilen sonuçlar özetlenmiş ve sonuçlar 

tartışılmıştır. 

 
 9 

2. KISMI EN KÜÇÜK KARELER REGRESYONU 

 
Herman Wold tarafından 1960’lı yıllarda PLSR, bağımsız değişkenlerin çok sayıda 

ve ilişkili olması durumunda kestirime yönelik modeller elde etmek için yeni bir 

yöntem olarak geliştirilmiştir. PLSR yönteminde amaç, bağımsız X değişkenleri ve 

bir ya da birden fazla bağımlı Y değişkenlerinin oluşturduğu iki veri bloğu için elde 

edilmiş gizli değişkenler (Latent Variables/LV) kullanılarak, bu iki veri bloğu 

arasında ilişki bulmaktır. Bu yöntem ilk olarak Herman Wold tarafından 1966 

yılında, ekonomik ve sosyal olayları modellemek için kullanılmıştır. PLSR yöntemi 

kimya bilim alanında Kowalski vd. tarafından 1979 yılında yapılan bir başlangıç 

çalışmasından sonra kullanılmaya başlanmıştır. 1980 yılından bu zamana kadar, 

birbirleri ile doğrusal ilişkili X ve Y değişkenlerinden oluşan iki bloklu özgün PLSR 

modeli, bilim ve teknoloji alanındaki verileri daha iyi çözümlemek için geliştirilmiştir. 

Böylece PLSR yöntemi, klasik regresyonun uygulanmasının zor olduğu karmaşık 

veri kümelerini çözümlemek için daha yararlı olmuştur [26] 

 
Bu bölümde, ilk olarak klasik PLSR yöntemi tanıtılacak ve kullanıldığı alanlar ile 

kullanım amaçlarından kısaca bahsedilecektir. İkinci olarak, PLSR parametre 

kestirimlerini elde etmek için kullanılan klasik PLSR algoritmaları PLS1, PLS2 ve 

SIMPLS tanıtılacaktır.  

 
2.1. Kısmi En Küçük Kareler Regresyon Yöntemi 

 
Çok emek ve uzun süre gerektiren ancak doğru sonuç veren ölçme yöntemlerinin, 

ucuz, hızlı ve daha az doğruluğa sahip dolaylı ölçme yöntemleriyle yer 

değiştirmesi, ‘ayarlama’ olarak tanımlanır. Ayarlama, bir ya da birden çok bağımlı 

ve birden çok bağımsız değişken olduğunda, ‘çok değişkenli ayarlama 

(multivariate calibration)’ olarak adlandırılır. Çok değişkenli ayarlama çalışmaları, 

Kemometri bilim alanının en yaygın konularından biridir. Kemometri; istatistik, 

matematik ve bilgisayar kullanılarak kimyasal verilerin işlenmesini kapsayan kimya 

alanında bir bilim dalıdır.  XY fˆ   şeklindeki kestiricileri veren ayarlama 


 10 

modellerinden biri de;  XT 1h ,   FTY  2h  ve   ETX  3h  şeklindeki LV’ler 

üzerinden regresyondur. Burada T özgün değişkenlerden daha az sayıdaki 

bileşeni temsil ederken, E ve F, artıkları temsil etmektedir. Bu türün temsilcisi olan 

PLSR yöntemi, Temel Bileşenler Regresyonu (Principal Component 

Regression/PCR) yöntemi gibi ayarlama modellemesi yapmak için kullanılan veri 

sıkıştırma yöntemlerinden bilineer (ikidoğrusal) yöntemlere girmektedir [26].  

 
İlk olarak Kemometri biliminde yeni bir kestirim tekniği olarak ortaya çıkan PLSR 

yöntemi, daha sonra çok değişkenli ölçümler arasındaki doğrusal ilişkileri 

modellemek için yerleşmiş bir araç haline gelmiştir. Martens ve Jensen tarafından 

1983 yılında, Kemometri bilim dalında tek bir Y değişkeninin olduğu veri için daha 

iyi kestirimler elde etmek amacıyla PLS yöntemi geliştirilmiştir. Wold vd. tarafından 

ise 1983 yılında, çok değişkenli Y için daha iyi kestirimler elde etmek amacıyla 

PLS yöntemi geliştirilmiştir. Günümüzde PLSR, birçok bilimsel ve teknolojik 

uygulamalarda sıklıkla kullanılan bir yöntem haline gelmiştir. Özellikle 

çoklubağlantı durumunda MLR uygulamalarında, kestirim bakımından daha 

başarılı ve daha az bileşenli modeller elde etmek için kullanılmaya başlanmıştır 

[26]. 

 
PLSR modelinin bulduğu ve bağımlı değişkenleri kesin bir anlamda açıklayacak 

olan LV’ler,  k,,2,1aa t  ile gösterilebilir. Burada ‘k’, modelde kalacak ideal 

bileşen sayısıdır. En son PLSR modelinde kalacak ideal bileşen sayısı, genellikle 

en küçük Hata Kareler Ortalamasının Karekökü (Root Mean Squared Error/RMSE) 

değerini veren bileşen sayısı olarak ya da bir çapraz geçerlik (cross-validation/CV) 

süreciyle kestirilen tahmin hatasını minimize ederek seçilir [5, 26]. X ve Y’nin, aynı 

LV tarafından modellendiği varsayılır. Wold vd. [38], PLSR ve PCR yöntemlerinin 

benzer ve farklı yönlerini anlatmıştır. Her iki yöntemde de, y değişkenlerini 

kestirmek için x değişkenlerinin sayısından daha az bileşen kullanılarak regresyon 

probleminin boyutu azaltılır. Her bir bileşen, p1 ,, XX  ’nın doğrusal bir birleşimidir. 

İki yöntem arasındaki temel fark, PCR’de temel bileşenler (Principal 

Components/PC) bağımlı değişkenleri referans almadan belirlenirken, PLSR’de 

PC’ler belirlenirken gözlemlenen bağımlı değişkenler önemli rol oynar. PLSR 


 11 

modelini elde etmek için, literatürde birçok algoritma tanıtılmıştır. Bu amaçla 

tanıtılan ilk algoritma, klasik NIPALS algoritmasıdır. NIPALS algoritmasına iyi bir 

seçenek olarak en çok kullanılan algoritma ise SIMPLS algoritmasıdır [26]. Bir 

sonraki alt bölümlerde, bu algoritmalar detaylı olarak anlatılacaktır. 

 
2.2. Doğrusal Olmayan Yinelemeli En Küçük Kareler (NIPALS) Algoritması 

 
Veri kümesinde tek bir y değişkeni olduğunda NIPALS algoritması, ‘PLS1’ ve çoklu 

Y değişkeni için kullanıldığında ise, ‘PLS2’ adını alır. Birden çok y değişkeni 

olduğunda, PLS1 yöntemi ile elde edilen modeller her zaman açıklanan varyans 

bakımından daha iyi modeller vereceğinden, PLS2 modellerine tercih edilir. Ancak, 

bağımlı değişkenler ilişkili olduğunda PLS2 yönteminin uygulanması daha 

uygundur. Bu algoritma isteğe bağlı olarak, ölçeklendirilmiş ve merkezileştirilmiş 

sırasıyla bağımsız ve bağımlı değişkenlerin yer aldığı X ve Y matrisleri ile başlar 

ve daha sonra, aşağıdaki adımlarla gösterilen şekilde devam eder. Tek bir y 

değişkeni olduğunda ise, PLS1 adını alan algoritma yinelemeli değildir. 

Algoritmadan da görüldüğü üzere, bir sonraki yineleme bir önceki yinelemeden 

elde edilen X ve Y artık matrisleri ile başlar. Yinelemelere, bir durdurma ölçütü 

kullanılana kadar ya da X sıfır matrisi olana kadar devam edilebilir. PLS2 

algoritmasının işleyişi, aşağıdaki adımlar ile gösterilebilir [11, 26, 37, 38]. 

 
Adım 1: Yinelemeli algoritmaya, u skor vektörü için bir başlangıç değeri olarak, 

genellikle Y’nin ilk sütunu ya da tüm sütunların ortalaması seçilerek başlanır. Tek 

bir y değişkeni olduğunda, u=y’dir. 

 
Adım 2: X ağırlıkları uuuXw  /  şeklinde, X’in y skor vektörü u’nun üzerine 

regresyonu ile bulunur. Böylece Xw doğrusal birleşimi ile y arasında maksimum 

kovaryans elde edilir. w  Öklid normunu göstermek üzere, ağırlıklar www /  

şeklinde normalleştirilir. 

 
 12 

Adım 3: X skorları olan t, X’in satırlarının w üzerine yansıması gibi bulunur: 

Xwt  . 

 
Adım 4: Daha sonra c ile gösterilen Y ağırlıkları, tttYc  /  şeklinde bulunur. c 

ağırlıkları da, ccc /  şeklinde normalleştirilir.  

 
Adım 5: Son olarak, Y skorlarının güncellenmiş bir kümesi, Ycu   şeklinde 

bulunur.  

 
Adım 6: t’deki değişimden yararlanılarak, yakınsaklık denetlenir. Örneğin, 

 yeniyenieski / ttt ’dır. Burada  , 610  ya da 810  arasında küçük bir değerdir. 

Eğer yakınsaklık sağlanmaz ise Adım 2’ye dönülür, sağlanır ise Adım 7 ile ve daha 

sonra tekrar Adım 1 ile devam edilir. Eğer tek bir y değişkeni varsa Adım 4’deki 

normalleştirilmiş c, 1’e eşit olur ve süreç tek bir yinelemede yakınsar. Daha sonra 

ise, doğrudan Adım 7 ile devam eder. 

 
Adım 7: Eğer yakınsaklık sağlanır ise X ve Y matrislerinden, elde edilen bileşen 

çıkarılır. Bu indirgenmiş yeni artık matrisleri ise, bir sonraki bileşenin elde 

edilmesinde yeni X ve Y matrisleri olarak kullanılır. X ve Y matrisleri 

indirgenmeden önce X yükleri, Y yükleri ve b regresyon katsayısı aşağıdaki gibi 

hesaplanır. 

 
X yükleri  tttXp  /  

Y yükleri:  uuuYq  /  

Regresyon (t üzerine u’nun):  tttu  /b  

 
Daha sonra, bir sonraki bileşenin hesaplanması için yeni artık matrisleri, 

ptXX   ve ctYY  b  şeklinde elde edilir. 


 13 

Adım 8: Son olarak, CV, X matrisinde Y hakkında daha fazla önemli bilgi 

olmadığını gösterene kadar bir sonraki bileşenin hesaplanmasıyla devam edilir 

(Adım 1’e geri dönülür) [26]. 

 
PLS2 algoritması için Adım 2 ve Adım 4 incelendiğinde, bu adımlar regresyon 

adımları olarak görülebilir. Örneğin, Adım 2’deki normalleştirilmemiş w vektörü, u 

üzerine X değişkenin regresyon katsayısı gibidir [37]. PLS1 algoritmasının 

adımlarını veren, iki benzer biçimi ise aşağıdaki gibi gösterilebilir. Aşağıdaki 

adımlardan görüldüğü üzere, algoritmada dört farklı regresyon adımı 

kullanılmaktadır [9, 11]: 

 
Klasik Biçim Regresyonlar Türünden Biçimleri 

 
yXw   yyyXw  /                        Regresyon 

www /  www /                     Normalleştirme 

Xwt     wwwXt 

 /                   Regresyon 

tttXp  /  tttXp  /                           Regresyon 

ttty  /b  ttty  /b                           Regresyon 

ptXX   ptXX                         X artık matrisi 

tyy b  tyy b                         y artık vektörü 

 
2.2.1. Tek Bir Bağımlı DeğiĢken için DikleĢtirilmiĢ PLSR Algoritması 

 
Kestirim yapmak için PLSR literatüründe kullanılan iki benzer algoritma vardır. 

Bunlar, Wold vd. (1983)’te tanıtılan dik skorlar algoritması ile Martens ve Naes 

[22]’te tanıtılan ve daha sonra Denham [3]’te yeniden bahsedilen dik yükler 

algoritmasıdır. Dik yükler algoritması, kısaca aşağıdaki gibi tanımlanır. Bu 


 14 

algoritma da, bir önceki bölümde söz edilen algoritma ile aynı sonucu veren bir 

PLS1 algoritmasıdır [3, 19, 22]. 

 
İlk olarak, X matrisi ve y vektörü sırasıyla, x1XX 0  ve y1yy 0  şeklinde 

merkezileştirilir. İdeal bileşen sayısı ‘k’ belirlenir. Daha sonra, k,,1a   için [3, 22]; 

 
 Ağırlıklar hesaplanır: 1a1aa 
 yXw  

 Ağırlıklar için ölçeklendirme faktörü hesaplanır:   2/1

aac


 ww  

 aw  ağırlıklarının uzunlukları 1’e ölçeklendirilir: aa cww   

 Skorlar hesaplanır: a1aa wXt   

 Yükler için ölçeklendirme faktörü hesaplanır: aac tt  

 X yükleri hesaplanır: c/a1aa tXp 
  

 Y yükleri hesaplanır: c/a1aa tyq 
  

 X artıkları hesaplanır: aa1aa ptXX    

 Y artıkları hesaplanır: aa1aa qtyy    

 
k tane bileşen için bu adımlar hesaplandıktan sonra, en son olarak   qWPWb
1

  

şeklinde regresyon katsayıları elde edilir. Burada,  k21k ,,, wwwW  , 

 k21k ,,, pppP   ve  k21k ,,, qqqQ  ’dur [3, 22]. 

 
2.2.2. Klasik PLS1 Algoritmasının Seçenek Tanımı 

 
  Xyz , , örneklem boyutu n olan 1+p boyutlu bir vektör olsun. Bu vektör, p tane 

bağımsız değişkenin bir kümesi ve bir tek bağımlı y değişkeni olarak ayrıştırılabilir. 

Vektörler, bir boyutlu sütun matrisleri olarak düşünülür. zS , Eş. (2.1)’de gösterilen 

elemanlara sahip bir örneklem kovaryans matrisi olsun [10]. 


 15 













 


XXy,

Xy,y

z
Ss

ss
S

2

                                                                                                (2.1) 

 
Burada Xy,s , y ve x değişkenleri arasındaki kovaryansların 1p  boyutlu 

vektörüdür. Amaç, xβy  ˆˆ ’i kestirmek olduğunda bağımlı değişkenin, x 

değişkenlerinin doğrusal fonksiyonları olan   pk,,, k1 tt   bileşenlerinin bir 

kümesi tarafından doğrusal olarak açıklanabileceği varsayılır. ‘k’ modelde kalacak 

ideal bileşen sayısı olduğuna göre, pn  boyutlu bağımsız değişkenler matrisi X’in 

i. satırı ix  ile gösterildiğinde Eş. (2.2) ve Eş. (2.3)’deki modeller yazılır [10]. 

 
iεPtx  ii                                                                                                          (2.2) 

 
iii ηtqy                                                                                                          (2.3) 

 
Eş. (2.2)’deki P,   ik1ii t,,t t  vektörlerinin kp  boyutlu yükleri ve q, y yüklerinin 

k boyutlu vektörüdür. iε ve iη  hata vektörleri; sıfır ortalamaya sahip, normal 

dağılımlı ve ilişkisizdir.   k1 ,, ttT   bileşen matrisi, doğrudan gözlemlenmemiş 

ve kestirilmelidir. Buna göre, T matrisinin en çok olabilirlik kestirimi Eş. (2.4)’deki 

gibidir [10]. 

 
kXWT                                                                                                                (2.4) 

 
Eş. (2.4)’deki  k21k ,,, wwwW   ağırlık matrisi, kp  boyutlu katsayılar matrisidir 

ve ki1,i w ’ler Eş. (2.6)’daki kısıtlar altında xy,sw 1  olmak üzere Eş. (2.5)’i 

sağlayacak şekilde elde edilir [10]. 

 
 yXww
w

,covmaxarg 2

i                                                                                     (2.5) 

 
1ww  ve ij1,0ji  wSw x                                                                       (2.6) 

 
 16 

Böylece, elde edilen  k1 ,, tt   bileşenleri diktir ve iw  vektörleri, Eş. (2.7)’deki 

matrisin en büyük özdeğerlerine ilişkin özvektörler olarak bulunur. Burada  iXP , 

iWSX  tarafından kapsanan uzayın üzerindeki projeksiyon matrisidir ve Eş. 

(2.8)’deki gibi gösterilir [10]. 

 
   xy,xy,x ssPI  i                                                                                                    (2.7) 

 
         




 




i

1

iiii WSWSWSWSP xxxxx                                                               (2.8) 

 
Sonuç olarak, iw  vektörleri Eş. (2.9) ve Eş. (2.10)’daki gibi yinelemeli olarak 

hesaplanır [10]. 

 
xy,sw 1                                                                                                              (2.9) 

 
  ki1,i

1

iii1i 


 xy,xxxy, sWWSWWSsw                                                    (2.10) 

 
Eş. (2.9) ve Eş. (2.10) kullanıldığında, PLS bileşenleri it ’leri hesaplamak 

gerekmemektedir. Algoritmanın her bir adımında 1iw , sadece i tane önceki 

vektörler i21 ,,, www  ’ye, xS  ve xy,s ’e dayalıdır. Ayrıca, 1w ’in hesaplanması da 

sadece xy,s ’e dayalı olduğundan, sonuç olarak W’nin hesaplanması xS  ve xy,s ’in 

değerleri ile sabitlenmiştir. En son olarak, t değişkenlerinin ilişkisiz olmasından 

dolayı Eş. (2.3)’deki q ile gösterilen regresyon katsayıları ilişkisiz olduğu için, 

özgün değişkenler için regresyon katsayıları Eş. (2.11)’deki gibi hesaplanır [10].  

 
  xy,x sWWSWWβ k

1

kkk

PLS

k
ˆ 


                                                                            (2.11) 

 
Böylece, PLSR regresyon katsayıları Helland (1988)’de verilen algoritma 

kullanılarak doğrudan hesaplanmış olur [13]. 

 
 17 

2.3. PLS Yönteminin Ġstatistiksel Olarak EsinlenilmiĢ DeğiĢikliğinin Basit Bir 
Uygulaması (SIMPLS) Algoritması 

 
PLSR regresyon katsayılarını elde etmek için De Jong [2] SIMPLS algoritmasını 

önermiştir. SIMPLS algoritması NIPALS algoritmasından farklı olarak, bileşenleri 

indirgenmiş X matrisi yerine özgün X matrisinin doğrusal birleşimleri olarak 

tanımlamayı amaçlar. PLS bileşenleri belirli diklik ve normalleştirme kısıtlarına 

uyarak, bir kovaryans ölçütünü maksimize edecek şekilde belirlenir. SIMPLS, 

klasik PLSR algoritması olarak da bilinen NIPALS ile her zaman aynı modeli 

vermemektedir [26]. Bu bölümde SIMPLS algoritması, Hubert ve Vanden Branden 

[15] makalesinde verilen biçimiyle anlatılmıştır. SIMPLS yönteminde x ve y 

değişkenlerinin, Eş. (2.12) ve Eş. (2.13)’deki gibi iki tane doğrusal model ile bağlı 

olduğu varsayılır [15]. 

 
iik,pi

~
gtPxx                                                                                                 (2.12) 

 
iik,qi

~
ftAyy                                                                                                 (2.13) 

 
Bu modellerdeki i

~
t ’ler, k boyutlu skorları ve k,pP , x yükleri matrisini gösterir. Her bir 

denklemin artıkları sırasıyla, ig  ve if  ile gösterilir. q,kA , yi’nin i

~
t  üzerinden elde 

edilen regresyon katsayılarını gösterir. PLS’ye ilişkin literatürde, genellikle q,kA  

matrisi q,kQ  olarak gösterilir ve k,qQ ’nın kolonları ise, y yükleri aq  ile gösterilir. 

Ancak Hubert ve Vanden Branden [15], aq ’yı PLS ağırlık vektörünü göstermek için 

kullandığından, burada Q yerine A gösterimini tercih etmiştir [15]. 

 
Eş. (2.12) ve Eş. (2.13), iki adımlı algoritma anlamına gelir. Veri kümesi 

merkezileştirildikten sonra, SIMPLS ilk olarak k tane LV,  
n1k,n

~
,,

~~
ttT  ’yi 

oluşturur ve ikinci olarak, bu k tane LV üzerinden bağımlı değişkenler için 

regresyon yapılır. k,n

~
T ’nın kolonları, bileşenler olarak adlandırılır. xxx  ii

~  ve 

yyy  ii
~  olmak üzere, p,n

~
X  ve q,n

~
Y  merkezileştirilmiş veri matrislerini göstersin. 


 18 

Buna göre, normalleştirilmiş PLS ağırlık vektörleri ar  ve aq , her bir k,,1a   

bileşen için Eş. (2.14)’deki kovaryansı en büyük yapan vektörler olarak tanımlanır 

[15]. 

 
  ayxrSqr
XY

qrXqY aa

p,nn,q

aap,naq,n
1n

~~
~

,
~

Cov 



                                                        (2.14) 

 
Bu ifadede 
1n

~~
q,nn,p






YX
SS xyyx , x ve y değişkenleri arasındaki kovaryans 

matrisidir. Buna göre i

~
t  skorlarının elemanları, merkezileştirilmiş aiia

~~
rxt   verisinin 

doğrusal birleşimleri olarak ya da benzer şekilde  k1k,p ,, rrR   olmak üzere, 

k,pp,nk,n

~~
RXT   şeklinde tanımlanır. Birden fazla çözüm elde etmek için, jj

~~
rXt   

birleşenleri Eş. (2.15)’de gösterildiği gibi dik olmalıdır [15]. 

 




n

1i

iaijaja ja,0
~~~

r
~~

ttttXXrj                                                                      (2.15) 

 
Eş. (2.15)’deki koşulu sağlamak için ise, Eş. (2.16)’daki gibi hesaplanan, x 

değişkenleri ve j. bileşen j

~
rX  arasındaki doğrusal ilişkiyi tanımlayan x yükü jp  

tanıtılır [15]. 

 
    jxjxjj rSrSrrXXrXXrp
1

j

1

jj

~~~~ 

                                                                    (2.16) 

 
Buradaki xS , x değişkenlerinin kovaryans matrisidir. Eş. (2.16)’daki tanım, a>j için 

0aj rp  olduğu zaman Eş. (2.15)’in gerçekleştiği anlamına gelir. Bu nedenle, PLS 

ağırlık vektörü ar , tüm önceki x yükleri  1a11a ,,   ppP  ’e dik olmalıdır. Sonuç 

olarak ar ve aq , 1aP ’e dik olan bir alt uzaya yansıtılan xyS ’nin ilk sol ve sağ tekil 

vektörleri olarak hesaplanır. Bu yansıma ise,  1a1 ,, pp  ’nin birimdik bir temeli 


 19 

 1a1 ,, vv  ’yi oluşturarak gerçekleştirilir. Daha sonra 1a

xyS , Eş. (2.17)’deki gibi 

indirgenir ve ar  ile aq , a

xyS ’nın ilk sol ve sağ tekil vektörleri olur [15]. 

 
 1a

xyaa

1a

xy

a

xy SvvSS                                                                                         (2.17) 

 
Bu yinelemeli algoritmaya 1

xyxy SS   ile başlanır ve k tane bileşen elde edilinceye 

kadar süreç tekrar edilir. Algoritmanın ikinci aşamasında, bağımlı değişkenler bu 

bileşenlerden kestirilir. Bu nedenle, ilgilenilen regresyon modeli Eş. (2.18)’deki 

gibidir [15]. 

 
iik,qi

~
ftAαy 0                                                                                               (2.18) 

 
Bu eşitlikteki if  için,   0E if  ve   fi Σf Cov ’dir. MLR yöntemi ile Eş. (2.19), Eş. 

(2.20) ve Eş. (2.21)’deki kestirimler elde edilir [15]. 

 
   

    xyx SRRSRYXRRXXR

YTTTSSA

p,k

1

k,pp,kq,nn,pp,k

1

k,pp,nn,pp,k

q,nn,k

1

k,nn,kty

1

tq,k
ˆ









                               (2.19) 

 
tAyα0

~ˆˆ
k,q
                                                                                                    (2.20) 

 
q,kk,nn,kk,qq,nn,qq,kk,qf
ˆˆˆˆ ATTAYYASASS ty

                                                  (2.21) 

 
yS  ve tS , sırasıyla y değişkenlerinin ve t bileşenlerinin kovaryans matrisini 

gösterir. Burada MLR, birden fazla x değişkeni ile yapılan ve q>1 olduğunda ise 

çok değişkenli çoklu regresyon olarak da bilinen klasik LS regresyonunu gösterir. 

0
~
t  olduğu için, 0α  sabiti y  ile kestirilir [15]. 

 
 20 

 xxRt  ip,ki

~
’yi Eş. (2.13)’de yerine koyarak Eş. (2.22)’deki asıl model için 

kestirimler, Eş. (2.23)’deki gibi elde edilir. Eş. (2.22)’deki ie  hata terimleri için 

  0E i e  ve   eicov Σe  ’dir. Burada eΣ , q boyutlu kovaryans matrisidir [15]. 

 
iip,q0i exBβy                                                                                              (2.22) 

 
q,kk,pq,p
ˆˆ ARB   ve xByβ p,q0

ˆˆ                                                                          (2.23) 

 
En son olarak, fS ’yi özgün parametreler cinsinden yazarak, eΣ ’nin bir kestirimi Eş. 

(2.24)’deki gibi elde edilir. q=1 şeklinde tek bir bağımlı değişken olduğunda, 1,pB̂  

parametre kestirimleri β̂  vektörü şeklinde yeniden yazılabilir ve eS  hata varyansı, 

2

e

2

e sσ̂  ’ye sadeleşir [15]. 

 
q,pp,qq,kk,pp,nn,pp,kk,q

q,kk,nn,kk,qq,kk,qye

ˆˆˆˆ

ˆˆˆˆ

BSBSARXXRAS

ATTASASASS

xyy

yt




                                           (2.24) 

 
Standart NIPALS algoritmasına göre, SIMPLS algoritmasının birkaç avantajı 

vardır. İlk olarak, bileşenler doğrudan özgün veri matrisi cinsinden 

hesaplandığından, R ağırlıkları alışılmış W ağırlıklarından daha basit bir yoruma 

sahiptir. İkinci olarak, özgün değişkenlerin basit doğrusal birleşimleri olarak 

bileşenleri yorumlamak daha kolay olur. Bir başka avantajı ise, bileşenler özgün 

değişkenlerin doğrusal birleşimleri olarak ifade edildiğinde, en son PLSR modelinin 

kolayca elde edilebilmesidir. SIMPLS algoritmasında, NIPALS algoritmasında 

olduğu gibi, X ve Y veri matrislerini indirgemek gerekmemektedir. Böylece, 

hesaplama daha hızlı olur ve daha az hafıza gerekir. SIMPLS tek değişkenli y için 

tamamen PLS1’e benzerken, çok değişkenli Y için PLS2’den farklılık gösterir [2]. 

 
 21 

3. SAĞLAM KISMĠ EN KÜÇÜK KARELER REGRESYONU 

 
Bu bölümde, ilk olarak Alt Bölüm 3.1’de sağlam bir kestiricinin sahip olması 

gereken özellikler ve önemli sağlamlık ölçütlerinden söz edilecektir. Daha sonra, 

Alt Bölüm 3.2’de sağlam PLSR yöntemlerinin elde ediliş nedeni ve hangi 

yöntemler ile hangi klasik PLSR algoritmalarından elde edildikleri hakkında kısaca 

bilgi verilecektir. Alt Bölüm 3.3 ve daha sonraki alt bölümlerde ise, literatürdeki 

sağlam PLSR yöntemleri daha detaylı bir biçimde tanıtılacaktır. 

 
3.1. Sağlam Kestiricilerin Sahip Olması Gereken Özellikler ve Önemli 
Sağlamlık Ölçütleri 

 
Sağlam bir kestirici için istenen önemli bir özellik, ‘dirençlilik’ olarak ifade edilebilir. 

Eğer bir kestirici az sayıdaki büyük hatadan ya da herhangi bir miktardaki 

yuvarlama-gruplama hatalarından sınırlı miktarda etkileniyor ise, o kestirici 

dirençlidir denir [18]. Sağlam kestiriciler, aykırı değerlerin büyük oranına karşı ya 

da varsayımlardan sapmalara karşı dirençli olmalıdır. Farklı koşullar için farklı 

sağlam yöntemleri karşılaştırabilmek için, bu yöntemlere ilişkin sağlamlık ölçütleri 

gereklidir [23]. Bu alt bölümde, bir kestiricinin sağlamlık özelliklerini 

değerlendirmek için literatürde en çok kullanılan iki ölçüt tanıtılacaktır: kırılma 

noktası (breakdown point/BDP) ve etki fonksiyonu (influence function/IF). 

 
3.1.1. Kırılma Noktası 

 
Bir kestirici için BDP, gözlemlerin ne kadarı bozulduğunda kestiricinin 

kırılmayacağını, yani kestirimlerde sağlam sonuçlar elde edeceğini gösteren bir 

ölçüttür. Bu ölçüt, gözlem sayısına dayalı olarak (1/n) ya da n  için 

sınırlandırılmış bir değer olarak (% 0) verilebilir. Eğer bir kestiricinin BDP’si sıfırdan 

büyük ise, bu kestirici dirençlidir denir [18]. Bir kestiricinin BDP değerinin sıfır 

olması, tek bir aykırı değerin varlığının bile modeli değiştirebileceği anlamına gelir. 

Örneğin, LS kestiricisinin BDP değeri sıfırdır. Bir kestiriciye ilişkin en yüksek BDP 

değeri, % 50 olabilir. Çünkü verideki aykırı değerlerin yüzdesi, % 50’den fazla olur 


 22 

ise verinin, iyi ve kötü kısımlarını ayırmak imkansız hale gelir [36]. BDP değeri % 

50 olan ve yüksek dayanıklılık gösteren kestiriciler, yüksek kırılma noktasına (high 

breakdown point/HBDP) sahip kestiriciler olarak adlandırılır [23]. 

 
   yXZ ,TT   regresyon parametre kestiricisini göstermek üzere, bu kestiricinin 

BDP’si sonlu örneklem için Eş. (3.1)’deki gibi ifade edilebilir [39]. 

 
   








 ZZT Tsup;
n

m
min,n                                                                         (3.1) 

 
Burada  yXZ  , , ‘m’ aykırı gözlem sayısını göstermek üzere,  yXZ ,  

verisinde m tane gözlemin keyfi olarak başka gözlemlerle değiştirilmesi ile elde 

edilir [39]. Eş. (3.1)’e göre BDP, kestiricinin parametre değerinden uzaklaşmasına 

neden olacak aykırı gözlem sayısının toplam gözlem sayısına oranının 

supremumu (sup) olarak tanımlanabilir. Staudte ve Sheather (1990), kestiricilerin 

BDP’sinin, kestiricideki değişim için bir sınır olarak düşünüldüğünde, bu sınırın 

aşılmasına neden olan en yüksek aykırı gözlem oranının BDP’yi vereceğini ifade 

etmiştir [7]. 

 
3.1.2. Etki Fonksiyonu 

 
1986 yılında Hampel tarafından etki fonksiyonu (influence function/IF) tanıtılmıştır. 

IF, veride bulunan ölçülemeyecek kadar küçük bir bozulmanın, bir kestirici 

üzerindeki etkisini ölçmektedir. IF ile farklı sağlam yöntemlerin tek bir aykırı değer 

altında, daha detaylı niteliksel bir karşılaştırılması yapılır. Eğer tek bir aykırı değer 

bile kestiricinin kırılmasına neden olur ise, IF sınırlandırılmış olur. IF’yi 

değerlendirmek için, veriye ilişkin dağılımsal varsayımlar yapılmalıdır. Bu durum 

ise analizi genellikle daha karmaşık bir hale getirir ve özellikle n<p için, deneysel 

karşılaştırmalar gerektirebilir. Bir G dağılımı için bir T kestiricisinin IF’si Eş. 

(3.2)’deki gibi tanımlanır [7, 23]. 

 
 23 

 
    








GTG1T
limG,T,IF

0

Zz                                                                  (3.2) 

 
Burada , aykırı değerler tarafından verideki bozulmuş kısımdır ve Z, tüm ağırlığı 

z’ye koyan bir olasılık ölçüsüdür. z, p boyutlu uzayda herhangi bir nokta olabilir. Bir 

veri kümesindeki aykırı değerin kestirici üzerindeki etkisi, aykırı değere ilişkin IF’yi 

değerlendirerek ölçülebilir. Sağlam olmayan kestiriciler için aykırı değerde IF’nin 

değerlendirilmesi, normal bir veride IF’yi değerlendirme ile karşılaştırıldığında farklı 

sonuçlar verecektir. Ancak, sağlam bir kestirici için etki kısıtlı olacaktır [7]. Tek bir 

aykırı değere karşı kestirimin sağlamlığı IF tarafından, verilerde daha çok 

bozulmaya karşı kestirimin sağlamlığı ise, kestiricinin sağlıklı olmasını engelleyen 

aykırı değerlerin en küçük oranı olan BDP tarafından ölçülmektedir [36]. 

 
Sağlam kestiriciler tasarlanırken sadece sağlamlık özelliklerini araştırmak değil, 

aynı zamanda etkinliklerini araştırmak da önemlidir [18]. Bu nedenle, bir sonraki alt 

bölümde istatistiksel etkinlik hakkında kısaca bilgi verilecektir.  

 
3.1.3. Ġstatistiksel Etkinlik 

 
Sağlam bir kestirici için istenen diğer önemli bir özellik ‘istatistiksel etkinlik’ olarak 

ifade edilebilir. Bir kestiricinin varyansı her bir dağılım için minimuma yakın bir 

değer alıyor ise, bu kestirici ‘yüksek etkinliğe’ sahiptir denir. Yanlı kestiriciler için, 

varyans yerine Hata Kareler Ortalamasına (Mean Square Error/MSE) bakılır. 

Yüksek etkinlik özelliği, bir kestiricinin dağılımın belli olmadığı durumlarda tekrarlı 

olarak alınan örneklemler için de iyi sonuçlar verdiğini garanti altına alır. 

Örneklemin bozulduğu durumlarda, kestirimlerin çok az miktarda değişim 

göstermesi önemli bir durumdur [1, 7, 18]. 

 
 24 

3.2. Sağlam Kısmi En Küçük Kareler Regresyon Yöntemleri 

 
Buraya kadar olan kısımda, sağlam bir kestiricinin sahip olması gereken özellikler 

hakkında kısaca bilgi verilmiştir. Bu bilgiler verildikten sonra bu alt bölümde, 

sağlam PLSR yöntemlerinin ortaya çıkış nedeni ve hangi klasik PLSR 

algoritmalarından faydalanarak hangi sağlam regresyon ya da sağlam kovaryans 

kestirim yöntemlerini kullanarak bulundukları hakkında kısaca bilgi verilecektir.  

 
Klasik PLSR, çok değişkenli veri analizinde kullanılan iyi bir yöntemdir. PLSR 

yöntemi normal olmama, gözlemlerin bağımsız olmaması ve çoklubağlantı gibi 

bozulumlara ve gözlemlere göre çok fazla değişken olması durumuna karşı 

sağlam bir yöntemdir. Ölçümlerin dağılımı ne olursa olsun, PLSR kullanılabilir. Bu 

nedenle, PLSR özellikle normallik varsayımlarının sağlanmadığı kimyasal veriler 

için uygun bir yöntemdir. Ancak PLSR yönteminde yüklerin, bileşenlerin ve 

regresyon katsayılarının hesaplanmasında klasik LS regresyon adımları 

kullandığından, klasik PLS yöntemi de LS yöntemi gibi veri kümesindeki aykırı 

değerlerin varlığından etkilenir. Bu nedenle, literatürde sağlam PLSR yöntemleri 

önerilmiştir. Sağlam PLSR analizi yapmak için literatürde iki ana yöntem vardır: 

Birincisi, PLSR modelini elde etmek için kullanılan algoritmalarda yer alan 

regresyon adımlarında LS yerine sağlam regresyon yöntemlerini kullanarak aykırı 

değerlerin ağırlığını azaltmak ve ikincisi, sağlam bir regresyon yöntemi ile 

kovaryans matrisini sağlam kestirmektir. İlk yöntem ile oluşturulan sağlam 

regresyon yöntemleri, yarı-sağlam (semi-robust) olarak nitelendirilir. Çünkü bu 

yöntemler, ya sağlam olmayan başlangıç ağırlıklarına sahiptir ya da ağırlıklar 

kaldıraç gözlemlerine karşı dirençli değildir [11, 21]. 

 
Literatürde PLSR modelini elde etmek için en çok kullanılan algoritmalar olan 

NIPALS ve SIMPLS algoritmaları, veri kümesindeki aykırı değerlere karşı çok 

hassastır. NIPALS algoritması tek bir bağımlı değişken için kullanıldığında ‘PLS1’ 

ve birden çok bağımlı değişken için kullanıldığında ise ‘PLS2’ adını alır. PLS1, 

PLS2 ve SIMPLS algoritmalarının bazı sağlamlaştırılmış biçimleri önerilmiştir. Bir 

sonraki alt bölümde ilk olarak, PLS1 ve PLS2 algoritmalarının çeşitli adımlarında 


 25 

yapılan değişiklikler ile elde edilen sağlam PLSR yöntemleri hakkında bilgi 

verilecektir.  

 
3.3. PLS1 ve PLS2 Algoritmalarından Elde Edilen Sağlam PLSR Yöntemleri 

 
İlk olarak, yeniden ağırlıklandırma yöntemlerine dayalı olarak sağlam PLSR 

kestirimleri veren sağlam PLS1 ve PLS2 algoritmaları hakkında bilgi vermeden 

önce, kısaca Yinelemeli Olarak Yeniden Ağırlıklandırılmış En Küçük Kareler 

(Iteratively Reweighted Least Squares/IRLS) yöntemi hakkında bilgi vermek 

gerekir. 

 
3.3.1. Yinelemeli Olarak Yeniden AğırlıklandırılmıĢ En Küçük Kareler (IRLS) 
Yöntemi 

 
y, Çoklu Doğrusal Regresyon (Multiple Linear Regression/MLR) yöntemini 

kullanarak X matrisinden kestirilsin. Buna göre, IRLS yöntemi aşağıdaki adımlar ile 

tanımlanır [9].  

 
1.   yXXXβ 
1ˆ  regresyon katsayısının başlangıç değeri hesaplanır. 

2. Regresyonun βXyr ˆ , artıkları hesaplanır. 

3. İlgili artıklara göre, her bir gözlem için ağırlıklar hesaplanır. Küçük artıklara 

sahip gözlemler, büyük ağırlıklara (bire yakın) ve büyük artıklara sahip 

gözlemler, küçük ağırlıklara (sıfıra yakın) sahiptir. Ağırlık vektöründen, 

köşegen bir  matrisi oluşturulur.  

4.  Ağırlıklar kullanılarak yeni bir regresyon katsayısı hesaplanır: 

  ΦyΦXΦXΦXβ 
1ˆ   

5. Bir yakınsama kriteri seçilir ve kriter sağlanana kadar, 2 ile 4 arasındaki 

adımlar tekrarlanır. 

 
 26 

IRLS yönteminden kısaca bahsettikten sonra, bir sonraki iki alt bölümde bu 

yöntemi PLS1 ve PLS2 algoritmalarında kullanarak elde edilen sağlam PLSR 

yöntemleri tanıtılacaktır. 

 
3.3.2. Ġç Yinelemeli Yeniden Ağırlıklandırma PLSR Algoritmaları 

 
Tüm süreci tamamen sağlam yapacak şekilde, PLS1 algoritmasındaki tüm 

adımları sağlam süreçler ile yer değiştirmek mümkündür. Ancak, adımların hepsini 

sağlam yapmak yerine, bir ya da iki seçilmiş adım sağlamları ile yer 

değiştirildiğinde, algoritma aykırı değerler ile baş etmek için başarılı olabilir. Bu tür 

yarı sağlam süreçler, sağlam yöntemler PLS algoritmasının içerisine 

uygulandığından, ‘İç Yinelemeli Yeniden Ağırlıklandırma (Internal Iterative 

Reweighting: PLSIR)’ algoritmaları olarak da bilinir [9, 11]. Wakeling ve Macfie [37] 

ve Griep vd. [11] tarafından önerilen sağlam PLSR algoritmaları, PLSIR 

algoritmalarıdır. 

 
Wakeling ve Macfie [37], PLS2 algoritmasındaki X değişkenlerine ilişkin w 

ağırlıklarının ve Y değişkenlerine ilişkin c ağırlıklarının hesaplandığı tek değişkenli 

regresyon adımlarını sağlamlaştırılmış biçimleri ile değiştirerek, ilk sağlam 

algoritmayı geliştirmiştir. Bu amaçla, IRLS algoritmasından faydalanmıştır. Bu 

sağlam algoritma, Y matrisinde rasgele aykırı değerler olduğunda etkin 

bulunmuştur [37].  

 
Griep vd. [11] ise, PLS1 algoritmasında X değişkenine ilişkin w ağırlıklarının 

hesaplandığı ilk adımında klasik LS yöntemi yerine En Küçük Ortanca Kareler 

(Least Median Squares/LMS), Siegel’in Tekrarlı ortanca (Repeated median/RM) 

ve IRLS gibi sağlam yöntemler kullanmıştır. Bu çalışmaya göre, daha küçük 

boyutlarda IRLS, aykırı değerler kaç tane ve ne büyüklükte olursa olsun etkin 

sonuçlar verdiğinden en iyi yöntemdir. Gerçekten de PLS1 algoritmasının ilk 

adımı, sadece bir regresyon değildir. Ancak, her bir ix  değişkenin y değişkeni 

üzerine basit regresyonlarından oluşmuştur. Bu nedenle bu ilk adımda IRLS’nin 

uygulanması, her bir basit regresyona IRLS’nin uygulanması anlamına gelir. 


 27 

Ancak, en büyük boyutlarda IRLS etkinliğini kaybeder. Bu nedenle, Griep vd. [11] 

çalışmasına ilişkin bir eleştiri, veri      yxyxyx ,,,,,, p21   düzlemlerine yansıtılıp 

aykırı değerler aranırken, verinin çok değişkenli doğasının unutulmasıdır. 

Gerçekten de büyük boyutlarda, bu düzlemlere yansımalar yapıldığında, teşhis 

edilemeyecek aykırı değerler var olabilir. Ayrıca Griep vd. [11], tek bir veri kümesi 

için elde ettikleri sonuçların, sağlam PLSR’nin uygulanabileceği tüm veri 

kümelerine genellenemeyeceğini ve daha çok veri kümesi için, sağlam PLS1’in 

hem modelleme hem de kestirim için başarısının değerlendirilmesi gerektiğini 

belirtmiştir [9, 11]. 

 
3.3.3. DıĢ Yeniden Ağırlıklandırma PLSR Algoritması  

 
Cummins ve Andrews [1], yinelemeli olarak yeniden ağırlıklandırılmış regresyonu, 

PLS1 algoritmasına genelleştirmeyi önermiştir. Mantık, IRLS’deki ile aynıdır. 

Ancak, bu kez PLSR’nin artıkları kullanılır. Klasik bir PLSR uyguladıktan sonra, 

ağırlıklar hesaplanır ve bir sonraki PLSR algoritması için kullanılır. Bu nedenle bu 

algoritma, bir ‘Dış Yeniden Ağırlıklandırma (External Iterative Reweighting: 

IRPLS)’ algoritması olarak da bilinir. Adımlar, aşağıdaki gibi olur [1, 9]. 

 
0. Bir ağırlık fonksiyonu seçilir. 

1. Klasik bir PLSR analizi yapılır. 

2. 1. adımdaki regresyon artıkları, ağırlık fonksiyonuna geçirilir. 

3. Bu elde edilen ağırlıklar ile ağırlıklandırılmış PLSR yapılır. 

4. 3. adımdan elde edilen artıklar, seçilen ağırlık fonksiyonuna koyulur. Ağırlık 

fonksiyonuna klasik ağırlıkları koymaktan ise kestirilmiş artıkları koyarak, 

daha iyi sonuçların elde edildiği bulunmuştur. 

5. Eğer yakınsaklık kriterine ulaşılır ise durdurulur, aksi takdirde 3. adıma 

gidilir. 

 
 28 

Uygulamada PLSR için ideal bileşen sayısı bilinmez ve tahmin edilmesi gerekir. 

Bu amaçla, genelde birini-dışarıda-bırakma çapraz geçerlik (leave-one-out cross-

validation/LOOCV) yöntemi kullanılır. iy , y vektörünün i. elemanı ve  k,iŷ , i. 

gözlem çıkarıldıktan sonra k bileşenli PLSR için y’nin kestirimi olsun. Buna göre, 

kestirim hata kareler toplamı (prediction error sum of squares/PRESS) Eş. 

(3.3)’deki gibi hesaplanır [9]. 

 
   






n

1i

2

ik,ii

k
n

ŷy
PRESS                                                                                  (3.3) 

 
PRESS istatistiği, modelin geçerliğinin ve kestirimdeki başarısının bir ölçüsü olarak 

kullanılır ve en küçük PRESS değerini veren bileşen sayısı, modelde kullanılmak 

istenir. PLSR modelinde kalacak ideal bileşen sayısını seçmek için kullanılan diğer 

bir kriter, çapraz geçerlik 2R ’yi (cross-validated 2R / 2

CVR ) en büyük yapmaktır. 2

CVR  

değeri, Eş. (3.4)’deki gibi hesaplanır [1, 9]. 

 
y

2

CV
KT

PRESS
1R                                                                                                  (3.4) 

 
Yukarıdaki algoritmayı bir durdurma kuralı, şu şekildedir: ‘Eğer mevcut 

yinelemedeki 2

CVR  değeri, bir önceki yinelemedeki 2

CVR  değeri ile 

karşılaştırıldığında % 5’den daha az değişmiş ise dur’. Böylece yakınsaklığın çok 

hızlı bir şekilde gerçekleştiği bulunmuştur. 3. adımdaki ağırlıklandırılmış PLSR ilk 

olarak, ideal bileşen sayısını seçmek için CV ile yapılmıştır. Daha sonra, bu adım 

için en son bir çalıştırma, ideal bileşen sayısını kullanarak yapılmıştır. Ancak, bu 

yönteme ilişkin problem, her bir gözlem için artıkların güçlü bir şekilde ideal bileşen 

sayısı k’ya dayalı olmasıdır. Bu nedenle, k’yı seçmek için farklı bir kriter 

kullanılması, her bir gözlem için farklı bir ağırlığa neden olacağından yakınsama 

problemleri olabilir. Ayrıca bu algoritma, sadece bir tane bağımlı değişken olan 

model için geçerlidir ve kaldıraç gözlemlerine karşı dirençli değildir [1, 9, 15]. 

 
 29 

İç yinelemeli ve dış yeniden ağırlıklandırma sağlam PLSR algoritmaları hakkında 

bilgi verdikten sonra, bir sonraki alt bölümde En Küçük Mutlak Sapmalar (Least 

Absolute Deviations/LAD) regresyon yöntemini PLS1 algoritmasında kullanarak 

elde edilen ve ‘PLAD’ şeklinde isimlendirilen sağlam PLSR yöntemi tanıtılacaktır. 

 
3.3.4. Kısmi En Küçük Mutlak Sapmalar (PLAD) Yöntemi 

 
ir , i. gözlem için artık değerini göstermek üzere LAD, 


n

1i

iˆ
rmin

β
 şeklinde artıkların 

mutlak değerlerinin toplamını en küçük yapar. Dodge vd. [4], PLS1 

algoritmasındaki bileşenlerin diklik özelliklerini koruyarak, bağımlı y değişkenini 

elde edilen bileşenlerden LAD regresyon yöntemini kullanarak kestiren, PLAD 

regresyonu algoritmasını önermiştir. PLS1 algoritmasında kp  boyutlu ağırlık ya 

da yükler matrisi olarak adlandırılan w,   p,,1j,,Cov kjkjk  yxw  şeklinde 

belirlenir. PLAD algoritmasında ise w, Eş. (3.5)’deki kovaryans kestirimini 

kullanılarak elde edilir [4]. 

 
      yxyxyxw  jjjMAD MADMAD
4

1
,cov                                                (3.5) 

 
Buradaki MAD kısaltması,     yyy catanorcatanorMAD   şeklinde 

hesaplanan, ortanca mutlak sapmayı (median absolute deviation/MAD) gösterir. 

Böylece PLAD bileşenleri, PLS1’in aksine ortalama yerine ortancayı ve varyansın 

MAD kestiricisini kullanarak elde edilmiştir. Ortanca kullanıldığı için, PLAD 

bileşenlerinin aykırı değerlere karşı sağlam olması beklenir [4]. 

 
PLAD algoritmasındaki temel özellik, elde edilen bileşenleri kullanarak y’yi 

kestirirken LAD kestirimlerinin kullanılmasıdır. Dodge vd. [4], gözlem sayısı 

bağımsız değişken sayısından küçük olan (n<p) ve bağımsız değişkenleri arasında 

çoklubağlantı olan iki veri kümesi üzerinde, PLAD regresyonunu PLS1 ile 

karşılaştırmıştır. Gerçek veri kümeleri üzerindeki uygulamalar sonucunda, LAD 

kestirimlerinin aykırı değerler içeren küçük veri kümelerinde sıklık ile görülen uzun 


 30 

kuyruklu dağılımlara ya da simetrik olmayan hata dağılımlarına karşı tam tamına 

iyi uyduğu görülmüştür. Ayrıca, PLAD regresyon algoritmasının veride aykırı 

değerler olduğunda, modelde kalacak ideal bileşen sayısını da doğru bir şekilde 

seçtiği görülmüştür. PLAD regresyon algoritmasının, yüzlerce bağımsız değişkenli 

ve değişken sayısına kıyasla orta derecede gözlem sayısına sahip veri kümelerine 

etkin bir şekilde uygulanabildiği belirtilmiştir [4].  

 
Alt Bölüm 3.4’de ise, Alt Bölüm 2.2.2’de bahsedilen ve klasik PLS1 algoritmasının 

seçenek tanımı olan algoritmadaki kovaryans matrisini, sağlam bir kovaryans 

kestiricisi ile kestirerek önerilen literatürdeki sağlam PLSR algoritmaları 

incelenecektir. 

 
3.4. Klasik PLS1 Algoritmasının Seçenek Tanımındaki Kovaryans Matrisini 
Sağlam Bir Yöntem ile Kestirerek Önerilen Sağlam PLSR Yöntemleri 

 
Daha önce Alt Bölüm 2.2.2’de, PLS1 algoritmasındaki bileşenleri hesaplamadan 

sadece doğrudan Wk ağırlık matrisini hesaplayarak PLSR kestirimlerinin elde 

edilebildiği gösterilmiştir. Böylece algoritmanın uygulanışı iki adım süreci gibi 

düşünülür: İlk adımda, yeni dik bağımsız it  değişkenlerini tanımlayan iw  

ağırlıkları, gözlemlerin kovaryans matrisini kullanarak Eş. (2.9) ve Eş. (2.10) ile 

hesaplanır. İkinci adımda, iq  regresyon katsayıları, bağımlı y ve bağımsız it  

arasındaki basit bir regresyondan hesaplanır. Böylece, bileşenleri hesaplamadan 

sadece doğrudan Wk ağırlık matrisi hesaplanarak PLSR kestirimleri elde edilir [10]. 

Ancak, Eş. (2.11)’de gösterildiği üzere bu iki adım sadece gözlemlerin kovaryans 

matrisine dayalı olduğundan ve literatürde Eş. (2.9), Eş. (2.10) ve Eş. (2.11)’in üçü 

birlikte PLS1 algoritmasının seçenek bir tanımı olarak kullanıldığından, kovaryans 

matrisi sağlamlaştırıldığında da sürecin sağlamlaştırılacağı düşünülür. Bu 

yaklaşımdan yola çıkılarak, bir tane bağımlı değişken olduğu model için sadece 

Eş. (2.1)’deki kovaryans matrisini sağlam bir yöntem ile kestirerek ve daha sonra, 

Eş. (2.9) ve Eş. (2.10)’u kullanarak sağlam ağırlıklar elde edip, bu ağırlıkları Eş. 

(2.11)’de kullanıp sağlam PLSR regresyon katsayılarının elde edildiği sağlam 

PLSR yöntemleri önerilmiştir. Bu yöntemlerden Gil ve Romera [9] tarafından 


 31 

önerilen PLS-SD, Kondylis ve Hadi [19] tarafından önerilen BACON-PLSR 

(BPLSR) ve González vd. [10] tarafından önerilen PLS-KurSD hakkında, bir 

sonraki alt bölümlerde detaylı olarak bilgi verilecektir. . 

 
3.4.1. Stahel-Donoho Kestiricisine Dayalı Sağlam PLSR Yöntemi (PLS-SD) 

 
Gil ve Romera [9], x değişkenlerinin örneklem kovaryans matrisi ile x ve y 

değişkenleri arasındaki kovaryans matrisini Stahel-Donoho Kestiricisi (Stahel-

Donoho Estimator/SDE) ile sağlamlaştırarak, sağlam bir PLS1 yöntemi elde 

etmiştir. Bu yönteme ilişkin tüm PLSR sürecinin sağlamlık özellikleri 

bilinmemektedir. Sadece, doğal olarak IF’sinin SDE’nin IF’sine benzer olması 

beklenir. Bu yöntemin istatistiksel etkinliği ve BDP’si araştırılmamıştır. Yöntemin 

temel dezavantajı, sadece n>p olan veriye uyması ve açık bir algoritmanın elde 

edilememesidir [7, 9, 15]. 

 
Çok değişkenli konum ve kovaryans için geliştirilen Stahel-Donoho kestiricisinin 

adı, Stahel (1981) ve Donoho (1982)’nun bağımsız çalışmalarından ortaya 

çıkmıştır. Yöntemin temel fikri, çok değişkenli konum ve kovaryansın klasik 

kestiriminde aykırı gözlemlerin ağırlığını azaltmaktan ortaya çıkmıştır. Çok 

değişkenli aykırı değerler, çok değişkenli uzayda saklanabilir. Çok değişkenli aykırı 

değerleri bulmak, bir anlamda çok değişkenli konum ve kovaryans kestirimi ile 

ilişkilidir. Çünkü güvenilir kestirimler elde edildikten sonra, Mahalanobis uzaklıkları 

hesaplanabilir ve büyük Mahalanobis uzaklıklarına sahip gözlemler potansiyel çok 

değişkenli aykırı değerler olarak düşünülebilir. SDE, çok değişkenli aykırı değerleri 

çok basit bir yöntem ile belirler. Bu yöntemde her bir gözlem bir boyutlu uzaya 

yansıtılır ve aykırılığın bir ölçüsü hesaplanır. Çok değişkenli uzaydan bir boyutlu 

uzaya sonsuz sayıda fazla mümkün yansıma yönü olduğu için, her bir gözlem için 

aykırılığın sonsuz sayıda ölçüsü elde edilir. Bu nedenle amaç, mümkün tüm 

yansıma yönlerinden supremumu belirlemektir [7].  

 
 32 

Stahel-Donoho yöntemi ile elde edilen konum ve kovaryans kestiricileri, 

  n,,1i,,y iii 





xz  için sırasıyla Eş. (3.6) ve Eş. (3.7)’deki gibi tanımlanır [20]. 

 
 








n

1i

i

n

1i

i

SDE

d

d

ˆ
iz

Zμ                                                                                                  (3.6) 

 
 
     













n

1i

i

n

1i

SDEiSDEii

SDE

d

ˆˆd
ˆ

ZμzZμz

ZΣ                                                           (3.7) 

 
 Bu eşitliklerdeki n1 d,,d   parametreleri, verideki aykırı değerlerin ağırlığını 

azaltmak için hesaplanan ağırlıklardır.  .d  ağırlık fonksiyonunu göstermek üzere, 

ağırlıklar   Zz ,rdd ii   şeklinde hesaplanır. Buradaki  .r ise, Eş. (3.8)’deki gibi 

elde edilir [20]. 

 
 
 

  
















 Zδ

Zδzδ
Zz

i

1
i sup,r                                                                                (3.8) 

 
Eş. (3.8)’deki , gözlemlerin üzerine yansıtıldığı p+q boyutlu bir birim (unity) 

vektördür. Buradaki q, bağımlı değişken sayısını gösterir. ’nin doğru seçimi aykırı 

değerleri ortaya çıkarmadaki başarıyı belirler. Ancak, ’nin belirlenmesi zordur ve 

hesaplanmasını kolaylaştırmak literatürdeki çalışmalarda tartışılmıştır. izδ , 

kordinat sisteminin merkezi ve iz ’nin ’nin üzerine yansıması arasındaki uzaklıktır. 

 zδ  ve  zδ  sırasıyla, Z’deki gözlemlerin ’nin üzerine yansımalarının ortanca 

ve ortanca mutlak sapmalarıdır.  Zz ,r i ’nin mümkün en büyük değeri, o gözlem 

için ‘aykırılık’ olarak adlandırılır [20].  

 
 33 

Stahel-Donoho kestiricisinin dezavantajı, yakınsak algoritmaların önerilmesine 

karşın hesaplanmasının uzun süre almasıdır. Bu nedenle de, her zaman tam 

biçimi ile hesaplanamamaktadır. Genel olarak, alt örnekleme süreçleri ile birlikte 

yakınsama yöntemleri kullanılır. Gil ve Romera [9], aşağıdaki biçime sahip 

seçenek bir alt örnekleme yöntemi kullanmıştır [9, 20]. 

 
Adım 1: Rasgele olarak her biri p+q+2 tane gözlem içeren, N tane alt örneklem 

seçilir. 

 
Adım 2: Her bir alt örneklemden, en büyük Mahalanobis uzaklığına sahip gözlem 

çıkarılır. 

 
Adım 3: Bir alt kümede geriye kalan p+q+1 gözlemden, p+q tane gözlemin p+q+1 

farklı kombinasyonu vardır. Her bir p+q gözlemli alt küme tarafından karışlanan 

hiper düzleme dik olan, bir  vektörü elde edilebilir. Bu nedenle, her bir alt küme 

için p+q+1 tane  vektörü oluşturulur.  

 
Adım 4: Eş. (3.8)’i kullanarak her bir gözleme ilişkin ‘aykırılık’ değerini hesaplamak 

için, her bir gözleme her bir  vektörü uygulanır. 

 
Gil ve Romera [9], Eş. (3.7)’deki sağlam kovaryans kestirimini PLS1 algoritmasının 

Alt Bölüm 2.2.2’deki tanımındaki Eş. (2.9), Eş. (2.10) ve Eş. (2.11) eşitliklerinde 

kullanarak, PLS-SD olarak isimlendirilen sağlam PLSR algoritmasını önermiştir. Alt 

örnekleme yönteminden de anlaşılacağı üzere, yöntemin temel dezavantajı 

sadece gözlem sayısının değişken sayısından fazla olduğu veri kümelerine 

uygulanabilmesidir [7].  

 
 34 

3.4.2. BACON Algoritmasına Dayalı Sağlam Kısmi En Küçük Kareler 
Regresyon Yöntemi 

 
Billor vd. (2000) tarafından önerilen ‘Parçalı Uyarlanabilir Hesaplama Yönünden 

Etkin Aykırı Gözlem Belirleyicisi (Blocked Adaptive Computationally Efficient 

Outlier Nominators/BACON)’ algoritması, hem çok değişkenli veriye hem de 

regresyon problemlerine uygulanabilir. BACON algoritması çok değişkenli veri için 

uygulandığında, aykırı değerleri belirler ve X bağımsız değişkenlerinin varyans-

kovaryans matrisinin sağlam kestirimlerini verir. Algoritma regresyon için 

kullanıldığında ise, çok değişkenli durumda elde edilen sağlam kestirimleri kullanır 

ve bağımlı bir y değişkeni için β̂  regresyon parametre vektörünü sağlam bir 

şekilde kestirir. BACON algoritması, ‘m’ gözlemden oluşan ve büyük olasılıkla 

aykırı değer içermeyen, bir temel başlangıç alt kümesi oluşturarak başlar. 

Buradaki m gözlem sayısı, verinin analizini yapan kişi tarafından belirlenir. Daha 

sonra başlangıç temel alt kümesine uyan gözlemler, bu alt kümeye eklenir. Eğer 

tüm gözlemler temel alt kümeye eklenirse, veride aykırı değerlerin olmadığı 

kesinleşir. Ancak, temel altkümeye uymayan gözlemler çok değişkenli aykırı 

değerler olarak adlandırılır [19]. 

 
Kondylis ve Hadi [19], Billor vd. (2000) tarafından önerilen BACON algoritmasını 

PLS1 algoritmasının Alt Bölüm 2.2.2’deki tanımındaki Eş. (2.9), Eş. (2.10) ve Eş. 

(2.11) eşitliklerinde kullanarak tek bir bağımlı değişkenin olduğu model için PLSR 

yöntemini sağlamlaştırmıştır. Kondylis ve Hadi [19] tarafından önerilen algoritma, 

‘BACON-PLSR (BPLSR)’ olarak isimlendirilmiştir. Burada ‘B’ harfi, BACON 

varyans-kovaryans matrisinin kullanıldığını vurgular. Kondylis ve Hadi [19], iki 

nedenle BACON kestirimlerini kullanmıştır: Birincisi, BACON’un hesaplama 

açısından çok etkin olması ve ikincisi, aykırı değerleri belirlemede aşırı derecede 

etkin olmasıdır. Örneğin, BACON algoritması 3-5 yinelemede yakınsar ve aykırı 

değerlerden kaynaklanan % 20’ye kadar olan bozulmayı hoş görür. Hem gerçek 

veri kümesi üzerindeki uygulama hem de benzetim çalışmasından elde edilen 

sonuçlar, BPLSR algoritmasının aykırı değerlere karşı dirençli olduğunu gösterir. 

Regresyon kestirimleri, en azından aykırı değerlerin varlığı ile makul düzeylerde 

bozulmuş veri kümelerinde, aykırı değerlerden fazla etkilenmemektedir. Sadece 


 35 

aykırı değerler tarafından yüksek bozulma düzeylerinde ve veri kümelerinin 

göreceli olarak yüksek boyutlularında BPLSR’nin kestirim başarısı düşer [19]. 

 
3.4.3. Yansımaların Basıklık Katsayısına ve Stahel-Donoho Kestiricisine 
Dayalı Sağlam PLSR Yöntemi (PLS-KurSD) 

 
Pena ve Prieto [25], klasik SDE yönteminden daha etkin bir şekilde elde edilen 

‘rasgele yönler’ ile yansıtılan verinin basıklık katsayısını en büyük ve en küçük 

yaparak elde edilen ‘özel yönlerin’ bir birleşimini kullanarak, çok değişkenli veri 

kümesinde aykırı değerleri araştıran bir yöntem önermiştir. Bu ‘rasgele yönler’ ve 

‘özel yönler’ olmak üzere iki tür yönlerin birleşimi, faydalı teorik özellikleri olan ve 

iyi bir performansı olan bir sürecin elde edilmesini sağlamıştır. Böylece bu yeni 

süreç, SDE’nin iyi teorik özelliklerine sahipken, aynı zamanda basıklık sürecinin 

büyük kaldıraç kümelenmiş aykırı değerleri (high leverage concentrated outliers) 

bulmak için sahip olduğu iyi özelliklere de sahip olur [10]. Pena ve Prieto [25], bu 

yöntemi çok değişkenli aykırı değerleri ortaya çıkarmak için önermiştir. González 

vd. [10] ise bu yöntemi, PLS-SD algoritmasına benzer biçimde Alt Bölüm 2.2.2’de 

verilen PLS1 algoritmasında kullanılan zS  kovaryans matrisini sağlam bir biçimde 

kestirmek amacıyla kullanmış ve böylece, sağlam PLSR kestirimleri elde etmiştir. 

González vd. [10], bu sağlam PLSR algoritmasını ‘PLS-KurSD’ olarak 

isimlendirmiştir. 

 
González vd. [10] tarafından önerilen algoritma, çok değişkenli aykırı değerlerden 

temizlenmiş bir kovaryans matrisini elde etmek için tasarlanmıştır ve aşağıda 

anlatılan üç adımı kullanarak işler. Genellemeyi kaybetmeden, özgün verinin sıfır 

ortalamaya ve zS  kovaryansına sahip olduğu varsayılır. Gözlemler, Eş. (3.9)’u 

kullanarak dönüştürülür [10]. 

 
n,,1i,~
i

2/1

zi   zSz                                                                                            (3.9) 

 
Algoritma, üç adıma sahiptir. İlk adımda, yansımaların (projections) basıklık 

katsayısını en büyük ve en küçük yaparak iki özel yön üretilir ve bu yönlerde, 


 36 

aykırı değerler için tek değişkenli araştırma yapılır. İkinci adımda, Pena ve Prieto 

[25] çalışmasında bahsedilen tabakalı örneklemeye ilişkin süreç takip edilerek 

rasgele yönler üretilir ve yeniden aykırı değerler tespit edilir. Üçüncü adımda, tüm 

şüpheli gözlemler örneklemden geçici olarak silinir ve geriye kalan verinin 

ortalaması ile kovaryans matrisi hesaplanır. Daha sonra, Mahalanobis uzaklığını 

kullanarak tüm şüpheli gözlemler kontrol edilir. Aykırı gözlemler olarak belirlenen 

gözlemler örneklemden silinir ve daha fazla aykırı değer bulunmayana kadar, 

sürecin üç adımı yeni temizlenmiş örnekleme yeniden uygulanır. Bu adımların 

detayları, aşağıda anlatılacaktır [10]. 

 
Adım 1: Yansımanın basıklık katsayısını, en büyük ve en küçük yapan yönler ve 

aynı zamanda bu iki yönde, verinin normalleştirilmiş tek değişkenli uzaklıkları 

hesaplanır. Yansımanın basıklık katsayısını en büyük yapan yön, 1δδ  kısıtı 

altında Eş. (3.10)’daki problemin çözümü olarak elde edilir [10]. 

 
 
4n

1i

i1
~

n

1
maxarg 



 zδδ
δ

                                                                                  (3.10) 

 
Aynı süreç, basıklık katsayısının en küçük yapan yönün hesaplanmasına 

uygulanmıştır. 2δ , bu ikinci yön ve   2,1j,~p i

j

i  zδ  bu iki yöne yansıyan değerler 

olsun. Bu yansımış değerler için  j
ir  normalleştirilmiş tek değişkenli uzaklıklar, Eş. 

(3.11)’deki gibi hesaplanır. Bu eşitlikteki MAD ise, Eş. (3.12)’deki gibi hesaplanır 

[10]. 

 
 
    

  
2,1j,

pMAD

pcatanorp1
r

j

ii

j

ii

j

i

p

j

i 



β

                                                                  (3.11) 

 
       j

ii

j

ii

j

ii pcatanorpcatanorpMAD                                                          (3.12) 

 
Eş. (3.11)’deki pβ  ise, p boyutuna dayalı önceden belirlenmiş referans değeridir ve 

0.05’e eşit I. hatayı elde etmek için Monte Carlo ile elde edilir [10]. pβ , basıklık 


 37 

katsayısını en küçük ya da en büyük yapan yönler üzerine gözlemlerin 

yansımalarından aykırı değerleri belirlemek için bir eşik değeri gibi davranır [25]. 

Pena ve Prieto [25] çalışmasında gösterildiği üzere bu adım,   1r j

i   olan 

gözlemlerden oluşan kümelerin oluşturduğu aykırı değerleri belirleyecektir. Eğer 

aykırı değerler grubunun boyutu küçük ise (kabaca % 20’den daha küçük ise) 

aykırı değerleri belirlemek için faydalı yön 1δ  olacaktır. Ancak boyut büyük olur 

ise, faydalı yön 2δ  olacaktır [10]. 

 
Adım 2: Bir tabakalı örnekleme sürecinden, rasgele yönler hesaplanır. Daha 

sonra, bu yönlerdeki aykırı değerler için araştırma yapılır. Pena ve Prieto [25] 

çalışmasında önerilen süreç tarafından üretilen bu rasgele yönler, aykırı değerleri 

belirlemek için kullanılan standart SDE yönteminden daha etkindir. Her bir yön, iki 

aşamada üretilmiştir. İlk aşamada, örneklemden iki gözlem rasgele seçilir, bu iki 

gözlem tarafından tanımlanan yön hesaplanır ve daha sonra, gözlemler bu yön 

üzerine yansıtılır. Bu işlem, L,,1l  için tekrar edilir. L, rasgele yönlerin sayısıdır. 

İkinci aşama, her bir l için K tane tabakalı örneklemi şu şekilde oluşturur: 

Yansımalar sıralanır ve n/K boyutlu K tane aralığa bölünür. K, her bir rasgele yön 

için önceden belirlenmiş aralık sayısıdır Kk1   olmak üzere, bu k aralıktan her 

birinden p gözlemden oluşan bir alt örneklem yerine koymadan seçilir ve bu p tane 

gözlem tarafından üretilip, hiper düzleme (hyperplane) dik olan j

~
δ  yönü 

hesaplanır. Adım 1’de olduğu gibi j

~
δ  yönü, aykırı değerleri araştırmak için 

kullanılır. Bu yöndeki  
ij

j

i
~~

p~ zδ  yansımaları, Eş. (3.13)’teki normalleştirilmiş tek 

değişkenli  j
ir
~  uzaklıklarını verir [10]. 

 
 

    
  

LK,,1j,
p~MAD

p~catanorp~1
r~

j

ii

j

ii

j

i

p

j

i 



β

                                                          (3.13) 

 
Adım 3: Her bir i gözlemine ilişkin normalleştirilmiş aykırılık ölçüsü, Eş. (3.14)’deki 

gibi elde edilir [10]. 

 
 38 

        LK

i

1

i

2

i

1

ii r~,,r~,r,rmaxr                                                                               (3.14) 

 
1ri   olan gözlemler aykırı değerler olarak etiketlenir ve eğer aykırı gözlem sayısı 

  2/p1nn  ’den daha az ise örneklemden çıkartılır. Ancak, aykırı değer sayısı 

bu değerden fazla ise sadece en büyük ir  değerlerine sahip olan   2/p1nn   

tane gözlem aykırı değer olarak etiketlenir [10]. 

 
Son olarak U, aykırı değer olarak etiketlenmeyen tüm gözlemlerin bir kümesini 

göstersin. Aykırı olmayan gözlemlere ilişkin konum ve kovaryans sırasıyla, Eş. 

(3.15) ve Eş. (3.16)’daki gibi hesaplanır [10]. 

 




Ui

i
U

1~ zm                                                                                                       (3.15) 

 
  


 


mzmzS ~~

1U

1~
i

Ui

iZ                                                                             (3.16) 

 
Algoritma, aykırı değerler olarak etiketlenen özgün gözlemlerin aykırı olmayan ‘iyi 

gözlemlere’ göre Mahalanobis uzaklığını Eş. (3.17)’deki gibi hesaplar [10]. 

 
    Ui,~~~v~ i

1

zii 


  mzSmz                                                                         (3.17) 

 
1pp   olmak üzere, Ui  olan gözlemlerden 2

99.0,1piv~   şeklinde Mahalanobis 

uzaklıkları eşik değerinden küçük olanların aykırı değer olmadığı düşünülür ve bu 

gözlemler de U kümesinde yer alır [10]. 

 
Yukarıda anlatılan üç adım, daha fazla aykırı değer bulunmayana kadar (ya da U, 

tüm gözlemlerin kümesi haline gelene kadar) tekrarlanır. Pena ve Prieto [25] 

çalışmasındaki gibi, en son elde edilen kovaryans matrisinin tutarlılık için 

ölçeklendirilmesi gerekmez. Çünkü elde edilen PLSR katsayıları ve yönleri, ölçek 

değişikliklerine karşı sabittir. Bu algoritma, belirli sayıda parametre içerir. 


 39 

Uygulamada bu parametrelere atanan değerler, yeterli teorik ve etkinlik özelliklerini 

sağlamak için Pena ve Prieto [25] çalışmasında tavsiye edildiği gibi seçilir. pβ  

parametresi, I. tür hataların makul bir değerini sağlamak için seçilir ve örneklem 

uzayı boyutu p’ye dayalıdır. Pena ve Prieto [25] çalışmasından alınan Çizelge 3.1, 

birkaç örneklem uzay boyutu için kullanılan değerleri gösterir. Diğer boyutlar için 

değerler, plogβ ’yi doğrusal olarak logp’ye interpole ederek elde edilir. Adım 2’deki 

aralık sayısı K, p’ye dayalı olarak 3 ya da 5 olarak seçilir ve L, 10p’ye eşittir [10]. 

 
Çizelge 3.1. Adım 1 ve Adım 2 için tek değişkenli yansımalar için kesim değerleri. 
 

Örneklem uzayı boyutu p 5 10 20 

Kesim değeri p 3.46 3.86 4.67 
 

Sonuç olarak, önerilen sağlam PLSR algoritması PLS-KurSD sağlam kovaryans 

matrisi zS
~

’ye dayalıdır. Bu sağlam PLSR algoritmasında 1w , Xy,s~  vektörünün 

normalleştirilmesi olarak düşünülür ve böylece, z

~
S ’nin ilk kolonu ilk elemanı 

oluşturur. Aynı zamanda iw ’nin sonraki değerleri ise, Eş. (3.18)’i kullanarak 

sağlam bir biçimde hesaplanır [10]. 

 
  aj1,~~~~
j

1

jjj1j 


 Xy,XXXy, sWWSWWSsw                                               (3.18) 

 
Bu önerilen sağlam PLSR algoritmasında, her bir gözlem için sağlam Mahalanobis 

uzaklığını hesaplamak ve veriyi aykırı değerlerden temizlemek için, aykırılığın 

önerilen ölçüsü kullanılır [10]. 

 
Buraya kadar olan alt bölümlerde, klasik PLS1 ve PLS2 algoritmalarında yapılan 

değişikler ile elde edilen sağlam PLSR yöntemleri hakkında bilgiler verilmiştir. Alt 

Bölüm 3.5’te ise, SIMPLS algoritmasında yapılan değişiklikler ile elde edilen 

sağlam PLSR yöntemleri incelenecektir. 

 
 40 

3.5. SIMPLS Algoritmasının SağlamlaĢtırılmasıyla Elde Edilen Sağlam PLSR 
Yöntemleri 

 
SIMPLS algoritması, PLS1 ve PLS2’den daha hızlı olduğu ve sonuçlarının 

yorumlanması daha kolay olduğundan, PLSR kestirimlerini elde etmek için en sık 

kullanılan PLSR algoritmasıdır. Ancak, SIMPLS algoritması bağımlı ve bağımsız 

değişkenler arasındaki varyans-kovaryans matrisine ve LS regresyonuna dayalı 

olduğundan, sonuçlar aykırı gözlemlerden etkilenir. Bu nedenle, Hubert ve Vanden 

Branden [15], sırasıyla çok değişkenli regresyon yöntemi olan MCD regresyon ve 

ROBPCA regresyon yöntemlerini kullanarak algoritmanın sağlamlaştırılmış 

biçimleri olan RSIMCD ve RSIMPLS algoritmalarını geliştirmiştir [15]. 

 
RSIMCD ve RSIMPLS algoritmalarını anlatmadan önce, p>n olan büyük boyutlu 

veri kümelerinde sağlam kovaryans kestiriminin nasıl yapılacağı ve ROBPCA 

yöntemini kullanarak sağlam bileşenlerin elde edilmesi anlatılmalıdır. Buna göre, 

 q,np,nm,n ,YXZ  , birleştirilmiş kümeyi göstersin. SIMPLS algoritmasındaki i

~
t  

bileşenleri, xyS  ve xS  kovaryans matrislerinden hesaplanır. Hem bu iki kovaryans 

hem de SIMPLS algoritmasının ikinci aşamasında uygulanan LS regresyonu, 

aykırı değerlere karşı çok hassastır. Hubert ve Vanden Branden [15], xyS  ve xS ’i 

sırasıyla, xΣ  ve xyΣ ’nin sağlamlaştırılmış kestirimleri ile yer değiştirerek ve MLR 

yerine sağlam bir regresyon yöntemi uygulayarak, SIMPLS algoritmasının iki tane 

sağlamlaştırılmış biçimi olan RSIMPLS ve RSIMCD algoritmalarını önermiştir. Bu 

sağlam kovaryans matrislerini elde etmek için, Huber vd. (2003) tarafından 

önerilen ve sağlam bir Temel Bileşenler Analizi (Principal Component 

Analysis/PCA) yöntemi olan ROBPCA kullanılmıştır RSIMPLS ve RSIMCD 

algoritmalarının her ikisi de, bir ya da birden çok bağımlı değişkenin olduğu model 

için de kullanılabilir. Ancak, çalışmada sadece çok değişkenli durum için 

gösterimlere yer verilmiştir [15].  

 
MCD kestiricisinin temeli, [n/2]<h<n olmak üzere h gözlemin örneklem kovaryans 

matrisinin determinantını en küçük yapmaktır. MCD kestiricisi sadece, n>p olur ise 


 41 

uygulanabilir; çünkü p>n olur ise aynı zamanda p>h olur ve herhangi bir h 

gözlemin kovaryans matrisi her zaman tekil olacağından elde edilen determinant 

da sıfır olacaktır. Bu nedenle, h gözlemin her bir alt kümesi, mümkün en küçük 

determinantı verecektir ve tek bir sonuç elde edilemeyecektir [7, 15]. Bu nedenle, 

m=p+q<n olmak üzere verinin boyutu küçük olur ise SIMPLS algoritmasındaki 

kovaryans matrislerini kestirmek için konum ve kovaryansın sağlam 

kestiricilerinden MCD kestiricisi kullanılabilir. Böylece küçük boyutlu örneklemlerde 

MCD kestiricisi kullanılarak zi’nin ortalaması hz  ve varyansı, en uygun h 

altkümenin kovaryans matrisi hS ’ın bir tutarlılık faktörü ile çarpılması ile kestirilir. 

İstatistiksel etkinliği arttırmak için, yeniden ağırlıklandırma adımı eklenebilir. Eğer 

bir gözlemin sağlam karesel uzaklığı    hi

1

hhi zzSzz 


  , 2

975.0,m ’yi aşar ise, o 

gözlem sıfır ağırlık alır. Buna göre, Yeniden Ağırlıklandırılmış En Küçük Kovaryans 

Determinantı (Reweighted Minimum Covariance Determinant /RMCD) kestiricisi, 

bir ağırlığına sahip gözlemlerin klasik ortalama ve kovaryans matrisi olarak 

tanımlanır. Ancak, MCD kestiricisi m>n olan yüksek boyutlu veri kümelerine 

uygulanamadığı için, projeksiyon izleme (projection pursuit) algoritmaları 

geliştirilmiştir. ROBPCA iki yaklaşımı birleştirir: Donoho (1982) ve Stahel 

(1981)’deki projeksiyon izleme fikirlerini kullanarak her bir gözlemin aykırılığını 

hesaplar ve en küçük aykırılığa sahip h tane gözlemin kovaryans matrisini inceler. 

Daha sonra veri, bu kovaryans matrisinin k0<m tane baskın özvektörü tarafından 

taranan K0 alt uzayına yansıtılır. Daha sonra, bu küçük boyutlu uzayda verinin 

ortalamasını ve varyansını kestirmek için, MCD yöntemi uygulanır. Son olarak, bu 

kestirimler özgün uzaya yeniden dönüştürülür ve m,nZ ’nin zμ̂ ’si ve zΣ̂ ’sinin sağlam 

bir kestirimi elde edilir. z

k,m 0
P , sağlam Z özvektörlerini ve köşegen(

00 k,kL ), sağlam Z 

özdeğerlerini göstermek üzere, varyans-kovaryans matrisi   zzz

z
ˆ PLPΣ  şeklinde 

ayrıştırılabilir. zL  köşegen matrisi, azalan sırada zΣ̂ ’nin k0 en büyük özdeğerini 

içermektedir. Z bileşenleri ise   z

zn

z ˆ Pμ1ZT   şeklinde elde edilir [15]. 

 
Sağlam PLSR analizi yapmak için, ilk önce sağlam bileşenler elde edilmelidir. 

Sağlam bileşenleri elde etmek için ise, ilk önce  q,np,nm,n ,YXZ   üzerinde 

ROBPCA uygulanır. ROBPCA yönteminin uygulanmasının sonucunda, Z’nin 


 42 

sağlam kestiricileri sırasıyla   yxz
ˆ,ˆˆ μμμ  ve zΣ̂  şeklinde elde edilir. zΣ̂ , Eş. 

(3.19)’daki gibi ayrıştırılır [15]. 

 















yyx

xyx

z ˆˆ

ˆˆ
ˆ

ΣΣ

ΣΣ
Σ                                                                                                 (3.19) 

 
xyΣ  kovaryans matrisi, xyΣ̂  ile kestirilir ve PLSR ağırlık vektörleri ar ’lar, SIMPLS 

algoritmasındaki gibi hesaplanır. Ancak SIMPLS algoritmasından farklı olarak, Sxy 

yerine xyΣ̂  ile başlanır. x yükleri olan jp , Eş. (2.16)’ya benzer olarak 

  jx

1

jxjj
ˆˆ rΣrΣrp



  şeklinde tanımlanır. Daha sonra a

xyΣ̂  kovaryans matrisi, SIMPLS 

algoritmasındaki gibi indirgenir. Her bir adımda sağlam bileşenler Eş. (3.20)’deki 

gibi hesaplanır [15]. 

 
  axiaiia
ˆt rμxrx





                                                                                        (3.20) 

 
Bu eşitlikteki ix


’ler, sağlam bir şekilde merkezileştirilmiş gözlemlerdir. Sağlam 

bileşenler elde edildikten sonra, sağlam bir regresyon yapılabilir. Sağlam ti 

bileşenlerine dayalı regresyon modeli, Eş. (3.21)’deki gibi yazılır [15]. 

 
iik,qi ftAαy 0


                                                                                              (3.21) 

 
3.5.1. MCD Regresyonunu Kullanılarak Elde Edilen RSIMCD Algoritması 

 
RSIMCD algoritmasında Eş. (3.21)’de verilen regresyon modelinin klasik MLR 

kestirimleri,  yt,  birleştirilmiş değişkenlerin ortalaması ve kovaryansı cinsinden 

Eş. (3.22)’deki gibi yazılır [15]. 

 





























yyt

tyt

y

t
,

ΣΣ

ΣΣ
Σ

μ

μ
μ                                                                                   (3.22) 


 43 

µ ortalaması,   yt ,  örneklem ortalaması ve  kovaryansı,  yt, ’nin örneklem 

kovaryans matrisi ile kestirilir, Eş. (2.20)’deki t
~

ise t  ile yer değiştirilir ise klasik 

kestirimler Eş. (2.19)-(2.21) eşitliklerini sağlar.  yt, ’nin klasik ortalama ve 

kovaryans matrisini, RMCD kestirimleri ile yer değiştirerek sağlam regresyon 

kestirimleri elde edilir. Ayrıca, etkinliği arttırmak için bu başlangıç regresyon 

kestirimlerinin yeniden ağırlıklandırıması tavsiye edilir. )k(ir , k bileşen için 

hesaplanan başlangıç kestirimlerine ilişkin i. gözlemin artığı olsun. Eğer 
f

ˆ Σ , 

hataların kovaryansı için başlangıç kestirimi ise, artıkların sağlam uzaklığı Eş. 

(3.23)’deki gibi tanımlanır.  kic  ağırlıkları ise, I gösterge fonksiyonu olmak üzere 

Eş. (3.24)’deki gibi hesaplanır [15]. 

 
       2/1

ki

1

fkiki rˆrRD  Σ                                                                                           (3.23) 

 
    2

975.0,q

2

kiki RDIc                                                                                         (3.24) 

 
En son regresyon kestirimleri ise, sadece  kic  ağırlıkları bire eşit olan gözlemler 

için klasik MLR’deki gibi hesaplanır.  kiRD  sağlam artık uzaklıkları ise, Eş. 

(3.23)’deki gibi hesaplanır ve aynı zamanda  kic  ağırlıkla