SAĞLAM KISMĠ EN KÜÇÜK KARELER REGRESYON ANALĠZĠNDE YENĠ YAKLAġIMLAR NEW APPROACHES IN ROBUST PARTIAL LEAST SQUARES REGRESSION ANALYSIS ESRA POLAT PROF. DR. SÜLEYMAN GÜNAY Tez DanıĢmanı Hacettepe Üniversitesi Lisansüstü Eğitim-Öğretim ve Sınav Yönetmeliğinin İstatistik Anabilim Dalı için Öngördüğü DOKTORA TEZİ olarak hazırlanmıştır. 2014 i ÖZET SAĞLAM KISMİ EN KÜÇÜK KARELER REGRESYON ANALİZİNDE YENİ YAKLAŞIMLAR Esra POLAT Doktora, İstatistik Bölümü Tez Danışmanı: Prof. Dr. Süleyman GÜNAY Mart 2014, 136 Sayfa Kısmi En Küçük Kareler Regresyon (Partial Least Squares Regression/PLSR), bir gizli değiĢkenler (Latent Variables/LV) regresyon yöntemidir. Bu yöntemde, ilkin iliĢkisiz LV’lerin bir kümesi kestirilir ve daha sonra, bu LV’lerin bağımlı değiĢken ile olan iliĢkisi modellenir. PLSR modelini elde etmek için literatürde en sık kullanılan algoritmalar, NIPALS ve SIMPLS algoritmalarıdır. NIPALS algoritması tek bir bağımlı değiĢken olduğunda PLS1 ve çoklu Y değiĢkeni için kullanıldığında ise PLS2 adını alır. Ancak, NIPALS algoritmasında yüklerin, bileĢenlerin ve regresyon katsayılarının hesaplanmasında klasik En Küçük Kareler (Least Squares/LS) regresyon adımları kullandığından ve SIMPLS algoritması bağımlı ile bağımsız değiĢkenler arasındaki varyans-kovaryans matrisine ve LS regresyonuna dayalı olduğundan, veri kümesinde aykırı değerler olduğunda her iki algoritma ile elde edilen sonuçlar da etkilenir. Bu nedenle, literatürde PLS1, PLS2 ve SIMPLS algoritmalarının bazı sağlamlaĢtırılmıĢ biçimleri olan sağlam PLSR yöntemleri önerilmiĢtir. Doktora tez çalıĢmamızda, modelde tek bir bağımlı değiĢken olması durumunda PLSR modelindeki regresyon katsayılarını kestirmek için kullanılan klasik PLS1 algoritmasının, seçenek tanımındaki kovaryans matrisini sağlam bir Ģekilde kestirerek literatürde önerilen sağlam PLSR yöntemlerinden yola çıkılarak, ii üç yeni sağlam PLSR yöntemi önerilmiĢtir. PLS-ARWMCD, PLS-Smult ve PLS-MMmult olarak adlandırılan bu üç yeni sağlam PLSR yöntemi, PLS1 algoritmasındaki kovaryans matrisini sırasıyla, ‘ ilk adımda konum ve kovaryansın sağlam başlangıç kestiricileri olarak En Küçük Kovaryans Determinantı kestiricilerini kullanan, uyarlanabilir yeniden ağırlıklandırılmış bir kovaryans kestiricisi ‘, ‘ S-kestiricileri ’ ve ‘ MM-kestiricileri ’ kullanılarak sağlam bir Ģekilde kestirerek bulunmuĢtur. Bu üç yeni sağlam PLSR yöntemi, literatürde var olan klasik PLSR yöntemi ve sağlam PLSR yöntemleri RSIMPLS, Kısmi Sağlam M-Regresyon (PRM), Stahel-Donoho kestiricisine dayalı sağlam PLSR yöntemi (PLS-SD), yansımaların basıklık katsayısına ve Stahel-Donoho kestiricisine dayalı sağlam PLSR yöntemi (PLS-KurSD) ile etkinlik, veriye uyum ve kestirimdeki baĢarıları açısından benzetim çalıĢmaları ve gerçek bir veri kümesi üzerinde uygulama ile karĢılaĢtırılmıĢtır. Yeni önerilen üç sağlam PLSR yöntemi de, küçük boyutlu ve makul düzeyde aykırı değerler tarafından bozulan veri kümelerine uygulandığında özellikle klasik PLSR yönteminden ve bazı aykırı değer türlerinde sağlam PRM, PLS-SD ve PLS-KurSD yöntemlerinden daha sağlam ve etkin sonuçlar verir. Anahtar Kelimeler: Sağlam Kısmi En Küçük Kareler Regresyonu, RSIMPLS, PLS-SD, PLS-KurSD, PRM, En Küçük Kovaryans Determinantı, sağlam ve etkin uyarlanabilir yeniden ağırlıklandırılmıĢ kovaryans kestiricisi, S-kestiricileri, MM-kestiricileri, uyum iyiliği, kestirim, etkinlik, sağlamlık. iii ABSTRACT NEW APPROACHES IN ROBUST PARTIAL LEAST SQUARES REGRESSION ANALYSIS Esra POLAT Doctor of Philosophy, Department of Statistics Supervisor: Prof. Dr. Süleyman GÜNAY March 2014, 136 pages Partial Least Squares Regression (PLSR) method is a Latent Variables (LVs) regression method. Therefore, in this method, firstly, a set of unrelated LVs is predicted and then, the relationship of these LVs with dependent variable is modeled. The most popular algorithms used in literature for obtaining PLSR model are NIPALS and SIMPLS algorithms. NIPALS algorithm called PLS1, when it is used for one dependent variable and called PLS2, when it is used for multiple Y variables. However, classic Least Squares (LS) steps are used in NIPALS algorithm for obtaining loadings, components and regression coefficients and SIMPLS algorithm depends on the covariance matrix between independent and dependent variables and LS regression. Therefore, if there are outliers in the data set, the results obtained with both of the these two algorithms are affected. Hence, the robust PLSR methods, which are the robust versions of PLS1, PLS2 and SIMPLS algorithms, suggested in literature. In our doctoral thesis study, three new robust PLSR methods were suggested based on robust PLSR methods existing in literature that robustly predicts the covariance matrix in the alternative definition of classical PLS1 algorithm used for predicting regression coefficients in PLSR model in case of being one dependent variable in the model. These three new PLSR iv methods, called as PLS-ARWMCD, PLS-Smult and PLS-MMmult, found by robustly predicting the covariance matrix in the PLS1 algorithm by using ‘ an adaptive reweighted estimator of covariance using Minimum Covariance Determinant estimators in the first step as robust initial estimators of location and covariance ‘, ‘ S-estimators ‘ and ‘ MM-estimators ‘, respectively. These three new suggested PLSR methods were compared in terms of efficiency, model fit and success in predictions, with classic PLSR method and robust PLSR methods RSIMPLS, Partial Robust M-Regression (PRM), the robust PLSR method based on Stahel-Donoho estimator (PLS-SD) and the robust PLSR method based on kurtosis coefficient of projections and Stahel-Donoho estimator (PLS-KurSD) existing in literature, by using simulation studies and applications on a real data. Three of the new suggested robust PLSR methods, when applied on data sets in low dimensions and contaminated by reasonable level of outliers, give more robust and efficient results than especially classical PLSR method and in some types of outliers than robust PRM, PLS-SD and PLS-KurSD methods. Keywords: Robust Partial Least Squares Regression, RSIMPLS, PLS-SD, PLS-KurSD, PRM, Minimum Covariance Determinant, robust and efficient adaptive reweighted estimator of covariance, S-estimators, MM-estimators, goodness of fit, prediction, efficiency, robustness. v TEŞEKKÜR Tez çalıĢmamın her aĢamasında bilgi ve manevi desteği ile her zaman yanımda olan, değerli katkı ve eleĢtirileri ile bana yol gösteren, emeğini ve zamanını esirgemeyen değerli danıĢmanım Sayın Prof. Dr. Süleyman GÜNAY’a en içten dileklerimle teĢekkür ederim. Tezin izlenmesi ve değerlendirilmesi aĢamalarında değerli yorumları ile bana katkıda bulunan Sayın Prof. Dr. Gül ERGÜN’e, Sayın Prof. Dr. Hamza GAMGAM’a, Sayın Doç. Dr. Meral ÇETĠN’e ve Sayın Doç. Dr. Haydar DEMĠRHAN’a teĢekkür ederim. Bilimsel eğitimime ve doktora tez çalıĢmama verdiği burs ile destek olan TÜBĠTAK’a teĢekkür ederim. Tez çalıĢmam süresi boyunca manevi desteklerini esirgemedikleri için değerli arkadaĢlarım Doç. Dr. Gamze ÖZEL’e, Dr. Nursel KOYUNCU’ya, Dr. Nilgün ÖZGÜL’e ve diğer bütün çalıĢma arkadaĢlarıma içtenlikle teĢekkür ederim. Son olarak çalıĢmam boyunca gösterdiği anlayıĢ, sabır ve yardımlarından dolayı değerli arkadaĢım Dr. Semra TÜRKAN’a ve her zaman gösterdikleri sevgi, anlayıĢ ve güvenle yanımda olarak bana destek olan baĢta CANIM ANNEM olmak üzere, AĠLEM’e içtenlikle teĢekkür ederim. vi İÇİNDEKİLER Sayfa ÖZET…………………………………………………………………………...…...………i ABSTRACT…………………………………………………………………………….....iii TEġEKKÜR………………………………………………………………………………..v ĠÇĠNDEKĠLER……………………………………………………………………………..vi ÇĠZELGELER……………………………………………………………………………..ix SĠMGELER VE KISALTMALAR………………………………………………………....x 1.GĠRĠġ…………………………………………………………………………………….1 2. KISMI EN KÜÇÜK KARELER REGRESYONU…………………………………….9 2.1. Kısmi En Küçük Kareler Regresyon Yöntemi…………………………………….9 2.2. Doğrusal Olmayan Yinelemeli En Küçük Kareler (NIPALS) Algoritması…….11 2.2.1. Tek Bir Bağımlı DeğiĢken için DikleĢtirilmiĢ PLSR Algoritması……………..13 2.2.2. Klasik PLS1 Algoritmasının Seçenek Tanımı…………………………………14 2.3. PLS Yönteminin Ġstatistiksel Olarak EsinlenilmiĢ DeğiĢikliğinin Basit Bir Uygulaması (SIMPLS) Algoritması…………………………………………………….17 3. SAĞLAM KISMĠ EN KÜÇÜK KARELER REGRESYONU……………………….21 3.1. Sağlam Kestiricilerin Sahip Olması Gereken Özellikler ve Önemli Sağlamlık Ölçütleri…………………………………………………………………………………..21 3.1.1. Kırılma Noktası…………………………………………………………………...21 3.1.2. Etki Fonksiyonu…………………………………………………………………..22 3.1.3. Ġstatistiksel Etkinlik……………………………………………………………….23 3.2. Sağlam Kısmi En Küçük Kareler Regresyon Yöntemleri………………………24 3.3. PLS1 ve PLS2 Algoritmalarından Elde Edilen Sağlam PLSR Yöntemleri…...25 3.3.1. Yinelemeli Olarak Yeniden AğırlıklandırılmıĢ En Küçük Kareler (IRLS) Yöntemi…………………………………………………………………………..25 3.3.2. Ġç Yinelemeli Yeniden Ağırlıklandırma PLSR Algoritmaları……….…………26 3.3.3. DıĢ Yeniden Ağırlıklandırma PLSR Algoritması ……………………………..27 3.3.4. Kısmi En Küçük Mutlak Sapmalar (PLAD) Yöntemi………………………….29 3.4. Klasik PLS1 Algoritmasının Seçenek Tanımındaki Kovaryans Matrisini Sağlam Bir Yöntem ile Kestirerek Önerilen Sağlam PLSR Yöntemleri………30 3.4.1. Stahel-Donoho Kestiricisine Dayalı Sağlam PLSR Yöntemi (PLS-SD)……31 vii 3.4.2. BACON Algoritmasına Dayalı Sağlam Kısmi En Küçük Kareler Regresyon Yöntemi……………………………………………………………………………34 3.4.3. Yansımaların Basıklık Katsayısına ve Stahel-Donoho Kestiricisine Dayalı Sağlam PLSR Yöntemi (PLS-KurSD)…………………………………… ……35 3.5. SIMPLS Algoritmasının SağlamlaĢtırılmasıyla Elde Edilen Sağlam PLSR Yöntemleri…………………………………………………………………………..40 3.5.1. MCD Regresyonunu Kullanılarak Elde Edilen RSIMCD Algoritması…….…42 3.5.2. ROBPCA Regresyonunu Kullanılarak Elde Edilen RSIMPLS Algoritması...44 3.5.3. Kısmi Sağlam M-Regresyon……………………………………………………46 3.5.4. Mekansal ĠĢaret DönüĢümü ile PLSR Yöntemini SağlamlaĢtırmak………...55 4. SAĞLAM KISMĠ EN KÜÇÜK KARELER REGRESYON ANALĠZĠNDE YENĠ YAKLAġIMLAR……………………………………………………………………….58 4.1. Önerilen Sağlam PLSR Yöntemi PLS-ARWMCD………………………………58 4.1.1. FAST-MCD Algoritmasında Kullanılan C-adımı ve Dayandığı Teorem……60 4.1.2. H1 BaĢlangıç Alt Kümelerinin OluĢturulması………………………………….62 4.1.3. Seçmeli Yineleme………………………………………………………………..62 4.1.4. Ġç içe Eklemeler…………………………………………………………………..63 4.1.5. FAST-MCD Algoritması ve ĠĢleyiĢi……………………………………………..64 4.1.6. Sağlam ve Etkin Uyarlanabilir Yeniden AğırlıklandırılmıĢ Bir Kovaryans Kestiricisi…………………………………………………………………………………69 4.2. Önerilen Sağlam PLSR Yöntemleri PLS-Smult ve PLS-MMmult……………..73 4.2.1. Çok DeğiĢkenli Konum ve Kovaryans için S-Kestiricileri ile MM kestiricileri………………………………………………………………………...74 4.2.2. Çok DeğiĢkenli Konum ve Kovaryans için S-kestiricilerini Hesaplayan FastS Algoritması…………………………………………..………...………………….76 4.2.3. Çok DeğiĢkenli Konum ve Kovaryans için MM-kestiricilerini Hesaplayan FastMM Algoritması…………………………………………………….............79 5. UYGULAMA…………………………………………………………………………..82 5.1. Benzetim ÇalıĢması………………………………………………………………..82 5.1.1. Birinci Benzetim Düzeni…………………………………………………………84 5.1.2. Ġkinci Benzetim Düzeni……………………………………………………..…...93 5.1.3. Aykırı Değerler Tarafından Bozulmayan Temiz Modeldeki Hata Terimlerinin Farklı Dağılımlardan Geldiği Benzetim Düzeni……………………….……..103 viii 5.1.4. Yeni Önerilen Sağlam PLSR Yöntemlerinin Hesaplama Zamanı ………...108 5.2. Gerçek Veri Kümesi Üzerinde Uygulama………………………………………112 6. SONUÇ VE TARTIġMA……………………………………………………………118 KAYNAKLAR……………………………………………………………………...……124 EKLER…………………………………………………………………………………..128 ÖZGEÇMĠġ……………………………………………………………………………..137 ix ÇİZELGELER Sayfa Çizelge 3.1. Adım 1 ve Adım 2 için tek değiĢkenli yansımalar için kesim değerleri…………………………………………………………………………………..39 Çizelge 5.1. n=100 ve p=6, temiz veri kümesi, m=1000 tekrar için benzetim sonuçları………………………………………………………………………………….87 Çizelge 5.2. n=100 ve p=6, gözlemlerin ilk %10’u kötü kaldıraç gözlemleri, m=1000 tekrar için benzetim sonuçları …………………………………………………………88 Çizelge 5.3. n=100 ve p=6, gözlemlerin ilk %10’u dikey aykırı değerler, m=1000 tekrar için benzetim sonuçları………………………………………………………….90 Çizelge 5.4. n=200, p=5 ve k=2, aykırı değer oranı % 10, m=1000 tekrar için benzetim sonuçları………………………………………………………………………97 Çizelge 5.5. n=200, p=5 ve k=2, aykırı değer oranı % 20, m=1000 tekrar için benzetim sonuçları………………………………………………………………………99 Çizelge 5.6. Gözlem sayısının (n) ve bağımsız değiĢken sayısının (p) farklı seçildiği üç örneklem Ģeması için farklı hata dağılımlarında m=1000 tekrar yapılarak benzetim ile elde edilmiĢ MSE’ler ……………………………………..…105 Çizelge 5.7. ÇalıĢma kümesi 40 ve test kümesi 5 gözlemli balık verisi için GOF ve RMSE değerleri.………………………………………………………………………..114 x SİMGELER VE KISALTMALAR Kısaltmalar ARWMCD Uyarlanabilir Yeniden AğırlıklandırılmıĢ En Küçük Kovaryans Determinantı (Adaptive Reweighted Minimum Covariance Determinant) BACON Parçalı Uyarlanabilir Hesaplama Yönünden Etkin Aykırı Gözlem Belirleyicisi (Blocked Adaptive Computationally Efficient Outlier Nominators) BDP Kırılma Noktası (Breakdown Point) CV Çapraz geçerlik (Cross-validation) GOF Uyum iyiliği (Goodness-of-fit) HBDP Yüksek Kırılma Noktası (High Breakdown Point) IF Etki Fonksiyonu (Influence Function) IRLS Yinelemeli Olarak Yeniden AğırlıklandırılmıĢ En Küçük Kareler (Iteratively Reweighted Least Squares) LAD En Küçük Mutlak Sapmalar (Least Absolute Deviations) LMS En Küçük Ortanca Kareler (Least Median Squares) LOOCV Birini-dıĢarıda-bırakma çapraz geçerlik (Leave-one-out cross- validation) LS En Küçük Kareler (Least Squares) LV Gizli DeğiĢken (Latent Variable) MAD Ortanca Mutlak Sapma (Median Absolute Deviation) MCD En Küçük Kovaryans Determinantı (Minimum Covariance Determinant) MLR Çoklu Doğrusal Regresyon (Multiple Linear Regression) MSE Hata Kareler Ortalaması (Mean Square Error) MVE En Küçük Hacimli Elipsoid (Minimum Volume Ellipsoid) NIPALS Doğrusal Olmayan Yinelemeli Kısmi En Küçük Kareler (Non-linear Iterative Partial Least Squares) NIR Kızıl Ötesi Yansıyan Spektrumu (Near Infrared Reflectance) PC Temel BileĢen (Principal Component) PCA Temel BileĢenler Analizi (Principal Component Analysis) xi PCR Temel BileĢenler Regresyonu (Principal Component Regression) PLAD Kısmi En Küçük Mutlak Sapmalar (Partial Least Absolute Deviations) PLS Kısmi En Küçük Kareler (Partial Least Squares) PLSR Kısmi En Küçük Kareler Regresyonu (Partial Least Squares Regression) PM Kısmi M-kestiricisi (Partial M-estimator) PRESS Kestirim Hata Kareler Toplamı (Prediction Error Sum of Squares) PRM Kısmi Sağlam M (Partial Robust M) RM Tekrarlı Ortanca (Repeated Median) RMCD Yeniden AğırlıklandırılmıĢ En Küçük Kovaryans Determinantı (Reweighted Minimum Covariance Determinant) RMSE Hata Kareler Ortalamasının Karekökü (Root Mean Squared Error) SDE Stahel-Donoho Kestiricisi (Stahel-Donoho Estimator) SIMPLS PLS yönteminin Ġstatistiksel olarak EsinlenilmiĢ DeğiĢikliğinin Basit bir Uygulaması (Straightforward Implementation of a Statistically Inspired Modification of the PLS method) SPD Simetrik Pozitif Tanımlı (Symmetric Positive Definite) SS-PP Mekansal ĠĢaret Ön ĠĢleme (Spatial Sign Preprocessing) SVD Tekil Değer AyrıĢımı (Singular Value Decomposition) 1 1. GĠRĠġ Aykırı gözlemler, veri kümesinin çoğunluğunun sahip olduğu dağılımdan farklı bir dağılıma ya da aynı dağılıma ancak farklı parametrelere sahip oldukları düşünülen ve veri kümesinin çoğunluğundan uzakta bulunan gözlemlerdir [39]. Bir regresyon modelinde üç tür aykırı değer vardır: Birincisi, bağımsız değişkenlere ilişkin X matrisinde gözlemlerin çoğunun bulunduğu ana bölümden uzakta bulunan, ancak o gözlemler ile aynı regresyon modeline sahip ‘iyi kaldıraç’ gözlemleridir. İkincisi, X matrisinin ana kısmından uzakta bulunan ve regresyon modelinden önemli bir şekilde sapan ‘kötü kaldıraç’ gözlemleridir. Üçüncüsü ise kaldıraç gözlemleri olmayan, ancak regresyonda büyük kestirilen y artıklarına sahip olan, bu nedenle de ‘dikey aykırı’ değerler olarak adlandırılanlardır [23]. Genellikle, regresyon parametre kestirimlerinde aykırı gözlemlerin etkisinin yüksek oranda olduğu bilinmektedir. Sağlam yöntemlerde amaç, aykırı değerlerin etkisini azaltmak ya da gidermek ve geriye kalan gözlemlerin büyük bir çoğunlukla sonuçları belirlemesine olanak sağlamaktır. Bir kestirici, veri kümesinde bulunan aykırı gözlemlerin varlığından etkilenmiyor ise o kestirici sağlam, etkileniyor ise sağlam olmayan kestiricidir. Daha genel bir ifade ile veri kümesinde küçük değişimler ya da genel olarak varsayımlarda küçük sapmalar olduğunda bile iyi performans gösteren kestiriciler, ‘sağlam kestiriciler’ olarak adlandırılır. Benzer bir yaklaşım ile kestirim yöntemi de, sağlam ve sağlam olmayan yöntem şeklinde isimlendirilir [23, 36, 39]. Sağlam kestiriciler ilk olarak 1960 yılında, alanının öncülerinden olan Tukey tarafından tanıtılmıştır. Daha sonra ilerleyen yıllarda sağlam regresyon çözümlemesiyle ilgili yapılan birçok çalışma sonucunda bulunan en dikkat çekici sonuç, hatalar normal bir dağılıma sahip olmadığında ya da veri kümesinde aykırı değerler olduğunda, Klasik En Küçük Kareler (Least Squares/LS) kestiricisinin sağlam olmayan kestirimler vermesidir. Bu nedenle, veri kümesi normallikten sapmalar gösterdiğinde ya da aykırı değerler içerdiğinde, sağlam kestirimler verecek kestiriciler türetilmeye çalışılmıştır [18, 36]. 2 Kısmi En Küçük Kareler Regresyonu (Partial Least Squares Regression/PLSR), bir ya da daha fazla bağımlı değişkeni çok sayıda bağımsız değişken ile ilişkilendirmek için kullanılan bir yöntemdir. PLSR, bağımlı ve bağımsız değişkenler arasındaki doğrusal ilişkiyi dikkate alan bir veri indirgeme yöntemidir. PLSR yöntemi ile bağımlı değişkenleri kesin bir anlamda açıklayacak bileşenler seçilir. PLSR, bir gizli değişkenler (Latent Variables/LV) regresyon yöntemidir. Bu yöntemde, ilkin ilişkisiz LV’lerin bir kümesi kestirilir ve daha sonra, bu LV’lerin bağımlı değişken ile olan ilişkisi modellenir. PLSR yöntemi normal olmama, gözlemlerin bağımsız olmaması ve çoklubağlantı gibi bozulumlara karşı sağlam bir yöntemdir. Ölçümlerin dağılımı ne olursa olsun, PLSR kullanılabilir. Bu nedenle, PLSR özellikle normallik varsayımının sağlanmadığı veriler için uygun bir yöntemdir [11, 21]. PLSR modelini elde etmek için literatürde en sık kullanılan yaklaşımlar, Doğrusal Olmayan Yinelemeli Kısmi En Küçük Kareler (Non-linear Iterative Partial Least Squares/NIPALS) ve PLS yönteminin İstatistiksel olarak Esinlenilmiş Değişikliğinin Basit bir Uygulaması (Straightforward Implementation of a Statistically Inspired Modification of the PLS method/SIMPLS) algoritmalarıdır. NIPALS algoritması, tek bir y değişkeni olduğunda ‘PLS1’ ve çoklu Y değişkeni için kullanıldığında ise ‘PLS2’ adını alır. Ancak, NIPALS algoritmasında yüklerin, bileşenlerin ve regresyon katsayılarının hesaplanmasında klasik LS regresyon adımları kullandığından ve SIMPLS algoritması bağımlı ile bağımsız değişkenler arasındaki varyans-kovaryans matrisine ve LS regresyonuna dayalı olduğundan, veri kümesinde aykırı değerler olduğunda her iki algoritma ile elde edilen sonuçlar da etkilenir. Bu nedenle, literatürde PLS1, PLS2 ve SIMPLS algoritmalarının bazı sağlamlaştırılmış biçimleri olan sağlam PLSR algoritmaları önerilmiştir. Sağlam PLSR yapmak için literatürde iki ana yöntem vardır: Birincisi, PLSR modelini elde etmek için kullanılan algoritmalarda yer alan regresyon adımlarında LS yerine sağlam regresyon yöntemlerini kullanarak aykırı değerlerin ağırlığını azaltmak ve ikincisi, bu algoritmalarda kullanılan kovaryans matrisini sağlam bir regresyon yöntemi ile sağlam kestirmektir. İlk yöntem ile oluşturulan sağlam regresyon yöntemleri, yarı-sağlam (semi-robust) olarak nitelendirilir. Çünkü bu yöntemler, ya 3 sağlam olmayan başlangıç ağırlıklarına sahiptir ya da ağırlıklar kaldıraç gözlemlerine karşı dirençli değildir [11, 15, 21]. Literatürde PLS1 ve PLS2 algoritmalarında bazı değişiklikler yapılarak, önerilen sağlam PLSR yöntemleri vardır. İlk olarak, Wakeling ve Macfie [37] PLS2 algoritmasındaki X değişkenine ilişkin w ağırlıklarının ve Y değişkenine ilişkin c ağırlıklarının hesaplandığı tek değişkenli regresyon adımlarını sağlamlaştırılmış biçimleri ile değiştirerek, ilk sağlam PLSR algoritmasını geliştirmiştir. Bu amaç ile yinelemeli olarak yeniden ağırlıklandırılmış en küçük kareler (iteratively reweighted least squares/IRLS) algoritmasından faydalanmıştır. Bu sağlam algoritma, bağımlı Y değişkeninde rasgele aykırı değerler olduğunda etkin bulunmuştur [37]. Griep vd. [11] ise, PLS1 algoritmasında X değişkenine ilişkin w ağırlıklarının hesaplandığı ilk adımında klasik LS yöntemi yerine En Küçük Ortanca Kareler (Least Median Squares/LMS), Siegel’in Tekrarlı Ortanca’sı (Repeated Median/RM) ve IRLS gibi sağlam yöntemler kullanmıştır. Bu çalışmaya göre, daha küçük boyutlarda bu algoritma, aykırı değerler kaç tane ve ne büyüklükte olursa olsun etkin sonuçlar verdiğinden en iyi yöntemdir [11]. Cummins ve Andrews [1] ise, yinelemeli olarak yeniden ağırlıklandırılmış regresyonu, PLS1 algoritmasına genelleştirmeyi önermiştir. Mantık, klasik IRLS’deki ile aynıdır. Ancak, bu algoritmada IRLS’den farklı olarak Çoklu Doğrusal Regresyon’un (Multiple Linear Regression/MLR) artıkları yerine PLSR’nin artıkları kullanılır. Klasik bir Kısmi En Küçük Kareler (Partial Least Squares/PLS) uyguladıktan sonra, ağırlıklar hesaplanır ve bir sonraki PLS algoritması için kullanılır. Bu algoritma, sadece bir tane bağımlı değişken olan model için geçerlidir ve kaldıraç gözlemlerine karşı dirençli değildir [1]. Dodge vd. [4] tarafından geliştirilen Kısmi En Küçük Mutlak Sapmalar (Partial Least Absolute Deviations/PLAD) regresyonu algoritması, PLS1 algoritmasındaki bileşenlerin diklik özelliklerini koruyarak, bağımlı y değişkenini elde edilen bileşenlerden En Küçük Mutlak Sapmalar (Least Absolute Deviations/LAD/L1) regresyon yöntemini kullanarak kestirir. ir , i. gözlem için artığı göstermek üzere LAD,   n 1i iˆ rmin β şeklinde artıkların mutlak değerlerinin toplamlarını en küçük yapar [4]. 4 Literatürde, PLS1 algoritmasının seçenek bir tanımı olan algoritmadaki kovaryans matrisini sağlam bir yöntem ile kestirerek önerilen sağlam PLSR yöntemleri de mevcuttur. PLS1 algoritmasının seçenek bir tanımı olan bu algoritmada, Helland (1988)’de verilen yaklaşımı kullanarak PLSR bileşenlerini hesaplamadan ve doğrudan algoritmada kullanılan ağırlık matrisini hesaplayarak, sadece üç adımda PLSR kestirimleri elde edilir [10]. Algoritmanın her bir adımında ağırlıklar, sadece daha önce hesaplanan ağırlık vektörlerine ve xS , xy,s kovaryanslarına dayalıdır. Bu nedenle,   Xyz , şeklinde X ve y değişkenlerinden oluşan birleşik veri kümesinin kovaryans matrisi sağlamlaştırıldığında da, sürecin sağlamlaştırılacağı düşünülür. Bu amaçla, algoritmanın bu biçimine ilişkin literatürde çeşitli sağlam PLSR yöntemleri önerilmiştir. İlk olarak Gil ve Romera [9], X değişkenlerinin örneklem kovaryans matrisi xS ile X ve y değişkenleri arasındaki kovaryans matrisi Xy,s ’i Stahel-Donoho kestiricisi (Stahel-Donoho estimator/SDE) ile sağlamlaştırarak, sağlam bir PLS1 yöntemi elde etmiştir. Bu yöntem, sadece gözlem sayısının değişken sayısından büyük olduğu (n>p) veriye uyar ve hesaplanması için açık bir algoritma elde edilememiştir. Hesaplanması çok zaman alacağından, SDE her zaman tam biçimi ile hesaplanamamaktadır. Genelde alt örnekleme süreçleri ile birlikte, yakınsama yöntemleri kullanılmaktadır. Bu sağlam PLSR algoritmasını, González vd. [10], ‘PLS-SD’ olarak adlandırmıştır [7, 9, 10, 15]. Gil ve Romera [9] çalışmasına benzer bir şekilde Kondylis ve Hadi [19], varyans-kovaryans matrisini sağlam bir şekilde kestirmek ve sağlam PLSR analizi yapmak için Billor vd. (2000) tarafından önerilen BACON algoritmasını kullanmıştır. Kondylis ve Hadi [19], önerdikleri sağlam PLSR algoritmasını ‘BACON-PLSR (BPLSR)’ olarak adlandırmıştır. Hem gerçek veriden hem de benzetim çalışmasından elde edilen sonuçlar, BPLSR algoritmasının aykırı değerlere karşı dirençli olduğunu gösterir. Regresyon kestirimleri, en azından aykırı değerlerin varlığı ile makul düzeylerde bozulmuş veri kümelerinde, aykırı değerlerden fazla etkilenmemektedir. Sadece yüksek bozulma düzeylerinde ve veri kümelerinin göreceli olarak yüksek boyutlularında (p>n), BPLSR’nin kestirim başarısı düşmektedir. González vd.’de [10] ise ‘PLS-KurSD’ olarak adlandırılan, sağlam bir PLSR algoritması önerilmiştir. Bu algoritma, çok değişkenli aykırı değerlerden temizlenmiş bir kovaryans matrisini elde etmek için tasarlanmıştır. Algoritma, üç adıma sahiptir. İlk adımda, yansımaların (projections) basıklık 5 katsayısını en büyük ve en küçük yaparak iki özel yön üretilir ve bu yönlerde aykırı değerler için tek değişkenli araştırma yapılır. İkinci adımda, Pena ve Prieto [25]’de söz edilen tabakalı örneklemeye ilişkin süreç takip edilerek rasgele yönler üretilir ve yeniden aykırı değerler tespit edilir. Üçüncü adımda, tüm şüpheli gözlemler örneklemden geçici olarak silinir ve geriye kalan verinin ortalaması ve kovaryans matrisi hesaplanır. Daha sonra, Mahalanobis uzaklığını kullanarak tüm şüpheli gözlemler kontrol edilir. Aykırı gözlemler olarak belirlenen gözlemler örneklemden silinir ve daha fazla aykırı değer bulunmayana kadar, sürecin üç adımı yeni temizlenmiş örnekleme yeniden uygulanır. Yukarıda anlatılan üç adım, daha fazla aykırı değer bulunmayana kadar tekrarlanır. Böylece elde edilen sağlam kovaryans matrisi, PLS1’nin seçenek tanımında kullanılarak sağlam PLSR yöntemi elde edilmiş olur. Literatürde, klasik SIMPLS algoritmasını sağlamlaştırarak önerilen sağlam PLSR yöntemleri de bulunmaktadır. Hubert ve Vanden Branden [15], çok değişkenli regresyon yöntemi olan En Küçük Kovaryans Determinantı (Minimum Covariance Determinant/MCD) regresyon ve ROBPCA regresyon yöntemlerini kullanarak, algoritmanın sağlamlaştırılmış biçimleri olan, sırasıyla RSIMCD ve RSIMPLS algoritmalarını geliştirmiştir. RSIMPLS ve RSIMCD algoritmalarının her ikisi de, tek ya da birden çok bağımlı değişkenin olduğu durum için de kullanılabilir. Hubert ve Vanden Branden [15], RSIMCD’den iki kat daha hızlı olduğu için RSIMPLS algoritmasının kullanılmasını tavsiye etmiştir. RSIMPLS algoritması hesaplama açısından çok hızlı olduğu için bağımsız değişken sayısının gözlem sayısından fazla olduğu yüksek boyutlu veri kümelerinde kolaylıkla kullanılır [15]. Serneels vd. [31] ise modelde tek bir bağımlı değişken olduğunda M regresyon kestiricilerinin ‘kısmi’ bir biçimini önermiş ve bu kestirici, Kısmi Sağlam M (partial robust M/PRM) regresyon kestiricisi olarak adlandırılmıştır. Aykırı değerlerin ağırlığı azaltılarak oluşturulan PRM regresyonunda, y ve x değişkenler uzayındaki aykırı gözlemlerin etkisini azaltmak için yinelemeli bir şemada sıfır ile bir arasında değişen ağırlıklar hesaplanır [21]. Sağlam PLSR’ye ilişkin daha önceki çalışmalarda PLSR kestiricilerinin sağlam biçimlerini geliştirmeye odaklanılmışken, Serneels vd. [31] çalışmasında sağlam bir kestiricinin kısmi bir biçimini önermiştir. Bu şekilde oluşturulan bir başka kestirici de, PLAD kestiricileridir. Ancak, PRM yöntemi 6 hesaplama açısından daha kolay olduğundan, literatürde daha çok ilgi çekmiştir [7, 31]. Önerilen biçimine yönelik yapılan benzetim çalışmaları, yöntemin iyi bir etkinlik ve yüksek bir sağlamlık özelliğine sahip olduğunu gösterir. PRM hesaplama açısından çok hızlıdır ve yüksek boyutlu veri kümeleri için kullanılabilir [7]. Serneels vd. [32] ise, SIMPLS algoritmasındaki kovaryans matrisi için ‘mekansal işaret kovaryans matrisi’ olarak adlandırılan, kovaryans matrisinin sağlam bir şeklini kullanılarak sağlam bir PLSR algoritması elde etmiştir. Bu yöntem, veriye mekansal işaret ön işleme (spatial sign preprocessing/SS-PP) ve akabinde standart bir PLS algoritmasının uygulanmasına eş olduğu için ‘SS-PP+PLS’ olarak adlandırılır [7, 32]. SS-PP kavramsal olarak basittir ve kolay hesaplanır. Çünkü ayarlanması gereken herhangi bir parametre ya da fonksiyon içermez [32]. SS-PP+PLS yönteminin hesaplanmasının kolay, normal modelde kabul edilir bir şekilde etkin ve hata terimleri Cauchy, Laplace gibi normal olmayan bazı dağılımlardan gelen modellerde iyi sonuçlar verdiği ve veri kümesinde aykırı değerlerden kaynaklanan çok fazla bozulmaya karşı kısmen sağlam olduğu sonuçlarına ulaşılmıştır. Mekansal işaret dönüşümünün yan özellikleri RSIMPLS’nin yan özelliklerinden daha az tercih edilebilir olduğundan, mekansal işaret dönüşümünün sadece hesaplama zamanının bir problem olduğu durumlarda kullanılması gerektiği belirtilmiştir [32]. Bu doktora tez çalışmasında, literatürde önerilen sağlam PLSR yöntemleri ayrıntılı olarak incelenmiştir. Literatürde var olan sağlam PLSR yöntemlerden özellikle yukarıda söz edilen PLS1 algoritmasının seçenek tanımındaki kovaryans matrisini sağlam bir kovaryans kestirim yöntemi ile kestirerek önerilen yöntemlerin uygulanış kolaylığı göz önüne alınarak, üç yeni sağlam PLSR yöntemi önerilmiştir. Önerilen bu üç yeni sağlam PLSR yöntemi, dik yükler algoritması olarak da adlandırılan PLS1 algoritması ile hesaplanan klasik PLSR yöntemi ve literatürdeki dört sağlam PLSR yöntemi RSIMPLS, PRM, PLS-SD ve PLS-KurSD ile etkinlik, veriye uyum ve kestirimdeki başarıları açısından benzetim çalışmaları ve gerçek bir veri kümesi üzerinde yapılan uygulamalar ile karşılaştırılmıştır. 7 Bu çalışma altı bölümden oluşmaktadır. Birinci bölüm olarak ele alınan giriş bölümünde tezin konusu, önemi, bu konuda yapılan önceki çalışmalar, tezin içeriği ve izlenecek düzen ana hatları ile verilmiştir. İkinci Bölüm’de, klasik PLSR yöntemi hakkında genel bilgi verilmiş ve bu yöntem ile parametre kestirimlerini elde etmek için kullanılan yinelemeli klasik PLSR algoritmaları ‘NIPALS (PLS1 ve PLS2)’ ile ‘SIMPLS’ algoritmaları incelenmiştir. Üçüncü Bölüm’de, ilk olarak sağlam bir kestiricinin sahip olması gereken özellikler ve önemli sağlamlık ölçütlerinden kısaca söz edilmiştir. Daha sonra, literatürdeki sağlam PLSR yöntemleri detaylı olarak tanıtılmıştır. Dördüncü Bölüm’de, Helland (1988)’de verilen yaklaşımı kullanarak PLSR bileşenlerini hesaplamadan ve doğrudan algoritmada kullanılan ağırlık matrisini hesaplayarak, PLSR kestirimlerinin sadece üç adımda elde edildiği PLS1 algoritmasının seçenek tanımındaki kovaryans matrisini sağlam bir şekilde kestirerek önerilen üç yeni sağlam PLSR yöntemi tanıtılmıştır. PLS-ARWMCD, PLS-Smult ve PLS-MMmult olarak adlandırılan bu üç yeni sağlam PLSR yöntemi sırasıyla, ‘ ilk adımda konum ve kovaryansın sağlam başlangıç kestiricileri olarak En Küçük Kovaryans Determinantı kestiricilerini kullanan, uyarlanabilir yeniden ağırlıklandırılmış bir kovaryans kestiricisi ‘, ‘ S-kestiricileri ’ ve ‘ MM-kestiricileri ’ olarak bilinen üç ayrı sağlam kovaryans kestirim yöntemini kullanarak önerilmiştir. Beşinci Bölüm’de ise, yapılan benzetim çalışmaları ve gerçek bir veri kümesi üzerindeki uygulama ile yeni önerilen üç sağlam PLSR yöntemi PLS-ARWMCD, PLS-Smult, PLS-MMmult ile klasik PLSR yöntemi ve literatürde var olan dört sağlam PLSR yöntemi RSIMPLS, PRM, PLS-SD, PLS-KurSD karşılaştırılmıştır. Yeni önerilen üç sağlam PLSR yöntemi de küçük boyutlu ve makul düzeyde aykırı değerler tarafından bozulan veri kümelerine uygulandığında, özellikle klasik PLSR yönteminden ve bazı durumlarda literatürde var olan sağlam RSIMPLS, PRM, 8 PLS-SD ve PLS-KurSD yöntemlerinden daha sağlam ve etkin sonuçlar vermektedir. Altıncı Bölüm’de ise, beşinci bölümde benzetim çalışmaları ve gerçek bir veri kümesi üzerindeki uygulamalar ile elde edilen sonuçlar özetlenmiş ve sonuçlar tartışılmıştır. 9 2. KISMI EN KÜÇÜK KARELER REGRESYONU Herman Wold tarafından 1960’lı yıllarda PLSR, bağımsız değişkenlerin çok sayıda ve ilişkili olması durumunda kestirime yönelik modeller elde etmek için yeni bir yöntem olarak geliştirilmiştir. PLSR yönteminde amaç, bağımsız X değişkenleri ve bir ya da birden fazla bağımlı Y değişkenlerinin oluşturduğu iki veri bloğu için elde edilmiş gizli değişkenler (Latent Variables/LV) kullanılarak, bu iki veri bloğu arasında ilişki bulmaktır. Bu yöntem ilk olarak Herman Wold tarafından 1966 yılında, ekonomik ve sosyal olayları modellemek için kullanılmıştır. PLSR yöntemi kimya bilim alanında Kowalski vd. tarafından 1979 yılında yapılan bir başlangıç çalışmasından sonra kullanılmaya başlanmıştır. 1980 yılından bu zamana kadar, birbirleri ile doğrusal ilişkili X ve Y değişkenlerinden oluşan iki bloklu özgün PLSR modeli, bilim ve teknoloji alanındaki verileri daha iyi çözümlemek için geliştirilmiştir. Böylece PLSR yöntemi, klasik regresyonun uygulanmasının zor olduğu karmaşık veri kümelerini çözümlemek için daha yararlı olmuştur [26] Bu bölümde, ilk olarak klasik PLSR yöntemi tanıtılacak ve kullanıldığı alanlar ile kullanım amaçlarından kısaca bahsedilecektir. İkinci olarak, PLSR parametre kestirimlerini elde etmek için kullanılan klasik PLSR algoritmaları PLS1, PLS2 ve SIMPLS tanıtılacaktır. 2.1. Kısmi En Küçük Kareler Regresyon Yöntemi Çok emek ve uzun süre gerektiren ancak doğru sonuç veren ölçme yöntemlerinin, ucuz, hızlı ve daha az doğruluğa sahip dolaylı ölçme yöntemleriyle yer değiştirmesi, ‘ayarlama’ olarak tanımlanır. Ayarlama, bir ya da birden çok bağımlı ve birden çok bağımsız değişken olduğunda, ‘çok değişkenli ayarlama (multivariate calibration)’ olarak adlandırılır. Çok değişkenli ayarlama çalışmaları, Kemometri bilim alanının en yaygın konularından biridir. Kemometri; istatistik, matematik ve bilgisayar kullanılarak kimyasal verilerin işlenmesini kapsayan kimya alanında bir bilim dalıdır.  XY fˆ  şeklindeki kestiricileri veren ayarlama 10 modellerinden biri de;  XT 1h ,   FTY  2h ve   ETX  3h şeklindeki LV’ler üzerinden regresyondur. Burada T özgün değişkenlerden daha az sayıdaki bileşeni temsil ederken, E ve F, artıkları temsil etmektedir. Bu türün temsilcisi olan PLSR yöntemi, Temel Bileşenler Regresyonu (Principal Component Regression/PCR) yöntemi gibi ayarlama modellemesi yapmak için kullanılan veri sıkıştırma yöntemlerinden bilineer (ikidoğrusal) yöntemlere girmektedir [26]. İlk olarak Kemometri biliminde yeni bir kestirim tekniği olarak ortaya çıkan PLSR yöntemi, daha sonra çok değişkenli ölçümler arasındaki doğrusal ilişkileri modellemek için yerleşmiş bir araç haline gelmiştir. Martens ve Jensen tarafından 1983 yılında, Kemometri bilim dalında tek bir Y değişkeninin olduğu veri için daha iyi kestirimler elde etmek amacıyla PLS yöntemi geliştirilmiştir. Wold vd. tarafından ise 1983 yılında, çok değişkenli Y için daha iyi kestirimler elde etmek amacıyla PLS yöntemi geliştirilmiştir. Günümüzde PLSR, birçok bilimsel ve teknolojik uygulamalarda sıklıkla kullanılan bir yöntem haline gelmiştir. Özellikle çoklubağlantı durumunda MLR uygulamalarında, kestirim bakımından daha başarılı ve daha az bileşenli modeller elde etmek için kullanılmaya başlanmıştır [26]. PLSR modelinin bulduğu ve bağımlı değişkenleri kesin bir anlamda açıklayacak olan LV’ler,  k,,2,1aa t ile gösterilebilir. Burada ‘k’, modelde kalacak ideal bileşen sayısıdır. En son PLSR modelinde kalacak ideal bileşen sayısı, genellikle en küçük Hata Kareler Ortalamasının Karekökü (Root Mean Squared Error/RMSE) değerini veren bileşen sayısı olarak ya da bir çapraz geçerlik (cross-validation/CV) süreciyle kestirilen tahmin hatasını minimize ederek seçilir [5, 26]. X ve Y’nin, aynı LV tarafından modellendiği varsayılır. Wold vd. [38], PLSR ve PCR yöntemlerinin benzer ve farklı yönlerini anlatmıştır. Her iki yöntemde de, y değişkenlerini kestirmek için x değişkenlerinin sayısından daha az bileşen kullanılarak regresyon probleminin boyutu azaltılır. Her bir bileşen, p1 ,, XX  ’nın doğrusal bir birleşimidir. İki yöntem arasındaki temel fark, PCR’de temel bileşenler (Principal Components/PC) bağımlı değişkenleri referans almadan belirlenirken, PLSR’de PC’ler belirlenirken gözlemlenen bağımlı değişkenler önemli rol oynar. PLSR 11 modelini elde etmek için, literatürde birçok algoritma tanıtılmıştır. Bu amaçla tanıtılan ilk algoritma, klasik NIPALS algoritmasıdır. NIPALS algoritmasına iyi bir seçenek olarak en çok kullanılan algoritma ise SIMPLS algoritmasıdır [26]. Bir sonraki alt bölümlerde, bu algoritmalar detaylı olarak anlatılacaktır. 2.2. Doğrusal Olmayan Yinelemeli En Küçük Kareler (NIPALS) Algoritması Veri kümesinde tek bir y değişkeni olduğunda NIPALS algoritması, ‘PLS1’ ve çoklu Y değişkeni için kullanıldığında ise, ‘PLS2’ adını alır. Birden çok y değişkeni olduğunda, PLS1 yöntemi ile elde edilen modeller her zaman açıklanan varyans bakımından daha iyi modeller vereceğinden, PLS2 modellerine tercih edilir. Ancak, bağımlı değişkenler ilişkili olduğunda PLS2 yönteminin uygulanması daha uygundur. Bu algoritma isteğe bağlı olarak, ölçeklendirilmiş ve merkezileştirilmiş sırasıyla bağımsız ve bağımlı değişkenlerin yer aldığı X ve Y matrisleri ile başlar ve daha sonra, aşağıdaki adımlarla gösterilen şekilde devam eder. Tek bir y değişkeni olduğunda ise, PLS1 adını alan algoritma yinelemeli değildir. Algoritmadan da görüldüğü üzere, bir sonraki yineleme bir önceki yinelemeden elde edilen X ve Y artık matrisleri ile başlar. Yinelemelere, bir durdurma ölçütü kullanılana kadar ya da X sıfır matrisi olana kadar devam edilebilir. PLS2 algoritmasının işleyişi, aşağıdaki adımlar ile gösterilebilir [11, 26, 37, 38]. Adım 1: Yinelemeli algoritmaya, u skor vektörü için bir başlangıç değeri olarak, genellikle Y’nin ilk sütunu ya da tüm sütunların ortalaması seçilerek başlanır. Tek bir y değişkeni olduğunda, u=y’dir. Adım 2: X ağırlıkları uuuXw  / şeklinde, X’in y skor vektörü u’nun üzerine regresyonu ile bulunur. Böylece Xw doğrusal birleşimi ile y arasında maksimum kovaryans elde edilir. w Öklid normunu göstermek üzere, ağırlıklar www / şeklinde normalleştirilir. 12 Adım 3: X skorları olan t, X’in satırlarının w üzerine yansıması gibi bulunur: Xwt  . Adım 4: Daha sonra c ile gösterilen Y ağırlıkları, tttYc  / şeklinde bulunur. c ağırlıkları da, ccc / şeklinde normalleştirilir. Adım 5: Son olarak, Y skorlarının güncellenmiş bir kümesi, Ycu  şeklinde bulunur. Adım 6: t’deki değişimden yararlanılarak, yakınsaklık denetlenir. Örneğin,  yeniyenieski / ttt ’dır. Burada  , 610 ya da 810 arasında küçük bir değerdir. Eğer yakınsaklık sağlanmaz ise Adım 2’ye dönülür, sağlanır ise Adım 7 ile ve daha sonra tekrar Adım 1 ile devam edilir. Eğer tek bir y değişkeni varsa Adım 4’deki normalleştirilmiş c, 1’e eşit olur ve süreç tek bir yinelemede yakınsar. Daha sonra ise, doğrudan Adım 7 ile devam eder. Adım 7: Eğer yakınsaklık sağlanır ise X ve Y matrislerinden, elde edilen bileşen çıkarılır. Bu indirgenmiş yeni artık matrisleri ise, bir sonraki bileşenin elde edilmesinde yeni X ve Y matrisleri olarak kullanılır. X ve Y matrisleri indirgenmeden önce X yükleri, Y yükleri ve b regresyon katsayısı aşağıdaki gibi hesaplanır. X yükleri  tttXp  / Y yükleri:  uuuYq  / Regresyon (t üzerine u’nun):  tttu  /b Daha sonra, bir sonraki bileşenin hesaplanması için yeni artık matrisleri, ptXX  ve ctYY  b şeklinde elde edilir. 13 Adım 8: Son olarak, CV, X matrisinde Y hakkında daha fazla önemli bilgi olmadığını gösterene kadar bir sonraki bileşenin hesaplanmasıyla devam edilir (Adım 1’e geri dönülür) [26]. PLS2 algoritması için Adım 2 ve Adım 4 incelendiğinde, bu adımlar regresyon adımları olarak görülebilir. Örneğin, Adım 2’deki normalleştirilmemiş w vektörü, u üzerine X değişkenin regresyon katsayısı gibidir [37]. PLS1 algoritmasının adımlarını veren, iki benzer biçimi ise aşağıdaki gibi gösterilebilir. Aşağıdaki adımlardan görüldüğü üzere, algoritmada dört farklı regresyon adımı kullanılmaktadır [9, 11]: Klasik Biçim Regresyonlar Türünden Biçimleri yXw  yyyXw  / Regresyon www / www / Normalleştirme Xwt    wwwXt    / Regresyon tttXp  / tttXp  / Regresyon ttty  /b ttty  /b Regresyon ptXX  ptXX  X artık matrisi tyy b tyy b y artık vektörü 2.2.1. Tek Bir Bağımlı DeğiĢken için DikleĢtirilmiĢ PLSR Algoritması Kestirim yapmak için PLSR literatüründe kullanılan iki benzer algoritma vardır. Bunlar, Wold vd. (1983)’te tanıtılan dik skorlar algoritması ile Martens ve Naes [22]’te tanıtılan ve daha sonra Denham [3]’te yeniden bahsedilen dik yükler algoritmasıdır. Dik yükler algoritması, kısaca aşağıdaki gibi tanımlanır. Bu 14 algoritma da, bir önceki bölümde söz edilen algoritma ile aynı sonucu veren bir PLS1 algoritmasıdır [3, 19, 22]. İlk olarak, X matrisi ve y vektörü sırasıyla, x1XX 0 ve y1yy 0 şeklinde merkezileştirilir. İdeal bileşen sayısı ‘k’ belirlenir. Daha sonra, k,,1a  için [3, 22];  Ağırlıklar hesaplanır: 1a1aa   yXw  Ağırlıklar için ölçeklendirme faktörü hesaplanır:   2/1 aac   ww  aw ağırlıklarının uzunlukları 1’e ölçeklendirilir: aa cww   Skorlar hesaplanır: a1aa wXt   Yükler için ölçeklendirme faktörü hesaplanır: aac tt  X yükleri hesaplanır: c/a1aa tXp    Y yükleri hesaplanır: c/a1aa tyq    X artıkları hesaplanır: aa1aa ptXX    Y artıkları hesaplanır: aa1aa qtyy   k tane bileşen için bu adımlar hesaplandıktan sonra, en son olarak   qWPWb 1  şeklinde regresyon katsayıları elde edilir. Burada,  k21k ,,, wwwW  ,  k21k ,,, pppP  ve  k21k ,,, qqqQ  ’dur [3, 22]. 2.2.2. Klasik PLS1 Algoritmasının Seçenek Tanımı   Xyz , , örneklem boyutu n olan 1+p boyutlu bir vektör olsun. Bu vektör, p tane bağımsız değişkenin bir kümesi ve bir tek bağımlı y değişkeni olarak ayrıştırılabilir. Vektörler, bir boyutlu sütun matrisleri olarak düşünülür. zS , Eş. (2.1)’de gösterilen elemanlara sahip bir örneklem kovaryans matrisi olsun [10]. 15           XXy, Xy,y z Ss ss S 2 (2.1) Burada Xy,s , y ve x değişkenleri arasındaki kovaryansların 1p boyutlu vektörüdür. Amaç, xβy  ˆˆ ’i kestirmek olduğunda bağımlı değişkenin, x değişkenlerinin doğrusal fonksiyonları olan   pk,,, k1 tt  bileşenlerinin bir kümesi tarafından doğrusal olarak açıklanabileceği varsayılır. ‘k’ modelde kalacak ideal bileşen sayısı olduğuna göre, pn boyutlu bağımsız değişkenler matrisi X’in i. satırı ix ile gösterildiğinde Eş. (2.2) ve Eş. (2.3)’deki modeller yazılır [10]. iεPtx  ii (2.2) iii ηtqy  (2.3) Eş. (2.2)’deki P,   ik1ii t,,t t vektörlerinin kp boyutlu yükleri ve q, y yüklerinin k boyutlu vektörüdür. iε ve iη hata vektörleri; sıfır ortalamaya sahip, normal dağılımlı ve ilişkisizdir.   k1 ,, ttT  bileşen matrisi, doğrudan gözlemlenmemiş ve kestirilmelidir. Buna göre, T matrisinin en çok olabilirlik kestirimi Eş. (2.4)’deki gibidir [10]. kXWT  (2.4) Eş. (2.4)’deki  k21k ,,, wwwW  ağırlık matrisi, kp boyutlu katsayılar matrisidir ve ki1,i w ’ler Eş. (2.6)’daki kısıtlar altında xy,sw 1 olmak üzere Eş. (2.5)’i sağlayacak şekilde elde edilir [10].  yXww w ,covmaxarg 2 i  (2.5) 1ww ve ij1,0ji  wSw x (2.6) 16 Böylece, elde edilen  k1 ,, tt  bileşenleri diktir ve iw vektörleri, Eş. (2.7)’deki matrisin en büyük özdeğerlerine ilişkin özvektörler olarak bulunur. Burada  iXP , iWSX tarafından kapsanan uzayın üzerindeki projeksiyon matrisidir ve Eş. (2.8)’deki gibi gösterilir [10].    xy,xy,x ssPI  i (2.7)                  i 1 iiii WSWSWSWSP xxxxx (2.8) Sonuç olarak, iw vektörleri Eş. (2.9) ve Eş. (2.10)’daki gibi yinelemeli olarak hesaplanır [10]. xy,sw 1 (2.9)   ki1,i 1 iii1i    xy,xxxy, sWWSWWSsw (2.10) Eş. (2.9) ve Eş. (2.10) kullanıldığında, PLS bileşenleri it ’leri hesaplamak gerekmemektedir. Algoritmanın her bir adımında 1iw , sadece i tane önceki vektörler i21 ,,, www  ’ye, xS ve xy,s ’e dayalıdır. Ayrıca, 1w ’in hesaplanması da sadece xy,s ’e dayalı olduğundan, sonuç olarak W’nin hesaplanması xS ve xy,s ’in değerleri ile sabitlenmiştir. En son olarak, t değişkenlerinin ilişkisiz olmasından dolayı Eş. (2.3)’deki q ile gösterilen regresyon katsayıları ilişkisiz olduğu için, özgün değişkenler için regresyon katsayıları Eş. (2.11)’deki gibi hesaplanır [10].   xy,x sWWSWWβ k 1 kkk PLS k ˆ   (2.11) Böylece, PLSR regresyon katsayıları Helland (1988)’de verilen algoritma kullanılarak doğrudan hesaplanmış olur [13]. 17 2.3. PLS Yönteminin Ġstatistiksel Olarak EsinlenilmiĢ DeğiĢikliğinin Basit Bir Uygulaması (SIMPLS) Algoritması PLSR regresyon katsayılarını elde etmek için De Jong [2] SIMPLS algoritmasını önermiştir. SIMPLS algoritması NIPALS algoritmasından farklı olarak, bileşenleri indirgenmiş X matrisi yerine özgün X matrisinin doğrusal birleşimleri olarak tanımlamayı amaçlar. PLS bileşenleri belirli diklik ve normalleştirme kısıtlarına uyarak, bir kovaryans ölçütünü maksimize edecek şekilde belirlenir. SIMPLS, klasik PLSR algoritması olarak da bilinen NIPALS ile her zaman aynı modeli vermemektedir [26]. Bu bölümde SIMPLS algoritması, Hubert ve Vanden Branden [15] makalesinde verilen biçimiyle anlatılmıştır. SIMPLS yönteminde x ve y değişkenlerinin, Eş. (2.12) ve Eş. (2.13)’deki gibi iki tane doğrusal model ile bağlı olduğu varsayılır [15]. iik,pi ~ gtPxx  (2.12) iik,qi ~ ftAyy  (2.13) Bu modellerdeki i ~ t ’ler, k boyutlu skorları ve k,pP , x yükleri matrisini gösterir. Her bir denklemin artıkları sırasıyla, ig ve if ile gösterilir. q,kA , yi’nin i ~ t üzerinden elde edilen regresyon katsayılarını gösterir. PLS’ye ilişkin literatürde, genellikle q,kA matrisi q,kQ olarak gösterilir ve k,qQ ’nın kolonları ise, y yükleri aq ile gösterilir. Ancak Hubert ve Vanden Branden [15], aq ’yı PLS ağırlık vektörünü göstermek için kullandığından, burada Q yerine A gösterimini tercih etmiştir [15]. Eş. (2.12) ve Eş. (2.13), iki adımlı algoritma anlamına gelir. Veri kümesi merkezileştirildikten sonra, SIMPLS ilk olarak k tane LV,   n1k,n ~ ,, ~~ ttT  ’yi oluşturur ve ikinci olarak, bu k tane LV üzerinden bağımlı değişkenler için regresyon yapılır. k,n ~ T ’nın kolonları, bileşenler olarak adlandırılır. xxx  ii ~ ve yyy  ii ~ olmak üzere, p,n ~ X ve q,n ~ Y merkezileştirilmiş veri matrislerini göstersin. 18 Buna göre, normalleştirilmiş PLS ağırlık vektörleri ar ve aq , her bir k,,1a  bileşen için Eş. (2.14)’deki kovaryansı en büyük yapan vektörler olarak tanımlanır [15].   ayxrSqr XY qrXqY aa p,nn,q aap,naq,n 1n ~~ ~ , ~ Cov     (2.14) Bu ifadede 1n ~~ q,nn,p    YX SS xyyx , x ve y değişkenleri arasındaki kovaryans matrisidir. Buna göre i ~ t skorlarının elemanları, merkezileştirilmiş aiia ~~ rxt  verisinin doğrusal birleşimleri olarak ya da benzer şekilde  k1k,p ,, rrR  olmak üzere, k,pp,nk,n ~~ RXT  şeklinde tanımlanır. Birden fazla çözüm elde etmek için, jj ~~ rXt  birleşenleri Eş. (2.15)’de gösterildiği gibi dik olmalıdır [15].    n 1i iaijaja ja,0 ~~~ r ~~ ttttXXrj (2.15) Eş. (2.15)’deki koşulu sağlamak için ise, Eş. (2.16)’daki gibi hesaplanan, x değişkenleri ve j. bileşen j ~ rX arasındaki doğrusal ilişkiyi tanımlayan x yükü jp tanıtılır [15].     jxjxjj rSrSrrXXrXXrp 1 j 1 jj ~~~~   (2.16) Buradaki xS , x değişkenlerinin kovaryans matrisidir. Eş. (2.16)’daki tanım, a>j için 0aj rp olduğu zaman Eş. (2.15)’in gerçekleştiği anlamına gelir. Bu nedenle, PLS ağırlık vektörü ar , tüm önceki x yükleri  1a11a ,,   ppP  ’e dik olmalıdır. Sonuç olarak ar ve aq , 1aP ’e dik olan bir alt uzaya yansıtılan xyS ’nin ilk sol ve sağ tekil vektörleri olarak hesaplanır. Bu yansıma ise,  1a1 ,, pp  ’nin birimdik bir temeli 19  1a1 ,, vv  ’yi oluşturarak gerçekleştirilir. Daha sonra 1a xyS , Eş. (2.17)’deki gibi indirgenir ve ar ile aq , a xyS ’nın ilk sol ve sağ tekil vektörleri olur [15].  1a xyaa 1a xy a xy SvvSS   (2.17) Bu yinelemeli algoritmaya 1 xyxy SS  ile başlanır ve k tane bileşen elde edilinceye kadar süreç tekrar edilir. Algoritmanın ikinci aşamasında, bağımlı değişkenler bu bileşenlerden kestirilir. Bu nedenle, ilgilenilen regresyon modeli Eş. (2.18)’deki gibidir [15]. iik,qi ~ ftAαy 0  (2.18) Bu eşitlikteki if için,   0E if ve   fi Σf Cov ’dir. MLR yöntemi ile Eş. (2.19), Eş. (2.20) ve Eş. (2.21)’deki kestirimler elde edilir [15].         xyx SRRSRYXRRXXR YTTTSSA p,k 1 k,pp,kq,nn,pp,k 1 k,pp,nn,pp,k q,nn,k 1 k,nn,kty 1 tq,k ˆ     (2.19) tAyα0 ~ˆˆ k,q  (2.20) q,kk,nn,kk,qq,nn,qq,kk,qf ˆˆˆˆ ATTAYYASASS ty  (2.21) yS ve tS , sırasıyla y değişkenlerinin ve t bileşenlerinin kovaryans matrisini gösterir. Burada MLR, birden fazla x değişkeni ile yapılan ve q>1 olduğunda ise çok değişkenli çoklu regresyon olarak da bilinen klasik LS regresyonunu gösterir. 0 ~ t olduğu için, 0α sabiti y ile kestirilir [15]. 20  xxRt  ip,ki ~ ’yi Eş. (2.13)’de yerine koyarak Eş. (2.22)’deki asıl model için kestirimler, Eş. (2.23)’deki gibi elde edilir. Eş. (2.22)’deki ie hata terimleri için   0E i e ve   eicov Σe  ’dir. Burada eΣ , q boyutlu kovaryans matrisidir [15]. iip,q0i exBβy  (2.22) q,kk,pq,p ˆˆ ARB  ve xByβ p,q0 ˆˆ  (2.23) En son olarak, fS ’yi özgün parametreler cinsinden yazarak, eΣ ’nin bir kestirimi Eş. (2.24)’deki gibi elde edilir. q=1 şeklinde tek bir bağımlı değişken olduğunda, 1,pB̂ parametre kestirimleri β̂ vektörü şeklinde yeniden yazılabilir ve eS hata varyansı, 2 e 2 e sσ̂  ’ye sadeleşir [15]. q,pp,qq,kk,pp,nn,pp,kk,q q,kk,nn,kk,qq,kk,qye ˆˆˆˆ ˆˆˆˆ BSBSARXXRAS ATTASASASS xyy yt   (2.24) Standart NIPALS algoritmasına göre, SIMPLS algoritmasının birkaç avantajı vardır. İlk olarak, bileşenler doğrudan özgün veri matrisi cinsinden hesaplandığından, R ağırlıkları alışılmış W ağırlıklarından daha basit bir yoruma sahiptir. İkinci olarak, özgün değişkenlerin basit doğrusal birleşimleri olarak bileşenleri yorumlamak daha kolay olur. Bir başka avantajı ise, bileşenler özgün değişkenlerin doğrusal birleşimleri olarak ifade edildiğinde, en son PLSR modelinin kolayca elde edilebilmesidir. SIMPLS algoritmasında, NIPALS algoritmasında olduğu gibi, X ve Y veri matrislerini indirgemek gerekmemektedir. Böylece, hesaplama daha hızlı olur ve daha az hafıza gerekir. SIMPLS tek değişkenli y için tamamen PLS1’e benzerken, çok değişkenli Y için PLS2’den farklılık gösterir [2]. 21 3. SAĞLAM KISMĠ EN KÜÇÜK KARELER REGRESYONU Bu bölümde, ilk olarak Alt Bölüm 3.1’de sağlam bir kestiricinin sahip olması gereken özellikler ve önemli sağlamlık ölçütlerinden söz edilecektir. Daha sonra, Alt Bölüm 3.2’de sağlam PLSR yöntemlerinin elde ediliş nedeni ve hangi yöntemler ile hangi klasik PLSR algoritmalarından elde edildikleri hakkında kısaca bilgi verilecektir. Alt Bölüm 3.3 ve daha sonraki alt bölümlerde ise, literatürdeki sağlam PLSR yöntemleri daha detaylı bir biçimde tanıtılacaktır. 3.1. Sağlam Kestiricilerin Sahip Olması Gereken Özellikler ve Önemli Sağlamlık Ölçütleri Sağlam bir kestirici için istenen önemli bir özellik, ‘dirençlilik’ olarak ifade edilebilir. Eğer bir kestirici az sayıdaki büyük hatadan ya da herhangi bir miktardaki yuvarlama-gruplama hatalarından sınırlı miktarda etkileniyor ise, o kestirici dirençlidir denir [18]. Sağlam kestiriciler, aykırı değerlerin büyük oranına karşı ya da varsayımlardan sapmalara karşı dirençli olmalıdır. Farklı koşullar için farklı sağlam yöntemleri karşılaştırabilmek için, bu yöntemlere ilişkin sağlamlık ölçütleri gereklidir [23]. Bu alt bölümde, bir kestiricinin sağlamlık özelliklerini değerlendirmek için literatürde en çok kullanılan iki ölçüt tanıtılacaktır: kırılma noktası (breakdown point/BDP) ve etki fonksiyonu (influence function/IF). 3.1.1. Kırılma Noktası Bir kestirici için BDP, gözlemlerin ne kadarı bozulduğunda kestiricinin kırılmayacağını, yani kestirimlerde sağlam sonuçlar elde edeceğini gösteren bir ölçüttür. Bu ölçüt, gözlem sayısına dayalı olarak (1/n) ya da n için sınırlandırılmış bir değer olarak (% 0) verilebilir. Eğer bir kestiricinin BDP’si sıfırdan büyük ise, bu kestirici dirençlidir denir [18]. Bir kestiricinin BDP değerinin sıfır olması, tek bir aykırı değerin varlığının bile modeli değiştirebileceği anlamına gelir. Örneğin, LS kestiricisinin BDP değeri sıfırdır. Bir kestiriciye ilişkin en yüksek BDP değeri, % 50 olabilir. Çünkü verideki aykırı değerlerin yüzdesi, % 50’den fazla olur 22 ise verinin, iyi ve kötü kısımlarını ayırmak imkansız hale gelir [36]. BDP değeri % 50 olan ve yüksek dayanıklılık gösteren kestiriciler, yüksek kırılma noktasına (high breakdown point/HBDP) sahip kestiriciler olarak adlandırılır [23].    yXZ ,TT  regresyon parametre kestiricisini göstermek üzere, bu kestiricinin BDP’si sonlu örneklem için Eş. (3.1)’deki gibi ifade edilebilir [39].            ZZT Tsup; n m min,n (3.1) Burada  yXZ  , , ‘m’ aykırı gözlem sayısını göstermek üzere,  yXZ , verisinde m tane gözlemin keyfi olarak başka gözlemlerle değiştirilmesi ile elde edilir [39]. Eş. (3.1)’e göre BDP, kestiricinin parametre değerinden uzaklaşmasına neden olacak aykırı gözlem sayısının toplam gözlem sayısına oranının supremumu (sup) olarak tanımlanabilir. Staudte ve Sheather (1990), kestiricilerin BDP’sinin, kestiricideki değişim için bir sınır olarak düşünüldüğünde, bu sınırın aşılmasına neden olan en yüksek aykırı gözlem oranının BDP’yi vereceğini ifade etmiştir [7]. 3.1.2. Etki Fonksiyonu 1986 yılında Hampel tarafından etki fonksiyonu (influence function/IF) tanıtılmıştır. IF, veride bulunan ölçülemeyecek kadar küçük bir bozulmanın, bir kestirici üzerindeki etkisini ölçmektedir. IF ile farklı sağlam yöntemlerin tek bir aykırı değer altında, daha detaylı niteliksel bir karşılaştırılması yapılır. Eğer tek bir aykırı değer bile kestiricinin kırılmasına neden olur ise, IF sınırlandırılmış olur. IF’yi değerlendirmek için, veriye ilişkin dağılımsal varsayımlar yapılmalıdır. Bu durum ise analizi genellikle daha karmaşık bir hale getirir ve özellikle n

p olan veriye uyması ve açık bir algoritmanın elde edilememesidir [7, 9, 15]. Çok değişkenli konum ve kovaryans için geliştirilen Stahel-Donoho kestiricisinin adı, Stahel (1981) ve Donoho (1982)’nun bağımsız çalışmalarından ortaya çıkmıştır. Yöntemin temel fikri, çok değişkenli konum ve kovaryansın klasik kestiriminde aykırı gözlemlerin ağırlığını azaltmaktan ortaya çıkmıştır. Çok değişkenli aykırı değerler, çok değişkenli uzayda saklanabilir. Çok değişkenli aykırı değerleri bulmak, bir anlamda çok değişkenli konum ve kovaryans kestirimi ile ilişkilidir. Çünkü güvenilir kestirimler elde edildikten sonra, Mahalanobis uzaklıkları hesaplanabilir ve büyük Mahalanobis uzaklıklarına sahip gözlemler potansiyel çok değişkenli aykırı değerler olarak düşünülebilir. SDE, çok değişkenli aykırı değerleri çok basit bir yöntem ile belirler. Bu yöntemde her bir gözlem bir boyutlu uzaya yansıtılır ve aykırılığın bir ölçüsü hesaplanır. Çok değişkenli uzaydan bir boyutlu uzaya sonsuz sayıda fazla mümkün yansıma yönü olduğu için, her bir gözlem için aykırılığın sonsuz sayıda ölçüsü elde edilir. Bu nedenle amaç, mümkün tüm yansıma yönlerinden supremumu belirlemektir [7]. 32 Stahel-Donoho yöntemi ile elde edilen konum ve kovaryans kestiricileri,   n,,1i,,y iii     xz için sırasıyla Eş. (3.6) ve Eş. (3.7)’deki gibi tanımlanır [20].       n 1i i n 1i i SDE d d ˆ iz Zμ (3.6)                n 1i i n 1i SDEiSDEii SDE d ˆˆd ˆ ZμzZμz ZΣ (3.7) Bu eşitliklerdeki n1 d,,d  parametreleri, verideki aykırı değerlerin ağırlığını azaltmak için hesaplanan ağırlıklardır.  .d ağırlık fonksiyonunu göstermek üzere, ağırlıklar   Zz ,rdd ii  şeklinde hesaplanır. Buradaki  .r ise, Eş. (3.8)’deki gibi elde edilir [20].                   Zδ Zδzδ Zz i 1 i sup,r (3.8) Eş. (3.8)’deki , gözlemlerin üzerine yansıtıldığı p+q boyutlu bir birim (unity) vektördür. Buradaki q, bağımlı değişken sayısını gösterir. ’nin doğru seçimi aykırı değerleri ortaya çıkarmadaki başarıyı belirler. Ancak, ’nin belirlenmesi zordur ve hesaplanmasını kolaylaştırmak literatürdeki çalışmalarda tartışılmıştır. izδ , kordinat sisteminin merkezi ve iz ’nin ’nin üzerine yansıması arasındaki uzaklıktır.  zδ ve  zδ sırasıyla, Z’deki gözlemlerin ’nin üzerine yansımalarının ortanca ve ortanca mutlak sapmalarıdır.  Zz ,r i ’nin mümkün en büyük değeri, o gözlem için ‘aykırılık’ olarak adlandırılır [20]. 33 Stahel-Donoho kestiricisinin dezavantajı, yakınsak algoritmaların önerilmesine karşın hesaplanmasının uzun süre almasıdır. Bu nedenle de, her zaman tam biçimi ile hesaplanamamaktadır. Genel olarak, alt örnekleme süreçleri ile birlikte yakınsama yöntemleri kullanılır. Gil ve Romera [9], aşağıdaki biçime sahip seçenek bir alt örnekleme yöntemi kullanmıştır [9, 20]. Adım 1: Rasgele olarak her biri p+q+2 tane gözlem içeren, N tane alt örneklem seçilir. Adım 2: Her bir alt örneklemden, en büyük Mahalanobis uzaklığına sahip gözlem çıkarılır. Adım 3: Bir alt kümede geriye kalan p+q+1 gözlemden, p+q tane gözlemin p+q+1 farklı kombinasyonu vardır. Her bir p+q gözlemli alt küme tarafından karışlanan hiper düzleme dik olan, bir  vektörü elde edilebilir. Bu nedenle, her bir alt küme için p+q+1 tane  vektörü oluşturulur. Adım 4: Eş. (3.8)’i kullanarak her bir gözleme ilişkin ‘aykırılık’ değerini hesaplamak için, her bir gözleme her bir  vektörü uygulanır. Gil ve Romera [9], Eş. (3.7)’deki sağlam kovaryans kestirimini PLS1 algoritmasının Alt Bölüm 2.2.2’deki tanımındaki Eş. (2.9), Eş. (2.10) ve Eş. (2.11) eşitliklerinde kullanarak, PLS-SD olarak isimlendirilen sağlam PLSR algoritmasını önermiştir. Alt örnekleme yönteminden de anlaşılacağı üzere, yöntemin temel dezavantajı sadece gözlem sayısının değişken sayısından fazla olduğu veri kümelerine uygulanabilmesidir [7]. 34 3.4.2. BACON Algoritmasına Dayalı Sağlam Kısmi En Küçük Kareler Regresyon Yöntemi Billor vd. (2000) tarafından önerilen ‘Parçalı Uyarlanabilir Hesaplama Yönünden Etkin Aykırı Gözlem Belirleyicisi (Blocked Adaptive Computationally Efficient Outlier Nominators/BACON)’ algoritması, hem çok değişkenli veriye hem de regresyon problemlerine uygulanabilir. BACON algoritması çok değişkenli veri için uygulandığında, aykırı değerleri belirler ve X bağımsız değişkenlerinin varyans- kovaryans matrisinin sağlam kestirimlerini verir. Algoritma regresyon için kullanıldığında ise, çok değişkenli durumda elde edilen sağlam kestirimleri kullanır ve bağımlı bir y değişkeni için β̂ regresyon parametre vektörünü sağlam bir şekilde kestirir. BACON algoritması, ‘m’ gözlemden oluşan ve büyük olasılıkla aykırı değer içermeyen, bir temel başlangıç alt kümesi oluşturarak başlar. Buradaki m gözlem sayısı, verinin analizini yapan kişi tarafından belirlenir. Daha sonra başlangıç temel alt kümesine uyan gözlemler, bu alt kümeye eklenir. Eğer tüm gözlemler temel alt kümeye eklenirse, veride aykırı değerlerin olmadığı kesinleşir. Ancak, temel altkümeye uymayan gözlemler çok değişkenli aykırı değerler olarak adlandırılır [19]. Kondylis ve Hadi [19], Billor vd. (2000) tarafından önerilen BACON algoritmasını PLS1 algoritmasının Alt Bölüm 2.2.2’deki tanımındaki Eş. (2.9), Eş. (2.10) ve Eş. (2.11) eşitliklerinde kullanarak tek bir bağımlı değişkenin olduğu model için PLSR yöntemini sağlamlaştırmıştır. Kondylis ve Hadi [19] tarafından önerilen algoritma, ‘BACON-PLSR (BPLSR)’ olarak isimlendirilmiştir. Burada ‘B’ harfi, BACON varyans-kovaryans matrisinin kullanıldığını vurgular. Kondylis ve Hadi [19], iki nedenle BACON kestirimlerini kullanmıştır: Birincisi, BACON’un hesaplama açısından çok etkin olması ve ikincisi, aykırı değerleri belirlemede aşırı derecede etkin olmasıdır. Örneğin, BACON algoritması 3-5 yinelemede yakınsar ve aykırı değerlerden kaynaklanan % 20’ye kadar olan bozulmayı hoş görür. Hem gerçek veri kümesi üzerindeki uygulama hem de benzetim çalışmasından elde edilen sonuçlar, BPLSR algoritmasının aykırı değerlere karşı dirençli olduğunu gösterir. Regresyon kestirimleri, en azından aykırı değerlerin varlığı ile makul düzeylerde bozulmuş veri kümelerinde, aykırı değerlerden fazla etkilenmemektedir. Sadece 35 aykırı değerler tarafından yüksek bozulma düzeylerinde ve veri kümelerinin göreceli olarak yüksek boyutlularında BPLSR’nin kestirim başarısı düşer [19]. 3.4.3. Yansımaların Basıklık Katsayısına ve Stahel-Donoho Kestiricisine Dayalı Sağlam PLSR Yöntemi (PLS-KurSD) Pena ve Prieto [25], klasik SDE yönteminden daha etkin bir şekilde elde edilen ‘rasgele yönler’ ile yansıtılan verinin basıklık katsayısını en büyük ve en küçük yaparak elde edilen ‘özel yönlerin’ bir birleşimini kullanarak, çok değişkenli veri kümesinde aykırı değerleri araştıran bir yöntem önermiştir. Bu ‘rasgele yönler’ ve ‘özel yönler’ olmak üzere iki tür yönlerin birleşimi, faydalı teorik özellikleri olan ve iyi bir performansı olan bir sürecin elde edilmesini sağlamıştır. Böylece bu yeni süreç, SDE’nin iyi teorik özelliklerine sahipken, aynı zamanda basıklık sürecinin büyük kaldıraç kümelenmiş aykırı değerleri (high leverage concentrated outliers) bulmak için sahip olduğu iyi özelliklere de sahip olur [10]. Pena ve Prieto [25], bu yöntemi çok değişkenli aykırı değerleri ortaya çıkarmak için önermiştir. González vd. [10] ise bu yöntemi, PLS-SD algoritmasına benzer biçimde Alt Bölüm 2.2.2’de verilen PLS1 algoritmasında kullanılan zS kovaryans matrisini sağlam bir biçimde kestirmek amacıyla kullanmış ve böylece, sağlam PLSR kestirimleri elde etmiştir. González vd. [10], bu sağlam PLSR algoritmasını ‘PLS-KurSD’ olarak isimlendirmiştir. González vd. [10] tarafından önerilen algoritma, çok değişkenli aykırı değerlerden temizlenmiş bir kovaryans matrisini elde etmek için tasarlanmıştır ve aşağıda anlatılan üç adımı kullanarak işler. Genellemeyi kaybetmeden, özgün verinin sıfır ortalamaya ve zS kovaryansına sahip olduğu varsayılır. Gözlemler, Eş. (3.9)’u kullanarak dönüştürülür [10]. n,,1i,~ i 2/1 zi   zSz (3.9) Algoritma, üç adıma sahiptir. İlk adımda, yansımaların (projections) basıklık katsayısını en büyük ve en küçük yaparak iki özel yön üretilir ve bu yönlerde, 36 aykırı değerler için tek değişkenli araştırma yapılır. İkinci adımda, Pena ve Prieto [25] çalışmasında bahsedilen tabakalı örneklemeye ilişkin süreç takip edilerek rasgele yönler üretilir ve yeniden aykırı değerler tespit edilir. Üçüncü adımda, tüm şüpheli gözlemler örneklemden geçici olarak silinir ve geriye kalan verinin ortalaması ile kovaryans matrisi hesaplanır. Daha sonra, Mahalanobis uzaklığını kullanarak tüm şüpheli gözlemler kontrol edilir. Aykırı gözlemler olarak belirlenen gözlemler örneklemden silinir ve daha fazla aykırı değer bulunmayana kadar, sürecin üç adımı yeni temizlenmiş örnekleme yeniden uygulanır. Bu adımların detayları, aşağıda anlatılacaktır [10]. Adım 1: Yansımanın basıklık katsayısını, en büyük ve en küçük yapan yönler ve aynı zamanda bu iki yönde, verinin normalleştirilmiş tek değişkenli uzaklıkları hesaplanır. Yansımanın basıklık katsayısını en büyük yapan yön, 1δδ kısıtı altında Eş. (3.10)’daki problemin çözümü olarak elde edilir [10].   4n 1i i1 ~ n 1 maxarg    zδδ δ (3.10) Aynı süreç, basıklık katsayısının en küçük yapan yönün hesaplanmasına uygulanmıştır. 2δ , bu ikinci yön ve   2,1j,~p i j i  zδ bu iki yöne yansıyan değerler olsun. Bu yansımış değerler için  j ir normalleştirilmiş tek değişkenli uzaklıklar, Eş. (3.11)’deki gibi hesaplanır. Bu eşitlikteki MAD ise, Eş. (3.12)’deki gibi hesaplanır [10].           2,1j, pMAD pcatanorp1 r j ii j ii j i p j i    β (3.11)        j ii j ii j ii pcatanorpcatanorpMAD  (3.12) Eş. (3.11)’deki pβ ise, p boyutuna dayalı önceden belirlenmiş referans değeridir ve 0.05’e eşit I. hatayı elde etmek için Monte Carlo ile elde edilir [10]. pβ , basıklık 37 katsayısını en küçük ya da en büyük yapan yönler üzerine gözlemlerin yansımalarından aykırı değerleri belirlemek için bir eşik değeri gibi davranır [25]. Pena ve Prieto [25] çalışmasında gösterildiği üzere bu adım,   1r j i  olan gözlemlerden oluşan kümelerin oluşturduğu aykırı değerleri belirleyecektir. Eğer aykırı değerler grubunun boyutu küçük ise (kabaca % 20’den daha küçük ise) aykırı değerleri belirlemek için faydalı yön 1δ olacaktır. Ancak boyut büyük olur ise, faydalı yön 2δ olacaktır [10]. Adım 2: Bir tabakalı örnekleme sürecinden, rasgele yönler hesaplanır. Daha sonra, bu yönlerdeki aykırı değerler için araştırma yapılır. Pena ve Prieto [25] çalışmasında önerilen süreç tarafından üretilen bu rasgele yönler, aykırı değerleri belirlemek için kullanılan standart SDE yönteminden daha etkindir. Her bir yön, iki aşamada üretilmiştir. İlk aşamada, örneklemden iki gözlem rasgele seçilir, bu iki gözlem tarafından tanımlanan yön hesaplanır ve daha sonra, gözlemler bu yön üzerine yansıtılır. Bu işlem, L,,1l için tekrar edilir. L, rasgele yönlerin sayısıdır. İkinci aşama, her bir l için K tane tabakalı örneklemi şu şekilde oluşturur: Yansımalar sıralanır ve n/K boyutlu K tane aralığa bölünür. K, her bir rasgele yön için önceden belirlenmiş aralık sayısıdır Kk1  olmak üzere, bu k aralıktan her birinden p gözlemden oluşan bir alt örneklem yerine koymadan seçilir ve bu p tane gözlem tarafından üretilip, hiper düzleme (hyperplane) dik olan j ~ δ yönü hesaplanır. Adım 1’de olduğu gibi j ~ δ yönü, aykırı değerleri araştırmak için kullanılır. Bu yöndeki   ij j i ~~ p~ zδ yansımaları, Eş. (3.13)’teki normalleştirilmiş tek değişkenli  j ir ~ uzaklıklarını verir [10].           LK,,1j, p~MAD p~catanorp~1 r~ j ii j ii j i p j i    β (3.13) Adım 3: Her bir i gözlemine ilişkin normalleştirilmiş aykırılık ölçüsü, Eş. (3.14)’deki gibi elde edilir [10]. 38         LK i 1 i 2 i 1 ii r~,,r~,r,rmaxr  (3.14) 1ri  olan gözlemler aykırı değerler olarak etiketlenir ve eğer aykırı gözlem sayısı   2/p1nn  ’den daha az ise örneklemden çıkartılır. Ancak, aykırı değer sayısı bu değerden fazla ise sadece en büyük ir değerlerine sahip olan   2/p1nn  tane gözlem aykırı değer olarak etiketlenir [10]. Son olarak U, aykırı değer olarak etiketlenmeyen tüm gözlemlerin bir kümesini göstersin. Aykırı olmayan gözlemlere ilişkin konum ve kovaryans sırasıyla, Eş. (3.15) ve Eş. (3.16)’daki gibi hesaplanır [10].    Ui i U 1~ zm (3.15)        mzmzS ~~ 1U 1~ i Ui iZ (3.16) Algoritma, aykırı değerler olarak etiketlenen özgün gözlemlerin aykırı olmayan ‘iyi gözlemlere’ göre Mahalanobis uzaklığını Eş. (3.17)’deki gibi hesaplar [10].     Ui,~~~v~ i 1 zii     mzSmz (3.17) 1pp  olmak üzere, Ui olan gözlemlerden 2 99.0,1piv~  şeklinde Mahalanobis uzaklıkları eşik değerinden küçük olanların aykırı değer olmadığı düşünülür ve bu gözlemler de U kümesinde yer alır [10]. Yukarıda anlatılan üç adım, daha fazla aykırı değer bulunmayana kadar (ya da U, tüm gözlemlerin kümesi haline gelene kadar) tekrarlanır. Pena ve Prieto [25] çalışmasındaki gibi, en son elde edilen kovaryans matrisinin tutarlılık için ölçeklendirilmesi gerekmez. Çünkü elde edilen PLSR katsayıları ve yönleri, ölçek değişikliklerine karşı sabittir. Bu algoritma, belirli sayıda parametre içerir. 39 Uygulamada bu parametrelere atanan değerler, yeterli teorik ve etkinlik özelliklerini sağlamak için Pena ve Prieto [25] çalışmasında tavsiye edildiği gibi seçilir. pβ parametresi, I. tür hataların makul bir değerini sağlamak için seçilir ve örneklem uzayı boyutu p’ye dayalıdır. Pena ve Prieto [25] çalışmasından alınan Çizelge 3.1, birkaç örneklem uzay boyutu için kullanılan değerleri gösterir. Diğer boyutlar için değerler, plogβ ’yi doğrusal olarak logp’ye interpole ederek elde edilir. Adım 2’deki aralık sayısı K, p’ye dayalı olarak 3 ya da 5 olarak seçilir ve L, 10p’ye eşittir [10]. Çizelge 3.1. Adım 1 ve Adım 2 için tek değişkenli yansımalar için kesim değerleri. Örneklem uzayı boyutu p 5 10 20 Kesim değeri p 3.46 3.86 4.67 Sonuç olarak, önerilen sağlam PLSR algoritması PLS-KurSD sağlam kovaryans matrisi zS ~ ’ye dayalıdır. Bu sağlam PLSR algoritmasında 1w , Xy,s~ vektörünün normalleştirilmesi olarak düşünülür ve böylece, z ~ S ’nin ilk kolonu ilk elemanı oluşturur. Aynı zamanda iw ’nin sonraki değerleri ise, Eş. (3.18)’i kullanarak sağlam bir biçimde hesaplanır [10].   aj1,~~~~ j 1 jjj1j    Xy,XXXy, sWWSWWSsw (3.18) Bu önerilen sağlam PLSR algoritmasında, her bir gözlem için sağlam Mahalanobis uzaklığını hesaplamak ve veriyi aykırı değerlerden temizlemek için, aykırılığın önerilen ölçüsü kullanılır [10]. Buraya kadar olan alt bölümlerde, klasik PLS1 ve PLS2 algoritmalarında yapılan değişikler ile elde edilen sağlam PLSR yöntemleri hakkında bilgiler verilmiştir. Alt Bölüm 3.5’te ise, SIMPLS algoritmasında yapılan değişiklikler ile elde edilen sağlam PLSR yöntemleri incelenecektir. 40 3.5. SIMPLS Algoritmasının SağlamlaĢtırılmasıyla Elde Edilen Sağlam PLSR Yöntemleri SIMPLS algoritması, PLS1 ve PLS2’den daha hızlı olduğu ve sonuçlarının yorumlanması daha kolay olduğundan, PLSR kestirimlerini elde etmek için en sık kullanılan PLSR algoritmasıdır. Ancak, SIMPLS algoritması bağımlı ve bağımsız değişkenler arasındaki varyans-kovaryans matrisine ve LS regresyonuna dayalı olduğundan, sonuçlar aykırı gözlemlerden etkilenir. Bu nedenle, Hubert ve Vanden Branden [15], sırasıyla çok değişkenli regresyon yöntemi olan MCD regresyon ve ROBPCA regresyon yöntemlerini kullanarak algoritmanın sağlamlaştırılmış biçimleri olan RSIMCD ve RSIMPLS algoritmalarını geliştirmiştir [15]. RSIMCD ve RSIMPLS algoritmalarını anlatmadan önce, p>n olan büyük boyutlu veri kümelerinde sağlam kovaryans kestiriminin nasıl yapılacağı ve ROBPCA yöntemini kullanarak sağlam bileşenlerin elde edilmesi anlatılmalıdır. Buna göre,  q,np,nm,n ,YXZ  , birleştirilmiş kümeyi göstersin. SIMPLS algoritmasındaki i ~ t bileşenleri, xyS ve xS kovaryans matrislerinden hesaplanır. Hem bu iki kovaryans hem de SIMPLS algoritmasının ikinci aşamasında uygulanan LS regresyonu, aykırı değerlere karşı çok hassastır. Hubert ve Vanden Branden [15], xyS ve xS ’i sırasıyla, xΣ ve xyΣ ’nin sağlamlaştırılmış kestirimleri ile yer değiştirerek ve MLR yerine sağlam bir regresyon yöntemi uygulayarak, SIMPLS algoritmasının iki tane sağlamlaştırılmış biçimi olan RSIMPLS ve RSIMCD algoritmalarını önermiştir. Bu sağlam kovaryans matrislerini elde etmek için, Huber vd. (2003) tarafından önerilen ve sağlam bir Temel Bileşenler Analizi (Principal Component Analysis/PCA) yöntemi olan ROBPCA kullanılmıştır RSIMPLS ve RSIMCD algoritmalarının her ikisi de, bir ya da birden çok bağımlı değişkenin olduğu model için de kullanılabilir. Ancak, çalışmada sadece çok değişkenli durum için gösterimlere yer verilmiştir [15]. MCD kestiricisinin temeli, [n/2]p olur ise 41 uygulanabilir; çünkü p>n olur ise aynı zamanda p>h olur ve herhangi bir h gözlemin kovaryans matrisi her zaman tekil olacağından elde edilen determinant da sıfır olacaktır. Bu nedenle, h gözlemin her bir alt kümesi, mümkün en küçük determinantı verecektir ve tek bir sonuç elde edilemeyecektir [7, 15]. Bu nedenle, m=p+qn olan yüksek boyutlu veri kümelerine uygulanamadığı için, projeksiyon izleme (projection pursuit) algoritmaları geliştirilmiştir. ROBPCA iki yaklaşımı birleştirir: Donoho (1982) ve Stahel (1981)’deki projeksiyon izleme fikirlerini kullanarak her bir gözlemin aykırılığını hesaplar ve en küçük aykırılığa sahip h tane gözlemin kovaryans matrisini inceler. Daha sonra veri, bu kovaryans matrisinin k0