dc.contributor.advisor | Bahçecitapar, Melike | |
dc.contributor.author | Demircigil, Can | |
dc.date.accessioned | 2024-10-18T07:29:27Z | |
dc.date.issued | 2024 | |
dc.date.submitted | 2024-05-03 | |
dc.identifier.uri | https://hdl.handle.net/11655/36044 | |
dc.description.abstract | Data obtained by tracking the same units over time and taking measurements repeatedly are called "longitudinal data”. Longitudinal data collected in fields such as medicine, psychology, sociology, environmental science, etc. are analysed with special statistical methods such as Mixed Effects Models rather than time series and classical regression analyses.
Machine learning algorithms, which have become increasingly popular in recent years, have become available for longitudinal datasets. At this point, with the effect of information technologies, these algorithms can be used as packages using software such as R and Python. Machine learning algorithms utilized in the analysis of longitudinal data are used to estimate the fixed effect parameters of Mixed Effects Models, and these methods can handle different responses such as categorical or quantitative results and survival times. Furthermore, these methods can work with variables of various scales or distributions without any assumption requirements and are also suitable for multidimensional datasets where the number of explanatory variables is greater than the number of observations.
In this thesis, a balanced longitudinal dataset containing measurements at 5 different time points for 1569 vehicles that regularly come for inspection every two years between 2013 and 2023 using administrative records compiled at vehicle inspection stations for motor vehicles registered to traffic in Türkiye is analysed with Mixed Effects Models as statistical models and machine learning algorithms, one of the branches of artificial intelligence. The effects of the explanatory variables of year, vehicle type, fuel type and purpose of use on the distances travelled by the vehicles according to years, which have measurements showing a right-skewed distribution, are examined by creating Mixed Effects Models with statistical and machine learning methods. Generalized Linear Mixed Effects Models (GLMM) from statistical methods and Mixed Effects Random Tree/Forest, Random Effects Expectation Maximisation Tree/Forest, GLMM Tree and Gaussian Process Boosting methods from machine learning methods were applied on the longitudinal dataset considering different link functions and covariance structures and the models were compared according to performance evaluation criteria. As a result of this study, it is concluded that the Mixed Effect Random Forest algorithm with AR(1) variance-covariance structure is the best model among all statistical and machine learning models according to the MSE, RMSE and MAE model performance evaluation criteria. | tr_TR |
dc.language.iso | tur | tr_TR |
dc.publisher | Fen Bilimleri Enstitüsü | tr_TR |
dc.rights | info:eu-repo/semantics/openAccess | tr_TR |
dc.subject | Hibrit yöntemler | tr_TR |
dc.subject | Karma etkiler modelleri | tr_TR |
dc.subject | Makine öğrenmesi | tr_TR |
dc.subject | Uzun süreli veriler | tr_TR |
dc.subject.lcsh | H- Sosyal bilimler | tr_TR |
dc.title | Uzun Süreli Verilerin Analizinde Kullanılan Makine Öğrenmesi Algoritmaları | tr_TR |
dc.title.alternative | Machine Learning Algorithms for Longitudinal Data Analysis | |
dc.type | info:eu-repo/semantics/masterThesis | tr_TR |
dc.description.ozet | Aynı birimlerin zaman boyunca takip edilerek ölçümlerin tekrarlı olarak alınması ile elde edilen veriler “uzun süreli veriler” (boylamsal veriler) olarak adlandırılmaktadır. Tıp, psikoloji, sosyoloji, çevre bilimi vb. alanlarda toplanan uzun süreli veriler, zaman serileri ve klasik regresyon analizlerinden ziyade karma etkiler modelleri gibi özel istatistiksel yöntemlerle analiz edilmektedir.
Son yıllarda popülerliği giderek artan makine öğrenmesi algoritmaları uzun süreli veri kümeleri için de kullanılabilir hale gelmiştir. Bu noktada bilgi teknolojilerinin de etkisiyle R ve Python gibi yazılımlar kullanılarak bu algoritmalar paketler halinde kullanılabilmektedir. Uzun süreli verilerin analizinde başvurulan makine öğrenmesi algoritmaları karma etkiler modellerinin sabit etki parametrelerinin tahmin edilmesi için yararlanılmakta olup bu yöntemler nitel veya nicel sonuçlar ve hayatta kalma süreleri gibi farklı cevapları ele alabilmektedir. Ayrıca, bu yöntemler herhangi bir varsayım gereksinimini çeşitli ölçeklerdeki veya dağılımlardaki değişkenlerle çalışabilmekte ve açıklayıcı değişken sayısının gözlem sayısından daha fazla olduğu çok boyutlu veri kümeleri için de uygundur.
Bu tez çalışmasında, Türkiye’de trafiğe kayıtlı olan motorlu taşıtlara ilişkin araç muayene istasyonlarında derlenen idari kayıt verileri kullanılarak 2013-2023 yılları arasında her iki yılda bir düzenli olarak muayeneye gelen 1569 adet araca ilişkin 5 farklı zaman noktasında ölçümler içeren dengeli bir uzun süreli veri kümesi istatistiksel model olarak karma etkiler modelleri ve yapay zekâ dallarından biri olan makine öğrenmesi algoritmaları ile incelenmiştir. Sağa çarpık bir dağılım gösteren ölçümlere sahip olan araçların yıllara göre katettikleri mesafeler üzerinde yıl, araç cinsi, araçların yakıt türü ve kullanım amacı açıklayıcı değişkenlerinin etkileri istatistiksel ve makine öğrenmesi yöntemleri ile karma etkili modeller oluşturularak incelenmiştir. İstatistiksel yöntemlerden Genelleştirilmiş Doğrusal Karma Etki Modelleri (GDKEM) ile makine öğrenmesi yöntemlerinden Karma Etkili Rastgele Ağaç/Orman, Rastgele Etki Beklenti Maksimizasyonu Ağacı/Ormanı, GDKEM Ağacı ve Gauss Süreci Güçlendirmesi yöntemleri uzun süreli veri kümesi üzerinde farklı bağ fonksiyonları ve kovaryans yapıları düşünülerek uygulanmış ve modeller performans değerlendirme ölçütlerine göre karşılaştırılmıştır. Çalışma sonucunda, AR(1) varyans-kovaryans yapısına sahip Karma Etkili Rastgele Orman algoritmasının tüm istatistiksel ve makine öğrenmesi modelleri içerisinde HKO, HKOK ve OMH model performans değerlendirme ölçütlerine göre en iyi sonuç veren model olduğu sonucuna ulaşılmıştır. | tr_TR |
dc.contributor.department | İstatistik | tr_TR |
dc.embargo.terms | Acik erisim | tr_TR |
dc.embargo.lift | 2024-10-18T07:29:27Z | |
dc.funding | Yok | tr_TR |