Show simple item record

dc.contributor.advisorGenç, Burkay
dc.contributor.authorDoğan, Kübra
dc.date.accessioned2023-06-05T13:34:56Z
dc.date.issued2023
dc.date.submitted2023-01-10
dc.identifier.urihttps://hdl.handle.net/11655/33332
dc.description.abstractRegression analysis is a method used to model the relationship between the dependent variables and the independent variable in the data, and to predict the dependent variable from the independent variables in the future data. Piecewise linear regression (PLR) is a powerful approach used in regression analysis. PLR models the data with multiple linear regression functions. Thus, it can model non-linear data as well as retain the interpretability of linear regression. Interpretability has recently become a hot topic for machine learning. In application areas such as finance and health, it is important for a model not only provide a good prediction, but also be interpretable and/or verifiable by domain experts. In this respect, we think PLR is a promising approach. In this study, we define PLR problem as in which data is partitioned into intervals on a predetermined dimension and each interval is represented by a unique multivariate linear regression. We offer a method by adopting heuristic approaches and aim for a solution with practically acceptable computational efficiency even in large data sets. The proposed method is compared with Decision Tree, Random Forest, XGBoost, XGBoost with Random Forest learners, Support Vector Machines, K-Nearest Neighbors, Artifical Neural Network and Multivariate Adaptive Regression Splines algorithms. Several synthetic and real-world datasets containing moderate and large number of observations are used in the experiments. Synthetic data are particularly targeted by the proposed approach because they are generated in a way to include structural shifts. The results reveal that our method remains competitive with the well-known machine learning algorithms and outperforms especially in the synthetic dataset instances. Our method is also compared with a mathematical programming-based heuristic method and it is clearly observed that the proposed method provides better scores. When we examine at the computational efficiency results of the proposed method, we observe that even the largest datasets (containing 100000 observations) have computation times expressed in milliseconds. Overall, the results show that PLR can be an effective method, especially when considered the interpretability property it holds.tr_TR
dc.language.isoentr_TR
dc.publisherFen Bilimleri Enstitüsütr_TR
dc.rightsinfo:eu-repo/semantics/openAccesstr_TR
dc.subjectPiecewise linear regressiontr_TR
dc.subjectHeuristic algorithm
dc.subjectInterpretability
dc.subjectMachine learning
dc.subjectNon-linear data
dc.titleA Computationally Efficient Heuristic Algorithm For Piecewise Linear Regressiontr_TR
dc.typeinfo:eu-repo/semantics/masterThesistr_TR
dc.description.ozetRegresyon analizi verideki bağımlı değişkenler ile bağımsız değişken arasındaki ilişkiyi modellemek ve gelecek veride bağımsız değişkenlerden bağımlı değişkeni tahminlemek için kullanılan bir yöntemdir. Parçalı doğrusal regresyon (PDR) ise regresyon analizinde kullanılan güçlü bir yaklaşımdır. PDR veriyi birden fazla doğrusal regresyon fonksiyonu ile modeller. Böylece, doğrusal regresyonun yorumlanabilirlik özelliğini barındırmakla birlikte doğrusal olmayan verileri de modelleyebilir. Yorumlanabilirlik özelliği son zamanlarda makine öğrenmesi için revaçta olan bir konu haline gelmiştir. Finans ve sağlık gibi uygulama alanlarında bir modelin sadece iyi bir tahminde bulunması değil, aynı zamanda yorumlanabilir ve/veya konu uzmanları tarafından doğrulanabilir olması önem taşımaktadır. Bu açıdan PDR'nin umut verici bir yaklaşım olduğunu düşünüyoruz. Bu çalışmada, PDR'yi, verinin önceden belirlenmiş bir boyutta aralıklara bölündüğü ve her aralığın benzersiz bir çok değişkenli doğrusal regresyon ile ifade edildiği bir problem olarak tanımlıyoruz. Büyük veri setlerinde dahi pratik olarak kabul edilebilir seviyede hesapsal verimliliğe sahip bir çözüm hedefleyerek sezgisel bir yaklaşım kullanan bir çözüm yöntemi sunuyoruz. Önerilen yöntem Decision Tree, Random Forest, XGBoost, Random Forest öğrenicileri kullanan XGBoost, Support Vector Machines, K-Nearest Neighbors, Artifical Neural Network ve Multivariate Adaptive Regression Splines algoritmalarıyla karşılaştırılmıştır. Deneylerde orta ve büyük ölçekte gözleme sahip birçok sentetik ve gerçek veri seti kullanılmıştır. Sentetik veriler, yapısal kaymaları içerecek şekilde üretildikleri için önerilen yaklaşım tarafından özellikle hedeflenmektedir. Sonuçlar yöntemimizin iyi bilinen makine öğrenmesi algoritmalarıyla rekabetçi kaldığını ve özellikle de sentetik verilerde daha iyi performans gösterdiğini ortaya koymaktadır. Yöntemimiz ayrıca matematiksel programlama tabanlı sezgisel bir yöntem ile de karşılaştırılmış ve daha iyi sonuç gösterdiği gözlemlenmiştir. Önerilen yöntemin hesapsal verimlilik sonuçlarına baktığımızda ise en büyük (100000 gözlem içeren) veri setlerinde dahi milisaniyelerle ifade edilen hesaplama sürelerine sahip olduğunu görüyoruz. Genel olarak sonuçlar özellikle yorumlanabilirlik özelliği dikkate alındığında PDR'nin etkili bir yöntem olabileceğini göstermektedir.tr_TR
dc.contributor.departmentBilgisayar Mühendisliğitr_TR
dc.embargo.termsAcik erisimtr_TR
dc.embargo.lift2023-06-05T13:34:56Z
dc.fundingYoktr_TR


Files in this item

This item appears in the following Collection(s)

Show simple item record