dc.contributor.advisor | Çetin, Meral | |
dc.contributor.author | Ural, Nuri Berk | |
dc.date.accessioned | 2024-10-07T12:40:07Z | |
dc.date.issued | 2024-07-01 | |
dc.date.submitted | 2024-06-03 | |
dc.identifier.uri | https://hdl.handle.net/11655/35873 | |
dc.description.abstract | In today's digital age, the amount of data generated is rapidly increasing due to ever-growing digital activities and technological advancements, paving the way for a new field of study known as "big data." The concept of big data goes beyond traditional data processing techniques not only due to its volume but also because of its variety and velocity. Traditional statistical methods fall short in the face of the complexity and scale of this data. Therefore, within the discipline of data science, it has become inevitable to develop new and more advanced methods and technologies to effectively control, analyze, and transform this massive data flow into valuable insights.
These new methods have also led to significant advancements in fields such as Machine Learning and Artificial Intelligence, making data interpretation processes more efficient and effective. This evolution has positioned data science not merely as an academic curiosity but as a critical component in strategic decision-making processes in business, healthcare, finance, and many other sectors. Along with these developments, the model-building process has also become much more complex. At this point, the importance of variable selection to enhance model prediction performance and achieve meaningful results becomes evident. Incorrect variable selection can negatively impact the model's prediction performance and lead to misleading results.
Variable selection is a critical step in obtaining meaningful and accurate results from large datasets. The selection of incorrect or irrelevant variables can severely degrade the overall predictive ability of the model, lead to misleading outcomes, and result in wrong decisions. Therefore, the use of advanced selection techniques and algorithms to identify the correct variables is of vital importance in data science practices. These techniques help manage model complexity, protect against overfitting, and most importantly, improve prediction performance. In particular, accurate variable selection in Machine Learning (ML) and Artificial Intelligence (AI) models can enhance the model's generalization capacity on real-world data, leading to more reliable and high-accuracy results.
This study examines the role of variable selection methods in prediction performance for energy consumption forecasting. Within this scope, the effectiveness of variable selection methods and the performance of models created using these methods are compared using various Machine Learning algorithms. The dataset used in the study is designed to predict the energy consumption of household appliances. This dataset includes temperature and humidity measurements taken every 10 minutes for 4.5 months by sensors placed in various rooms and outside the house. It consists of a total of 19,735 observations and 28 variables, with no missing or incomplete observations.
The primary objective of the study is to evaluate the detailed effects of variable selection methods on the prediction performance of machine learning algorithms. Within this scope, methods such as Correlation-Based Feature Selection (CFS), Variance-Based Selection, Forward Selection, Backward Elimination, Stepwise Selection, Genetic Algorithms-Based Selection, Lasso Regression-Based Selection, Ridge Regression-Based Selection and Robust Feature Selection Method were used. After each variable selection method, models were created using Linear Regression, Decision Trees, Random Forests, Support Vector Machines, Principal Component Analysis, and Neural Networks algorithms, and the performance of these models was evaluated using Mean Absolute Error (MAE), Mean Squared Error (MSE), and R² metrics.
The results of the study present a comparative analysis of the impact of different variable selection methods and machine learning algorithms on the performance of energy consumption prediction, contributing to the literature by drawing parallels with other studies in this field. Significant findings were obtained regarding which variable selection method and machine learning algorithm are most suitable for energy consumption forecasting. These findings provide guidance for data scientists and researchers in selecting appropriate methods and algorithms for their datasets. The study aims to contribute to the advancement of knowledge, research, and application methodologies in the dynamic discipline of data science. | tr_TR |
dc.language.iso | tur | tr_TR |
dc.publisher | Fen Bilimleri Enstitüsü | tr_TR |
dc.rights | info:eu-repo/semantics/openAccess | tr_TR |
dc.subject | Değişken seçim yöntemleri | tr_TR |
dc.subject | Makina öğrenmesi algoritmaları | tr_TR |
dc.subject | Değişken Seçim Yöntemleri | tr_TR |
dc.title | Makine Öğrenmesinde Değişken Seçim Yöntemlerinin Karşılaştırılması: Ev Enerjisi Tüketim Tahmini | tr_TR |
dc.type | info:eu-repo/semantics/masterThesis | tr_TR |
dc.description.ozet | Günümüz dijital çağında, her geçen gün artan dijital aktiviteler ve teknolojik gelişmeler sayesinde üretilen veri miktarı hızla büyümekte ve bu durum, "büyük veri" olarak adlandırılan yeni bir çalışma alanının doğuşuna zemin hazırlamaktadır. Büyük veri kavramı, sadece hacmiyle değil, çeşitliliği ve üretim hızıyla da geleneksel veri işleme tekniklerinin ötesine geçmektedir. Geleneksel istatistiksel yöntemler, bu verinin karmaşıklığı ve büyüklüğü karşısında yetersiz kalmaktadır. Bu nedenle, veri bilimi disiplini içerisinde bu devasa veri akışını etkili bir şekilde kontrol edebilmek, analiz edebilmek ve değerli bilgilere dönüştürebilmek için yeni ve daha gelişmiş yöntemlerin ve teknolojilerin geliştirilmesi kaçınılmaz hale gelmiştir.
Bu yeni yöntemler, makine öğrenmesi ve yapay zekâ gibi alanlarda da önemli ilerlemelere yol açarak veriden anlam çıkarma süreçlerini daha etkin ve verimli hale getirmiştir. Bu durum, veri bilimi alanının sadece akademik bir merak konusu olmaktan çıkıp iş dünyası, sağlık, finans ve birçok diğer sektörde stratejik karar alma süreçlerinde kritik bir role sahip olmasına neden olmuştur. Bu gelişmelerle birlikte model oluşturma süreci de çok daha karmaşık hale gelmiştir. Bu noktada, modelin doğru tahmin performansını arttırmak ve anlamlı sonuçlar elde etmek için değişken seçiminin ne kadar kritik olduğu ortaya çıkmaktadır. Yanlış değişken seçimi, modelin tahmin performansını olumsuz yönde etkileyebilir ve yanıltıcı sonuçların ortaya çıkmasına zemin hazırlayabilir.
Değişken seçimi, büyük veri kümelerinden elde edilen anlamlı ve doğru sonuçlar için kritik bir adımdır. Yanlış veya önemsiz değişkenlerin seçimi, modelin genel tahmin kabiliyetini ciddi şekilde bozabilir, yanıltıcı sonuçlara yol açabilir ve yanlış kararların alınmasına sebep olabilir. Bu nedenle, veri bilimi pratiklerinde doğru değişkenleri belirleyebilmek için gelişmiş seçim teknikleri ve algoritmalarının kullanımı hayati öneme sahiptir. Bu teknikler, modelin karmaşıklığını yönetmeye, aşırı uyuma (overfitting) karşı korumaya ve en önemlisi tahmin performansını iyileştirmeye yardımcı olur. Özellikle Makine Öğrenmesi (ML) ve Yapay Zekâ (AI) modellerinde doğru değişken seçimi, modelin gerçek dünya verileri üzerindeki genelleme kapasitesini artırarak daha güvenilir ve doğruluk oranı yüksek sonuçlar üretmesine olanak tanıyabilir.
Bu tez çalışması, enerji tüketimi tahmininde değişken seçim yöntemlerinin tahmin performansındaki rolünü incelemektedir. Bu kapsamda, çeşitli ML algoritmaları kullanılarak değişken seçim yöntemlerinin etkinliği ve bu yöntemlerle oluşturulan modellerin performansları karşılaştırılmıştır. Çalışmada kullanılan veri kümesi, ev aletlerinin enerji tüketimini tahmin etmek amacıyla oluşturulmuş bir veri kümesidir. Bu veri kümesi, bir evdeki çeşitli odalarda ve dış cephede yerleştirilen sensörlerle 4 buçuk ay boyunca her 10 dakikada bir alınan sıcaklık ve nem ölçümlerini içermektedir. Toplamda 19735 gözlem ve 28 değişkenden oluşmaktadır. Kayıp veya eksik gözlem bulunmamaktadır.
Çalışmanın temel amacı, değişken seçim yöntemlerinin ML algoritmalarının tahmin performansına olan etkilerini detaylı bir şekilde değerlendirmektir. Bu kapsamda, Korelasyon Tabanlı Seçim (CFS), Varyans Tabanlı Seçim, İleriye Doğru Seçim, Geriye Doğru Eleyerek Seçim, Adımsal Seçim, Genetik Algoritmalar Tabanlı Seçim, Lasso Regresyon Tabanlı Seçim, Ridge Regresyon Tabanlı Seçim ve Robust (Sağlam) Değişken Seçim Yöntemi kullanılmıştır. Her bir değişken seçim yöntemi sonrası seçilen değişkenlerle Doğrusal Regresyon, Karar Ağaçları, Rastgele Ormanlar, Destek Vektör Makineleri, Temel Bileşenler Analizi ve Yapay Sinir Ağları algoritmaları kullanılarak modeller oluşturulmuş ve bu modellerin performansları Ortalama Mutlak Hata (MAE), Hata Kareler Ortalaması (MSE) ve Açıklanma Oranı (R²) ölçütleri kullanılarak değerlendirilmiştir.
Çalışmanın sonuçları, farklı değişken seçim yöntemleri ve ML algoritmalarının enerji tüketimi tahmin performansı üzerindeki etkilerini karşılaştırmalı olarak sunmakta ve bu alanda yapılan diğer çalışmalarla paralellikler kurarak literatüre katkı sağlamaktadır. Özellikle, hangi değişken seçim yönteminin ve ML algoritmasının enerji tüketimi tahmini için en uygun olduğu konusunda önemli bulgular elde edilmiştir. Bu bulgular, veri bilimcileri ve araştırmacılar için veri kümelerine uygun yöntem ve algoritma seçiminde rehberlik edecek niteliktedir. Çalışma, veri bilimi alanında bilgi birikiminin artırılmasına, araştırma ve uygulama metodolojilerinin geliştirilmesine ve bu dinamik disiplinin ilerlemesine katkıda bulunmayı amaçlamaktadır | tr_TR |
dc.contributor.department | İstatistik | tr_TR |
dc.embargo.terms | Acik erisim | tr_TR |
dc.embargo.lift | 2024-10-07T12:40:08Z | |
dc.funding | Yok | tr_TR |