dc.contributor.advisor | Akçapinar Sezer, Ebru | tr_TR |
dc.contributor.author | Naderalvojoud, Behzad | tr_TR |
dc.date.accessioned | 2015-10-15T08:40:30Z | |
dc.date.available | 2015-10-15T08:40:30Z | |
dc.date.issued | 2015 | tr_TR |
dc.identifier.uri | http://hdl.handle.net/11655/2582 | |
dc.description.abstract | Text classification is a task of assigning a document into one or more predefined categories based on an inductive model. In general, machine learning algorithms assume that datasets consist of almost homogeneous class distribution. However, learning methods can be tended to the classification which has poorly performance over the minor categories while using imbalanced datasets. In multi-class classification, major categories correspond to the classes with the most number of documents and also minor ones correspond to the classes with the lowest number of documents. As a result, text classification is the process which can be highly affected from the class imbalance problem. In this study, we tackle this problem using category based term weighting approach in combination with an adaptive framework and machine learning algorithms. | tr_TR |
dc.language.iso | en | tr_TR |
dc.publisher | Fen Bilimleri Enstitüsü | tr_TR |
dc.subject | Text classification | tr_TR |
dc.title | Investigation of Imbalance Problem Effects
on Text Categorization | tr_TR |
dc.type | info:eu-repo/semantics/masterThesis | tr_TR |
dc.callno | 2015/1694 | tr_TR |
dc.contributor.departmentold | Ağaçişleri Endüstri Mühendisliği | tr_TR |
dc.description.ozet | Metin sınıflandırma, dökümanı önceden tanımlanmış bir veya daha fazla kategori içerisinden birine atama işlemidir. Genel olarak, makine öğrenmesi algoritmaları veri kümelerinin nerede-yse homojen olduğunu varsaymaktadır. Bununla birlikte, öğrenme yöntemleri dengesiz veri kümelerini kullanarak küçük kategoriler üzerinde kötü performansa sahip sınıflandırma eğilimi gösterebilmektedir. Çoklu sınıflandırmada, ana kategoriler çok sayıda dökümanı içeren sınıflara karşılık gelirken, küçük kategoriler ise dökümanı sayısı küçük olan sınıflara karşılık gelmektedir. Bunun sonucu olarak, metin sınıflandırma dengesiz sınıf probleminden oldukça etkilenen bir süreçtir. Bu çalışma içerisinde, makine öğrenmesi algoritmaları ve uyarlanabilir çerçeveyle birlikte kategori tabanlı vadeli ağırlıklandırma yaklaşımı kullanılarak bu sorun ele alınmaktadır. | tr_TR |