Basit öğe kaydını göster

dc.contributor.advisorGenç, Burkay
dc.contributor.authorErdoğan, Ali Burak
dc.date.accessioned2023-06-06T05:54:21Z
dc.date.issued2023-01
dc.date.submitted2023-01-09
dc.identifier.urihttps://hdl.handle.net/11655/33376
dc.description.abstractDiscretization is the task of converting quantitative (continuous) numerical data into qualitative (categorical) by assigning them into non-overlapping intervals. It is an important step in reducing the complexity of data in data mining and exploratory data analysis studies. There are many methods that provide discretization schemes on continuous attributes, such as equal-width, equal-frequency, and minimum description length principle (MDLP). On the other hand, these methods ignore the multivariate nature of the dataset and focus on a single feature space for discretization. This causes a loss of information with respect to the correlations between attributes. Moreover, unlabeled data cannot be discretized with supervised methods (e.g. MDLP) that use class labels. We propose a new technique for unsupervised, multivariate, global, and static discretization; a discretizer based on information entropy which employs a constrained shortest-path algorithm. We test our technique on manually crafted randomized synthetic datasets as well as well-known real datasets. We show that our approach provides a more meaningful discretization in test cases. This may allow the retrieval of meaningful intervals, which are hidden, for data exploratory tasks. Also, classification accuracy on real datasets generally improves with our method unlike other univariate benchmark methods. Hence, our method may serve to achieve better accuracy on classification tasks.tr_TR
dc.language.isoentr_TR
dc.publisherFen Bilimleri Enstitüsütr_TR
dc.rightsinfo:eu-repo/semantics/openAccesstr_TR
dc.subjectMultivariate discretizationtr_TR
dc.subjectDiscretizertr_TR
dc.subjectData miningtr_TR
dc.subjectExploratory data analysistr_TR
dc.subject.lcshBilgisayar mühendisliğitr_TR
dc.titleA Novel Multivariate Discretization Algorithm Using Dynamic Programmingtr_TR
dc.typeinfo:eu-repo/semantics/masterThesistr_TR
dc.description.ozetAyrıklaştırma, nicel ve sürekli sayısal verileri, kesişmeyen aralıklara atayarak, nitel ve sınıflan-dırılabilir bir veriye dönüştürme işlemine verilen isimdir. Ayrıklaştırma, veri madenciliği ve keşifsel veri analizi çalışmalarında verinin karmaşıklığını azaltmak için uygulanan önemli bir adımdır. Eşit-genişlik, eşit-sıklık ve MDLP (minimum tanım uzunluğu prensibi) gibi sürekli sayısal verileri ayrıklaştırmak için kullanılan birçok yöntem mevcuttur. Bununla beraber, saydığımız yöntemler verinin çok değişkenli doğasını göz önüne almayıp, sadece bir değişkene odaklanmaktadır. Bu da verinin öz nitelikleri arasındaki mevcut korelasyon bilgisinin kaybolmasına sebep olmaktadır. Ayrıca, sınıflandırılmamış veriler, MDLP gibi sınıf bilgisine dayalı denetimli yöntemler ile ayrıklaştırılamamaktadır. Bu çalışmada, kısıtlanmış en kısa yol algoritması kullanan ve bilgi entropisine dayanan; denetimsiz, çok değişkenli, evrensel ve statik bir ayrıklaştırıcı öneriyoruz. Bu ayrıklaştırıcı tekniğimizi manuel olarak hazırlanmış rastgele sentetik veri kümeleri üzerinde test ederek, yaklaşımımızın ilişkili öz-nitelikler üzerinden hesaplanan entropiye göre çoğu test durumunda daha başarılı bir ayrıklaştırma sağladığını gösteriyoruz. Bu yöntem, keşifsel veri analizi gibi görevler için veri içerisinde gizli olan anlamlı aralıkların keşfedilmesinde yardımcı bir rol üstlenebilir. Buna ek olarak, yöntemimizi gerçek veri kümeleri üzerinde test ettiğimizde sınıflandırma doğruluğunun genel olarak --tek değişkenli yöntemlerin aksine -- iyileştiğini gözlemledik. Dolayısıyla, ayrıklaştırma yöntemimiz sınıflandırma görevlerinde daha yüksek bir doğruluk elde edilmesine yardım edebilir.tr_TR
dc.contributor.departmentBilgisayar Mühendisliğitr_TR
dc.embargo.termsAcik erisimtr_TR
dc.embargo.lift2023-06-06T05:54:21Z
dc.fundingYoktr_TR
dc.subtypeproficiencyinarttr_TR


Bu öğenin dosyaları:

Bu öğe aşağıdaki koleksiyon(lar)da görünmektedir.

Basit öğe kaydını göster