Data Augmentation For Natural Language Processing

Çataltaş, Mustafa

dc.contributor.advisor	Çiçekli, İlyas
dc.contributor.advisor	Baykan, Nurdan
dc.contributor.author	Çataltaş, Mustafa
dc.date.accessioned	2024-10-15T07:01:53Z
dc.date.issued	2024
dc.date.submitted	2024-06-05
dc.identifier.uri	https://hdl.handle.net/11655/35960
dc.description.abstract	Advanced deep learning models have greatly improved various natural language processing tasks. While they perform best with abundant data, acquiring large datasets for each task is not always easy. Therefore, by using data augmentation techniques, comprehensive data sets can be obtained by creating synthetic samples from existing data. This thesis undertakes an examination of the efficacy of autoencoders as a textual data augmentation technique targeted at improving the performance of classification models in text classification tasks. The analysis encompasses the comparison of four distinct autoencoder types: Traditional Autoencoder (AE), Adversarial Autoencoder (AAE) Denoising Adversarial Autoencoder (DAAE) and Variational Autoencoder (VAE). Moreover, the study investigates the impact of different word embedding types, preprocessing methods, label-based filtering, and the number of epochs for training on the performance of autoencoders. Experimental evaluations are conducted using the SST-2 sentiment classification dataset, consisting of 7791 training instances. For data augmentation experiments, subsets of 100, 200, 400, and 1000 randomly selected instances from this dataset were employed. Experimental evaluations involved augmenting data at ratios of 1:1, 1:2, 1:4, and 1:8 when working with small datasets. Comparative analysis with baseline models demonstrates the superiority of AE-based data augmentation methods at a 1:1 augmentation ratio. These findings underscore the effectiveness of using autoencoders as data augmentation methods for optimizing text classification performance in NLP applications.	tr_TR
dc.language.iso	en	tr_TR
dc.publisher	Fen Bilimleri Enstitüsü	tr_TR
dc.rights	info:eu-repo/semantics/openAccess	tr_TR
dc.subject	Natural Language Processing	tr_TR
dc.subject	Autoencoders	tr_TR
dc.subject	Data Augmentation	tr_TR
dc.subject	Text Classification	tr_TR
dc.subject.lcsh	Bilgisayar mühendisliği	tr_TR
dc.title	Data Augmentation For Natural Language Processing	tr_TR
dc.title.alternative	Doğal Dil İşleme İçin Veri Artırma
dc.type	info:eu-repo/semantics/masterThesis	tr_TR
dc.description.ozet	Gelişmiş derin öğrenme modelleri, çeşitli doğal dil işleme (DDİ) görevlerinin etkinliğini büyük ölçüde artırmıştır. Bu modeller genellikle bol miktarda veriyle en iyi performansı gösterirken, her görev için büyük veri kümeleri elde etmek her zaman kolay olmamaktadır. Bu nedenle, veri artırma teknikleri kullanılarak, mevcut veriden sentetik örnekler oluşturarak kapsamlı veri kümelerinin elde edilmesi sağlanabilmektedir. Bu tez, metin sınıflandırma görevlerinde sınıflandırma modellerinin performansını artırmayı amaçlayan bir metinsel veri artırma tekniği olarak otokodlayıcıların etkililiğini incelemektedir. Analiz, Geleneksel Otokodlayıcı (GO), Değişimsel Otokodlayıcı (DO), Çekişmeli Otokodlayıcı (ÇO) ve Gürültü Önleyici Çekişmeli Otokodlayıcı (GÖÇO) olmak üzere dört farklı otokodlayıcı türünün karşılaştırılmasını kapsamaktadır. Ayrıca çalışma; farklı kelime gömme (temsil) türlerinin, ön işleme yöntemlerinin, etiket tabanlı filtrelemenin ve eğitme sayılarının otokodlayıcıların performansı üzerindeki etkisini araştırmaktadır. Deneysel çalışmalarda 7791 eğitim verisine sahip SST-2 duygu sınıflandırma veri seti kullanılmıştır. Veri arttırma çalışmaları için bu veri setinden rastgele seçilmiş 100, 200, 400 ve 1000 boyutundaki verilerle çalışılmıştır. Deneysel değerlendirmelerde, küçük veri setlerinde çalışırken 1:1, 1:2, 1:4 ve 1:8 oranlarında veri arttırma yapılmıştır. Temel modellerle karşılaştırmalı analizler, arttırma oranı 1:1'de GO tabanlı veri arttırma yöntemlerinin üstünlüğünü göstermektedir. Bu bulgular, otokodlayıcıların, doğal dil işleme uygulamalarındaki metin sınıflandırma performansını optimize etmek için veri arttırma yöntemleri olarak kullanılmasının etkililiğini vurgulamaktadır.	tr_TR
dc.contributor.department	Bilgisayar Mühendisliği	tr_TR
dc.embargo.terms	Acik erisim	tr_TR
dc.embargo.lift	2024-10-15T07:01:53Z
dc.funding	Yok	tr_TR
dc.subtype	learning object	tr_TR

Bu öğenin dosyaları:

Ad:: cataltas-msthesis_final -online.pdf
Boyut:: 3.614Mb
Biçim:: PDF

Göster/Aç

Bu öğe aşağıdaki koleksiyon(lar)da görünmektedir.

Bilgisayar Mühendisliği Bölümü Tez Koleksiyonu [267]

Basit öğe kaydını göster