Show simple item record

dc.contributor.advisorCan Buğlalılar, Burcu
dc.contributor.authorGöker, Sinan
dc.date.accessioned2018-09-13T06:52:00Z
dc.date.available2018-09-13T06:52:00Z
dc.date.issued2018
dc.date.submitted2018-06-18
dc.identifier.urihttp://hdl.handle.net/11655/4864
dc.description.abstractSocial media has become a rich data source for natural language processing tasks with its worldwide use; however, it is hard to process social media data directly in language studies due to its unformatted nature. Text normalization is the task of transforming the noisy text into its canonical form. It generally serves as a preprocessing task in other NLP tasks that are applied to noisy text and the success rate gets higher when studies are performed on canonical text. In this study, two neural approaches are applied for Turkish text normalization task: Contextual Normalization approach using distributed representations of words and Sequence-to-Sequence Normalization approach using encoder-decoder neural networks. As the conventional approaches applied to Turkish and also other languages are mostly domain specific, rule-based or cascaded, they are already becoming less efficient and less successful due to the change of the language use in social media. Therefore the proposed methods provide more comprehensive solution that are not sensitive to the language change in social media.tr_TR
dc.language.isoentr_TR
dc.publisherFen Bilimleri Enstitüsütr_TR
dc.rightsinfo:eu-repo/semantics/openAccesstr_TR
dc.subjectText Normalization
dc.subjectDistributed Representation
dc.subjectWord2vec
dc.subjectEncoder
dc.subjectDecoder
dc.subjectSemantic
dc.subjectUnsupervised Learning
dc.subjectLong Short-Term Memory (LSTM)
dc.subjectDeep Learning
dc.titleNeural Text Normalization for Turkish Social Mediatr_eng
dc.title.alternativeTürkçe Sosya Medya Metinleri için Nöral Metin Normalizasyonutr_TR
dc.typeinfo:eu-repo/semantics/masterThesistr_TR
dc.description.ozetSosyal medya, dünya çapında yaygın kullanımı ile doğal dil işleme çalışmaları için zengin bir veri kaynağı haline gelmiştir; Bununla birlikte, kuralsız metinlerde oluşan doğası nedeniyle dil çalışmalarında sosyal medya verilerini doğrudan kullanabilmek oldukça zordur. Hatalı yazılmış bir metni doğru yazılmış haline dönüştürme işlemine metin normalleştirme denir. Metin normalleştirme çoğunlukla diğer doğal dil işleme çalışmalarında ön hazırlık işlemi olarak görev alır ve metinlerin doğru yazılmış halleri üzerinden yapılan çalışmalarda başarı oranı daha yüksek olur. Bu çalışma kapsamında Türkçe metin normalleştirme görevi için iki farklı yaklaşım uygulanmaktadır: Kodlayıcı-Kod Çözücü (Encoder-Decoder) yapay sinir ağları modeli kullanılarak Diziden Diziye (Sequence-to-Sequence) Normalleştirme yaklaşımını ve sözcüklerin dağınık temsilleri (distributed representation of words) kullanılarak Bağlamsal Normalleştirme yaklaşımı ile metin normalleştirme görevi gerçekleştirilmiştir. Türkçeye ve diğer dillere uygulanan mevcut yaklaşımlar çoğunlukla alana yönelik, kural tabanlı ya da kademeli normalleştirme kurallarının izlendiği çalışmalar olduğundan, sosyal medyada dil kullanım alışkanlığının değişmesi bu çalışmaların verimini ve başarı oranını düşürmektedir. Bu nedenle önerilen yöntemler sosyal medyada dil kullanımındaki değişikliklerden etkilenmeyen daha kapsamlı bir çözüm sunmaktadır.tr_TR
dc.contributor.departmentBilgisayar Mühendisliğitr_TR


Files in this item

This item appears in the following Collection(s)

Show simple item record