Basit öğe kaydını göster

dc.contributor.advisorCan Buğlalılar , Burcu
dc.contributor.authorAkkaya , Emre Kağan
dc.date.accessioned2018-12-26T10:12:30Z
dc.date.issued2018
dc.date.submitted2018-11-26
dc.identifier.urihttp://hdl.handle.net/11655/5459
dc.description.abstractNamed entity recognition (NER) on noisy data, specifically user-generated content (e.g. on- line reviews, tweets) is a challenging task because of the presence of ill-formed text. In this regard, while studies on morphologically-poor languages such as English has been rapidly advancing in recent years, studies on morphologically-rich languages such as Turkish has fallen behind for noisy data. This is mostly due to Turkish being an agglutinative language, having a rich morphology and also having scarce annotated data. Existing studies on Turkish both for noisy and formal (e.g. news text) data still make use of hand-crafted features and/or external domain-specific resources (e.g. gazetteers). In this thesis, we investigate the effects of neural architectures without the help of any external domain-specific resources and/or manually-constructed features. So that the proposed model can also be used for different morphologically-rich languages and for different domains. Moreover, we also experimented with different word and sub-word level (e.g. morpheme, character or character n-gram level) embedding techniques and we argue that sub-word level embeddings provide better word representations for morphologically-rich languages syntactically and semantically. For this purpose, we propose a transfer learning model that is an extension of a baseline, bidirectional LSTM-CRF architecture. The model is trained on two different datasets simultaneously for ithe purpose of transfer learning from formal to noisy data and it exploits morpheme-level, character n-gram level and orthographic character-level embeddings as its feature set. Con- sequently, we have obtained an F1 score of 65.72% on Turkish tweet dataset and 41.97% on English WNUT’17 dataset.tr_TR
dc.publisherFen Bilimleri Enstitüsütr_TR
dc.rightsinfo:eu-repo/semantics/openAccesstr_TR
dc.subjectNamed entity recognition
dc.subjectRecurrent neural networks
dc.subjectLong-short term memory
dc.subjectConditional random fields
dc.subjectTransfer learning
dc.subjectTurkish
dc.subjectNatural language processing
dc.subjectDeep learning
dc.titleDeep Neural Networks For Named Entity Recognition On Social Mediatr_eng
dc.title.alternativeSosyal Medya Üzerinde Varlık İsmi Tanıma İçin Derin Sinir Ağlarıtr_TR
dc.typeinfo:eu-repo/semantics/masterThesistr_TR
dc.description.ozetGürültülü veri, özellikle kullanıcı tarafından oluşturulan içerik (örn. çevrimiçi yorum, tweet), üzerinde varlık ismi tanıma metnin bozuk yapısından dolayı zorlu bir görevdir. Bu kapsamda, İngilizce gibi göreli morfolojik olarak fakir diller üzerindeki araştırmalar son yıllarda hızla il- erlerken, Türkçe gibi morfolojik olarak zengin dillerde gürültülü veri üzerindeki araştırmalar geri kalmıştır. Bu çoğunlukla Türkçe dilinin morfolojik olarak zengin ve sondan eklemeli ol- ması ile az miktarda etiketli veriye sahip olması nedeniyledir. Türkçe’de varolan araştırmalar hem gürültü hem de resmi (örn. haber metni) veri üzerinde çoğunlukla hala el yapımı öznitelikler ve/veya alana-özgü harici kaynaklardan (isim listeleri) faydalanmaktadır. Bu tezdeyse, el yapımı öznitelikler ve/veya alana-özgü harici kaynaklar kullanmayan yapay sinir ağlarının etkileri incelenmektedir. Öyle ki, önerilen model farklı morfolojik olarak dillerde ve farklı alanlarda da kullanılabilsin. Bununla birlikte, farklı kelime ve kelime-altı (örn. mor- fem ve karakter n-gram seviyesinde) embedding teknikleriyle de deneyler gerçekleştirdik ve morfolojik olarak zengin diller için kelime-altı embedding’lerin sözdizimi ve anlamsal açıdan daha iyi kelime temsili sunduğunu savunuyoruz. Bu amaçla, temel aldığımız LSTM- CRF mimarisinin uzantısı olan bir transfer öğrenme modeli önermekteyiz. Söz konusu model, resmi veriden gürültülü veriye bilgi aktarımı amacıyla aynı anda iki farklı veri kümesi iiiüzerinde eğitilmekte olup; morfem, karakter n-gram ve ortografik embedding’lerden fay- dalanır. Sonuç olarak, Türkçe gürültülü veri kümesi üzerinde %65.72 ve İngilizce WNUT’17 veri kümesinde %41.97 F1 puanı elde ettik.tr_TR
dc.contributor.departmentBilgisayar Mühendisliğitr_TR
dc.contributor.authorID10224969tr_TR
dc.embargo.termsAcik erisimtr_TR


Bu öğenin dosyaları:

Bu öğe aşağıdaki koleksiyon(lar)da görünmektedir.

Basit öğe kaydını göster