dc.contributor.advisor | Can Buğlalılar , Burcu | |
dc.contributor.author | Akkaya , Emre Kağan | |
dc.date.accessioned | 2018-12-26T10:12:30Z | |
dc.date.issued | 2018 | |
dc.date.submitted | 2018-11-26 | |
dc.identifier.uri | http://hdl.handle.net/11655/5459 | |
dc.description.abstract | Named entity recognition (NER) on noisy data, specifically user-generated content (e.g. on-
line reviews, tweets) is a challenging task because of the presence of ill-formed text. In this
regard, while studies on morphologically-poor languages such as English has been rapidly
advancing in recent years, studies on morphologically-rich languages such as Turkish has
fallen behind for noisy data. This is mostly due to Turkish being an agglutinative language,
having a rich morphology and also having scarce annotated data. Existing studies on Turkish
both for noisy and formal (e.g. news text) data still make use of hand-crafted features and/or
external domain-specific resources (e.g. gazetteers). In this thesis, we investigate the effects
of neural architectures without the help of any external domain-specific resources and/or
manually-constructed features. So that the proposed model can also be used for different
morphologically-rich languages and for different domains. Moreover, we also experimented
with different word and sub-word level (e.g. morpheme, character or character n-gram level)
embedding techniques and we argue that sub-word level embeddings provide better word
representations for morphologically-rich languages syntactically and semantically. For this
purpose, we propose a transfer learning model that is an extension of a baseline, bidirectional
LSTM-CRF architecture. The model is trained on two different datasets simultaneously for
ithe purpose of transfer learning from formal to noisy data and it exploits morpheme-level,
character n-gram level and orthographic character-level embeddings as its feature set. Con-
sequently, we have obtained an F1 score of 65.72% on Turkish tweet dataset and 41.97% on
English WNUT’17 dataset. | tr_TR |
dc.publisher | Fen Bilimleri Enstitüsü | tr_TR |
dc.rights | info:eu-repo/semantics/openAccess | tr_TR |
dc.subject | Named entity recognition | |
dc.subject | Recurrent neural networks | |
dc.subject | Long-short term memory | |
dc.subject | Conditional random fields | |
dc.subject | Transfer learning | |
dc.subject | Turkish | |
dc.subject | Natural language processing | |
dc.subject | Deep learning | |
dc.title | Deep Neural Networks For Named Entity
Recognition On Social Media | tr_eng |
dc.title.alternative | Sosyal Medya Üzerinde Varlık İsmi Tanıma İçin Derin Sinir Ağları | tr_TR |
dc.type | info:eu-repo/semantics/masterThesis | tr_TR |
dc.description.ozet | Gürültülü veri, özellikle kullanıcı tarafından oluşturulan içerik (örn. çevrimiçi yorum, tweet),
üzerinde varlık ismi tanıma metnin bozuk yapısından dolayı zorlu bir görevdir. Bu kapsamda,
İngilizce gibi göreli morfolojik olarak fakir diller üzerindeki araştırmalar son yıllarda hızla il-
erlerken, Türkçe gibi morfolojik olarak zengin dillerde gürültülü veri üzerindeki araştırmalar
geri kalmıştır. Bu çoğunlukla Türkçe dilinin morfolojik olarak zengin ve sondan eklemeli ol-
ması ile az miktarda etiketli veriye sahip olması nedeniyledir. Türkçe’de varolan araştırmalar
hem gürültü hem de resmi (örn. haber metni) veri üzerinde çoğunlukla hala el yapımı
öznitelikler ve/veya alana-özgü harici kaynaklardan (isim listeleri) faydalanmaktadır. Bu
tezdeyse, el yapımı öznitelikler ve/veya alana-özgü harici kaynaklar kullanmayan yapay sinir
ağlarının etkileri incelenmektedir. Öyle ki, önerilen model farklı morfolojik olarak dillerde
ve farklı alanlarda da kullanılabilsin. Bununla birlikte, farklı kelime ve kelime-altı (örn. mor-
fem ve karakter n-gram seviyesinde) embedding teknikleriyle de deneyler gerçekleştirdik
ve morfolojik olarak zengin diller için kelime-altı embedding’lerin sözdizimi ve anlamsal
açıdan daha iyi kelime temsili sunduğunu savunuyoruz. Bu amaçla, temel aldığımız LSTM-
CRF mimarisinin uzantısı olan bir transfer öğrenme modeli önermekteyiz. Söz konusu
model, resmi veriden gürültülü veriye bilgi aktarımı amacıyla aynı anda iki farklı veri kümesi
iiiüzerinde eğitilmekte olup; morfem, karakter n-gram ve ortografik embedding’lerden fay-
dalanır. Sonuç olarak, Türkçe gürültülü veri kümesi üzerinde %65.72 ve İngilizce WNUT’17
veri kümesinde %41.97 F1 puanı elde ettik. | tr_TR |
dc.contributor.department | Bilgisayar Mühendisliği | tr_TR |
dc.contributor.authorID | 10224969 | tr_TR |
dc.embargo.terms | Acik erisim | tr_TR |