dc.contributor.advisor | Ercan, Gönenç | |
dc.contributor.author | Sever, Yiğit | |
dc.date.accessioned | 2019-10-21T12:36:25Z | |
dc.date.issued | 2019-09 | |
dc.date.submitted | 2019-09-03 | |
dc.identifier.citation | Sever, Yiğit. "Evaluating Bilingual Embeddings in Bilingual Dictionary Alignment" Thesis. Hacettepe University, 2019. | tr_TR |
dc.identifier.uri | http://hdl.handle.net/11655/9406 | |
dc.description.abstract | Dictionaries catalog and describe the semantic information of a lexicon. WordNet provides an edge by presenting distinct concepts with the hierarchy information among them.Research in computer science has been using this hand crafted tool in natural language applications such as text summarization and machine translation. Original WordNet has been compiled for English yet counterparts for other languages are not as readily available nor as comprehensive. In order for research on languages other than English to benefit from the power of a WordNet, machine assisted creation and evaluation methods are essential. Word embeddings can provide a mapping between words and points in a real valued vector space. Using these vectors, representing documents as well as forming geometric relationships between them is a well studied area of research. In this thesis we start by hypothesizing that a dictionary definition captures the semantic basis of the described word. We used word embeddings as building blocks to map dictionary definitions into a multidimensional space. These spaces can be aligned to accommodate two languages,allowing the transfer of information from one language to another. We investigate the success of retrieving and matching discrete senses across languages by employing supervised and unsupervised methods. Our experiments show that dictionary alignment can be evaluated successfully by using both unsupervised and supervised methods but corpora sizes should be taken into consideration. We further argue that some methods are not viable considering their poor performance. | tr_TR |
dc.language.iso | en | tr_TR |
dc.publisher | Fen Bilimleri Enstitüsü | tr_TR |
dc.rights | info:eu-repo/semantics/openAccess | tr_TR |
dc.rights | CC0 1.0 Universal | * |
dc.rights.uri | http://creativecommons.org/publicdomain/zero/1.0/ | * |
dc.subject | Dictionary alignment | tr_TR |
dc.subject | Word embeddings | tr_TR |
dc.subject | Semantic encoder | tr_TR |
dc.subject | Short text similarity | tr_TR |
dc.title | Evaluating Bilingual Embeddings in Bilingual Dictionary Alignment | tr_en |
dc.title.alternative | Çift Dilli Kelime Temsilleri ile Sözlük Eşlenmesi | tr_TR |
dc.type | info:eu-repo/semantics/masterThesis | tr_TR |
dc.description.ozet | Sözlükler bir dilin kelime haznesini anlamlar açıdan anlatır ve dosyalar. WordNet, bunun üzerine anlamlar arası alt-üst ilişkilerini de tanımlar. Bilgisayar bilimi üzerine yapılan araştırmalarda elle derlenmiş kaynak WordNet özellikle metin özetleme ve makine çevirisi alanında kullanılmaktadır. Asıl WordNet İngilizce için hazırlanmış olup diğer dillerdeki karşılıkları kapsamlı ya da erişilebilir olmayabilir. İngilizce dışındaki dilleri esas alan çalışmaların WordNet’ten yararlanabilmesi adına makine yardımlı derleme ve değerlendirme yöntemleri esastır. Kelime temsilleri bir dilin söz dağarcığını çok boyutlu bir uzaydaki noktalar, bununla birlikte vektörler olarak gösterir. Bu vektörleri kullanarak belgeleri matematiksel olarak tanımlamak ya da belgeler arası geometrik bağıntılar kurmak şimdinin çalışılan konularındandır. Bu çalışmaya bir sözcüğün sözlük tanımının onun bağlamsal yapısını temsil edebileceğini varsayarak başladık. Kelime temsilleri ile sözlük tanımlarını çok boyutlu bir uzayda gösterdik. Bu soyut uzaylar birden fazla dilin söz dağarcığına evsahipliği yapmak adına eşlenebilir. Belirli anlamların diller arası erişimi ve eşlenmesi sorununa güdümlü ve güdümsüz öğrenme yöntemleri ile çözüm getirmeye çalışılmıştır. Var olan veri boyutunun önemini ve kimi yöntemlerin bu konuda zayıf başarı gösterdiğini keşfettik. | tr_TR |
dc.contributor.department | Bilgisayar Mühendisliği | tr_TR |
dc.embargo.terms | Acik erisim | tr_TR |
dc.embargo.lift | - | |
dc.identifier.ORCID | https://orcid.org/0000-0002-9330-3603 | tr_TR |