Basit öğe kaydını göster

dc.contributor.advisorÇiçekli, İlyas
dc.contributor.authorKaraman, İpek Nur
dc.date.accessioned2021-10-13T08:33:31Z
dc.date.issued2021
dc.date.submitted2021-06-25
dc.identifier.urihttp://hdl.handle.net/11655/25574
dc.description.abstractAutomatic term extraction is an essential task in natural language processing. In this thesis, we work on terminology extraction for two purposes. The first aim is to measure inconsistency of scientific terminology for different scientific disciplines. Terminology consistency in scientific writing is important for the dissemination of scientific information among researchers. In this thesis, we propose a metric that measures terminology inconsistency and we measure terminology inconsistency for different scientific disciplines by using automatic term extraction and statistical machine translation. Our results showed that the order of scientific groups by inconsistency in terminology is: PHY (Physical Sciences and Engineering) > SOC (Social and Behavioral Sciences) > LIF (Life Sciences). We also survey for verification of the results and survey results support our study. The second aim of this thesis is to leverage multilinguality with joint multilingual learning based on deep learning methods with sequence labeling and improve terminology extraction performance in Turkish by utilizing English data. Automatic term extraction using deep learning achieves promising results if sufficient training data exists. Unfortunately, some languages may lack these resources in some scientific domains causing poor performance due to under-fitting. In this thesis, we propose a joint multilingual deep learning model with sequence labeling to extract terms, trained on multilingual data and aligned word embeddings to tackle this problem. Our evaluation results demonstrate that the multilingual model provides an improvement for automatic term extraction task when it is compared with a monolingual model trained with limited training data. Although the improvement rate varies according to domain and the size of the data, our evaluation shows that the highest improvement in F1-score is 10.1 % in the domain of Computer Science, the least improvement is 7.6 % in the domain of Electronic Engineering. Our multilingual model also achieves competitive results when it is compared with a monolingual model trained with sufficient training data.tr_TR
dc.language.isoentr_TR
dc.publisherFen Bilimleri Enstitüsütr_TR
dc.rightsinfo:eu-repo/semantics/openAccesstr_TR
dc.subjectAutomatic term extractiontr_TR
dc.subjectTerminology translationtr_TR
dc.subjectJoint multilingual learningtr_TR
dc.subjectNeural sequence labelingtr_TR
dc.subjectDeep learningtr_TR
dc.subjectBidirectional long short­-term memorytr_TR
dc.subjectStatistical machine translationtr_TR
dc.subject.lcshBilgisayar mühendisliğitr_TR
dc.titleAutomatic Generation of Scientific Terminology with Deep Learningtr_TR
dc.title.alternativeDerin öğrenme ile otomatik bilim terimleri sözlüğü oluşturulmasıtr_TR
dc.typeinfo:eu-repo/semantics/masterThesistr_TR
dc.description.ozetOtomatik terim çıkarımı, doğal dil işlemede önemli bir görevdir. Bu tezde, otomatik terminoloji çıkarımı üzerinde iki amaç için çalışılmıştır. Birinci amacımız, farklı bilim alanları için bilimsel terminolojinin tutarsızlığını ölçmektir. Bilimsel yazılarda terminoloji tutarlılığı, bilimsel bilginin araştırmacılar arasında yayılması açısından önemlidir. Bu tezde, terminoloji tutarsızlığını ölçen bir metrik önerilmekte ve otomatik terim çıkarımı ile istatistiksel makine çevirisi kullanılarak farklı bilim alanları için terminoloji tutarsızlığı ölçülmektedir. Sonuçlarımız, terminolojideki tutarsızlığa göre bilimsel grupların sıralamasının: PHY (Fizik Bilimleri ve Mühendislik) > SOC (Sosyal ve Davranış Bilimleri) > LIF (Yaşam Bilimleri) olduğunu göstermiştir. Ayrıca sonuçların doğrulanması için anket çalışması yapılmış ve anket sonuçları elde ettiğimiz sonuçları desteklemiştir. Bu tezin ikinci amacı, dizi etiketleme ile derin öğrenme yöntemlerine dayalı ortak çok dilli öğrenme ile çok dillilikten faydalanmak ve İngilizce verileri kullanarak Türkçe terminoloji çıkarımı performansını iyileştirmektir. Derin öğrenme ile otomatik terim çıkarımı, yeterli eğitim verisi bulunduğunda umut verici sonuçlar elde etmektedir. Ne yazık ki, bazı diller için bazı bilim alanları eğitim verisi için gerekli olan kaynaklardan yoksun olabilir ve veri eksikliği yetersiz uyum nedeniyle otomatik terim çıkarımında düşük performansa neden olabilmektedir. Bu tez çalışmasında, metinlerden otomatik olarak terimleri çıkarmak için dizi etiketlemeli, çok dilli veriler üzerinde eğitilmiş ve bu sorunu çözmek için hizalanmış kelime temsilleri ile ortak çok dilli derin öğrenme modeli önerilmektedir. Değerlendirme sonuçlarımıza göre, çok dilli bir model, sınırlı eğitim verileriyle eğitilmiş tek dilli bir modelle karşılaştırıldığında, otomatik terim çıkarımında performans iyileştirmesi sağlamıştır. İyileştirme oranı bilim alanı ve verinin boyutuna göre değişmekle birlikte, değerlendirmemiz F1 puanındaki en yüksek gelişmenin Bilgisayar Bilimleri alanında 10,1 %, en az iyileştirmenin ise Elektronik Mühendisliği alanında 7,6 % olduğunu göstermektedir. Ayrıca çok dilli modelimiz, yeterli eğitim verisi ile eğitilmiş tek dilli bir modelle karşılaştırıldığında rekabetçi sonuçlar elde etmektedir.tr_TR
dc.contributor.departmentBilgisayar Mühendisliğitr_TR
dc.embargo.termsAcik erisimtr_TR
dc.embargo.lift2021-10-13T08:33:31Z
dc.fundingYoktr_TR


Bu öğenin dosyaları:

Bu öğe aşağıdaki koleksiyon(lar)da görünmektedir.

Basit öğe kaydını göster