Developing a Comprehensive Emotion Lexicon for Turkish

Ünal, Elif

dc.contributor.advisor	Genç, Burkay
dc.contributor.author	Ünal, Elif
dc.date.accessioned	2023-12-12T11:30:08Z
dc.date.issued	2023-09
dc.date.submitted	2023-09-06
dc.identifier.uri	https://hdl.handle.net/11655/34257
dc.description.abstract	Social media and mood meters on websites have made expressing ideas easy and clear. These communication channels have produced useful data that can be used across disciplines. These data have helped researchers in several ways. Such investigations, also called text analysis, can yield materials from politics to psychology. Emotion analysis, focuses on the extraction of emotions from textual data. Extraction from texts enables the conduct studies that have interdisciplinary applications. For one, emotional analysis can provide insights into the sentiments and emotions experienced by customers towards a particular product, service, or brand. This data has the potential to enhance customer satisfaction and foster customer loyalty. Emotional analysis also holds potential in fraud detection as it enables the identification of distinctive patterns of emotional language that are closely linked to fraudulent behavior. When the recent studies on emotion analysis in Turkish are analysed, it is seen that mostly English sources are translated into Turkish. However, it is inevitable that there are structures that cannot be translated and suffixed languages such as Turkish make this structure even more complex. For this purpose, our main hypothesis in this study is that the data used in a language analysis should be in its own language. In this way, an accurate and more reliable analysis will be possible. For this, it was decided to create a emotion analysis data containing many emotions in Turkish. While this thesis was being prepared, studies were carried out in three main phases. In the first phase, it was aimed to create a data that can be used with emotions in Turkish by using 100 literary works. For this purpose, 213 different emotions in Turkish were searched in the sentences taken from the books and the number of times the words were used with the related emotion was recorded. Thus, a word for each emotion and an emotion-word vector containing the frequency of occurrences of the term with that emotion were created. In the next phase, it was aimed to cluster these emotions by using clustering algorithms on the data to form groups with each other. For this, firstly, words that do not make sense in the data were removed and the data was scaled. Since the data is very large and sparse on these processes, valuable words were used by putting this data into PCA structure. Then, these data were tested on different clustering algorithms and results were obtained. Finally, an interface was created to test the behaviour of text input. Afterwards, the distance between the input text and the emotion vectors was calculated with the cosine distance formula to extract emotions from input data. The results of the model created using texts of different lengths and with different emotions were evaluated. A cross-validation study was conducted to compare the emotion assignments from the study and ChatGPT. A consensus was reached by four individuals regarding the experience of at least one emotion among the five identified emotions, thus indicating successful recognition of the predominant emotion conveyed in the text.	tr_TR
dc.language.iso	en	tr_TR
dc.publisher	Fen Bilimleri Enstitüsü	tr_TR
dc.rights	info:eu-repo/semantics/openAccess	tr_TR
dc.subject	Turkish Emotion Analysis	tr_TR
dc.subject	Emotion Detection	tr_TR
dc.subject	Emotion Extraction	tr_TR
dc.subject	Emotion Analysis	tr_TR
dc.subject	Natural Language Processing	tr_TR
dc.subject.lcsh	Bilgisayar mühendisliği	tr_TR
dc.title	Developing a Comprehensive Emotion Lexicon for Turkish	tr_TR
dc.type	info:eu-repo/semantics/masterThesis	tr_TR
dc.description.ozet	Sosyal medya platformlarının büyümesi ve mod ölçerlerin çeşitli web sitelerine entegre edilmesi, bireylerin görüşlerini rahat ve açık bir şekilde ifade etmelerini kolaylaştırmıştır. Bu iletişim kanalları tarafından kullanılan etkileşimler, farklı çalışma alanlarında uygulanabilecek verilerin ortaya çıkmasını sağlamıştır. Bu verileri kullanan bilim dalı olan metin analizi, siyasetten psikolojiye kadar birçok bağlamda kullanılabilecek materyaller üretilebilmektedir. Duygu analizi, metinsel verilerden duyguların çıkarılmasına odaklanmaktadır. Bu, müşterilerin belirli bir ürün, hizmet veya markaya yönelik duygu ve hisleri hakkında bilgi sağlayabilir. Bu veriler müşteri memnuniyetini artırma ve müşteri sadakatini teşvik etme potansiyeline sahiptir. Ayrıca, hedeflenen alıcıların duygusal durumundan yararlanarak pazarlama kampanyalarını özelleştirme potansiyeline de sahiptir. Duygu analizi, dolandırıcılık davranışıyla yakından bağlantılı olan ayırt edici duygusal dil kalıplarının tanımlanmasını sağladığından dolandırıcılık tespiti alanında potansiyel taşımaktadır. Bir metin örneğini analiz ederken göz önünde bulundurulması gereken en önemli faktörler, dile özgü kaynakların mevcudiyeti ve yeterliliğidir. Türkçe de dahil olmak üzere İngilizce dışındaki dillerde yeterli kaynak bulunmamaktadır. Dillerin belirli yapısal unsurları paylaşmasına rağmen, her birinin kendine özgü özellikleri, diller arasında standart bir kavramsallaştırma yolunun geliştirilmesini engellemiştir. Türkçe duygu analizi üzerine son zamanlarda yapılan çalışmalara bakıldığında çoğunlukla İngilizce kaynakların çevrilerek kullanıldığı görülmüştür. Ancak çeviri yapılırken tam karşılık alınamayacak yapıların bulunması ve Türkçe gibi sondan eklemeli dillerin bu yapıyı daha da karmaşık hale getirecek olması kaçınılmazdır. Bu amaçla bu çalışmadaki hipotezimiz bir dille ilgili bir analiz yaparken kullanılan verinin kendi dilinde olması gerektiğidir. Bu amaçla Türkçe'de bulunan birçok duyguyu içeren bir duygu analiz verisi oluşturmaya karar verilmiştir. Bu veri, duygu analizi için bir kaynak olacaktır. Bu tez oluşturulurken üç ana faz üzerinde işlemler yapılmıştır. İlk fazda, 100 edebi eser kullanılarak Türkçe'deki duygularla kullanılabilecek bir veri oluşturmak amaçlanmıştır. Bunun için kitaplardan alınan cümleler içerisinde Türkçe'de bulunan 213 farklı duygu aranmış ve cümleler içerisindeki diğer kelimelerin ilgili duyguyla eşleştirebilmek frekansları kaydedilmiştir. Böylelikle her duyguya ait bir kelime ve kelimenin o duygu ile frekansını içeren bir duygu-kelime vektörü oluşmuştur. Bu yapı içerisinde 167 farklı duygu ve 179,854 adet kelime bulunmaktadır. İkinci fazda, bu duyguların birbirleri ile grup oluşturması için veri üzerinde kümeleme algoritmalarına sokularak kümele yapılması hedeflenmiştir. Bunun için önce veri üzerinde bir anlam ifade etmeyen kelimelerin kaldırılma ve veriyi ölçeklendirme işlemleri yapılmıştır. Bu işlemlerin üzerine verinin çok büyük ve seyrek olması sebebiyle bu veri PCA yapısına sokularak değerli kelimelerin kullanılması sağlanmıştır. Daha sonra bu veri farklı makine öğrenimi algoritmaları üzerinde denenerek gruplama sonuçları elde edilmiştir. Son olarak, anlık veri girişinde verinin davranışını test etmek için bir arayüz oluşturulmuştur. Bu arayüz üzerinden girilen verideki duyguları çıkarmak için kosinüs uzaklık formülü ile metin ile duygu vektörleri arasındaki uzaklık hesaplanmıştır. Farklı uzunluklarda ve farklı duygulara sahip metinler kullanılarak oluşturulan modelin sonuçları değerlendirilmiştir. Çalışmadan elde edilen duygu atamalarını değerlendirmek ve aynı metin girdi olarak verilen ChatGPT'den çıkan sonuçları karşılaştırmak için çapraz doğrulama çalışması yapılmıştır. Çalışmanın sonuçları, duygu sözlüğünün metinsel verilere uygulandığında yüksek bir doğruluk sergilediğini göstermiştir. Belirlenen beş duygu arasından en az bir duygunun deneyimlenmesine ilişkin dört kişi tarafından fikir birliğine varılmış, böylece metinde aktarılan baskın duygunun başarılı bir şekilde tanındığı gösterilmiştir.	tr_TR
dc.contributor.department	Bilgisayar Mühendisliği	tr_TR
dc.embargo.terms	Acik erisim	tr_TR
dc.embargo.lift	2023-12-12T11:30:08Z
dc.funding	Yok	tr_TR

Files in this item

Name:: ElifUnal_10575082.pdf
Size:: 971.3Kb
Format:: PDF
Description:: Tez dosyası

View/Open

This item appears in the following Collection(s)

Bilgisayar Mühendisliği Bölümü Tez Koleksiyonu [212]

Show simple item record