Basit öğe kaydını göster

dc.contributor.advisorAkal, Fuat
dc.contributor.authorSağlam, Fatih
dc.date.accessioned2019-10-21T12:05:34Z
dc.date.issued2019
dc.date.submitted2019-05-29
dc.identifier.citationF. Sağlam, Otomatik Duygu Sözlüğü Geliştirilmesi ve Haberlerin Duygu Analizi, Doktora Tezi, Hacettepe Üniversitesi Fen Bilimleri Enstitüsü, Ankara, 2019.tr_TR
dc.identifier.urihttp://hdl.handle.net/11655/9305
dc.description.abstractThe level reached by mass media today, with respect to informing the society, raising awareness, affecting opinions, and even mobilizing masses, is impressive. Being mass communication tools, mainstream news media produces enormous amounts of content. Analysis of this content, which is mostly textual and treasurized from an academic perspective, is also crucial for people in a large spectrum, from decision makers to policy makers. Text analysis is studied under the discipline of Natural Language Processing (NLP), and Sentiment Analysis, which is a subdiscipline of NLP, is focused on enriching this analysis by evaluating the content with respect to sentimentality. The main requirement in content analysis is the existence of necessary language resources, whereas the correctness of the analysis depends on the coverage and sufficiency of these resources. Availability and state of the resources in the English language far surpasses the resources in many other languages, including Turkish. Most studies in the literature are, hence, language dependent. In Turkish sentiment analysis studies, researchers mostly followed a route through translation. However, it is obvious that the correctness of the translation between the languages will deeply impact the performance of the analysis, with the effect being amplified in agglomerative languages, such as Turkish. Our base hypothesis in this work is that the language resources need to be produced within the language. With respect to this philosopohy, the first goal of this thesis is to produce a rich and correctly polarized General Purpose Turkish Sentiment Lexicon. Thus, we aim to provide an open resource to all disciplines working on the Turkish language. Our second goal, then, is to propose a Sentiment Map Model, which brings a fresh perspective to document sentiment analysis. This thesis is mainly prepared in three phases. In the first phase, we aimed to produce a Turkish Sentiment Lexicon based on texts from main stream news media. To this end, a large corpus with known polarities was constructed. Once the tone and polarity values of the words from these texts were identified, they were merged with an existing Turkish Sentiment Lexicon, resulting in the first version of SWNetTR-PLUS, a 37K Turkish sentiment lexicon. In the second phase, it was aimed to enrich SWNetTR-PLUS even further and stabilize the polarity and tone values of the words in the lexicon. To this end, synonyms and antonyms of the words in the lexicon were derived from different resources to extent the coverage of both positive and negative sentiments. At this point, it was chosen to model the whole lexicon with graphs to make it easier to explain and study the sentiment relations between the words. In order to compute missing polarities and tone values, and to stabilize the lexicon, we developed the concepts and methodologies of Tie Strength, Tone Propagation and Bias Balancing. At the end, we obtained SWNetTR++, which is a General Purpose Turkish Sentiment Lexicon with a capacity of 49K words. In the third and the last phase, we proposed a new document sentiment analysis technique, namely Sentiment Map Model. Here, the motivation was the fact that in the literatüre document sentiment analysis is mostly based on assigning a positive/neutral/negative sentiment value to a document, and this omits the sentiment fluctuations within the text, crippling the richness of the text. As a solution to that, we proposed Sentiment Map Model, which allows detecting, exposing and interpreting sentiment shifts within an analysed document. The proposed model was extensively tested on multiple texts to outline its applicability and sufficiency.tr_TR
dc.description.tableofcontentsÖZET i ABSTRACT iv TEŞEKKÜR vii İÇİNDEKİLER viii ŞEKİLLER DİZİNİ xi ÇİZGELER DİZİNİ xiii SİMGELER VE KISALTMALAR xv 1. GİRİŞ 1 1.1. Problemin Tanımı 1 1.2. Amaç ve Motivasyon 2 1.3. Özgün Değer 3 1.4. Tez Organizasyonu 4 2. ALAN BİLGİSİ VE ALANYAZIN ÖZETİ 5 2.1. Doğal Dil İşleme ve Duygu Analizi 5 2.1.1. Doğal Dil İşleme (DDİ) 5 2.1.2. Duygu Analizi 8 2.1.3. Duygu Analizinin Uygulama Alanları 9 2.1.4. Duygu Analizi Seviyeleri 10 2.1.5. Duygu Analizinin Zorlukları 11 2.2. Duygu Analizi Yaklaşımları 14 2.2.1. Makine Öğrenmesi Temelli Duygu Analizi Yaklaşımları 15 2.2.2. Sözlük Temelli Duygu Analizi Yaklaşımları 17 2.3. Duygu Sözlüğü Oluşturmak 20 2.3.1. Manuel Yaklaşımla Duygu Sözlüğü Oluşturmak 20 2.3.2. Sözlük Temelli Yaklaşımla Duygu Sözlüğü Oluşturmak 22 2.3.3. Derlem Temelli Yaklaşımla Duygu Sözlüğü Oluşturmak 25 2.4. Duygu Sözlüklerinin Kapsamı 26 2.4.1. Genel Amaçlı Duygu Sözlüğü 27 2.4.2. Özel Amaçlı Duygu Sözlüğü 28 2.5. Türkçe Duygu Analizi ve Duygu Sözlüğü 30 2.5.1. Türkçe Dilinin Zorlukları 30 2.5.2. Türkçe Duygu Analizi ve Duygu Sözlüğü Geliştirme Çalışmaları 32 2.6. Ana Akım Medya ve Haber 36 2.7. Haberde Duygu 38 2.7.1. Haber Başlıklarına Yönelik Duygu Analizi Çalışmaları 39 2.7.2. Haber İçeriklerine Yönelik Duygu Analizi Çalışmaları 40 2.7.3. Haberlere Yapılan Okuyucu Yorumlarına Yönelik Duygu Analizi Çalışmaları 41 2.7.4. Haberlerden Duygu Sözlüğü Oluşturmaya Yönelik Çalışmalar 41 3. TÜRKÇE DUYGU SÖZLÜĞÜ 43 3.1. Terminoloji 43 3.2. Faz-1 : SWNetTR-PLUS 44 3.2.1. Veri Seti 44 3.2.2. Metodoloji 52 3.2.3. Performans Değerlendirmesi 56 3.3. Faz-2 : SWNetTR++ 58 3.3.1. Veri Seti 59 3.3.2. Metodoloji 59 3.3.3. Performans Değerlendirmesi 75 4. DUYGU HARİTASI MODELİ 78 4.1. Shewhart Kontrol Diyagramı 85 4.2. Duygu Haritası Modeli ve Shewhart Kontrol Diyagramı 88 4.3. DHM Uygulama Örnekleri 92 4.3.1. Uygulama Örneği - 1 93 4.3.2. Uygulama Örneği - 2 101 4.3.3. Uygulama Örneği - 3 106 4.3.4. Uygulama Örneği - 4 108 4.3.5. Uygulama Örneği - 5 112 5. SONUÇLAR ve ÖNERİLER 116 5.1. Sonuçlar 116 5.2. Öneriler 119 6. KAYNAKLAR 121 EKLER 131 EK 1 - HABER-4 Haberinin Cümle Listesi 131 EK 2 - PAMUK PRENSES Kitabının Cümle Listesi 134 EK 3 - Tezden Türetilmiş Yayınlar 137 EK 4 - Tezden Türetilmiş Bildiriler 138 ÖZGEÇMİŞ 141tr_TR
dc.language.isoturtr_TR
dc.publisherFen Bilimleri Enstitüsütr_TR
dc.rightsinfo:eu-repo/semantics/openAccesstr_TR
dc.rightsAttribution-NonCommercial-ShareAlike 3.0 United States*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-sa/3.0/us/*
dc.subjectTürkçe duygu sözlüğü
dc.subjectDuygu haritası modeli
dc.subjectÇizge
dc.subjectDuygu analizi
dc.subjectDoğal dil işleme
dc.subject.lcshKonu Başlıkları Listesi::Teknoloji. Mühendisliktr_TR
dc.titleOtomatik Duygu Sözlüğü Geliştirilmesi ve Haberlerin Duygu Analizitr_TR
dc.typeinfo:eu-repo/semantics/doctoralThesistr_TR
dc.description.ozetKitle iletişim araçlarının toplumu bilgilendirme, farkındalık yaratma, etkileme ve hatta harekete geçirebilme konusunda günümüzde ulaştığı seviye oldukça yüksektir. Ana akım haber medyaları ön sıralarda yer alan kitle iletişim araçları olup, devasa boyutta ve çeşitlilikte içerik üretilmektedir. Araştırmacılar perspektifinden bakıldığında hazine niteliğindeki ve çoğunlukla metin türündeki bu içeriklerin analiz edilebilmesi, karar vericilerden politika üreticilerine kadar çok geniş bir yelpaze için oldukça önemlidir. Metinlerin analizi Doğal Dil İşleme disiplininin ilgi alanına girmekte olup, bu disiplinin bir alt dalı olan Duygu Analizi de, içeriğin duygu boyutuyla değerlendirilerek bakış açısının zenginleşmesine katkı sunmaktadır. İçeriğin analizinde temel gereksinim, dile özgü kaynakların varlığını gerekli kılarken, analizin doğruluğu ise bu kaynakların kapsam ve içerik olarak yeterliliğini gündeme taşımaktadır. İngilizce dili için mevcut olan kaynakların ve kütüphanelerin gelişmişlik düzeyi, Türkçe’nin de içinde bulunduğu birçok diğer dile göre ileri seviyededir ve literatürdeki birçok çalışma da dile özgü kalmaktadır. Türkçe duygu analizi çalışmalarında araştırmacılar ağırlıklı olarak çeviri temelli yaklaşımlar sergilemişlerdir. Ancak diller arasındaki çeviri performansının genel başarımı doğrudan etkileyeceği açıktır ve de Türkçe gibi eklemeli dillerde problem biraz daha derinleşmektedir. Çalışmadaki temel hipotezimiz, dilin kaynaklarının dilin içerisinden üretilmesinin gerekliliğidir. Bu çerçevede içerik olarak zengin ve doğru polaritelenmiş Genel Amaçlı Türkçe Duygu Sözlüğü geliştirilmesi tezin iki temel hedefinden birincisidir. Böylece Türkçe çalışma yapan bütün disiplinlere açık erişimli bir kaynak sunulmuş olacaktır. Tezde hedeflenen ikinci husus ise duygu analizini farklı bir perspektiften ele alan Duygu Haritası Modelinin geliştirilmesidir. Tez, temel olarak üç fazda çalışılmıştır. Birinci fazda, ana akım haber medyalarındaki haber metinleri kullanılarak Türkçe Duygu Sözlüğü geliştirilmesi hedeflenmiştir. Bu kapsamda, polaritesi bilinen haberlerden büyük bir derlem oluşturulmuştur. Bu metinlerden elde edilen terimlerin ton ve polarite değerleri belirlenerek, mevcut bir diğer Türkçe duygu sözlüğü ile birleştirilmiş ve toplamda 37K hacmindeki, adını SWNetTR-PLUS olarak verdiğimiz Türkçe duygu sözlüğünün ilk sürümü oluşturulmuştur. İkinci fazda, SWNetTR-PLUS kütüphanesinin zenginleştirilmesi ile terimlerin polarite ve ton değerlerinin daha kararlı hale getirilmesi hedeflenmiştir. Sözlüğümüzdeki mevcut terimlerin negatif karşılıklarının tespiti için ZIT anlamlılarının, sözlüğümüzün kapsamının genişletilmesine yönelik olarak da EŞ anlamlı karşılıklarının kullanılmasına odaklanılmıştır. Bu yaklaşım kullanılarak farklı kaynaklarla sözlük zenginleştirilmiş ancak hatalı eşleşmelerin varlığı ile sözlüğe yeni kazandırılan terimlerin polarite ve ton değerlerinin tespitine yönelik sorunlar gündeme gelmiştir. Bu noktada problem, varlıklar arasındaki ilişkileri temsil gücü ve ilişkisel işlemlerde sağladığı kolaylıklar sebebiyle çizge kullanılarak modellenmiştir. Bağ gücü, ton yayılımı, yanlılık dengelemesi matematiksel modelleri geliştirilerek bahsedilen problemlere uygulanmış ve sonuçlar değerlendirilmiştir. Bu fazın sonunda adını SWNetTR++ olarak isimlendirdiğimiz 49K kapasiteli Genel Amaçlı Türkçe Duygu Sözlüğü oluşturulmuştur. Üçüncü fazda, duygu analizi literatürüne Duygu Haritası Modeli önerilmiştir. Bu modele götüren temel motivasyon özellikle doküman seviyesindeki duygu analizi çalışmalarının, metni pozitif/nötr/negatif şeklinde bir sınıflandırma ile sayısal bir skor atama şeklinde ele almasından kaynaklanmaktadır. Bu yaklaşıma getirdiğimiz eleştiri ise, metinlerdeki duygu dalgalanmalarının göz ardı ediliyor olması ve dokümanın salt bir polarite ile etiketlenmesinin her durumda doğru bir yaklaşım olamayacağıdır. Çözüm önerisi olarak analize tabi tutulan içeriğin bünyesindeki duygu dalgalanmalarının ortaya çıkarılmasına, görsel olarak sunulmasına ve yorumlanmasına imkan sağlayan Duygu Haritası Modeli geliştirilmiştir. Model, örnek içerikler üzerinde uygulanarak sonuçlar değerlendirilmiştir.tr_TR
dc.contributor.departmentBilgisayar Mühendisliğitr_TR
dc.embargo.termsAcik erisimtr_TR
dc.embargo.lift2019-10-21T12:05:34Z
dc.identifier.ORCIDhttps://orcid.org/0000-0002-6818-3865tr_TR
dc.subject.mscMathematics Subject Classification::Combinatorics::Graph theorytr_TR
dc.subject.ieeeIEEE Thesaurus Terms::Computers and information processingtr_TR


Bu öğenin dosyaları:

Bu öğe aşağıdaki koleksiyon(lar)da görünmektedir.

Basit öğe kaydını göster

info:eu-repo/semantics/openAccess
Aksi belirtilmediği sürece bu öğenin lisansı: info:eu-repo/semantics/openAccess