Basit öğe kaydını göster

dc.contributor.advisorAKÇAPINAR SEZER, Ebru
dc.contributor.authorNASSAR, AHMED
dc.date.accessioned2017-10-12T12:20:06Z
dc.date.available2017-10-12T12:20:06Z
dc.date.issued2017-08-24
dc.date.submitted2017-08-24
dc.identifier.other10163079
dc.identifier.urihttp://hdl.handle.net/11655/4012
dc.description.abstractSentiment analysis has a great necessity to classify sentences like review, news, blog, etc. in order to hold the overall sentiment (i.e. negative, positive or neutral) embedded in them. The vast majority of studies focused on sentiment analysis for English texts, while there is small number of researches has focused on other texts such as Arabic, Turkish, Spanish and Dutch. In this study, we aimed at improving the performance results of Arabic sentiment analysis in the level of document by: firstly, investigating the most successfully Machine Learning (ML) methods to classify sentiments, at the same time rules have been implemented to create new vector formats for representation of inputs with ML based modeling process. Secondly, applying Lexicon Based (LB) approach in both term and document levels by using different formulae based on aggregating functions like maximum, average and subtraction. However, the rules have been applied in the experiments. Performance results of LB approach have been used to identify the best formulae can be used with term level and document level of lexicon based SA at Arabic Language, also the effectiveness of using rules in both levels has been illustrated. As a final point, employed methods of the two different approaches (i.e. ML and LB) have been tried to create a combined method with considering rules. The OCA corpus was used in the experiments and a sentiment lexicon for Arabic sentiments (ArSenL) was used to resolve the challenges of Arabic Language. Several experiments have been performed as followed: Firstly, features have been selected for both term and document levels of the OCA corpus independently. Secondly, different linear ML methods such as Decision Tree (D-Tree), Support Vector Machine (SVM), and Artificial Neural Network (ANN) have been applied on both of OCA corpus levels with considering applying and not applying rules on both levels of the corpus. Thirdly, LB approach have been applied on the document level with considering applying rules to each term in a document. And finally comparisons between the results have been done to identify the best way to classify sentiment Arabic documents. The most successful results in the study are as follows: (i) In ML approach, ANN classifier has been nominated as best classifier in the term level and in the document level of Arabic SA. Furthermore, the average of F-score achieved in the term level for positive testing classes is 0.92, and also in negative classes is 0.92, however, in the document level, the average of F-score for positive testing classes is 0.94, while in negative classes is 0.93. (ii) In the LB approach, it is concluded that the best results have been achieved by applying rules for each term, then computing each sentence score by DMax_Sub formula, and finally, using first sentence score formulae for document score computing. In general, the results of the ML approach are better than the results of the LB approach.tr_TR
dc.description.sponsorshipYTBtr_TR
dc.description.tableofcontentsABSTRACT I ÖZET III FIGURES IX TABLES X ABBREVIATIONS AND SYMBOLS XII 1. Introduction 14 1.1 Sentiment Analysis Importance and Definition 14 1.2 Sentiment Analysis General Tasks 14 1.3 Study Tasks 15 1.4 Study Objective and Motivation 17 1.5 Study’s Originality 18 1.6 Organization of the Study 18 2. Literature Review 19 2.1 Sentiment Analysis in English Language 19 2.2 Sentiment Analysis in Arabic Language 23 2.3 Sentiment Analysis in Other Languages 25 2.4 Literature Discussion 28 3. Background 30 3.1 Machine Learning Approach 31 3.1.1 Support Vector Machine Classifier (SVM) 31 3.1.2 Artificial Neural Network Classifier (ANN) 32 3.1.3 Decision Tree Classifier (D-Tree) 32 3.2 Lexicon Based Approach 33 3.2.1 Lexicon Based Computing 33 3.2.2 Lexicon Building 35 3.3 Arabic Language Overview 36 4. Sentiment Analysis in Arabic Language 38 4.1 Study Methodology 38 4.1.1. Preprocessing and Quality Measuring of OCA Corpus 42 4.1.2 Stemming Process and Identifying Sentiment Terms 46 4.1.3 Prior Polarity Computing Formulae for Term Level 47 4.1.4 Rules 48 4.1.5 Sentence Score Computing Formulae 48 4.2 Arabic Sentiment Analysis Using Machine Learning (ML) Approach 49 4.2.1 Features Extraction 49 4.2.2 Classification Task 51 4.3 Arabic Sentiment Analysis using Lexicon Based (LB) Approach 52 4.3.1 Lexicon Based Approach without Rules 52 4.3.2 Lexicon Based Approach with Using Rules 54 4.4 Evaluation Measures 55 4.5 Experimental Results and Evaluation 55 4.5.1 Experiment A: Term Level Sentiment Analysis using Machine Learning Approach 57 4.5.2 Experiment B: Document Level Sentiment Analysis Using Machine Learning Approach 61 4.5.3 Experiment C: Sentiment Analysis Using Lexicon Based Approach without Rules 65 4.5.4 Experiment D: Sentiment Analysis Using Lexicon Based Approach with Applying Rules in the Document Level 71 4.5.5 Results Summary 73 5. Conclusion 78 References 80 APPENDEX 1: Samples from the OCA Database of Sentiment Words based on MMax_Sub Prior Polarity Computing Formula 85 APPENDEX 2: Samples of Intensification and Negation Words in Arabic Language 89 CURRICULUM VITAE 90tr_TR
dc.language.isoentr_TR
dc.publisherFen Bilimleri Enstitüsütr_TR
dc.rightsinfo:eu-repo/semantics/openAccesstr_TR
dc.subjectArapça duygu analizitr_TR
dc.subjectDüşünce madenciliği
dc.subjectMakine öğrenmesi yaklaşımı
dc.subjectSözlük tabanlı yaklaşım
dc.subjectKurallar
dc.titleMultilevel Sentiment Analysis in Arabictr_TR
dc.title.alternativeARAPÇA İÇİN ÇOK DÜZEYLİ DUYGU ANALİZİtr_TR
dc.typeinfo:eu-repo/semantics/doctoralThesistr_TR
dc.description.ozetDuygu analizi yorum, haber, blog gibi türlerde gömülü olan genel duyguyu (yani olumlu, olumsuz veya tarafsız) belirlemek için tümcelerin sınıflandırılması işi olarak tanımlanabilir. Bu alanda yapılan çalışmaların büyük çoğunluğu İngilizce metinler için duygu analizi üzerine yoğunlaşırken; Arapça, Türkçe, İspanyolca ve Hollandaca gibi diller için de yapılmış sınırlı sayıda araştırma bulunmaktadır. Tez çalışmasında duyguları sınıflandırmak için sıklıkla kullanılan makine öğrenme (ML) yöntemlerini araştırarak, Arapça belgeler üzerinde duygu analizinin performans sonuçlarının iyileştirilmesi amaçlanmıştır. Aynı zamanda ML ile modelleme sürecinde girdilerin temsilinde yeni vektör biçimleri oluşturulmuştur. İkinci olarak maksimum, ortalama ve çıkarma gibi toplama işlevlerine dayalı farklı formülleri kullanarak terim ve belge düzeylerinde sözcük tabanlı yaklaşımın uygulanması amaçlanmıştır. Sözcük tabanlı yaklaşımın performans sonuçlarındaki en iyi yaklaşımların, Arapça‘da sözcüğe dayalı duygu analizinin terim ve belge seviyesi ile birlikte kullanılabileceğini göstermek için kullanılmıştır. Ayrıca, her iki seviye için kuralların kullanım etkinliği de gösterilmiştir. Son olarak, kuralların ML yöntemlerine entegre edildiği hibrid bir yöntem önerilmiştir. Deneylerde OCA derlemi ve Arapça duygular için Arapça'nın zorluklarını çözümlemede geniş kapsamlı bir duygu sözlüğü olan (ArSenL) kullanılmıştır. Deneylerin ilkinde, modellemede kullanılan özellikler OCA derlemininden hem terim hem de doküman düzeyleri için bağımsız olarak seçilmiştir. İkincisinde ise, derlemde Destek Vektör Makinesi (SVM), Karar Ağacı (D-Ağacı) ve Yapay Sinir Ağı (ANN) gibi farklı ML yöntemleri hem tek başlarına ve hem de kurallarla birlikte uygulanmıştır. Üçüncüsünde ise, bir belgedeki her terim için kuralların uygulanabilmesi için belge seviyesinde sözcük temelli yaklaşım uygulanmış ve sonuçlar arasında karşılaştırmalar yapılmıştır. Bu çalışmada elde edilen en başarılı sonuçlar şöyledir: (i) makine öğrenimi kullanımında, ANN sınıflandırıcısı, pozitif test sınıfları için terim ortalamasında elde edilen F-skorunun ortalaması 0.92 olan Arapça duygu analizinde terim düzeyinde ve belge düzeyinde en iyi sınıflandırıcı olarak adlandırılmıştır ve negatif sınıflarda da 0.92’dir. ANN modellinin belge seviyesinde, pozitif test sınıfları için F-skor ortalaması 0.94, negatif sınıflarda ise 0.93'tür. (ii) Sözcüğe dayalı yaklaşıma göre, en iyi sonucun her terim için kurala dayalı yöntemler uygulayarak, sonra her cümle skorunu DMax_Sub formülüyle hesaplayarak ve son olarak, belge skoru hesaplaması için ilk cümle puanı formülü kullanılarak elde edildiği sonucuna ulaşılmıştır. Genel olarak makine öğrenimi yaklaşımı sonuçları sözlük kullanımı yaklaşımına göre daha iyi sonuçlar vermiştir.tr_TR
dc.contributor.departmentBilgisayar Mühendisliğitr_TR
dc.contributor.authorID10163079tr_TR


Bu öğenin dosyaları:

Bu öğe aşağıdaki koleksiyon(lar)da görünmektedir.

Basit öğe kaydını göster