dc.contributor.advisor | Sever , Hayri | |
dc.contributor.author | Nasser , Ahmed | |
dc.date.accessioned | 2018-01-16T07:43:07Z | |
dc.date.available | 2018-01-16T07:43:07Z | |
dc.date.issued | 2018 | |
dc.date.submitted | 2018-01-04 | |
dc.identifier.citation | Ahmed NASSER, 2018,LARGE-SCALE ARABIC SENTIMENT CORPUS AND LEXICON BUILDING FOR CONCEPT-BASED SENTIMENT ANALYSIS SYSTEMS, PhD thesis,Graduate School of Science and Engineering of Hacettepe
University | tr_TR |
dc.identifier.uri | http://hdl.handle.net/11655/4170 | |
dc.description.abstract | Within computer-based technologies, the usage of collected data and its size are
continuously on a rise. This continuously growing big data processing and
computational requirements introduce new challenges, especially for Natural Language
Processing NLP applications. One of these challenges is maintaining massive
information-rich linguistic resources which are fit with the requirements of the Big Data
handling, processing, and analysis for NLP applications, such as large-scale text
corpus. In this work, a large-scale sentiment corpus for Arabic language called GLASC
is presented and built using online news articles and metadata shared by the big data
resource GDELT. The GLASC corpus consists of a total number of 620,082 news
article which are organized in categories (Positive, Negative and Neutral) and, each
news article has a sentiment rating score value between -1 and 1. Several types of
experiments were also carried out on the generated corpus, using a variety of machine learning algorithms to generate a document-level Arabic sentiment analysis system.
For training the sentiment analysis models different datasets were generated from
GLASC corpus using different feature extraction and feature weighting methods. A
comparative study is performed, involving testing a wide range of classifiers and
regression methods that commonly used for sentiment analysis task and in addition
several types of ensemble learning methods were investigated to verify its effect on
improving the classification performance of sentiment analysis by using different
comprehensive empirical experiments. In this work, a concept-based sentiment
analysis system for Arabic at sentence-level using machine learning approaches and a
concept-based sentiment lexicon is also presented. An approach for generating an
Arabic concept-based sentiment lexicon is proposed and done by translating the
recently released English SenticNet_v4 into Arabic and resulted in producing Ar-
SenticNet which contains a total of 48k of Arabic concepts. For extracting the concept
from the Arabic sentence, a rule-based concept extraction algorithm called semantic
parser is proposed and performed, which is generates the candidate concept list for an
Arabic sentence. Different types of feature extraction and representation techniques
were also presented and used for building the concept-based Sentence-level Arabic
sentiment analysis system. For building the decision model of the concept-based
Sentence-level Arabic sentiment analysis system a comprehensive and comparative
experiments were carried out using variety of classification methods and classifier
fusion models, together with different combinations of the proposed features sets. The
obtained experiment results show that, for the proposed machine learning based
Document-level Arabic sentiment analysis system, the best performance is achieved by
the SVM-HMM classifier fusion model with a value of F-score of 92.35% and by the SVR
regression model with RMSE of 0.183. On the other hand, for the proposed conceptbased
sentence-level Arabic sentiment analysis system, the best performance is
achieved by the SVM-LR classifier fusion model with a value of F-score of 93.92% and
by the SVM regression model with RMSE of 0.078. | tr_TR |
dc.description.tableofcontents | ABSTRACT .................................................................................................................. I
ÖZET .......................................................................................................................... III
ACKNOWLEDGEMENT .............................................................................................. V
CONTENTS ................................................................................................................ VI
FIGURES ................................................................................................................... IX
TABLES ..................................................................................................................... XI
ABBREVIATIONS AND SYMBOLS ........................................................................... XII
1. INTRODUCTION .................................................................................................. 1
1.1. Overview ............................................................................................................. 1
1.2. Aims and Contributions ....................................................................................... 5
1.3. Thesis Outline ..................................................................................................... 7
2. BACKGROUND .................................................................................................... 8
2.1. Sentiment Analysis for Arabic Language ............................................................ 8
2.2. Arabic Language ................................................................................................. 9
2.3. Literature Review ................................................................................................ 9
2.4. GDELT .............................................................................................................. 23
2.5. Machine Learning Approaches for Sentiment Analysis ..................................... 24
2.5.1. Machine Learning Approaches for Sentiment Classification ........................... 24
2.5.2. Machine Learning Approaches for Sentiment Regression .............................. 28
2.5.3. Machine Learning Based Model Ensemble Techniques ................................. 31
2.6. Concept-Based Sentiment Analysis .................................................................. 33
2.6.1. SenticNet ........................................................................................................ 35
2.6.2. SenticNet Based Sentiment Analysis Applications ......................................... 36
VII
2.7. Word Embedding (Word2voctor) ....................................................................... 37
3. DATA METHODOLOGY AND MODEL ................................................................. 39
3.1. Approach for Generating a Large-scale Arabic Sentiment Analysis Corpus ..... 39
3.2. Machine Learning Approach for Document-Level Arabic Sentiment Analysis... 42
3.2.1. Preprocessing Stage....................................................................................... 43
3.2.2. Feature Extraction Stage ................................................................................ 44
3.2.3. Machine Learning based Sentiment Analysis Stage ....................................... 45
3.3. Generation of the Conceptual Based Arabic Sentiment Lexicon (Ar-SenticNet) 46
3.3.1. The Translation Process ................................................................................. 47
3.3.2. The Extension Process: .................................................................................. 48
3.4. Concept-based Approach for Arabic Sentence-Level Sentiment Analysis ........ 50
3.4.1. Semantic Parser (SP) ..................................................................................... 51
3.4.2. Feature Extraction and Representations......................................................... 55
4. DATA EVALUATION AND TESTING .................................................................... 57
4.1. GLASC Corpus Quality Evaluation ................................................................... 57
4.1.1. Corpus Statistics Evaluation ........................................................................... 57
4.1.2. Zipf's Law ........................................................................................................ 60
4.2. Dataset Generation for Evaluating the Machine Learning Based Sentiment
Analysis Systems ...................................................................................................... 62
4.2.1. Prepressing ..................................................................................................... 63
4.2.2. Feature Extraction and Weighting ................................................................... 63
4.3. System Evaluation Metrics ................................................................................ 64
4.3.1. Sentiment Classification Model Performance Evaluation Metrics ................... 64
4.3.2. Sentiment Regression Model Performance Evaluation Metrics ...................... 66
4.4. Machine Learning Approach for Document-level Arabic Sentiment Analysis
Evaluation.................................................................................................................. 67
VIII
4.4.1. Sentiment Classification Model Generation and Testing................................. 67
4.4.2. Sentiment Regression Model Generation and Testing ................................... 80
4.5. Concept-based Approach for Arabic Sentence-level Sentiment Analysis
Evaluation.................................................................................................................. 84
4.5.1. Measure the Coverage of the Translated Arabic SenticNet ............................ 84
4.5.2. Dataset and Feature Exaction ........................................................................ 86
4.5.3. Classification Model Generation and Evaluation ............................................. 87
4.5.4. Sentiment Regression Model Generation and Testing ................................... 93
5. CONCLUSION ...................................................................................................... 98
REFERENCES ........................................................................................................ 102
APPENDEX 1: A sample from our GLASC corpus files in each category ............... 117
APPENDEX 2: A sample from our Ar-SenticNet concept based sentiment analysis
lexicon for Arabic ..................................................................................................... 118
CURRICULUM VITAE ............................................................................................. 119 | tr_TR |
dc.language.iso | en | tr_TR |
dc.publisher | Fen Bilimleri Enstitüsü | tr_TR |
dc.rights | info:eu-repo/semantics/openAccess | tr_TR |
dc.subject | Arabic sentiment analysis | tr_TR |
dc.subject | Concept-based sentiment analysis | |
dc.subject | Largescale corpus | |
dc.subject | Bigdata | |
dc.subject | Machine learning | |
dc.subject | Ensemble learning | |
dc.title | Large-Scale Arabic Sentiment Corpus And Lexicon Building For Concept-Based Sentiment Analysis Systems | tr_eng |
dc.title.alternative | Kavram-Tabanlı Duygu Analizi Sistemleri İçin Büyük Ölçekli Arapça Duygu Derlemi Ve Sözlüğü Oluşturulması | tr_TR |
dc.type | info:eu-repo/semantics/doctoralThesis | tr_TR |
dc.description.ozet | Bilgisayar tabanlı teknolojilerinde toplanan verilerin kullanımı ve büyüklüğü sürekli
artımaktadir. Bu sürekli artan büyük verinin işleme ve hesaplama gereksinimleri,
özellikle Doğal Dil İşleme NLP uygulamalarında yeni bir zorluklar ortaya koymaktadır.
Bu zorluklardan biri, Duygu Analizi (DA) gibi NLP uygulamalarında Büyük Verilerin ele
alınma, işlenme ve analiz edilme gereksinimlerine uyan büyük ölçekli metin derlemi gibi
zengin bir dilsel kaynağın sağlanmasıdır. Arapça dil için böyle büyük ölçekli bir
kaynağın bulunmamasının zorluğu çözmek için, çevrimiçi haber Media'yı ve büyük veri
kaynağı tarafından üretilen açık kaynak meta verilerini kullanarak inşa edilen GDELT
büyük ölçekli Arapça duygu analiz derlemimizi (GLASC) tanıtmaktayız. GLASC derlimi,
(Pozitif, Negatif ve Nötr) kategorilerinde düzenlenen toplam 620.082 haber
makalesinden oluşmaktadır ve aynı zamanda, derlemimizdeki her haber makalesinin
(-1 ve 1) aralığında bir duygu puanı vardır. Ayrıca, Makine öğrenme sınıflandırma ve
regresyon yaklaşımlarına dayalı bir Arapça belge seviyesinde duygu analizi sistemi oluşturmak için GLASC derlemi kullanıp bazı deneyler gerçekleştirdik. Önerilen Makine
öğrenmesi modellerini eğitmek için, farklı öznitelik çıkarma ve özellik ağırlıklandırma
yöntemlerini kullanarak GLASC derlemimizden farklı veri kümeleri ürettik. Duygu analizi
görevi için sıkça kullanılan sınıflandırma ve regresyon, yöntemlerinin testini içeren
karşılaştırmalı geniş bir çalışma gerçekleştirilmiştir. Buna ek olarak, çeşitli kapsamlı
deneyler kullanarak, duygu analizi için sınıflandırma performansının iyileştirilmesinin
etkisini doğrulamak için, (Çuvallama, Yükseltme, Rasgele altuzay ve Öffekleme gibi)
topluluk öğrenme yöntemlerinin çeşitli türleri araştırılmıştır. Bu çalışmada, makine
öğrenme yaklaşımlarını ve kavrama dayalı bir duyugu sözlüğünü kullanarak, cümle
düzeyinde Arapça için kavram tabanlı bir duygu analiz sistemi sunulmuştur. Yakın
zamanda çıkan İngilizce SenticNet_v4'ü Arapça'ya çevirerek Arapça kavram temelli bir
duygu sözlüğü üretmek için bir yaklaşım önerilmiştir. Üretilen Arapça konsept temelli
duygu sözlüğü Ar-SenticNet toplam 48k Arapça kavram içermektedir. Arapça cümleden
Konsepti çıkarmak için, anlamsal ayrıştırıcı olarak adlandırılan kural tabanlı bir
kavramları çıkarma algoritması önerildi ve uygulanmıştır. Ayrıca, kavram tabanlı cümle
düzeyinde Arapça duygu analizi sisteminin oluşturulması için farklı özellikler çıkarım ve
gösterim teknikleri sunurak kullandık. Kavram tabanlı cümle düzeyinde Arapça duygu
analiz sisteminin karar modeli oluşturmak için, farklı sınıflandırma yöntemi ve
sınıflandırıcı füzyon modelleri kullanılarak, önerdiğimiz özellikler kümelerimizin farklı
kombinasyonları ile kapsamlı ve karşılaştırmalı deneyler yapılmıştır. Elde edilen deney
sonuçlarımıza dayanarak, önerilen Makine öğrenmesi tabanlı Doküman düzeyinde
Arapça duygu analiz sistemimiz için, en iyi performans % 92.35 F-skoru değeri olan
SVM-HMM sınıflandırıcı füzyon modeliyle ve 0.183 RMSE değeri olan SVR regresyon
modeli ile, gerçekleştirilmiştir. Öte yandan, önerilen konsept tabanlı cümle düzeyinde
Arapça duygu analiz sistemimiz için, en iyi performans, %93.92'lik bir F-skoru değerine
sahip SVM-LR sınıflayıcı füzyon modeliyle ve 0.078 RMSE değeri olan SVR regresyon
modeli ile, gerçekleştirilmiştir. | tr_TR |
dc.contributor.department | Bilgisayar Mühendisliği | tr_TR |
dc.contributor.authorID | 10176094 | tr_TR |