Basit öğe kaydını göster

dc.contributor.advisorGenç, Burkay
dc.contributor.authorMertoğlu, Uğur
dc.date.accessioned2021-01-04T11:48:55Z
dc.date.issued2020
dc.date.submitted2020-09-04
dc.identifier.urihttp://hdl.handle.net/11655/23222
dc.description.abstractThe transformation of print media into online media along with the increasing use of the internet and social media as news sources have drastically altered the concept of media literacy and people's habit of getting news. Both individuals and organizations, therefore, have started to make extensive use of online news sites and social media platforms to receive news. This easier, faster, and comparatively cheaper opportunity offers comfort in terms of people’s access to information, but also creates important problems when the possible effects/impacts of news are considered. In this era, the news which disseminates at an unprecedented pace, huge size and variety has created a challenge that cannot be overcome with human power in terms of verifying or determining if it is worth reading. The tendency of people to spread ambiguous or fake news more than valid news makes the problem even more difficult. As negative situations arising from the effects of fake news increase, social media platforms, commercial organizations, institutions and even states have started to take their own measures against this asymmetric threat. This situation motivated researchers to analyze this type of news most of which is composed of text. And accordingly, they have been trying to constitute scientific infrastructures and develop smart systems for detecting fake news. Basically, detection of textual deception is in the intersection of the Text Analysis/Mining and Natural Language Processing disciplines. The problem has recently become a field of research that requires the use of many systematics together such as big data analysis, artificial intelligence, machine learning etc. News verification and labeling systems are designed to utilize or to detect complex and nested components like textual deception, fake content fabrication, news source, truth verification, sarcasm, crowd-sourcing etc. In particular, performance in detecting text deception is directly related with the level of development of language-specific resources and libraries. Many studies in the field of Fake News Detection are largely specific to the English language. Although some analysis and modeling can be generalized, the characteristic analysis of many languages, including Turkish, is essential to achieve correct results. Although the developments in the last 5 years have constitued an academic knowledge for the field, there is still a lack of a scholar study in the literature on Turkish Fake News Detection. This situation makes it necessary to address the issue by emphasizing language-specific characteristics for agglutinative languages such as Turkish. The main framework and basic hypothesis of our study is based on the notion that potential fake news can be detected by hybrid methodologies using novel linguistic-oriented approaches. To this end, it is aimed to create a developable framework model on Turkish Fake News Detection. Within the scope of this thesis, studies were carried out to reach three main goals. The first of these objectives is that the data set obtained under the thesis will be presented as an open source for all disciplines. The second main goal is to develop the Turkish Fake News Lexicon, which is obtained by using this data set contributing a different perspective to the problem. Another goal targeted in the thesis is to develop a sustainable model with a hybrid approach to Turkish Fake News Detection and to present this through experimental studies. The thesis is basically constructed in three phases. The first phase is the introductory phase; including literature review, examining the analyzes to deal with the problem, the dataset collection and all preliminary preparations for further phases. In this phase; a large collection has been created by labeling and verifying all of the data collected using news texts from the mainstream news outlets, news verification platform and manual methods. This phase covers all the preliminary procedures required to create a Turkish Fake News Lexicon aimed at developing in the second phase. In the second phase, the data set obtained in the first phase was subjected to statistical analysis and it was aimed to develop a Turkish Fake News Language Model/Lexicon with four categories, which we named FanLexTR. For each category, term frequencies and relative occurrence frequencies were calculated and tone values of the terms, in other words, score values were assigned. Giving polarity value to the terms has also been tried. But, given the fact that assigning polarity value to the terms could confuse by omitting the fluctuations between fake and valid, we used tone values which gave us more stable results. A lexicon based textual deception detection was performed according to the FanLexTR. Considering the method used, the methodology is the first lexicon-based Fake News Detection study in the literature and quite successful in terms of its results. In the third and the last phase, considering the specific characteristics of Turkish, the problem was approached from different perspectives, and the feature selection and feature extraction procedures for detection of fake news were carried out. In this phase, the lexicon-based approach developed in the second phase was added to the machine learning and deep learning approach as feature, and the results obtained in the second phase were developed. In this phase, performance evaluation of the obtained model obtained has been made. Additionally, within the thesis an innovative solution proposal was made to reflect the solution of the problem to practice and a framework containing digital librarianship technology was introduced.tr_TR
dc.language.isoturtr_TR
dc.publisherFen Bilimleri Enstitüsütr_TR
dc.rightsinfo:eu-repo/semantics/openAccesstr_TR
dc.subjectSahte haber sözlüğütr_TR
dc.subjectMakine öğrenmesitr_TR
dc.subjectDoğal dil işlemetr_TR
dc.subjectSahte haber tespititr_TR
dc.subjectEklemeli dillertr_TR
dc.subject.lcshBilgisayar mühendisliğitr_TR
dc.titleTürkçe İçin Sahte Haber Tespit Modelinin Oluşturulmasıtr_TR
dc.title.alternativeA Fake News Detectıon Model For Turkısh Languagetr_en
dc.typeinfo:eu-repo/semantics/doctoralThesistr_TR
dc.description.ozetBasılı medyanın çevrim içi ortamlarda faaliyet gösteren medyaya dönüşmesi, internetin ve sosyal medyanın haber kaynağı olarak giderek artan yoğunlukta kullanımı, medya okuryazarlığı kavramını ve insanların haber edinme alışkanlıklarını çarpıcı şekilde değiştirmiştir. Bu doğrultuda, bireyler ve organizasyonlar haber edinmek için çevrim içi haber sitelerinden ve sosyal medya platformlarından yoğun olarak yararlanmaya başlamıştır. Bu daha hızlı, daha kolay ve nispeten daha ucuz olan fırsat; insanların bilgiye erişimi açısından kolaylık sağlarken, haberlerin potansiyel etkileri düşünüldüğünde önemli problemleri de beraberinde getirmektedir. Daha önce görülmemiş bir hızda, devasa boyut ve çeşitlilikte yayılan haberleri, doğrulamak veya bilgiye dönüşebilecek okumaya değer bir veri olduğunu saptamak; içinde bulunduğumuz çağda insan gücü ile üstesinden gelinemeyecek bir problemi doğurmuştur. İnsanların içerik yönünden muğlak veya sahte bir haberi gerçek bir habere oranla daha hızlı yayma eğilimi, problemi daha da zor bir hale sokmaktadır. Sahte haberlerden kaynaklı gelişmelerin etkisiyle oluşan olumsuz durumlar arttıkça, değişik amaçlarla bilinçli veya bilinçsiz şekilde vuku bulan bu asimetrik tehdide karşı sosyal medya platformları, ticari organizasyonlar, kurumlar ve hatta devletler kendi önlemlerini almaya başlamışlardır. Bu durum araştırmacıları; çoğunlukla metin türündeki bu haberleri analiz etmeye, bilimsel altyapılar oluşturmaya, sahte haber tespitini amaçlayan akıllı sistemler geliştirmeye motive etmiştir. Temel olarak metinsel aldatma/sahteciliğin (textual deception) tespiti, Metin Analizi/Madenciliği ve Doğal Dil İşleme (DDİ) disiplinlerinin kesişim alanına girmektedir. Geniş perspektiften değerlendirildiğinde ise problem; büyük veri analizi, yapay zekâ, makine öğrenmesi, derin öğrenme vb. gibi birçok sistematiğin birlikte kullanılmasını gerektiren bir araştırma alanı haline dönüşmüştür. Haber etiketleme ve doğrulama sistemleri; metinsel aldatma, içerik sahteciliği, video/foto kaynak tespiti, gerçeklik kontrolü, ironi tespiti, kitle kaynak kullanımı vb. birçok boyutuyla değerlendirilen karmaşık ve iç içe geçmiş alt sistematikleri kullanmak üzere kurgulanmaktadır. Özellikle metinsel aldatmanın tespitinde başarım, dile özgü kaynak ve kütüphanelerin gelişmişlik düzeyiyle doğrudan orantılıdır. Sahte Haber Tespiti alanında literatürdeki birçok çalışma İngilizce diline özgüdür. Her ne kadar bazı analiz ve modellemeler genelleştirilebilir olsa da Türkçenin de içinde bulunduğu birçok dilin kendilerine özgü karakteristik analizi doğru sonuçlara ulaşmak için elzemdir. Özellikle son 5 yıldaki gelişmeler alan için akademik anlamda bir bilgi birikimi oluşturmuş olsa da Türkçe Sahte Haber Tespitine yönelik literatürde bilinen bir çalışma olmadığı görülmektedir. Bu durum, Türkçe gibi sondan eklemeli diller için de dile özgü karakteristiklerin üzerinde durularak konunun ele alınmasını gerekli kılmaktadır. Çalışmamızın ana çerçevesi ve temel hipotezi, potansiyel sahte haberlerin yenilikçi dilbilimsel yaklaşımlar kullanılarak hibrit/melez metodolojilerle tespit edilebileceği fikrine dayanmaktadır. Bu doğrultuda, Türkçe Sahte Haber Tespitine yönelik temel alınabilecek, geliştirilebilir bir model oluşturulması amaçlanmıştır. Tez kapsamında üç temel hedefe ulaşılması için çalışmalar yapılmıştır. Bu hedeflerin ilki; tez kapsamında elde edilen veri setinin alanda temel olabilecek, tüm disiplinlerin erişimine açık bir kaynak olarak sunulacak olmasıdır. İkinci temel hedef, bu veri seti kullanılarak elde edilen ve probleme farklı bir bakış açısı katmak üzere Dil Modellemesi yapılarak Türkçe Sahte Haber Sözlüğü geliştirilmesidir. Tez kapsamında hedeflenen diğer önemli husus ise, Türkçe Sahte Haber Tespitine yönelik makine öğrenmesini de içine alan hibrit bir yaklaşımla sürdürülebilir bir model oluşturulması ve sonuçların deneysel çalışmalarla gösterilmesidir. Tez, temel olarak üç fazda kurgulanmıştır. Birinci faz; literatür taraması, problemin Türkçe açısından ele alınmasında kullanılacak analiz çalışmaları, Türkçe için bu amaçla kullanılacak ve halihazırda literatürde eksik olan veri setinin elde edilerek literatüre kazandırılması ve tüm ön hazırlık işlemlerini kapsayan giriş fazıdır. Bu fazda; ana akım haber medyasındaki haber metinleri, haber doğrulama platformu kaynaklı haber metinleri ve manuel yöntemler kullanılarak toplanan verilerin, tamamı etiketlenerek ve doğrulama işlemi yapılarak göreceli büyük bir derlem oluşturulmuştur. Bu faz, ikinci fazda geliştirilmesi hedeflenen Türkçe Sahte Haber Sözlüğü oluşturulması için gerekli tüm ön işlemleri kapsar. İkinci fazda, ilk fazda elde edilen veri seti istatistiksel analizlere tabi tutulmuş ve FanLexTR olarak adlandırdığımız dört kategoriye sahip Türkçe Sahte Haber Dil Modeli/Sözlüğünün geliştirilmesi hedeflenmiştir. Her kategori için terim sıklıkları ve oransal gözlenme sıklıkları hesaplamaları ile terimlere ait ton değerlerinin bir başka deyişle skor değerleri oluşturulmuştur. Terimlere polarite değeri verilmesi de ayrıca denenmiştir. Fakat ton değerlerinin daha kararlı sonuçları verdiği gözlemlenmiştir. Bu doğrultuda ortaya çıkan Türkçe Sahte Haber Sözlüğü kullanılarak sözlük temelli metinsel aldatma tespiti yapılmıştır. Kullanılan yöntem dikkate alındığında, çalışmadan oldukça başarılı sonuçlar elde edilmiş ve literatürdeki ilk sözlük temelli Sahte Haber Tespiti çalışması olması olarak yerini almıştır. Üçüncü ve son fazda, Türkçenin karakteristikleri de göz önüne alınarak, probleme farklı bakış açılarından yaklaşılmış, sahte haberlerin tespitine yönelik özellik/öznitelik seçimi ve çıkarma işlemleri gerçekleştirilmiştir. Bu fazda ikinci fazda kullanılan sözlük temelli yaklaşım, üçüncü fazdaki makine öğrenmesi ve derin öğrenme yaklaşımına öznitelikler şeklinde dahil edilmiş ve ikinci fazda elde edilen sonuçlar geliştirilmiştir. Geliştirilen modelin performans değerlendirmesi sunulmuştur. Ayrıca tez kapsamında problemin çözümünü pratiğe yansıtmak açısından yenilikçi bir çözüm önerisinde bulunulmuş ve dijital kütüphanecilik teknolojisini barındıran bir çerçeve ortaya konmuştur.tr_TR
dc.contributor.departmentBilgisayar Mühendisliğitr_TR
dc.embargo.termsAcik erisimtr_TR
dc.embargo.lift2021-01-04T11:48:55Z
dc.fundingYoktr_TR


Bu öğenin dosyaları:

Bu öğe aşağıdaki koleksiyon(lar)da görünmektedir.

Basit öğe kaydını göster