dc.contributor.advisor | Sezer, Ebru | |
dc.contributor.author | Yavanoğlu Milletsever, Özlem | |
dc.date.accessioned | 2017-03-06T07:28:38Z | |
dc.date.available | 2017-03-06T07:28:38Z | |
dc.date.issued | 2017 | |
dc.date.submitted | 2017-01-31 | |
dc.identifier.citation | Yavanoğlu Özlem, "STİLİSTİK ÖZELLİKLER KULLANILARAK YAZAR TANIMA İŞİNDE YAPAY SİNİR AĞLARININ BAŞARIMININ DEĞERLENDİRİLMESİ: TÜRKÇE KÖŞE YAZILARI", Hacettepe Fen Bilimleri Enstitüsü,Yüksek Lisans, 2017. | tr_TR |
dc.identifier.uri | http://hdl.handle.net/11655/3247 | |
dc.description.abstract | One of the main opportunities that the internet provides today is the rapidity of media resources, anonymity and accessibility from anywhere. Since individuals do not have to use their real identity in places like websites, forums, and e-mails, such places require good or bad intentions to distinguish between real and non-real identity use at the same time. This is sometimes for the solutions of crimes, sometimes for conceptional rights, sometimes for simply the name similarities. By examining a text that contains a crime element and by analyzing people's writing habits or styles (forms), author identificiation efforts help us to know about the true authors of those messages. In literature, author recognition is expressed as the process of determining the author of an article whose author is not known or whose author is suspected. Different works have been carried out on this field from day to day. Author recognition is considered as a classification problem and is expressed as the process of identifying the most appropriate author from the group of potential suspects. Within the scope of this thesis, it is aimed to develop author identification models in order to respond to different needs. Different tests have been carried out to assess the success of the models obtained. Accuracy values obtained from these tests vary between 99% and 74%. In addition, the success of the author features used in the author recognition study in determining the text type is evaluated and a different model for text type recognition is proposed. The proposed model shows whether a text belongs to the fields of 'Life', 'Politics' or 'Economy'. The accuracy of the proposed ANN (Artificial Neural Networks) models are between 88% and 70%. In this thesis, we also propose a hybrid ANN model which recognizes both writer and writing type in order to answer different needs and show the determination of the recommended author recognition and writing type recognition models. | tr_TR |
dc.description.tableofcontents | ÖZET i
ABSTRACT iii
TEŞEKKÜR v
ÇİZELGELER viii
ŞEKİLLER ix
SİMGELER VE KISALTMALAR x
1. GİRİŞ 1
2. ALAN BİLGİSİ 5
2.1. Yazar Analizi 5
2.2. Yazarlık Özellikleri 7
2.2.1. Sözcüksel Özellikler (Lexical Features) 8
2.2.2. Sözdizimsel Özellikler (Syntactic Features) 9
2.3.3. Yapısal Özellikler (Structural Features) 9
2.3.4. İçeriğe Özgü Özellikler (Content-Specific Features) 9
2.3.5 Kişiye Özgü Özellikler (Idiosyncratic Features) 10
2.4. Performans Değerlendirme Metrikleri 10
3. YAZAR TANIMA KONUSUNDA ALANYAZIN ÖZETİ 12
3.1. İngilizce ve Diğer Diller için Yapılan Çalışmalar 12
3.2. Türkçe için Yapılan Çalışmalar 20
4. ALANYAZIN ÖZETİNDE KULLANILAN YÖNTEMLER 25
4.1. Navie Bayes 25
4.2. Destek Vektör Makineleri (SVM) 27
4.3. Karar Ağaçları 28
5. YAPAY ZEKA YÖNTEMLERİ 30
5.1. Yapay Sinir Ağları (Artifical Neural Network) 30
5.2. Yapay Sinir Ağları Yapıları 34
5.3. YSA Öğrenme Algoritmaları 36
5.3.1. Momentumlu Geri Yayılım Algoritması (BackPropagation) 38
5.3.2. Levenberg-Marquardt Öğrenme Algoritması 40
5.3.3. Esnek Yayılım Algoritması 41
5.4. YSA Modelinin Tasarlanması 42
6. KÖŞE YAZILARI VERİLERİ 45
6.1. Verilerin Elde Edilmesi 45
6.2. Biçimsel Özelliklerin Elde Edilmesi 50
7. GELİŞTİRİLEN MODELLER 55
7.1. Yazar Tanıma Modelleri 55
7.2. Yazı Alanı (Türü) Tanıma YSA Modeli 72
7.3. Yazar ve Yazı Alanı (Türü) Tanıma YSA Modeli 75
7.4. K-NN (K Nearest Neighborhood) ile Yazar Tanıma 78
8. SONUÇ 83 | tr_TR |
dc.language.iso | tur | tr_TR |
dc.publisher | Fen Bilimleri Enstitüsü | tr_TR |
dc.rights | info:eu-repo/semantics/openAccess | tr_TR |
dc.subject | Yazar analizi | |
dc.subject | Yazar tanıma | |
dc.subject | Metin sınıflandırma | |
dc.subject | Yapay sinir ağları | |
dc.subject | Metin özellikleri | |
dc.title | Stilistik Özellikler Kullanılarak Yazar Tanıma İşinde Yapay Sinir Ağlarının Başarımının Değerlendirilmesi: Türkçe Köşe Yazıları | tr_TR |
dc.title.alternative | Performance Assessment of Artificial Neural Networks for Author Attribution By Using Stylistic Features: Turkish Articles | tr_TR |
dc.type | info:eu-repo/semantics/masterThesis | tr_TR |
dc.description.ozet | Günümüzde internetin sağladığı olanakların başında medya kaynaklarının hızlı olması, anonimliği ve her yerden erişiminin sağlanabilmesi gelmektedir. Bireylerin web siteleri, forumlar, e-postalar gibi ortamlarda gerçek kimliklerini kullanma zorunluluğu olmadığı için bu tür ortamlar iyi ya da kötü niyetle gerçek dışı kimlik kullanımı ve aynı zamanda gerçek olan ile olmayan arasında ayrım yapabilmeyi gerektirir. Bu bazen suçluların bazen fikri hakların bazen de basitçe isim benzerliklerinin çözümü içindir. Bir metnin incelenerek, kişilerin yazma alışkanlıkları ya da stilleri (biçimleri) analiz edilerek gerçek yazar(lar)ı hakkında bilgi sahibi olmamıza yazar tanıma çalışmaları yardımcı olmaktadır. Alanyazında yazar tanıma, yazarı belli olmayan ya da yazarından şüphe duyulan bir yazının yazarını belirleme işlemi olarak ifade edilmektedir. Geçmişten günümüze bu alanda farklı çalışmalar gerçekleştirilmiştir. Yazar tanıma, bir sınıflandırma problemi olarak ele alınmakta ve potansiyel şüpheliler grubundan en uygun yazarın belirlenmesi işlemi olarak ifade edilmektedir. Bu tez kapsamında Türkçe yazar tanıma çalışmalarında kullanılmak üzere köşe yazılarından oluşan geniş bir derlem oluşturulmuştur. Oluşturulan derlem siyaset, ekonomi, yaşam ve spor alanlarında yazılar yazan 167 köşe yazarına ait olan köşe yazılarından oluşmaktadır. Elde edilen modellerin başarısının değerlendirilmesi için farklı testler gerçekleştirilmiştir. Yapılan bu testler sonucunda elde edilen doğruluk (accuracy) değerleri 99% ile 74% arasında değişiklik göstermektedir. Ayrıca tez kapsamı içerisinde yazar tanıma çalışmasında kullanılan yazar özelliklerinin metin türü belirlemede ki başarısı değerlendirilmiş ve metin türü tanıma için farklı bir model önerilmiştir. Önerilen model bir yazının (metnin) ‘Yaşam’, ‘Siyaset’ ya da ‘Ekonomi’ alanlarından hangisine ait olduğunu göstermektedir. Yapılan deneyler sonucunda önerilen YSA (Yapay Sinir Ağları) modelinin doğruluk (accuracy) değeri 88% ile 70% arasında bulunmuştur. Yazar tanıma çalışma alanı için önerilen modellerin başarısının değerlendirilmesi için gözetimli öğrenme algoritmalarından biri olan k en yakın komşu (KNN) tercih edilmiştir. KNN ile yapılan deneysel çalışmalar sonucunda elde edilen doğruluk değerleri yazar tanıma için 62% olarak bulunmuştur. Bu tez kapsamında ayrıca farklı ihtiyaçlara cevap vermek ve önerilen yazar tanıma ve yazı türü tanıma modellerinin kararlılığını göstermek için hem yazar hem de yazı türü tanıyan hibrid bir YSA modeli de önerilmiştir. | tr_TR |
dc.contributor.department | Bilgisayar Mühendisliği | tr_TR |
dc.contributor.authorID | 10140570 | tr_TR |