dc.contributor.advisor | Aydos, Murat | |
dc.contributor.author | Şahin, Esra | |
dc.date.accessioned | 2018-09-13T06:59:51Z | |
dc.date.available | 2018-09-13T06:59:51Z | |
dc.date.issued | 2018 | |
dc.date.submitted | 2018-03-02 | |
dc.identifier.uri | http://hdl.handle.net/11655/4885 | |
dc.description.abstract | Nowadays, we frequently use e-mails, which is one of the communication channels, in electronic environment. It plays an important role in our lives because of many reasons such as personal communications, business-focused activities, marketing, advertising, education, etc. E-mails make life easier because of meeting many different types of communication needs. On the other hand they can make life difficult when they are used outside of their purposes. Spam emails can be not only annoying receivers, but also dangerous for receiver’s information security. Detecting and preventing spam e-mails has been a separate issue.
In this thesis, spam e-mails have been studied comprehensively and studies which is related to classifying spam e-mails have been investigated. Unlike the studies in the literature, in this study; the texts of the links placed in the e-mail body are handled and classified by the machine learning methods and the Bag of Words Technique. In this study, we analyzed the effect of different N grams on classification performance and the success of different machine learning techniques in classifying spam e-mail by using accuracy, F1 score and classification error metrics. On the other hand, the effect of different N grams is examined for machine learning success rate of over %95. As a result of the study, it has been seen that Decision Trees Algorithms show low success in spam classification when Bayes, Support Vector Machines, Neural Networks and Nearest Neighbor Algorithms show high success. On the other hand, 5 grams were found to provide the best contribution for performance. | tr_TR |
dc.description.tableofcontents | ÖZET. ........................................................................................................................................... i
ABSTRACT ............................................................................................................................... iii
TEŞEKKÜR ................................................................................................................................ v
ÇİZELGELER .......................................................................................................................... viii
ŞEKİLLER ................................................................................................................................. ix
KISALTMALAR ........................................................................................................................ x
1. GENEL BİLGİLER ................................................................................................................. 1
1.1 Tezin Amaç ve Hedefleri ....................................................................................................... 4
1.2 Tezin Kapsamı ....................................................................................................................... 5
1.3 Tezin Yapısı ........................................................................................................................... 5
2. ALAN BİLGİSİ ....................................................................................................................... 6
2.1 Bayes Sınıflandırıcı ............................................................................................................... 8
2.1.1 Naive Bayes Sınıflandırıcı .................................................................................................. 8
2.1.2 Naive Bayes Kernel .......................................................................................................... 10
2.2 Destek Vektör Makineleri (SVM) ....................................................................................... 11
2.2.1 Doğrusal SVM (Linear SVM) .......................................................................................... 12
2.2.2 Lib SVM ........................................................................................................................... 14
2.2.3 Pegasos SVM .................................................................................................................... 14
2.3 Karar Ağaçları ..................................................................................................................... 15
2.4 Yapay Sinir Ağları ............................................................................................................... 17
2.4.1 Perceptron ......................................................................................................................... 18
2.5 En Yakın Komşu K-NN ....................................................................................................... 19
2.6 Kelime Kümesi Tekniği (Bag of Words) ............................................................................. 19
3. ALANYAZIN ÖZETİ ........................................................................................................... 20
4. MATERYAL VE YÖNTEM ................................................................................................. 24
4.1 Veri Ön İşleme ..................................................................................................................... 24
4.2 N Gram Özelliklerin Çıkartılması ....................................................................................... 28
4.3 Veri Setlerinin Oluşturulması .............................................................................................. 30
4.4 Araç Seçimi ......................................................................................................................... 34
4.5 Deneylerin Tasarlanması ..................................................................................................... 35
5. DENEY ÇALIŞMALARI VE BULGULAR ........................................................................ 39
5.1 Performans Metrikleri .......................................................................................................... 39
5.2 Bayes Algoritmaları ile Yapılan Deneyler .......................................................................... 41
5.2.1 Naive Bayes Deney Sonuçları .......................................................................................... 41
5.2.2 Naive Bayes Kernel Deney Sonuçları .............................................................................. 43
5.3 Destek Vektör Makinaları Algoritmaları ile Yapılan Deneyler .......................................... 44
5.3.1 Doğrusal SVM (Linear SVM) Deney Sonuçları .............................................................. 44
5.3.2 LibSVM Deney Sonuçları ................................................................................................ 46
5.3.3 Pegasos SVM Deney Sonuçları ........................................................................................ 47
5.4 Karar Ağaçları Algoritmaları ile Yapılan Deneyler ............................................................ 49
5.5 Yapay Sinir Ağları ile Yapılan Deneyler ............................................................................. 50
5.5.1 Perceptron Deney Sonuçları ............................................................................................. 50
5.6 En Yakın Komşu (K-NN) Algoritması ile Yapılan Deneyler ............................................. 51
6. SONUÇLAR .......................................................................................................................... 53
KAYNAKLAR .......................................................................................................................... 59
EKLER ...................................................................................................................................... 61
ÖZGEÇMİŞ ................................................................................................................................. | tr_TR |
dc.language.iso | tur | tr_TR |
dc.publisher | Fen Bilimleri Enstitüsü | tr_TR |
dc.rights | info:eu-repo/semantics/openAccess | tr_TR |
dc.subject | kelime kümesi tekniği | tr_TR |
dc.subject | istenmeyen e-posta | |
dc.subject | makine öğrenmesi teknikleri | |
dc.title | Makine Öğrenme Yöntemleri Ve Kelime Kümesi Tekniği İle İstenmeyen E-Posta / E-Posta Sınıflaması | tr_TR |
dc.type | info:eu-repo/semantics/masterThesis | tr_TR |
dc.description.ozet | Günümüzde elektronik ortamda sıkça kullandığımız iletişim yollarından birisi olan e-postalar; kişisel iletişimler, iş odaklı aktiviteler, pazarlama, reklam, eğitim vs. gibi birçok nedenden dolayı hayatımızda önemli bir yer kaplamaktadır. Birçok farklı konudaki iletişim ihtiyacı için hayatımızı kolaylaştıran e-postalar, kötü niyetli göndericiler tarafından kullanıldıklarında ise alıcıların zamanını çalması, maddi ve manevi kayıplara sebep olması nedeniyle hayatı oldukça zorlaştırabilmektedir. Tanımadığımız ya da güvenilmeyen adreslerden, reklam ya da güvenlik tehdidi oluşturma amaçlı gönderilen e-postalar, bilgi güvenliği açısından önemli tehlikeler oluşturabilir. Bu türdeki istenmeyen e-postaları, insanlara zarar vermeden önce tespit edip önleyebilmek ise ayrı bir çalışma konusu olmuştur.
Bu tez çalışmasında istenmeyen e-postalar kapsamlı bir şekilde araştırılmış, istenmeyen e-postaları sınıflandırmak için yapılan çalışmalar incelenmiştir. Alanyazındaki çalışmalardan farklı olarak e-posta içeriğinde yer alan linklerin metinleri ele alınarak, makine öğrenmesi yöntemleri ve Kelime Kümesi Tekniği ile istenmeyen e-posta/e-posta sınıflaması yapılmıştır. Yapılan çalışmada doğruluk, F1 skor ve sınıflama hata oranı metrikleri kullanılarak farklı makine öğrenme tekniklerinin istenmeyen e-posta sınıflandırılmasındaki başarısı analiz edilmiştir. Diğer yandan başarı oranı %95 üzerinde çıkan makine öğrenme teknikleri için Kelime Kümesi Tekniği (BOW) ile elde edilen farklı N gramların sınıflandırma başarısına olan etkisi incelenmiştir. Çalışma sonucunda Bayes, Destek Vektör Makineleri, Sinir Ağları ve En Yakın Komşu algoritmaları yüksek başarı gösterirken Karar Ağaçları Algoritmalarının istenmeyen e-posta sınıflamada düşük başarı gösterdiği görülmüştür. Diğer yandan 5 gramların performansa en iyi katkıyı sağladığı görülmüştür. | tr_TR |
dc.contributor.department | Bilgisayar Mühendisliği | tr_TR |