Makine Öğrenme Yöntemleri Ve Kelime Kümesi Tekniği İle İstenmeyen E-Posta / E-Posta Sınıflaması

Şahin, Esra

dc.contributor.advisor	Aydos, Murat
dc.contributor.author	Şahin, Esra
dc.date.accessioned	2018-09-13T06:59:51Z
dc.date.available	2018-09-13T06:59:51Z
dc.date.issued	2018
dc.date.submitted	2018-03-02
dc.identifier.uri	http://hdl.handle.net/11655/4885
dc.description.abstract	Nowadays, we frequently use e-mails, which is one of the communication channels, in electronic environment. It plays an important role in our lives because of many reasons such as personal communications, business-focused activities, marketing, advertising, education, etc. E-mails make life easier because of meeting many different types of communication needs. On the other hand they can make life difficult when they are used outside of their purposes. Spam emails can be not only annoying receivers, but also dangerous for receiver’s information security. Detecting and preventing spam e-mails has been a separate issue. In this thesis, spam e-mails have been studied comprehensively and studies which is related to classifying spam e-mails have been investigated. Unlike the studies in the literature, in this study; the texts of the links placed in the e-mail body are handled and classified by the machine learning methods and the Bag of Words Technique. In this study, we analyzed the effect of different N grams on classification performance and the success of different machine learning techniques in classifying spam e-mail by using accuracy, F1 score and classification error metrics. On the other hand, the effect of different N grams is examined for machine learning success rate of over %95. As a result of the study, it has been seen that Decision Trees Algorithms show low success in spam classification when Bayes, Support Vector Machines, Neural Networks and Nearest Neighbor Algorithms show high success. On the other hand, 5 grams were found to provide the best contribution for performance.	tr_TR
dc.description.tableofcontents	ÖZET. ........................................................................................................................................... i ABSTRACT ............................................................................................................................... iii TEŞEKKÜR ................................................................................................................................ v ÇİZELGELER .......................................................................................................................... viii ŞEKİLLER ................................................................................................................................. ix KISALTMALAR ........................................................................................................................ x 1. GENEL BİLGİLER ................................................................................................................. 1 1.1 Tezin Amaç ve Hedefleri ....................................................................................................... 4 1.2 Tezin Kapsamı ....................................................................................................................... 5 1.3 Tezin Yapısı ........................................................................................................................... 5 2. ALAN BİLGİSİ ....................................................................................................................... 6 2.1 Bayes Sınıflandırıcı ............................................................................................................... 8 2.1.1 Naive Bayes Sınıflandırıcı .................................................................................................. 8 2.1.2 Naive Bayes Kernel .......................................................................................................... 10 2.2 Destek Vektör Makineleri (SVM) ....................................................................................... 11 2.2.1 Doğrusal SVM (Linear SVM) .......................................................................................... 12 2.2.2 Lib SVM ........................................................................................................................... 14 2.2.3 Pegasos SVM .................................................................................................................... 14 2.3 Karar Ağaçları ..................................................................................................................... 15 2.4 Yapay Sinir Ağları ............................................................................................................... 17 2.4.1 Perceptron ......................................................................................................................... 18 2.5 En Yakın Komşu K-NN ....................................................................................................... 19 2.6 Kelime Kümesi Tekniği (Bag of Words) ............................................................................. 19 3. ALANYAZIN ÖZETİ ........................................................................................................... 20 4. MATERYAL VE YÖNTEM ................................................................................................. 24 4.1 Veri Ön İşleme ..................................................................................................................... 24 4.2 N Gram Özelliklerin Çıkartılması ....................................................................................... 28 4.3 Veri Setlerinin Oluşturulması .............................................................................................. 30 4.4 Araç Seçimi ......................................................................................................................... 34 4.5 Deneylerin Tasarlanması ..................................................................................................... 35 5. DENEY ÇALIŞMALARI VE BULGULAR ........................................................................ 39 5.1 Performans Metrikleri .......................................................................................................... 39 5.2 Bayes Algoritmaları ile Yapılan Deneyler .......................................................................... 41 5.2.1 Naive Bayes Deney Sonuçları .......................................................................................... 41 5.2.2 Naive Bayes Kernel Deney Sonuçları .............................................................................. 43 5.3 Destek Vektör Makinaları Algoritmaları ile Yapılan Deneyler .......................................... 44 5.3.1 Doğrusal SVM (Linear SVM) Deney Sonuçları .............................................................. 44 5.3.2 LibSVM Deney Sonuçları ................................................................................................ 46 5.3.3 Pegasos SVM Deney Sonuçları ........................................................................................ 47 5.4 Karar Ağaçları Algoritmaları ile Yapılan Deneyler ............................................................ 49 5.5 Yapay Sinir Ağları ile Yapılan Deneyler ............................................................................. 50 5.5.1 Perceptron Deney Sonuçları ............................................................................................. 50 5.6 En Yakın Komşu (K-NN) Algoritması ile Yapılan Deneyler ............................................. 51 6. SONUÇLAR .......................................................................................................................... 53 KAYNAKLAR .......................................................................................................................... 59 EKLER ...................................................................................................................................... 61 ÖZGEÇMİŞ .................................................................................................................................	tr_TR
dc.language.iso	tur	tr_TR
dc.publisher	Fen Bilimleri Enstitüsü	tr_TR
dc.rights	info:eu-repo/semantics/openAccess	tr_TR
dc.subject	kelime kümesi tekniği	tr_TR
dc.subject	istenmeyen e-posta
dc.subject	makine öğrenmesi teknikleri
dc.title	Makine Öğrenme Yöntemleri Ve Kelime Kümesi Tekniği İle İstenmeyen E-Posta / E-Posta Sınıflaması	tr_TR
dc.type	info:eu-repo/semantics/masterThesis	tr_TR
dc.description.ozet	Günümüzde elektronik ortamda sıkça kullandığımız iletişim yollarından birisi olan e-postalar; kişisel iletişimler, iş odaklı aktiviteler, pazarlama, reklam, eğitim vs. gibi birçok nedenden dolayı hayatımızda önemli bir yer kaplamaktadır. Birçok farklı konudaki iletişim ihtiyacı için hayatımızı kolaylaştıran e-postalar, kötü niyetli göndericiler tarafından kullanıldıklarında ise alıcıların zamanını çalması, maddi ve manevi kayıplara sebep olması nedeniyle hayatı oldukça zorlaştırabilmektedir. Tanımadığımız ya da güvenilmeyen adreslerden, reklam ya da güvenlik tehdidi oluşturma amaçlı gönderilen e-postalar, bilgi güvenliği açısından önemli tehlikeler oluşturabilir. Bu türdeki istenmeyen e-postaları, insanlara zarar vermeden önce tespit edip önleyebilmek ise ayrı bir çalışma konusu olmuştur. Bu tez çalışmasında istenmeyen e-postalar kapsamlı bir şekilde araştırılmış, istenmeyen e-postaları sınıflandırmak için yapılan çalışmalar incelenmiştir. Alanyazındaki çalışmalardan farklı olarak e-posta içeriğinde yer alan linklerin metinleri ele alınarak, makine öğrenmesi yöntemleri ve Kelime Kümesi Tekniği ile istenmeyen e-posta/e-posta sınıflaması yapılmıştır. Yapılan çalışmada doğruluk, F1 skor ve sınıflama hata oranı metrikleri kullanılarak farklı makine öğrenme tekniklerinin istenmeyen e-posta sınıflandırılmasındaki başarısı analiz edilmiştir. Diğer yandan başarı oranı %95 üzerinde çıkan makine öğrenme teknikleri için Kelime Kümesi Tekniği (BOW) ile elde edilen farklı N gramların sınıflandırma başarısına olan etkisi incelenmiştir. Çalışma sonucunda Bayes, Destek Vektör Makineleri, Sinir Ağları ve En Yakın Komşu algoritmaları yüksek başarı gösterirken Karar Ağaçları Algoritmalarının istenmeyen e-posta sınıflamada düşük başarı gösterdiği görülmüştür. Diğer yandan 5 gramların performansa en iyi katkıyı sağladığı görülmüştür.	tr_TR
dc.contributor.department	Bilgisayar Mühendisliği	tr_TR

Files in this item

Name:: 10185364.pdf
Size:: 4.125Mb
Format:: PDF
Description:: Tez Tam Metni

View/Open

This item appears in the following Collection(s)

Bilgisayar Mühendisliği Bölümü Tez Koleksiyonu [253]

Show simple item record