dc.contributor.advisor | BOZKIR, AHMET SELMAN | |
dc.contributor.author | Almakhamreh, Ahmad Hani Abdalla | |
dc.date.accessioned | 2024-10-18T06:29:58Z | |
dc.date.issued | 2024-04-17 | |
dc.date.submitted | 2024-04-17 | |
dc.identifier.uri | https://hdl.handle.net/11655/35981 | |
dc.description.abstract | The increased frequency and sophistication of cybercrimes resulted in severe monetary loss for individuals and entities, increasing the demand for robust and sustainable solutions. Although there are countless anti-phishing solutions in the domain, cybercriminals exploit these systems and bypass them with zero-day attacks. In this dissertation, a new end-to-end deep learning model called CrossPhire is proposed, which uses semantic and visual features to make machine learning-based classification between phishing and legitimate web pages. CrossPhire extracts distinctive features from three different data environments, including URLs, source code, and screenshots obtained from web pages, and is jointly trained. In this work, we present the following novelties: (1) development of an end-to-end deep learning model capable of capturing semantic and visual features from the page's URL, plain textual content, and screenshot, (2) a language-independent analysis approach, leveraging SOTA sentence transformers and convolutional neural networks, enabling analysis without reliance on third-party services, (3) a new highly diverse multimedia dataset compiling real-world examples of legitimate and phishing web pages, called Phish360, (4) provision of statistical reports based on extensive data analysis of Phish360 and other multimodal datasets in the literature, and (5) conducting comprehensive experiments, including in-data and cross-data validation across five different datasets to evaluate the generalization performance of the proposed model.
A comprehensive series of experiments was conducted to identify the most effective model configuration by exploring various combinations of (a) HTML parsers (BeautifulSoup and Trafilatura), (b) sentence transformers (Sentence-BERT and multilingual XLM-R), and (c) convolutional image classifier models (ResNet50 and DenseNet121). In the experiments, CrossPhire demonstrated outstanding performance, achieving 99.21% accuracy on the Phish360 dataset and maintaining an average accuracy of 99.26% across the four benchmark datasets. Additionally, we fine-tuned the CLIP model using the available benchmark datasets by integrating a two-hidden layer MLP. Our approach demonstrated superior results compared to CLIP, consistently outperforming it across all employed datasets. These findings establish CrossPhire as a highly effective solution across various scales and datasets, surpassing existing approaches. | tr_TR |
dc.language.iso | en | tr_TR |
dc.publisher | Fen Bilimleri Enstitüsü | tr_TR |
dc.rights | info:eu-repo/semantics/openAccess | tr_TR |
dc.subject | cybersecurity | tr_TR |
dc.subject | phishing detection | tr_TR |
dc.subject | multimodality | tr_TR |
dc.subject | natural language processing | tr_TR |
dc.subject | computer vision | tr_TR |
dc.subject | transfer learning | tr_TR |
dc.subject | deep learning | tr_TR |
dc.subject | zero-day attacks | tr_TR |
dc.subject.lcsh | Bilgisayar mühendisliği | tr_TR |
dc.title | DETECTION OF PHISHING WEB PAGES BY COMBINING SEMANTICAL AND VISUAL INFORMATION | tr_TR |
dc.type | info:eu-repo/semantics/masterThesis | tr_TR |
dc.description.ozet | Siber suçların artan sıklığı ve karmaşıklığı bireyler ve kurumlar için güvenlik zaafiyetleri ile birlikte ciddi maddi kayıplarla sonuçlanmakta ve bunun sonucunda gürbüz ve sürdürülebilir çözümlere olan talebi artırmıştır. Alanda sayısız kimlik avı önleme çözümü olmasına rağmen, saldırganlar bu sistemleri istismar etmekte ve sıfırıncı gün saldırılarıyla bunları atlatmaktadır. Bu tez çalışmasında, kimlik avcısı ve meşru web sayfaları arasında makine öğrenimine dayalı sınıflandırma yapmak için anlamsal ve görsel özellikleri kullanan CrossPhire isimli yeni bir uçtan uca derin öğrenme modeli önerilmiştir. CrossPhire, web sayfalarından elde edilen URL, kaynak kod ve ekran görüntüleri olmak üzere üç farklı ortamdan ayırt edici özellikler çıkarmakta ve bütünleşik bir öğrenme yöntemiyle eğitilmektedir. Bu çalışmada maddeler halinde şu katkılar sunulmuştur: (1) Sayfanın URL ve temel metinsel içeriği ile web sayfası şipşakından anlamsal ve görsel özellikleri yakalayan uçtan uca derin öğrenme modeli, (2) üçüncü taraf hizmetlerden izole olarak, güncel "cümle dönüştürücüler" ve evrişimsel sinir ağları yardımıyla dilden bağımsız bir analiz yöntemi, (3) Phish360 adı verilmiş olan meşru ve oltalayıcı sayfaların yer aldığı gerçek dünya örneklerinin derlendiği, çeşitliliği yüksek yeni bir çok ortamlı veri kümesi, (4) Phish360 ve literatürde yer alan diğer veri kümelerinin veri analizine dayalı istatistiksel raporlar ve (5) önerilen modelin genelleme başarımını ölçmek adına beş farklı veri kümesiyle iç-veri ve çapraz-veri doğrulamasına dayalı kapsamlı deneyler.
En iyi modelin bulunması adına farklı (a) HTML ayrıştırıcılar (BeautifulSoup ve Trafilatura), (b) cümle dönüştürücüleri (Sentence-BERT ve çok dilli XLM-R) ve (c) imge sınıflayıcı evrişşimsel modeller (ResNet50 ve DenseNet121) arasındaki kombinasyonlar kapsamlı deneylerle ölçümlenmiştir. Yapılan deneylerde CrossPhire, Phish360 veri kümesinde 99,21% doğruluk sunarken ve diğer dört kıyaslama veri kümesinde ortalama 99,26% doğruluk başarımı elde edilmiştir. Ek olarak, iki gizli katmanlı MLP'yi entegre ederek mevcut kıyaslama veri kümelerini kullanarak CLIP modelinde ince ayar yaptık. Yaklaşımımız, CLIP'e kıyasla üstün sonuçlar ortaya koydu ve kullanılan tüm veri kümelerinde sürekli olarak CLIP'ten daha iyi performans göstermiştir. Sonuç olarak CrossPhire'ın, kullanılan tüm veri kümelerinde farklı ölçeklerin tamamında en yüksek sonuçları yakaladığı saptanmıştır. | tr_TR |
dc.contributor.department | Bilgisayar Mühendisliği | tr_TR |
dc.embargo.terms | Acik erisim | tr_TR |
dc.embargo.lift | 2024-10-18T06:29:58Z | |
dc.funding | Yok | tr_TR |
dc.subtype | project | tr_TR |