dc.contributor.advisor | Chouseinoglou, Oumout | |
dc.contributor.author | Şahin, İlker | |
dc.date.accessioned | 2019-10-21T12:18:38Z | |
dc.date.issued | 2019 | |
dc.date.submitted | 2019-09-06 | |
dc.identifier.citation | İ. Şahin ve O. Chouseinoglou, «METİN MADENCİLİĞİ VE MAKİNE ÖĞRENMESİ İLE İNTERNET SAYFALARININ SINIFLANDIRILMASI » Hacettepe Üniversitesi Endüstri Mühendisiliği Bölümü, 2019. | tr_TR |
dc.identifier.uri | http://hdl.handle.net/11655/9323 | |
dc.description.abstract | The domain name is the address of a website on the Internet. By using these domain names, the desired address can be visited and the desired information can be accessed. In today's world, the number of Internet sites are increasing exponentially and in order to prevent accessing possible harmful content in these web sites or to find useful information more easily it is necessary to classify the web pages. Methods and algorithms for website classification are proposed by both academic studies and private companies. Hence, it is intended that the Internet user is not exposed to fraudulent elements in any of the sites classified according to their content or the access to predetermined websites is prevented.
Filtering Internet sites allows us to set rules to allow or block access to certain sites. Rules can be created for specific users of the computer, the user cannot access the Internet sites in the specified class according to the specified rule. For this feature, classification is important for both household and work environments. For example, while parents can prevent children from visiting inappropriate web sites, companies might also prevent their employees to visit social media websites during work hours. For this classification study the approaches in the domain of data science, which includes several disciplines such as statistics, software engineering, industrial engineering and mathematics, and where new methods are continuously developed and proposed in the last years, have been employed. The classification process has been automated with machine learning and deep learning algorithms, which are sub-branches of data science.
The technical part of this thesis is the classification of web pages. The aim is that at the end of the study, when a web domain name is given as input, a class value should be returned for this web domain with respect to the developed model. For this classification process, firstly the data was extracted in the form of web page-class, and accordingly the learning set and test data were created. In this study, web site classification problem is investigated by using different machine learning methods and artificial neural networks. In order to solve this classification problem, two different approaches have been employed, namely Binary Classification and Multi-Class Classification. Both approaches have been tested on web sites collected in the study and their performance has been compared. In terms of performance, it has been observed that for binary classifiers Logistic Regression is the best performing algorithm. Among the algorithms applied in the Multi-Class Classification approach, Support Vector Machines (SVM) is the most successful method. Furthermore, different word vectorization methods have been employed and their performances have been compared in the Multi-Class Classification problem. The use of algorithms in Binary and Multi-Class Classification approaches by employing different vectorization methods, is a combined approach to the problems of classification of web pages and content filtering, and this puts forward the difference of the current study from similar studies in the field. In order to investigate the bias of learning methods and test sets, techniques such as F1 score of performance and error matrix were used. Considering all experimental results, it has been found that Binary Classification will be more effective only when used to fulfill the task of filtering a desired Internet site class. In the analysis, Logistic Regression and Bernoulli Naive Bayes classifiers have been found to be 150 times faster than artificial neural networks when computing performance (time) of the methods used in Binary Classification has been taken into account. | tr_TR |
dc.description.tableofcontents | ÖZET i
ABSTRACT iii
TEŞEKKÜR v
İÇİNDEKİLER vi
ÇİZELGELER DİZİNİ viii
ŞEKİLLER DİZİNİ ix
SİMGELER VE KISALTMALAR x
1. GİRİŞ 1
1.1. Metin Sınıflandırması 2
1.2. Kelime Vektörleştirme Algoritmaları 3
1.3. Sınıflandırma Sırasında Kullanılan Algoritmalar 4
1.4. Araştırma Soruları 6
2. BENZER ÇALIŞMALAR 8
2.1. Metin Sınıflandırma Çalışmaları 8
2.2. İnternet Sitesi Sınıflandırma Çalışmaları 11
3. METODOLOJİ 18
3.1. Veri Tanımı ve Toplanması 18
3.2. Verinin Ön İşleme Süreci (Veri Temizleme) 21
3.3. Kelime Vektörleştirme Yöntemleri (Word Embedding) 21
3.3.1. Terim Sıklığı-Ters Metin Sıklığı (Term Frequency – Inverse Document Frequency, TF-IDF) 22
3.3.2. Kelime Torbası (Bag Of Words - BOW) 23
3.3.3. Word2Vec 23
3.4. Sınıflandırma Sırasında Kullanılan Algoritmalar 23
3.4.1. Rastgele Orman Algoritması (Random Forest) 26
3.4.2. Naive Bayes Sınıflandırıcı 26
3.4.3. Destek Vektör Makineleri (Support Vector Machine- SVM) 28
3.4.4. Lojistik Regresyon 29
3.4.5. Tam Bağlantılı Yapay Sinir Ağları 30
3.5. Sınıflandırıcı Performans Ölçme Yöntemleri 35
4. ANALİZ VE VAKA ÇALIŞMASI 38
4.1. İkili (Binary - Binominal Class) Sınıflandırma 39
4.2. Çok Sınıflı Sınıflandırma 44
5. SONUÇLAR VE ÖNERİLER 45
5.1. İnternet Sitelerinin Sınıflandırma Probleminde İkili Sınıflandırma Yaklaşımı 45
5.2. İnternet Sitelerinin Sınıflandırma Probleminde Çok Sınıflı Sınıflandırma 47
5.3. Araştırma Soruları Üzerine Öneriler 48
6. KAYNAKLAR 51
7. EKLER 55
7.1. EK - 1 55
7.2. Tezden Türetilmiş Bildiriler 58
ÖZGEÇMİŞ 59 | tr_TR |
dc.language.iso | tur | tr_TR |
dc.publisher | Fen Bilimleri Enstitüsü | tr_TR |
dc.rights | info:eu-repo/semantics/openAccess | tr_TR |
dc.subject | İnternet Sayfa Sınıflandırması | tr_TR |
dc.subject | Metin madenciliği | tr_TR |
dc.subject | Doğal dil işleme | tr_TR |
dc.subject | Derin öğrenme | tr_TR |
dc.subject | Makine öğrenmesi | tr_TR |
dc.title | Metin Madenciliği ve Makine Öğrenmesi ile
İnternet Sayfalarının Sınıflandırılması | tr_TR |
dc.title.alternative | Web Page Classification Using Text Mining
And Machine Learning | tr_eng |
dc.type | info:eu-repo/semantics/masterThesis | tr_TR |
dc.description.ozet | Alan adı bir web sitesinin İnternet ortamındaki adresidir. Bu alan adları kullanılarak, istenilen adres ziyaret edilebilir ve istenilen bilgiye ulaşılabilir. Günümüz dünyasında İnternet sitelerinin sayısı üstel artmakta ve bu sitelerin içeriğindeki zararlı içeriği engellemek ya da yararlı bilgilere daha kolay ulaşmak için, İnternet sayfalarını sınıflandırmak gerekmektedir. İnternet sitelerini sınıflandırmak için hem akademik çalışmalarda hem de özel şirketlerde, yöntemler ve algoritmalar geliştirilmektedir. Bu sayede İnternet kullanıcısının, içeriğine göre sınıflanan sitelerde, varsa sahtekârlık içeren unsurlara maruz kalmaması veya önceden belirlenen sınıfa sahip İnternet sitelerine erişimin engellenmesi hedeflenir.
İnternet sitelerinin filtrelenmesi sayesinde, belirli sitelerin erişimine izin vermeye veya erişimi engellemek için kurallar oluşturmaya olanak tanınır. İnternet kullanıcıları için kurallar oluşturulabilir, belirlenen kurala göre kullanıcı, belirlenen sınıftaki İnternet sitelerine erişemez. Bu özelliği sayesinde, sınıflandırma hem ev hem de iş ortamları için önem arz eder. Örneğin, ebeveynler, çocuklarının uygunsuz web sitelerini ziyaret etmelerini engelleyebilirken, şirketler çalışma saatlerinde çalışanların sosyal ağ vb. siteleri ziyaret etmelerini engelleyebilir. Bu sınıflandırma çalışması için, son yıllarda hızla yeni yöntemlerin ve algoritmaların geliştirilği; istatistik, yazılım, endüstri mühendisliği, matematik gibi farklı disiplinleri arasında bulunduran veri bilimi kullanılmıştır. Veri biliminin alt dallarından makine öğrenmesi ve derin öğrenme algoritması ile bu sınıflandırma işlemi otomatize edilmiştir.
Tezin amacının uygulama kısmı ise İnternet sayfalarını sınıflandırmaktır. Çalışmanın sonunda girdi olarak bir alan adı verildiğinde, oluşturulan model sayesinde bu alan adına ilişkin bir sınıf bilgisinin geri dönüş olarak alınması amaçlanmıştır. Bu sınıflandırma işlemi için öncelikle İnternet sayfası-sınıfı şeklinde veriler çıkartılıp öğrenme seti ve test verileri oluşturulmuştur. Bu çalışmada, farklı makine öğrenmesi yöntemleri ve yapay sinir ağları kullanılarak İnternet sitesi sınıflandırma problemi incelenmiştir. Bu sınıflandırma probleminin çözümü için, İkili Sınıflandırma ve Çok Sınıflı Sınıflandırma olarak iki farklı yaklaşım uygulanmış, her iki yaklaşım da çalışma kapsamında toplanan İnternet siteleri üzerinde test edilip, performansları karşılaştırılmıştır. Başarıma bakıldığında ikili sınıflandırıcılar için en iyi performans gösteren algoritma Lojistik Regresyon olmuştur. Çok Sınıflı Sınıflandırma yaklaşımında uygulanan algoritmalar arasından ise en yüksek başarıma sahip yöntem Destek Vektör Makineleri (Support Vector Machines, SVM) olmuştur. Ayrıca, Çok Sınıflı Sınıflandırma problemi için farklı kelime vektörleştirme yöntemleri denenmiş ve performansları karşılaştırılmıştır. İkili ve Çok Sınıflı sınıflandırma yaklaşımlarında kullanılan algoritmaların ayrı ayrı ve farklı vektörleştirme yöntemleri ile denenmesi, İnternet sayfalarının sınıflandırılması ve içerik filtrelenmesi problemlerinin birlikte ele alınmasını sağlamış olup, alandaki benzer çalışmalardan farkı ortaya konmuştur. Öğrenme yöntemlerinin öğrenme ve test setlerinin yanlılığını araştırmak için performans araçlarından F1 Skoru, hata matrisi gibi teknikler kullanılmıştır. Tüm deneysel sonuçlar göz önüne alındığında, İkili Sınıflandırma sadece istenilen bir İnternet site sınıfının filtrelenmesi görevini yerine getirmek için kullanıldığında daha etkili olacağı tespit edilmiştir. İkili Sınıflandırmada kullanılan yöntemlerin, analizin süreçleri boyunca işlemsel performans (süre) göz önüne alındığında, Lojistik Regresyon ve Bernoulli Naive Bayes sınıflanırıcılarının, yapay sinir ağlarına göre 150 kat daha hızlı sonuçlandığı gözlenmiştir. | tr_TR |
dc.contributor.department | Endüstri Mühendisliği | tr_TR |
dc.embargo.terms | Acik erisim | tr_TR |
dc.embargo.lift | - | |
dc.funding | Yok | tr_TR |