dc.contributor.advisor | Doğan, Nuri | |
dc.contributor.author | Aksu, Gökhan | |
dc.date.accessioned | 2018-10-30T11:55:16Z | |
dc.date.available | 2018-10-30T11:55:16Z | |
dc.date.issued | 2018-04 | |
dc.date.submitted | 2018-04-13 | |
dc.identifier.citation | Aksu, G. (2018). PISA Başarısını Tahmin Etmede Kullanılan Veri Madenciliği Yöntemlerinin İncelenmesi, Yayımlanmamış doktora tezi, Hacettepe Üniversitesi, Ankara. | tr_TR |
dc.identifier.uri | http://hdl.handle.net/11655/5290 | |
dc.description.abstract | In this study, it was tried to determine the use of data mining and machine learning approach in the field of education and the level of reliability and validity of the results obtained based on these algorithms. In the study that students were classified as successful and unsuccessful according to the Turkey's PISA average, it was predicted that in which class the students will take place in terms of science literacy using different learning methods, and the reliability and validity criteria of the results obtained at this stage were examined. Besides, all the algorithms and methods of Weka program were compared under different conditions, and it was determined that which learning method is advantageous or disadvantageous in which situations. In the study, the best results in terms of correct classification number, correct classification ratio, kappa statistic, square root error and relative square root error were obtained from Random Forest method, and It was identified that Ridge logistic regression, logistic model and Hoefding tree methods are the most successful other methods It was also determined that in case the whole data set is separated as training and test data set without using the cross validation method, the Logistic model, Random Forest and Ridge Regression methods gave the lowest error values in test data with different size, and Random Tree and J.48 methods have the highest error values. It was concluded that the error values obtained by the Ridge regression, Random forest and Logistic model were quite consistent in test data.in different percentile. It was determined that if we do not allocate the data set of the measurement results obtained by different methods as test and training data and we train and test the learning method through the same data set, especially Random tree and J.48 learning methods have a higher correct classification rate than real performances. | tr_TR |
dc.description.tableofcontents | Öz ii
Abstract iii
Teşekkür ivv
Tablolar Dizini vii
Şekiller Dizini x
Simgeler ve Kısaltmalar Dizini xii
Bölüm 1 Giriş 1
Problem Durumu 2
Araştırmanın Amacı ve Önemi 3
Araştırma Problemi 5
Sınırlılıklar 5
Tanımlar 6
Bölüm 2 Araştırmanın Kuramsal Temeli ve İlgili Araştırmalar 8
Veri Madenciliği ve Makine Öğrenme 8
Temel Yöntemler ve Algoritmalar 19
Elde Edilen Sonuçların Değerlendirilmesi 32
Kestirimin Gücü: Hatanın Büyüklüğünü Dikkate Alma 47
Veri Madenciliği ile İlgili Araştırmalar 58
Bölüm 3 Yöntem 67
Araştırmanın Türü 67
Araştırmanın Evreni ve Örneklemi 68
Veri Toplama Süreci 68
Veri Toplama Araçları 68
Verilerin Analizi 69
Verilerin Analizinde Kullanılan Yazılım ve Algoritmalar 70
Bölüm 4 Bulgular ve Yorumlar 75
Birinci Alt Probleme İlişkin Bulgular 82
İkinci Alt Probleme İlişkin Bulgular 94
Üçüncü Alt Probleme İlişkin Bulgular 114
Bölüm 5 Sonuç, Tartışma ve Öneriler 117
Sonuçlar ve Tartışma 117
Öneriler 125
Kaynaklar 129
EK-A: Matlab’tan Elde Edilen Karışıklık Matrisi 140
EK-B: Matlab’tan Elde Edilen ROC Eğrisi 141
EK-C: Etik Komisyonu Onay Bildirimi 142
EK-Ç: Etik Beyanı 143
EK-D: Doktora Tez Çalışması Orijinallik Raporu 144
EK-E: Dissertation Originality Report 145
EK-F: Yayımlama ve Fikrî Mülkiyet Hakları Beyanı 146 | tr_TR |
dc.language.iso | tur | tr_TR |
dc.publisher | Eğitim Bilimleri Enstitüsü | tr_TR |
dc.rights | info:eu-repo/semantics/openAccess | tr_TR |
dc.subject | Veri Madenciliği | |
dc.subject | Sınıflama | |
dc.subject | Tahmin | |
dc.subject | Öğrenme | |
dc.subject | PISA | |
dc.subject | WEKA | |
dc.title | Pısa Başarısını Tahmin Etmede Kullanılan Veri Madenciliği Yöntemlerinin İncelenmesi | tr_TR |
dc.type | info:eu-repo/semantics/doctoralThesis | tr_TR |
dc.description.ozet | Bu çalışmada veri madenciliği ve makine öğrenme yaklaşımının eğitim alanında kullanılması ve bu algoritmalara dayalı olarak elde edilen sonuçların güvenirlik ve geçerlik değerlerinin ne düzeyde olduğu belirlenmeye çalışılmıştır. PISA 2015 Türkiye ortalamasına göre öğrencilerin başarılı ve başarısız olarak sınıflandığı çalışmada farklı öğrenme yöntemleri kullanılarak fen okuryazarlığı bakımından öğrencilerin hangi sınıfta yer alacağı tahmin edilmiş ve bu aşamada elde edilen sonuçların güvenirlik ve geçerlik ölçütleri incelenmiştir. Bunun yanında WEKA programının sahip olduğu tüm algoritma ve yöntemler farklı koşullar altında karşılaştırılarak hangi makine öğrenme yönteminin hangi durumlarda avantajlı veya dezavantajlı olduğu belirlenmiştir. Araştırmada elde edilen sonuçlar doğrultusunda PISA Fen okuryazarlığını yordamak amacıyla kullanılacak değişken sayısının 29 olması sebebiyle ilk olarak farklı algoritmalar yardımıyla en iyi özellikler belirlenmeye çalışılmıştır ve 10 katlı çapraz geçerleme yöntemiyle her katmanda başarılı olan 12 değişken yardımıyla PISA 2015 fen okuryazarlığı başarıları tahmin edilmiştir. Sonrasında çalışma kapsamında ele alınan 8 farklı öğrenme yönteminden doğru sınıflama sayısı, doğru sınıflama oranı, kappa istatistiği, karekök hata ve göreceli karekök hata değerleri bakımından en iyi sonuçların Random Forest yöntemiyle elde edilirken Ridge lojistik regresyon, Lojistik model ve Hoefding tree yöntemlerinin en başarılı diğer yöntemler olduğu belirlenmiştir. Çapraz geçerleme yöntemi kullanılmadan tüm veri setinin eğitim ve test veri seti olarak ayrılması durumunda Lojistik model, Random Forest ve Ridge Regresyon yöntemlerinin farklı büyüklükteki test verilerinde en düşük hata değerlerini verirken Random Tree ve J.48 yönteminlerinin en yüksek hata değerlerine sahip olduğu belirlenmiştir. Ridge regresyon, Random forest ve Lojistik model tarafından elde edilen hata değerlerinin de farklı yüzdelikteki test verilerinde oldukça tutarlı olduğu sonucuna ulaşılmıştır. Farklı yöntemler yardımıyla elde edilen ölçme sonuçlarının veri setini test ve eğitim verisi olarak ayırmayıp aynı veri seti üzerinden hem öğrenme yöntemini eğitip hem de test ettiğimiz taktirde özellikle Random tree ve J.48 öğrenme yöntemlerinin gerçek performanslarından daha yüksek doğru sınıflama oranına sahip oldukları belirlenmiştir. | tr_TR |
dc.contributor.department | Eğitim Bilimleri | tr_TR |