Pısa Başarısını Tahmin Etmede Kullanılan Veri Madenciliği Yöntemlerinin İncelenmesi

Aksu, Gökhan

dc.contributor.advisor	Doğan, Nuri
dc.contributor.author	Aksu, Gökhan
dc.date.accessioned	2018-10-30T11:55:16Z
dc.date.available	2018-10-30T11:55:16Z
dc.date.issued	2018-04
dc.date.submitted	2018-04-13
dc.identifier.citation	Aksu, G. (2018). PISA Başarısını Tahmin Etmede Kullanılan Veri Madenciliği Yöntemlerinin İncelenmesi, Yayımlanmamış doktora tezi, Hacettepe Üniversitesi, Ankara.	tr_TR
dc.identifier.uri	http://hdl.handle.net/11655/5290
dc.description.abstract	In this study, it was tried to determine the use of data mining and machine learning approach in the field of education and the level of reliability and validity of the results obtained based on these algorithms. In the study that students were classified as successful and unsuccessful according to the Turkey's PISA average, it was predicted that in which class the students will take place in terms of science literacy using different learning methods, and the reliability and validity criteria of the results obtained at this stage were examined. Besides, all the algorithms and methods of Weka program were compared under different conditions, and it was determined that which learning method is advantageous or disadvantageous in which situations. In the study, the best results in terms of correct classification number, correct classification ratio, kappa statistic, square root error and relative square root error were obtained from Random Forest method, and It was identified that Ridge logistic regression, logistic model and Hoefding tree methods are the most successful other methods It was also determined that in case the whole data set is separated as training and test data set without using the cross validation method, the Logistic model, Random Forest and Ridge Regression methods gave the lowest error values in test data with different size, and Random Tree and J.48 methods have the highest error values. It was concluded that the error values obtained by the Ridge regression, Random forest and Logistic model were quite consistent in test data.in different percentile. It was determined that if we do not allocate the data set of the measurement results obtained by different methods as test and training data and we train and test the learning method through the same data set, especially Random tree and J.48 learning methods have a higher correct classification rate than real performances.	tr_TR
dc.description.tableofcontents	Öz ii Abstract iii Teşekkür ivv Tablolar Dizini vii Şekiller Dizini x Simgeler ve Kısaltmalar Dizini xii Bölüm 1 Giriş 1 Problem Durumu 2 Araştırmanın Amacı ve Önemi 3 Araştırma Problemi 5 Sınırlılıklar 5 Tanımlar 6 Bölüm 2 Araştırmanın Kuramsal Temeli ve İlgili Araştırmalar 8 Veri Madenciliği ve Makine Öğrenme 8 Temel Yöntemler ve Algoritmalar 19 Elde Edilen Sonuçların Değerlendirilmesi 32 Kestirimin Gücü: Hatanın Büyüklüğünü Dikkate Alma 47 Veri Madenciliği ile İlgili Araştırmalar 58 Bölüm 3 Yöntem 67 Araştırmanın Türü 67 Araştırmanın Evreni ve Örneklemi 68 Veri Toplama Süreci 68 Veri Toplama Araçları 68 Verilerin Analizi 69 Verilerin Analizinde Kullanılan Yazılım ve Algoritmalar 70 Bölüm 4 Bulgular ve Yorumlar 75 Birinci Alt Probleme İlişkin Bulgular 82 İkinci Alt Probleme İlişkin Bulgular 94 Üçüncü Alt Probleme İlişkin Bulgular 114 Bölüm 5 Sonuç, Tartışma ve Öneriler 117 Sonuçlar ve Tartışma 117 Öneriler 125 Kaynaklar 129 EK-A: Matlab’tan Elde Edilen Karışıklık Matrisi 140 EK-B: Matlab’tan Elde Edilen ROC Eğrisi 141 EK-C: Etik Komisyonu Onay Bildirimi 142 EK-Ç: Etik Beyanı 143 EK-D: Doktora Tez Çalışması Orijinallik Raporu 144 EK-E: Dissertation Originality Report 145 EK-F: Yayımlama ve Fikrî Mülkiyet Hakları Beyanı 146	tr_TR
dc.language.iso	tur	tr_TR
dc.publisher	Eğitim Bilimleri Enstitüsü	tr_TR
dc.rights	info:eu-repo/semantics/openAccess	tr_TR
dc.subject	Veri Madenciliği
dc.subject	Sınıflama
dc.subject	Tahmin
dc.subject	Öğrenme
dc.subject	PISA
dc.subject	WEKA
dc.title	Pısa Başarısını Tahmin Etmede Kullanılan Veri Madenciliği Yöntemlerinin İncelenmesi	tr_TR
dc.type	info:eu-repo/semantics/doctoralThesis	tr_TR
dc.description.ozet	Bu çalışmada veri madenciliği ve makine öğrenme yaklaşımının eğitim alanında kullanılması ve bu algoritmalara dayalı olarak elde edilen sonuçların güvenirlik ve geçerlik değerlerinin ne düzeyde olduğu belirlenmeye çalışılmıştır. PISA 2015 Türkiye ortalamasına göre öğrencilerin başarılı ve başarısız olarak sınıflandığı çalışmada farklı öğrenme yöntemleri kullanılarak fen okuryazarlığı bakımından öğrencilerin hangi sınıfta yer alacağı tahmin edilmiş ve bu aşamada elde edilen sonuçların güvenirlik ve geçerlik ölçütleri incelenmiştir. Bunun yanında WEKA programının sahip olduğu tüm algoritma ve yöntemler farklı koşullar altında karşılaştırılarak hangi makine öğrenme yönteminin hangi durumlarda avantajlı veya dezavantajlı olduğu belirlenmiştir. Araştırmada elde edilen sonuçlar doğrultusunda PISA Fen okuryazarlığını yordamak amacıyla kullanılacak değişken sayısının 29 olması sebebiyle ilk olarak farklı algoritmalar yardımıyla en iyi özellikler belirlenmeye çalışılmıştır ve 10 katlı çapraz geçerleme yöntemiyle her katmanda başarılı olan 12 değişken yardımıyla PISA 2015 fen okuryazarlığı başarıları tahmin edilmiştir. Sonrasında çalışma kapsamında ele alınan 8 farklı öğrenme yönteminden doğru sınıflama sayısı, doğru sınıflama oranı, kappa istatistiği, karekök hata ve göreceli karekök hata değerleri bakımından en iyi sonuçların Random Forest yöntemiyle elde edilirken Ridge lojistik regresyon, Lojistik model ve Hoefding tree yöntemlerinin en başarılı diğer yöntemler olduğu belirlenmiştir. Çapraz geçerleme yöntemi kullanılmadan tüm veri setinin eğitim ve test veri seti olarak ayrılması durumunda Lojistik model, Random Forest ve Ridge Regresyon yöntemlerinin farklı büyüklükteki test verilerinde en düşük hata değerlerini verirken Random Tree ve J.48 yönteminlerinin en yüksek hata değerlerine sahip olduğu belirlenmiştir. Ridge regresyon, Random forest ve Lojistik model tarafından elde edilen hata değerlerinin de farklı yüzdelikteki test verilerinde oldukça tutarlı olduğu sonucuna ulaşılmıştır. Farklı yöntemler yardımıyla elde edilen ölçme sonuçlarının veri setini test ve eğitim verisi olarak ayırmayıp aynı veri seti üzerinden hem öğrenme yöntemini eğitip hem de test ettiğimiz taktirde özellikle Random tree ve J.48 öğrenme yöntemlerinin gerçek performanslarından daha yüksek doğru sınıflama oranına sahip oldukları belirlenmiştir.	tr_TR
dc.contributor.department	Eğitim Bilimleri	tr_TR

Bu öğenin dosyaları:

Ad:: 10188559.pdf
Boyut:: 2.908Mb
Biçim:: PDF

Göster/Aç

Bu öğe aşağıdaki koleksiyon(lar)da görünmektedir.

Eğitim Bilimleri Bölümü Tez Koleksiyonu [685]

Basit öğe kaydını göster