Özet
In this study, WEKA and Orange programs, which are frequently used in data mining, are compared based on the classification methods that can be used in data mining in education. The results of the ABIDE exam conducted by the Ministry of National Education were used in the study. During the analysis process, k-nearest neighbor, random forest, support vector machine, naive bayes and artificial neural networks methods were used to estimate the data of students classified according to their Turkish course scores by using demographic and psycho-social variables. In the second phase of the research, the reliability and cross validity values of the measurement results obtained from the students who were classified with the classification algorithms determined within the scope of the research were examined. According to the results obtained within the scope of the research; It was observed that Orange in k-nearest neighbor and artificial neural networks algorithms and WEKA in support vector machine and naive bayes algorithm have higher correct classification rates. Random forest algorithm has been found to have higher correct classification rate in binary and quinary classification in WEKA and Orange package program, respectively. In addition, the artificial neural networks algorithm obtained the highest correct classification rate in the scores classified as binary and quinary.
Künye
Akman, M., Genç, Y., & Ankaralı, H. (2011). Random forests yöntemi ve sağlık alanında bir uygulama. Türkiye Klinikleri Journal of Biostatistic, 3(1), 36-48.
Akpınar, H. (2014). Data veri madenciliği - veri analizi. İstanbul: Papatya Yayıncılık.
Aksu, G. (2018). PISA başarısını tahmin etmede kullanılan veri madenciliği yöntemlerinin incelenmesi. Doktora Tezi, Hacettepe Üniversitesi Eğitim Bilimleri Enstitüsü.
Aksu, G. (2018). PISA başarısını tahmin etmede kullanılan veri madenciliği yöntemlerinin incelenmesi. (Doktora tezi), Hacettepe Üniversitesi Eğitim Bilimleri Enstitüsü.
Aksu, G., & Doğan, N. (2018). Veri madenciliğinde kullanılan öğrenme yöntemlerinin farklı koşullar altında karşılaştırılması. Ankara Üniversitesi Eğitim Bilimleri Fakültesi Dergisi, 51(3), s. 71-100.
Aksu, G., & Güzeller, C. O. (2016). PISA 2012 Matematik okuryazarlığı puanlarının karar ağacı yöntemiyle sınıflandırılması: Türkiye örneklemi. Eğitim ve Bilim, 41(185), 101-122.
Altunkaynak, B. (2017). Veri madenciliği yöntemleri ve R uygulamaları. Ankara: Seçkin Yayıncılık.
Amershi, S., & Conati, C. (2006). Automatic Recognition of Learner Groups in Exploratory Learning Environments. Intelligent Tutoring Systems (ITS). Berlin: Springer.
Aydın, S. (2007). Veri madenciliği ve Anadolu Üniversitesi uzaktan eğitim sisteminde bir uygulama. (Doktora tezi), Anadolu Üniversitesi Sosyal Bilimler Enstitüsü.
Biggs, D., De Ville, B., & Suen, E. (1991). A method of choosing multiway partitions for classification and decision trees. Journal of Applied Statistics, 18(1), 49-62.
Bramer, M. (2007). Principles of data mining. Londra: Springer.
Breiman, L. (2001). Random forests. Machine Learning, 45(1), 5-32.
Brown, M. (2014). Data mining for dummies. New Jersey: Wiley & Sons.
Coşkun, C., & Baykal, A. (2011). Veri madenciliğinde sınıflandırma algoritmalarının bir örnek üzerinde karşılaştırılması. (s. 1-8). Malatya: Akademik Bilişim.
Crawford, S. L. (1989). Extensions to the CART algorithm. International Journal of Man-Machine Studies, 31(2), 197-217.
Devasia, T., Vinushree, T., & Hedge, V. (2016). Prediction of students performance using educational data mining. International Conference on Data Mining and Advanced Computing (SAPIENCE) (s. 91-95). Ernakulam: SAPIENCE.
Dimitoglou, G., Adams, J. A., & Jim, C. M. (2012). Comparison of the C4.5 and a Naivebayes classifier for the prediction of lung cancer survivability. Journal of Computing, 4(8).
Dudani, S. A. (1976). The distance-weighted k-nearest-neighbor rule. IEEE Transactions on Systems, Man, and Cybernetics(4), 325-327.
Eroğlu, M. G., & Kelecioğlu, H. (2015). Bireyselleştirilmiş bilgisayarlı test uygulamalarında farklı sonlandırma kurallarının ölçme kesinliği ve test uzunluğu açısından karşılaştırılması. Uludağ Üniversitesi Eğitim Fakültesi Dergisi, 28(1), 31-52.
Fayyad, U. M., & Irani, K. B. (1992). On the handling of continuous-valued attributes in decision tree generation. Machine Learning, 8(1), 87-102.
Fayyad, U., & Stolorz, P. (1997, 11). Data mining and KDD: Promise and challenges. Future Generation Computer Systems, 13(2-3), s. 99-115.
Fleiss, J., Cohen, J., & Everitt, B. S. (1969). Large sample standard errors of kappa and weighted kappa. Psychologlcal Bulletin, 72(5), 323-327.
Friedl, M., & Brodley, C. (1997). Decision tree classification of land cover from remotely sensed data. Remote Sensing of Environment, 61(3), s. 399-409.
Hand, D. J. (2007). Principles of Data Mining. Drug Safety, 30, s. 621-622. doi:10.2165/00002018-200730070-00010
Hark, C. (2013). Öğrencilerin akıllı tahtaya ilişkin tutumlarının incelenmesine yönelik bir veri madenciliği uygulaması. (Yüksek lisans tezi), Fırat Üniversitesi Eğitim Bilimleri Enstitüsü.
Haykin, S. (2004). Neural networks: A comprehensive foundation. Upper Saddle River, N.J: Prentice Hall.
Holsheimer, M., & Siebes, A. (1994). Data mining: The search for knowledge in databases. Amsterdam: Centrum voor Wiskunde en Informatica.
Hsu, K., Gupta, H. V., & Sorooshian, S. (1995). Artificial neural network modeling of the rainfall‐runoff process. Water Resour. Res., 31 (10), 2517– 2530. doi:10.1029/95WR01955
Hussain, S., Atallah, R., Kamsin, A., & Hazarika, J. (2018). Classification, clustering and association rule mining in educational datasets using data mining tools: A case study. Cybernetics and Algorithms in Intelligent Systems. CSOC2018 2018. Advances in Intelligent Systems and Computing. doi:10.1007/978-3-319-91192-2_21
Irmak, S. (2009). Veri madenciliği yöntemleri ile sağlık sektörü veri tabanlarında bilgi keşfi: Tanımlayıcı ve kestirimci model uygulamaları. (Doktora tezi), Akdeniz Üniversitesi Sosyal Bilimler Enstitüsü.
Kass, G. V. (1980). An exploratory technique for ınvestigating large quantities of categorical data. Journal of the Royal Statistical Society: Series C (Applied Statistics), 29(2), s. 119-127.
Korkem, E. (2013). Mikroarray gen ekspresyon veri setlerinde random forest ve naıve bayes sınıflama yöntemleri yaklaşımı. (Yüksek lisans tezi), Hacettepe Üniversitesi Sağlık Bilimleri Enstitüsü.
Lippmann, R. P. (1987). An introduction to computing with neural nets. IEEE ASSP Magazine, 4(2), 4-22.
MEB. (2019). ABİDE 2018, 8. sınıflar özet rapor. Ankara: MEB.
Merceron, A., & Yacef, K. (2005). Educational data mining: a case study. AIED (s. 467-474). Amsterdam: IOS Press.
Naik, A., & Samant, L. (2016). Correlation review of classification algorithm using data mining tool: WEKA, Rapidminer, Tanagra, Orange and Knime. Procedia Computer Science, 85, 662-668.
North, M. A. (2012). Data Mining for the Masses. Atina: Global Text Project Book.
Patil, T. R., & Sherekar, S. S. (2013, Nisan). Performance analysis of naive bayes and J48 classification algorithm for data classification. International Journal Of Computer Science And Applications, 6(2), s. 256-261.
Quinlan, J. (1986). Induction of decision trees. Machine Learning, 1(1), 81-106.
Roe, B. P., Yang, H.-J., Z. J., Liu, Y., Stancu, I., & McGregor, G. (2005). Boosted decision trees as an alternative to artificial neural networks for particle identification. Nuclear Instruments and Methods in Physics Research Section A: Accelerators, Spectrometers, Detectors and Associated Equipment, 543(2-3), 577–584.
Roiger, R. (2017). Data mining: A Tutorial-Based Primer (second edition). CRC Press.
Romero, C., Ventura, S., & Bra, P. D. (2014). Knowledge discovery with genetic programming for providing feedback to courseware authors. User Modeling and User-Adapted Interaction, 14(5), 425-464.
Şeker, S. E. (2013). WEKA ile veri madenciliği. İstanbul: Bilgisayar Kavramları Yayınları.
Şengül, A. (2011). Türk öğrencilerin PISA 2009 okuma becerilerini açıklayan değişkenlerin CHAID analizi ile belirlenmesi. (Yüksek lisans tezi), Ankara Üniversitesi Eğitim Bilimleri Enstitüsü.
Şengür, D. (2013). Öğrencilerin akademik başarılarının veri madenciliği metotları ile tahmini. (Yüksek lisans tezi), Fırat Üniversitesi Eğitim Bilimleri Enstitüsü.
Taşdemir, M. (2012). Veri madenciliği (Öğrenci başarısına etki eden faktörmlerin regresyon analizi ile tespiti). (Yüksek lisans tezi), Dicle Üniversitesi Sosyal Bilimler Enstitüsü.
Two Crows Corp. (1999). Introduction to data mining and knowledge discovery (Third edition). Maryland: Two Crows.
Viera, A. J., & Garrett, J. M. (2005). Understanding interobserver agreement: the kappa statistic. Fam med, 37(5), 360-363.
Wang, Z., & Bovik, A. C. (2009). Mean squared error: Love it or leave it? A new look at Signal Fidelity Measures. IEEE Signal Processing Magazine, 26(1), 98–117. doi:10.1109/msp.2008.930649
Witten, I. H., Frank, E., Hall, M. A., & Pal, C. I. (2005). Data mining: Practical machine learning tools and techniques. Cambridge: Elsevier Inc.
Wu, X., & Kumar, V. (2009). The top ten algorithms in data mining. Boca Raton: CRC Press.