dc.contributor.advisor | Al, Umut | |
dc.contributor.author | Taşkın, Zehra | |
dc.date.accessioned | 2017-06-12T07:55:01Z | |
dc.date.available | 2017-06-12T07:55:01Z | |
dc.date.issued | 2017 | |
dc.date.submitted | 2017-05-15 | |
dc.identifier.citation | Taşkın, Z. (2017). İçerik tabanlı atıf analizi modeli tasarımı: Türkçe atıflar için metin kategorizasyonuna dayalı bir uygulama (Doktora Tezi). Hacettepe Üniversitesi. | tr_TR |
dc.identifier.uri | http://www.bby.hacettepe.edu.tr/akademik/zehrataskin/file/ZT_PhD_web.pdf | |
dc.identifier.uri | http://hdl.handle.net/11655/3486 | |
dc.description.abstract | One of the important components of measuring research/er performance is to evaluate the number of citations received. Academics receive incentives, promotions or rewards contingent to the number of these citations. Although the initial purpose for the recording of citations was to determine the publications related to one another, the use of citations also changed as a result of these new contingents. This situation sometimes brings about unethical practices such as the manipulation of the number of citations. Consequently, there emerged the necessity of conducting content analysis of citations in addition to quantitative evaluations.
The main aim of this study is to design a content-based citation analysis model for Turkish citations. For this end, 423-refereed articles, which have been published in library and information science literature in Turkey, are thoroughly examined. Firstly, all metadata, references, and full-texts of the articles are stored in a database to create a content-based citation analysis model. A total of 12,881 references and 101,019 sentences have been stored in this database. Then, the main taxonomic categories have been determined and citation sentences have been classified into these categories by tagging them with inter-annotator agreement process. At the last stage, the performance of the classification has been tested by using Weka software and a content-based citation analysis model is presented considering these performance ratios.
In this study, citations are divided into four main categories: citations in terms of meanings, citations in terms of purposes, citations in terms of shapes, and citations in terms of arrays. Then, each category is divided into sub-categories. The sub-categories are positive, negative, and neutral citations for meaning; literature, definition, method, data and data validation for purpose; mentioning author name, multiple citations in single sentence, and citation using direct quotations for shape. In evaluating the citations in terms of arrays, the sections of citations (introduction, method etc.), the number of use, and the number of citations in different sections in the texts have been considered.
In the categorization of citations by the machine, 1-2 gram word tokenizer has been chosen as the word preprocessing method and the application is run with the stop words preserved. The main reason for this is that the stop words have importance in the determination of citation classes. Following the word preprocessing, the performance of the classification has been tested with the Weka software and over 90% performance is achieved for all three main categories.
Naive Bayes Multinomial algorithm is used to classify citations in terms of meanings (performance ratio is 96.5%) and purposes (performance ratio is 90.4%). It has been found that the lowest achievement in classifying citations in terms of meaning is in determining negative citations. This finding confirms the argument that authors make negative citations with more allusive words. Studies in the literature show that when different applications of the natural language processing are added to the analysis (such as sentiment dictionary or parsing), the performance can be improved. Success rates may be increased by adding various analyses in future studies. According to the results of citation purpose classification, the best performance has been determined for data validation citations, while the lowest performance has been detected for method and definition citations. The main reason for this is thought to be the definitions made when explaining the method. Random Forests algorithm has been used for the classification of citations in terms of shapes and the algorithm has been able to classify citations with the success rate of 92%. Highest achievement has been determined for citations with author names, while the lowest performance has been calculated for the citations indicated in quotation marks.
The results show that in the Turkish library and information science literature citation sentences are generally placed in introduction and literature review sections (85%), and negative and data validation citations are seen in the findings and conclusions sections. Additionally, citations by using the name of cited authors are generally found in conclusion sections. It is determined that 67% of the references are cited only once in the texts, and 6% are not cited in the texts at all. In addition, 1% of the citations in the texts are not found in the reference lists. This suggests that writers and editors should be more careful when citing and editing the papers.
In this study, the fundamental points to be taken into consideration during citation evaluation processes by researchers, editors, and managers/decision makers are presented by content-based citation analysis model. With this model, the tasks ideally assigned to each role in the scholarly communication process are also defined. The most important issue at this point is a realization on the part of all parties involved that the meaning of a citation is not the same in every case. Once such an awareness is in place, it may be possible to minimize the manipulations done through the citations. | tr_TR |
dc.description.sponsorship | Bu araştırma Türkiye Bilimsel ve Teknolojik Araştırma Kurumu (TÜBİTAK) tarafından 115K440 proje numarası ile desteklenmiştir. | tr_TR |
dc.language.iso | tur | tr_TR |
dc.publisher | Sosyal Bilimler Enstitüsü | tr_TR |
dc.rights | info:eu-repo/semantics/openAccess | tr_TR |
dc.subject | İçerik tabanlı atıf analizi | tr_TR |
dc.subject | doğal dil işleme | tr_TR |
dc.subject | metin kategorizasyonu | tr_TR |
dc.subject | atıf sınıflandırması | tr_TR |
dc.subject | Weka | tr_TR |
dc.subject | Türkçe kütüphanecilik ve bilgibilim literatürü | tr_TR |
dc.title | İçerik Tabanlı Atıf Analizi Modeli Tasarımı: Türkçe Atıflar için Metin Kategorizasyonuna Dayalı Bir Uygulama | tr_TR |
dc.type | info:eu-repo/semantics/doctoralThesis | tr_TR |
dc.description.ozet | Araştırma/cı performanslarının ölçümünde önemli unsurlardan biri alınan atıf sayılarının değerlendirilmesidir. Aldıkları atıfların sayısına göre akademisyenler teşvik almakta, yükseltilmekte veya ödüllendirilmektedirler. Başlangıçta temel amacı birbirleri ile ilişkili yayınları saptamak olan atıfların kullanım amacı da yüklenen bu misyon ile birlikte değişmeye başlamış, bu değişim de etik olmayan bazı uygulamalar ile atıf sayılarının manipüle edilmesine kadar uzanmıştır. Gelinen noktada atıfların niceliksel olarak değerlendirilmesinin yanında içeriksel analizinin yapılması gerekliliği ortaya çıkmaya başlamıştır.
Bu çalışmada Türkçe atıflar için içerik tabanlı bir atıf analizi modeli tasarlanması hedeflenmiştir. Bu hedef doğrultusunda Türkçe kütüphanecilik ve bilgibilim literatüründe yayımlanmış 423 hakemli makale derinlemesine incelenmiş ve analizler gerçekleştirilmiştir. İçerik tabanlı atıf analizi modeli yaratılabilmesi için öncelikle makalelere ait üst veri, kaynakça ve tam metin bilgileri toplanmış, bu makalelere ait 12.881 kaynakça ve 101.019 cümle çalışma için oluşturulan veri tabanında depolanmıştır. Bu işlemin ardından atıflar için taksonomik türler belirlenmiş ve bu makaleler içindeki atıf cümleleri yürütülen uzlaşmalı etiketleme süreci ile sınıflara ayrılmıştır. Son aşamada ise Weka yazılımı kullanılarak sınıflamanın başarımı test edilmiş ve bu başarım oranları göz önüne alınarak içerik tabanlı atıf analizi modeli sunulmuştur.
Çalışmada atıflar; anlamı açısından, yapılma amacı açısından, şekli açısından ve dizilimi açısından atıflar olarak dört temel taksonomik kategoriye ayrılmış, ardından her bir tür kendi içinde alt kategorilere bölünmüştür. Bu alt kategoriler; anlamı açısından atıflar için pozitif, negatif ve nötr; yapılma amacı açısından atıflar için literatür, tanım yapma, yöntem, veriye atıf ve veri doğrulama; şekli açısından atıflar için ise yazar adı anılarak, toplu ve tırnak içinde atıf şeklinde belirlenmiştir. Dizilimi açısından atıflarda ise atıfın yapıldığı bölüm, kaç kez ve kaç farklı bölümde atıf yapıldığı dikkate alınmıştır.
Atıfların makinece sınıflandırılmasında kelime ön işleme yöntemi olarak 1-2 gram sözcük parçalayıcısı seçilmiş ve dur sözcükleri korunarak uygulama gerçekleştirilmiştir. Bunun temel sebebi dur sözcüklerinin atıf sınıflarını belirlemede önemli yere sahip olmasıdır. Kelime ön işleme sürecinin ardından sınıflamanın başarımı Weka yazılımı ile test edilmiş ve üç sınıf için de %90’ın üzerinde başarım elde edilmiştir.
Anlamı ve yapılma amacı açısından atıfların makinece sınıflandırılmasında Naive Bayes Multinomial algoritması kullanılmış ve anlamı açısından atıflarda %96,5; yapılma amacı açısından atıflarda %90,4’lük başarım elde edilmiştir. Anlamı açısından atıfların sınıfladırılmasında en düşük başarımın negatif atıfların saptanması konusunda olduğu görülmüştür. Bu durum yazarların daha üstü kapalı bir dille negatif atıf yaptığı savını doğrulamaktadır. Literatürde yapılan çalışmalar doğal dil işlemenin diğer uygulamaları analize eklendiğinde (duygu sözlüğü ve gövdeleme gibi) başarımın arttığını göstermektedir. Bu sebeple gelecek çalışmalarda çeşitli analizlerin eklenmesi ile başarım oranları artırılabilecektir. Yapılma amacı açısından atıflarda en yüksek başarım veri doğrulama atıfları için saptanırken, en düşük başarım yöntem ve tanım yapma atıfları için elde edilmiştir. Bunun temel nedeninin de yöntem açıklarken yapılan tanımlar olduğu düşünülmektedir. Şekli açısından atıfların sınıflandırılmasında Random Forests algoritması kullanılmış ve algoritma %92 oranında başarılı bir sınıflama yapabilmiştir. En yüksek başarım yazar adı anılarak yapılan atıflar için, en düşük başarım ise tırnak içinde belirtilen atıflar için hesaplanmıştır.
Türkçe kütüphanecilik ve bilgibilim literatüründe atıfların %85’inin giriş ve literatür değerlendirmesi bölümlerinde yapıldığı, negatif atıflar ile veri doğrulama atıflarının genellikle bulgular ve sonuç kısımlarında yer aldığı, yazar adlarının en sık sonuç kısmında yapılan atıflarda anıldığı gibi sonuçlara ulaşılmıştır. Bunun yanında kaynakçalarda yer alan künyelerin %67’sine metin içinde yalnızca bir kez atıf yapıldığı ve %6’sına metin içinde hiç yer verilmediği saptanmıştır. Ayrıca metin içinde yer alan göndermelerin %1’i de kaynakçada yer almamaktadır. Bu durum yazarlar ve editörlerin atıf verirken daha dikkatli olması gerekliliğini ortaya koymaktadır.
Çalışma sonunda ortaya koyulan içerik tabanlı atıf analizi modeli ile araştırmacılar, editörler ve yönetici/karar vericiler için atıf değerlendirmelerinde dikkate alınması gereken temel noktalar belirlenmiş, bilimsel iletişim sürecindeki her bir rolün üzerine düşen görevler tanımlanmıştır. Bu noktada en önemli unsur tüm atıfların eşit olmadığının süreçteki herkes tarafından bilinmesidir. Söz konusu bilinç oluştuğunda atıflar üzerinden yapılacak manipülasyonlar da en aza indirilebilecektir. | tr_TR |
dc.contributor.department | Bilgi ve Belge Yönetimi | tr_TR |