dc.contributor.advisor | Ercan, Gönenç | |
dc.contributor.author | Özkan, Erol | |
dc.date.accessioned | 2018-12-26T10:48:22Z | |
dc.date.available | 2018-12-26T10:48:22Z | |
dc.date.issued | 2018-08-01 | |
dc.date.submitted | 2018-08-01 | |
dc.identifier.citation | Özkan, E., Eski Türkçe Metinlerin Günümüz Türkçesine Sadeleştirilmesi, Yüksek Lisans Tezi, Hacettepe Üniversitesi Fen Bilimleri Enstitüsü, Ankara, 2018. | tr_TR |
dc.identifier.uri | http://hdl.handle.net/11655/5572 | |
dc.description.abstract | Changes in a language over time causes the text written in old times contain a lot of words that are not used at the present time. This makes it difficult for readers to understand old texts. The goal of text simplification task is to increase the readability and understandability of the text while preserving its content and meaning.
In this thesis, it is aimed to reduce the complexity of the texts written in republican period Turkish with text simplification methods. Text simplification task is considered as an Intralingual translation problem. For simplification process; rule-based and statistical simplification models are developed. For rule-based model, an automatically built bilingual dictionary is used. For statistical model, a parallel corpus that is built from Nutuk is used. These systems are compared, as well as they are combined in a single hybrid system.
The results are measured using BLEU metric that is used in the evaluation of machine translation systems. With this work, the complexity of old texts is reduced and the target audience of these texts is increased. | tr_TR |
dc.description.tableofcontents | ÖZET i
ABSTRACT iii
TEŞEKKÜR v
İÇİNDEKİLER vi
ÇİZELGELER viii
ŞEKİLLER x
KISALTMALAR xi
1. GİRİŞ 1
1.1. Türk Dilindeki Hızlı Değişim Süreci 1
1.2. Amaç, Kapsam ve Yöntem 2
1.3. Tezin Yapısı 4
2. LİTERATÜR ÖZETİ 5
2.1. Metin Sadeleştirme 5
2.1.1. Sözcüksel Sadeleştirme 5
2.1.2. Sözdizimsel Sadeleştirme 6
2.1.3. Makine Çevirisi Yöntemleri İle Sadeleştirme 7
2.2. Makine Çevirisi 8
2.3. Kural Tabanlı Sistemler 9
2.3.1. Doğrudan Çeviri Sistemleri 9
2.3.2. Dolaylı Çeviri Sistemleri 10
2.4. İstatistiksel Sistemler 11
2.5. Nöral Sistemler 12
2.6. Hibrid Sistemler 13
3. VERİ KÜMESİ 15
3.1. Nutuk 15
3.1.1. Nutuk’un Üslup Özellikleri 15
3.2. Metin Sadeleştirme Problemi İçin Geliştirilen Paralel Veri Kümeleri 16
3.3. Cümle Tabanlı Eşleştirme 16
3.4. Nutuk Paralel Veri Kümenin Oluşturma Yöntemi 18
3.5. İstatistiksel Analiz 20
4. KURAL TABANLI SADELEŞTİRME MODELİ 21
4.1. Modelde Kullanılan Bileşenler 21
4.1.1. TRMorph 21
4.1.2. Sözlük 22
4.1.3. Dil Modeli 23
4.2. Modelde Uygulanan İşlem Serisi 25
4.2.1. Ön İşleme 26
4.2.2. Sınıflandırma 26
4.2.3. Biçimbilimsel Analiz 27
4.2.4. Biçimbilimsel Sentez 28
4.2.5. Sözcüksel Aktarım 28
4.2.6. Dil Modeli Sorgusu 31
4.3. Sonuç 32
5. İSTATİSTİKSEL SADELEŞTİRME MODELİ 33
5.1. İstatistiksel Sistem 33
5.2. Uygulanan İstatistiksel Sadeleştirme Modeli 33
5.2.1. Ön İşleme 35
5.2.2. Kelime Eşleştirme 35
5.2.3. Dil Modeli Oluşturma 38
5.2.4. Çeviri Modeli Eğitimi 38
5.2.5. Çözümleme 39
5.3. Faktörlü Makine Çevirisi 39
5.3.1. Faktörlü Makine Çevirisinde Uygulanan İşlemler 40
6. DENEYSEL ÇALIŞMALAR 42
6.1. BLEU Metriği 42
6.2. Çapraz Doğrulama 43
6.3. Kural Tabanlı Sadeleştirme Modeli 43
6.3.1. Sınıflandırma İşlemi 44
6.3.2. Kural Tabanlı Sadeleştirme Modeli Sonuçları 44
6.4. İstatistiksel Sadeleştirme Modeli 45
6.4.1. Doğrulama İşlemi 46
6.4.2. Veri Kümesinin Büyüklüğünün Etkisi 46
6.4.3. Kelime Araçlarının Karşılaştırılması 46
6.4.4. Farklı Dil Modellerinin Karşılaştırılması 47
6.4.5. Faktörlü Sadeleştirme Modeli 48
6.5. Hibrid Sadeleştirme Modeli 49
6.5.1. Eğitim Veri Kümesinde Değişmeyen Kelimelerin Kullanılması 50
6.6. Sonuç 50
7. DEĞERLENDİRME 52
7.1. Kural Tabanlı Sadeleştirme Modeli 52
7.1.1. Biçimbilimsel Analiz ve Sentez İşlemlerinin Etkisi 54
7.1.2. Dil Modelinin Etkisi 54
7.1.3. Kural Tabanlı Sadeleştirme Modelinin Avantajları ve Dezavantajları 55
7.2. İstatistiksel Sadeleştirme Modeli 55
7.2.1. Faktörlü Yöntemin Gerçekleştirilen Sadeleştirmelere Etkisi 58
7.2.2. İstatistiksel Sadeleştirme Modelinin Avantajları ve Dezavantajları 59
7.3. Hibrid Sadeleştirme Modeli 59
8. SONUÇLAR 61
8.1. Sonuçlar 61
8.2. Gelecek Çalışma 62
KAYNAKLAR 63
EK 1: BİÇİMBİLİMSEL ETİKETLER 68
ÖZGEÇMİŞ 70 | tr_TR |
dc.language.iso | tur | tr_TR |
dc.publisher | Fen Bilimleri Enstitüsü | tr_TR |
dc.rights | info:eu-repo/semantics/openAccess | tr_TR |
dc.subject | Metin Sadeleştirme | tr_TR |
dc.subject | Makine Öğrenmesi | tr_TR |
dc.subject | İstatistiksel Makine Çevirisi | tr_TR |
dc.subject | Açımlama | tr_TR |
dc.subject | Text Simplification | en |
dc.subject | Machine Learning | en |
dc.subject | Statistical Machine Translation | en |
dc.subject | Paraphrasing | en |
dc.title | Eski Türkçe Metinlerin Günümüz Türkçesine Sadeleştirilmesi | tr_TR |
dc.title.alternative | Simplification Of Old Turkish Texts Into Modern Turkish | tr_TR |
dc.type | info:eu-repo/semantics/masterThesis | tr_TR |
dc.description.ozet | Dilde zaman içerisinde meydana gelen değişim eski zamanlarda yazılmış metinlerin günümüzde kullanılmayan birçok kelime içermesine yol açmaktadır. Bu durum okurların eski metinleri anlamasını zorlaştırmaktadır. Metin sadeleştirme görevinin amacı, metin içeriğini ve anlamını koruyarak metnin okunabilirliğini ve anlaşılabilirliğini arttırmaktır.
Bu tezde, Cumhuriyet dönemi Türkçesi ile yazılmış metinlerin karmaşıklığının metin sadeleştirme yöntemleriyle azaltılması hedeflenmiştir. Metin sadeleştirme görevi eski Türkçeden güncel Türkçeye dil içi çeviri problemi olarak görülmüştür. Sadeleştirme işlemi için; kural tabanlı ve istatistiksel sadeleştirme modelleri oluşturulmuştur. Kural tabanlı model için otomatik olarak oluşturulmuş sözlük kullanılmış, istatistiksel model için ise Nutuk kullanılarak oluşturulan paralel veri kümesi kullanılmıştır. İki model karşılaştırıldığı gibi tek bir hibrid sistemde birleştirilmiştir.
Sonuçlar makine çevirisi sistemlerinin başarı ölçümünde kullanılan BLEU metriği kullanılarak değerlendirilmiştir. Çalışma ile eski metinlerin karmaşıklığı azaltılarak, bu metinlerin hedef kitlesi arttırılmaktadır. | tr_TR |
dc.contributor.department | Bilgisayar Mühendisliği | tr_TR |
dc.contributor.authorID | 10206685 | tr_TR |