Çeviri Sistemleri İlyas Çiçekli Bilgisayar Mühendisliği Bölümü Bilkent Üniversitesi Bilkent 06800, Ankara ilyas@cs.bilkent.edu.tr Çeviri Sistemleri • Tercüme: Kaynak dilde verilen bir metini anlamını koruyarak hedef dildeki bir metine çevrilmesi. • Çeviri sistemleri bu tercüme işlemini otomatik olarak yapmaya çalışırlar. • Bilgisayar ile çeviri zordur. – Doğal dildeki bir cümlede her seviyede belirsizlik olabilir: morfolojik, sözdizim, anlamsal, ... – Çeviri sırasında bu belirsizliklerin giderilmesi gerekir. • Çeviri sistemleri değişik yöntemler kullanır. Çeviri Sistemleri 2 Tercüme Piramidi Cümlenin Dil Bağımsız Anlamsal Yapısı (Interlingua) Kaynak Dildeki Anlamsal Yapı Cümlenin Anlamsal Transferi Yapısı Kaynak Dildeki Cümlenin Sözdizim Yapısı Kaynak Dildeki Cümle Hedef Dildeki Cümlenin Anlamsal Yapısı Sözdizim Yapı Transferi Doğrudan Transfer Çeviri Sistemleri Hedef Dildeki Cümlenin Sözdizim Yapısı Hedef Dildeki Cümle 3 Doğrudan Transfer • Doğrudan transferde sadece aşağıdaki basit işlem adımları kullanır. – Kaynak cümlenin morfolojik analizi – Kaynak cümle için morfolojik belirsizlik gidericinin uygulanması – Kaynak cümlenin morfolojik seviyedeki kelimelerinin hedef dildeki morfolojik seviyedeki kelimelere transferi. – Hedef dildeki kelimelerin sıralanın tekrardan belirlenmesi. – Hedef cümledeki morfolojik seviyedeki kelimelerin üretilmesi. Çeviri Sistemleri 4 Sözdizim Yapı Transferi • Kaynak cümlenin sözdizim analizinin yapılarak sözdizim yapısının bulunması. – kaynak dil için morfolojik analizci, – kaynak dil için morfolojik belirsizlik giderici, – kaynak dil için sözdizim analizcisi. • Kaynak cümlenin sözdizim yapısının hedef dildeki sözdizim yapısına transferi. – yapıların transferi, – iki-taraflı sözlük • Hedef dildeki sözdizim yapısından hedef cümlenin üretilmesi. – sözdizim yapısından kelime sıraların bulunması, – morfolojik üretici Çeviri Sistemleri 5 Dil Bağımsız Anlam Yapısını Kullanarak Tercüme • Bu tür tercüme yönteminde çok fazla kaynak gerekir ve bunları elde etmek pahalı ve kolay değildir. • Kaynak cümlenin dil bağımsız anlam yapısının bulunması. – – – – – kaynak dil için morfolojik analizci, kaynak dil için morfolojik belirsizlik giderici, kaynak dil için sözdizim analizcisi. kaynak dil için anlamsal analizci anlamsal yapının dil bağımsız yapıya çevrilmesi (ontoloji denilen dünya bilgisini saklayan bir kaynak gerekli) • Dil bağımsız anlam yapısından hedef cümlenin üretilmesi. – Dil bağımsız anlam yapısının hedef cümleye çevrilmesi Çeviri Sistemleri 6 Yapıları Birbirlerine Yakın Diller Arasında Tercüme • Yapıları birbirlerine benzeyen diller arasında tercüme benzemeyenlere göre daha kolaydır. • Birbirlerine benzemeyen diller arasındaki tercüme sistemleri daha fazla kaynak bilgiye ihtiyaç duyarlar. – Sözlük, gramer kuralları, aktarma kuralları, ontoloji – Gerekli kaynakları hazırlamak pahalı olabilir. • Birbirlerine benzeyen diller arasındaki tercüme sistemleri daha az kaynak bilgiye ihtiyaç duyarlar. – Morfolojik Analizciler, Morfolojik Belirsizlik Gidericiler, Tercüme Sözlükleri ve Basit Tercüme Kuralları – Anlamsal Analizciye gerek olmayabilir. Çeviri Sistemleri 7 Türkçe ve Tatarca Arasında Tercüme • Türkçe ve Tatarca arasında sonlu durum yöntemleri kullanıldı. • Türkçe ve Tatarca Gramerleri Birbirlerine Çok Benzerler – Türkçe ile Tatarca arasındaki bir tercüme sisteminde kelime sırası problemiyle ilgilenmemize gerek yoktur. – Ama Türkçe ve İngilizce arasındaki bir tercüme sisteminde kelime sırası problemiyle ilgilenmemiz gerekir. – Basit Tercüme Kuralları (Sonlu Durum Kuralları) – Bazı belirsizlikler aynen korunduğundan, daha az belirsizlik problemi. Çeviri Sistemleri 8 Türkçe ve Tatarca Arasındaki Tercüme Sistemi Türkçe Metin Türkçe Morfolojik Analizci Türkçe Morfolojik Belirsizlik Giderici Tercüme 1. Gramer Kuralların Tercümesi 2. Duruma Bağlı Yapıların Tercümesi 3. Köklerin Tercümesi Tatarca Morfolojik Üretici Tatarca Metin Çeviri Sistemleri 9 Örneğe Dayalı Bilgisayar ile Tercüme • Verilen kaynak dildeki cümle kaynak-hedef diller arasında verilmiş olan tercüme örnek kümesi yardımıyla hedef dildeki cümleye çevrilir. • Bazı çeviri sistemleri kaynak-hedef diller arasındaki tercüme örnek kümesini direk olarak tercüme sırasında kullanır. – Kaynak cümleye en çok benzeyen cümleler örnek kümesinden bulunarak, kaynak cümlenin parçaları tercüme edilir. – Parçalar birleştirilerek tercüme sonucu bulunur. • Bazı çeviri sistemleri ise örnek kümesinden tercüme kalıpları öğrenir ve bu tercüme kalıplarını kullanarak kaynak dildeki cümleyi tercüme ederler. – İngilizce ve Türkçe arasında bu tür sistem üzerinde çalıştık. Çeviri Sistemleri 10 İstatiksel Tercüme Yöntemleri Kaynak-Hedef tercüme örnek kümesi Hedef örnek kümesi İstatiksel Analiz Kaynak dildeki cümle İstatiksel Analiz Tercüme Modeli Çeviri Sistemleri Dil Modeli Hedef dildeki cümle 11 İstatiksel Tercüme Yöntemleri • Dil Modeli – verilen bir cümle e için, P(e) değerini bulur – e doğru bir cümle yapısındaysa ve çok kullanılan bir yapı ise P(e) değeri yüksek olacaktır, aksi halde düşük olacaktır. • Tercüme Modeli – verilen iki cümle e ve f için, P(e | f) değerini bulur. – e ve f bir birlerinin tercümesi olmaya ne kadar uygun ise, P(e | f) değeri o kadar yüksek olacaktır, aksi halde düşük olacaktır. • Ayrıştırma Algoritması – Verilen bir f cümlesi için P(e) * P(e | f) formülünü en yüksek değeri verecek olan e cümlesini bulmaya çalışır. Çeviri Sistemleri 12 Sonuçlar • Kullanacağımız yönteme göre ihtiyaç duyacağımız kaynaklar değişir. – Örneğe dayalı bilgisayar ile tercüme için: • Büyük tercüme örnek kümeleri. Türkçe için örneklerin morfolojik seviyede işaretlenmiş olması gerekir. • Kaynak ve hedef diller için morfolojik analizciler. • Kaynak ve hedef diller için morfolojik belirsizlik gidericiler. • Yapıları benzer olan diller arasındaki bir tercüme sistemi daha az bir çabayla geliştirilebilinir. – Yapıları benzer olan diller arasındaki tercüme sistemlerinde çoğu zaman sonlu durum yöntemleri yeterli olabilir. – Türkçe ve Tatarca arasında kullanılan yöntemler, diğer Türk diller içinde uygulanabilir. Çeviri Sistemleri 13