Yaşam

Neden her dilde yapay zeka destekli çeviri yapılamıyor?

ChatGPT gibi yapay zeka destekli araçlar, destekledikleri dili biliyorsanız harika fırsatlar sunar.

Ancak Etiyopya’nın başkenti Addis Ababa’da bulunan Ashagari danışmanlık şirketinin kurucusu Mekdes Gebrewold, Amharca’da makine çevirisinin imkansız olduğunu söylüyor. Gebrewold, DW’ye “Google Çeviri gibi araçlar Amharca için iyi yapılandırılmamış. Bunun yerine profesyonellere ödeme yapıyoruz” dedi.

Mekdes Gebrewold gibi milyarlarca insan da yapay zeka destekli araçlardan ana dilinde yararlanamıyor.

Bu, ChatGPT gibi üretken yapay zeka tabanlı araçlarla veya Google Translate gibi çeviri hizmetleriyle sınırlı değildir. Sosyal medyada otomatik tamamlama, metin analizi, sesli asistanlar ve içerik kontrolü gibi birçok yapay zeka destekli araç, farklı dillerde hizmet vermekte yetersiz kalıyor.

Ancak bazı firmalar bu durumu değiştirmeye çalışıyor.

Yapay zeka destekli araçlar nasıl çalışıyor?

Aslında çağdaş yapay zeka araçları, aldıkları girdiye göre en olası yanıtı talep ediyor. Gelişmiş otomatik tamamlama araçlarının öne sürdüğü bu iddialar, yapay zeka mühendislerinin modellerini oluşturmak için kullandıkları “eğitim verilerine” dayanıyor. Dijital içerik koleksiyonlarından oluşan bu eğitim verileri oldukça fazla yer kaplamaktadır.

Ortak Tarama, bu eğitim verileri için değerli bir kaynaktır. Common Crawl, internetteki milyarlarca web sayfasından oluşan ve açık kaynak olarak erişilebilen bir bilgi kümesidir. Yapay zeka destekli ChatGPT-3.5 sürümünü eğitmek için kullanılan bilgilerin yaklaşık yüzde 60’ı bu koleksiyondan alındı.

Bazı dillerdeki eğitim verileri sınırlı olduğundan yapay zeka araçları farklı dillerde aynı performansla çalışmamaktadır. İnternetteki içerikler yoğun olarak birden fazla dilde oluşturulduğundan yapay zeka eğitim verilerinin birçok dilde bulunması sorun teşkil etmektedir.

Örneğin İngilizce, Common Crawl’daki tüm içeriğin neredeyse yarısını oluşturur.


Fotoğraf: Valentin Wolf/imageBROKER/picture Alliance

Ancak diğer tüm Afrika, Amerika ve Okyanusya dilleriyle birlikte Amharca, Ortak Tarama bilgilerinin yüzde 0,1’inden azını oluşturuyor. Amharca, çok az dijital veri üretilen, düşük kaynaklı bir dil olarak bilinir. Dünya çapında milyarlarca insan düşük kaynaklara sahip dilleri konuşuyor. Çok sayıda insan tarafından konuşulan Hintçe, Arapça ve Bengalce gibi diller bile düşük kaynaklı diller olarak kabul ediliyor.

Öte yandan Avrupa dilleri, eğitim verileri açısından çoğu Asya ve Afrika diline göre daha fazla içeriğe sahiptir. Örneğin Hollandaca, Amharca gibi 20 milyondan fazla insan tarafından ana dil olarak konuşulmaktadır. Ancak Felemenkçe’nin Ortak Tarama bilgi setinde görünme olasılığı Amharca’ya göre neredeyse 700 kat daha fazladır. Hollandaca, Common Crawl veri kümesindeki 300 milyondan fazla insanın ana dili olan Hintçe’den bile yüzlerce kat daha fazla içeriğe sahiptir.

Ancak bu bilgi açığını gidermenin yolları var.

Silikon Vadisi’ndeki teknoloji devlerinin dışında dünyanın dört bir yanındaki makine öğrenimi araştırmacıları da kendi dilleri için yapay zeka destekli araçlar geliştiriyor.

Yapay zeka destekli araçlarda dil açığı nasıl kapatılır?

Asmelash Teka Hadgu, Etiyopya’da Amharca ve Tigrinya dilleri için makine çevirisi ve konuşma teknolojisi sağlayan bir girişim olan Lesan’ın kurucu ortağıdır. Bu dillerde çok fazla çevrimiçi kaynak bulunmadığından Hadgu’nun grubu doğrudan bu dilleri konuşan topluluklarla çalışıyor ve veri toplamanın yaratıcı yollarını buluyor.

Hadgu, DW’ye “Genellikle kendi dilini seven öğrencilerle çalışıyoruz” dedi. Öğrenciler için Hadgu, “Böyle bir şey ürettiğimizi söylediğimizde etkileniyorlar ve katkıda bulunmak istiyorlar. Bu yüzden kendi dilimizde içerik toplamak için görevler belirliyoruz. Onlara yardımcı oluyoruz ve maddi olarak telafi ediyoruz. iş.”

Böyle bir veri toplama süreci çok fazla el emeği gerektirir. Katkıda bulunanlar öncelikle güvenilir kitaplar veya gazeteler gibi yüksek kaliteli veri kümelerini belirler, ardından bunları dijitalleştirerek hedef dillere çevirir. Son olarak bu kişiler, makine toplama sürecine rehberlik etmek için orijinal ve çevrilmiş versiyonları cümle cümle listeliyorlar.

Bu formül, Lesan gibi şirketleri milyarlarca sayfa İngilizce içeriğe sahip araçlarla rekabet edebilecek hale getirmiyor. Ancak başka avantajlar da sağlayabilir. Örneğin Lesan, hem Amharca hem de Tigrinya’da Google Çeviri’den daha iyi performans gösteriyor.

Asmelash Teka Hadgu, “Küçük, özenle seçilmiş veri kümeleri kullanılarak faydalı modellerin oluşturulabileceğini gösterdik” diye açıklıyor. Hadgu bu modeller hakkında şunları ekliyor: “Sınırlamalarını ve yeteneklerini anlıyoruz. Bu arada Microsoft veya Google genellikle tüm diller için tek ve devasa bir model oluşturuyor, dolayısıyla bu modeli denetlemek neredeyse imkansız.”

Daha fazla dilin dijital desteğe ihtiyacı var

Bu çalışma yöntemini uygulayan tek firma Lesan değil. Benzer projeler, dijital ayak izi daha küçük olan diller için bile tüm dünyada başarıyla uygulanıyor.

Hıristiyan bir sivil toplum kuruluşu olan SIL International tarafından yönetilen küresel bir dil veritabanı olan Ethnologue, Amharca’yı “önemli” dil desteğine sahip diller arasında listeliyor. Bu, bazı makine çeviri araçlarının, yazım denetiminin ve konuşma işlemenin en azından Amharca’da mevcut olduğu anlamına gelir.


Fotoğraf: Issouf Sanogo / AFP

Çoğunun bir milyondan fazla kullanıcısı olan binlerce dil, çok daha az içerik ve daha az dijital araç sunuyor.

Asmelash Teka Hadgu, yapay zeka alanında önde gelen Afrikalı isimlerden oluşan bir ağın bir modülüdür. Hadgu, Afrika, Avrupa ve Kuzey Amerika’dan bir grup araştırmacının yer aldığı Dağıtılmış Yapay Zeka Araştırma Enstitüsü’nde (DAIR) araştırma görevlisidir. Hadgu aynı zamanda GanaNLP ve Afrika halkının kolektifi Masakhane gibi gruplarla da düzenli temas halinde.

Hadgu, DW’ye “Afrikalı kurucuların bu teknolojileri benimsemelerine olanak sağlıyoruz” dedi. Hadgu, “Bu araçlar bu topluluklara ait insanlar tarafından üretilip hizmete sunuluyor. Yani maddi getirisi doğrudan onlara dönecek.”

Afrika dışında dünyanın dört bir yanındaki araştırmacılar Jamaika Patois, Katalan, Sudan ve Maori gibi diğer dilleri de yapay zekaya eklemenin yolları üzerinde çalışıyor.

ChatGPT’nin OpenAI gibi teknoloji devleri modellerini gizli ve şeffaf tutarken, küresel AI kolektifi Hugging Face gibi startup’lar bilgilerini ve AI modellerini özgürce paylaşıyor. Bu sayede her araştırmacının kendi diline yönelik analizler üretmesini kolaylaştırırlar.

Asmelash Teka Hadgu, “Yetenek her yerde, fırsat eksik” diyor. “Diyelim ki Gana’da bir dil için en iyi türde makine çevirisi teknolojisini yaratmak istiyorsanız, bunu tutkuyla isteyen ve bunu iyi yapabilecek bir Ganalı mutlaka olacaktır. Bu fırsatı sağlamalısınız,” diye ekliyor Hadgu.

Hanna Demissie bu rapora Etiyopya’dan katkıda bulunmuştur.

– Bu haber İngilizceden Türkçeye uyarlanmıştır.

DW Türkçe’ye VPN üzerinden nasıl erişebilirim?

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

-
Başa dön tuşu