• LSTM Ağları ile Türkçe Kök Bulma

      Can, Burcu (Gazi Üniversitesi, 2019-07-31)
      Türkçe, morfem adı verilen birimlerin art arda eklenmesiyle sözcüklerin oluşturulduğu sondan eklemeli bir dildir. Sözcüklerin farklı parçaların birleştirilmesiyle oluşturulması makine tercümesi, duygu analizi ve bilgi çıkarımı gibi birçok doğal dil işleme uygulamasında seyreklik problemine yol açmaktadır çünkü sözcüğün her farklı formu farklı bir sözcük gibi algılanmaktadır. Bu makalede, sözcüklerin yapım ve çekim eklerinden arındırılarak köklerinin otomatik olarak bulunabilmesi için bir yöntem öneriyoruz. Kullandığımız yöntem tekrarlayan sinir ağları kullanarak oluşturulan kodlayıcı-kod çözücü yaklaşımına dayanmaktadır. Verilen herhangi bir sözcük, oluşturduğumuz sinir ağı yapısı ile öncelikle kodlanmakta, ardından kodu çözülerek köküne ulaşılabilmektedir. Bu yöntem şimdiye kadar etiketleme veya makine tercümesi gibi problemlerde kullanılmıştır. Diğer Türkçe kök bulma modelleriyle karşılaştırıldığında sonuçların oldukça iyi olduğu gözlenmiştir. Diğer modellerde olduğu gibi, herhangi bir kural kümesi elle tanımlanmadan, sadece sözcük ve kök ikililerinden oluşan bir eğitim veri kümesi kullanılarak kök bulma işlemi önerdiğimiz bu model ile gerçekleştirilebilmektedir.