Baidu firmasının geliştirdiği teknoloji farklı duygularla konuşabiliyor
Teknnoloji firması Baidu Kaliforniya’daki Silikon Vadisi’nde geliştirdiği otonom aracın dışında da yeni teknolojiler üzerinde çalışıyor. Bunlardan birisi yeni yayınlanan metini konuşmaya çeviren uygulama Deep Voice.
MIT’in Technology Review’u üzerinden yayınlanan teknoloji iddiaya göre görevini Google’ın WaveNet’inden çok daha hızlı ve iyi yapıyor. Çin’li teknoloji devi Baidu’nun açıklamasına göre Deep Voice neredeyse hiçbir insan iletişimine ihtiyaç duymadan birkaç saat içerisinde konuşmayı öğrenebiliyor. Bununla birlikte Baidu, Deep Voice’un konuşmasında duyguları ifade edebileceğini de iddia ediyor. Bu da konuşmasını çok daha doğal ve gerçekçi hale getiyor.
Google’ın geliştirdiği WaveNet de konuşma sesini sentezleyerek bir insan gibi konuşabiliyor. Ama teknolojinin şu anki aşamasında gündelik hayatta kullanılması için daha hayli geliştirilmesi lazım. Baudi yaptığı açıklamada WaveNet’de yaşanan problemi çözmek için metinlerin fenomlarına (konuşmanın en ufak ünitesi) inerek derin öğrenme teknikleri kullandıklarını ifade etti. Daha sonra bu fenomları sentez networklerini kullanarak konuşmaya çevirdiklerini belirtti.
Firma Deep Voice’un WaveNet’in problemini çözdüğünü belirtse bile, bu işlemlerin hala ciddi manada bilgisayar işlem gücü istediğinin altını çizdi. Bilgisayarın bir kelimeyi söylemesi için 20 mikrosaniyeye ihtiyaç duyduğu ifade edildi.
Baidu tarafından yapılan açıklamada, gerçek zamanlı ve başarılı bir performans elde etmek için gelişen sonuçların yeniden işlenmemesi gerektiği vurgulandı.
Buna rağmen araştırmacılar gerçek zamanlı konuşma sentezinin mümkün olduğuna inandıklarını belirtti. Araştırmacılar şimdiden örnek çalışmaları hazırlamış ve Amazon’un Mechanical Turk teknolojisinden geri dönüşler almaya başlamış. Buna göre kullanıcılardan gelen geri dönüş teknolojinin mükemmel kalitede olduğu yönünde.