Otomatik Altyazı sistemi
YouTube’da artık videolardaki müzik, ses ve kahkahayı otomatik olarak tanımlayan ‘ses efekti alt yazı sistemi’ var.
Bu, küçük fakat, Google’ın alt kuruluşu olan ve internet’in sıklıkla uğranan yayın sitesinin erişilebilirlik özelliklerine yapılmış belirgin bir eklenti. YouTube, Google’ın ses tanıma özelliğine dayalı olarak diyalog kayıtları için sunduğu otomatik alt yazı hizmeti 2009 yılından beri mevcut. Fakat ses efektlerini altyazılandırmak çok daha zor ve geçtiğimiz birkaç yıl içerisinde yer alan makine öğrenimindeki (yapay zeka) gelişmelerle başarılabilecek bir iş.
[irp posts=”8349″ name=”YouTube’daki otomatik altyazılı video sayısı 1 milyarı aştı”]
Sorun, bir bilgisayarın bazı şeyleri tespit ederek bunları sınıflandırmada göstereceği beceriden çok (Google Fotoğraflar gibi ürünler halihazırda örneğin resimler için algılama kapasitesine sahip), sesleri tanımlayacak olan nöral ağın eğitimi esnasında kullanılacak olan ses efektleri için belirgin bir veri tabanının olmayışı.
Google’da mühendis olan Sourish Chaudhuri bir blog gönderisinde “Tanımlı* çevre sesi bilgisini edinmek zor olmakla birlikte, zayıf biçimde tanımlandırılmış veri kullanarak makine eğitimi için yeterince büyük bir veri seti üretebildik” dedi. Ekip öncelikle müzik, ses ve kahkaha üzerinde odaklanmaya karar vermiş zira bunlar bir video diyaloğuna sağır ya da işitme güçlüğü çekenler için anlamlı bağlantılar eklerler.
YouTube binlerce saatlik video işleme sürecinden sonra, ‘America’s Got Talent’ (yukarıdaki videoda CC butonuna basarak alt yazıları aktive edebilirsiniz) filminden alınma bu klipte olduğu gibi videolarda ses efektleri için aktive edebileceğiniz eğitilmiş yapay zeka algoritmasına sahip oldu. Google mühendisi Noah Wang’a göre iş henüz bitmedi.
Wang yazısına devamla ;
“Gelecekteki uğraşılarımız önemli sorunları beraberinde getiren (örneğin; zil sesi ile ilgili olarak bunun bir saat alarmı mı, kapı zili mi yoksa telefon zili mi olduğunu ayırd edebilme zorunluluğumuz olacak) zil sesi, havlama sesi ve kapıya tıklama sesi gibi diğer genel ses sınıflarını da bu çalışmaya eklemeyi içerebilir” dedi.
Tanımlı Veri : Resim, müzik, video gibi materyallerden elde edilen veriler üzerinde herhangi bir bilgi mevcut değilse (örneğin müziği kimin söylediği, resimlerde kimlerin olduğu, v.b.) bu materyaller ‘Tanımsız Veri’ (Unlabelled Data) sınıfına girerler. Materyal ile ilgili az ya da detaylı bilgi girişinin olduğu materyaller ise ‘Tanımlı veri’ (Labelled Data) olarak adlandırılırlar.