Gobierno Vasco y TSA prueban el doblaje automático de contenidos audiovisuales al euskera
Telefónica Servicios Audiovisuales (TSA), en colaboración con el Gobierno Vasco a través de Sociedad Pública Informática del Gobierno Vasco (EJIE), ha llevado a cabo una prueba de concepto para evaluar el estado del arte del doblaje automático de contenidos audiovisuales del castellano al euskera.
La prueba, que se ha realizado con el partner tecnológico de inteligencia artificial Etiqmedia, ha consistido en doblar tres tipos de contenidos de Movistar+: una serie de producción propia, un documental de telerrealidad (docu reality) y unos dibujos animados infantiles.
Los resultados han sido muy satisfactorios en el caso de los dibujos animados, pero no tanto en el caso de la serie y el documental.

En los dibujos animados, el doblaje automático ha sido capaz de reproducir con gran fidelidad la voz de los personajes, realizando clonado de voces originales, así como el ritmo y la expresión de los diálogos. Al ser unos dibujos animados, la sincronización de las voces es más eficiente que en personajes reales. En el caso de este tipo de contenido infantil, el doblaje automático puede ser explotado rápidamente y de forma totalmente automática, siempre que se realice un control de calidad final por parte de un técnico que corrija posibles errores. Este nuevo hito, abre una nueva dimensión y monetización a todos los contenidos infantiles que existen en innumerables archivos históricos, tanto contenidos antiguos como contenidos modernos, el poder dotarles del idioma euskera aumenta su valor y acerca a un púbico joven contenidos que caso contrario se perderían, por el elevado coste de un doblaje tradicional manual.
Un elemento fundamental del proyecto ha sido poder contar con el servicio de síntesis de voz en euskera del proyecto Itzuli. La Sociedad Pública Vasca ha aportado al proyecto el servicio de acceso tres voces en euskera, dos femeninas y una masculina, con una muy alta calidad, lo que ha permitido usarlas como base para el clonado de voces. La alta calidad de los datos con los que se han entrenado estas voces ha permitido que el resultado tras el clonado hayan sido unas voces con una prosodia muy natural. Adicionalmente se ha puesto a disposición del proyecto el servicio de traducción del proyecto Itzuli cuya implementación basada en redes neuronales ha permitido un nivel de traducción automática muy bueno.

En el caso de la serie y el documental, el doblaje automático ha sido menos satisfactorio. En la serie, el doblaje automático ha sido capaz de traducir, doblar y reproducir con fidelidad el clonado de la voz del personaje principal, pero no ha sido capaz de captar el sentimiento, ritmo y la expresión de los diálogos, sobre todo en las frases cortas. En el documental de telerrealidad, el doblaje automático ha sido menos preciso, con errores en la pronunciación y en la comprensión del contexto. Este ejemplo utilizado es aún más complejo que una película o serie de ficción. En un documental más clásico, con un narrador, la estimación de éxito es muy superior al docu reality.
En todos los casos, los resultados indican que la tecnología de doblaje automático está progresando. Sin embargo, es preciso continuar con el desarrollo para optimizar su eficacia en contenidos audiovisuales más complejos, como películas y series
Factores que influyen en los resultados
Los resultados de la prueba de concepto han sido influenciados por una serie de factores, entre los que se encuentran:
- El tipo de contenido: Los dibujos animados, que suelen tener un ritmo más pausado y diálogos más sencillos, son más fáciles de doblar automáticamente que las series y películas, que suelen ser más complejos y requieren una mayor precisión en la pronunciación y la comprensión del contexto.
- La calidad de los datos de entrenamiento: La precisión del doblaje automático depende de la calidad de los datos de entrenamiento que se utilizan para entrenar el modelo. En este caso, los datos de entrenamiento utilizados eran de alta calidad, lo que ha contribuido a mejorar los resultados.
- La tecnología utilizada: Los desarrollos específicos de inteligencia artificial utilizados para el doblaje automático también influyen en los resultados. En este caso, se ha utilizado una tecnología de vanguardia, basada en transformers, que ha permitido obtener resultados satisfactorios en el caso de los dibujos animados. Estos transformes incluyen transcripción automática, traducción, clonado de voces y sincronización de labios

Conclusiones
En conclusión, la prueba de concepto realizada por Gobierno Vasco y Telefónica Servicios Audiovisuales (TSA) ha demostrado que el doblaje automático del castellano al euskera es una tecnología viable, pero que aún es necesario seguir trabajando para mejorar su rendimiento en ciertos contenidos.
En el caso de los dibujos animados, el doblaje automático es una realidad, desde TSA se ofrecen ya este tipo de servicios, mediante procesamiento on prem o cloud.
La necesidad de computación basado en GPUs es uno de los elementos relevantes en este tipo de servicios de inteligencia artificial, donde desde Telefónica se ofrecen varias y diversas soluciones de alta eficiencia, desde instalaciones on premise, edge computing, cloud privada o cloud publica apoyada en hiperescalares como Oracle Cloud, Amazon (AWS), Google Cloud o Microsoft (Azure).
TSA y Etiqmedia seguirán trabajando en esta línea para desarrollar una tecnología de doblaje automático que permita ofrecer contenidos audiovisuales en euskera y otros idiomas, a un mayor número de personas.
Xabier Arrieta, Director Informática y Telecoumunicaciones / IKT Zuzendaria
“el Gobierno Vasco lleva años trabajando en el desarrollo de herramientas de productividad lingüística. La inteligencia artificial abre nuevos horizontes que habilitan la transformación digital en múltiples campos, siendo el lenguaje uno de ellos. El proyecto Itzuli es ampliamente usado tanto por la sociedad como por los profesionales. Hay que seguir dando pasos”.
Asier Anitua, Gerente de Telefónica Servicios Audiovisuales:
"En Telefónica estamos comprometidos con la promoción y difusión del euskera y las lenguas oficiales del territorio español. Esta prueba de concepto es una muestra de nuestro compromiso con esta lengua. Estamos convencidos de que el doblaje automático puede ser una herramienta muy útil para acercar el euskera a un mayor número de personas. Asi como un valor añadido a todos los contenidos históricos que existen tanto en Euskera como en Castellano."
Antonio León, CEO de Etiqmedia
“Nuestra tecnología exclusiva demuestra que ya podemos conseguir resultados de alta calidad para determinados contenidos, prueba de ellos son los dibujos animados que ya pueden ser explotados para nuestros clientes en varios idiomas.”
Avances tecnológicos no probados
Hay nuevos avances tecnológicos que podrían mejorar el doblaje automático al euskera, como las nuevas redes neuronales que empiezan a meter sentimiento en las voces, o la mejora de la IA en la traducción de frases cortas según contexto. Nuevos entornos aún por probar, sobre una tecnología incipiente.