Saltar el contenido

Gracias a la IA ya se pueden traducir videos a otros idiomas con la propia voz del protagonista

Menos de 1 minuto Minutos

Mariano Rajoy, Belén Esteban, Torrente o el Fary ya son capaces de hablar en perfecto francés e inglés sin pasar por las escuelas de idiomas

Lo están reventando dos plataformas y detrás de ellos miles de usuarios gracias a la posibilidad, de la mano de un sistema de inteligencia artificial, de doblar los diálogos de cualquier video analizando la voz del que habla, de forma que precisamente la voz del que habla en el idioma final es la misma. Toda una proeza.

Las plataformas HeyGen y Rask son capaces de que tú que nos lees te puedas comunicar con tu público y con tu propia voz en casi cualquier idioma. Y como destacan en ellas: “Di no a las voces sintéticas de IA y personaliza tus contenidos con la función VoiceClone”. Además, HeyGen da un paso más allá y también ofrecen traducción de vídeos con sincronización labial. Esto refuerza la verosimilitud de que es la persona que vemos la que habla en el idioma que hayamos elegido, aunque la persona en cuestión no lo hable realmente.

Tal y como resaltan en la web especializada Xataka, gracias a estas plataformas a sus respectivas inteligencias artificiales, están circulando pequeños clips de video en los que los protagonistas no son los originales, “pero su voz y el idioma utilizado (normalmente, inglés) son otros. Los vídeos de Terelu Campos, Torrente, el Fari o Messi hablando en inglés en clips de vídeo reconocibles (o también nuevos, en el caso del de Messi) son desde luego sorprendentes y se han convertido en virales”.

Pasos que requiere esta IA tan sorprendente

Para traducir estos vídeos del español a otros idiomas y replicar la voz de sus protagonistas son necesarios diferentes pasos. 

El primero de todos, la IA debe procesar lo que se está diciendo en el vídeo. Para ello, es necesario convertir el audio a otro formato compatible, como es la palabra escrita. Este proceso se conoce como conversión de voz a texto.

Una vez que la máquina ha recibido el texto, puede pasarlo a otro idioma como si se tratara de una traducción normal. 

El siguiente paso: convertir el texto en un formato de audio y además hacerlo manteniendo las características de la voz original, como el timbre, el tono o el acento. Para ello se emplean sistemas de conversión de texto a voz, que transforman la palabra escrita en sonido. Gracias a la inteligencia artificial han surgido lo que se conoce como voces clonadas: aquellas voces que imitan la prosodia (elementos como el acento, el tono de la voz, la entonación…) de una persona en concreto.

Para ello, la máquina estudia varias grabaciones de un único individuo y aprende a generar un modelo acústico: una representación de la voz de una persona y sus características.

Gracias a esta tecnología, hoy podemos ver muchos de nuestros Spanish memes, pero en otros idiomas: We are feelings and we have human beings. Long live Murcia. I’m so sorry I didn’t like women, because you would have been happier. Who wouldn’t like a Roman Empire of the 1st century?…

Como dicen usuarios de estas plataformas o aquellos que ya han visualizado estos clips, “por fin los guiris van a entender los memes de Belén Esteban”.

Deja tu respuesta