Era solo cuestión de tiempo que
OpenAI, que tiene modelos de inteligencia artificial capaces de generar imágenes, texto y vídeo, se animase a lanzar uno para generar voz. Efectivamente, la compañía capitaneada por
Sam Altman ha anunciado
Voice Engine, una tecnología capaz de clonar cualquier voz a partir de una muestra de tan solo 15 segundos.
Una voz que nos suena. Lo cierto es que el modelo no es nuevo.
OpenAI empezó a desarrollarlo a finales de 2022 y lo han usado para generar la voz de su API de texto a voz. Asimismo, lo utilizaron para crear la voz de ChatGPT en las apps móviles. Desde 2023, un reducido grupo de partners de confianza lo han estado usando para explorar posibles casos de uso y lo cierto es que el resultado, lejos de ser totalmente creíble, es realmente convincente.
15 segundos. Eso, es lo único que necesita
Voice Engine para clonar una voz. Aunque no sabemos cuán grande es el modelo, según
OpenAI es notable que un modelo pequeño con una sola muestra de 15 segundos pueda crear voces emotivas y realistas No pinta mal, pero lo cierto es que no parece que vayamos a poder probarlo por nosotros mismos dentro de poco. Razones hay de sobra. En palabras de la firma:
"Esperamos entablar un diálogo sobre el despliegue responsable de las voces sintéticas y sobre cómo la sociedad puede adaptarse a estas nuevas capacidades.