A estas alturas, decir que los modelos masivos de lenguaje (Large Language Models, o LLMs) han alcanzado la capacidad de generar texto correctamente puede parecer una obviedad: a base de alimentar esos modelos con miles de millones de textos recogidos de todas partes, hemos conseguido que, efectivamente, se expresen mejor que la mayoría de las personas en términos de corrección y propiedad.
Por supuesto, una vez que obtenemos esa expresión escrita, convertirla en expresión oral es muchísimo más fácil, y puede llevarse a cabo ya no solo a través de una simple locución, sino incluso con algoritmos capaces de entonar adecuada y enfáticamente según las necesidades. Basta jugar un poco con herramientas como HeyGen, un generador de vídeos mediante inteligencia artificial capaz de animar una simple retrato y ponerla a hablar en cualquier idioma, para darnos cuenta de que, a pesar de sus gráficos aún manifiestamente mejorables, la idea de representarnos a nosotros mismos o a cualquiera hablando en el idioma que estimemos oportuno ya resulta perfectamente disponible. Hace ya tres años que Zoom adquirió la compañía alemana Karlsruhe Information Technology Solutions, o Kites, lo que permite, de manera razonable aunque no exenta de yerros, mantener videoconferencias con personas que hablan otro idioma.