Voicebox: para qué sirve la IA generativa de habla de Meta

El pasado viernes 16 de junio, Meta hizo público su propio modelo de IA generativa, entrando en la competencia encabezada por Google y Open AI. En esta ocasión, se trata de un modelo de habla que permite crear audios a partir de tu voz o un comando de texto. ¿Quieres saber cuándo sale y qué podrás hacer con Voicebox? ¡Entonces sigue leyendo!

¿Qué es Voicebox y cómo funciona?

Voicebox de Meta es un modelo de inteligencia artificial que puede realizar tareas de generación del habla como edición, sampling y estilización de audio, a partir de una muestra de voz y comandos de texto. Al igual que otros modelos generativos como ChatGPT para texto o DALL-E para imágenes, Voicebox permite trabajar con audio de maneras innovadoras.

Una de sus peculiaridades es que, a diferencia de otros modelos de IA, Voicebox no necesita contar con un gran set de datos para generar voces, ya que puede resolver tareas gracias al aprendizaje en contexto. Este modelo está entrenado para predecir un segmento del habla cuando se le da el habla circundante y la transcripción del segmento. Tras aprender a rellenar el habla a partir del contexto, el modelo puede aplicarlo a tareas de generación del habla. Así, con solo unos segundos de audio sería capaz de replicar una conversación entera con tu propia voz, por ejemplo, o podría eliminar el ruido de fondo llenando esos espacios con datos obtenidos de la pista original.

Entonces, ¿cómo funciona Voicebox? Como quizás ya sabes, los algoritmos de inteligencia artificial son entrenados con diferentes sets de datos (cuantos más, mejor) a partir de los cuales van aprendiendo a realizar ciertas tareas y pueden ir perfeccionando los resultados gracias al feedback constante que reciben. Aunque Voicebox fue entrenado con más de 50.000 horas de audio en diferentes idiomas, gracias a su método llamado Flow Matching, el modelo de Meta no necesita de un entrenamiento tan guiado, ya que puede ir aprendiendo del material que se proporciona en el momento. Voicebox supera en inteligibilidad (5,9% frente a 1,9% de tasa de error de palabra) y similitud de audio (0,580 frente a 0,681) al modelo actual de inglés VALL-E. En la transferencia de estilo en otros idiomas, Voicebox supera a YourTTS con una tasa media de errores de palabra del 5,2% contra el 10,9% de la competencia, y mejora la similitud de audio de 0,335 a 0,481. Suena genial, ¿no lo crees? En este video de Meta puedes ver varios ejemplos en directo:

¿Qué puedes hacer con Voicebox?

Voicebox abre un mundo de posibilidades en materia de inteligencia artificial, ya que puede producir fragmentos de audio de alta calidad y también editar audio pregrabado (imagina limpiar un audio de los molestos ruidos de fondo), conservando el contenido original y el estilo del audio. Por si fuera poco, este modelo es multilingüe y actualmente puede generar audios de voz en seis idiomas. Estas son solo alguna de las cosas que podrás hacer con esta IA:

Síntesis de contexto de texto a habla: la genialidad de Voicebox es que va mucho más allá de las herramientas que generan audios a partir de un texto (piensa por ejemplo en las apps de traducción y aprendizaje de idiomas), ya que puedes añadir una muestra de audio de solo un par de segundos, y Voicebox tomará ese estilo de habla para generar un audio a partir del texto que escribas.
Edición de habla y reducción de ruido: Voicebox puede recrear una parte del discurso interrumpida por ruido o sustituir palabras mal pronunciadas sin tener que volver a grabar partes del discurso.
Transferencia de estilo entre idiomas: puedes insertar una muestra de habla y un texto en inglés, francés, alemán, español, polaco o portugués, y Voicebox podrá leer el texto en cualquiera de esos idiomas utilizando el mismo estilo de voz. Esto podría utilizarse para comunicarse en otros idiomas conservando el estilo propio.
Muestreo de habla diversa: al haber aprendido de sets de datos diversos, Voicebox puede generar una voz más fiel a cómo se expresan las personas en el mundo real.

Concretamente, podríamos pensar en diferentes usos de esta tecnología: por ejemplo, personas con problemas de habla podrían utilizarla para comunicarse con mayor facilidad; también podríamos pensar en un traductor que nos permita comunicarnos en otros idiomas, conservando nuestro estilo; otro uso interesante sería en el Metaverso, donde podría darse voz a personajes operados por computadora; en medios de comunicación podría ayudar a editar discursos y otro material de audio, sin mencionar todas las posibilidades que abriría para la producción musical (especialmente para artistas emergentes). Una serie de usos que quedan aún por ver, pero que podrían estar a la vuelta de la esquina.

¿Cómo empezar a usar Voicebox de Meta?

Por el momento este modelo generativo de voz no está disponible para el público general, ya que, afirman los representantes de Meta "hay muchos casos de uso interesantes para los modelos generativos del habla, pero debido a los riesgos potenciales de mal uso, no estamos haciendo el modelo Voicebox o el código a disposición del público en este momento. Aunque creemos que es importante ser abiertos con la comunidad de la IA y compartir nuestra investigación para avanzar en el estado del arte de la IA, también es necesario encontrar el equilibrio adecuado entre apertura y responsabilidad." Es por eso que Meta hace públicos los resultados de su investigación para el avance de la ciencia, cuidando que este conocimiento no facilite un mal uso del mismo.

¿Cuáles son los riesgos de usar IA generativa del habla?

La idea de una tecnología capaz de recrear voces abre un mundo de posibilidades; sin embargo, no podemos dejar de pensar en los riesgos que esto implicaría. Desde la creación de deepfakes, audios generados por inteligencia artificial recreando la voz de una persona que podrían utilizarse contra políticos, celebridades o, más comúnmente, para suplantar la identidad de una persona, hasta la edición de materiales a conveniencia. Todos estos usos podrían representar un dolor de cabeza para el sistema judicial, ya que se abre la posibilidad de editar o falsificar evidencias, difamar figuras públicas, infringir los derechos de autor de artistas, etc. Mientras no se avance en materia de seguridad y legislación con respecto a la inteligencia artificial, resulta peligroso poner esta tecnología a disposición de las personas.

Otro de los riesgos de la inteligencia artificial es la extrema dependencia que podríamos desarrollar por lo fácil que es utilizarla, dejando de lado el cultivar nuestro sentido crítico. Como lo menciona el Doctor en Informática e Ingeniero en Telecomunicaciones Juan Ignacio Rouyet Ruiz en su libro "Estupidez artificial. Cómo usar la inteligencia artificial sin que ella te utilice a ti": "La estupidez artificial es aquel comportamiento que anula nuestra autonomía cuando usamos la inteligencia artificial. Es cuando decidimos dejar de ser responsables, porque abandonamos nuestra capacidad de responder y dejamos que la inteligencia artificial responda por nosotros". En definitiva, si quieres saber más sobre los peligros de usar la IA tan a la ligera, sin una reflexión al respecto, te invitamos a conocer más sobre el trabajo de Rouyet.