VLOGGER: cómo funciona IA de Google que da vida a tus fotos

¡De fotos a vídeos! Conoce todo sobre VLOGGER, la nueva IA de Google y generador de vídeo que transforma fotos en avatares controlables por voz. Descubre sus ventajas frente a otras herramientas similares, así como sus limitaciones y posibles usos.

Los investigadores de Google no han parado últimamente, publicando una oleada de nuevos modelos e ideas. La última novedad es una herramienta que permite convertir una imagen fija en un avatar controlable, siguiendo los pasos de una IA capaz de jugar videojuegos. Esta innovadora tecnología, que forma parte del nuevo modelo Gemini de Google, está llamada a revolucionar la forma en que interactuamos con los avatares y los contenidos multimedia.

¿Qué es VLOGGER?

Se trata de un modelo de IA capaz de crear un avatar animado a partir de una imagen fija, manteniendo el aspecto realista de la persona en la foto en cada fotograma del video final.

Según el artículo de investigación titulado "VLOGGER: Difusión Multimodal para la Síntesis de Avatares Incorporados", el modelo de IA es capaz de tomar como entrada una foto de una persona y un clip de audio de esta hablando. A partir de ahí, el modelo genera un video que coincide con el audio, mostrando a la persona diciendo las palabras y realizando las expresiones faciales, movimientos de cabeza y gestos con las manos correspondientes. Si bien los videos no son perfectos y pueden contener algunos defectos visuales, representan un salto significativo en la capacidad de animar imágenes fijas.

Cómo función VLOGGER, la IA de Google para convertir fotos en videos — A la izquierda, imagen de entrada. A la derecha, video generado. © Google

¿Cómo funciona VLOGGER?

Google publicó recientemente un post en su página de GitHub en el que presenta el modelo VLOGGER AI. Los usuarios sólo tienen que introducir una foto de retrato y contenido de audio. El modelo puede hacer que estos personajes "se muevan" y tengan expresiones faciales. Además, la imagen también puede leer el contenido de audio en voz alta.

La arquitectura del modelo y su funcionamiento

VLOGGER se basa en la arquitectura de difusión que impulsa la conversión de texto a imagen, vídeo e incluso modelos 3D como MidJourney o Runway, pero añade mecanismos de control adicionales.

Para generar el avatar, VLOGGER sigue múltiples pasos. Primero, toma el audio y la imagen como entrada, luego los ejecuta a través de un proceso de generación de movimiento 3D. Posteriormente, un modelo de "difusión temporal" determina los tiempos y el movimiento. Finalmente, se amplía y se convierte en la salida final.

En esencia, VLOGGER construye una red neuronal para predecir el movimiento del rostro, cuerpo, pose, mirada y expresiones a lo largo del tiempo. Utiliza la imagen fija como el primer fotograma y el audio como guía.

Entrenamiento con un gran conjunto de datos multimedia

Para entrenar el modelo, Enric Corona, investigador de Google, dirigió un equipo que entrenó un modelo de inteligencia artificial con un gran conjunto de datos multimedia llamado MENTOR que hacen posibles las funciones de VLOGGER. Esos datos constan de 800.000 vídeos de diferentes personas hablando, donde cada parte de su cara y cuerpo está etiquetada en todo momento.

Cómo funciona VLOGGER, la nueva IA de Google — © enriccorona.github.io

¿En qué casos se puede utilizar VLOGGER?

Los investigadores de Google prevén varios casos de uso para VLOGGER:

Traducción de videos: Por ejemplo, VLOGGER podría tomar un video existente en un idioma determinado y editar los labios y la cara para que coincidan con el nuevo audio traducido.
Avatares animados: VLOGGER podría crear avatares animados para asistentes virtuales, chatbots o personajes virtuales que se vean y se muevan de manera realista en un entorno de juego. Ya existen herramientas similares, como Synthesia, pero este nuevo modelo parece simplificar mucho el proceso.
Comunicación de video con bajo ancho de banda: Una versión futura del modelo podría permitir videollamadas a partir de audio, animando un avatar con una imagen fija. Esto podría resultar especialmente útil para entornos de realidad virtual en dispositivos como Meta Quest o Apple Vision Pro, funcionando independientemente de los modelos de avatar propios de la plataforma.

¿Cuáles son las ventajas de VLOGGER frente a otras herramientas similares?

Versatilidad: como lo mencionamos anteriormente, la inteligencia artificial se puede utilizar para una amplia gama de aplicaciones, desde la traducción de videos hasta la creación de avatares para juegos, educación, atención al cliente, y mucho más. Su flexibilidad lo convierte en una herramienta adaptable a las necesidades específicas de cada usuario.
Accesibilidad: VLOGGER tiene el potencial de democratizar el acceso a la creación de avatares realistas, permitiendo que incluso usuarios sin experiencia previa en animación o diseño puedan crear contenido atractivo y profesional.
Eficiencia: agiliza el proceso de creación de avatares, reduciendo el tiempo y los recursos necesarios en comparación con métodos tradicionales. Esto lo hace ideal para proyectos que requieren una producción rápida y eficiente de contenido multimedia.
Frente a otras herramientas: Actualmente, existen herramientas similares en cierta medida, como la sincronización de labios de Pika Labs, los servicios de traducción de video de Hey Gen y Synthesia. Sin embargo, VLOGGER parece ser una opción más simple y que requiere menos ancho de banda.

¿Cuáles son las desventajas y riesgos de VLOGGER?

Fidelidad imperfecta: Si bien VLOGGER es un avance interesante, se trata de un prototipo de investigación y no de un producto final. Aunque es capaz de generar movimientos de aspecto realista, el video final puede no coincidir siempre con la forma en que la persona se mueve en realidad. En esencia, sigue siendo un modelo de difusión y estos se caracterizan por su tendencia a tener comportamientos inusuales.
Limitaciones de movimiento: El equipo de desarrollo reconoce que VLOGGER también tiene dificultades con movimientos particularmente amplios o entornos diversos. Además, solo puede manejar videos relativamente cortos.
Acceso restringido: VLOGGER se encuentra en fase de investigación y aún no está disponible para el público.
Suplantación de identidad: la herramienta podría usarse para crear videos falsos que pretendan ser de personas reales, lo que podría tener graves consecuencias.
Desinformación: La capacidad de la IA para generar videos realistas podría facilitar la creación de contenido engañoso o desinformativo.
Ingeniería social: Los estafadores podrían utilizar VLOGGER para crear avatares convincentes que se hagan pasar por personas de confianza para manipular a las personas y obtener información personal o financiera. Es importante estar atentos a cualquier solicitud inusual o comportamiento sospechoso por parte de personas en línea, incluso si parecen ser conocidos o amigos.

Es crucial que el desarrollo de VLOGGER vaya acompañado de una profunda reflexión sobre sus implicaciones éticas y sociales. Se necesitan medidas para garantizar que esta tecnología se use de manera responsable y no represente una amenaza para la seguridad o la privacidad de las personas.