VASA-1: la nueva IA de Microsoft hace que las fotos hablen, canten y se muevan con un realismo alucinante

Microsoft presenta VASA-1, una inteligencia artificial capaz de animar fotos y hacerlas hablar de forma ultrarrealista. El resultado es sencillamente asombroso.

Microsoft acaba de anunciar una innovación impresionante en el mundo de la inteligencia artificial: VASA-1, capaz de dar vida a fotografías estáticas, permitiéndoles hablar de manera increíblemente realista. Esta revolucionaria tecnología podría cambiar la forma en que interactuamos con las imágenes digitales, aportando una nueva dimensión a nuestros medios visuales.

VASA-1 no es solo un proyecto más dentro del extenso portafolio de Microsoft; representa una inversión millonaria y destaca el firme compromiso de la empresa con el avance de la inteligencia artificial. Esta herramienta se suma a la suite de productos innovadores de Microsoft, como Microsoft 365, el navegador Edge, el motor de búsqueda Bing y el sistema operativo Windows, todos ellos potenciados por la colaboración con OpenAI. Con VASA-1, Microsoft logra un gran salto al permitir animar rostros en fotos para que hablen con una sincronización de labios precisa y expresiones faciales que simulan la realidad con asombrosa fidelidad.

The First AI-Generated Video That Looks Super Real

Microsoft Research announced VASA-1.

It takes a single portrait photo and speech audio and produces a hyper-realistic talking face video with precise lip-audio sync, lifelike facial behavior, and naturalistic head movements pic.twitter.com/6bxd4mEgFR
— Bindu Reddy (@bindureddy) April 17, 2024

El funcionamiento de VASA-1 es sorprendente por su realismo. Esta IA utiliza tecnologías avanzadas y aprendizaje profundo para generar vídeos en alta definición (512x512 píxeles) con una fluidez de 40 cuadros por segundo. Los investigadores de Microsoft han combinado varias técnicas complejas para lograr que las expresiones faciales sean naturales y las animaciones fluidas. Además de animar fotografías, VASA-1 puede dar vida a ilustraciones, soporta audios en múltiples idiomas y puede incluso sincronizar labios con música. Uno de los ejemplos más llamativos es ver a la Mona Lisa rapear, una demostración que, sin duda, no deja indiferente a nadie.

Microsoft VASA-1 AI can make single image sing and talk from audio reference quite expressively.pic.twitter.com/7yaSBZlKRj
— Massimo (@Rainmaker1973) April 18, 2024

A pesar de la fascinación que puede generar, VASA-1 también presenta desafíos éticos importantes. El realismo de las animaciones es tal que despierta preocupaciones legítimas sobre la creación de deepfakes, vídeos falsificados extremadamente realistas que pueden ser utilizados para desinformar o manipular. Microsoft es plenamente consciente de estos riesgos y, por ello, ha optado por no lanzar una demostración pública de VASA-1. La empresa ha declarado que no planea liberar una API, ni detalles de implementación adicionales, hasta asegurarse de que existen garantías de uso responsable y conforme a las regulaciones apropiadas.

El potencial de VASA-1 es vasto, con aplicaciones que van desde el entretenimiento hasta la educación, pasando por la terapia y más allá. En el futuro, podría transformar la manera en que se crean y utilizan los avatares digitales, ofreciendo una interacción más personal y profundamente realista. Imagina poder interactuar con un avatar de un ser querido fallecido o con figuras históricas en entornos educativos, todo ello gracias a esta tecnología.

¿Estamos preparados para esta nueva dimensión de la interacción digital?

VASA-1: la nueva IA de Microsoft hace que las fotos hablen, canten y se muevan con un realismo alucinante

Adobe Acrobat Reader DC

Microsoft 365

Instagram

TikTok

Google Meet

Amazon Alexa