Runway ha dejado de lado Midjourney y Stable Diffusion, presentando los primeros clips de arte de AI de texto a video que, según la compañía, se genera completamente mediante un mensaje de texto.
La compañía dijo que está ofreciendo una lista de espera para unirse a lo que llama “Gen 2” de AI de texto a video, después de ofrecer una lista de espera similar para sus primeras herramientas de texto a video más simples que usan una escena del mundo real como un modelo.
Cuando surgió el arte de IA el año pasado, utilizó un modelo de texto a imagen. Un usuario ingresaba un mensaje de texto que describía la escena, y la herramienta intentaba crear una imagen utilizando lo que sabía de “semillas” del mundo real, estilos artísticos, etc. Servicios como Midjourney realizan estas tareas en un servidor en la nube, mientras que Stable Diffusion y Stable Horde aprovechan modelos de IA similares que se ejecutan en PC domésticos.
Sin embargo, el texto a video es el siguiente paso. Hay varias formas de lograr esto: Pollinations.ai ha acumulado algunos modelos que puede probar, uno de los cuales simplemente toma algunas escenas relacionadas y construye una animación uniéndolas. Otro simplemente crea un modelo 3D de una imagen y le permite hacer zoom.
Runway tiene un enfoque diferente. La compañía ya ofrece herramientas de video impulsadas por IA: pintura para eliminar objetos de un video (a diferencia de una imagen), bokeh impulsado por IA, transcripciones y subtítulos, y más. La primera generación de sus herramientas de texto a video le permitió construir una escena del mundo real y luego usarla como modelo para superponer un video generado por texto encima. Esto normalmente se hace como una imagen, donde podría tomar una foto de un Golden Retriever y usar AI para transformar la foto en una foto de un Doberman, por ejemplo.
Eso fue Gen 1. Gen 2 de Runway, como tuiteó la compañía, puede usar imágenes o videos existentes como base. Pero la tecnología también puede generar automáticamente un video corto a partir de un mensaje de texto y nada más.
Como indica el tweet de Runway, los clips son cortos (solo unos segundos como máximo), terriblemente granulados y tienen una velocidad de fotogramas baja. Tampoco está claro cuándo Runway lanzará el modelo para acceso anticipado o acceso general. Pero los ejemplos en la página Runway Gen 2 muestran una amplia variedad de indicaciones de video: IA pura de texto a video, texto+imagen a video, etc. Parece que cuanto más información le des al modelo, mejor será tu suerte. La aplicación de una “superposición” de video sobre un objeto o escena existente parecía ofrecer el video más suave y la resolución más alta.
Runway ya ofrece un plan “Estándar” de $12/mes que permite proyectos de video ilimitados. Pero ciertas herramientas, como entrenar tu propio retrato o generador de animales, requieren una tarifa adicional de $10. No está claro cuánto cobrará Runway por su nuevo modelo.
que pista hace demostrar, sin embargo, es que en unos pocos meses, hemos pasado del arte de IA de texto a imagen al arte de IA de texto a video… y todo lo que podemos hacer es sacudir la cabeza con asombro.