sora es el nuevo modelo de IA generativa de OpenAI para crear videos a partir de indicaciones textuales. Actualmente en vista previa, el nuevo modelo es capaz de crear videos fotorrealistas de hasta 60 segundos de duración aprovechando su capacidad para comprender cómo existen las cosas en el mundo real y combinando múltiples tomas sin alterar el carácter o el estilo.
Estamos enseñando a la IA a comprender y simular el mundo físico en movimiento, con el objetivo de entrenar modelos que ayuden a las personas a resolver problemas que requieren interacción con el mundo real.
Según OpenAI, Sora puede crear escenas muy detalladas, incluidos movimientos de cámara complejos y múltiples personajes. Desde un punto de vista técnico, Sora es un modelo de difusión. Su punto de partida es un vídeo que parece ruido estático que luego se transforma gradualmente en el resultado final eliminando el ruido paso a paso.
Representamos videos e imágenes como colecciones de unidades de datos más pequeñas llamadas parches, cada una de las cuales es similar a un token en GPT. Al unificar la forma en que representamos los datos, podemos entrenar transformadores de difusión en una gama más amplia de datos visuales de lo que era posible antes, abarcando diferentes duraciones, resoluciones y relaciones de aspecto.
OpenAI destaca un problema desafiante que resolvieron en Sora, es decir, mantener el sujeto igual incluso cuando se pierde de vista temporalmente y preservar el estilo visual, al permitir que el modelo opere en muchos fotogramas a la vez, lo que le brinda cierta capacidad para saber qué sucederá con anticipación y planifíquelo.
OpenAI mostró varios videos impresionantes creados con Sora, incluidas imágenes históricas de California durante la fiebre del oro, una mujer elegante caminando por una calle de Tokio, perros perdigueros de oro jugando en la nieve y otros. De todos modos, algunos vídeos generados pueden mostrar movimientos físicamente inverosímiles, admite OpenAI, como se muestra en un vídeo que muestra a un hombre caminando sobre una cinta transportadora en la dirección equivocada o en otra donde La arena se transforma en una silla y muestra un movimiento contrario a la intuición..
Actualmente, el nuevo modelo aún no está abierto al público en general ya que OpenAI está trabajando para mejorar su seguridad. Esto implica, por ejemplo, rechazar solicitudes de entrada de texto que incluyan violencia extrema, contenido sexual, imágenes de odio o infringir derechos de propiedad intelectual de terceros o de privacidad de celebridades. Para ello, OpenAI dice que está trabajando con expertos en áreas como desinformación, contenido de odio y prejuicios para probar los límites del modelo.
A pesar de investigaciones y pruebas exhaustivas, no podemos predecir todas las formas beneficiosas en que las personas utilizarán nuestra tecnología, ni todas las formas en que abusarán de ella. Es por eso que creemos que aprender del uso en el mundo real es un componente crítico para crear y lanzar sistemas de IA cada vez más seguros con el tiempo.
OpenAI también planea aplicar los métodos de seguridad que construyeron para DALL-E-3 a Sora, así como Metadatos C2PA para detectar vídeos creados a través de IA.
Sora no es el primer modelo de IA de generación de texto a video que ingresa al mercado. Otras soluciones incluyen Pista, pika, Estabilidad IA, Google Lumièrey otros.
Como señalaron varios comentaristas de Hacker News, los videos de demostración producidos por OpenAI son “Ciertamente escogido cuidadosamente” para mostrar el modelo en su mejor momento y los resultados podrían ser muy diferente cuando se intenta crear un vídeo a partir de una idea muy concreta. Además, vídeos creados por los usuarios iniciales parecen ser de menor calidad y detalle. Sin embargo, esto no afecta la impresionante capacidad de Sora y el impulso que puede generar en el campo de la generación de texto a vídeo.
!function(f,b,e,v,n,t,s)
{if(f.fbq)return;n=f.fbq=function(){n.callMethod?
n.callMethod.apply(n,arguments):n.queue.push(arguments)};
if(!f._fbq)f._fbq=n;n.push=n;n.loaded=!0;n.version=’2.0′;
n.queue=[];t=b.createElement(e);t.async=!0;
t.src=v;s=b.getElementsByTagName(e)[0];
s.parentNode.insertBefore(t,s)}(window,document,’script’,
‘
fbq(‘init’, ‘842388869148196’);
fbq(‘track’, ‘PageView’);

Leave a Reply