Home » OpenAI presenta Sora, una nueva herramienta de inteligencia artificial para convertir texto en video

OpenAI presenta Sora, una nueva herramienta de inteligencia artificial para convertir texto en video

by admin
OpenAI presenta Sora, una nueva herramienta de inteligencia artificial para convertir texto en video

Sora puede convertir texto en video y crear videos de un minuto que parecen reales. Sin embargo, por ahora, esta herramienta no está ampliamente disponible. Actualmente, todavía se encuentra en la fase de equipo rojo. OpenAI los ha puesto a disposición de socios seleccionados para que los prueben, incluidos: expertos en desinformación o contenidos de odio, artistas visuales, diseñadores y cineastas. Al hacerlo, quiere asegurarse de que Sora no esté creando contenido dañino o inapropiado, así como obtener comentarios sobre cómo mejorar el modelo.

Sora es capaz de generar escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos de objetos y fondos. Como señalan los representantes de OpenAI, una comprensión profunda del lenguaje natural permite al modelo interpretar con precisión indicaciones y generar personajes que expresan emociones vívidas. Sora también puede crear múltiples tomas dentro de un solo video generado que reflejen con precisión los personajes y el estilo visual.

Detalles técnicos del modelo.

Al igual que los modelos GPT, Sora utiliza una arquitectura transformadora. Los vídeos y las imágenes se presentan como colecciones de unidades de datos más pequeñas llamadas parches, cada una de las cuales es similar a un token en GPT. Al estandarizar la forma en que se representan los datos, los expertos de OpenAI pueden entrenar transformadores de difusión en una gama más amplia de datos visuales de lo que antes era posible, abarcando diferentes duraciones, resoluciones y relaciones de aspecto.

Sora se basa en investigaciones anteriores sobre los modelos DALL-E y GPT. Utiliza la técnica de recaptioning de DALL-E 3, que implica generar subtítulos altamente descriptivos para datos de entrenamiento visual. Como resultado, este modelo es aún más capaz de seguir las instrucciones de texto del usuario en el vídeo generado.

Leer también

Circulación de documentos electrónicos en la industria del automóvil.

Además de poder generar videos basados ​​únicamente en instrucciones de texto, el modelo también puede tomar una imagen fija existente y generar un video a partir de ella, animando el contenido de la imagen con precisión y atención al detalle. El modelo también puede tomar un vídeo existente y ampliarlo o completar los fotogramas faltantes.

Sora sirve como base para modelos que pueden comprender y simular el mundo real, lo que, según los funcionarios de OpenAI, será un hito importante en el logro de la inteligencia artificial general (AGI).

Lamentablemente, el modelo también tiene puntos débiles. Bueno, es posible que tenga dificultades para simular con precisión la física de una escena compleja y que no comprenda casos específicos de causa y efecto. Por ejemplo, una persona puede morder una galleta, pero luego es posible que la misma galleta no tenga una marca de mordisco. El modelo también puede confundir detalles espaciales (por ejemplo, izquierda y derecha) y tener dificultades para describir con precisión eventos que ocurren a lo largo del tiempo, como seguir una trayectoria de cámara específica.

Vaina Link abajo Puedes ver las capacidades del modelo Sora.

Sora y la seguridad

Además de la colaboración ya mencionada con expertos en dominios en áreas como desinformación, contenido que incita al odio y prejuicios, OpenAI también anunció la creación de herramientas para ayudar a detectar contenido engañoso, como un clasificador de detección que puede determinar si Sora generó un video.

Además de desarrollar nuevas técnicas, también se utilizan métodos de seguridad existentes que se crearon para productos que utilizan DALL-E 3 y que también son aplicables al modelo Sora.

!function(f,b,e,v,n,t,s){if(f.fbq)return;n=f.fbq=function(){n.callMethod?
n.callMethod.apply(n,arguments):n.queue.push(arguments)};if(!f._fbq)f._fbq=n;
n.push=n;n.loaded=!0;n.version=”2.0′;n.queue=[];t=b.createElement(e);t.async=!0;
t.src=v;s=b.getElementsByTagName(e)[0];s.parentNode.insertBefore(t,s)}(window,
document,’script’,’

!function(f,b,e,v,n,t,s)
{if(f.fbq)return;n=f.fbq=function(){n.callMethod?
n.callMethod.apply(n,arguments):n.queue.push(arguments)};
if(!f._fbq)f._fbq=n;n.push=n;n.loaded=!0;n.version=’2.0′;
n.queue=[];t=b.createElement(e);t.async=!0;
t.src=v;s=b.getElementsByTagName(e)[0];
s.parentNode.insertBefore(t,s)}(window, document,’script’,

fbq(‘init’, ‘1910562795671392’);
fbq(‘track’, ‘PageView’);

You may also like

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.

This website uses cookies to improve your experience. We'll assume you're ok with this, but you can opt-out if you wish. Accept Read More

Privacy & Cookies Policy