Prepárese para la próxima generación de IA

Para recibir El Algoritmo en tu bandeja de entrada todos los lunes, regístrate aquí.

¡Bienvenido al Algoritmo!

¿Alguien más se siente mareado? Justo cuando la comunidad de IA estaba pensando en el asombroso progreso de los sistemas de texto a imagen, ya nos estábamos moviendo hacia la siguiente frontera: texto a video.

A fines de la semana pasada, Meta presentó Make-A-Video, una IA que genera videos de cinco segundos a partir de indicaciones de texto.

Basado en conjuntos de datos de código abierto, Make-A-Video le permite escribir una cadena de palabras, como “Un perro vestido con un traje de superhéroe con una capa roja volando por el cielo”, y luego genera un clip que, aunque bastante preciso Tiene la estética de un viejo video casero trippy.

El desarrollo es un gran avance en la IA generativa que también plantea algunas cuestiones éticas difíciles. Crear videos a partir de indicaciones de texto es mucho más desafiante y costoso que generar imágenes, y es impresionante que Meta haya encontrado una manera de hacerlo tan rápido. Pero a medida que la tecnología se desarrolla, existe el temor de que pueda aprovecharse como una herramienta poderosa para crear y difundir información errónea. Puedes leer mi historia al respecto aquí.

Sin embargo, solo unos días después de que se anunció, el sistema de Meta ya comienza a parecer un poco básico. Es uno de varios modelos de texto a video presentados en documentos a una de las principales conferencias de IA, la Conferencia Internacional sobre Representaciones de Aprendizaje.

Otro, llamado Phenaki, es aún más avanzado.

Puede generar video a partir de una imagen fija y un aviso en lugar de solo un aviso de texto. También puede hacer clips mucho más largos: los usuarios pueden crear videos de varios minutos de duración en función de varias indicaciones diferentes que forman el guión del video. (Por ejemplo: “Un oso de peluche fotorrealista nada en el océano en San Francisco. El oso de peluche se sumerge. El oso de peluche sigue nadando bajo el agua con peces de colores. Un oso panda nada bajo el agua”).

Vídeo generado por Phenaki.

Una tecnología como esta podría revolucionar el cine y la animación. Es francamente asombroso lo rápido que sucedió esto. DALL-E se lanzó el año pasado. Es extremadamente emocionante y un poco aterrador pensar dónde estaremos el próximo año.

Los investigadores de Google también enviaron un documento a la conferencia sobre su nuevo modelo llamado DreamFusion, que genera imágenes en 3D basadas en indicaciones de texto. Los modelos 3D se pueden ver desde cualquier ángulo, la iluminación se puede cambiar y el modelo se puede colocar en cualquier entorno 3D.

No espere que pueda jugar con estos modelos en el corto plazo. Meta aún no está lanzando Make-A-Video al público. Eso es bueno. El modelo de Meta se entrena con el mismo conjunto de datos de imagen de código abierto que estaba detrás de Stable Diffusion. La compañía dice que filtró el lenguaje tóxico y las imágenes NSFW, pero eso no garantiza que hayan captado todos los matices del desagrado humano cuando los conjuntos de datos consisten en millones y millones de muestras. Y la compañía no tiene exactamente un historial estelar cuando se trata de frenar el daño causado por los sistemas que construye, por decirlo suavemente.

Los creadores de Pheraki escriben en su artículo que, si bien los videos que produce su modelo aún no son indistinguibles en calidad de los reales, “está dentro del ámbito de la posibilidad, incluso hoy”. Los creadores de los modelos dicen que antes de lanzar su modelo, quieren comprender mejor los datos, las indicaciones y los resultados del filtrado y medir los sesgos para mitigar los daños.

Cada vez será más difícil saber qué es real en línea, y la IA de video abre una serie de peligros únicos que el audio y las imágenes no abren, como la posibilidad de falsificaciones profundas turboalimentadas. Plataformas como TikTok e Instagram ya están distorsionando nuestro sentido de la realidad a través de filtros faciales aumentados. El video generado por IA podría ser una herramienta poderosa para la desinformación, porque las personas tienen una mayor tendencia a creer y compartir videos falsos que versiones falsas de audio y texto del mismo contenido, según investigadores de la Universidad Estatal de Pensilvania.

En conclusión, no hemos llegado ni siquiera cerca de averiguar qué hacer con los elementos tóxicos de los modelos lingüísticos. Recién comenzamos a examinar los daños en torno a los sistemas de IA de texto a imagen. ¿Video? Buena suerte con eso.

Aprendizaje más profundo

La UE quiere poner a las empresas en el anzuelo por la IA dañina

La UE está creando nuevas reglas para que sea más fácil demandar a las empresas de IA por daños. Un nuevo proyecto de ley publicado la semana pasada, que probablemente se convierta en ley en un par de años, es parte de un impulso de Europa para obligar a los desarrolladores de IA a no lanzar sistemas peligrosos.

El proyecto de ley, llamado Directiva de responsabilidad de AI, agregará fuerza a la Ley de IA de la UE, que se convertirá en ley en un momento similar. La Ley de IA requeriría controles adicionales para los usos de IA de “alto riesgo” que tienen el mayor potencial para dañar a las personas. Esto podría incluir sistemas de inteligencia artificial utilizados para vigilancia, reclutamiento o atención médica.

La ley de responsabilidad entraría en vigor una vez que ya se haya producido el daño. Daría a las personas y empresas el derecho a demandar por daños y perjuicios cuando hayan sido perjudicados por un sistema de IA, por ejemplo, si pueden probar que se ha utilizado IA discriminatoria para ponerlos en desventaja como parte de un proceso de contratación.

Pero hay una trampa: Los consumidores tendrán que demostrar que la IA de la empresa los perjudicó, lo que podría ser una tarea enorme. Puedes leer mi historia al respecto aquí.

Bits y bytes

Cómo los robots y la IA están ayudando a desarrollar mejores baterías
Los investigadores de Carnegie Mellon utilizaron un sistema automatizado y un software de aprendizaje automático para generar electrolitos que podrían permitir que las baterías de iones de litio se cargaran más rápido, abordando uno de los principales obstáculos para la adopción generalizada de vehículos eléctricos. (Revisión de tecnología del MIT)

¿Pueden los teléfonos inteligentes ayudar a predecir el suicidio?
Investigadores de la Universidad de Harvard están utilizando datos recopilados de teléfonos inteligentes y biosensores portátiles, como los relojes Fitbit, para crear un algoritmo que podría ayudar a predecir cuándo los pacientes están en riesgo de suicidio y ayudar a los médicos a intervenir. (Los New York Times)

OpenAI ha puesto a disposición de todos su AI DALL-E de texto a imagen.
Las imágenes generadas por IA estarán en todas partes. Puedes probar el software aquí.

Alguien ha creado una IA que crea Pokémon parecidos a personajes famosos.
La única IA de generación de imágenes que importa. (El Correo de Washington)

¡Gracias por leer! Te veo la proxima semana.

Toronjil

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.