DALL-E 3 / Benj Edwards
En octubre, OpenAI lanzó su nuevo generador de imágenes de IA, DALL-E 3.en amplia liberación para suscriptores de ChatGPT. DALL-E puede realizar tareas de generación de medios que habrían parecido absurdas hace apenas dos años y, aunque puede inspirar deleite con sus creaciones inesperadamente detalladas, también genera inquietud en algunos. La ciencia ficción pronosticó tecnología como esta hace mucho tiempo, pero ver a las máquinas alterar el orden creativo se siente diferente cuando realmente sucede ante nuestros ojos.
“Es imposible descartar el poder de la IA cuando se trata de generación de imágenes”, dice Aurich Lawson, director creativo de Ars Technica. “Con el rápido aumento de la agudeza visual y la capacidad de obtener un resultado utilizable, no hay duda de que va más allá de ser un truco o un juguete y es una herramienta legítima”.
Con la llegada de la síntesis de imágenes mediante IA, parece cada vez más probable que el futuro de la creación de medios llegue a través de la ayuda de máquinas creativas que puedan replicar cualquier estilo, formato o medio artístico. La realidad de los medios se está volviendo completamente fluida y maleable. Pero, ¿cómo se está volviendo más capaz la síntesis de imágenes mediante IA con tanta rapidez y qué podría significar eso para los artistas del futuro?
Usar IA para mejorarse a sí mismo
Nosotros primero cubierto DALL-E 3 tras su anuncio por parte de OpenAI a finales de septiembre y, desde entonces, lo hemos usado bastante. Para aquellos que recién lo sintonizan, DALL-E 3 es un modelo de IA (una red neuronal) que utiliza una técnica llamada difusión latente extraer imágenes que “reconoce” del ruido, progresivamente, basándose en indicaciones escritas proporcionadas por un usuario o, en este caso, por ChatGPT. Funciona utilizando la misma técnica subyacente que otros modelos destacados de síntesis de imágenes como Difusión estable y A mitad del viaje.
Escribe una descripción de lo que desea ver y DALL-E 3 lo crea.
ChatGPT y DALL-E 3 actualmente trabajan de la mano, haciendo de la generación de arte con IA una experiencia interactiva y conversacional. Le dices a ChatGPT (a través del GPT-4 modelo de lenguaje grande) lo que le gustaría que genere, escribe mensajes ideales para usted y los envía al backend de DALL-E. DALL-E devuelve las imágenes (generalmente dos a la vez) y usted las ve aparecer a través de la interfaz ChatGPT, ya sea a través de la web o mediante el Aplicación ChatGPT.
-
Una imagen generada por IA de un “Beet Bros.” ficticio. Juego de arcade, creado por DALL-E 3.
DALL-E 3 / Benj Edwards
-
Una imagen generada por IA de Abraham Lincoln sosteniendo un cartel que dice “Ars Technica”, creada por DALL-E 3.
DALL-E 3 / Benj Edwards
-
Una imagen de hojas de otoño generada por IA, creada por DALL-E 3.
DALL-E 3 / Benj Edwards
-
Una imagen generada por IA de una escena navideña pixelada creada por DALL-E 3.
DALL-E 3 / Benj Edwards
-
Una imagen generada por IA de un letrero de neón de una tienda creada por DALL-E 3.
DALL-E 3 / Benj Edwards
-
Una imagen generada por IA de un plato de pepinillos, creada por DALL-E 3.
DALL-E 3 / Benj Edwards
-
Una ilustración generada por IA de una imagen promocional de “The Cave BBS”, creada por DALL-E 3.
DALL-E 3 / Benj Edwards
Muchas veces, ChatGPT variará el medio artístico de los resultados, por lo que es posible que veas el mismo tema representado en una variedad de estilos, como fotografía, ilustración, renderizado, pintura al óleo o arte vectorial. También puede cambiar la relación de aspecto de la imagen generada desde el cuadrado predeterminado a “ancho” (16:9) o “alto” (9:16).
OpenAI no ha revelado el conjunto de datos utilizado para entrenar DALL-E 3, pero si los modelos anteriores son una indicación, es probable que OpenAI haya utilizado cientos de millones de imágenes encontradas en línea y con licencia de las bibliotecas de Shutterstock. Para aprender conceptos visuales, el proceso de entrenamiento de IA generalmente asocia palabras de descripciones de imágenes encontradas en línea (a través de subtítulos, etiquetas alt y metadatos) con las imágenes mismas. Luego codifica esa asociación en una forma vectorial multidimensional. Sin embargo, esos subtítulos extraídos (escritos por humanos) no siempre son detallados o precisos, lo que conduce a algunas asociaciones defectuosas que reducen la capacidad de un modelo de IA para seguir una indicación escrita.
Para solucionar ese problema, OpenAI decidió utilizar la IA para mejorarse. Como se detalla en el DALL-E 3 trabajo de investigaciónel equipo de OpenAI entrenó este nuevo modelo para superar a su predecesor mediante el uso de leyendas de imágenes sintéticas (escritas por IA) generadas por GPT-4V, la versión visual de GPT-4. Con GPT-4V escribiendo los subtítulos, el equipo generó descripciones mucho más precisas y detalladas para que el modelo DALL-E aprendiera durante el proceso de capacitación. Eso marcó una gran diferencia en términos de la fidelidad de la indicación de DALL-E: representar con precisión lo que está en la indicación escrita. (También funciona bastante bien con las manos).
-
Lo que generó el antiguo DALL-E 2 cuando activamos nuestro antiguo recurso, “un bárbaro musculoso con armas junto a un televisor CRT, cinematográfico, 8K, iluminación de estudio”. Esto se consideró una síntesis de imágenes de IA innovadora y de última generación en abril de 2022.
DALL-E 2 / Benj Edwards
-
Lo que generó el nuevo DALL-E 3 en octubre de 2023 cuando activamos nuestro antiguo recurso, “un bárbaro musculoso con armas junto a un televisor CRT, cinematográfico, 8K, iluminación de estudio”.
DALL-E 3 / Benj Edwards
2023-11-16 14:20:03
#juguete #herramienta #DALLE #una #llamada #atención #para #los #artistas #visuales #para #resto #nosotros,