Se puede engañar a los modelos de IA de texto a imagen para que generen imágenes perturbadoras

Su trabajar, que presentarán en el Simposio IEEE sobre Seguridad y Privacidad en mayo del próximo año, arroja luz sobre lo fácil que es forzar a los modelos generativos de IA a ignorar sus propias barreras y políticas, lo que se conoce como “jailbreaking”. También demuestra lo difícil que es evitar que estos modelos generen dicho contenido, como está incluido en el vastos tesoros de datos han sido entrenados, dice Zico Kolter, profesor asociado de la Universidad Carnegie Mellon. Demostró una forma similar de jailbreak en ChatGPT a principios de este año, pero no participó en esta investigación.

“Tenemos que tener en cuenta los riesgos potenciales al lanzar software y herramientas que tienen fallas de seguridad conocidas en sistemas de software más grandes”, dice.

Todos los principales modelos de IA generativa tienen filtros de seguridad para evitar que los usuarios les soliciten que produzcan imágenes pornográficas, violentas o inapropiadas. Los modelos no generarán imágenes a partir de mensajes que contengan términos confidenciales como “desnudo”, “asesinato” o “sexy”.

Pero este nuevo método de jailbreak, denominado “SneakyPrompt” por sus creadores de la Universidad Johns Hopkins y la Universidad de Duke, utiliza el aprendizaje por refuerzo para crear indicaciones escritas que nos parecen tonterías confusas pero que los modelos de inteligencia artificial aprenden a reconocer como solicitudes ocultas de imágenes perturbadoras. Básicamente, funciona cambiando la forma en que funcionan los modelos de IA de texto a imagen en su contra.

Estos modelos convierten solicitudes basadas en texto en tokens (dividen palabras en cadenas de palabras o caracteres) para procesar el comando que les ha dado el mensaje. SneakyPrompt modifica repetidamente los tokens de un mensaje para intentar forzarlo a generar imágenes prohibidas, ajustando su enfoque hasta que tiene éxito. Esta técnica hace que sea más rápido y fácil generar este tipo de imágenes que si alguien tuviera que ingresar cada entrada manualmente, y puede generar entradas que los humanos no imaginarían intentar.

2023-11-17 11:37:04
#puede #engañar #los #modelos #texto #imagen #para #generen #imágenes #perturbadoras,

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.