5 reglas para gestionar las consecuencias no deseadas de la IA

Las empresas de redes sociales afirman que solo están tratando de construir comunidades y conectar el mundo y que necesitan ingresos publicitarios para seguir siendo gratuitos. Pero nada es realmente gratis. Para ellos, más vistas significan más dinero y, por lo tanto, han optimizado sus algoritmos para maximizar el compromiso. Las vistas son la “función de recompensa” de los algoritmos: cuantas más vistas puedan atraer los algoritmos a la plataforma, mejor. Cuando un algoritmo promueve una publicación determinada y ve un aumento de las visitas, duplicará la estrategia, cronometrando, apuntando y empujando selectivamente las publicaciones de maneras que ha descubierto que estimularán un mayor intercambio, un proceso llamado aprendizaje por refuerzo.

No hace falta ser un experto en inteligencia artificial para ver a dónde lleva esto: las publicaciones provocativas que evocan emociones fuertes obtendrán más visitas y, por lo tanto, el algoritmo las favorecerá, lo que generará ingresos cada vez mayores para la plataforma. Pero las plataformas sociales no son las únicas que utilizan la inteligencia artificial de aprendizaje por refuerzo. A medida que las empresas lo adoptan, los líderes deben considerar los problemas de las empresas de redes sociales para comprender cómo puede conducir a consecuencias no deseadas y tratar de evitar cometer errores predecibles.

Agentes de aprendizaje por refuerzo

Para comprender el ciclo de causa y efecto que vemos en las plataformas sociales, es útil saber un poco más sobre cómo funciona el algoritmo. Este tipo de algoritmo se llama agente de aprendizaje por refuerzo (RL) y si bien las actividades de estos agentes son quizás más visibles en las redes sociales, se están volviendo cada vez más comunes en las empresas.

A diferencia de los algoritmos que siguen un conjunto rígido de instrucciones si / entonces, los agentes de RL están programados para buscar una recompensa específica tomando acciones definidas durante un “estado” dado. En este caso, la recompensa son las vistas: cuantas más, mejor. Las acciones permitidas del agente pueden incluir a quién dirigirse y la frecuencia de las promociones. El estado del algoritmo puede ser la hora del día. Combinados, la recompensa del agente, los estados en los que opera y su conjunto de “acciones” permitidas se denominan sus “políticas”.

Las políticas definen ampliamente cómo un agente de RL puede comportarse en diferentes circunstancias, proporcionando una especie de barrera. El agente es libre de experimentar dentro de los límites de sus políticas para ver qué combinaciones de acciones y estados (pares de estado-acción) son más efectivas para maximizar la recompensa. A medida que aprende qué funciona mejor, persigue esa estrategia óptima y abandona los enfoques que encontró menos efectivos. A través de un proceso iterativo de prueba y error, el agente mejora cada vez más a la hora de maximizar su recompensa. Si este proceso te suena familiar, es porque se basa en cómo funciona nuestro propio cerebro; Los patrones de comportamiento que van desde hábitos hasta adicciones se refuerzan cuando el cerebro recompensa las acciones (como comer) realizadas durante estados determinados (por ejemplo, cuando tenemos hambre) con la liberación del neurotransmisor dopamina u otros estímulos.

Comprender cómo los agentes de RL persiguen sus objetivos aclara cómo se pueden modificar para evitar daños. Si bien es difícil cambiar el comportamiento de los humanos en el sistema humano-IA, es una cuestión más simple cambiar las políticas de los agentes de RL, las acciones que puede tomar para perseguir su propia recompensa. Esto tiene implicaciones importantes para las redes sociales, claramente, pero el punto es ampliamente aplicable en cualquiera de un número creciente de situaciones comerciales en las que los agentes de RL interactúan con las personas.

Reglas de liderazgo

Independientemente de lo que piense del liderazgo de Facebook y Twitter, seguramente no se propusieron crear una estrategia para sembrar discordia y polarizar a la gente. Pero sí instruyeron a los gerentes para maximizar el crecimiento y los ingresos de las plataformas, y los agentes de RL que idearon para hacer precisamente eso tuvieron un éxito brillante, con consecuencias alarmantes.

El armamentismo de las plataformas de redes sociales es un ejemplo extremo de lo que puede suceder cuando las políticas de los agentes de RL no se conciben, controlan o restringen adecuadamente. Pero estos agentes también tienen aplicaciones en servicios financieros, atención médica, marketing, juegos, automatización y otros campos donde su búsqueda resuelta de recompensas podría promover comportamientos humanos inesperados e indeseables. Las IA no se preocupan por esto, pero los humanos que las crean y las operan deben hacerlo.

A continuación se presentan cinco reglas que los líderes deben cumplir al integrar agentes de RL en la ejecución de su estrategia. Para ilustrar cómo un agente de servicios financieros puede empeorar el comportamiento humano y cómo, con un ajuste adecuado, esto puede ayudar a evitar ese problema, lo ilustraré con un caso de mi propia empresa.

1. Suponga que su agente de RL afectará el comportamiento de formas imprevistas.

Mi empresa creó un agente para acelerar el aseguramiento de la calidad de las transacciones contables marcando las anomalías (errores potenciales) que el algoritmo calificó como de alto riesgo y colocándolas primero en la cola para que las evaluara un analista. Al reducir drásticamente el número total de anomalías que los analistas necesitaban revisar, el algoritmo redujo sustancialmente el tiempo de revisión general como esperábamos. Pero nos sorprendió ver tiempos de revisión sospechosamente rápidos incluso para las anomalías más complejas. Esto debería haber llevado a los analistas más tiempo, no menos.

2. Evaluar sistemáticamente las desviaciones de lo esperado.

Hasta la fecha, pocas empresas evalúan metódicamente cómo sus agentes de RL influyen en el comportamiento de las personas. Comience preguntando regularmente a sus científicos de datos sobre los cambios de comportamiento que pueden estar asociados con las actividades de los agentes. Si ve una desviación de lo esperado, profundice. En nuestro caso, el hecho de que los analistas pasaran por alto las anomalías más riesgosas fue una señal de alerta de que el algoritmo estaba provocando un efecto dominó inesperado. Sabíamos que teníamos un problema.

3. Entreviste a los usuarios, clientes u otras personas sobre sus respuestas a los resultados de los agentes de RL.

Si bien es posible que quienes se encuentran en el extremo receptor de las acciones de un agente de RL no sepan que están siendo influenciados por una IA, aún puede evaluar su respuesta. Debido a que estábamos preocupados por las revisiones demasiado rápidas de nuestro analista contable, hablamos con ellos sobre su respuesta a las anomalías de compilación del algoritmo para que las evaluaran. Resultó que asumieron erróneamente que el agente estaba haciendo más garantía de calidad en estas anomalías de lo que estaba; confiaban demasiado en la “experiencia” del agente y, por lo tanto, pagaban menos atención en su propia investigación de la anomalía. (Dicho sea de paso, tal dependencia excesiva de la IA es una de las razones por las que las personas chocan los coches “autónomos”; asumen que la IA es más capaz de lo que es y entregan demasiado control, un efecto secundario peligroso).

4. Si un agente está promoviendo comportamientos indeseables, modifique sus políticas.

Para optimizar la búsqueda de recompensas por parte de los agentes, la mayoría de los equipos de inteligencia artificial ajustan constantemente las políticas de los agentes, generalmente modificando pares de acción de estado, por ejemplo, el tiempo en un ciclo de facturación (el estado) en el que un agente enviará una solicitud de pago (la acción ). En nuestro ejemplo contable, hicimos varios cambios en las políticas, incluida la redefinición del estado para incluir el tiempo que los analistas dedican a cada anomalía y agregar acciones que desafían las conclusiones de un analista si se llegaban demasiado rápido y elevaban las anomalías seleccionadas a un supervisor. Estos cambios de política redujeron sustancialmente el número de anomalías graves que los analistas descartaron como falsos positivos.

5. Si persisten los comportamientos indeseables, cambie la función de recompensa.

Ajustar los pares estado-acción de un agente a menudo puede frenar los comportamientos indeseables, pero no siempre. El gran garrote de que disponen los líderes cuando fallan otras intervenciones es cambiar el objetivo del agente. En general, ni siquiera se considera cambiar una función de recompensa porque se presume que es sacrosanto. Pero cuando el objetivo del agente es promover un comportamiento dañino y ajustar los estados o acciones disponibles para el agente no puede solucionar el problema, es hora de examinar la recompensa en sí.

***

Darle a un agente de inteligencia artificial el objetivo de maximizar las opiniones por cualquier medio necesario, incluida la explotación de las vulnerabilidades psicológicas humanas, es peligroso y poco ético. En el caso de las plataformas sociales, quizás haya una manera de ajustar los pares de acción-estado de los agentes para reducir este daño. De lo contrario, corresponde a las plataformas hacer lo correcto: evitar que sus agentes persigan opiniones de manera destructiva a cualquier costo. Eso significa cambiar la recompensa que están programados para perseguir, incluso si requiere modificar el modelo comercial.

Si bien eso puede parecer una idea radical en el caso de las redes sociales, definitivamente está en el aire: luego de la decisión de la Junta de Supervisión de Facebook de mantener la prohibición de la compañía al ex presidente Trump por violar sus reglas contra la provocación de violencia, Frank Pallone, presidente de el Comité de Energía y Comercio de la Cámara de Representantes, culpó directamente de los eventos recientes al modelo de negocio de las redes sociales, tuiteando: “Donald Trump ha jugado un papel importante en ayudar a Facebook a difundir la desinformación, pero ya sea que esté en la plataforma o no, Facebook y otras plataformas de medios sociales con el mismo modelo de negocio encontrarán formas de resaltar el contenido divisivo para impulsar los ingresos publicitarios”. La propia Junta de Supervisión destacó el modelo de negocio de Facebook al aconsejar a la empresa que “lleve a cabo una revisión exhaustiva de [its] Contribución potencial a la narrativa del fraude electoral y las tensiones exacerbadas que culminaron en la violencia en los Estados Unidos el 6 de enero. Esto debería ser una reflexión abierta sobre el diseño y las decisiones políticas que Facebook ha tomado para permitir que se abuse de su plataforma “.

Irónicamente, un efecto positivo de las redes sociales es que han sido un canal importante para elevar la conciencia de las personas sobre la ética y el comportamiento corporativos, incluida la propia plataforma. Ahora es común que las empresas y otras organizaciones sean denunciadas por los resultados destructivos o injustos de perseguir sus objetivos principales, ya sean emisiones de carbono, violencia con armas de fuego, adicción a la nicotina o comportamiento extremista. Y las empresas en general están respondiendo, aunque todavía tienen un largo camino por recorrer. Dado que los agentes de RL y otros tipos de IA tienen cada vez más la tarea de promover los objetivos corporativos, es imperativo que los líderes sepan qué está haciendo su IA y, cuando está causando daño a la empresa o la sociedad en general, hacer lo correcto y solucionarlo. .

5 reglas para gestionar las consecuencias no deseadas de la IA

Agentes de aprendizaje por refuerzo

Reglas de liderazgo

1. Suponga que su agente de RL afectará el comportamiento de formas imprevistas.

2. Evaluar sistemáticamente las desviaciones de lo esperado.

3. Entreviste a los usuarios, clientes u otras personas sobre sus respuestas a los resultados de los agentes de RL.

4. Si un agente está promoviendo comportamientos indeseables, modifique sus políticas.

5. Si persisten los comportamientos indeseables, cambie la función de recompensa.

Share this:

Nuestros mejores consejos para los asistentes al festival

Juez ordena una evaluación mental de ‘QAnon Shaman’ después de que un abogado insultara a los acusados ​​de ‘autobús corto’

You may also like

Leave a Comment Cancel Reply

Juez ordena una evaluación mental de ‘QAnon Shaman’ después de que un abogado insultara a los acusados de ‘autobús corto’