La década de 2010 fue posiblemente la década más emocionante y trascendente en la historia de la inteligencia artificial. Aunque ciertamente ha habido mejoras conceptuales en los algoritmos utilizados en IA, el principal impulsor de todo este progreso ha sido simplemente la implementación de redes neuronales profundas más expansivas en hardware informático cada vez más rápido, donde pueden absorber cantidades cada vez mayores de datos de entrenamiento. Esta estrategia de “escalamiento” ha sido explícita desde la competencia ImageNet de 2012 que desencadenó la revolución del aprendizaje profundo. En noviembre de ese año, una portada New York Times Este artículo fue fundamental para dar a conocer la tecnología de aprendizaje profundo a la esfera pública más amplia. El artículo, escrito por el reportero John Markoff, finaliza con una cita de Geoff Hinton: “El punto de este enfoque es que se escala maravillosamente. Básicamente, solo necesitas seguir haciéndolo más grande y más rápido, y mejorará. No hay necesidad de mirar atras ahora.”
Sin embargo, hay cada vez más pruebas de que este motor principal de progreso está empezando a fallar. Según un análisis de la organización de investigación OpenAI, los recursos computacionales requeridos para proyectos de IA de vanguardia están “aumentando exponencialmente” y duplicándose cada 3,4 meses.
En diciembre de 2019 Cableado En una entrevista para la revista, Jerome Pesenti, vicepresidente de inteligencia artificial de Facebook, sugirió que incluso para una empresa con bolsillos tan profundos como los de Facebook, esto sería financieramente insostenible:
Cuando escala el aprendizaje profundo, tiende a comportarse mejor y a poder resolver una tarea más amplia de una mejor manera. Entonces, hay una ventaja para escalar. Pero es evidente que la tasa de progreso no es sostenible. Si observa los mejores experimentos, cada año el costo [is] subiendo 10 veces. En este momento, un experimento puede tener siete cifras, pero no va a llegar a nueve o diez cifras, no es posible, nadie puede permitírselo.
Pesenti continúa ofreciendo una severa advertencia sobre el potencial de escalamiento para continuar siendo el principal impulsor del progreso: “En algún momento vamos a chocar contra la pared. En muchos sentidos ya lo hemos hecho”. Más allá de los límites financieros de escalar a redes neuronales cada vez más grandes, también existen importantes consideraciones ambientales. Un análisis de 2019 realizado por investigadores de la Universidad de Massachusetts, Amherst, encontró que entrenar un sistema de aprendizaje profundo muy grande podría potencialmente emitir tanto dióxido de carbono como cinco automóviles durante su vida útil completa.
Incluso si los desafíos financieros y de impacto ambiental pueden superarse, tal vez mediante el desarrollo de hardware o software mucho más eficientes, la escala como estrategia simplemente puede no ser suficiente para producir un progreso sostenido. Las inversiones cada vez mayores en computación han producido sistemas con una competencia extraordinaria en dominios estrechos, pero cada vez está más claro que las redes neuronales profundas están sujetas a limitaciones de confiabilidad que pueden hacer que la tecnología no sea adecuada para muchas aplicaciones de misión crítica a menos que se logren avances conceptuales importantes. Una de las demostraciones más notables de las debilidades de la tecnología se produjo cuando un grupo de investigadores de Vicarious, una pequeña empresa centrada en la construcción de robots diestros, realizó un análisis de la red neuronal utilizada en el DQN de Deep-Mind, el sistema que había aprendido a dominar el vídeo de Atari. juegos. Se realizó una prueba en Fugarse, un juego en el que el jugador tiene que manipular una paleta para interceptar una bola que se mueve rápidamente. Cuando la paleta se movió unos pocos píxeles más arriba en la pantalla, un cambio que quizás ni siquiera un jugador humano notara, el rendimiento previamente sobrehumano del sistema se hundió de inmediato. El software de DeepMind no tenía la capacidad de adaptarse ni siquiera a esta pequeña alteración. La única forma de volver al rendimiento de nivel superior habría sido comenzar desde cero y volver a entrenar completamente el sistema con datos basados en la nueva configuración de pantalla.
Lo que esto nos dice es que, si bien las poderosas redes neuronales de DeepMind instancian una representación del Fugarse pantalla, esta representación permanece firmemente anclada a píxeles sin procesar incluso en los niveles más altos de abstracción en lo profundo de la red. Claramente, no existe una comprensión emergente de la paleta como un objeto real que se puede mover. En otras palabras, no hay nada parecido a una comprensión humana de los objetos materiales que representan los píxeles en la pantalla o la física que gobierna su movimiento. Son solo píxeles hasta el final. Si bien algunos investigadores de IA pueden seguir creyendo que eventualmente podría surgir una comprensión más completa si solo hubiera más capas de neuronas artificiales, ejecutándose en hardware más rápido y consumiendo aún más datos, creo que esto es muy poco probable. Se necesitarán más innovaciones fundamentales antes de que comencemos a ver máquinas con una concepción del mundo más parecida a la humana.
Este tipo general de problema, en el que un sistema de IA es inflexible e incapaz de adaptarse incluso a pequeños cambios inesperados en sus datos de entrada, se conoce, entre los investigadores, como “fragilidad”. Una aplicación de IA quebradiza puede no ser un gran problema si resulta en que un robot de almacén ocasionalmente empaque el artículo incorrecto en una caja. En otras aplicaciones, sin embargo, el mismo déficit técnico puede ser catastrófico. Esto explica, por ejemplo, por qué el progreso hacia automóviles autónomos totalmente autónomos no ha estado a la altura de algunas de las primeras predicciones más exuberantes.
A medida que estas limitaciones se enfocaron hacia el final de la década, hubo un temor mordaz de que el campo una vez más se hubiera pasado de los esquís y que el ciclo exagerado hubiera llevado las expectativas a niveles poco realistas. En los medios tecnológicos y en las redes sociales, reaparecía una de las frases más aterradoras en el campo de la inteligencia artificial, “invierno de IA”. En una entrevista de enero de 2020 con la BBC, Yoshua Bengio dijo que “las habilidades de la IA fueron un tanto exageradas … por ciertas empresas interesadas en hacerlo”.
Mi propia opinión es que si se avecina otro invierno de IA, es probable que sea leve. Aunque las preocupaciones sobre la desaceleración del progreso están bien fundadas, sigue siendo cierto que en los últimos años la IA se ha integrado profundamente en la infraestructura y los modelos comerciales de las empresas de tecnología más grandes. Estas empresas han obtenido importantes beneficios de sus inversiones masivas en recursos informáticos y talento de IA, y ahora consideran que la inteligencia artificial es absolutamente fundamental para su capacidad de competir en el mercado. Del mismo modo, casi todas las nuevas empresas tecnológicas ahora, hasta cierto punto, invierten en inteligencia artificial, y las empresas grandes y pequeñas de otras industrias están comenzando a implementar la tecnología. Esta integración exitosa en la esfera comercial es mucho más significativa que cualquier cosa que existiera en inviernos anteriores de IA y, como resultado, el campo se beneficia de un ejército de defensores en todo el mundo empresarial y tiene un impulso general que actuará para moderar cualquier recesión.
También hay un sentido en el que la caída de la escalabilidad como principal impulsor del progreso puede tener un lado positivo. Cuando existe la creencia generalizada de que el simple hecho de dedicar más recursos informáticos a un problema producirá avances importantes, existe un incentivo significativamente menor para invertir en el trabajo mucho más difícil de la verdadera innovación. Este fue posiblemente el caso, por ejemplo, de la Ley de Moore. Cuando había una confianza casi absoluta en que las velocidades de las computadoras se duplicarían aproximadamente cada dos años, la industria de los semiconductores tendía a concentrarse en producir versiones cada vez más rápidas de los mismos diseños de microprocesadores de compañías como Intel y Motorola. En los últimos años, la aceleración en las velocidades brutas de las computadoras se ha vuelto menos confiable, y nuestra definición tradicional de la Ley de Moore se acerca a su fin a medida que las dimensiones de los circuitos impresos en los chips se reducen a un tamaño casi atómico. Esto ha obligado a los ingenieros a pensar más “fuera de la caja”, lo que ha resultado en innovaciones como software diseñado para computación paralela masiva y arquitecturas de chips completamente nuevas, muchas de las cuales están optimizadas para los cálculos complejos que requieren las redes neuronales profundas. Creo que podemos esperar que ocurra el mismo tipo de explosión de ideas en el aprendizaje profundo y la inteligencia artificial en general, ya que la muleta de simplemente escalar a redes neuronales más grandes se convierte en un camino menos viable para el progreso.
Extraído de “La regla de los robots: cómo la inteligencia artificial lo transformará todo”. Copyright 2021 Basic Books. Disponible en Basic Books, una impresión de Hachette Book Group, Inc.
.