By: Ben Dickson

Cuando observa a un jugador de béisbol que golpea la pelota, puede hacer inferencias sobre las relaciones causales entre diferentes elementos. Por ejemplo, puede ver el bate y el brazo del jugador de béisbol moviéndose al unísono, pero también sabe que es el brazo del jugador el que causa el movimiento del bate y no al revés. Tampoco es necesario que le digan que el bate está causando el cambio repentino en la dirección de la pelota.

Del mismo modo, puede pensar en contrafactuales, como lo que sucedería si la pelota volara un poco más alto y no golpeara el bate.

Tales inferencias nos llegan a los humanos de forma intuitiva. Los aprendemos a una edad muy temprana, sin que nadie nos instruya explícitamente y simplemente observando el mundo. Pero para los algoritmos de aprendizaje automático , que han logrado superar a los humanos en tareas complicadas como el Go y el ajedrez, la causalidad sigue siendo un desafío. Los algoritmos de aprendizaje automático, especialmente las redes neuronales profundas , son especialmente buenos para descubrir patrones sutiles en grandes conjuntos de datos. Pueden transcribir audio en tiempo real, etiquetar miles de imágenes y fotogramas de vídeo por segundo y examinar las radiografías y las resonancias magnéticas en busca de patrones cancerosos. Pero luchan por hacer inferencias causales simples como las que acabamos de ver en el ejemplo de béisbol anterior.

En un artículo titulado “Hacia el aprendizaje de la representación causal”, los investigadores del Instituto Max Planck de Sistemas Inteligentes, el Instituto de Algoritmos de Aprendizaje de Montreal (Mila) y Google Research discuten los desafíos que surgen de la falta de representaciones causales en los modelos de aprendizaje automático y proporcionan instrucciones para crear sistemas de inteligencia artificial que puedan aprender representaciones causales.

Este es uno de los varios esfuerzos que tienen como objetivo explorar y resolver la falta de causalidad del aprendizaje automático, que puede ser clave para superar algunos de los principales desafíos que enfrenta el campo en la actualidad.

Datos independientes e idénticamente distribuidos

¿Por qué los modelos de aprendizaje automático fallan al generalizar más allá de sus dominios estrechos y datos de entrenamiento?

“El aprendizaje automático a menudo ignora la información que los animales utilizan en gran medida: intervenciones en el mundo, cambios de dominio, estructura temporal; en general, consideramos estos factores como una molestia y tratamos de eliminarlos”, escriben los autores del artículo de aprendizaje de representación causal. “De acuerdo con esto, la mayoría de los éxitos actuales del aprendizaje automático se reducen al reconocimiento de patrones a gran escala en datos independientes e idénticamente distribuidos (iid) recopilados adecuadamente”.

Un término común de aprendizaje automático, “iid”, supone que las observaciones aleatorias en un espacio de problemas no dependen unas de otras y tienen una probabilidad constante de ocurrir. El ejemplo más simple de iid es lanzar una moneda o un dado. El resultado de cada nuevo lanzamiento o lanzamiento es independiente de los anteriores, y la probabilidad de cada resultado permanece constante.

Cuando se trata de áreas más complicadas, como la visión por computadora, los ingenieros de aprendizaje automático intentan convertir el problema en un dominio iid entrenando el modelo en corpus de ejemplos muy grandes. El supuesto es que con suficientes ejemplos el modelo de aprendizaje automático podrá codificar la distribución general del problema en sus parámetros. Pero en el mundo real, las distribuciones a menudo cambian debido a factores que no se pueden considerar ni controlar en los datos de entrenamiento. Por ejemplo, las redes neuronales convolucionales entrenadas en millones de imágenes pueden fallar cuando ven objetos bajo nuevas condiciones de iluminación o desde ángulos ligeramente diferentes o contra nuevos fondos.

Arriba: Objetos en conjuntos de datos de entrenamiento frente a objetos en el mundo real (fuente: objectnet.dev)
Crédito de la imagen: TechTalks

Los esfuerzos para abordar estos problemas incluyen principalmente el entrenamiento de modelos de aprendizaje automático en más ejemplos. Pero a medida que el entorno crece en complejidad, se vuelve imposible cubrir toda la distribución agregando más ejemplos de capacitación. Esto es especialmente cierto en los dominios en los que los agentes de IA deben interactuar con el mundo, como la robótica y los coches autónomos. La falta de comprensión causal hace que sea muy difícil hacer predicciones y lidiar con situaciones novedosas. Es por eso que ves que los autos autónomos cometen errores extraños y peligrosos incluso después de haber entrenado durante millones de millas.

“Generalizar bien fuera del entorno iid requiere aprender no meras asociaciones estadísticas entre variables, sino un modelo causal subyacente”, escriben los investigadores de AI.

Los modelos causales también permiten a los humanos reutilizar el conocimiento adquirido previamente para nuevos dominios. Por ejemplo, cuando aprende un juego de estrategia en tiempo real como Warcraft, puede aplicar rápidamente sus conocimientos a otros juegos similares StarCraft y Age of Empires. Sin embargo, el aprendizaje de transferencia en algoritmos de aprendizaje automático se limita a usos muy superficiales, como el ajuste fino de un clasificador de imágenes para detectar nuevos tipos de objetos. En tareas más complejas, como aprender videojuegos, los modelos de aprendizaje automático necesitan una gran cantidad de entrenamiento (miles de años de juego) y responden mal a cambios menores en el entorno (p. Ej., Jugar en un mapa nuevo o con un ligero cambio a las reglas).

“Al aprender un modelo causal, uno debería requerir menos ejemplos para adaptarse, ya que la mayoría del conocimiento, es decir, los módulos, se pueden reutilizar sin más capacitación”, escriben los autores del artículo sobre aprendizaje automático causal.

Aprendizaje causal

Entonces, ¿por qué el iid sigue siendo la forma dominante de aprendizaje automático a pesar de sus debilidades conocidas? Los enfoques puramente basados ​​en la observación son escalables. Puede continuar logrando ganancias incrementales en la precisión agregando más datos de entrenamiento, y puede acelerar el proceso de entrenamiento agregando más potencia de cómputo. De hecho, uno de los factores clave detrás del éxito reciente del aprendizaje profundo es la disponibilidad de más datos y procesadores más fuertes .

Además, los modelos basados ​​en iid son fáciles de evaluar. Tome un conjunto de datos grande, divídalo en conjuntos de entrenamiento y de prueba, ajuste el modelo en los datos de entrenamiento y valide su rendimiento midiendo la precisión de sus predicciones en el conjunto de prueba. Continúe el entrenamiento hasta que alcance la precisión que necesita. Ya existen muchos conjuntos de datos públicos que proporcionan dichos puntos de referencia, como ImageNet, CIFAR-10 y MNIST. También hay conjuntos de datos de tareas específicas, como el conjunto de datos COVIDx para el diagnóstico de COVID-19 y el conjunto de datos de diagnóstico de cáncer de mama de Wisconsin. En todos los casos, el desafío es el mismo: desarrollar un modelo de aprendizaje automático que pueda predecir resultados en función de regularidades estadísticas.

Pero como observan los investigadores de IA en su artículo, las predicciones precisas a menudo no son suficientes para informar la toma de decisiones. Por ejemplo, durante la pandemia de coronavirus, muchos sistemas de aprendizaje automático comenzaron a fallar porque habían sido entrenados en regularidades estadísticas en lugar de relaciones causales. A medida que cambiaban los patrones de vida, la precisión de los modelos disminuía.

Los modelos causales siguen siendo robustos cuando las intervenciones cambian las distribuciones estadísticas de un problema. Por ejemplo, cuando ve un objeto por primera vez, su mente subconscientemente tomará en cuenta la iluminación de su apariencia. Por eso, en general, puede reconocer el objeto cuando lo ve bajo nuevas condiciones de iluminación.

Los modelos causales también nos permiten responder a situaciones que no hemos visto antes y pensar en contrafactuales. No necesitamos conducir un automóvil por un acantilado para saber qué sucederá. Los contrafactuales juegan un papel importante en la reducción de la cantidad de ejemplos de entrenamiento que necesita un modelo de aprendizaje automático.

La causalidad también puede ser crucial para lidiar con los ataques adversarios, manipulaciones sutiles que obligan a los sistemas de aprendizaje automático a fallar de maneras inesperadas. “Estos ataques constituyen claramente violaciones de la suposición de iid que subyace en el aprendizaje automático estadístico”, escriben los autores del artículo, y agregan que las vulnerabilidades adversas son una prueba de las diferencias en los mecanismos de robustez de la inteligencia humana y los algoritmos de aprendizaje automático. Los investigadores también sugieren que la causalidad puede ser una posible defensa contra los ataques adversarios.

Arriba: Los ataques adversarios apuntan a la sensibilidad del aprendizaje automático al iid En esta imagen, agregar una capa imperceptible de ruido a esta imagen de panda hace que una red neuronal convolucional la confunda con un gibón.
Crédito de la imagen: TechTalks

En un sentido amplio, la causalidad puede abordar la falta de generalización del aprendizaje automático. “Es justo decir que gran parte de la práctica actual (de resolver problemas de referencia de iid) y la mayoría de los resultados teóricos (sobre generalización en entornos de iid) no logran abordar el difícil desafío abierto de la generalización a través de problemas”, escriben los investigadores.

Agregar causalidad al aprendizaje automático

En su artículo, los investigadores de IA reúnen varios conceptos y principios que pueden ser esenciales para crear modelos de aprendizaje automático causales.

Dos de estos conceptos incluyen “modelos causales estructurales” y “mecanismos causales independientes”. En general, los principios establecen que en lugar de buscar correlaciones estadísticas superficiales, un sistema de IA debería poder identificar variables causales y separar sus efectos sobre el medio ambiente.

Este es el mecanismo que le permite detectar diferentes objetos independientemente del ángulo de visión, el fondo, la iluminación y otros ruidos. Desenredar estas variables causales hará que los sistemas de IA sean más robustos frente a cambios e intervenciones impredecibles. Como resultado, los modelos de IA causales no necesitarán grandes conjuntos de datos de entrenamiento.

“Una vez que un modelo causal está disponible, ya sea por conocimiento humano externo o por un proceso de aprendizaje, el razonamiento causal le permite sacar conclusiones sobre el efecto de las intervenciones, contrafactuales y resultados potenciales”, escriben los autores del artículo sobre aprendizaje automático causal.

Los autores también exploran cómo estos conceptos se pueden aplicar a diferentes ramas del aprendizaje automático, incluido el aprendizaje por refuerzo, que es crucial para problemas en los que un agente inteligente depende en gran medida de la exploración de entornos y el descubrimiento de soluciones a través de prueba y error. Las estructuras causales pueden ayudar a que el entrenamiento del aprendizaje por refuerzo sea más eficiente al permitir que los agentes tomen decisiones informadas desde el inicio de su entrenamiento en lugar de tomar acciones aleatorias e irracionales.

Los investigadores aportan ideas para sistemas de IA que combinan mecanismos de aprendizaje automático y modelos causales estructurales: “Para combinar el modelado causal estructural y el aprendizaje de representación, debemos esforzarnos por integrar un SCM en modelos de aprendizaje automático más grandes cuyas entradas y salidas pueden ser de alta dimensión y no estructuradas , pero cuyo funcionamiento interno está gobernado, al menos en parte, por un SCM (que puede parametrizarse con una red neuronal). El resultado puede ser una arquitectura modular, donde los diferentes módulos se pueden ajustar y reutilizar individualmente para nuevas tareas “.

Tales conceptos nos acercan al enfoque modular que usa la mente humana (al menos hasta donde sabemos) para vincular y reutilizar conocimientos y habilidades en diferentes dominios y áreas del cerebro.

Vale la pena señalar, sin embargo, que las ideas presentadas en el documento están a nivel conceptual. Como reconocen los autores, la implementación de estos conceptos requiere enfrentar varios desafíos: “(a) en muchos casos, necesitamos inferir variables causales abstractas a partir de las características de entrada de bajo nivel disponibles; (b) no hay consenso sobre qué aspectos de los datos revelan relaciones causales; (c) el protocolo experimental habitual de entrenamiento y conjunto de pruebas puede no ser suficiente para inferir y evaluar relaciones causales en conjuntos de datos existentes, y es posible que necesitemos crear nuevos puntos de referencia, por ejemplo, con acceso a información e intervenciones ambientales; (d) incluso en los casos limitados que entendemos, a menudo carecemos de algoritmos escalables y numéricamente sólidos “.

Pero lo interesante es que los investigadores se inspiran en gran parte del trabajo paralelo que se realiza en el campo. El artículo contiene referencias al trabajo realizado por Judea Pearl, un científico ganador del Premio Turing mejor conocido por su trabajo sobre la inferencia causal. Pearl es un crítico vocal de los métodos puros de aprendizaje profundo. Mientras tanto, Yoshua Bengio, uno de los coautores del artículo y otro ganador del premio Turing, es uno de los pioneros del aprendizaje profundo.

El artículo también contiene varias ideas que se superponen con la idea de modelos híbridos de IA propuestos por Gary Marcus que combinan el poder de razonamiento de los sistemas simbólicos con el poder de reconocimiento de patrones de las redes neuronales. Sin embargo, el documento no hace ninguna referencia directa a los sistemas híbridos.

El documento también está en línea con el aprendizaje profundo del sistema 2, un concepto propuesto por primera vez por Bengio en una charla en la conferencia de inteligencia artificial NeurIPS 2019. La idea detrás del aprendizaje profundo del sistema 2 es crear un tipo de arquitectura de red neuronal que pueda aprender representaciones superiores a partir de los datos. Las representaciones superiores son cruciales para la causalidad, el razonamiento y el aprendizaje por transferencia.

Si bien no está claro cuál de los diversos enfoques propuestos ayudará a resolver el problema de causalidad del aprendizaje automático, el hecho de que las ideas de diferentes escuelas de pensamiento, y a menudo en conflicto, se unan garantiza resultados interesantes.

“En esencia, el reconocimiento de patrones iid no es más que una abstracción matemática, y la causalidad puede ser esencial para la mayoría de las formas de aprendizaje animado”, escriben los autores. “Hasta ahora, el aprendizaje automático ha descuidado una integración completa de la causalidad, y este documento argumenta que de hecho se beneficiaría de la integración de conceptos causales”.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí