By: Kyle Wiggers

Crédito de la imagen: 
Pixabay

Las matemáticas son la base de innumerables ciencias, lo que nos permite modelar cosas como órbitas planetarias, movimiento atómico, frecuencias de señal, plegamiento de proteínas y más. Además, es un valioso banco de pruebas para la capacidad de resolución de problemas, porque requiere que los solucionadores de problemas analicen un desafío, seleccionen buenos métodos y los encadenen para producir una respuesta.

Es revelador, entonces, que a pesar de lo sofisticados que son los modelos de aprendizaje automático en la actualidad, incluso los modelos más avanzados luchan por responder correctamente la mayor parte de los problemas matemáticos. Un nuevo estudio publicado por investigadores de la Universidad de California, Berkeley, encuentra que los modelos de lenguaje grandes, incluido el GPT-3 de OpenAI, solo pueden completar entre un 2.9% y un 6.9% de los problemas de un conjunto de datos de más de 12.500. Los coautores creen que es probable que se necesiten nuevos avances algorítmicos para dar a los modelos habilidades más sólidas para la resolución de problemas.

Investigaciones anteriores han demostrado la utilidad de la IA que tiene una sólida comprensión de los conceptos matemáticos. Por ejemplo, OpenAI presentó recientemente GPT-f, un asistente de prueba y prueba automatizado para el lenguaje de formalización Metamath. GPT-f encontró nuevas pruebas cortas que han sido aceptadas en la biblioteca principal de Metamath, la primera vez que un sistema basado en aprendizaje automático contribuyó con pruebas que fueron adoptadas por una comunidad matemática formal. Por su parte, Facebook también afirma haber experimentado con éxito con algoritmos de inteligencia artificial de resolución matemática. En una publicación de blog en enero pasado, los investigadores de la compañía dijeron que habían enseñado un modelo para ver ecuaciones matemáticas complejas “como una especie de lenguaje y luego [tratar] las soluciones como un problema de traducción”.

“Si bien la mayoría de las otras tareas basadas en texto ya casi se resuelven con enormes modelos de lenguaje, las matemáticas son notablemente diferentes. Demostramos que la precisión está aumentando lentamente y, si las tendencias continúan, la comunidad necesitará descubrir avances conceptuales y algorítmicos para lograr un desempeño sólido en matemáticas ”, escribieron los coautores. “Dado el amplio alcance y la aplicabilidad de las matemáticas, resolver conjuntos de datos matemáticos con el aprendizaje automático sería de gran importancia práctica e intelectual”.

Para medir la capacidad de resolución de problemas de modelos de lenguaje grandes y de propósito general, los investigadores crearon un conjunto de datos llamado MATH, que consta de 12,500 problemas tomados de competencias de matemáticas de la escuela secundaria. Ante un problema de MATH, los modelos de lenguaje deben generar una secuencia que revele la respuesta final.

rriba: una comparación de un problema de conjunto de datos MATH con problemas del conjunto de datos matemáticos de DeepMind y un módulo de Metamath.

Los problemas de MATEMÁTICAS están etiquetados por dificultad del 1 al 5 y abarcan siete materias, que incluyen geometría, álgebra, cálculo, estadística, álgebra lineal y teoría de números. También vienen con soluciones paso a paso para que los modelos de lenguaje puedan aprender a responder nuevas preguntas que no habían visto antes.

Los modelos de entrenamiento sobre los fundamentos de las matemáticas requirieron que los investigadores crearan un conjunto de datos separado con cientos de miles de soluciones a problemas matemáticos comunes. Este segundo conjunto de datos, Auxiliary Mathematics Problems and Solutions (AMPS), comprende más de 100,000 problemas de Khan Academy con soluciones y más de 5 millones de problemas generados usando scripts de Mathematica basados ​​en 100 módulos diseñados a mano. En total, AMPS contiene 23 GB de contenido.

Como explican los investigadores, las soluciones paso a paso en los conjuntos de datos permiten que los modelos de lenguaje utilicen un “espacio temporal” muy parecido a lo que haría un matemático humano. En lugar de tener que llegar a la respuesta correcta de inmediato, los modelos pueden primero “mostrar su trabajo” en soluciones parciales que avanzan hacia la respuesta correcta.

Incluso con las soluciones, los coautores encontraron que la precisión seguía siendo baja para los modelos de lenguaje grande que evaluaron: GPT-3 y GPT-2 , el predecesor de GPT-3. Hacer que los modelos generaran sus propias soluciones antes de producir una respuesta en realidad degradó la precisión porque, si bien muchos de los pasos estaban relacionados con la pregunta, eran ilógicos. Además, el simple hecho de aumentar la cantidad de tiempo de entrenamiento y el número de parámetros en los modelos, lo que a veces mejora el rendimiento, resultó ser poco práctico y costoso. (En el aprendizaje automático, los parámetros son variables cuyos valores controlan el proceso de aprendizaje).

Siendo este el caso, los investigadores demostraron que las soluciones paso a paso aún brindan beneficios en forma de rendimiento mejorado. En particular, proporcionar modelos con soluciones en el momento del entrenamiento aumentó la precisión sustancialmente, y el entrenamiento previo en AMPS aumentó la precisión en aproximadamente un 25%, lo que equivale a un aumento de 15 veces en el tamaño del modelo.

“A pesar de estas bajas precisiones, los modelos claramente poseen algunos conocimientos matemáticos: alcanzan hasta un 15% de precisión en el nivel de dificultad más fácil y son capaces de generar soluciones paso a paso que son coherentes y están relacionadas con el tema incluso cuando son incorrectas”. escribieron los coautores. “Hacer que los modelos se entrenen en soluciones aumenta la precisión relativa en un 10% en comparación con la capacitación en las preguntas y respuestas directamente”.

Los investigadores han lanzado MATH y AMPS en código abierto para, junto con los conjuntos de datos matemáticos existentes como el de DeepMind , impulsar más investigaciones en esta dirección.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí