Изображение: habr.com
Исследователи компании Epoch AI представили набор математических задач FrontierMath. Он включает в себя сотни задач, с которыми не справляются нейросети, а математики на их решение могут потратить несколько часов или даже дней. FrontierMath планируют использовать для оценки возможностей нейросетей и отслеживания прогресса их развития.
За разработку задач отвечали профессора, авторы Международной математической олимпиады и медалисты Филдсовской премии. Всего в этой работе были задействованы более 60 человек. Задачи охватывают несколько разделов математики, включая алгебраическую геометрию и вычислительную теорию чисел.
Пример задачи из набора FrontierMath
Исследователи выяснили, что популярные языковые модели не могут решить задачи из набора. Например, Claude 3.5 Sonnet, o1-preview, GPT-4o и Gemini 1.5 Pro смогли правильно решить только 2% задач от общего количества. В других математических тестах, например GSM-8K и MATH, эти же нейросети решают до 90% задач.
Команда проекта не будет публиковать все задачи из своего набора, чтобы не загрязнять обучающие данные. Тест планируют использовать для оценки возможностей нейросетей и для отслеживания прогресса их обучения.