Популярный IT-блогер Янник Килчер провел детальный разбор и интервью со Стефаном Дасколи, ведущим автором амбициозного исследования «Deep Symbolic Regression for Recurrent Sequences». Группа ученых представила нейросетевую модель на архитектуре Transformer, которая способна угадывать скрытые математические закономерности числовых последовательностей и представлять их в виде точных аналитических формул. Этот подход потенциально способен решить одну из главных проблем современного искусственного интеллекта — неспособность классического глубокого обучения к надежной экстраполяции данных за пределы обучающей выборки.
🧩 Суть метода: символьная регрессия против численных моделей 0:00
Традиционные подходы в машинном обучении опираются на численные (непрерывные) модели. Если обучить стандартную нейросеть на наборе точек, она может успешно интерполировать данные внутри известного диапазона, но при попытке выйти далеко за пределы обучающей выборки ее предсказания начинают хаотично деградировать. Модели глубокого обучения требуют колоссальных массивов данных, покрывающих все входное пространство, поскольку у них отсутствуют сильные индуктивные смещения (inductive biases).
Символьная регрессия (Deep Symbolic Regression) кардинально меняет этот паттерн. Вместо предсказания конкретных чисел модель пытается сгенерировать саму математическую формулу, которая описывает последовательность. По мнению авторов, если ИИ удается восстановить точную символьную формулу (например, синусоиду), система получает способность осуществлять безошибочную экстраполяцию на любую глубину.
В качестве интерактивного теста разработчики запустили онлайн-демоверсию, где любой пользователь может ввести произвольную рекуррентную последовательность. Система способна успешно распознать классическую последовательность Фибоначчи или функцию квадратов чисел, выводя искомую формулу в явном аналитическом виде и рассчитывая последующие элементы.
🏗️ Архитектура Transformer и необычное кодирование чисел 5:06
Исследователи сформулировали задачу поиска формул как классический перевод из одной последовательности в другую (sequence-to-sequence), задействовав стандартный стек архитектуры Transformer с механизмами self-attention и cross-attention. На вход энкодера подается фиксированная последовательность чисел, а декодер авторегрессионно генерирует математическую формулу токен за токеном. Чтобы избежать синтаксической двусмысленности, формулы кодируются в формате обратной польской нотации (RPN) для префиксного дерева. К примеру, выражение $\cos(3x)$ транслируется в последовательность операторов вида cos, mul, 3, x.
Наиболее парадоксальным решением инженеров стал отказ от передачи чисел в виде непрерывных величин. Все числа кодируются как дискретные независимые токены:
- Для целых чисел была выбрана система исчисления с гигантской базой 10 000. Каждое число от 0 до 9999 представляет собой уникальный токен.
- У модели нет изначального встроенного знания о том, что число 3 следует за двойкой, а 4 — за тройкой. Всю иерархию и порядок чисел ИИ вынужден учить с нуля в процессе оптимизации.
- Для вещественных чисел (float) используется связка из трех отдельных токенов: знак, мантисса (также дискретизированная в диапазоне от 0 до 10 000) и экспонента, варьирующаяся от -100 до 100.
Несмотря на кажущуюся хаотичность такого подхода, анализ обученной модели привел к удивительным результатам. Визуализация пространства эмбеддингов с помощью алгоритма t-SNE показала, что дискретные токены чисел самостоятельно выстроились в идеальное, гладкое непрерывное многообразие. Более того, вычисление косинусного сходства между векторами выявило четкие диагональные паттерны с шагом 6 и 12. Модель смогла самостоятельно уловить арифметические свойства чисел и общие делители. Как отмечает Янник Килчер, это перекликается с идеями математических сообществ, утверждающих, что двенадцатеричная система счисления является более естественной базой для логических вычислений, чем десятичная.
📊 Генерация данных и неявное правило Оккама 7:08
Поскольку математические формулы можно генерировать искусственно, авторы получили доступ к фактически бесконечному синтетическому датасету. Это избавило команду от проблемы переобучения (overfitting) и необходимости тонкой настройки регуляризации или гиперпараметров.
Процесс создания обучающей выборки выглядит следующим образом:
- Случайным образом задается количество математических операторов в выражении — от 1 до 10.
- На основе этого подмножества строится унарно-бинарное дерево. Узлы заполняются операторами (для целых чисел используются сложение, вычитание, деление нацело и модуль; для вещественных — тригонометрические функции, экспоненты и корни).
- Задается глубина рекурсии (параметр dmax равен 6). Модель имеет право смотреть назад максимум на 6 элементов последовательности, что эквивалентно марковскому условию. По словам Стефана Дасколи, этого достаточно, так как человек редко придумывает закономерности с большей глубиной памяти.
- Листья дерева с равной вероятностью в 33.3% заполняются либо случайной константой, либо текущим индексом шага $n$, либо одним из предыдущих значений последовательности $u_{n-k}$.
- Начальные члены последовательности генерируются случайным образом из равномерного распределения в диапазоне от -10 до 10.
При инференсе модель использует алгоритм луч-поиска (beam search). Он позволяет сгенерировать несколько альтернативных формул, ранжировать их по степени соответствия входным элементам и отсеять некорректные варианты. Примечательно, что разработчики сознательно не вводили в функцию потерь штрафы за длину формулы. Тем не менее модель демонстрирует неявное следование принципу бритвы Оккама: поскольку генератор данных по своей природе чаще создает короткие и простые деревья, нейросеть изначально смещена в сторону поиска наиболее лаконичных и простых математических решений.
🧪 Эксперименты, успехи и «катастрофические» ошибки 11:50
Модель тестировалась как на контролируемых синтетических данных (in-distribution), так и на реальных человеческих задачах из Онлайн-энциклопедии целочисленных последовательностей (OEIS). Во внутривыборочных тестах символьный метод безоговорочно разгромил стандартные численные архитектуры благодаря точной экстраполяции.
Однако при работе с реальной базой OEIS численные модели неожиданно оказались более эффективными, чем символьный подход. Объясняя этот феномен, Стефан Дасколи указал на специфику человеческого творчества. Огромное количество последовательностей в OEIS (даже с пометкой «простые») не имеют в своей основе строгой рекуррентной формулы — к ним относятся последовательности простых чисел, делителей или знаков после запятой в числе $\pi$. Кроме того, люди склонны использовать сложные условия типа if-else. Нейросеть способна обойти это ограничение с помощью математических хаков (например, через маскирование вида n mod 2), но такие конструкции слишком редко встречаются в обучении, чтобы модель могла стабильно их синтезировать.
В процессе анализа выявилось фундаментальное различие в поведении систем при сбоях:
«Мы сталкиваемся с двумя типами ошибок. Модель может слегка промахнуться в численных коэффициентах, но бывают и катастрофические сбои. Достаточно ошибиться всего в одном токене — например, перепутать косинус с экспонентой — и все последующие предсказания будут полностью разрушены», — подчеркнул Стефан Дасколи.
С другой стороны, символьная модель проявила поразительное, незадокументированное свойство — способность к автономной аппроксимации непрерывных констант. Не имея в своем фиксированном дискретном словаре числа 0.3333, ИИ научился налету конструировать его через комбинации доступных функций и коэффициентов. В одном из тестов, столкнувшись с числом 1.64493, нейросеть выдала формулу $\pi^2/6$. Потребовался полноценный исторический экскурс, чтобы вспомнить: выдающийся математик Леонард Эйлер в свое время потратил годы, чтобы доказать, что эта мистическая константа является суммой обратных квадратов. Теперь же ИИ выводит это соотношение самостоятельно, не имея явного математического движка под капотом.
Тесты также показали, что разработанный Transformer справляется с угадыванием рекуррентных правил эффективнее, чем специализированные коммерческие алгоритмы системы Wolfram Mathematica (такие функции, как findSequenceFunction и findLinearRecurrence).
🚀 История проекта и перспективы применения 17:37
Данная научная работа стала логическим продолжением многолетних изысканий Франсуа Шартона и Гийома Лампла, которые еще в 2019 году начали применять архитектуру Transformer для символьной математики, включая интеграцию функций и решение дифференциальных уравнений. Позже команда успешно обучила ИИ задачам линейной алгебры, таким как нахождение обратных матриц. Для текущего проекта авторы объединили усилия: Пьер-Александр Каменни привнес компетенции из сферы обучения с подкреплением (RL), а Стефан Дасколи обогатил проект бэкграундом в области теоретической физики.
По мнению Стефана Дасколи, синергия символьной регрессии и классических нейросетей способна перевернуть индустрию робототехники и систем управления. Сегодня беспилотники и роботы используют численные «модели мира» (world models), пытаясь предсказать физическое будущее покадрово или численно. Внедрение символьной регрессии позволит агентам оперировать фундаментальными законами природы:
«Если робот пытается понять окружающий мир, ему будет гораздо проще планировать свои действия, если он самостоятельно откроет и зафиксирует закон Ньютона, вместо того чтобы пытаться аппроксимировать движение объектов огромной и хрупкой визуальной нейросетью», — резюмировал исследователь.
Несмотря на выдающиеся результаты, проект потребовал огромных по академическим меркам вычислительных мощностей. Финальная крупноразмерная модель с размерностью эмбеддингов 512 обучалась непрерывно в течение трех недель на кластере из 16 мощных графических процессоров (GPU). За каждую эпоху обучения сеть обрабатывала массив из 5 миллионов уникальных случайных уравнений.