Стефан Дасколи: «Символьная регрессия откроет роботам законы физики»

Yannic Kilcher 20,3 тыс. 1 ч 11 мин 6 мин 29.01.2022
Главное

Популярный IT-блогер Янник Килчер провел детальный разбор и интервью со Стефаном Дасколи, ведущим автором амбициозного исследования «Deep Symbolic Regression for Recurrent Sequences». Группа ученых представила нейросетевую модель на архитектуре Transformer, которая способна угадывать скрытые математические закономерности числовых последовательностей и представлять их в виде точных аналитических формул. Этот подход потенциально способен решить одну из главных проблем современного искусственного интеллекта — неспособность классического глубокого обучения к надежной экстраполяции данных за пределы обучающей выборки.

🧩 Суть метода: символьная регрессия против численных моделей 0:00

Традиционные подходы в машинном обучении опираются на численные (непрерывные) модели. Если обучить стандартную нейросеть на наборе точек, она может успешно интерполировать данные внутри известного диапазона, но при попытке выйти далеко за пределы обучающей выборки ее предсказания начинают хаотично деградировать. Модели глубокого обучения требуют колоссальных массивов данных, покрывающих все входное пространство, поскольку у них отсутствуют сильные индуктивные смещения (inductive biases).

Символьная регрессия (Deep Symbolic Regression) кардинально меняет этот паттерн. Вместо предсказания конкретных чисел модель пытается сгенерировать саму математическую формулу, которая описывает последовательность. По мнению авторов, если ИИ удается восстановить точную символьную формулу (например, синусоиду), система получает способность осуществлять безошибочную экстраполяцию на любую глубину.

В качестве интерактивного теста разработчики запустили онлайн-демоверсию, где любой пользователь может ввести произвольную рекуррентную последовательность. Система способна успешно распознать классическую последовательность Фибоначчи или функцию квадратов чисел, выводя искомую формулу в явном аналитическом виде и рассчитывая последующие элементы.

🏗️ Архитектура Transformer и необычное кодирование чисел 5:06

Исследователи сформулировали задачу поиска формул как классический перевод из одной последовательности в другую (sequence-to-sequence), задействовав стандартный стек архитектуры Transformer с механизмами self-attention и cross-attention. На вход энкодера подается фиксированная последовательность чисел, а декодер авторегрессионно генерирует математическую формулу токен за токеном. Чтобы избежать синтаксической двусмысленности, формулы кодируются в формате обратной польской нотации (RPN) для префиксного дерева. К примеру, выражение $\cos(3x)$ транслируется в последовательность операторов вида cos, mul, 3, x.

Наиболее парадоксальным решением инженеров стал отказ от передачи чисел в виде непрерывных величин. Все числа кодируются как дискретные независимые токены:

Несмотря на кажущуюся хаотичность такого подхода, анализ обученной модели привел к удивительным результатам. Визуализация пространства эмбеддингов с помощью алгоритма t-SNE показала, что дискретные токены чисел самостоятельно выстроились в идеальное, гладкое непрерывное многообразие. Более того, вычисление косинусного сходства между векторами выявило четкие диагональные паттерны с шагом 6 и 12. Модель смогла самостоятельно уловить арифметические свойства чисел и общие делители. Как отмечает Янник Килчер, это перекликается с идеями математических сообществ, утверждающих, что двенадцатеричная система счисления является более естественной базой для логических вычислений, чем десятичная.

📊 Генерация данных и неявное правило Оккама 7:08

Поскольку математические формулы можно генерировать искусственно, авторы получили доступ к фактически бесконечному синтетическому датасету. Это избавило команду от проблемы переобучения (overfitting) и необходимости тонкой настройки регуляризации или гиперпараметров.

Процесс создания обучающей выборки выглядит следующим образом:

  1. Случайным образом задается количество математических операторов в выражении — от 1 до 10.
  2. На основе этого подмножества строится унарно-бинарное дерево. Узлы заполняются операторами (для целых чисел используются сложение, вычитание, деление нацело и модуль; для вещественных — тригонометрические функции, экспоненты и корни).
  3. Задается глубина рекурсии (параметр dmax равен 6). Модель имеет право смотреть назад максимум на 6 элементов последовательности, что эквивалентно марковскому условию. По словам Стефана Дасколи, этого достаточно, так как человек редко придумывает закономерности с большей глубиной памяти.
  4. Листья дерева с равной вероятностью в 33.3% заполняются либо случайной константой, либо текущим индексом шага $n$, либо одним из предыдущих значений последовательности $u_{n-k}$.
  5. Начальные члены последовательности генерируются случайным образом из равномерного распределения в диапазоне от -10 до 10.

При инференсе модель использует алгоритм луч-поиска (beam search). Он позволяет сгенерировать несколько альтернативных формул, ранжировать их по степени соответствия входным элементам и отсеять некорректные варианты. Примечательно, что разработчики сознательно не вводили в функцию потерь штрафы за длину формулы. Тем не менее модель демонстрирует неявное следование принципу бритвы Оккама: поскольку генератор данных по своей природе чаще создает короткие и простые деревья, нейросеть изначально смещена в сторону поиска наиболее лаконичных и простых математических решений.

🧪 Эксперименты, успехи и «катастрофические» ошибки 11:50

Модель тестировалась как на контролируемых синтетических данных (in-distribution), так и на реальных человеческих задачах из Онлайн-энциклопедии целочисленных последовательностей (OEIS). Во внутривыборочных тестах символьный метод безоговорочно разгромил стандартные численные архитектуры благодаря точной экстраполяции.

Однако при работе с реальной базой OEIS численные модели неожиданно оказались более эффективными, чем символьный подход. Объясняя этот феномен, Стефан Дасколи указал на специфику человеческого творчества. Огромное количество последовательностей в OEIS (даже с пометкой «простые») не имеют в своей основе строгой рекуррентной формулы — к ним относятся последовательности простых чисел, делителей или знаков после запятой в числе $\pi$. Кроме того, люди склонны использовать сложные условия типа if-else. Нейросеть способна обойти это ограничение с помощью математических хаков (например, через маскирование вида n mod 2), но такие конструкции слишком редко встречаются в обучении, чтобы модель могла стабильно их синтезировать.

В процессе анализа выявилось фундаментальное различие в поведении систем при сбоях:

«Мы сталкиваемся с двумя типами ошибок. Модель может слегка промахнуться в численных коэффициентах, но бывают и катастрофические сбои. Достаточно ошибиться всего в одном токене — например, перепутать косинус с экспонентой — и все последующие предсказания будут полностью разрушены», — подчеркнул Стефан Дасколи.

С другой стороны, символьная модель проявила поразительное, незадокументированное свойство — способность к автономной аппроксимации непрерывных констант. Не имея в своем фиксированном дискретном словаре числа 0.3333, ИИ научился налету конструировать его через комбинации доступных функций и коэффициентов. В одном из тестов, столкнувшись с числом 1.64493, нейросеть выдала формулу $\pi^2/6$. Потребовался полноценный исторический экскурс, чтобы вспомнить: выдающийся математик Леонард Эйлер в свое время потратил годы, чтобы доказать, что эта мистическая константа является суммой обратных квадратов. Теперь же ИИ выводит это соотношение самостоятельно, не имея явного математического движка под капотом.

Тесты также показали, что разработанный Transformer справляется с угадыванием рекуррентных правил эффективнее, чем специализированные коммерческие алгоритмы системы Wolfram Mathematica (такие функции, как findSequenceFunction и findLinearRecurrence).

🚀 История проекта и перспективы применения 17:37

Данная научная работа стала логическим продолжением многолетних изысканий Франсуа Шартона и Гийома Лампла, которые еще в 2019 году начали применять архитектуру Transformer для символьной математики, включая интеграцию функций и решение дифференциальных уравнений. Позже команда успешно обучила ИИ задачам линейной алгебры, таким как нахождение обратных матриц. Для текущего проекта авторы объединили усилия: Пьер-Александр Каменни привнес компетенции из сферы обучения с подкреплением (RL), а Стефан Дасколи обогатил проект бэкграундом в области теоретической физики.

По мнению Стефана Дасколи, синергия символьной регрессии и классических нейросетей способна перевернуть индустрию робототехники и систем управления. Сегодня беспилотники и роботы используют численные «модели мира» (world models), пытаясь предсказать физическое будущее покадрово или численно. Внедрение символьной регрессии позволит агентам оперировать фундаментальными законами природы:

«Если робот пытается понять окружающий мир, ему будет гораздо проще планировать свои действия, если он самостоятельно откроет и зафиксирует закон Ньютона, вместо того чтобы пытаться аппроксимировать движение объектов огромной и хрупкой визуальной нейросетью», — резюмировал исследователь.

Несмотря на выдающиеся результаты, проект потребовал огромных по академическим меркам вычислительных мощностей. Финальная крупноразмерная модель с размерностью эмбеддингов 512 обучалась непрерывно в течение трех недель на кластере из 16 мощных графических процессоров (GPU). За каждую эпоху обучения сеть обрабатывала массив из 5 миллионов уникальных случайных уравнений.

💬 Цитаты

«Модель может слегка промахнуться в численных коэффициентах, но бывают и катастрофические сбои. Достаточно ошибиться всего в одном токене — например, перепутать косинус с экспонентой — и все последующие предсказания будут полностью разрушены»

Стефан Дасколи 55:23

«Если робот пытается понять окружающий мир, ему будет гораздо проще планировать свои действия, если он самостоятельно откроет и зафиксирует закон Ньютона, вместо того чтобы пытаться аппроксимировать движение объектов огромной и хрупкой визуальной нейросетью»

Стефан Дасколи 47:53
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Символьная регрессия
Метод поиска математического выражения в виде формулы, которая наилучшим образом аппроксимирует и объясняет входной набор данных.
Обратная польская нотация
Бесскобочная форма записи математических операций, где знаки вычислений следуют за числами, оптимальная для обработки деревьев алгоритмами.
Экстраполяция
Метод предсказания поведения системы или значений функции за пределами исходного интервала обучающих данных.
Индуктивное смещение
Набор априорных допущений и ограничений, которые алгоритм использует для построения прогнозов на неизвестных данных.
📊 Цифры
🗓 Хронология
  1. 2019 Франсуа Шартон и Гийом Лампл публикуют базовую работу по применению архитектуры Transformer для интеграции функций и решения ODE.
  2. 2022 Команда Стефана Дасколи расширяет метод, представив Deep Symbolic Regression для анализа рекуррентных числовых последовательностей.
⚖️ Другая сторона
Искусственный интеллект Deep Symbolic Regression Стефан Дасколи Янник Кильхер Transformer