Франсуа Шаард: «Рекурсия — это способ заставить 7-млн модель думать лучше, чем GPT-4»

В новом эпизоде сериала «Decoded» от Y Combinator приглашенный партнер Франсуа Шаард и ведущий обсуждают фундаментальный сдвиг в архитектуре нейросетей — возвращение к рекурсии. В 2025 году две научные работы (HRM и TRM) показали, что модели объемом всего 7–27 млн параметров могут превосходить гигантов уровня GPT-4 в задачах на логику и рассуждения, если заменить простое увеличение весов на итеративную обработку данных в скрытом пространстве.

🧠 Крах RNN и триумф трансформеров: исторический контекст 0:00

Доминирование трансформеров в современной индустрии ИИ не означает, что это единственно верный путь к сильному искусственному интеллекту (AGI). Франсуа Шаард напоминает, что еще 10 лет назад, в эпоху расцвета архитектур LSTM и RNN (рекуррентных нейронных сетей), исследователь Алекс Грейвс продвигал идею адаптивного времени вычислений . Однако рекуррентные модели столкнулись с непреодолимым барьером — проблемой обратного распространения ошибки во времени (Backpropagation Through Time, BPTT).

Проблема BPTT: Для обновления весов при длинных цепочках данных градиент либо «затухает», либо «взрывается» . При контексте в миллионы токенов хранить активации для каждого шага в памяти видеокарты физически невозможно.
Решение трансформеров: Они заменили последовательную обработку параллельной. Трансформер видит все токены сразу через механизм внимания . Это решило проблему обучения, но убило «скрытое рассуждение» в пользу прямого прохода (feed-forward).
Цена эффективности: В трансформерах нет сжатия информации во времени. Чтобы сгенерировать одно слово, модели нужно каждый раз заново «просматривать» весь контекст . В то время как RNN сжимают опыт в компактное скрытое состояние (hidden state).

🧩 Почему LLM не умеют сортировать списки: лимиты вычислений 4:10

По мнению Франсуа Шаарда, «способность к рассуждению» у современных LLM — это во многом иллюзия, ограниченная архитектурой. В качестве примера он приводит задачу сортировки списка .

Для сортировки сравнением существует теоретический нижний предел — $n \log n$ шагов.
Если у трансформера 30 слоев, а в списке 31 элемент, модель чисто физически не может выполнить нужное количество операций за один проход . У нее «заканчиваются слои» для вычислений.
Теорема о полноте по Тьюрингу: LLM становятся полными по Тьюрингу только на этапе инференса за счет «цепочки рассуждений» (Chain of Thought, CoT), когда они используют свои предыдущие ответы как внешнюю память . Но это медленно и дорого.

Франсуа утверждает, что такие задачи, как судоку, лабиринты или расчет скользящей суммы, являются «несжимаемыми» проблемами . Их нельзя решить «в один присест», не имея возможности возвращаться к промежуточным результатам (рекурсии) внутри самой модели, а не через генерацию текста.

🏗️ Hierarchical Reasoning Models (HRM): биологическое вдохновение 7:32

Статья об иерархических моделях рассуждения (HRM) вернула интерес к рекурсии, предложив структуру, вдохновленную работой мозга. Исследователи заметили, что разные области мозга работают на разных частотах: низкоуровневые — на высоких, высокоуровневые — на низких .

Архитектура HRM включает три уровня рекурсии :

Низкоуровневый модуль (L-net): Быстрые итерации для обработки деталей.
Высокоуровневый модуль (H-net): Более медленные циклы, координирующие общую стратегию.
Внешний цикл уточнения (Outer refinement loop): Повторение всего процесса несколько раз для оттачивания ответа.

Главным достижением HRM стала победа на ARC Prize — тесте на абстрактное мышление, где нейросеть всего на 27 млн параметров обошла модели, которые в тысячи раз больше . При этом HRM обучалась с нуля всего на 1000 задач, без терабайтов предтренировочного текста.

🛠️ Магия DEQ: как обойти проблему памяти 11:18

Чтобы HRM не «умерла» от нехватки памяти при обратном распространении ошибки, авторы использовали трюк из области Deep Equilibrium (DEQ) моделей .

Вместо того чтобы разворачивать все шаги рекурсии и считать градиент через них всех, HRM делает «остановку градиента» (stop-grad). Модель тренируется на «мини-батчах из состояний памяти» . Она берет одно и то же входное значение $X$, но прогоняет его через разные состояния скрытой памяти (carry), накопленные в процессе итераций. Это позволяет обучать глубокую логику без гигантских вычислительных затрат, характерных для старых RNN.

📉 Tiny Recursive Models (TRM): меньше — значит лучше 21:48

Вторая работа, TRM (Tiny Recursive Models), пошла еще дальше, упростив архитектуру HRM. Алексия (автор TRM) доказала, что многие сложности HRM избыточны .

Усечение градиента: Выяснилось, что достаточно передавать градиент всего на один шаг назад (truncated BPTT, $t=1$), и модель все равно научится сложным вещам .
Объединение сетей: TRM использует одну и ту же сеть для низкого и высокого уровней (weight sharing). Разделяются только переменные в скрытом пространстве ($Z_L$ и $Z_H$) .
Результативность: Модель сократилась с 27 млн до 7 млн параметров, но точность на ARC Prize выросла с 70% до 87%.

Франсуа сравнивает процесс обучения TRM с алгоритмом ожидания-максимизации (Expectation-Maximization) . В случае с судоку модель не угадывает все цифры сразу. Она использует скрытую память $Z_L$ как «черновик», где пробует варианты, и только когда уверена, фиксирует результат в переменной $Z_H$ . По сути, модель сама открывает алгоритм решения задачи без подсказок человека.

🚀 Будущее: Рекурсия как новый закон масштабирования 34:36

Главный вывод дискуссии: рекурсия — это способ получить «глубину вычислений» без наращивания «глубины параметров» .

По словам Франсуа, современные лаборатории ИИ (OpenAI, Google) уже начинают внедрять эти идеи. Настоящий прорыв случится, когда мощь гигантских трансформеров (умеющих строить отличные семантические представления) объединят с рекурсивными блоками «внутреннего рассуждения» .

CoT против внутренней рекурсии: Цепочка рассуждений в токенах (Chain of Thought) ограничена человеческими знаниями и дискретностью текста .
Латентное рассуждение: Внутренняя рекурсия в скрытом пространстве (latent space) гораздо эффективнее и способна находить новые алгоритмы, которые человек не описывал в обучающих данных .

Шаард считает, что следующим этапом станет создание универсальных агентов, которые используют рекурсивные модули для решения задач, требующих сотен шагов логики, но при этом остаются компактными и быстрыми .