# Франсуа Шаард: «Рекурсия — это способ заставить 7-млн модель думать лучше, чем GPT-4»

Источник: https://www.youtube.com/watch?v=DGtUUMNYLcc
Канал: Y Combinator
Опубликовано: 01.05.2026

---

В новом эпизоде сериала «Decoded» от Y Combinator приглашенный партнер Франсуа Шаард и ведущий обсуждают фундаментальный сдвиг в архитектуре нейросетей — возвращение к рекурсии. В 2025 году две научные работы (HRM и TRM) показали, что модели объемом всего 7–27 млн параметров могут превосходить гигантов уровня GPT-4 в задачах на логику и рассуждения, если заменить простое увеличение весов на итеративную обработку данных в скрытом пространстве.

## 🧠 Крах RNN и триумф трансформеров: исторический контекст
[[JUMP:00:00]]

Доминирование трансформеров в современной индустрии ИИ не означает, что это единственно верный путь к сильному искусственному интеллекту (AGI). Франсуа Шаард напоминает, что еще 10 лет назад, в эпоху расцвета архитектур LSTM и RNN (рекуррентных нейронных сетей), исследователь Алекс Грейвс продвигал идею адаптивного времени вычислений [01:07]. Однако рекуррентные модели столкнулись с непреодолимым барьером — проблемой обратного распространения ошибки во времени (Backpropagation Through Time, BPTT).

*   **Проблема BPTT:** Для обновления весов при длинных цепочках данных градиент либо «затухает», либо «взрывается» [01:47]. При контексте в миллионы токенов хранить активации для каждого шага в памяти видеокарты физически невозможно.
*   **Решение трансформеров:** Они заменили последовательную обработку параллельной. Трансформер видит все токены сразу через механизм внимания [02:39]. Это решило проблему обучения, но убило «скрытое рассуждение» в пользу прямого прохода (feed-forward).
*   **Цена эффективности:** В трансформерах нет сжатия информации во времени. Чтобы сгенерировать одно слово, модели нужно каждый раз заново «просматривать» весь контекст [03:33]. В то время как RNN сжимают опыт в компактное скрытое состояние (hidden state).

## 🧩 Почему LLM не умеют сортировать списки: лимиты вычислений
[[JUMP:04:10]]

По мнению Франсуа Шаарда, «способность к рассуждению» у современных LLM — это во многом иллюзия, ограниченная архитектурой. В качестве примера он приводит задачу сортировки списка [04:38].

*   Для сортировки сравнением существует теоретический нижний предел — $n \log n$ шагов.
*   Если у трансформера 30 слоев, а в списке 31 элемент, модель чисто физически не может выполнить нужное количество операций за один проход [05:04]. У нее «заканчиваются слои» для вычислений.
*   **Теорема о полноте по Тьюрингу:** LLM становятся полными по Тьюрингу только на этапе инференса за счет «цепочки рассуждений» (Chain of Thought, CoT), когда они используют свои предыдущие ответы как внешнюю память [07:04]. Но это медленно и дорого.

Франсуа утверждает, что такие задачи, как судоку, лабиринты или расчет скользящей суммы, являются «несжимаемыми» проблемами [05:17]. Их нельзя решить «в один присест», не имея возможности возвращаться к промежуточным результатам (рекурсии) внутри самой модели, а не через генерацию текста.

## 🏗️ Hierarchical Reasoning Models (HRM): биологическое вдохновение
[[JUMP:07:32]]

Статья об иерархических моделях рассуждения (HRM) вернула интерес к рекурсии, предложив структуру, вдохновленную работой мозга. Исследователи заметили, что разные области мозга работают на разных частотах: низкоуровневые — на высоких, высокоуровневые — на низких [08:01].

**Архитектура HRM включает три уровня рекурсии [09:21]:**

1.  **Низкоуровневый модуль (L-net):** Быстрые итерации для обработки деталей.
2.  **Высокоуровневый модуль (H-net):** Более медленные циклы, координирующие общую стратегию.
3.  **Внешний цикл уточнения (Outer refinement loop):** Повторение всего процесса несколько раз для оттачивания ответа.

Главным достижением HRM стала победа на ARC Prize — тесте на абстрактное мышление, где нейросеть всего на 27 млн параметров обошла модели, которые в тысячи раз больше [09:59]. При этом HRM обучалась с нуля всего на 1000 задач, без терабайтов предтренировочного текста.

## 🛠️ Магия DEQ: как обойти проблему памяти
[[JUMP:11:18]]

Чтобы HRM не «умерла» от нехватки памяти при обратном распространении ошибки, авторы использовали трюк из области Deep Equilibrium (DEQ) моделей [11:57].

Вместо того чтобы разворачивать все шаги рекурсии и считать градиент через них всех, HRM делает «остановку градиента» (stop-grad). Модель тренируется на «мини-батчах из состояний памяти» [13:29]. Она берет одно и то же входное значение $X$, но прогоняет его через разные состояния скрытой памяти (carry), накопленные в процессе итераций. Это позволяет обучать глубокую логику без гигантских вычислительных затрат, характерных для старых RNN.

## 📉 Tiny Recursive Models (TRM): меньше — значит лучше
[[JUMP:21:48]]

Вторая работа, TRM (Tiny Recursive Models), пошла еще дальше, упростив архитектуру HRM. Алексия (автор TRM) доказала, что многие сложности HRM избыточны [21:35].

*   **Усечение градиента:** Выяснилось, что достаточно передавать градиент всего на один шаг назад (truncated BPTT, $t=1$), и модель все равно научится сложным вещам [22:13].
*   **Объединение сетей:** TRM использует одну и ту же сеть для низкого и высокого уровней (weight sharing). Разделяются только переменные в скрытом пространстве ($Z_L$ и $Z_H$) [23:32].
*   **Результативность:** Модель сократилась с 27 млн до 7 млн параметров, но точность на ARC Prize выросла с 70% до 87%.

Франсуа сравнивает процесс обучения TRM с алгоритмом ожидания-максимизации (Expectation-Maximization) [24:51]. В случае с судоку модель не угадывает все цифры сразу. Она использует скрытую память $Z_L$ как «черновик», где пробует варианты, и только когда уверена, фиксирует результат в переменной $Z_H$ [26:56]. По сути, модель сама открывает алгоритм решения задачи без подсказок человека.

## 🚀 Будущее: Рекурсия как новый закон масштабирования
[[JUMP:34:36]]

Главный вывод дискуссии: рекурсия — это способ получить «глубину вычислений» без наращивания «глубины параметров» [24:37].

По словам Франсуа, современные лаборатории ИИ (OpenAI, Google) уже начинают внедрять эти идеи. Настоящий прорыв случится, когда мощь гигантских трансформеров (умеющих строить отличные семантические представления) объединят с рекурсивными блоками «внутреннего рассуждения» [36:09].

*   **CoT против внутренней рекурсии:** Цепочка рассуждений в токенах (Chain of Thought) ограничена человеческими знаниями и дискретностью текста [20:03].
*   **Латентное рассуждение:** Внутренняя рекурсия в скрытом пространстве (latent space) гораздо эффективнее и способна находить новые алгоритмы, которые человек не описывал в обучающих данных [18:18].

Шаард считает, что следующим этапом станет создание универсальных агентов, которые используют рекурсивные модули для решения задач, требующих сотен шагов логики, но при этом остаются компактными и быстрыми [36:47].