# Клемент Бонне о подходе Latent Program Networks: «LLM экспоненциально не креативны»

Источник: https://www.youtube.com/watch?v=PHBItVuudbU
Канал: Machine Learning Street Talk
Опубликовано: 19.02.2025

---

## Революция в абстрактном мышлении ИИ: подход Latent Program Networks 🚀
[[JUMP:0:00]]

Исследователь Клемент Бонне (Clement Bonnet) представляет новый подход к решению задач на абстрактное мышление и рассуждение (benchmark Abstraction and Reasoning Corpus, ARC), который кардинально отличается от доминирующих сегодня методов обучения больших языковых моделей (LLM). В отличие от систем, основанных на «грубой силе» и гигантских массивах интернет-данных, проект Бонне — **Latent Program Networks** — фокусируется на обучении компактному латентному пространству, которое позволяет эффективно искать решения программных задач непосредственно во время тестирования.

### 🧠 Проблема «закрытых» тестов и ограничения нейросетей
[[JUMP:5:00]]

Основная трудность ARC заключается в том, что этот бенчмарк специально разработан Франсуа Шолле для предотвращения «зубрежки». Задачи в нем по своей природе новы и не встречаются в тренировочных наборах данных, доступных в интернете.

*   **Почему LLM пасуют:** По мнению Бонне, LLM полагаются на статистические закономерности, усвоенные из интернета, но задачи ARC требуют комбинации человеческих знаний, которая не имеет аналогов в сети.
*   **Иллюзия индукции:** Бонне полагает, что если бы мы знали распределение задач в тестовом наборе и могли бы дообучить на них нейросеть, решение стало бы тривиальным. Однако из-за огромного разрыва между тренировочной и тестовой выборками ИИ не способен к «экстремальной» генерализации.

### 🛠 Архитектура Latent Program Networks: как это работает
[[JUMP:13:30]]

В основе подхода лежит идея поиска в пространстве программ, но не в классическом смысле генерации кода, а в поиске наиболее подходящего скрытого представления (латентного вектора).

1.  **Энкодер и Декодер:** Модель использует вариационный автокодировщик (VAE), где энкодер переводит пары «вход-выход» в распределение программ в латентном пространстве.
2.  **Тестовый поиск:** Главная инновация — использование оптимизации прямо во время работы (at test time). Модель делает начальный «интуитивный» прогноз (как человек), а затем уточняет его с помощью градиентного спуска, чтобы найти решение, лучше всего соответствующее всем примерам задачи.
3.  **Приоритет сжатия:** Бонне убежден, что ключом является сжатие (compression). Компактное представление программы — это мощный инструмент для эффективного поиска решения.

### 🔍 Эксперименты и результаты
[[JUMP:23:05]]

Вопреки догмам современной индустрии, Бонне не использовал предобученные LLM.

*   **Обучение с нуля:** Использовались только ванильные трансформеры с общим числом параметров около 40 млн.
*   **Данные:** Для обучения применялся датасет из 400 задач ARC, «раздутый» за счет генерации вариаций примеров, что в сумме дало около 100 млн точек данных.
*   **Результаты:** Несмотря на скромные ресурсы, модель достигла около 10% точности на оценочном наборе, что Бонне считает впечатляющим показателем для первого «чистого» эксперимента без использования интернет-знаний.

### 🔮 Будущее: композиционность и креативность ИИ
[[JUMP:32:00]]

Дискуссия также затронула вопрос о том, может ли ИИ быть по-настоящему креативным или он просто выполняет статистический перебор.

*   **Креативность как перебор:** Бонне утверждает, что существующие модели «экспоненциально не креативны» — им требуется колоссальное количество попыток (сэмплов), чтобы найти что-то действительно новое.
*   **Символы против коннекционизма:** По мнению гостя, полное слияние глубокого обучения (нейросетей) и символьного программирования необходимо для того, чтобы ИИ мог преодолеть последний барьер в 1–5% задач, требующих долгосрочного планирования и логического вывода.
*   **Будущее композиционности:** Бонне признает, что текущая архитектура плохо справляется с композицией (объединением) сложных программ, но видит потенциал в методах, предполагающих создание «развернутого вычислительного графа» или использование нескольких «потоков поиска» одновременно.