Янник Кильчер о Searchformer: «Обучение модели мышлению действительно работает»

Beyond A*: Трансформеры учатся планировать эффективнее 🚀 0:00

Исследователи из Meta AI представили работу «Beyond A: Better Planning with Transformers via Search Dynamics Bootstrapping» (Searchformer), в которой предложили новый подход к обучению языковых моделей решению сложных задач планирования. По мнению Янника Кильчера (Yannic Kilcher), автора видео, ключевая идея заключается не в создании «лучшего в мире планировщика», а в проверке гипотезы: поможет ли явное обучение модели «процессу мышления» (пошаговому поиску) приводить к более точным и оптимальным результатам. В качестве основы для «мышления» модели исследователи использовали алгоритм поиска A.

🧩 Что такое планирование и почему это сложно? 2:29

Планирование часто путают с обучением с подкреплением (reinforcement learning), но между ними есть существенная разница. В обучении с подкреплением агент действует в реальном мире и получает штрафы за ошибки, что делает процесс критически опасным или невозможным в реальных условиях.

Планирование — это «мышление в уме», моделирование действий в вымышленном пространстве.
Гибкость: В планировании можно «отменить» ошибочный путь, вернувшись к предыдущему состоянию, что невозможно в физической реальности.
Выходные данные: Результатом планирования является готовый план (последовательность действий), а не просто политика поведения.

По утверждению Кильчера, современные большие языковые модели (LLM) обычно плохо справляются с планированием и рассуждениями. Использование методов типа «цепочки рассуждений» (Chain of Thought) часто выступает лишь «костылем», который может привести к снижению производительности. В то же время традиционные алгоритмы поиска, работающие на графах, до сих пор показывают отличные результаты.

🤖 Searchformer: обучение «образу мышления» 11:17

Авторы Searchformer решили обучить модель не просто выдавать конечный план, а воспроизводить последовательность действий классического алгоритма поиска.

Создание данных: Исследователи сгенерировали синтетический датасет, содержащий описание задачи (ситуации), траекторию поиска (trace) алгоритма A* и финальный оптимальный план.
Обучение: Модель на базе архитектуры T5 обучалась превращать входные данные в последовательность токенов, имитирующих работу алгоритма, и в итоге выдавать сам план.
Результат: Как отмечает автор видео, модели, обученные с использованием «поисковых дополнений» (search augmented), значительно превосходят модели, которые обучались только на «решении» (solution only), особенно при ограниченном объеме данных.

🚀 Поиск за пределами A* 34:38

После обучения на базовом поиске исследователи применили метод смещения распределения (distribution shifting) для оптимизации траекторий.

Метод: Модель генерировала варианты решения, и если план оказывался оптимальным (по стоимости), а траектория поиска — короче исходной, этот пример заменял старый в обучающей выборке.
Итог: Новая модель научилась находить оптимальные планы, используя при этом заметно меньше шагов поиска.

Кильчер выражает скепсис по поводу того, что модель «открыла новый способ решения». По его мнению, более вероятно, что модель просто научилась лучше «разрывать ничьи» (tie-breaking) при выборе узлов для поиска. По факту, это эквивалентно изучению более качественной эвристики, доступной только трансформеру благодаря его способности видеть задачу глобально, в отличие от стандартного A*.

💡 Выводы и критика 41:42

Автор видео заключает, что работа является очень интересной и доказывает: если явно учить трансформер «думать» о процессе планирования, он становится значительно способнее. Тот факт, что даже стандартный метод «думай шаг за шагом» (think step by step) работает, лишь подтверждает гипотезу о важности наличия примеров рассуждений в обучающих данных. Тем не менее, утверждение авторов о том, что Searchformer «превзошел» классические алгоритмы в поиске новых путей, Кильчер считает «немного подозрительным».