Янник Кильчер о Searchformer: «Обучение модели мышлению действительно работает»

Yannic Kilcher 37 тыс. 44 мин 3 мин 06.04.2024
Главное

Beyond A*: Трансформеры учатся планировать эффективнее 🚀 0:00

Исследователи из Meta AI представили работу «Beyond A: Better Planning with Transformers via Search Dynamics Bootstrapping» (Searchformer), в которой предложили новый подход к обучению языковых моделей решению сложных задач планирования. По мнению Янника Кильчера (Yannic Kilcher), автора видео, ключевая идея заключается не в создании «лучшего в мире планировщика», а в проверке гипотезы: поможет ли явное обучение модели «процессу мышления» (пошаговому поиску) приводить к более точным и оптимальным результатам. В качестве основы для «мышления» модели исследователи использовали алгоритм поиска A.

🧩 Что такое планирование и почему это сложно? 2:29

Планирование часто путают с обучением с подкреплением (reinforcement learning), но между ними есть существенная разница. В обучении с подкреплением агент действует в реальном мире и получает штрафы за ошибки, что делает процесс критически опасным или невозможным в реальных условиях.

По утверждению Кильчера, современные большие языковые модели (LLM) обычно плохо справляются с планированием и рассуждениями. Использование методов типа «цепочки рассуждений» (Chain of Thought) часто выступает лишь «костылем», который может привести к снижению производительности. В то же время традиционные алгоритмы поиска, работающие на графах, до сих пор показывают отличные результаты.

🤖 Searchformer: обучение «образу мышления» 11:17

Авторы Searchformer решили обучить модель не просто выдавать конечный план, а воспроизводить последовательность действий классического алгоритма поиска.

  1. Создание данных: Исследователи сгенерировали синтетический датасет, содержащий описание задачи (ситуации), траекторию поиска (trace) алгоритма A* и финальный оптимальный план.
  2. Обучение: Модель на базе архитектуры T5 обучалась превращать входные данные в последовательность токенов, имитирующих работу алгоритма, и в итоге выдавать сам план.
  3. Результат: Как отмечает автор видео, модели, обученные с использованием «поисковых дополнений» (search augmented), значительно превосходят модели, которые обучались только на «решении» (solution only), особенно при ограниченном объеме данных.

🚀 Поиск за пределами A* 34:38

После обучения на базовом поиске исследователи применили метод смещения распределения (distribution shifting) для оптимизации траекторий.

Кильчер выражает скепсис по поводу того, что модель «открыла новый способ решения». По его мнению, более вероятно, что модель просто научилась лучше «разрывать ничьи» (tie-breaking) при выборе узлов для поиска. По факту, это эквивалентно изучению более качественной эвристики, доступной только трансформеру благодаря его способности видеть задачу глобально, в отличие от стандартного A*.

💡 Выводы и критика 41:42

Автор видео заключает, что работа является очень интересной и доказывает: если явно учить трансформер «думать» о процессе планирования, он становится значительно способнее. Тот факт, что даже стандартный метод «думай шаг за шагом» (think step by step) работает, лишь подтверждает гипотезу о важности наличия примеров рассуждений в обучающих данных. Тем не менее, утверждение авторов о том, что Searchformer «превзошел» классические алгоритмы в поиске новых путей, Кильчер считает «немного подозрительным».

💬 Цитаты

«Если вы явно учите трансформер «думать» о задаче планирования, он становится гораздо более способным.»

Янник Кильчер 43:06

«Searchformer больше не имитирует поиск A*, а нашел новый способ решения с меньшим количеством шагов.»

Янник Кильчер 37:31
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
A*
Классический алгоритм поиска кратчайшего пути на графе, использующий эвристики для эффективного направления поиска.
Траектория поиска (Execution Trace)
Последовательность внутренних действий алгоритма при принятии решений по пути к цели.
Обучение с подкреплением
Метод машинного обучения, где агент учится принимать решения путем взаимодействия со средой и получения наград или штрафов.
Эвристика
Метод или правило, которое помогает оценить расстояние до цели в условиях неопределенности.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Searchformer A* Transformers Meta AI Yannic Kilcher