Филип Исола: «Поиск — это новый двигатель глубокого обучения»

Стратегии логического вывода в глубоком обучении: от обучения к поиску 0:55

Современный ландшафт глубокого обучения (Deep Learning) претерпевает значительные изменения. Если раньше фокус исследователей был сосредоточен почти исключительно на фазе обучения (Training), то сейчас всё больше внимания уделяется методам логического вывода (Inference) и использованию вычислительных мощностей непосредственно в момент тестирования или развертывания модели. Фактически, развитие AI смещается от простой стратегии «обучить модель на данных и сделать один проход» к активному поиску решений в пространстве возможностей.

🤖 Разграничение обучения и логического вывода 4:21

Филип Исола, лектор MIT, предлагает рассматривать процесс работы AI как взаимодействие двух режимов:

Training (обучение): процесс «фабричный», происходящий до встречи с реальными задачами. Это создание весов модели, которые позволяют выполнять эвристическое отображение данных в ответы.
Inference (логический вывод): «дикая природа», этап работы модели после развертывания. Здесь модель должна не просто следовать выученному шаблону, а демонстрировать «мышление» или «рассуждение», адаптируясь к конкретному запросу.

По мнению лектора, наиболее интересные современные системы (например, OpenAI o1) используют сочетание обучения и интенсивного поиска непосредственно при работе с запросом, что позволяет значительно повысить точность ответов за счет масштабирования вычислений на этапе инференса, а не только на этапе тренировки,.

🔍 Методы поиска и оптимизации 15:06

Традиционные методы глубокого обучения, основанные на авторегрессионной генерации (последовательное предсказание следующего токена), зачастую ограничены жадным сэмплированием (greedy sampling). Проблема в том, что жадный выбор наиболее вероятного токена на каждом шаге не гарантирует получение наиболее вероятной последовательности в целом. Для улучшения результата применяются более продвинутые техники:

Best-of-N: генерация N независимых вариантов ответа и выбор того, который обладает наибольшей суммарной вероятностью или наилучшим баллом по внешней функции оценки.
Beam Search: расширение дерева поиска с сохранением K наиболее перспективных путей на каждом шаге, что позволяет находить более качественные конфигурации ответов.
Chain-of-Thought (Цепочка рассуждений): метод, при котором модель сама генерирует промежуточные этапы мышления в текстовом виде, эффективно превращая процесс вывода в своего рода символьный поиск, описанный на естественном языке.

✅ Верификация как мощный инструмент 34:26

Критически важный тезис лекции заключается в том, что верификация решения часто гораздо проще самого процесса генерации. Если модель пишет программный код, её можно проверить с помощью компилятора; если решает математическую задачу — с помощью формального прувера.

Именно на этом принципе строится современный подход к «самоулучшению» моделей:

Генератор создает множество вариантов решения.
Верификатор отсеивает неверные или менее качественные.
Лучшие решения используются для последующего дообучения (fine-tuning) модели, чтобы она «запомнила» правильный ход рассуждений.

Этот цикл «поиск → верификация → обучение» лежит в основе прогресса моделей, способных к сложному логическому анализу.

💡 Тест-тайм обучение: адаптация «на лету» 56:10

Интересным направлением является Test-Time Training — обновление поведения модели прямо в процессе работы. Это может происходить через:

In-context learning: модель учится на примерах (x, y), включенных в промпт, что, как показывают исследования, в некоторых случаях математически эквивалентно выполнению шага градиентного спуска.
Самообучение на тестовых данных: обновление весов модели (или её части) с использованием самоконтролируемых задач (например, предсказание маскированных частей изображения) прямо на тестовом примере.

Примером успешного применения таких методов стала победа исследователей MIT в бенчмарке ARC, который считался «неприступным» для чисто нейросетевых архитектур прошлого. Ученые доказали, что даже старые добрые методы градиентного спуска, примененные на этапе инференса к конкретным примерам, могут давать результаты, превосходящие сложные системы.