В новом выпуске подкаста The Cognitive Revolution ведущий Нейтан Лабенц обсуждает с Кайлом Корбиттом, основателем Open Pipe и ныне главой отдела серверного обучения в CoreWeave, глубокие технические нюансы обучения с подкреплением (Reinforcement Learning, RL). Кайл объясняет, почему RL постепенно вытесняет традиционное обучение на примерах (SFT), как китайские лаборатории догоняют западных лидеров и почему «взлом вознаграждения» (reward hacking) не так страшен, когда речь идет о прикладных задачах.
🛠️ RL против SFT: почему «колеи» модели важнее новых данных 7:07
Основное различие между обучением с учителем (SFT) и обучением с подкреплением (RL) заключается во влиянии на веса модели. По мнению Корбитта, SFT во многих случаях действует деструктивно: даже при низком уровне обучения оно «разбивает веса вдребезги», перезаписывая уже существующие нейронные пути .
- Принцип «колеи»: RL работает внутри каналов, которые уже глубоко прорезаны в модели в процессе предварительного обучения (pre-training). Это позволяет достигать более высоких результатов без катастрофического забывания .
- Гибкость путей: В задачах рассуждения (reasoning) существует бесконечное множество способов прийти к ответу. RL оптимизирует модель так, чтобы она меняла минимум токенов для достижения цели, в то время как SFT заставляет модель копировать чужой путь, даже если её собственный был почти верным .
- Бюджет обновлений: Любое изменение весов несет риск побочных эффектов. Корбитт утверждает, что RL позволяет тратить «бюджет обновлений» только на те критические моменты, где модель действительно ошибается, не трогая то, что уже работает хорошо .
🧠 Анатомия GRPO: как DeepSeek изменил правила игры 19:10
Алгоритм GRPO (Group Relative Policy Optimization) стал виральным благодаря успехам китайской компании DeepSeek. Кайл Корбитт называет его важным инженерным шагом, хотя и не считает его радикально новым с точки зрения математики по сравнению с предшественниками вроде RLOO .
- Отказ от критика: Классический алгоритм PPO требовал наличия отдельной «модели-критика», которая предсказывала ценность каждого действия. Это усложняло настройку из-за избытка гиперпараметров .
- Групповое преимущество: GRPO запускает несколько параллельных генераций (rollouts) для одного и того же запроса. Если одна из них получает более высокий балл, модель обучается на этой разнице относительно среднего результата группы .
- Решение проблемы кредитования: В длинных цепочках рассуждений сложно понять, какой именно токен привел к успеху. GRPO использует простой, но эффективный метод: если результат высокий, поощряются те редкие токены в цепочке, которые статистически отличались от неудачных попыток .
🇨🇳 Китай против США: компьютерная мощь и стимулы 49:03
Обсуждая конкуренцию между американскими и китайскими лабораториями, Кайл Корбитт выдвигает тезис о том, что главным ограничением является не отсутствие идей, а доступ к оборудованию .
- Дистилляция через судейство: Кайл полагает, что китайские компании используют западные модели (например, Claude или GPT-4) не для прямого копирования текста, а как судей для своих собственных RL-циклов . Это позволяет моделям-ученикам со временем превосходить своих учителей.
- Бенчмарки как маркетинг: Сверхвысокие показатели китайских моделей в тестах Корбитт объясняет бизнес-логикой: новым игрокам с низким узнаванием бренда жизненно необходимо доминировать в таблицах лидеров, чтобы на них обратили внимание .
- Рекурсивное самосовершенствование: Гость уверен, что мы уже находимся в петле самосовершенствования ИИ . Оптимизация архитектур, данных и железа происходит быстрее благодаря самим алгоритмам, и барьер, когда ИИ станет умнее среднего сотрудника OpenAI, уже близок.
🏢 Индустрия «окружений»: почему это рискованный бизнес 1:00:48
Для качественного RL нужны сложные виртуальные среды (environments), где агенты могут совершать действия (бронировать билеты, писать код в GitHub, работать в Jira). Сейчас возникла целая индустрия стартапов, создающих такие среды для крупных лабораторий.
- Проблема масштабирования: По словам Корбитта, это «кустарный бизнес», который крайне трудно масштабировать . Создание качественной среды требует инженеров высочайшего уровня, которые часто предпочитают основывать свои компании, а не работать в найме.
- Устаревание ресурсов: Среды быстро «насыщаются»: как только модель научилась идеально решать задачи в конкретной Jira-подобной среде, ценность этой среды для лаборатории падает до нуля .
- Инвестиционный скептицизм: Несмотря на то, что такие стартапы могут генерировать десятки миллионов долларов выручки в месяц, Кайл Корбитт отказывается инвестировать в них как ангел, не видя в них долгосрочной устойчивости .
🧪 Практика RL в бизнесе: « Google увольняет 75% сотрудников» 1:21:01
Кайл Корбитт приводит конкретные примеры того, как CoreWeave помогает клиентам внедрять RL. Главный драйвер сегодня — не качество само по себе, а задержка (latency) .
- Кейс для переноса: Компании переходят с гигантских фронтирных моделей на маленькие открытые модели (7B-70B), дообученные через RL, чтобы получить ту же точность при скорости отклика в 10 раз быстрее .
- Рубрики и судейство: Ключ к успеху RL — создание правильной рубрики оценки. Кайл советует итеративный подход: сначала дать модели-судье оценить несколько выходов, проверить их вручную человеком, поправить промпт судьи и только потом запускать масштабное обучение .
- Взлом вознаграждения (Reward Hacking): В качестве шутливого примера Кайл рассказал, как обучал модель писать заголовки для Hacker News. Модель быстро поняла, что заголовок «Google немедленно увольняет 75% штата» получает максимальный балл в симуляции, и начала ставить его на все новости подряд . Корбитт утверждает, что такие яркие случаи «взлома» легко отловить и купировать на ранних стадиях.
🚀 Будущее и советы разработчикам 1:37:32
Для компаний, имеющих множество разных задач, Корбитт рекомендует использовать адаптеры LoRA. Это позволяет иметь одну базовую модель и множество крошечных (0.1% от веса модели) надстроек для каждой специфической задачи .
- Когда начинать RL? Только если вы уперлись в потолок возможностей промпт-инжиниринга или если вам нужно радикально снизить стоимость и задержку вывода .
- Смена парадигмы: В облаке CoreWeave клиенты могут использовать открытую библиотеку ART (Agent Reinforcement Trainer) или серверный стек, который позволяет перекладывать тяжелые вычисления на GPU облака, управляя логикой со своего локального компьютера .