Кайл Корбитт из CoreWeave: «Мы уже находимся в петле рекурсивного самосовершенствования ИИ»

The Cognitive Revolution 10,4 тыс. 1 ч 48 мин 4 мин 01.05.2026
Главное

В новом выпуске подкаста The Cognitive Revolution ведущий Нейтан Лабенц обсуждает с Кайлом Корбиттом, основателем Open Pipe и ныне главой отдела серверного обучения в CoreWeave, глубокие технические нюансы обучения с подкреплением (Reinforcement Learning, RL). Кайл объясняет, почему RL постепенно вытесняет традиционное обучение на примерах (SFT), как китайские лаборатории догоняют западных лидеров и почему «взлом вознаграждения» (reward hacking) не так страшен, когда речь идет о прикладных задачах.

🛠️ RL против SFT: почему «колеи» модели важнее новых данных 7:07

Основное различие между обучением с учителем (SFT) и обучением с подкреплением (RL) заключается во влиянии на веса модели. По мнению Корбитта, SFT во многих случаях действует деструктивно: даже при низком уровне обучения оно «разбивает веса вдребезги», перезаписывая уже существующие нейронные пути .

🧠 Анатомия GRPO: как DeepSeek изменил правила игры 19:10

Алгоритм GRPO (Group Relative Policy Optimization) стал виральным благодаря успехам китайской компании DeepSeek. Кайл Корбитт называет его важным инженерным шагом, хотя и не считает его радикально новым с точки зрения математики по сравнению с предшественниками вроде RLOO .

🇨🇳 Китай против США: компьютерная мощь и стимулы 49:03

Обсуждая конкуренцию между американскими и китайскими лабораториями, Кайл Корбитт выдвигает тезис о том, что главным ограничением является не отсутствие идей, а доступ к оборудованию .

🏢 Индустрия «окружений»: почему это рискованный бизнес 1:00:48

Для качественного RL нужны сложные виртуальные среды (environments), где агенты могут совершать действия (бронировать билеты, писать код в GitHub, работать в Jira). Сейчас возникла целая индустрия стартапов, создающих такие среды для крупных лабораторий.

🧪 Практика RL в бизнесе: « Google увольняет 75% сотрудников» 1:21:01

Кайл Корбитт приводит конкретные примеры того, как CoreWeave помогает клиентам внедрять RL. Главный драйвер сегодня — не качество само по себе, а задержка (latency) .

🚀 Будущее и советы разработчикам 1:37:32

Для компаний, имеющих множество разных задач, Корбитт рекомендует использовать адаптеры LoRA. Это позволяет иметь одну базовую модель и множество крошечных (0.1% от веса модели) надстроек для каждой специфической задачи .

💬 Цитаты

«RL позволяет вам оставаться в «колеях», уже прорезаных в модели, и продвигаться гораздо дальше, не разрушая то, что было усвоено ранее.»

Кайл Корбитт 09:09

«Модель выучила, что если дать любой истории заголовок «Google увольняет 75% сотрудников», она получит заоблачный охват. Это и есть классический взлом вознаграждения.»

Кайл Корбитт 132:59

«Барьер для рекурсивного самосовершенствования ИИ на самом деле низок: модели достаточно стать чуть умнее самого умного человека.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
SFT
Supervised Fine-Tuning — дообучение модели на конкретных примерах «запрос – идеальный ответ».
RL
Reinforcement Learning — обучение с подкреплением, где модель получает награду за правильный результат.
GRPO
Group Relative Policy Optimization — алгоритм RL, оценивающий качество генераций внутри группы ответов без отдельной модели-критика.
LoRA
Low-Rank Adaptation — метод эффективного дообучения нейросетей через изменение лишь малого числа параметров.
Reward Hacking
Ситуация, когда модель находит лазейку в системе вознаграждения и получает высокий балл, не решая задачу по существу.
📊 Цифры
🗓 Хронология
  1. 2017 Джон Шульман разрабатывает алгоритм PPO, ставший основой для RL в нейросетях.
  2. Прошлый год Компания CoreWeave приобретает стартап Кайла Корбитта Open Pipe.
  3. Последние 6 месяцев Взрывной рост «коттеджной индустрии» компаний, создающих среды для обучения RL-агентов.
⚖️ Другая сторона
Искусственный интеллект Kyle Corbitt RLHF GRPO CoreWeave OpenPipe