Уэс Рот о секретах ИИ: Почему все лаборатории одержимы Minecraft?

Загадка Q*: Возвращение к истокам в погоне за сверхразумом 🤖 2:25

В последнее время в технологическом сообществе активно обсуждаются слухи о проекте OpenAI под кодовым названием Q* (Q-Star). Хотя достоверных подтверждений утечки нет, многие эксперты находят описанные в ней принципы работы глубоко правдоподобными, так как они опираются на существующие академические исследования в области ИИ.

Предполагается, что Q* — это передовой фреймворк, объединяющий нейронные сети с методами символьной логики для улучшения способностей ИИ к рассуждению, математическим вычислениям и долгосрочному планированию. По мнению Уэса Рота, ведущего канала, эта технология может стать тем самым «недостающим звеном», которое позволит соединить способность языковых моделей к решению общих задач с superhuman-эффективностью узкоспециализированных систем вроде AlphaGo.

🎮 Видеоигры как полигон для обучения ИИ 6:36

Почему ведущие лаборатории ИИ, такие как Google DeepMind, OpenAI и NVIDIA, тратят огромные ресурсы на обучение агентов игре в Minecraft или StarCraft? Ответ кроется в необходимости создания «фундаментальных агентов».

AlphaStar и StarCraft II: Еще в 2019 году система AlphaStar от Google DeepMind достигла уровня гроссмейстеров в StarCraft II, используя многоагентное обучение с подкреплением и метод самоигры (self-play).
Minecraft как бесконечная среда: Minecraft считается идеальной платформой из-за открытого мира и отсутствия фиксированного сюжета. Проект Voyager от NVIDIA, работающий на базе GPT-4, продемонстрировал способность к пожизненному обучению (lifelong learning), самостоятельно осваивая новые навыки без вмешательства человека.
Generalist-агенты: Идея заключается в том, что если агент способен освоить 10 000 различных виртуальных симуляций, он сможет обобщить этот опыт и успешно функционировать в реальном физическом мире, который для него станет просто «следующей реальностью».

🧠 Данные, которых не было в учебниках 17:28

Одним из ключевых барьеров для дальнейшего развития ИИ часто называют дефицит обучающих данных. Однако Сэм Альтман в своих интервью намекает на то, что классические подходы к сбору данных могут быть пересмотрены.

По мнению автора видео, человеческие данные послужили своего рода «загрузчиком» для ИИ, но по мере роста сложности задач системы переходят на генерацию собственных данных. В процессе самообучения через симуляции ИИ создает «синтетические данные» невероятно высокого качества, содержащие стратегии и решения, которые невозможно найти в существующих текстах.

Исследователи из Microsoft, Stanford и UCLA в работе «Interactive Agent Foundation Model» доказали, что ИИ может обучаться, анализируя видеопотоки из игровых сред и предсказывая последующие действия. Это позволяет системе не просто «видеть» картинку, а понимать причинно-следственные связи и выстраивать навигацию в пространстве.

🚀 Илья Суцкевер и путь к SSI 36:58

Фигура Ильи Суцкевера, бывшего главного научного сотрудника OpenAI, находится в центре дискуссий о будущем отрасли. Его уход из OpenAI и создание собственной компании, сфокусированной исключительно на «безопасном сверхразуме» (Safe Superintelligence, SSI), вызывает массу вопросов.

Версия 1: Суцкевер знает фундаментальные секреты того, как достичь сверхразума, и его новая компания — прямой путь к реализации этих наработок без отвлечения на коммерческие продукты.
Версия 2: Заявления о создании сверхразума — это лишь маркетинговый ход для привлечения инвестиций, характерный для текущей «хайповой» атмосферы в индустрии стартапов.

Уэс Рот подчеркивает: Суцкевер присутствовал у истоков всех значимых экспериментов OpenAI, включая проект Universe 2016 года, где агентов обучали управлять компьютером через пиксели на экране. Возможно, именно там были заложены основы того, что сегодня называют Q*.