# Демис Хассабис о «интеллектуальном взрыве» и будущем самосовершенствующегося ИИ

Источник: https://www.youtube.com/watch?v=5gyenH7Gf_c
Канал: Wes Roth
Опубликовано: 26.05.2025

---

В новом аналитическом обзоре Уэс Рот обсуждает будущее искусственного интеллекта с Демисом Хассабисом, сооснователем и генеральным директором Google DeepMind. В центре дискуссии — концепция «интеллектуального взрыва», переход от обучения на человеческих данных к системам самосовершенствования и объединение архитектуры больших языковых моделей (LLM) с алгоритмами усиленного обучения, которые ранее позволили AlphaZero стать непобедимым в шахматах и го.

## 🚀 Философия «интеллектуального взрыва» и комбинаторные системы
[[JUMP:00:00]]

Демис Хассабис, отвечая на вопрос о возможности «интеллектуального взрыва», подчеркивает, что его команда стремится не к бесконтрольному процессу, а к созданию управляемых и эффективных систем самообучения [0:00]. В Google DeepMind сейчас ведутся исследования по объединению различных подходов: например, методов эволюционного программирования с мощными базовыми моделями (foundation models) [0:12]. 

По мнению Хассабиса, именно комбинаторные системы — те, что сочетают в себе разные технологические подходы — станут ключом к следующему качественному скачку. Одним из таких направлений является создание циклов самосовершенствования (self-improvement loops), где ИИ находит способы улучшать собственные алгоритмы, что может привести к значительному ускорению прогресса по сравнению с текущими темпами [0:40]. 

Однако Хассабис призывает к осторожности в прогнозах:

*   Системы вроде AlphaZero доказали свою эффективность в жестко ограниченных доменах игр (шахматы, го, сёги), где правила четко прописаны [0:53].
*   Реальный мир, как отмечает глава DeepMind, намного «грязнее» и сложнее игрового поля [1:07].
*   Пока остается открытым вопрос, насколько методы самосовершенствования, сработавшие в играх, применимы к общим задачам в непредсказуемой человеческой среде.

## 🏆 Урок AlphaGo Zero: почему человеческие данные — это «багаж»
[[JUMP:01:21]]

Ведущий Уэс Рот анализирует историю успеха AlphaGo как фундаментальный кейс для будущего ИИ. Существует принципиальная разница между двумя версиями этой системы:

1.  **AlphaGo Lee** (зеленая линия на графике) обучалась на миллионах партий, сыгранных людьми. Она научилась имитировать лучшие человеческие ходы и в 2016 году победила чемпиона мира Ли Седоля [1:49].
2.  **AlphaGo Zero** (синяя линия) начинала с «чистого листа» (blank slate). Она не использовала человеческий опыт, а играла сама с собой, обучаясь методом проб и ошибок [2:01].

Уэс Рот подчеркивает, что отказ от человеческих данных позволил системе избавиться от «багажа» — предвзятых идей и когнитивных искажений о том, как правильно играть. Результаты оказались ошеломляющими:

*   Уже через 36 часов тренировок AlphaGo Zero превзошла версию Lee [2:28].
*   На 72-й час обучения Zero победила версию Lee со счетом 100:0 [2:42].
*   Система стала лучшим игроком в го в истории человечества, найдя стратегии, которые люди не могли обнаружить веками.

По мнению автора канала, этот успех доказывает: если позволить ИИ обучаться автономно в среде, где возможна четкая оценка результата, он достигает уровня, недоступного при обучении «под присмотром» человека [2:56].

## 🧪 Конвергенция «двух деревьев технологий»
[[JUMP:03:10]]

Уэс Рот и приглашенные эксперты обсуждают слияние двух ранее раздельных направлений развития ИИ. С одной стороны — узкоспециализированные сверхчеловеческие системы (как AlphaZero), с другой — универсальные, но не всегда точные языковые модели (LLM).

В текущей индустрии ИИ намечается смещение акцентов в использовании вычислительных мощностей (compute):

*   **Pre-training compute:** Огромные ресурсы, затрачиваемые на предварительное обучение модели на текстах из интернета [4:03].
*   **Test-time compute:** Вычисления, происходящие в момент ответа модели пользователю.
*   **RL compute:** Усиленное обучение (Reinforcement Learning), требующее колоссальных мощностей для процесса самообучения модели в симуляциях [4:16].

Согласно прогнозам представителей OpenAI, следующая «большая волна» будет связана именно с масштабированием RL-вычислений [4:03]. Nvidia также движется в этом направлении, используя платформу Isaac Gym для обучения роботов в симуляциях перед выходом в реальный мир [4:29]. Уэс Рот полагает, что если удастся масштабировать RL для задач программирования (кодинга), мы увидим невероятно быстрый прогресс [4:42].

## 💻 Код как ключ к универсальному разуму
[[JUMP:05:07]]

Ключевым примером применения методов самообучения в 2024 году стала работа исследователей над системой под названием **Absolute Reasoner**. Эта модель обучается программированию без участия человека и без предварительной разметки данных (supervised fine-tuning) [5:07].

Архитектура системы включает две модели:

1.  **«Предлагающий» (Proposer):** Генерирует задачи и проблемы для решения [5:34].
2.  **«Решающий» (Solver):** Пытается найти программный код, который решит поставленную задачу.

В ходе эксперимента возник цикл: решающая модель становится лучше, что заставляет предлагающую модель генерировать более сложные задачи. Это позволяет системе «вырваться за стеклянный потолок» существующих ограничений [7:48].

Важнейшее наблюдение, на которое указывает Уэс Рот: по мере того как система улучшала свои навыки в написании кода, она автоматически начинала лучше решать математические задачи, хотя математике её специально не учили [8:44]. Автор задается «вопросом на 64 миллиона долларов»: не является ли обучение коду через RL кратчайшим путем к развитию общего логического мышления (generic reasoning)? [8:56].

## 📈 Будущее вычислений: RL против Pre-training
[[JUMP:09:11]]

В завершение Уэс Рот демонстрирует концептуальную схему от Sequoia Capital AI Summit. На ней показано соотношение затрат ресурсов в нынешних моделях: огромный круг пре-трейнинга и крошечная «вишенка на торте» — RL-обучение [9:24].

Перспектива, которую видят лидеры рынка (DeepMind, OpenAI), заключается в инверсии этой схемы. Будущие модели будут тратить основную часть вычислительной энергии не на зазубривание интернета, а на процесс Reinforcement Learning [9:37]. Это позволит создавать системы, которые, подобно AlphaGo Zero, будут побеждать человеческие аналоги со счетом 100:0 в прикладных областях:

*   **Программирование:** Написание идеального, оптимизированного кода.
*   **Математика:** Доказательство теорем и решение сложнейших уравнений.
*   **Логика:** Обработка юридических и научных данных с абсолютной точностью.

Уэс Рот резюмирует, что мы находимся в точке слияния «двух технологических деревьев», и ближайшие пару лет покажут, приведет ли этот подход к стремительному взлету возможностей ИИ или же индустрия столкнется с очередной «зимой» из-за сложности переноса игровых методов в реальный мир [6:15].