Демис Хассабис о «интеллектуальном взрыве» и будущем самосовершенствующегося ИИ

Wes Roth 31,9 тыс. 11 мин 4 мин 26.05.2025
Главное

В новом аналитическом обзоре Уэс Рот обсуждает будущее искусственного интеллекта с Демисом Хассабисом, сооснователем и генеральным директором Google DeepMind. В центре дискуссии — концепция «интеллектуального взрыва», переход от обучения на человеческих данных к системам самосовершенствования и объединение архитектуры больших языковых моделей (LLM) с алгоритмами усиленного обучения, которые ранее позволили AlphaZero стать непобедимым в шахматах и го.

🚀 Философия «интеллектуального взрыва» и комбинаторные системы 0:00

Демис Хассабис, отвечая на вопрос о возможности «интеллектуального взрыва», подчеркивает, что его команда стремится не к бесконтрольному процессу, а к созданию управляемых и эффективных систем самообучения . В Google DeepMind сейчас ведутся исследования по объединению различных подходов: например, методов эволюционного программирования с мощными базовыми моделями (foundation models) .

По мнению Хассабиса, именно комбинаторные системы — те, что сочетают в себе разные технологические подходы — станут ключом к следующему качественному скачку. Одним из таких направлений является создание циклов самосовершенствования (self-improvement loops), где ИИ находит способы улучшать собственные алгоритмы, что может привести к значительному ускорению прогресса по сравнению с текущими темпами .

Однако Хассабис призывает к осторожности в прогнозах:

🏆 Урок AlphaGo Zero: почему человеческие данные — это «багаж» 1:21

Ведущий Уэс Рот анализирует историю успеха AlphaGo как фундаментальный кейс для будущего ИИ. Существует принципиальная разница между двумя версиями этой системы:

  1. AlphaGo Lee (зеленая линия на графике) обучалась на миллионах партий, сыгранных людьми. Она научилась имитировать лучшие человеческие ходы и в 2016 году победила чемпиона мира Ли Седоля .
  2. AlphaGo Zero (синяя линия) начинала с «чистого листа» (blank slate). Она не использовала человеческий опыт, а играла сама с собой, обучаясь методом проб и ошибок .

Уэс Рот подчеркивает, что отказ от человеческих данных позволил системе избавиться от «багажа» — предвзятых идей и когнитивных искажений о том, как правильно играть. Результаты оказались ошеломляющими:

По мнению автора канала, этот успех доказывает: если позволить ИИ обучаться автономно в среде, где возможна четкая оценка результата, он достигает уровня, недоступного при обучении «под присмотром» человека .

🧪 Конвергенция «двух деревьев технологий» 3:10

Уэс Рот и приглашенные эксперты обсуждают слияние двух ранее раздельных направлений развития ИИ. С одной стороны — узкоспециализированные сверхчеловеческие системы (как AlphaZero), с другой — универсальные, но не всегда точные языковые модели (LLM).

В текущей индустрии ИИ намечается смещение акцентов в использовании вычислительных мощностей (compute):

Согласно прогнозам представителей OpenAI, следующая «большая волна» будет связана именно с масштабированием RL-вычислений . Nvidia также движется в этом направлении, используя платформу Isaac Gym для обучения роботов в симуляциях перед выходом в реальный мир . Уэс Рот полагает, что если удастся масштабировать RL для задач программирования (кодинга), мы увидим невероятно быстрый прогресс .

💻 Код как ключ к универсальному разуму 5:07

Ключевым примером применения методов самообучения в 2024 году стала работа исследователей над системой под названием Absolute Reasoner. Эта модель обучается программированию без участия человека и без предварительной разметки данных (supervised fine-tuning) .

Архитектура системы включает две модели:

  1. «Предлагающий» (Proposer): Генерирует задачи и проблемы для решения .
  2. «Решающий» (Solver): Пытается найти программный код, который решит поставленную задачу.

В ходе эксперимента возник цикл: решающая модель становится лучше, что заставляет предлагающую модель генерировать более сложные задачи. Это позволяет системе «вырваться за стеклянный потолок» существующих ограничений .

Важнейшее наблюдение, на которое указывает Уэс Рот: по мере того как система улучшала свои навыки в написании кода, она автоматически начинала лучше решать математические задачи, хотя математике её специально не учили . Автор задается «вопросом на 64 миллиона долларов»: не является ли обучение коду через RL кратчайшим путем к развитию общего логического мышления (generic reasoning)? .

📈 Будущее вычислений: RL против Pre-training 9:11

В завершение Уэс Рот демонстрирует концептуальную схему от Sequoia Capital AI Summit. На ней показано соотношение затрат ресурсов в нынешних моделях: огромный круг пре-трейнинга и крошечная «вишенка на торте» — RL-обучение .

Перспектива, которую видят лидеры рынка (DeepMind, OpenAI), заключается в инверсии этой схемы. Будущие модели будут тратить основную часть вычислительной энергии не на зазубривание интернета, а на процесс Reinforcement Learning . Это позволит создавать системы, которые, подобно AlphaGo Zero, будут побеждать человеческие аналоги со счетом 100:0 в прикладных областях:

Уэс Рот резюмирует, что мы находимся в точке слияния «двух технологических деревьев», и ближайшие пару лет покажут, приведет ли этот подход к стремительному взлету возможностей ИИ или же индустрия столкнется с очередной «зимой» из-за сложности переноса игровых методов в реальный мир .

💬 Цитаты

«Мы знаем, что это возможно, но опять же, те успехи были в ограниченных игровых доменах. Реальный мир намного грязнее и сложнее.»

Демис Хассабис 01:07

«Человеческие данные — это не только подсказки, но и багаж наших собственных предвзятых мнений о том, как играть.»

«Следующая большая волна — это RL compute, направление огромных мощностей на среды усиленного обучения.»

👥 Спикеры
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Reinforcement Learning (RL)
Метод машинного обучения, при котором система получает награды за правильные действия и штрафы за ошибки, обучаясь на собственном опыте.
Self-play
Техника обучения, при которой ИИ играет против самого себя, чтобы бесконечно улучшать свои стратегии без внешней помощи.
Compute (вычислительные мощности)
Ресурсы процессоров и видеокарт, необходимые для обучения и работы нейросетей.
Foundation Models
Базовые нейросети, обученные на гигантских объемах данных, которые можно адаптировать под широкий круг задач.
📊 Цифры
🗓 Хронология
  1. 2016 AlphaGo Lee побеждает чемпиона мира Ли Седоля, используя человеческие данные.
  2. 2017 Выход AlphaGo Zero, доказавшей превосходство самообучения (self-play).
  3. 2024 Публикация работы по Absolute Reasoner и смещение фокуса индустрии на RL compute.
⚖️ Другая сторона
Искусственный интеллект Demis Hassabis Google DeepMind AlphaZero Reinforcement Learning OpenAI