Демис Хассабис о «интеллектуальном взрыве» и будущем самосовершенствующегося ИИ

В новом аналитическом обзоре Уэс Рот обсуждает будущее искусственного интеллекта с Демисом Хассабисом, сооснователем и генеральным директором Google DeepMind. В центре дискуссии — концепция «интеллектуального взрыва», переход от обучения на человеческих данных к системам самосовершенствования и объединение архитектуры больших языковых моделей (LLM) с алгоритмами усиленного обучения, которые ранее позволили AlphaZero стать непобедимым в шахматах и го.

🚀 Философия «интеллектуального взрыва» и комбинаторные системы 0:00

Демис Хассабис, отвечая на вопрос о возможности «интеллектуального взрыва», подчеркивает, что его команда стремится не к бесконтрольному процессу, а к созданию управляемых и эффективных систем самообучения . В Google DeepMind сейчас ведутся исследования по объединению различных подходов: например, методов эволюционного программирования с мощными базовыми моделями (foundation models) .

По мнению Хассабиса, именно комбинаторные системы — те, что сочетают в себе разные технологические подходы — станут ключом к следующему качественному скачку. Одним из таких направлений является создание циклов самосовершенствования (self-improvement loops), где ИИ находит способы улучшать собственные алгоритмы, что может привести к значительному ускорению прогресса по сравнению с текущими темпами .

Однако Хассабис призывает к осторожности в прогнозах:

Системы вроде AlphaZero доказали свою эффективность в жестко ограниченных доменах игр (шахматы, го, сёги), где правила четко прописаны .
Реальный мир, как отмечает глава DeepMind, намного «грязнее» и сложнее игрового поля .
Пока остается открытым вопрос, насколько методы самосовершенствования, сработавшие в играх, применимы к общим задачам в непредсказуемой человеческой среде.

🏆 Урок AlphaGo Zero: почему человеческие данные — это «багаж» 1:21

Ведущий Уэс Рот анализирует историю успеха AlphaGo как фундаментальный кейс для будущего ИИ. Существует принципиальная разница между двумя версиями этой системы:

AlphaGo Lee (зеленая линия на графике) обучалась на миллионах партий, сыгранных людьми. Она научилась имитировать лучшие человеческие ходы и в 2016 году победила чемпиона мира Ли Седоля .
AlphaGo Zero (синяя линия) начинала с «чистого листа» (blank slate). Она не использовала человеческий опыт, а играла сама с собой, обучаясь методом проб и ошибок .

Уэс Рот подчеркивает, что отказ от человеческих данных позволил системе избавиться от «багажа» — предвзятых идей и когнитивных искажений о том, как правильно играть. Результаты оказались ошеломляющими:

Уже через 36 часов тренировок AlphaGo Zero превзошла версию Lee .
На 72-й час обучения Zero победила версию Lee со счетом 100:0 .
Система стала лучшим игроком в го в истории человечества, найдя стратегии, которые люди не могли обнаружить веками.

По мнению автора канала, этот успех доказывает: если позволить ИИ обучаться автономно в среде, где возможна четкая оценка результата, он достигает уровня, недоступного при обучении «под присмотром» человека .

🧪 Конвергенция «двух деревьев технологий» 3:10

Уэс Рот и приглашенные эксперты обсуждают слияние двух ранее раздельных направлений развития ИИ. С одной стороны — узкоспециализированные сверхчеловеческие системы (как AlphaZero), с другой — универсальные, но не всегда точные языковые модели (LLM).

В текущей индустрии ИИ намечается смещение акцентов в использовании вычислительных мощностей (compute):

Pre-training compute: Огромные ресурсы, затрачиваемые на предварительное обучение модели на текстах из интернета .
Test-time compute: Вычисления, происходящие в момент ответа модели пользователю.
RL compute: Усиленное обучение (Reinforcement Learning), требующее колоссальных мощностей для процесса самообучения модели в симуляциях .

Согласно прогнозам представителей OpenAI, следующая «большая волна» будет связана именно с масштабированием RL-вычислений . Nvidia также движется в этом направлении, используя платформу Isaac Gym для обучения роботов в симуляциях перед выходом в реальный мир . Уэс Рот полагает, что если удастся масштабировать RL для задач программирования (кодинга), мы увидим невероятно быстрый прогресс .

💻 Код как ключ к универсальному разуму 5:07

Ключевым примером применения методов самообучения в 2024 году стала работа исследователей над системой под названием Absolute Reasoner. Эта модель обучается программированию без участия человека и без предварительной разметки данных (supervised fine-tuning) .

Архитектура системы включает две модели:

«Предлагающий» (Proposer): Генерирует задачи и проблемы для решения .
«Решающий» (Solver): Пытается найти программный код, который решит поставленную задачу.

В ходе эксперимента возник цикл: решающая модель становится лучше, что заставляет предлагающую модель генерировать более сложные задачи. Это позволяет системе «вырваться за стеклянный потолок» существующих ограничений .

Важнейшее наблюдение, на которое указывает Уэс Рот: по мере того как система улучшала свои навыки в написании кода, она автоматически начинала лучше решать математические задачи, хотя математике её специально не учили . Автор задается «вопросом на 64 миллиона долларов»: не является ли обучение коду через RL кратчайшим путем к развитию общего логического мышления (generic reasoning)? .

📈 Будущее вычислений: RL против Pre-training 9:11

В завершение Уэс Рот демонстрирует концептуальную схему от Sequoia Capital AI Summit. На ней показано соотношение затрат ресурсов в нынешних моделях: огромный круг пре-трейнинга и крошечная «вишенка на торте» — RL-обучение .

Перспектива, которую видят лидеры рынка (DeepMind, OpenAI), заключается в инверсии этой схемы. Будущие модели будут тратить основную часть вычислительной энергии не на зазубривание интернета, а на процесс Reinforcement Learning . Это позволит создавать системы, которые, подобно AlphaGo Zero, будут побеждать человеческие аналоги со счетом 100:0 в прикладных областях:

Программирование: Написание идеального, оптимизированного кода.
Математика: Доказательство теорем и решение сложнейших уравнений.
Логика: Обработка юридических и научных данных с абсолютной точностью.

Уэс Рот резюмирует, что мы находимся в точке слияния «двух технологических деревьев», и ближайшие пару лет покажут, приведет ли этот подход к стремительному взлету возможностей ИИ или же индустрия столкнется с очередной «зимой» из-за сложности переноса игровых методов в реальный мир .