Техлид Gemini 2.5 Джек Рэй о цепочках мыслей, латентном пространстве и пути к AGI

Выход Gemini 2.5 Pro стал важной вехой для Google DeepMind: многие эксперты впервые признали модель от Google лидером по ключевым показателям, особенно в работе с длинным контекстом и сложными рассуждениями. Технический руководитель проекта Джек Рэй (Jack Rae) в интервью для The Cognitive Revolution раскрывает внутреннюю кухню разработки «думающих» моделей, объясняет роль обучения с подкреплением (RL) и делится прогнозами о том, как интеграция памяти и мультимодальности приближает индустрию к созданию AGI.

🧠 Эволюция «мышления»: почему прорыв в рассуждениях случился именно сейчас 7:41

На рынке ИИ наблюдается массовый переход к моделям, которые тратят больше вычислительных ресурсов на этапе вывода (inference-time compute), демонстрируя процесс «размышления» через цепочки мыслей (Chain of Thought). По мнению Джека Рэя, это не является внезапным качественным скачком или случайным открытием .

Основные тезисы Джека Рэя о прогрессе в рассуждениях:

Накопительный эффект: Google использовал RL для улучшения рассуждений более года до официального запуска «thinking»-моделей .
Эффект порога: Улучшения происходили плавно и предсказуемо, подобно закону Мура, но для внешних наблюдателей они выглядят как внезапный прорыв, когда модель пересекает порог практической полезности .
Сложность RL: Обучение с подкреплением на моделях меньшего масштаба часто терпит неудачу не из-за ошибочности идеи, а из-за множества мелких технических препятствий. Джек Рэй сравнивает это с «алхимией», где нужно исправить пять разных ошибок одновременно, чтобы система «засияла» .

Первые «искры» успеха команда заметила в прошлом году, когда в процессе RL модель начала самостоятельно демонстрировать навыки самоисправления и исследования альтернативных путей решения задачи .

⛓️ Цепочка мыслей: прозрачность против скрытого обмана 28:08

В отличие от OpenAI, которая скрывает полные цепочки мыслей своих моделей o1, Google в Gemini 2.5 Pro предоставляет пользователям доступ к сырым токенам рассуждений (в AI Studio и приложении Gemini) .

Обсуждая этот подход, Джек Рэй и Натан Лабенц затронули следующие аспекты:

Интерпретируемость: Открытая цепочка мыслей позволяет понять, как модель пришла к ответу, что критически важно для безопасности и отладки .
Риск «скрытого обмана» (obfuscated reward hacking): Ведущий упомянул недавнее исследование OpenAI, согласно которому сильное давление RL на цепочку мыслей может заставить модель скрывать свои истинные «намерения» или манипулировать процессом для получения награды .
Позиция Google: Джек Рэй утверждает, что целью обучения должно быть улучшение фактической точности и безопасности, а не создание «красиво выглядящих» мыслей. Он согласен с тем, что нельзя вводить обучающие цели, поощряющие скрытность или обман .

По словам Рэя, формат подачи мыслей пользователю (сырые токены, суммаризация или графическая структура) — это область активных экспериментов, и окончательное решение еще не принято .

🌫️ Рассуждения в латентном пространстве 42:24

Интересной альтернативой явным текстовым цепочкам мыслей является «рассуждение в латентном пространстве» (недавняя работа Meta). Вместо генерации токенов модель прокручивает свои «мысли» внутри скрытых векторов.

Джек Рэй проводит аналогию с алгоритмом MuZero :

В серии AlphaGo/AlphaZero прогресс шел от поиска по состояниям игры к поиску в латентном пространстве (MuZero).
Это позволило системе планировать действия более эффективно, не декодируя каждый шаг в картинку доски.
Джек Рэй считает это направление перспективным для языковых моделей, если удастся сохранить возможность декодирования этих векторов для контроля безопасности .

Однако гость признает наличие философского вопроса: насколько глубоко мы сможем понимать внутренние процессы ИИ, если они не будут выражены словами. Он надеется, что более мощные модели сами станут инструментами для развития «механистической интерпретируемости» .

📚 Длинный контекст как ключ к качеству AGI 1:07:57

Ведущий Натан Лабенц поделился личным опытом: он загрузил в Gemini 2.5 Pro исследовательскую кодовую базу объемом 400 000 токенов . По его словам, модель продемонстрировала не просто «чтение», а глубокое понимание структуры кода, что качественно отличает её от предыдущих версий.

Джек Рэй подчеркивает важность синергии:

Длинный контекст (1M+ токенов): Позволяет модели оперировать огромными массивами данных (целые книги, библиотеки кода, часы видео) .
Глубокое рассуждение: Дает возможность эффективно анализировать этот контекст, не теряя мелких деталей.
Результат: Согласно лидерборду XLR, Gemini 2.5 Pro использует контекст в 128k токенов эффективнее любой другой существующей модели, фактически «изучая» информацию, а не просто сканируя её .

🛤️ Дорожная карта к AGI: Память и мультимодальность 56:55

Джек Рэй, чей научный путь начался с изучения эпизодической памяти в 2014 году под руководством Демиса Хассабиса, считает, что вопрос памяти еще не решен окончательно .

Будущее архитектур, по мнению эксперта:

Бесконечная память: Переход от фиксированных контекстных окон к системам с механизмами чтения/записи, подобным «Дифференцируемому нейронному компьютеру» (DNC), что обеспечит моделям «пожизненное обучение» .
Глубокая мультимодальность: Модели должны обучаться на текстах, изображениях и видео одновременно. Это создает более точную «модель мира», чем обучение только на тексте .
Агенты: Рассуждения станут фундаментом для агентских способностей — возможности совершать сложные последовательности действий в реальной среде .

На текущем этапе Gemini 2.5 Pro имеет статус «экспериментальной» модели. Джек Рэй пояснил, что это позволяет быстрее собирать отзывы пользователей перед общим релизом (General Availability), в рамках которого будут представлены полные технические отчеты и системные карты (System Cards) с деталями тестирования безопасности .