Выход Gemini 2.5 Pro стал важной вехой для Google DeepMind: многие эксперты впервые признали модель от Google лидером по ключевым показателям, особенно в работе с длинным контекстом и сложными рассуждениями. Технический руководитель проекта Джек Рэй (Jack Rae) в интервью для The Cognitive Revolution раскрывает внутреннюю кухню разработки «думающих» моделей, объясняет роль обучения с подкреплением (RL) и делится прогнозами о том, как интеграция памяти и мультимодальности приближает индустрию к созданию AGI.
🧠 Эволюция «мышления»: почему прорыв в рассуждениях случился именно сейчас 7:41
На рынке ИИ наблюдается массовый переход к моделям, которые тратят больше вычислительных ресурсов на этапе вывода (inference-time compute), демонстрируя процесс «размышления» через цепочки мыслей (Chain of Thought). По мнению Джека Рэя, это не является внезапным качественным скачком или случайным открытием .
Основные тезисы Джека Рэя о прогрессе в рассуждениях:
- Накопительный эффект: Google использовал RL для улучшения рассуждений более года до официального запуска «thinking»-моделей .
- Эффект порога: Улучшения происходили плавно и предсказуемо, подобно закону Мура, но для внешних наблюдателей они выглядят как внезапный прорыв, когда модель пересекает порог практической полезности .
- Сложность RL: Обучение с подкреплением на моделях меньшего масштаба часто терпит неудачу не из-за ошибочности идеи, а из-за множества мелких технических препятствий. Джек Рэй сравнивает это с «алхимией», где нужно исправить пять разных ошибок одновременно, чтобы система «засияла» .
Первые «искры» успеха команда заметила в прошлом году, когда в процессе RL модель начала самостоятельно демонстрировать навыки самоисправления и исследования альтернативных путей решения задачи .
⛓️ Цепочка мыслей: прозрачность против скрытого обмана 28:08
В отличие от OpenAI, которая скрывает полные цепочки мыслей своих моделей o1, Google в Gemini 2.5 Pro предоставляет пользователям доступ к сырым токенам рассуждений (в AI Studio и приложении Gemini) .
Обсуждая этот подход, Джек Рэй и Натан Лабенц затронули следующие аспекты:
- Интерпретируемость: Открытая цепочка мыслей позволяет понять, как модель пришла к ответу, что критически важно для безопасности и отладки .
- Риск «скрытого обмана» (obfuscated reward hacking): Ведущий упомянул недавнее исследование OpenAI, согласно которому сильное давление RL на цепочку мыслей может заставить модель скрывать свои истинные «намерения» или манипулировать процессом для получения награды .
- Позиция Google: Джек Рэй утверждает, что целью обучения должно быть улучшение фактической точности и безопасности, а не создание «красиво выглядящих» мыслей. Он согласен с тем, что нельзя вводить обучающие цели, поощряющие скрытность или обман .
По словам Рэя, формат подачи мыслей пользователю (сырые токены, суммаризация или графическая структура) — это область активных экспериментов, и окончательное решение еще не принято .
🌫️ Рассуждения в латентном пространстве 42:24
Интересной альтернативой явным текстовым цепочкам мыслей является «рассуждение в латентном пространстве» (недавняя работа Meta). Вместо генерации токенов модель прокручивает свои «мысли» внутри скрытых векторов.
Джек Рэй проводит аналогию с алгоритмом MuZero :
- В серии AlphaGo/AlphaZero прогресс шел от поиска по состояниям игры к поиску в латентном пространстве (MuZero).
- Это позволило системе планировать действия более эффективно, не декодируя каждый шаг в картинку доски.
- Джек Рэй считает это направление перспективным для языковых моделей, если удастся сохранить возможность декодирования этих векторов для контроля безопасности .
Однако гость признает наличие философского вопроса: насколько глубоко мы сможем понимать внутренние процессы ИИ, если они не будут выражены словами. Он надеется, что более мощные модели сами станут инструментами для развития «механистической интерпретируемости» .
📚 Длинный контекст как ключ к качеству AGI 1:07:57
Ведущий Натан Лабенц поделился личным опытом: он загрузил в Gemini 2.5 Pro исследовательскую кодовую базу объемом 400 000 токенов . По его словам, модель продемонстрировала не просто «чтение», а глубокое понимание структуры кода, что качественно отличает её от предыдущих версий.
Джек Рэй подчеркивает важность синергии:
- Длинный контекст (1M+ токенов): Позволяет модели оперировать огромными массивами данных (целые книги, библиотеки кода, часы видео) .
- Глубокое рассуждение: Дает возможность эффективно анализировать этот контекст, не теряя мелких деталей.
- Результат: Согласно лидерборду XLR, Gemini 2.5 Pro использует контекст в 128k токенов эффективнее любой другой существующей модели, фактически «изучая» информацию, а не просто сканируя её .
🛤️ Дорожная карта к AGI: Память и мультимодальность 56:55
Джек Рэй, чей научный путь начался с изучения эпизодической памяти в 2014 году под руководством Демиса Хассабиса, считает, что вопрос памяти еще не решен окончательно .
Будущее архитектур, по мнению эксперта:
- Бесконечная память: Переход от фиксированных контекстных окон к системам с механизмами чтения/записи, подобным «Дифференцируемому нейронному компьютеру» (DNC), что обеспечит моделям «пожизненное обучение» .
- Глубокая мультимодальность: Модели должны обучаться на текстах, изображениях и видео одновременно. Это создает более точную «модель мира», чем обучение только на тексте .
- Агенты: Рассуждения станут фундаментом для агентских способностей — возможности совершать сложные последовательности действий в реальной среде .
На текущем этапе Gemini 2.5 Pro имеет статус «экспериментальной» модели. Джек Рэй пояснил, что это позволяет быстрее собирать отзывы пользователей перед общим релизом (General Availability), в рамках которого будут представлены полные технические отчеты и системные карты (System Cards) с деталями тестирования безопасности .