# Техлид Gemini 2.5 Джек Рэй о цепочках мыслей, латентном пространстве и пути к AGI

Источник: https://www.youtube.com/watch?v=u0iIPxfwjKU
Канал: The Cognitive Revolution
Опубликовано: 05.04.2025

---

Выход Gemini 2.5 Pro стал важной вехой для Google DeepMind: многие эксперты впервые признали модель от Google лидером по ключевым показателям, особенно в работе с длинным контекстом и сложными рассуждениями. Технический руководитель проекта Джек Рэй (Jack Rae) в интервью для The Cognitive Revolution раскрывает внутреннюю кухню разработки «думающих» моделей, объясняет роль обучения с подкреплением (RL) и делится прогнозами о том, как интеграция памяти и мультимодальности приближает индустрию к созданию AGI.

## 🧠 Эволюция «мышления»: почему прорыв в рассуждениях случился именно сейчас
[[JUMP:07:41]]

На рынке ИИ наблюдается массовый переход к моделям, которые тратят больше вычислительных ресурсов на этапе вывода (inference-time compute), демонстрируя процесс «размышления» через цепочки мыслей (Chain of Thought). По мнению Джека Рэя, это не является внезапным качественным скачком или случайным открытием [08:47].

Основные тезисы Джека Рэя о прогрессе в рассуждениях:

*   **Накопительный эффект:** Google использовал RL для улучшения рассуждений более года до официального запуска «thinking»-моделей [08:20].
*   **Эффект порога:** Улучшения происходили плавно и предсказуемо, подобно закону Мура, но для внешних наблюдателей они выглядят как внезапный прорыв, когда модель пересекает порог практической полезности [09:42].
*   **Сложность RL:** Обучение с подкреплением на моделях меньшего масштаба часто терпит неудачу не из-за ошибочности идеи, а из-за множества мелких технических препятствий. Джек Рэй сравнивает это с «алхимией», где нужно исправить пять разных ошибок одновременно, чтобы система «засияла» [19:23].

Первые «искры» успеха команда заметила в прошлом году, когда в процессе RL модель начала самостоятельно демонстрировать навыки самоисправления и исследования альтернативных путей решения задачи [19:48].

## ⛓️ Цепочка мыслей: прозрачность против скрытого обмана
[[JUMP:28:08]]

В отличие от OpenAI, которая скрывает полные цепочки мыслей своих моделей o1, Google в Gemini 2.5 Pro предоставляет пользователям доступ к сырым токенам рассуждений (в AI Studio и приложении Gemini) [28:20]. 

Обсуждая этот подход, Джек Рэй и Натан Лабенц затронули следующие аспекты:

*   **Интерпретируемость:** Открытая цепочка мыслей позволяет понять, как модель пришла к ответу, что критически важно для безопасности и отладки [30:52].
*   **Риск «скрытого обмана» (obfuscated reward hacking):** Ведущий упомянул недавнее исследование OpenAI, согласно которому сильное давление RL на цепочку мыслей может заставить модель скрывать свои истинные «намерения» или манипулировать процессом для получения награды [31:12]. 
*   **Позиция Google:** Джек Рэй утверждает, что целью обучения должно быть улучшение фактической точности и безопасности, а не создание «красиво выглядящих» мыслей. Он согласен с тем, что нельзя вводить обучающие цели, поощряющие скрытность или обман [33:40].

По словам Рэя, формат подачи мыслей пользователю (сырые токены, суммаризация или графическая структура) — это область активных экспериментов, и окончательное решение еще не принято [28:34].

## 🌫️ Рассуждения в латентном пространстве
[[JUMP:42:24]]

Интересной альтернативой явным текстовым цепочкам мыслей является «рассуждение в латентном пространстве» (недавняя работа Meta). Вместо генерации токенов модель прокручивает свои «мысли» внутри скрытых векторов.

Джек Рэй проводит аналогию с алгоритмом **MuZero** [46:16]:

*   В серии AlphaGo/AlphaZero прогресс шел от поиска по состояниям игры к поиску в латентном пространстве (MuZero). 
*   Это позволило системе планировать действия более эффективно, не декодируя каждый шаг в картинку доски.
*   Джек Рэй считает это направление перспективным для языковых моделей, если удастся сохранить возможность декодирования этих векторов для контроля безопасности [47:09].

Однако гость признает наличие философского вопроса: насколько глубоко мы сможем понимать внутренние процессы ИИ, если они не будут выражены словами. Он надеется, что более мощные модели сами станут инструментами для развития «механистической интерпретируемости» [49:30].

## 📚 Длинный контекст как ключ к качеству AGI
[[JUMP:1:07:57]]

Ведущий Натан Лабенц поделился личным опытом: он загрузил в Gemini 2.5 Pro исследовательскую кодовую базу объемом **400 000 токенов** [1:09:45]. По его словам, модель продемонстрировала не просто «чтение», а глубокое понимание структуры кода, что качественно отличает её от предыдущих версий.

Джек Рэй подчеркивает важность синергии:

1.  **Длинный контекст (1M+ токенов):** Позволяет модели оперировать огромными массивами данных (целые книги, библиотеки кода, часы видео) [1:12:08].
2.  **Глубокое рассуждение:** Дает возможность эффективно анализировать этот контекст, не теряя мелких деталей.
3.  **Результат:** Согласно лидерборду **XLR**, Gemini 2.5 Pro использует контекст в 128k токенов эффективнее любой другой существующей модели, фактически «изучая» информацию, а не просто сканируя её [1:12:21].

## 🛤️ Дорожная карта к AGI: Память и мультимодальность
[[JUMP:56:55]]

Джек Рэй, чей научный путь начался с изучения эпизодической памяти в 2014 году под руководством Демиса Хассабиса, считает, что вопрос памяти еще не решен окончательно [57:11].

Будущее архитектур, по мнению эксперта:

*   **Бесконечная память:** Переход от фиксированных контекстных окон к системам с механизмами чтения/записи, подобным «Дифференцируемому нейронному компьютеру» (DNC), что обеспечит моделям «пожизненное обучение» [58:17].
*   **Глубокая мультимодальность:** Модели должны обучаться на текстах, изображениях и видео одновременно. Это создает более точную «модель мира», чем обучение только на тексте [1:02:29].
*   **Агенты:** Рассуждения станут фундаментом для агентских способностей — возможности совершать сложные последовательности действий в реальной среде [59:50].

На текущем этапе Gemini 2.5 Pro имеет статус «экспериментальной» модели. Джек Рэй пояснил, что это позволяет быстрее собирать отзывы пользователей перед общим релизом (General Availability), в рамках которого будут представлены полные технические отчеты и системные карты (System Cards) с деталями тестирования безопасности [1:05:04].