Сергей Брин о будущем Gemini: «Прогнозы Курцвейла теперь кажутся консервативными»

Спустя десятилетия после того, как Сергей Брин и Ларри Пейдж основали Google, компания переживает один из самых интенсивных периодов трансформации в своей истории. В беседе с Логаном Килпатриком на конференции I/O Сергей Брин поделился своим видением того, как ИИ меняет ДНК компании, почему современный прогресс кажется ему одновременно предсказуемым и поразительным, и почему он решил лично вернуться к работе «в полях» над моделями Gemini.

🧱 Фокус на Gemini: от текста к самосовершенствованию 2:53

Несмотря на широчайший спектр анонсов Google в сфере генеративных медиа (видео, музыка, изображения), Сергей Брин подчеркивает, что его основные усилия сосредоточены на «core text model» — основной текстовой модели Gemini . Брин считает это направление стратегически приоритетным по нескольким причинам:

Самосовершенствование (Self-improvement): Текстовые модели — это фундамент, который позволит ИИ в будущем помогать в написании кода и развитии самой науки об искусственном интеллекте .
Инструмент для работы: По признанию Брина, он сам всё чаще полагается на Gemini при решении математических задач и написании программного кода . Если раньше ИИ мог «споткнуться» на сложных участках, то теперь качество генерации всё чаще находится на уровне опытного специалиста.
Замена человеческих усилий: Брин, самокритично оценивая свои художественные таланты, отмечает, что генеративные модели (такие как Veo) выполняют за минуты работу, на которую у профессионального видеографа или 3D-редактора ушел бы месяц .

Особое внимание Брин уделил запуску нативной поддержки аудио в Gemini. По его словам, технологически эта база была заложена в модель еще год назад , однако процесс подготовки к релизу и прохождение всех внутренних «ступеней» заняли больше времени, чем ожидалось.

👁️ За кулисами обучения: как «растут» модели 8:58

Одной из самых захватывающих частей работы, по мнению Брина, является наблюдение за промежуточными результатами обучения (training runs). Этот процесс он описывает как наблюдение за развитием организма:

Промежуточные точки: Разработчики тестируют чекпоинты на 10%, 20% и более этапах обучения .
Траектория развития: Несмотря на слабость модели на ранних этапах, инженеры могут видеть траекторию её будущего прогресса.
Визуализация процесса: В моделях генерации видео (Veo) на ранних стадиях можно увидеть лишь неясные формы и услышать искаженные звуки, которые постепенно обретают четкость к концу забега .

Брин признается, что участие в таких «просмотрах» вызывает смесь нервного напряжения и азарта, так как на кону стоят огромные вычислительные ресурсы и большие ожидания .

🤔 Сюрпризы сингулярности: реальность против ожиданий 10:07

Обсуждая прогнозы футуролога Рэя Курцвейла, который предсказывал наступление технологической сингулярности к 2029–2045 годам, Брин отмечает, что сегодня эти предсказания кажутся даже «консервативными» . Хотя возможность появления ИИ обсуждалась в Google еще 15 лет назад, реальность оказалась полна сюрпризов:

Доминирование LLM: По словам Брина, 15 лет назад не было очевидно, что именно языковые модели станут основным драйвером ИИ . В то время многие, включая DeepMind, ставили на «физическое заземление» (обучение роботов в реальном мире) .
Интерпретируемость: Неожиданным плюсом «думающих» моделей (reasoning models) стала их прозрачность. Вместо того чтобы пытаться анализировать миллиарды весов нейросети, разработчики могут буквально прочитать цепочку рассуждений модели, что значительно повышает безопасность .
Масштабируемость рассуждений: Проект Deep Think демонстрирует новый подход — возможность модели «думать» над задачей дольше . Брин считает, что если дать ИИ не секунду, а час или день на обдумывание сложной проблемы, это может привести к колоссальным научным прорывам .

🚀 Культура стартапа внутри гиганта 20:19

Сергей Брин согласен с ведущим в том, что Google сейчас переживает фазу «переизобретения» . После периода адаптации к мобильным технологиям и облачным вычислениям, компания вернулась к своим истокам, ведь работа с данными и машинное обучение всегда были в её ДНК .

Ускорение 2024–2025: Брин подчеркивает, что темпы запусков в последний год значительно выросли. Модель Gemini 1.5 Pro стала качественным скачком, а последовавший за ней запуск 1.5 Flash позволил занять лидирующие позиции сразу в нескольких категориях бенчмарков .
Работа с «железом»: Успех ИИ невозможен без аппаратной базы. В качестве символического жеста Логан Килпатрик вручил Брину процессор TPU v4 (кодовое имя Pufferfish), который еще недавно был самым дефицитным ресурсом для обучения нейросетей . Брин в шутку поинтересовался, не забрали ли этот чип из работающего дата-центра, так как компании по-прежнему нужно каждое свободное ядро .

В завершение Сергей Брин отметил важность обратной связи от пользователей и работы над такими нюансами, как кэширование, вызов функций (function calling) и стабильность систем при огромных нагрузках . Для него нынешний момент в Google — это не просто релизы продуктов, а масштабная научная работа, которая только начинает приносить плоды.