# Пейдж Бейли на AI Dev 25: Полное руководство по Gemini 2.0, Imagen 3 и Veo 2

Источник: https://www.youtube.com/watch?v=4uNPqAyCyZY
Канал: DeepLearning.AI
Опубликовано: 27.03.2025

---

На конференции AI Dev 25, организованной образовательной платформой DeepLearning.AI, руководитель отдела по связям с разработчиками в Google DeepMind Пейдж Бейли (Paige Bailey) представила подробное практическое руководство по работе со сверхсовременными мультимодальными системами искусственного интеллекта. В своем выступлении она продемонстрировала новейшие возможности флагманского семейства моделей Gemini 2, инструментов генерации и редактирования медиаконтента Veo 2 и Imagen 3, а также экосистему доступных инструментов для инженеров. Презентация была полностью сфокусирована на прикладном применении технологий ИИ в реальной разработке — от низкозатратного анализа потокового видео до создания автономных веб-агентов и автоматизации фундаментальных научных исследований.

## 🌟 Эволюция мультимодальности: От Gemini 2.0 Flash до носимых устройств
[[JUMP:0:40]]

Генеративный ИИ стремительно трансформирует все внутренние и внешние продукты и сервисы Google. Новейшая базовая модель компании — Gemini 2.0 Flash — уже доступна бесплатно для тестирования и интеграции. Ее ключевая технологическая особенность заключается в полноценной двусторонней мультимодальности. Модель способна не просто воспринимать на входе видео, статические изображения, аудиопотоки, текст и сложнейшие комплексные базы кода, но и нативно генерировать мультимодальный контент на выходе. Помимо стандартного текста и программного кода, Gemini 2.0 умеет самостоятельно создавать и редактировать графику, а также вести реалистичный аудиодиалог с пользователем, полностью имитируя живую беседу с приятелем. 

Линейка моделей нового поколения спроектирована под разные вычислительные сценарии и включает четыре основных масштаба:

* **Pro** — самая крупная и универсальная модель для наиболее сложных аналитических и логических задач.
* **Flash** — флагманская модель для массового использования, оптимизированная для развертывания в реальном продакшене.
* **Flashlight** — сверхлегкая, быстрая и экономически эффективная модификация версии Flash.
* **Nano** — компактная модель, оптимизированная для локального выполнения непосредственно на мобильных устройствах Pixel и внутри веб-браузера Chrome.

По словам Пейдж Бейли, локальный запуск Gemini Nano уже доступен разработчикам в экспериментальной сборке Chrome Canary, что позволяет выполнять инференс, генерировать код и обрабатывать текстовые запросы прямо на устройстве пользователя, полностью исключая задержки сети и затраты на облачные сервера. Параллельно с этим Google DeepMind активно внедряет ИИ в физическую робототехнику. В рамках концепции Visual Language Action (VLA) Gemini способна принимать команды на естественном языке через голосовой ввод, самостоятельно компилировать необходимый программный код «под капотом» и передавать инструкции физическим роботам в офисах Google для выполнения бытовых задач — например, уборки разлитой жидкости, подметания полов или доставки предметов.

## 📊 Феномен длинного контекста и экономика ИИ-разработки
[[JUMP:4:21]]

Одним из ключевых технологических преимуществ архитектуры Gemini является поддержка сверхдлинного контекстного окна. В исследовательских экспериментах Google DeepMind объем обрабатываемого контекста уже достигает 10 миллионов токенов. По мнению Пейдж Бейли, ИИ-индустрия пока недостаточно наглядно объясняет пользователям практическую ценность этого прорыва. Окно в 1 миллион токенов, стандартно доступное разработчикам, позволяет полностью отказаться от дорогостоящих и трудоемких этапов тонкой настройки моделей (fine-tuning) или развертывания сложных векторных баз данных (архитектур RAG) на этапе прототипирования. Инженер может передать всю необходимую информацию напрямую в модель в момент инференса.

Чтобы проиллюстрировать масштаб, спикер привела наглядные примеры того, что вмещает в себя 1 миллион токенов:

* Абсолютно все электронные письма, отправленные и полученные человеком за последний год.
* Все текстовые сообщения, которые пользователь способен написать за всю свою жизнь.
* Десятки часов аудиозаписей подкастов.
* Полный первый сезон популярного сериала «Кремниевая долина» (Silicon Valley) без учета рекламных блоков.

Экономическая доступность таких вычислений кардинально меняет подход к обработке персональных и корпоративных данных. Бейли подчеркнула, что стоимость использования легковесной модели вроде Gemini Flashlight составляет всего $0,75 за один миллион токенов. По ее расчетам, это позволяет непрерывно записывать и структурировать абсолютно все действия пользователя на рабочем ноутбуке 24 часа в сутки, 365 дней в году. Еженедельный глубокий анализ этого колоссального массива структурированных данных обойдется разработчику дешевле, чем одна чашка изысканного кофе. Подобная ценовая политика критически важна для Google, чьи экосистемные сервисы используют миллиарды людей по всему миру, требуя оптимального баланса между локальными вычислениями и облачными затратами.

## 🛠️ Практический разбор Google AI Studio: Инструменты и живые демо
[[JUMP:5:43]]

Признавшись в легкой «аллергии на традиционные презентационные слайды», Пейдж Бейли перешла к живым демонстрациям в веб-интерфейсе Google AI Studio. Данная платформа представляет собой среду для быстрой проверки гипотез перед переносом кода в коммерческие среды разработки. В AI Studio инженеры могут мгновенно переключаться между версиями моделей, выпускать API-ключи, настраивать параметры безопасности и экспортировать готовый рабочий код на Python или JavaScript. В ходе презентации были наглядно продемонстрированы три ключевые функции API.

### Автоматическое извлечение данных из видео
С использованием компактной модели Flashlight был обработан ролик с экскурсией по Американскому музею естественной истории. Модель проанализировала видеофайлы объемом около 89 000 токенов и за несколько секунд сформировала структурированную Markdown-таблицу, содержащую точные таймкоды появления каждого динозавра, их видовые названия и забавные научные факты.

### Заземление через поисковую систему (Grounding with Google Search)
Базовые версии современных больших языковых моделей ограничены датой отсечки обучающей выборки (knowledge cutoff). Так, Gemini 2 при запросе о новейшей открытой модели Gemma 3 изначально ответила, что не обладает актуальной информацией, так как ее база ограничена 2023 годом. Однако после активации функции заземления через Google Search модель мгновенно обратилась к поисковой выдаче, нашла актуальные данные, предоставила точные спецификации (размеры в 1B, 4B, 12B и 27B параметров), сопоставила ее производительность с архитектурами от DeepSeek и предоставила ссылки на первоисточники. В программном коде для активации этой функции требуется добавить всего одну строку конфигурации инструментов: `tools: [{"google_search": {}}]`.

### Автономное исполнение и самоисправление кода (Code Execution)
Бейли продемонстрировала, как Gemini 2.0 Pro решает задачу построения кластерного графика для классического датасета Iris из библиотеки scikit-learn с помощью matplotlib. Модель самостоятельно формирует пошаговый план, пишет программный код и запускает его во внутренней изолированной среде. Самое примечательное: когда выполнение кода завершилось синтаксической ошибкой, агент ИИ автоматически перехватил сообщение об ошибке интерпретатора, поместил его обратно в контекстное окно, рекурсивно исправил код и выдал пользователю корректный финальный график. Данный агент также активируется одной строкой в параметрах API.

## 🤖 Будущее ИИ-агентов: Project Mariner, Flash Thinking и Co-scientist
[[JUMP:17:15]]

Google активно развивает специализированные агентские фреймворки, которые выходят за рамки привычных текстовых чат-интерфейсов. Одним из таких проектов стал Project Mariner — автономный агент, глубоко интегрированный непосредственно в браузер Google Chrome. Пейдж Бейли продемонстрировала, как Mariner способен полностью самостоятельно перемещаться по веб-страницам для решения комплексных задач пользователя. В показанном примере агент искал объявление о покупке домашнего питомца: он анализировал поисковую выдачу, переходил по сайтам питомников, отбирал подходящих щенков и на каждом этапе запрашивал короткую обратную связь от человека для корректировки своих последующих действий.

Для решения сложных логических задач Google предлагает модель Flash Thinking Experimental. При создании комплексных цифровых продуктов (например, полноценного клона ретро-игры Frogger на чистом HTML, JavaScript и CSS) пользователь видит раскрывающееся диалоговое окно «мышления». В нем в реальном времени отображаются подробные внутренние рассуждения модели: анализ игровой механики, выбор оптимального технологического стека и пошаговая декомпозиция архитектуры логики до момента генерации финальных файлов.

Наиболее монументальным внутренним проектом компании, по словам Бейли, является научно-исследовательский фреймворк Google DeepMind Co-scientist. Это специализированная экосистема агентов Gemini, разработанная для радикального ускорения фундаментальной науки. Работа ИИ-инструмента строится по следующему алгоритму:

* Ученый-человек выдвигает первичную рабочую гипотезу.
* Система Co-scientist помогает детально спроектировать серию потенциальных лабораторных экспериментов.
* Агенты самостоятельно генерируют необходимый программный код и проводят комплексный многофакторный анализ экспериментальных данных.
* ИИ фиксирует аномалии и результаты, при необходимости проводит итеративное уточнение и возвращает структурированный отчет исследователю.

По заявлениям Google, внедрение Co-scientist позволяет сократить до десяти лет рутинной исследовательской работы в таких сложных областях, как биомедицина, физика и химия. (Стоит отметить, что независимые эксперты призывают оценивать подобные заявления с осторожностью, поскольку реальная автономия ИИ в лабораторных условиях всё ещё существенно ограничена необходимостью физической верификации результатов).

## 🎨 Креативные инструменты и коммерческая экосистема
[[JUMP:21:28]]

Масштабные обновления затронули и визуальный блок технологий Google. Последняя экспериментальная модель Flash получила нативную способность не просто создавать изображения с нуля через Imagen 3, но и осуществлять их пиксельно-точное контекстное редактирование. В ходе демонстрации Бейли загрузила фотографию игрушечной шерстистой мыши от компании Colossal. Сначала модель успешно перекрасила мех мыши в розовый цвет, изолировав сложный объект от элементов окружения, а затем по текстовому запросу полностью удалила исходный фон, реалистично переместив мышь на солнечный пляж в Канкуне. Разработчики используют эту технологию для автоматического создания раскадровок комиксов и 8-битного пиксель-арта. Для последующей анимации таких изображений применяется модель Veo (и ее вторая версия Veo 2), генерирующая гиперреалистичные видеоклипы длительностью до 8 секунд.

Для коммерциализации подобных проектов Google развернула масштабную программу поддержки стартапов Google Cloud Startup Program. Технологические компании на стадии финансирования Series A могут получить до $350 000 в виде облачных кредитов на два года, а также маркетинговую поддержку и ранний доступ к закрытым API-интерфейсам Gemini. Модели Gemini сегодня нативно интегрированы во все ведущие среды разработки:

* Cursor
* GitHub Copilot
* Continue.dev
* Cline (ранее известная как Rout Code)

Кроме того, Пейдж Бейли поделилась личным адресом электронной почты (`webpage@google.com`) для прямой связи со стартапами и разработчиками, ищущими техническую поддержку.

## ❓ Ответы на вопросы: Интеграция больших репозиториев и ревью кода
[[JUMP:25:49]]

В финальной части сессии Пейдж Бейли ответила на практические вопросы инженеров из зала.

### Работа со сверхкрупными кодовыми базами
Слушатели поинтересовались, как практически использовать гигантское контекстное окно Gemini для работы с огромными проектами, если текущие инструменты разработки часто ограничены поштучным анализом файлов. Бейли пояснила, что в AI Studio можно подключать целые папки и репозитории напрямую через Google Диск. Также она порекомендовала использовать открытую утилиту `repo to text`, которая конвертирует всю иерархию директорий проекта в один плоский текстовый файл для последующей загрузки, либо клонировать репозиторий GitHub напрямую в окружение ИИ.

### Корпоративное заземление данных (Enterprise RAG)
На вопрос о работе с закрытыми корпоративными данными спикер пояснила, что на платформе Vertex AI реализован инструмент корпоративного заземления. Он работает как «RAG из коробки». Разработчикам достаточно указать пути к хранилищам Google Cloud Storage (GCS), и ответы Gemini будут строго адаптированы под внутреннюю закрытую базу знаний конкретного предприятия.

### Поддержка открытых стандартов (MCP)
Отвечая на вопрос о совместимости с протоколом Model Context Protocol (MCP), Бейли подтвердила, что поскольку MCP является открытым стандартом, Google активно создает примеры интеграции API Gemini с серверами MCP. Продукты компании также имеют нативную поддержку фреймворков LangChain, LangGraph, CrewAI и Compose.tv.

### Верификация кода и автоматическое ревью
Один из разработчиков пожаловался на то, что проверка сгенерированного ИИ кода занимает слишком много времени, и спросил о наличии инструментов верификации. Пейдж Бейли рассказала, что Gemini можно эффективно использовать в качестве автоматического рецензента пул-реквестов (PR). Эта функциональность встроена в платформу Google Code Assist и может быть развернута как GitHub Action. ИИ автоматически реагирует на создание PR, формирует краткое резюме изменений, выделяет ключевые моменты, составляет чейнджлог, оставляет точечные комментарии к коду, прикрепляет интерактивные ноутбуки Colab и выносит вердикт о готовности кода к слиянию (merge readiness), существенно разгружая старших инженеров-ревьюеров.