# Google Gemini: «Мы делаем всё, чтобы от Flash было невозможно отказаться»

Источник: https://www.youtube.com/watch?v=R7M785Xgogs
Канал: Cognitive Revolution "How AI Changes Everything"
Опубликовано: 31.10.2024

---

В новом выпуске подкаста The Cognitive Revolution ведущий Натан Лабенц (Nathan Labenz) обсудил с топ-менеджерами Google Gemini стремительную эволюцию платформы. Шреста Басу Маллик (Shrestha Basu Mallick) и Логан Килпатрик (Logan Kilpatrick) раскрыли детали интеграции Google Search в API, объяснили стратегию «бесплатного входа» для разработчиков и ответили на вопрос, почему Gemini всё ещё часто воспринимается как «третий вариант» после OpenAI и Anthropic.

## 📈 Взрывной рост и новая стратегия Google Gemini
[[JUMP:04:30]]

Накануне записи подкаста компания Google отчиталась о финансовых результатах, которые привели к росту рыночной капитализации на 100 миллиардов долларов после закрытия торгов [04:44]. Ключевой метрикой для разработчиков стал 14-кратный рост использования Gemini API всего за последние шесть месяцев [04:57].

По словам Логана Килпатрика, этот успех обусловлен стратегией максимального снижения трения (frictionless experience) для создателей ИИ-приложений. Основным инструментом этой стратегии является Google AI Studio — платформа, позволяющая получить API-ключ и начать тестирование моделей буквально в три-четыре клика [05:38].

Ведущий Натан Лабенц поделился личным опытом: он интегрировал Gemini в своё приложение всего за 90 минут, используя Vercel AI SDK [09:12]. Однако он отметил, что Gemini часто оказывается лишь третьим в очереди у разработчиков после моделей от OpenAI и Anthropic. Логан Килпатрик объяснил это «наследием прошлого»: Gemini существует меньше года (с декабря 2023-го), в то время как конкуренты развивали свои API годами [10:31]. Тем не менее, по мнению Килпатрика, сейчас происходит «сдвиг вайба» (vibe shift), и разработчики всё чаще выбирают Google благодаря уникальным функциям.

## 🔍 Search Grounding: живой поиск внутри нейросети
[[JUMP:38:04]]

Главным анонсом стала функция Search Grounding (заземление на поиск), которая позволяет моделям Gemini обращаться к результатам Google Search в реальном времени [38:17].

Основные технические детали функции:

*   **Динамическое извлечение (Dynamic Retriever):** разработчик может регулировать частоту обращения к поиску с помощью специального слайдера от 0 до 1 [42:39].
*   **Значение 0:** модель будет обращаться к поиску практически при каждом запросе [42:53].
*   **Высокие значения (например, 0.7–0.8):** модель будет задействовать поиск избирательно, только когда это необходимо для актуализации данных [43:08].
*   **Цитаты и ссылки:** ответы модели содержат прямые ссылки на источники в вебе, что позволяет пользователям проверять факты [45:18].

Шреста Басу Маллик привела пример различия в ответах: на вопрос о столице Марса обычная модель ответит, что её не существует. Однако с включенным поиском Gemini выдаст богатый контекст из научно-фантастической литературы, где такие столицы упоминались [41:46]. Натан Лабенц протестировал функцию на вопросе о текущем состоянии Мировой серии (World Series): без поиска модель знала только о результатах 2023 года, а с включенным заземлением выдала актуальную информацию [46:54].

## ⚡️ Gemini 1.5 Flash: лидерство в сегменте цена-качество
[[JUMP:20:56]]

Логан Килпатрик утверждает, что модель Gemini 1.5 Flash в данный момент не имеет конкурентов по совокупности характеристик цены, задержки (latency) и производительности [21:12]. На графиках сервиса Artificial Analysis модель Flash находится в «собственном квадранте», значительно опережая другие решения [21:05].

Ключевые преимущества инфраструктуры Google:

*   **Нативная мультимодальность:** Gemini изначально обучалась на тексте, изображениях, аудио и видео, а не добавляла эти функции позже через надстройки [11:00].
*   **Контекстное окно:** поддержка до 2 миллионов токенов позволяет загружать в модель целые библиотеки документов или часы видео [11:13].
*   **Кэширование контекста (Context Caching):** позволяет значительно удешевить повторяющиеся запросы к одним и тем же большим данным [27:03].

Натан Лабенц отметил феномен «роскошного софта» (luxury software), когда благодаря дешевизне Flash можно позволить модели анализировать 50–100 тысяч токенов информации о пользователе при каждом запросе, тратя при этом всего около доллара в день [26:12].

## 🎁 Бесплатный уровень и «экономика экспериментов»
[[JUMP:27:30]]

Google придерживается агрессивной политики бесплатного доступа. Логан Килпатрик считает, что главным барьером для внедрения ИИ являются не технические сложности, а экономические риски [27:30].

Параметры бесплатного уровня в AI Studio:

*   **Лимит запросов:** до 1500 запросов в день для модели Gemini 1.5 Flash [27:58].
*   **Объём данных:** теоретически пользователь может обрабатывать до 1.5 миллиардов токенов в день абсолютно бесплатно [28:11].
*   **Доступность:** функции поиска, исполнения кода и мультимодальность доступны без ввода данных кредитной карты [28:24].

Килпатрик подчеркнул, что стоимость инференса упала на 99.9% за последние два года, но многие разработчики всё ещё живут с устаревшим представлением о дороговизне нейросетей [31:00].

## 🛠 Кейсы: от страхования до помощи слабовидящим
[[JUMP:14:41]]

В ходе беседы были упомянуты конкретные примеры использования Gemini в бизнесе и стартапах:

*   **Hiscox:** крупная страховая компания использует Gemini для анализа сложных рисков, сокращая время подготовки котировок с дней до минут [14:41].
*   **Snap:** компания интегрирует возможности Gemini в свои продукты (подробности в блоге Google) [14:41].
*   **New Computer:** стартап создал ИИ-агента Dot, который использует Flash и длинный контекст для создания «живой истории» жизни пользователя, сжимая ежедневные разговоры в извлекаемую память [20:10].
*   **Envision:** помогает слабовидящим понимать окружающую обстановку в реальном времени. Здесь критически важна низкая задержка Flash [20:51].
*   **Looppix:** сервис для преобразования дизайна Figma в код. Модель Gemini с окном в 1.5 млн токенов помогает переваривать сотни слоёв дизайна для последующей обработки [21:19].

## 📐 Тонкости разработки: JSON и исполнение кода
[[JUMP:49:50]]

Участники обсудили технические нюансы, которые отличают подход Google от конкурентов. Натан Лабенц заметил различие в реализации структурированных выводов (Structured Outputs/JSON mode).

В реализации OpenAI по умолчанию все поля в схеме JSON являются обязательными (required). В Gemini же поля по умолчанию считаются необязательными, если разработчик явно не пометит их [51:29]. Шреста Басу Маллик объяснила, что это соответствует стандартной логике работы JSON-структур [53:39].

Также Google делает ставку на функцию **Code Execution** (исполнение кода). Она доступна как простой переключатель в интерфейсе. Модель сама пишет и запускает код на Python для решения математических или логических задач, возвращая разработчику уже готовый результат вычислений [49:50].

## 🚀 Будущее: мультимодальное обучение
[[JUMP:34:19]]

В планах команды Google — запуск мультимодального файнтюнинга (Fine-tuning) [35:13]. По мнению Логана Килпатрика, это станет «огромным разблокирующим фактором». Сейчас разработчики могут обучать модели только на тексте, но скоро появится возможность дообучать их на изображениях и видео.

Это позволит создавать специализированные системы мониторинга. Например, в домах престарелых ИИ сможет фиксировать падения пациентов в реальном времени через камеры, заменяя собой дорогостоящие и неудобные носимые датчики [33:51]. Килпатрик полагает, что универсальные модели Gemini со временем заменят узкоспециализированные модели компьютерного зрения, так как они уже сейчас «из коробки» справляются со сложными задачами визуального анализа [34:46].