Google Gemini: «Мы делаем всё, чтобы от Flash было невозможно отказаться»

В новом выпуске подкаста The Cognitive Revolution ведущий Натан Лабенц (Nathan Labenz) обсудил с топ-менеджерами Google Gemini стремительную эволюцию платформы. Шреста Басу Маллик (Shrestha Basu Mallick) и Логан Килпатрик (Logan Kilpatrick) раскрыли детали интеграции Google Search в API, объяснили стратегию «бесплатного входа» для разработчиков и ответили на вопрос, почему Gemini всё ещё часто воспринимается как «третий вариант» после OpenAI и Anthropic.

📈 Взрывной рост и новая стратегия Google Gemini 4:30

Накануне записи подкаста компания Google отчиталась о финансовых результатах, которые привели к росту рыночной капитализации на 100 миллиардов долларов после закрытия торгов . Ключевой метрикой для разработчиков стал 14-кратный рост использования Gemini API всего за последние шесть месяцев .

По словам Логана Килпатрика, этот успех обусловлен стратегией максимального снижения трения (frictionless experience) для создателей ИИ-приложений. Основным инструментом этой стратегии является Google AI Studio — платформа, позволяющая получить API-ключ и начать тестирование моделей буквально в три-четыре клика .

Ведущий Натан Лабенц поделился личным опытом: он интегрировал Gemini в своё приложение всего за 90 минут, используя Vercel AI SDK . Однако он отметил, что Gemini часто оказывается лишь третьим в очереди у разработчиков после моделей от OpenAI и Anthropic. Логан Килпатрик объяснил это «наследием прошлого»: Gemini существует меньше года (с декабря 2023-го), в то время как конкуренты развивали свои API годами . Тем не менее, по мнению Килпатрика, сейчас происходит «сдвиг вайба» (vibe shift), и разработчики всё чаще выбирают Google благодаря уникальным функциям.

🔍 Search Grounding: живой поиск внутри нейросети 38:04

Главным анонсом стала функция Search Grounding (заземление на поиск), которая позволяет моделям Gemini обращаться к результатам Google Search в реальном времени .

Основные технические детали функции:

Динамическое извлечение (Dynamic Retriever): разработчик может регулировать частоту обращения к поиску с помощью специального слайдера от 0 до 1 .
Значение 0: модель будет обращаться к поиску практически при каждом запросе .
Высокие значения (например, 0.7–0.8): модель будет задействовать поиск избирательно, только когда это необходимо для актуализации данных .
Цитаты и ссылки: ответы модели содержат прямые ссылки на источники в вебе, что позволяет пользователям проверять факты .

Шреста Басу Маллик привела пример различия в ответах: на вопрос о столице Марса обычная модель ответит, что её не существует. Однако с включенным поиском Gemini выдаст богатый контекст из научно-фантастической литературы, где такие столицы упоминались . Натан Лабенц протестировал функцию на вопросе о текущем состоянии Мировой серии (World Series): без поиска модель знала только о результатах 2023 года, а с включенным заземлением выдала актуальную информацию .

⚡️ Gemini 1.5 Flash: лидерство в сегменте цена-качество 20:56

Логан Килпатрик утверждает, что модель Gemini 1.5 Flash в данный момент не имеет конкурентов по совокупности характеристик цены, задержки (latency) и производительности . На графиках сервиса Artificial Analysis модель Flash находится в «собственном квадранте», значительно опережая другие решения .

Ключевые преимущества инфраструктуры Google:

Нативная мультимодальность: Gemini изначально обучалась на тексте, изображениях, аудио и видео, а не добавляла эти функции позже через надстройки .
Контекстное окно: поддержка до 2 миллионов токенов позволяет загружать в модель целые библиотеки документов или часы видео .
Кэширование контекста (Context Caching): позволяет значительно удешевить повторяющиеся запросы к одним и тем же большим данным .

Натан Лабенц отметил феномен «роскошного софта» (luxury software), когда благодаря дешевизне Flash можно позволить модели анализировать 50–100 тысяч токенов информации о пользователе при каждом запросе, тратя при этом всего около доллара в день .

🎁 Бесплатный уровень и «экономика экспериментов» 27:30

Google придерживается агрессивной политики бесплатного доступа. Логан Килпатрик считает, что главным барьером для внедрения ИИ являются не технические сложности, а экономические риски .

Параметры бесплатного уровня в AI Studio:

Лимит запросов: до 1500 запросов в день для модели Gemini 1.5 Flash .
Объём данных: теоретически пользователь может обрабатывать до 1.5 миллиардов токенов в день абсолютно бесплатно .
Доступность: функции поиска, исполнения кода и мультимодальность доступны без ввода данных кредитной карты .

Килпатрик подчеркнул, что стоимость инференса упала на 99.9% за последние два года, но многие разработчики всё ещё живут с устаревшим представлением о дороговизне нейросетей .

🛠 Кейсы: от страхования до помощи слабовидящим 14:41

В ходе беседы были упомянуты конкретные примеры использования Gemini в бизнесе и стартапах:

Hiscox: крупная страховая компания использует Gemini для анализа сложных рисков, сокращая время подготовки котировок с дней до минут .
Snap: компания интегрирует возможности Gemini в свои продукты (подробности в блоге Google) .
New Computer: стартап создал ИИ-агента Dot, который использует Flash и длинный контекст для создания «живой истории» жизни пользователя, сжимая ежедневные разговоры в извлекаемую память .
Envision: помогает слабовидящим понимать окружающую обстановку в реальном времени. Здесь критически важна низкая задержка Flash .
Looppix: сервис для преобразования дизайна Figma в код. Модель Gemini с окном в 1.5 млн токенов помогает переваривать сотни слоёв дизайна для последующей обработки .

📐 Тонкости разработки: JSON и исполнение кода 49:50

Участники обсудили технические нюансы, которые отличают подход Google от конкурентов. Натан Лабенц заметил различие в реализации структурированных выводов (Structured Outputs/JSON mode).

В реализации OpenAI по умолчанию все поля в схеме JSON являются обязательными (required). В Gemini же поля по умолчанию считаются необязательными, если разработчик явно не пометит их . Шреста Басу Маллик объяснила, что это соответствует стандартной логике работы JSON-структур .

Также Google делает ставку на функцию Code Execution (исполнение кода). Она доступна как простой переключатель в интерфейсе. Модель сама пишет и запускает код на Python для решения математических или логических задач, возвращая разработчику уже готовый результат вычислений .

🚀 Будущее: мультимодальное обучение 34:19

В планах команды Google — запуск мультимодального файнтюнинга (Fine-tuning) . По мнению Логана Килпатрика, это станет «огромным разблокирующим фактором». Сейчас разработчики могут обучать модели только на тексте, но скоро появится возможность дообучать их на изображениях и видео.

Это позволит создавать специализированные системы мониторинга. Например, в домах престарелых ИИ сможет фиксировать падения пациентов в реальном времени через камеры, заменяя собой дорогостоящие и неудобные носимые датчики . Килпатрик полагает, что универсальные модели Gemini со временем заменят узкоспециализированные модели компьютерного зрения, так как они уже сейчас «из коробки» справляются со сложными задачами визуального анализа .