Google Gemini: «Мы делаем всё, чтобы от Flash было невозможно отказаться»

Cognitive Revolution "How AI Changes Everything" 13,8 тыс. 55 мин 5 мин 31.10.2024
Главное

В новом выпуске подкаста The Cognitive Revolution ведущий Натан Лабенц (Nathan Labenz) обсудил с топ-менеджерами Google Gemini стремительную эволюцию платформы. Шреста Басу Маллик (Shrestha Basu Mallick) и Логан Килпатрик (Logan Kilpatrick) раскрыли детали интеграции Google Search в API, объяснили стратегию «бесплатного входа» для разработчиков и ответили на вопрос, почему Gemini всё ещё часто воспринимается как «третий вариант» после OpenAI и Anthropic.

📈 Взрывной рост и новая стратегия Google Gemini 4:30

Накануне записи подкаста компания Google отчиталась о финансовых результатах, которые привели к росту рыночной капитализации на 100 миллиардов долларов после закрытия торгов . Ключевой метрикой для разработчиков стал 14-кратный рост использования Gemini API всего за последние шесть месяцев .

По словам Логана Килпатрика, этот успех обусловлен стратегией максимального снижения трения (frictionless experience) для создателей ИИ-приложений. Основным инструментом этой стратегии является Google AI Studio — платформа, позволяющая получить API-ключ и начать тестирование моделей буквально в три-четыре клика .

Ведущий Натан Лабенц поделился личным опытом: он интегрировал Gemini в своё приложение всего за 90 минут, используя Vercel AI SDK . Однако он отметил, что Gemini часто оказывается лишь третьим в очереди у разработчиков после моделей от OpenAI и Anthropic. Логан Килпатрик объяснил это «наследием прошлого»: Gemini существует меньше года (с декабря 2023-го), в то время как конкуренты развивали свои API годами . Тем не менее, по мнению Килпатрика, сейчас происходит «сдвиг вайба» (vibe shift), и разработчики всё чаще выбирают Google благодаря уникальным функциям.

🔍 Search Grounding: живой поиск внутри нейросети 38:04

Главным анонсом стала функция Search Grounding (заземление на поиск), которая позволяет моделям Gemini обращаться к результатам Google Search в реальном времени .

Основные технические детали функции:

Шреста Басу Маллик привела пример различия в ответах: на вопрос о столице Марса обычная модель ответит, что её не существует. Однако с включенным поиском Gemini выдаст богатый контекст из научно-фантастической литературы, где такие столицы упоминались . Натан Лабенц протестировал функцию на вопросе о текущем состоянии Мировой серии (World Series): без поиска модель знала только о результатах 2023 года, а с включенным заземлением выдала актуальную информацию .

⚡️ Gemini 1.5 Flash: лидерство в сегменте цена-качество 20:56

Логан Килпатрик утверждает, что модель Gemini 1.5 Flash в данный момент не имеет конкурентов по совокупности характеристик цены, задержки (latency) и производительности . На графиках сервиса Artificial Analysis модель Flash находится в «собственном квадранте», значительно опережая другие решения .

Ключевые преимущества инфраструктуры Google:

Натан Лабенц отметил феномен «роскошного софта» (luxury software), когда благодаря дешевизне Flash можно позволить модели анализировать 50–100 тысяч токенов информации о пользователе при каждом запросе, тратя при этом всего около доллара в день .

🎁 Бесплатный уровень и «экономика экспериментов» 27:30

Google придерживается агрессивной политики бесплатного доступа. Логан Килпатрик считает, что главным барьером для внедрения ИИ являются не технические сложности, а экономические риски .

Параметры бесплатного уровня в AI Studio:

Килпатрик подчеркнул, что стоимость инференса упала на 99.9% за последние два года, но многие разработчики всё ещё живут с устаревшим представлением о дороговизне нейросетей .

🛠 Кейсы: от страхования до помощи слабовидящим 14:41

В ходе беседы были упомянуты конкретные примеры использования Gemini в бизнесе и стартапах:

📐 Тонкости разработки: JSON и исполнение кода 49:50

Участники обсудили технические нюансы, которые отличают подход Google от конкурентов. Натан Лабенц заметил различие в реализации структурированных выводов (Structured Outputs/JSON mode).

В реализации OpenAI по умолчанию все поля в схеме JSON являются обязательными (required). В Gemini же поля по умолчанию считаются необязательными, если разработчик явно не пометит их . Шреста Басу Маллик объяснила, что это соответствует стандартной логике работы JSON-структур .

Также Google делает ставку на функцию Code Execution (исполнение кода). Она доступна как простой переключатель в интерфейсе. Модель сама пишет и запускает код на Python для решения математических или логических задач, возвращая разработчику уже готовый результат вычислений .

🚀 Будущее: мультимодальное обучение 34:19

В планах команды Google — запуск мультимодального файнтюнинга (Fine-tuning) . По мнению Логана Килпатрика, это станет «огромным разблокирующим фактором». Сейчас разработчики могут обучать модели только на тексте, но скоро появится возможность дообучать их на изображениях и видео.

Это позволит создавать специализированные системы мониторинга. Например, в домах престарелых ИИ сможет фиксировать падения пациентов в реальном времени через камеры, заменяя собой дорогостоящие и неудобные носимые датчики . Килпатрик полагает, что универсальные модели Gemini со временем заменят узкоспециализированные модели компьютерного зрения, так как они уже сейчас «из коробки» справляются со сложными задачами визуального анализа .

💬 Цитаты

«Flash буквально находится в собственном квадранте... нет никого другого, кто был бы там, если учитывать параметры, которые реально важны разработчикам.»

Логан Килпатрик 22:12

«Мы хотим, чтобы цена была такой, чтобы ни один разработчик не был удержан от создания продукта с помощью нашего API.»

Шреста Басу Маллик 49:31
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Search Grounding
Технология подключения модели к поисковой системе для проверки фактов и получения актуальной информации.
Context Caching
Механизм сохранения ранее переданных данных в памяти модели для экономии токенов при повторных запросах.
Inference time compute
Вычислительные мощности, затрачиваемые моделью в момент генерации ответа (важно для моделей рассуждения).
📊 Цифры
🗓 Хронология
  1. декабрь 2023 Анонс первой модели Gemini.
  2. май 2024 Конференция Google I/O, анонс Gemini 1.5 Flash и окна в 2 млн токенов.
  3. октябрь 2024 Запуск функции Search Grounding в Gemini API и AI Studio.
⚖️ Другая сторона
Искусственный интеллект Google Gemini Logan Kilpatrick Search Grounding Gemini 1.5 Flash AI Studio