Будущее ИИ-разработки: Логан Килпатрик о запуске Gemini 2.0 Flash 0:00
Google DeepMind официально переводит модель Gemini 2.0 Flash в стадию широкой доступности, открывая новые возможности для разработчиков. В интервью подкасту The Cognitive Revolution Логан Килпатрик, продакт-менеджер Gemini API и AI Studio, обсудил эволюцию экосистемы Google и то, как новые инструменты трансформируют рынок разработки программного обеспечения. По словам Килпатрика, объединение исследовательских команд DeepMind с продуктовыми подразделениями значительно ускорило темпы инноваций, позволяя быстрее доставлять передовые возможности моделей конечным пользователям.
🚀 Обновления линейки Gemini 2.0 23:54
Основным событием стало представление комплексного набора моделей, каждая из которых оптимизирована под специфические задачи:
- Gemini 2.0 Flash: Обновленная производственная версия, предлагающая баланс между мощностью и скоростью по цене 10 центов за миллион входных токенов и 40 центов за выходные.
- Flashlight (превью): Новая, еще более компактная и доступная модель, ориентированная на максимальную экономическую эффективность при выполнении простых задач.
- Gemini 2.0 Pro (экспериментальная): Флагманская модель компании, нацеленная на решение самых сложных задач, включая написание кода.
Килпатрик подчеркнул, что инфраструктурная задача по обеспечению доступности таких моделей колоссальна, но она критически важна для поддержки масштабируемых продуктов, таких как Bolt.new, Cursor и Lovable. По его мнению, стоимость интеллектуальных операций перестает быть ограничивающим фактором для многих стартапов, что дает преимущество индивидуальным разработчикам.
🤖 Ко-присутствие и новые парадигмы использования 5:20
Одной из ключевых тем беседы стало развитие «мультимодального живого API», который позволяет ИИ в реальном времени взаимодействовать с пользователем через голос, видео и текст. Килпатрик называет это концепцией «со-присутствия» (co-presence), где ИИ становится повседневным помощником, способным видеть окружающий мир и помогать в бытовых задачах.
Гость поделился личным примером: он использует ИИ для навигации в классических видеоиграх, показывая экран своего устройства модели. Такая интеграция, по его убеждению, в будущем выйдет за рамки смартфонов и может быть реализована в носимых устройствах, таких как «умные» очки.
👨💻 Проблема оценки моделей и «вибрации» 41:36
Вопрос о том, какая модель лучше подходит для написания кода (Gemini 2.0 Pro, Claude 3.5 Sonnet или o3-mini), остается открытым. Килпатрик признает наличие огромного количества «разрозненных» бенчмарков, в которых трудно ориентироваться даже профессионалам.
- Позиция гостя: Разработчикам часто не хватает структурированных «персональных эвалов» (тестов под свои конкретные задачи), из-за чего выбор модели превращается в субъективный процесс, основанный на «вайбах» (интуитивных ощущениях).
- Рекомендация: Килпатрик призывает экосистему создавать платформы для агрегации бенчмарков и автоматизации личного тестирования моделей, чтобы избавить разработчиков от необходимости каждый раз проводить дорогостоящую проверку.
💡 Прогнозы: агенты и будущее интернета 52:07
Обсуждая потенциал стартапов, Килпатрик выделил несколько перспективных направлений:
- Доменные решения в Vision: Использование Vision-language моделей для задач безопасности на производстве или мониторинга состояния здоровья пожилых людей.
- Агентные системы: Reasoning-модели (модели с цепочкой рассуждений) станут тем самым «недостающим звеном», которое позволит агентам наконец-то эффективно работать, а не просто имитировать деятельность.
- Безопасность сайтов: Килпатрик ожидает серьезную трансформацию интернета, так как текущий «социальный контракт» не готов к миру, где сайты посещают не только люди, но и огромное количество автономных ИИ-агентов.
В завершение гость подчеркнул, что сейчас — лучшее время для создания компаний, способных решить проблему «программной оценки качества» (evals), которая является камнем преткновения для любого серьезного ИИ-продукта.