Будущее разработки программного обеспечения перестает быть вопросом написания строк кода и превращается в управление интеллектуальными агентами. В рамках дискуссии, организованной Google, ведущие эксперты компании обсудили выход новой модели Gemini 1.5 Flash, переход от «vibe coding» к серьезному агентному инжинирингу и новые узкие места, которые возникают, когда скорость написания кода перестает быть ограничением.
⚡️ Эволюция моделей: Gemini 1.5 Flash и новые стандарты скорости 0:57
Центральной темой обсуждения стал запуск Gemini 1.5 Flash — модели, которую Тульси Доши (Tulsi Doshi) назвала «самой способной из когда-либо выпущенных» компанией . По её мнению, эта модель демонстрирует качественный скачок в использовании инструментов (tool use), выполнении длительных задач по программированию и решении повседневных задач продуктивности, таких как создание презентаций или финансовый анализ .
Основные технологические акценты Gemini 1.5 Flash:
- Производительность и скорость: Модель выдает более 200 токенов в секунду, что значительно быстрее других фронтирных моделей .
- Длинный контекст: Способность обрабатывать огромные объемы данных позволяет использовать её в сложных сценариях, где раньше требовались только Pro-версии .
- Агентный потенциал: Варун (Varun) отметил, что в ходе внутреннего тестирования модель успешно справлялась с задачами, требующими до 15 000 последовательных вызовов (invocations), например, при проектировании операционной системы .
🛠 От «Vibe Coding» к агентному инжинирингу 8:25
Логан (Logan) ввел в дискуссию термин «vibe coding» (программирование по наитию), заимствованный у Андрея Карпатого (Andrej Karpathy). Этот подход характеризует новичков, которые создают софт, просто описывая свои желания, в то время как профессионалы переходят к «агентному инжинирингу» .
Различия этих подходов, по мнению участников:
- Сложность систем: Тульси Доши подчеркнула, что модель может отлично справляться с созданием веб-приложения по одному промпту, но «сломаться» на поддержке легаси-систем с тысячами строк кода .
- Способность к рассуждению: Для промышленной разработки недостаточно просто генерировать код; модель должна понимать контекст всей системы и уметь эффективно вызывать внешние инструменты .
- Автономия: Майкл (Michael) отметил, что современные инженеры все чаще не пишут код в IDE напрямую, а назначают тикет в Jira ИИ-агенту, который возвращает готовое решение .
🔄 Маховик «модель — продукт»: роль Anti-gravity 11:02
Варун рассказал о проекте Anti-gravity — внутреннем инструменте Google, который служит связующим звеном между экосистемой компании и моделями Gemini . Это не просто интерфейс, а полноценный полигон для обучения моделей поведению в реальной среде.
Ключевые особенности этой симбиотической связи:
- Обучение на сценариях (Harness): Исследователи обучают модели не просто на текстах, а на успехе или провале выполнения задач в «сбруе» (harness) — среде с доступом к файловой системе и терминалу .
- Асинхронность: Модели Anti-gravity умеют создавать субагентов для выполнения фоновых задач, например, запуска процесса обучения нейросети, не блокируя основной поток общения с пользователем .
- Эмпатия исследователей: Благодаря тому, что сотрудники Google сами используют эти инструменты ежедневно, возникает петля обратной связи: если модель ведет себя «лениво» или странно в продукте, это немедленно исправляется в обучении .
🚧 Новые узкие места: информация вместо интеллекта 25:03
Майкл утверждает, что интеллект моделей перестал быть главным ограничением. Основным барьером теперь является проблема извлечения информации (Information Retrieval, IR) и полномочий (authority) .
По словам Майкла, агент часто сталкивается с ситуациями, когда:
- Данные не задокументированы и находятся «в головах» сотрудников или в защищенных базах .
- Требуется доступ к конфиденциальной информации (например, в банках для KYC-процедур), который сложно предоставить ИИ из соображений безопасности .
- Агенту нужно авторизовать действие (например, транзакцию), на что у него нет юридического права .
Тульси Доши добавила, что вторым «узким местом» становится вкус (taste) и выбор того, что именно стоит строить. Когда стоимость создания софта стремится к нулю, критически важным становится умение находить реальные болевые точки пользователей, а не плодить ненужные функции .
🎙 Будущее интерфейсов: голос, видео и жесты 29:48
Участники сошлись во мнении, что текстовое поле — это лишь временный интерфейс. Варун выразил уверенность в большом будущем аудио-взаимодействия, хотя признал, что чтение текста все еще остается более быстрым способом потребления информации .
Прогнозы по интерфейсам:
- Мультимодальность: Тульси мечтает о модели, помогающей в хореографии, что требует сверхвысокой частоты кадров (FPS) при обработке видео для анализа быстрых движений .
- Проактивность: Майкл считает, что агенты будущего должны сами выбирать способ связи — написать письмо, прийти в Slack или позвонить, в зависимости от срочности задачи .
- Жесты: В ответ на вопрос из зала Варун допустил, что управление агентами с помощью жестов (например, через Pixel Watch) станет реальностью .
🛡 Борьба с «ИИ-шлаком» (AI Slop) и качеством кода 44:50
В финальной части дискуссии обсуждался вопрос надежности. Чтобы избежать ситуации, когда ИИ ломает существующий продукт при добавлении новой фичи, Варун предлагает парадигму «агенты тестируют агентов» .
Его рекомендации по обеспечению качества:
- Создавать интеграционные тесты с самого начала проекта (0-to-1) .
- Использовать агентов для генерации сценариев тестирования (например, Playwright), которые имитируют действия пользователя .
- Принимать решение о выборе модели (большая или маленькая) в зависимости от критичности участка кода, делегируя рутину более быстрым и дешевым моделям .