Новая эра «агентного» ИИ: Эндрю Ын о трансформации разработки приложений 0:13
Мы живем в уникальное время для разработчиков, когда искусственный интеллект становится такой же фундаментальной технологией, как электричество. По мнению Эндрю Ына, эксперта в области ИИ, выступавшего на конференции Snowflake Build 2024, основной фокус индустрии смещается с обучения базовых моделей на создание прикладных решений. Использование генеративного ИИ радикально ускоряет процесс создания прототипов, позволяя командам переходить от многомесячных циклов разработки к итерациям, занимающим всего несколько дней.
🛠 Ускорение разработки и дизайн-паттерны 1:55
В эпоху до генеративного ИИ типичный процесс внедрения модели машинного обучения занимал от 6 до 12 месяцев, включая сбор данных, обучение и развертывание. Сегодня парадигма изменилась:
- Скорость итерации: Разработчики могут создавать десятки прототипов за выходные и быстро отсеивать нерабочие варианты.
- Новая роль оценки (Evals): Если раньше данные для обучения собирались последовательно, то теперь процесс оценки становится параллельным этапом разработки, требующим инноваций в подходах к тестированию.
- Принцип «Move fast and be responsible»: Эндрю Ын подчеркивает, что быстрое движение не означает хаос. Умные команды сегодня успешно сочетают высокую скорость прототипирования с жестким тестированием и внедрением «защитных барьеров» (guardrails), чтобы избежать ошибок в продуктовых версиях.
🤖 Агентный ИИ: мышление вместо простого текста 6:30
Наиболее перспективным техническим трендом Ын считает «агентный ИИ» (agentic AI). В отличие от стандартного «zero-shot» запроса, где модель пытается выдать ответ целиком за один проход, агентные рабочие процессы заставляют модель «размышлять».
Агентный процесс включает этапы:
- Исследование (например, поиск в сети).
- Черновое написание.
- Критика и саморефлексия.
- Ревизия и уточнение.
Согласно данным команды Ына на бенчмарке HumanEval, использование агентных подходов с моделью GPT-3.5 показывает результаты, сопоставимые или превосходящие использование обычной GPT-4 без агентных надстроек.
Четыре ключевых паттерна агентного дизайна:
- Рефлексия (Reflection): Модель анализирует собственный код, находит ошибки и предлагает улучшения.
- Использование инструментов (Tool Use): Способность модели самостоятельно решать, когда нужно вызвать API, выполнить код или воспользоваться внешним сервисом.
- Планирование (Planning): Разбиение сложных запросов на последовательность логических шагов.
- Мультиагентное взаимодействие (Multi-agent Collaboration): Разделение ролей между разными агентами (например, «кодер» и «критик») в рамках одной задачи, что значительно повышает качество конечного результата.
👁🗨 Визуальный ИИ: извлечение ценности из данных 8:58
Особое внимание Эндрю Ын уделил визуальному ИИ. Большинство компаний накопили гигабайты видео и изображений, которые до сих пор «лежат без дела» в хранилищах данных, так как их обработка была крайне сложной.
Разработанный командой Landing AI «Vision Agent» позволяет автоматизировать рутину:
- Подсчет объектов на поле (например, игроков в футбольном матче).
- Нарезка видео на фрагменты по заданным критериям (например, поиск гола).
- Автоматическая генерация метаданных для видеоархивов с сохранением результатов в виде таблиц.
Ын продемонстрировал, как эти возможности упрощают создание прикладных приложений — например, для индексации видео по поисковым запросам (например, «лыжник в воздухе» или «волк ночью»).
🔮 Взгляд в будущее 23:21
В завершение выступления Эндрю Ын выделил четыре важнейших направления, за которыми стоит следить разработчикам:
- Скорость генерации токенов: Развитие аппаратного (полупроводники) и программного обеспечения, которое сделает работу агентных систем быстрее.
- Специализированные модели: Модели, изначально обученные не просто отвечать на вопросы, а эффективно пользоваться инструментами и работать в агентных циклах.
- Data Engineering для неструктурированных данных: Рост важности управления текстами, видео и изображениями как новыми типами данных для бизнеса.
- Революция обработки изображений: По аналогии с текстовой революцией, мы стоим на пороге массового внедрения эффективной обработки визуального контента.