Эволюция агентов: как MultiOn обучает нейросети на ошибках и борется с OpenAI

The Cognitive Revolution 2,5 тыс. 1 ч 27 мин 5 мин 03.12.2024
Главное

Эволюция ИИ-агентов прошла путь от хаотичных попыток 2023 года до создания глубоко специализированных систем, способных конкурировать с человеком в узких доменах. В новом выпуске подкаста The Cognitive Revolution основатель и CEO компании MultiOn Див Гарг (Div Garg) анализирует, почему OpenAI теряет лидерство, как поиск (search) становится важнее обучения и почему 2025 год станет временем «взрыва» прикладных агентов.

📉 Закат монополии OpenAI и новая эра агентов 0:00

По мнению Дива Гарга, компания OpenAI утратила то подавляющее преимущество, которое она имела в эпоху запуска GPT-4 . Сегодня рынок стал гомогенным: возможности моделей разных разработчиков практически сравнялись, а архитектурные различия между ними стираются . Гость полагает, что мы находимся в начале разрушительной (disruptive) эры, когда привычное взаимодействие с интернетом и онлайн-коммуникации будут полностью перестроены ИИ-агентами .

Див Гарг выделяет несколько ключевых этапов развития индустрии за последние 18 месяцев:

🏗️ Архитектура «золотой середины»: Между свободой и жесткими рамками 8:23

Див Гарг утверждает, что подход «на рельсах» (on rails) идеален для B2B-сектора, где процессы линейны и предсказуемы . Однако для потребительского рынка (B2C) это не работает: поведение 50 000 пользователей MultiOn слишком разнообразно, чтобы прописывать миллионы сценариев вручную .

В MultiOn придерживаются парадигмы «пользовательского выбора»:

🧪 Исследование Agent Q: Как поиск (MCTS) и DPO меняют правила игры 24:19

Одним из главных достижений команды MultiOn стала научная работа над системой Agent Q. Див Гарг описывает ее как комбинацию поиска и обучения, вдохновленную «горьким уроком» Ричарда Саттона: в долгосрочной перспективе выигрывают только те методы, которые масштабируют вычисления .

Основные технические компоненты Agent Q:

  1. Llama 3 70B: Базовая модель, которая изначально справлялась с задачами бронирования на OpenTable менее чем в 20% случаев .
  2. MCTS (Monte Carlo Tree Search): Метод поиска по дереву Монте-Карло позволяет агенту «исследовать» сайт, пробовать разные ссылки и возвращаться назад, если путь ведет в тупик .
  3. DPO (Direct Preference Optimization): Алгоритм прямого предпочтения, который Див Гарг описывает как контрастивное обучение. Модель стремится к «положительным» траекториям и активно избегает «отрицательных» (тех, что не привели к цели) .
  4. Траекторный уровень DPO: В отличие от стандартного DPO, работающего с отдельными токенами, MultiOn применила алгоритм ко всей цепочке действий агента .

Результатом применения этих методов стал скачок эффективности с 20% до 95% всего за один день обучения на конкретном домене . По словам гостя, это доказывает: вертикальная специализация моделей позволяет им превосходить человека в узких задачах .

💰 Рынок данных: Почему за нами еще не следят за деньги? 12:30

Важным барьером в развитии агентов остается качество данных. Див Гарг отмечает, что MultiOn собрала миллионы траекторий действий пользователей, но краудсорсинг страдает от «шума» . Качественные данные требуют экспертной аннотации, что обходится дорого.

Ведущий Натан Лабенц предположил, что скоро должен возникнуть рынок «наблюдения за компьютером»: пользователи могли бы получать до $1000 в месяц за то, что ИИ-компании записывают их экран и анализируют цепочки их мыслей (chain of thought) . Див Гарг согласен, что такой рынок возможен, но уточняет:

🛡️ Войны ботов и проблемы аутентификации 59:03

Развертывание агентов в реальном интернете наталкивается на сопротивление инфраструктуры. Див Гарг приводит пример «войн ботов» на сайтах по продаже билетов (Ticketmaster, StubHub), которые годами совершенствуют защиту от автоматизированных систем .

Ситуация с авторизацией (Auth) выглядит следующим образом:

⚔️ Конкуренция с гигантами: Выживет ли MultiOn рядом с Anthropic и OpenAI? 1:19:22

С появлением функции Computer Use в модели Claude от Anthropic и слухами о запуске агентского фреймворка от OpenAI, положение стартапов кажется уязвимым. Однако Див Гарг уверен в своей стратегии:

🔮 Прогноз на 2025 год: От игрушек к инструментам 1:25:52

Див Гарг ожидает, что 2025 год станет временем, когда технологии наконец «догонят» ожидания. Если в 2024 году многие демо-версии были нестабильными, то в следующем году мы увидим массовое внедрение вертикальных приложений .

Жизнь пользователя, по мнению Гарга, изменится благодаря помощникам, которые:

В заключение Див Гарг подчеркнул, что MultiOn активно нанимает инженеров и исследователей, чтобы превратить «парадигму автоматизации» в безупречный пользовательский опыт .

💬 Цитаты

«OpenAI определенно потеряла большую часть лидерства, которое у нее было раньше. С GPT-4 они были единственными победителями, но сейчас рынок стал очень однородным.»

«Если вы хотите построить машину, вам сначала нужно изобрести колесо. Технология агентов была настолько новой, что строить на ней полноценный продукт раньше было невозможно.»

👥 Спикеры
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
MCTS (Monte Carlo Tree Search)
Алгоритм поиска, который позволяет ИИ проигрывать множество вариантов будущего для выбора оптимального действия.
DPO (Direct Preference Optimization)
Метод тонкой настройки языковых моделей на основе предпочтений, без использования отдельной модели вознаграждения.
Agent Q
Фреймворк MultiOn, сочетающий обучение с подкреплением и поиск для автономной работы в вебе.
Bitter Lesson
Тезис Ричарда Саттона о том, что общие методы, использующие вычисления (поиск и обучение), всегда побеждают методы, основанные на человеческих знаниях.
📊 Цифры
🗓 Хронология
  1. Середина 2023 Появление первой волны агентов вроде BabyAGI.
  2. Август 2024 Публикация научной работы по Agent Q.
  3. Конец 2024 Запуск функции Computer Use от Anthropic.
  4. 2025 Ожидаемый «год агентов» и массовое внедрение вертикальных приложений.
⚖️ Другая сторона
Искусственный интеллект MultiOn Див Гарг Agent Q LLaMA 3 Anthropic Claude