# Эволюция агентов: как MultiOn обучает нейросети на ошибках и борется с OpenAI

Источник: https://www.youtube.com/watch?v=30Nf4xQ_Foo
Канал: The Cognitive Revolution
Опубликовано: 03.12.2024

---

Эволюция ИИ-агентов прошла путь от хаотичных попыток 2023 года до создания глубоко специализированных систем, способных конкурировать с человеком в узких доменах. В новом выпуске подкаста The Cognitive Revolution основатель и CEO компании MultiOn Див Гарг (Div Garg) анализирует, почему OpenAI теряет лидерство, как поиск (search) становится важнее обучения и почему 2025 год станет временем «взрыва» прикладных агентов.

## 📉 Закат монополии OpenAI и новая эра агентов
[[JUMP:0:00]]

По мнению Дива Гарга, компания OpenAI утратила то подавляющее преимущество, которое она имела в эпоху запуска GPT-4 [0:00]. Сегодня рынок стал гомогенным: возможности моделей разных разработчиков практически сравнялись, а архитектурные различия между ними стираются [27:05]. Гость полагает, что мы находимся в начале разрушительной (disruptive) эры, когда привычное взаимодействие с интернетом и онлайн-коммуникации будут полностью перестроены ИИ-агентами [0:13].

Див Гарг выделяет несколько ключевых этапов развития индустрии за последние 18 месяцев:

*   **Первая волна (середина 2023 г.):** Проекты вроде BabyAGI давали моделям инструменты и минимальные инструкции, надеясь на их автономность. Результаты оказались разочаровывающими из-за высокой частоты ошибок на простых микрозадачах [1:02].
*   **Период «рельсов»:** Чтобы повысить надежность, разработчики начали загонять ИИ в жесткие рамки (intelligent workflows), где человек заранее проектирует каждый шаг, а нейросеть лишь исполняет конкретные подзадачи [1:47].
*   **Текущий момент:** MultiOn пытается найти «золотую середину» — сохранять гибкость естественного языка, но при этом внедрять механизмы верификации и доменного обучения [8:49].

## 🏗️ Архитектура «золотой середины»: Между свободой и жесткими рамками
[[JUMP:8:23]]

Див Гарг утверждает, что подход «на рельсах» (on rails) идеален для B2B-сектора, где процессы линейны и предсказуемы [8:23]. Однако для потребительского рынка (B2C) это не работает: поведение 50 000 пользователей MultiOn слишком разнообразно, чтобы прописывать миллионы сценариев вручную [9:01].

В MultiOn придерживаются парадигмы «пользовательского выбора»:

*   Агент не должен быть полностью автономным в финансовых вопросах. Например, при бронировании билетов в Париж он обязан уточнить предпочтения по времени и авиакомпаниям, прежде чем тратить тысячи долларов [11:09].
*   Вместо жестких инструкций используются доменно-специфичные модели, которые обучаются на обратной связи от среды [9:29].
*   Система должна уметь персонализироваться, запоминая привычки пользователя, что делает ее использование более интуитивным [11:50].

## 🧪 Исследование Agent Q: Как поиск (MCTS) и DPO меняют правила игры
[[JUMP:24:19]]

Одним из главных достижений команды MultiOn стала научная работа над системой Agent Q. Див Гарг описывает ее как комбинацию поиска и обучения, вдохновленную «горьким уроком» Ричарда Саттона: в долгосрочной перспективе выигрывают только те методы, которые масштабируют вычисления [43:22].

Основные технические компоненты Agent Q:

1.  **Llama 3 70B:** Базовая модель, которая изначально справлялась с задачами бронирования на OpenTable менее чем в 20% случаев [30:11].
2.  **MCTS (Monte Carlo Tree Search):** Метод поиска по дереву Монте-Карло позволяет агенту «исследовать» сайт, пробовать разные ссылки и возвращаться назад, если путь ведет в тупик [32:18].
3.  **DPO (Direct Preference Optimization):** Алгоритм прямого предпочтения, который Див Гарг описывает как контрастивное обучение. Модель стремится к «положительным» траекториям и активно избегает «отрицательных» (тех, что не привели к цели) [36:47].
4.  **Траекторный уровень DPO:** В отличие от стандартного DPO, работающего с отдельными токенами, MultiOn применила алгоритм ко всей цепочке действий агента [40:45].

Результатом применения этих методов стал скачок эффективности с 20% до 95% всего за один день обучения на конкретном домене [33:11]. По словам гостя, это доказывает: вертикальная специализация моделей позволяет им превосходить человека в узких задачах [48:24].

## 💰 Рынок данных: Почему за нами еще не следят за деньги?
[[JUMP:12:30]]

Важным барьером в развитии агентов остается качество данных. Див Гарг отмечает, что MultiOn собрала миллионы траекторий действий пользователей, но краудсорсинг страдает от «шума» [13:09]. Качественные данные требуют экспертной аннотации, что обходится дорого.

Ведущий Натан Лабенц предположил, что скоро должен возникнуть рынок «наблюдения за компьютером»: пользователи могли бы получать до $1000 в месяц за то, что ИИ-компании записывают их экран и анализируют цепочки их мыслей (chain of thought) [15:06]. Див Гарг согласен, что такой рынок возможен, но уточняет:

*   Обычные действия на компьютере (почта, таблицы) стоят дешево, так как они типичны и их легко достать на международном рынке [17:46].
*   Высокую ценность представляют либо уникальные научные знания, либо глубоко личные данные («как именно Натан пользуется своим ПК»), ради которых компании могли бы пойти на высокие выплаты [18:00].

## 🛡️ Войны ботов и проблемы аутентификации
[[JUMP:59:03]]

Развертывание агентов в реальном интернете наталкивается на сопротивление инфраструктуры. Див Гарг приводит пример «войн ботов» на сайтах по продаже билетов (Ticketmaster, StubHub), которые годами совершенствуют защиту от автоматизированных систем [1:00:11].

Ситуация с авторизацией (Auth) выглядит следующим образом:

*   Появляются специализированные провайдеры (например, Anon или Agent Auth), которые пытаются создать стандарты идентификации агентов [1:02:14].
*   Див Гарг считает, что в долгосрочной перспективе сайты станут кооперативными, так как агенты приносят выручку и новых пользователей. Однако в краткосрочной перспективе возможна обратная реакция из-за страха перед спамом [1:02:43].
*   Обсуждается идея создания «специальных полос» (как для беспилотных авто) — открытых API-стандартов для общения агентов и сайтов. Но Гарг скептичен: внедрение таких протоколов в масштабах интернета займет годы из-за вопросов безопасности и инерции бизнеса [1:10:42].

## ⚔️ Конкуренция с гигантами: Выживет ли MultiOn рядом с Anthropic и OpenAI?
[[JUMP:1:19:22]]

С появлением функции Computer Use в модели Claude от Anthropic и слухами о запуске агентского фреймворка от OpenAI, положение стартапов кажется уязвимым. Однако Див Гарг уверен в своей стратегии:

*   **Фокус на продукте, а не на фундаменте:** Крупные лаборатории (Frontier Labs) не заинтересованы в решении узких проблем конкретных вертикалей. Они строят общие инструменты [1:21:41].
*   **Пример Perplexity и Cursor:** Эти компании доказали, что можно успешно конкурировать с гигантами, если сфокусироваться на одной проблеме (галлюцинации в поиске или IDE для кода) и довести пользовательский опыт до идеала [1:21:01].
*   **Исследование, направленное на продукт:** В отличие от академических исследований в OpenAI, R&D в MultiOn направлено на закрытие конкретных «недостающих блоков», мешающих работе агента в реальном мире [1:24:07].

## 🔮 Прогноз на 2025 год: От игрушек к инструментам
[[JUMP:1:25:52]]

Див Гарг ожидает, что 2025 год станет временем, когда технологии наконец «догонят» ожидания. Если в 2024 году многие демо-версии были нестабильными, то в следующем году мы увидим массовое внедрение вертикальных приложений [1:26:49].

Жизнь пользователя, по мнению Гарга, изменится благодаря помощникам, которые:

*   Самостоятельно разгребают почту и находят нужные документы [1:26:21].
*   Записывают на прием к стоматологу и бронируют сложные путешествия без участия человека [1:26:36].
*   Работают в фоновом режиме, позволяя владельцу брать управление на себя только в критические моменты [1:25:39].

В заключение Див Гарг подчеркнул, что MultiOn активно нанимает инженеров и исследователей, чтобы превратить «парадигму автоматизации» в безупречный пользовательский опыт [1:25:12].