Эволюция агентов: как MultiOn обучает нейросети на ошибках и борется с OpenAI

Эволюция ИИ-агентов прошла путь от хаотичных попыток 2023 года до создания глубоко специализированных систем, способных конкурировать с человеком в узких доменах. В новом выпуске подкаста The Cognitive Revolution основатель и CEO компании MultiOn Див Гарг (Div Garg) анализирует, почему OpenAI теряет лидерство, как поиск (search) становится важнее обучения и почему 2025 год станет временем «взрыва» прикладных агентов.

📉 Закат монополии OpenAI и новая эра агентов 0:00

По мнению Дива Гарга, компания OpenAI утратила то подавляющее преимущество, которое она имела в эпоху запуска GPT-4 . Сегодня рынок стал гомогенным: возможности моделей разных разработчиков практически сравнялись, а архитектурные различия между ними стираются . Гость полагает, что мы находимся в начале разрушительной (disruptive) эры, когда привычное взаимодействие с интернетом и онлайн-коммуникации будут полностью перестроены ИИ-агентами .

Див Гарг выделяет несколько ключевых этапов развития индустрии за последние 18 месяцев:

Первая волна (середина 2023 г.): Проекты вроде BabyAGI давали моделям инструменты и минимальные инструкции, надеясь на их автономность. Результаты оказались разочаровывающими из-за высокой частоты ошибок на простых микрозадачах .
Период «рельсов»: Чтобы повысить надежность, разработчики начали загонять ИИ в жесткие рамки (intelligent workflows), где человек заранее проектирует каждый шаг, а нейросеть лишь исполняет конкретные подзадачи .
Текущий момент: MultiOn пытается найти «золотую середину» — сохранять гибкость естественного языка, но при этом внедрять механизмы верификации и доменного обучения .

🏗️ Архитектура «золотой середины»: Между свободой и жесткими рамками 8:23

Див Гарг утверждает, что подход «на рельсах» (on rails) идеален для B2B-сектора, где процессы линейны и предсказуемы . Однако для потребительского рынка (B2C) это не работает: поведение 50 000 пользователей MultiOn слишком разнообразно, чтобы прописывать миллионы сценариев вручную .

В MultiOn придерживаются парадигмы «пользовательского выбора»:

Агент не должен быть полностью автономным в финансовых вопросах. Например, при бронировании билетов в Париж он обязан уточнить предпочтения по времени и авиакомпаниям, прежде чем тратить тысячи долларов .
Вместо жестких инструкций используются доменно-специфичные модели, которые обучаются на обратной связи от среды .
Система должна уметь персонализироваться, запоминая привычки пользователя, что делает ее использование более интуитивным .

🧪 Исследование Agent Q: Как поиск (MCTS) и DPO меняют правила игры 24:19

Одним из главных достижений команды MultiOn стала научная работа над системой Agent Q. Див Гарг описывает ее как комбинацию поиска и обучения, вдохновленную «горьким уроком» Ричарда Саттона: в долгосрочной перспективе выигрывают только те методы, которые масштабируют вычисления .

Основные технические компоненты Agent Q:

Llama 3 70B: Базовая модель, которая изначально справлялась с задачами бронирования на OpenTable менее чем в 20% случаев .
MCTS (Monte Carlo Tree Search): Метод поиска по дереву Монте-Карло позволяет агенту «исследовать» сайт, пробовать разные ссылки и возвращаться назад, если путь ведет в тупик .
DPO (Direct Preference Optimization): Алгоритм прямого предпочтения, который Див Гарг описывает как контрастивное обучение. Модель стремится к «положительным» траекториям и активно избегает «отрицательных» (тех, что не привели к цели) .
Траекторный уровень DPO: В отличие от стандартного DPO, работающего с отдельными токенами, MultiOn применила алгоритм ко всей цепочке действий агента .

Результатом применения этих методов стал скачок эффективности с 20% до 95% всего за один день обучения на конкретном домене . По словам гостя, это доказывает: вертикальная специализация моделей позволяет им превосходить человека в узких задачах .

💰 Рынок данных: Почему за нами еще не следят за деньги? 12:30

Важным барьером в развитии агентов остается качество данных. Див Гарг отмечает, что MultiOn собрала миллионы траекторий действий пользователей, но краудсорсинг страдает от «шума» . Качественные данные требуют экспертной аннотации, что обходится дорого.

Ведущий Натан Лабенц предположил, что скоро должен возникнуть рынок «наблюдения за компьютером»: пользователи могли бы получать до $1000 в месяц за то, что ИИ-компании записывают их экран и анализируют цепочки их мыслей (chain of thought) . Див Гарг согласен, что такой рынок возможен, но уточняет:

Обычные действия на компьютере (почта, таблицы) стоят дешево, так как они типичны и их легко достать на международном рынке .
Высокую ценность представляют либо уникальные научные знания, либо глубоко личные данные («как именно Натан пользуется своим ПК»), ради которых компании могли бы пойти на высокие выплаты .

🛡️ Войны ботов и проблемы аутентификации 59:03

Развертывание агентов в реальном интернете наталкивается на сопротивление инфраструктуры. Див Гарг приводит пример «войн ботов» на сайтах по продаже билетов (Ticketmaster, StubHub), которые годами совершенствуют защиту от автоматизированных систем .

Ситуация с авторизацией (Auth) выглядит следующим образом:

Появляются специализированные провайдеры (например, Anon или Agent Auth), которые пытаются создать стандарты идентификации агентов .
Див Гарг считает, что в долгосрочной перспективе сайты станут кооперативными, так как агенты приносят выручку и новых пользователей. Однако в краткосрочной перспективе возможна обратная реакция из-за страха перед спамом .
Обсуждается идея создания «специальных полос» (как для беспилотных авто) — открытых API-стандартов для общения агентов и сайтов. Но Гарг скептичен: внедрение таких протоколов в масштабах интернета займет годы из-за вопросов безопасности и инерции бизнеса .

⚔️ Конкуренция с гигантами: Выживет ли MultiOn рядом с Anthropic и OpenAI? 1:19:22

С появлением функции Computer Use в модели Claude от Anthropic и слухами о запуске агентского фреймворка от OpenAI, положение стартапов кажется уязвимым. Однако Див Гарг уверен в своей стратегии:

Фокус на продукте, а не на фундаменте: Крупные лаборатории (Frontier Labs) не заинтересованы в решении узких проблем конкретных вертикалей. Они строят общие инструменты .
Пример Perplexity и Cursor: Эти компании доказали, что можно успешно конкурировать с гигантами, если сфокусироваться на одной проблеме (галлюцинации в поиске или IDE для кода) и довести пользовательский опыт до идеала .
Исследование, направленное на продукт: В отличие от академических исследований в OpenAI, R&D в MultiOn направлено на закрытие конкретных «недостающих блоков», мешающих работе агента в реальном мире .

🔮 Прогноз на 2025 год: От игрушек к инструментам 1:25:52

Див Гарг ожидает, что 2025 год станет временем, когда технологии наконец «догонят» ожидания. Если в 2024 году многие демо-версии были нестабильными, то в следующем году мы увидим массовое внедрение вертикальных приложений .

Жизнь пользователя, по мнению Гарга, изменится благодаря помощникам, которые:

Самостоятельно разгребают почту и находят нужные документы .
Записывают на прием к стоматологу и бронируют сложные путешествия без участия человека .
Работают в фоновом режиме, позволяя владельцу брать управление на себя только в критические моменты .

В заключение Див Гарг подчеркнул, что MultiOn активно нанимает инженеров и исследователей, чтобы превратить «парадигму автоматизации» в безупречный пользовательский опыт .