Эволюция ИИ-агентов прошла путь от хаотичных попыток 2023 года до создания глубоко специализированных систем, способных конкурировать с человеком в узких доменах. В новом выпуске подкаста The Cognitive Revolution основатель и CEO компании MultiOn Див Гарг (Div Garg) анализирует, почему OpenAI теряет лидерство, как поиск (search) становится важнее обучения и почему 2025 год станет временем «взрыва» прикладных агентов.
📉 Закат монополии OpenAI и новая эра агентов 0:00
По мнению Дива Гарга, компания OpenAI утратила то подавляющее преимущество, которое она имела в эпоху запуска GPT-4 . Сегодня рынок стал гомогенным: возможности моделей разных разработчиков практически сравнялись, а архитектурные различия между ними стираются . Гость полагает, что мы находимся в начале разрушительной (disruptive) эры, когда привычное взаимодействие с интернетом и онлайн-коммуникации будут полностью перестроены ИИ-агентами .
Див Гарг выделяет несколько ключевых этапов развития индустрии за последние 18 месяцев:
- Первая волна (середина 2023 г.): Проекты вроде BabyAGI давали моделям инструменты и минимальные инструкции, надеясь на их автономность. Результаты оказались разочаровывающими из-за высокой частоты ошибок на простых микрозадачах .
- Период «рельсов»: Чтобы повысить надежность, разработчики начали загонять ИИ в жесткие рамки (intelligent workflows), где человек заранее проектирует каждый шаг, а нейросеть лишь исполняет конкретные подзадачи .
- Текущий момент: MultiOn пытается найти «золотую середину» — сохранять гибкость естественного языка, но при этом внедрять механизмы верификации и доменного обучения .
🏗️ Архитектура «золотой середины»: Между свободой и жесткими рамками 8:23
Див Гарг утверждает, что подход «на рельсах» (on rails) идеален для B2B-сектора, где процессы линейны и предсказуемы . Однако для потребительского рынка (B2C) это не работает: поведение 50 000 пользователей MultiOn слишком разнообразно, чтобы прописывать миллионы сценариев вручную .
В MultiOn придерживаются парадигмы «пользовательского выбора»:
- Агент не должен быть полностью автономным в финансовых вопросах. Например, при бронировании билетов в Париж он обязан уточнить предпочтения по времени и авиакомпаниям, прежде чем тратить тысячи долларов .
- Вместо жестких инструкций используются доменно-специфичные модели, которые обучаются на обратной связи от среды .
- Система должна уметь персонализироваться, запоминая привычки пользователя, что делает ее использование более интуитивным .
🧪 Исследование Agent Q: Как поиск (MCTS) и DPO меняют правила игры 24:19
Одним из главных достижений команды MultiOn стала научная работа над системой Agent Q. Див Гарг описывает ее как комбинацию поиска и обучения, вдохновленную «горьким уроком» Ричарда Саттона: в долгосрочной перспективе выигрывают только те методы, которые масштабируют вычисления .
Основные технические компоненты Agent Q:
- Llama 3 70B: Базовая модель, которая изначально справлялась с задачами бронирования на OpenTable менее чем в 20% случаев .
- MCTS (Monte Carlo Tree Search): Метод поиска по дереву Монте-Карло позволяет агенту «исследовать» сайт, пробовать разные ссылки и возвращаться назад, если путь ведет в тупик .
- DPO (Direct Preference Optimization): Алгоритм прямого предпочтения, который Див Гарг описывает как контрастивное обучение. Модель стремится к «положительным» траекториям и активно избегает «отрицательных» (тех, что не привели к цели) .
- Траекторный уровень DPO: В отличие от стандартного DPO, работающего с отдельными токенами, MultiOn применила алгоритм ко всей цепочке действий агента .
Результатом применения этих методов стал скачок эффективности с 20% до 95% всего за один день обучения на конкретном домене . По словам гостя, это доказывает: вертикальная специализация моделей позволяет им превосходить человека в узких задачах .
💰 Рынок данных: Почему за нами еще не следят за деньги? 12:30
Важным барьером в развитии агентов остается качество данных. Див Гарг отмечает, что MultiOn собрала миллионы траекторий действий пользователей, но краудсорсинг страдает от «шума» . Качественные данные требуют экспертной аннотации, что обходится дорого.
Ведущий Натан Лабенц предположил, что скоро должен возникнуть рынок «наблюдения за компьютером»: пользователи могли бы получать до $1000 в месяц за то, что ИИ-компании записывают их экран и анализируют цепочки их мыслей (chain of thought) . Див Гарг согласен, что такой рынок возможен, но уточняет:
- Обычные действия на компьютере (почта, таблицы) стоят дешево, так как они типичны и их легко достать на международном рынке .
- Высокую ценность представляют либо уникальные научные знания, либо глубоко личные данные («как именно Натан пользуется своим ПК»), ради которых компании могли бы пойти на высокие выплаты .
🛡️ Войны ботов и проблемы аутентификации 59:03
Развертывание агентов в реальном интернете наталкивается на сопротивление инфраструктуры. Див Гарг приводит пример «войн ботов» на сайтах по продаже билетов (Ticketmaster, StubHub), которые годами совершенствуют защиту от автоматизированных систем .
Ситуация с авторизацией (Auth) выглядит следующим образом:
- Появляются специализированные провайдеры (например, Anon или Agent Auth), которые пытаются создать стандарты идентификации агентов .
- Див Гарг считает, что в долгосрочной перспективе сайты станут кооперативными, так как агенты приносят выручку и новых пользователей. Однако в краткосрочной перспективе возможна обратная реакция из-за страха перед спамом .
- Обсуждается идея создания «специальных полос» (как для беспилотных авто) — открытых API-стандартов для общения агентов и сайтов. Но Гарг скептичен: внедрение таких протоколов в масштабах интернета займет годы из-за вопросов безопасности и инерции бизнеса .
⚔️ Конкуренция с гигантами: Выживет ли MultiOn рядом с Anthropic и OpenAI? 1:19:22
С появлением функции Computer Use в модели Claude от Anthropic и слухами о запуске агентского фреймворка от OpenAI, положение стартапов кажется уязвимым. Однако Див Гарг уверен в своей стратегии:
- Фокус на продукте, а не на фундаменте: Крупные лаборатории (Frontier Labs) не заинтересованы в решении узких проблем конкретных вертикалей. Они строят общие инструменты .
- Пример Perplexity и Cursor: Эти компании доказали, что можно успешно конкурировать с гигантами, если сфокусироваться на одной проблеме (галлюцинации в поиске или IDE для кода) и довести пользовательский опыт до идеала .
- Исследование, направленное на продукт: В отличие от академических исследований в OpenAI, R&D в MultiOn направлено на закрытие конкретных «недостающих блоков», мешающих работе агента в реальном мире .
🔮 Прогноз на 2025 год: От игрушек к инструментам 1:25:52
Див Гарг ожидает, что 2025 год станет временем, когда технологии наконец «догонят» ожидания. Если в 2024 году многие демо-версии были нестабильными, то в следующем году мы увидим массовое внедрение вертикальных приложений .
Жизнь пользователя, по мнению Гарга, изменится благодаря помощникам, которые:
- Самостоятельно разгребают почту и находят нужные документы .
- Записывают на прием к стоматологу и бронируют сложные путешествия без участия человека .
- Работают в фоновом режиме, позволяя владельцу брать управление на себя только в критические моменты .
В заключение Див Гарг подчеркнул, что MultiOn активно нанимает инженеров и исследователей, чтобы превратить «парадигму автоматизации» в безупречный пользовательский опыт .