В новом выпуске подкаста The Cognitive Revolution ведущий Нейтан Лебенс и соавтор Эрик Торнберг беседуют с Дивом Гаргом (Div Garg), основателем ИИ-стартапа MultiOn. Див оставил престижную аспирантуру в Стэнфорде, чтобы посвятить себя созданию первого в мире персонального ИИ-агента и лайф-копилота, функционирующего в виде браузерного расширения. В центре обсуждения — уникальный путь разработчика от академических исследований к коммерческому продукту, архитектурные особенности системы и концепция «параллельного человечества».
🌌 От квантовой физики к ИИ-агентам: истоки MultiOn 5:30
Див Гарг пришел в индустрию искусственного интеллекта из фундаментальной науки. В прошлом он успешно участвовал в Международных олимпиадах по физике, что во многом сформировало его подход к моделированию сложных систем. Само название компании MultiOn вдохновлено теоретической физикой: оно отсылает к гипотетической квантовой частице, способной находиться в нескольких местах одновременно.
До запуска стартапа Див являлся аспирантом и внештатным преподавателем в Стэнфордском университете. Там он создал и вел междисциплинарный курс Transformers United, посвященный изучению того, как архитектура трансформеров объединяет обработку естественного языка, компьютерное зрение и биологию.
Первоначально Див зарегистрировал бизнес под амбициозным юридическим лицом The AGI Company Inc, обнаружив, что это имя свободно в реестрах. Однако для коммерческого продукта было выбрано более практичное название MultiOn.
Осознавая масштаб технологической revolution, Див принял решение взять академический отпуск в Стэнфорде, привлечь венчурный капитал и полностью сфокусироваться на разработке ИИ-агентов. Его главная цель — сделать так, чтобы людям больше не приходилось перемещаться по веб-пространству в одиночку.
🚀 Переломные моменты: почему браузерное расширение меняет правила игры 12:35
На рынке ИИ-агентов сегодня сосуществуют разные продуктовые стратегии. Например, Фло Кревелло (CEO Lindy) делает упор на сложные автоматизации рабочих процессов, а Мэтт Уэлш (CEO Fixie) ориентируется на корпоративных клиентов, предлагая платформу-песочницу для разработчиков. Див Гарг выбрал принципиально иной путь, упаковав ИИ-агент в обычное расширение для браузера Chrome.
Этот выбор стал переломным моментом для дистрибуции продукта. Полноценная работа ИИ-агента в облаке или на уровне операционной системы часто натыкается на непреодолимый барьер авторизации. Браузерное расширение, напротив, получает доступ ко всем текущим сессиям и логинам пользователя «из коробки».
Подобный подход дает MultiOn ключевые преимущества:
- Бесшовная авторизация: Агенту не требуются временные API-ключи для сторонних сервисов, вроде GitHub, чтобы совершать действия от лица пользователя.
- Интерактивное взаимодействие: Если система заходит в тупик или сталкивается со сложной капчей, она может мгновенно попросить человека о помощи.
- Живая обратная связь: Ручные корректировки пользователя внутри браузера формируют идеальный обучающий датасет для дальнейшей донастройки моделей.
В ходе внутреннего тестирования MultiOn уже продемонстрировал способность выполнять реальные бытовые задачи. По словам разработчиков, агент совершил первую в мире покупку авиабилета ИИ-системой в полностью автоматическом режиме. Кроме того, MultiOn способен взаимодействовать с другими расширениями: в систему заложена поддержка купонного сервиса Honey, а также ведется интеграция с API менеджера паролей 1Password.
🛠️ Ошибки и вызовы: борьба с непредсказуемостью и расхождением задач 10:41
Главной проблемой существующих открытых ИИ-агентов, таких как Auto-GPT или BabyAGI, Див Гарг считает критическую нестабильность. По его мнению, они страдают от эффекта «расхождения задач» (task divergence): когда в процессе выполнения оригинального запроса модель совершает ошибку, она отклоняется от курса и не может самостоятельно вернуться к изначальной цели.
Чтобы преодолеть эту уязвимость, команда MultiOn пересмотрела психологический паттерн поведения агента. Разработчики внедрили внутреннюю установку «никогда не сдаваться», требуя от системы на каждом шаге оценивать близость текущего состояния к финальной цели пользователя.
Другим серьезным вызовом стала хаотичная структура современного интернета. Див Гарг отмечает, что структура DOM-дерева на большинстве сайтов сегодня представляет собой «ужасный и запутанный беспорядок», лишенный какой-либо понятной семантики.
Изначально команда пыталась разбирать HTML-код с помощью классических жестких алгоритмов (эвристик). Однако этот подход быстро показал свою неэффективность при малейших изменениях верстки сайтов. В результате фокус инженеров сместился на создание специализированных нейросетевых модулей.
💡 Уроки разработки: архитектурная грамматика и собственная память 18:41
В процессе развития продукта сформировалась трехкомпонентная архитектура MultiOn, сочетающая исследовательскую базу с инженерным прагматизмом:
- Модель репрезентации: Принимает скриншот страницы и дерево DOM, превращая их в компактный текстовый эмбеддинг с помощью подходов, аналогичных мультимодальной системе InstructBLIP.
- Модель планирования: На базе GPT-4 разбивает общую задачу на подзадачи и логические шаги. По признанию Гарга, GPT-4 пока остается вне конкуренции для долгосрочных рассуждений.
- Исполнительный модуль: Переводит намерения планировщика в конкретные действия на веб-странице.
Вместо прямой генерации нестабильного JavaScript-кода команда MultiOn разработала промежуточную «акторную грамматику». Модель генерирует команды на собственном строго типизированном языке, которые затем компилируются в события браузера. Это позволяет проводить жесткую валидацию действий, полностью исключая риски выполнения вредоносного кода или скрытых атак.
Параллельно стартап решает проблему автономии и персонализации. Команда уже собрала массив из 50 000 уникальных веб-взаимодействий и начала обучать собственные открытые модели, такие как Falcon 40B, с целью полного перехода на инхаус-решения.
Функция памяти сейчас реализована через клиентский блокнот предпочтений. В будущем система перейдет на интерактивное запоминание контекста: агент один раз спросит адрес доставки или предпочтения по местам в самолете, после чего автоматически интегрирует их во все последующие сценарии. High-level навыки системы при этом сочетают скрипты и естественный язык, что позволит пользователям создавать собственные сценарии автоматизации.
🔮 Текущий этап и будущее: параллельные потоки для человечества 8:38
На текущий момент MultiOn находится в стадии закрытого бета-тестирования, сознательно ограничивая базу пользователей для проведения тщательного «редтиминга» и проверок безопасности. Однако за кулисами стартап ведет активную инвестиционную деятельность. Див Гарг подтвердил, что компания находится в процессе закрытия сид-раунда, уже получила выгодные терм-шиты и объявит детали финансирования в ближайшие недели. Ведущий Нейтан Лебенс предполагает, что речь идет о привлечении нескольких миллионов долларов. Команда активно открыла вакансии для инженеров-генералистов, бэкендеров и ИИ-специалистов.
График развития MultiOn включает несколько ключевых этапов:
- Ближайший месяц: Запуск локального тестирования в Стэнфордском университете для оценки реального пользовательского опыта.
- Следующие три месяца: Выход на широкую аудиторию нетехнических пользователей в качестве умного браузерного компаньона.
- Перспектива нескольких лет: Достижение полноценной человеческой надежности в комплексных абстрактных задачах.
Див Гарг считает, что текущие базовые модели еще не способны на сложные многошаговые рассуждения (более 20 шагов), поэтому для автономного бронирования комплексных туров потребуются фундаментальные прорывы в индустрии.
В макроперспективе основатель MultiOn видит будущее не в замене людей ИИ-агентами, а в предоставлении человечеству «параллельности». Вместо последовательного выполнения рутинных задач, по мнению Гарга, человек станет координатором, способным запустить 100 специализированных ИИ-агентов одновременно для параллельного выполнения работы.
Вопросы безопасности остаются приоритетом. По мнению основателя, ключевым правилом ИИ-этики должен стать абсолютный запрет на модификацию агентом своего собственного исходного кода во избежание неконтролируемого самосовершенствования.