Как стартап Imbue планирует изменить ИИ-агентов с помощью 10 000 чипов H100 и оптимизации вычислений

Создание по-настоящему надежных и мыслящих ИИ-агентов требует кардинального пересмотра подходов к архитектуре данных и распределению вычислений. Джош Альбрехт, CTO и сооснователь исследовательской компании Imbue, подробно рассказывает о том, почему слепое масштабирование предобучения теряет экономическую целесообразность и как небольшая команда инженеров способна конкурировать с технологическими гигантами. В основе стратегии компании лежит фокус на рассуждениях (reasoning), автономном программировании и глубокой оптимизации процессов вычислений во время работы моделей.

🚀 Философия Imbue: от фундаментальной науки к практическим агентам 5:22

Компания Imbue (ранее известная как Generally Intelligent) изначально позиционирует себя именно как «исследовательская компания» (research company), принципиально дистанцируясь как от чисто академических некоммерческих лабораторий, так и от классических продуктовых стартапов. По словам Джоша Альбрехта, создание агентов, способных к долгосрочному планированию и автономному мышлению, остается открытой научной проблемой. Однако Imbue стремится к тому, чтобы промежуточные результаты этой научной работы сразу превращались в полезные инструменты. На данном этапе команда активно тестирует разработки на себе, проходя через «упражнения в фрустрации», связанные с нестабильностью современных API и языковых моделей.

Переломный момент для основателей наступил в 2019 году, когда успехи в области самообучения (self-supervised learning) без привлечения огромных армий человеческих разметчиков открыли путь к мультимодальным системам нового типа. Финансовую жизнеспособность такого подхода подтвердил недавний раунд инвестиций в размере 200 миллионов долларов, в котором приняла участие корпорация Nvidia. Значительная часть этих средств направлена на обеспечение долгосрочного доступа к масштабным вычислительным мощностям.

🧠 Анатомия рассуждений: почему GPT-4 лидирует и где скрыты её лимиты 9:49

На текущий момент GPT-4 от OpenAI признается экспертами лучшей моделью для задач, требующих логического мышления. Джош Альбрехт объясняет этот успех комбинацией факторов:

Экстремальное качество данных: Очистка веб-дампов (Common Crawl), интеграция книг, высококачественного кода и фильтрация шума.
Огромный штат профессиональных разметчиков: OpenAI нанимает целые команды специалистов для генерации идеальных диалогов «вопрос-ответ», особенно в сфере программирования. Это позволяет модели успешно отвечать на сложные вопросы, которые для неё остаются «внутрираспределительными» (in-distribution).
Методологические хаки: Интеграция пошаговых рассуждений (Chain of Thought) напрямую в обучающую выборку и тонкая настройка через RLHF.

Тем не менее, Альбрехт подчеркивает, что современные большие языковые модели (LLM) остаются статистическими симуляторами, предсказывающими следующий токен. Исследования ИИ-лабораторий (включая работы Криса Олы из Anthropic по механистической интерпретируемости) показывают, что трансформеры выстраивают крайне причудливые внутренние признаки. Модель может оперировать понятиями вроде «как выглядит строка Base64» или оценивать контекст конкретного слова в узком физическом или социологическом смысле, но эти корреляции часто оторваны от реального физического устройства мира.

В качестве доказательства Альбрехт приводит известный эксперимент: если в коде на Python программно поменять местами функции print и len (print = len, len = print), языковая модель полностью теряет способность решать базовые задачи, тогда как человек мгновенно адаптируется к новым правилам. Трансформер не способен легко пересобрать символическую природу программы, поскольку опирается на статистическую частоту совместного упоминания слов.

📈 Математика цепочек действий и концепция runtime-вычислений 12:56

Главная математическая проблема при создании автономных агентов заключается в лавинообразном падении надежности при выполнении длинных последовательностей задач. По расчетам Imbue, эта зависимость выглядит следующим образом:

Если вероятность успеха ИИ на каждом отдельном шаге составляет 80%, то при выполнении цепочки всего из 10 последовательных действий общая вероятность успешного завершения задачи падает до критически низкого уровня.

Чтобы агент мог автономно работать над крупными проектами (например, в течение ночи выполнять комплексные задачи в браузере или на рабочем столе), точность микро-шагов необходимо поднять до уровня 99% или даже 99,9%.

Решение этой проблемы Imbue видит в смещении фокуса с гигантского предобучения на увеличение вычислительных затрат во время инференса (runtime compute). Если в рамках обычного чат-приложения пользователь не готов ждать ответа лишние пять минут ради 10%-го прироста точности, то в случае с ночными автономными агентами время ожидания перестает быть жестким ограничением.

Вместо линейной генерации текста инженеры используют подходы класса Tree of Thought («дерево мыслей») или Graph of Thought, заставляя модель многократно проверять свои промежуточные выводы, оценивать неопределенность и генерировать альтернативные пути решения.

🛠️ Практический кейс: автоматическая декомпозиция задач и бенчмарк ANLI 45:56

Инвестиционный раунд на 200 миллионов долларов во многом был обеспечен успешной внутренней демонстрацией технологии Imbue, которая показала, как ИИ может самостоятельно разбивать абстрактные верхнеуровневые проблемы на контролируемые подзадачи. В качестве экспериментального полигона команда использовала академический датасет ANLI (Adversarial Natural Language Inference), разработанный Meta*.

Суть ANLI заключается в поиске логических противоречий в текстах, которые были специально сформулированы людьми так, чтобы запутать стандартные языковые модели. Например, если в тексте указано, что песня написана авторами X и Y, а модель спрашивают, написана ли она автором X, базовая LLM часто ошибочно отвечает «да», реагируя на простое присутствие имени в контексте.

Разработанная Imbue система динамически раскладывает задачу:

Автоматически формулирует ряд проверочных микро-вопросов к тексту.
Изолированно собирает ответы на эти вопросы, минимизируя влияние ложных корреляций.
Проводит финальную логическую сборку аргументов.

Этот метод позволил добиться кратного превосходства в точности на сложных логических тестах без изменения весов базовой нейросети.

💻 Код как идеальный интерфейс логического мышления ИИ 38:47

Imbue сознательно сделала ставку на развитие агентов, специализирующихся на написании кода. По мнению Джоша Альбрехта, программирование — это не просто прикладная задача для помощи разработчикам, а фундаментальная среда для реализации планирования.

В качестве примера Альбрехт ссылается на знаковые работы исследовательской группы Джима Фана: проекты Voyager (где ИИ обучается играть в Minecraft, самостоятельно дополняя библиотеку JS-кода новыми навыками) и Eureka (где GPT-4 генерирует сложные функции вознаграждения для обучения роборуки трюкам с карандашом). В обоих случаях прорыв в обучении с подкреплением (RL) был достигнут за счет того, что верхнеуровневая модель писала программный код для управления нижележащими процессами.

ИИ-агенты нового поколения должны использовать генерацию кода во внутреннем цикле своей работы (inner loop) для:

Автоматической оптимизации собственных промптов;
Динамического подбора наиболее релевантных Few-Shot примеров из базы данных;
Создания кастомных микро-программ для решения рутинных вычислительных задач (например, вместо попыток перемножить огромные числа «в уме», агент должен моментально написать скрипт на Python или вызвать Wolfram Alpha).

Человечество не получает докторские степени методом слепого перебора (RL), пытаясь защитить диссертацию 10 000 раз подряд. В основе человеческой деятельности лежит планирование, прогнозирование и абстрактный логический анализ. Код является идеальным языком для фиксации таких планов.

⚡ Инфраструктура, экономика вычислений и фреймворк CARBS 48:45

Инженерная математика Imbue вступает в противоречие с рыночными розничными ценами на оборудование. Ведущий подметил, что покупка 10 000 дефицитных ускорителей Nvidia H100 по текущим ценам обошлась бы примерно в 300 миллионов долларов, что превышает весь объем привлеченного раунда Imbue. Альбрехт раскрыл структуру сделки: компания сотрудничает с новым специализированным облачным провайдером Voltage Park. Imbue не выкупает чипы в собственность, а законтрактовала их краткосрочную аренду на период активной фазы обучения, что позволило развернуть гигантский кластер, сохранив значительную часть инвестиционных денег на балансе стартапа.

При этом Imbue принципиально отказывается от гонки за максимальным физическим размером моделей. Графики перплексии в техническом отчете GPT-4 наглядно демонстрируют закон убывающей отдачи:

Модель, на обучение которой затрачено в 100 раз меньше вычислительной мощности, уступает флагману лишь незначительную долю в финальной точности базовых предсказаний.

Поэтому вместо того, чтобы тратить миллиард долларов на один гигантский тренировочный запуск, Альбрехт предпочитает вложить 10 миллионов долларов в компактную базовую модель (например, на базе архитектуры Llama), а оставшиеся ресурсы направить на тонкую настройку, инференс-вычисления и архитектурную оптимизацию. При качественном файн-тюнинге условная модель на 200 миллиардов параметров способна стабильно превосходить GPT-4 в узких прикладных доменах.

Для автоматизации этого процесса Imbue разработала и выложила в открытый доступ фреймворк CARBS (Cost-Aware Pareto Region Bayesian Optimization). Инструмент объединяет байесовскую оптимизацию и эволюционные стратегии, позволяя разработчикам уходить спать, пока система самостоятельно ищет оптимальные масштабируемые законы (scaling laws) для нейросетей. CARBS автоматически подбирает темп обучения (learning rate), ширину слоев, количество голов внимания, размер KV-кэша и конфигурацию батчей, на лету обходя зоны аппаратных сбоев из-за нехватки памяти (OOM) [58:50 - 1:00:10]. При этом Альбрехт предостерегает инженеров от преждевременного перехода на популярное 8-битное квантование (FP8) при обучении сверхкрупных моделей, указывая на высокие риски расхождения градиентов и накопления ошибок точности.

⚖️ Практический анализ государственной политики и масштабирование команды 1:13:44

В сфере безопасности и взаимодействия с государством Imbue также придерживается строго прагматичного подхода. Соосновательница компании Кэнджун Цю принимала участие в глобальном саммите по безопасности ИИ в Блетчли-парке (UK AI Safety Summit). Вместо теоретических споров о гипотетическом уничтожении человечества, стартап продемонстрировал американскому ведомству NTIA (Министерство торговли США) практический инструмент на базе ИИ для анализа общественности.

Правительство получило тысячи отзывов от граждан, художников и некоммерческих организаций касательно регулирования ИИ. Прочитать такой объем бюрократических данных вручную в короткие сроки невозможно. Инженеры Imbue развернули систему агентов, которая:

Изолированно проанализировала каждую заявку на предмет ключевых тезисов (авторские права, экономические риски, приватность) [1:14:21 - 1:15:12].
Прошла кросс-валидацию на контрольной выборке, размеченной живыми экспертами, доказав полное отсутствие системных искажений и галлюцинаций.

Несмотря на управление миллионными бюджетами и огромным пулом GPU, штат Imbue на момент интервью составляет всего 27 человек. Джош Альбрехт заявляет, что компания категорически не планирует повторять агрессивный кадровый рост OpenAI или Anthropic. Цель менеджмента — сохранять компактную, сверхуплотненную инженерную культуру, удваивая команду максимум раз в год и стремясь к тому, чтобы в будущем один HR-координатор или инженер с помощью армии собственных ИИ-агентов мог оперировать на уровне целого департамента [1:21:16 - 1:21:28].

*Деятельность организации Meta признана экстремистской и запрещена на территории Российской Федерации.