Паскаль Вайнбергер: «Будущее ИИ — в оркестрации рутинных задач»

Искусственный интеллект стремительно трансформирует привычные рабочие процессы, превращая рутинное копирование данных в автоматизированные цепочки действий. В новом выпуске подкаста Eye on AI Паскаль Вайнбергер, сооснователь и генеральный директор стартапа Bardeen AI, подробно рассказывает о переходе от ранних моделей машинного обучения к современным генеративным системам. В центре дискуссии — концепция «оркестрационного слоя» интернета, которая способна избавить миллионы людей от рутинной офисной работы с помощью естественного языка.

🚀 От «лунных выстрелов» Telefonica к интеллектуальной автоматизации 0:29

Паскаль Вайнбергер начал свой путь в индустрии машинного обучения с изучения работ Рэя Курцвейла, который в 1980-х годах обучал небольшие нейросети генерации MIDI-файлов на основе стилей разных пианистов , . По словам Вайнбергера, уже тогда было очевидно, что ИИ способен не только распознавать паттерны, но и генерировать принципиально новый контент , .

До основания собственного стартапа Паскаль Вайнбергер руководил исследованиями в экспериментальной лаборатории «Alpha» (так называемом moonshot lab) телекоммуникационного гиганта Telefonica , . Эта лаборатория функционировала по модели классического стартап-инкубатора :

Команда генерировала от 10 до 20 инновационных идей каждый месяц .
Главной задачей исследователей на первом этапе было «убить» эти идеи — то есть доказать их несостоятельность и нецелесообразность для бизнеса .
Проекты, прошедшие этот жесткий отбор, получали финансирование, команду и перерастали в полноценные компании со штатом в сотни сотрудников , .

Одним из успешных примеров такой акселерации стал стартап в сфере ментального здоровья, который отслеживает и помогает предотвращать психологические кризисы на рабочем месте , .

Как отмечает Вайнбергер, в 2017–2018 годах индустрия машинного обучения находилась на совершенно ином этапе развития . В лаборатории Telefonica его команда фокусировалась на трех ключевых направлениях исследований:

Объяснимость ИИ (Explainability / Debuggability): Разработка механизмов отладки классификационных моделей для понимания причин их ошибок, что критически важно в медицинских сценариях .
Конфиденциальное машинное обучение (Federated Learning): Обучение моделей на распределенных пользовательских данных без необходимости их физического перемещения в единое облако , .
Эмоциональный ИИ (Emotional AI): Распознавание человеческих эмоций для создания более естественных интерфейсов взаимодействия с компьютерами , .

💡 Эволюция Bardeen AI: от интерфейса командной строки на BERT к GPT-4 10:27

Идея создания стартапа Bardeen AI (названного в честь двукратного лауреата Нобелевской премии Джона Бардина ) возникла из личной боли основателей . Паскаль Вайнбергер и его партнер столкнулись с тем, что огромную часть их рабочего времени отнимали рутинные задачи: поиск кандидатов на LinkedIn, копирование данных профилей в JIRA-тикеты, рассылка писем и ручной перенос информации между вкладками браузера , .

Попытки использовать классические системы автоматизации процессов (RPA) или платформы вроде Zapier не увенчались успехом. По мнению Вайнбергера, существующие на рынке инструменты не обладали контекстным пониманием происходящего на экране пользователя , .

Первый прототип Bardeen AI, созданный три года назад, существенно отличался от текущей версии :

Продукт задумывался как аналог интерфейса командной строки (CLI) для управления веб-сервисами с помощью текстовых команд , .
В качестве ядра использовалась специально обученная и тонко настроенная модель BERT, которая на тот момент являлась передовым стандартом в обработке естественного языка (NLP) .
Возможности BERT оказались недостаточными: модели не хватало контекстного окна и объема обучающих данных для гибкой обработки произвольных запросов пользователей .

С появлением GPT-4 и аналогичных больших языковых моделей (LLM) проект пережил качественный скачок , . Использование современных ИИ-моделей позволило справиться с двусмысленностью пользовательских описаний и автоматически транслировать текстовые запросы в исполняемый программный код . Сегодня Bardeen предоставляет пользователям выбор: для простых задач можно задействовать более быструю GPT-3.5, а для комплексных процессов — GPT-4 или модели от компании Anthropic , .

🛠️ Архитектура автоматизации: Детерминированное исполнение против галлюцинаций LLM 33:32

Инструмент Bardeen функционирует непосредственно в браузере в формате расширения . По мнению Вайнбергера, это стратегическое решение, поскольку сегодня практически вся деятельность белых воротничков и офисных сотрудников перенесена в веб-приложения , . На текущий момент платформа интегрирована с более чем 70 популярными сервисами (включая Airtable, Notion, Google Sheets, Slack, Jira) и предлагает пользователям около 700 готовых сценариев автоматизации (аутбуков) .

Важной темой дискуссии стало обсуждение автономных агентных систем вроде Auto-GPT и BabyAGI , . Ведущий подкаста Крейг Смит отметил, что его собственный опыт работы с подобными агентами оказался несовершенным из-за регулярных сбоев и зацикливаний систем .

Паскаль Вайнбергер согласился с этой оценкой и объяснил фундаментальную проблему агентного подхода :

Современные трансформерные модели предсказывают следующий токен в тексте, что делает их вероятностными системами, подверженными хаотическим отклонениям .
Минимальное изменение во входных данных или в латентном пространстве модели (эффект теории хаоса) может привести к колоссальному расхождению в итоговом результате , .
Для бизнес-процессов (например, отправки писем клиентам или списания средств) такое поведение недопустимо. Бизнесу требуется стопроцентный контроль и предсказуемость .

Чтобы решить эту проблему, в Bardeen AI разделили работу ИИ на два этапа:

Build time (Этап сборки): Пользователь формулирует задачу на естественном языке, а LLM выступает в роли переводчика, трансформирующего его намерение в жесткий, структурированный скрипт автоматизации , .
Run time (Этап исполнения): Готовый скрипт выполняется как классическая компьютерная программа — детерминированно, предсказуемо, без привлечения нейросетей на каждом шаге . Это позволяет легко отлаживать цепочки действий, избегать галлюцинаций и значительно снижать стоимость вычислений , .

Дополнительно Bardeen внедряет функции проактивной автоматизации. В режиме превью система способна анализировать повторяющиеся действия пользователя в браузере (например, копирование контактных данных из LinkedIn в Google Sheets) и самостоятельно предлагать автоматическое выполнение этого процесса , .

🏢 Борьба за рынок: как стартапам конкурировать с IT-гигантами 17:16

Крейг Смит поднял вопрос о выживании стартапов в условиях, когда технологические гиганты вроде Microsoft и Google активно внедряют функции ИИ в свои экосистемы, а OpenAI развивает собственную систему плагинов , , .

Вайнбергер убежден, что на рынке ИИ-решений формируется четкая четырехуровневая структура, в которой найдется место для игроков разного масштаба :

Аппаратный и инфраструктурный уровень (Hardware & Infra): Монополизирован такими гигантами, как Nvidia, Amazon и Microsoft . Это чрезвычайно капиталоемкий бизнес, связанный с арендой вычислительных мощностей и поставкой чипов .
Уровень базовых моделей (Model Layer): Представлен крупными лабораториями (OpenAI, Anthropic, Cohere, Aleph Alpha) , . Вайнбергер прогнозирует, что здесь не будет одного победителя — сформируется олигополия из нескольких сильных игроков, аналогично рынку облачных провайдеров .
Специализированный прикладной уровень (Application Specific): Продукты вроде Jasper, Notion AI или GitHub Copilot, которые используют ИИ для решения задач внутри конкретного приложения или документа .
Кроссплатформенный уровень оркестрации (Cross-platform): Сюда Вайнбергер относит Bardeen, Zapier и UIPath . Их задача — объединять десятки открытых вкладок и сервисов пользователя в единую рабочую среду .

По мнению гостя, гиганты вроде Microsoft оптимизируют свои ИИ-копилоты под работу с отдельными документами (составление презентаций, редактирование текстов) в рамках закрытой корпоративной экосистемы , , . Стартапы же могут действовать быстрее и гибче, фокусируясь на пользовательском опыте и решении проблемы «50 открытых вкладок» , . Проекты вроде UIPath, как считает Вайнбергер, несут на себе груз устаревшей архитектуры, созданной 10 лет назад, тогда как новые стартапы проектируют свои системы с учетом генеративного ИИ в самом ядре , .

В ходе беседы Вайнбергер также высказал мнение, что текущая архитектура Transformer может оказаться не финальной точкой на пути к созданию сильного искусственного интеллекта (AGI) . Несмотря на то, что трансформеры идеально оптимизированы под параллельные вычисления на современных GPU-ускорителях , существует целый ряд альтернативных подходов, таких как капсульные сети Джеффри Хинтона или символьный ИИ (Symbolic AI), которые заслуживают масштабирования и глубокого изучения , .

🛡️ Риски, регуляция и глобальное будущее генеративного ИИ 50:50

Комментируя участившиеся в публичном пространстве заявления о рисках «экзистенциального вымирания человечества» из-за ИИ, Вайнбергер назвал эти дискуссии раздутыми и не слишком конструктивными , .

Для минимизации практических рисков злоупотребления технологиями автоматизации в Bardeen AI придерживаются строгих правил :

Все действия осуществляются исключительно по прямой команде пользователя .
Внедрен обязательный шаг верификации, когда перед запуском скрипта ИИ наглядно показывает пользователю схему будущей автоматизации и просит подтверждения .
Система никогда не совершает несанкционированных автономных действий в фоновом режиме без ведома человека .

Паскаль Вайнбергер также высказался против идеи временного моратория на обучение крупных нейросетей, которая активно обсуждалась в ИТ-сообществе , . По его мнению, подобные запреты бессмысленны, поскольку разработки продолжатся в других юрисдикциях (например, в Китае или России), что лишь лишит западные компании конкурентных преимуществ .

Вместо этого Вайнбергер предлагает сфокусироваться на прорывных возможностях генеративного ИИ в медицине и науке . В качестве примера он привел проект своего близкого друга, использующего языковые модели для анализа сотен ежедневно публикуемых научных статей по протеомике человека , . ИИ помогает выявлять скрытые закономерности взаимодействия белков и агрегировать эти данные в единую модель, что значительно ускоряет тестирование новых лекарственных препаратов и планирование клинических испытаний .