# Паскаль Вайнбергер: «Будущее ИИ — в оркестрации рутинных задач»

Источник: https://www.youtube.com/watch?v=RcAgsSKCm1o
Канал: Eye on AI
Опубликовано: 15.06.2023

---

Искусственный интеллект стремительно трансформирует привычные рабочие процессы, превращая рутинное копирование данных в автоматизированные цепочки действий. В новом выпуске подкаста Eye on AI Паскаль Вайнбергер, сооснователь и генеральный директор стартапа Bardeen AI, подробно рассказывает о переходе от ранних моделей машинного обучения к современным генеративным системам. В центре дискуссии — концепция «оркестрационного слоя» интернета, которая способна избавить миллионы людей от рутинной офисной работы с помощью естественного языка.

## 🚀 От «лунных выстрелов» Telefonica к интеллектуальной автоматизации
[[JUMP:00:29]]

Паскаль Вайнбергер начал свой путь в индустрии машинного обучения с изучения работ Рэя Курцвейла, который в 1980-х годах обучал небольшие нейросети генерации MIDI-файлов на основе стилей разных пианистов [2:46], [2:59]. По словам Вайнбергера, уже тогда было очевидно, что ИИ способен не только распознавать паттерны, но и генерировать принципиально новый контент [3:38], [3:52].

До основания собственного стартапа Паскаль Вайнбергер руководил исследованиями в экспериментальной лаборатории «Alpha» (так называемом moonshot lab) телекоммуникационного гиганта Telefonica [0:29], [0:41]. Эта лаборатория функционировала по модели классического стартап-инкубатора [6:19]:

*   Команда генерировала от 10 до 20 инновационных идей каждый месяц [6:34].
*   Главной задачей исследователей на первом этапе было «убить» эти идеи — то есть доказать их несостоятельность и нецелесообразность для бизнеса [6:46].
*   Проекты, прошедшие этот жесткий отбор, получали финансирование, команду и перерастали в полноценные компании со штатом в сотни сотрудников [6:46], [6:58].

Одним из успешных примеров такой акселерации стал стартап в сфере ментального здоровья, который отслеживает и помогает предотвращать психологические кризисы на рабочем месте [6:58], [7:10]. 

Как отмечает Вайнбергер, в 2017–2018 годах индустрия машинного обучения находилась на совершенно ином этапе развития [8:45]. В лаборатории Telefonica его команда фокусировалась на трех ключевых направлениях исследований:

1.  **Объяснимость ИИ (Explainability / Debuggability):** Разработка механизмов отладки классификационных моделей для понимания причин их ошибок, что критически важно в медицинских сценариях [8:58].
2.  **Конфиденциальное машинное обучение (Federated Learning):** Обучение моделей на распределенных пользовательских данных без необходимости их физического перемещения в единое облако [9:11], [9:23].
3.  **Эмоциональный ИИ (Emotional AI):** Распознавание человеческих эмоций для создания более естественных интерфейсов взаимодействия с компьютерами [9:36], [10:02].

## 💡 Эволюция Bardeen AI: от интерфейса командной строки на BERT к GPT-4
[[JUMP:10:27]]

Идея создания стартапа Bardeen AI (названного в честь двукратного лауреата Нобелевской премии Джона Бардина [10:27]) возникла из личной боли основателей [11:09]. Паскаль Вайнбергер и его партнер столкнулись с тем, что огромную часть их рабочего времени отнимали рутинные задачи: поиск кандидатов на LinkedIn, копирование данных профилей в JIRA-тикеты, рассылка писем и ручной перенос информации между вкладками браузера [11:35], [11:49].

Попытки использовать классические системы автоматизации процессов (RPA) или платформы вроде Zapier не увенчались успехом. По мнению Вайнбергера, существующие на рынке инструменты не обладали контекстным пониманием происходящего на экране пользователя [12:14], [13:05].

Первый прототип Bardeen AI, созданный три года назад, существенно отличался от текущей версии [13:18]:

*   Продукт задумывался как аналог интерфейса командной строки (CLI) для управления веб-сервисами с помощью текстовых команд [13:30], [13:55].
*   В качестве ядра использовалась специально обученная и тонко настроенная модель BERT, которая на тот момент являлась передовым стандартом в обработке естественного языка (NLP) [14:08].
*   Возможности BERT оказались недостаточными: модели не хватало контекстного окна и объема обучающих данных для гибкой обработки произвольных запросов пользователей [14:08].

С появлением GPT-4 и аналогичных больших языковых моделей (LLM) проект пережил качественный скачок [1:38], [14:36]. Использование современных ИИ-моделей позволило справиться с двусмысленностью пользовательских описаний и автоматически транслировать текстовые запросы в исполняемый программный код [14:49]. Сегодня Bardeen предоставляет пользователям выбор: для простых задач можно задействовать более быструю GPT-3.5, а для комплексных процессов — GPT-4 или модели от компании Anthropic [15:54], [16:08].

## 🛠️ Архитектура автоматизации: Детерминированное исполнение против галлюцинаций LLM
[[JUMP:33:32]]

Инструмент Bardeen функционирует непосредственно в браузере в формате расширения [33:47]. По мнению Вайнбергера, это стратегическое решение, поскольку сегодня практически вся деятельность белых воротничков и офисных сотрудников перенесена в веб-приложения [37:43], [38:09]. На текущий момент платформа интегрирована с более чем 70 популярными сервисами (включая Airtable, Notion, Google Sheets, Slack, Jira) [38:22] и предлагает пользователям около 700 готовых сценариев автоматизации (аутбуков) [38:35]. 

Важной темой дискуссии стало обсуждение автономных агентных систем вроде Auto-GPT и BabyAGI [42:43], [43:14]. Ведущий подкаста Крейг Смит отметил, что его собственный опыт работы с подобными агентами оказался несовершенным из-за регулярных сбоев и зацикливаний систем [42:58]. 

Паскаль Вайнбергер согласился с этой оценкой и объяснил фундаментальную проблему агентного подхода [46:00]:

*   Современные трансформерные модели предсказывают следующий токен в тексте, что делает их вероятностными системами, подверженными хаотическим отклонениям [46:28].
*   Минимальное изменение во входных данных или в латентном пространстве модели (эффект теории хаоса) может привести к колоссальному расхождению в итоговом результате [46:40], [46:53].
*   Для бизнес-процессов (например, отправки писем клиентам или списания средств) такое поведение недопустимо. Бизнесу требуется стопроцентный контроль и предсказуемость [47:06].

Чтобы решить эту проблему, в Bardeen AI разделили работу ИИ на два этапа:

1.  **Build time (Этап сборки):** Пользователь формулирует задачу на естественном языке, а LLM выступает в роли переводчика, трансформирующего его намерение в жесткий, структурированный скрипт автоматизации [47:19], [47:33].
2.  **Run time (Этап исполнения):** Готовый скрипт выполняется как классическая компьютерная программа — детерминированно, предсказуемо, без привлечения нейросетей на каждом шаге [47:47]. Это позволяет легко отлаживать цепочки действий, избегать галлюцинаций и значительно снижать стоимость вычислений [47:47], [48:00].

Дополнительно Bardeen внедряет функции проактивной автоматизации. В режиме превью система способна анализировать повторяющиеся действия пользователя в браузере (например, копирование контактных данных из LinkedIn в Google Sheets) и самостоятельно предлагать автоматическое выполнение этого процесса [41:35], [41:49].

## 🏢 Борьба за рынок: как стартапам конкурировать с IT-гигантами
[[JUMP:17:16]]

Крейг Смит поднял вопрос о выживании стартапов в условиях, когда технологические гиганты вроде Microsoft и Google активно внедряют функции ИИ в свои экосистемы, а OpenAI развивает собственную систему плагинов [18:26], [21:47], [22:16].

Вайнбергер убежден, что на рынке ИИ-решений формируется четкая четырехуровневая структура, в которой найдется место для игроков разного масштаба [27:09]:

*   **Аппаратный и инфраструктурный уровень (Hardware & Infra):** Монополизирован такими гигантами, как Nvidia, Amazon и Microsoft [27:09]. Это чрезвычайно капиталоемкий бизнес, связанный с арендой вычислительных мощностей и поставкой чипов [27:23].
*   **Уровень базовых моделей (Model Layer):** Представлен крупными лабораториями (OpenAI, Anthropic, Cohere, Aleph Alpha) [27:50], [28:03]. Вайнбергер прогнозирует, что здесь не будет одного победителя — сформируется олигополия из нескольких сильных игроков, аналогично рынку облачных провайдеров [28:15].
*   **Специализированный прикладной уровень (Application Specific):** Продукты вроде Jasper, Notion AI или GitHub Copilot, которые используют ИИ для решения задач внутри конкретного приложения или документа [28:27].
*   **Кроссплатформенный уровень оркестрации (Cross-platform):** Сюда Вайнбергер относит Bardeen, Zapier и UIPath [28:52]. Их задача — объединять десятки открытых вкладок и сервисов пользователя в единую рабочую среду [29:07].

По мнению гостя, гиганты вроде Microsoft оптимизируют свои ИИ-копилоты под работу с отдельными документами (составление презентаций, редактирование текстов) в рамках закрытой корпоративной экосистемы [23:07], [23:32], [23:46]. Стартапы же могут действовать быстрее и гибче, фокусируясь на пользовательском опыте и решении проблемы «50 открытых вкладок» [28:52], [29:34]. Проекты вроде UIPath, как считает Вайнбергер, несут на себе груз устаревшей архитектуры, созданной 10 лет назад, тогда как новые стартапы проектируют свои системы с учетом генеративного ИИ в самом ядре [24:40], [25:07].

В ходе беседы Вайнбергер также высказал мнение, что текущая архитектура Transformer может оказаться не финальной точкой на пути к созданию сильного искусственного интеллекта (AGI) [30:15]. Несмотря на то, что трансформеры идеально оптимизированы под параллельные вычисления на современных GPU-ускорителях [32:26], существует целый ряд альтернативных подходов, таких как капсульные сети Джеффри Хинтона или символьный ИИ (Symbolic AI), которые заслуживают масштабирования и глубокого изучения [30:15], [30:28].

## 🛡️ Риски, регуляция и глобальное будущее генеративного ИИ
[[JUMP:50:50]]

Комментируя участившиеся в публичном пространстве заявления о рисках «экзистенциального вымирания человечества» из-за ИИ, Вайнбергер назвал эти дискуссии раздутыми и не слишком конструктивными [51:04], [51:30]. 

Для минимизации практических рисков злоупотребления технологиями автоматизации в Bardeen AI придерживаются строгих правил [52:11]:

*   Все действия осуществляются исключительно по прямой команде пользователя [52:11].
*   Внедрен обязательный шаг верификации, когда перед запуском скрипта ИИ наглядно показывает пользователю схему будущей автоматизации и просит подтверждения [52:24].
*   Система никогда не совершает несанкционированных автономных действий в фоновом режиме без ведома человека [52:49].

Паскаль Вайнбергер также высказался против идеи временного моратория на обучение крупных нейросетей, которая активно обсуждалась в ИТ-сообществе [54:56], [55:09]. По его мнению, подобные запреты бессмысленны, поскольку разработки продолжатся в других юрисдикциях (например, в Китае или России), что лишь лишит западные компании конкурентных преимуществ [55:09]. 

Вместо этого Вайнбергер предлагает сфокусироваться на прорывных возможностях генеративного ИИ в медицине и науке [55:21]. В качестве примера он привел проект своего близкого друга, использующего языковые модели для анализа сотен ежедневно публикуемых научных статей по протеомике человека [55:48], [56:15]. ИИ помогает выявлять скрытые закономерности взаимодействия белков и агрегировать эти данные в единую модель, что значительно ускоряет тестирование новых лекарственных препаратов и планирование клинических испытаний [56:28].