Развитие больших языковых моделей привело к настоящему буму ИИ-агентов, способных брать на себя не только когнитивную работу, но и рутинную автоматизацию процессов. В рамках подкаста The Cognitive Revolution сооснователь стартапа Fixie.ai Мэтт Уэлш делится своим видением того, как автономные агенты перевернут наши представления о рабочем пространстве. Пройдя путь от профессора Гарварда до основателя перспективной ИИ-платформы, он размышляет о безопасности, архитектуре памяти и будущем человеко-компьютерного взаимодействия.
🎓 Путь от академической науки к ИИ-автоматизации 2:12
Мэтт Уэлш (Matt Welsh) обладает внушительным бэкграундом в индустрии и академической среде. В прошлом он занимал пост профессора компьютерных наук в Гарвардском университете, а затем в течение 10 лет работал главным инженером (Principal Engineer) в Google. Вдохновение для создания собственного ИИ-стартапа пришло к нему задолго до сегодняшнего массового увлечения агентами. Ключевым толчком, по словам Уэлша, послужила ранняя демонстрация использования внешних инструментов языковыми моделями, описанная в статье Google о модели Lambda в январе 2022 года.
Уэлш понял, что если предоставить модели правильные промпты и научить её обращаться к внешним API для извлечения данных, это позволит автоматизировать сложнейшие рабочие процессы. На тот момент подобных исследований практически не существовало. Команда Fixie.ai начала экспериментировать с ранними версиями GPT-3 еще тогда, когда эта технология не рассматривалась большинством как основа для построения коммерческих систем автоматизации.
🚀 Переломный момент: Эффект ChatGPT и венчурный бум 6:12
Стартап Fixie.ai недавно объявил о привлечении $17 млн в рамках сид-раунда финансирования, что, по замечанию ведущего Нейтана Либенса, напоминает агрессивные венчурные темпы 2021 года. Мэтт Уэлш признает, что ситуация на рынке сейчас развивается с невероятной скоростью. По его мнению, появление больших языковых моделей вроде ChatGPT похоже на падение инопланетных технологий на задний двор, которые теперь все пытаются разобрать на части.
Как утверждает Уэлш, ChatGPT буквально «прикормил рыбу» для инвесторов, резко повысив их интерес к пространству автоматизации. При этом спикер отмечает важный технологический нюанс: большинство вещей, доступных в ChatGPT, можно было реализовать и в старой «песочнице» GPT-3. Однако именно выверенный, ориентированный на конечного пользователя интерфейс чата изменил абсолютно всё, превратив сложный инструмент разработчика в изящный потребительский продукт.
📊 Двухмерная модель взаимодействия человека и ИИ 11:58
Для систематизации паттернов использования искусственного интеллекта Мэтт Уэлш предлагает использовать двухмерную концептуальную модель. По его мнению, любое ИИ-приложение можно расположить на этой плоскости.
Мэтт Уэлш выделяет две ключевые оси для классификации ИИ-инструментов:
- Степень автономности: диапазон от режима «второго пилота» (Copilot) под контролем человека до полностью автономного формата «запустил и забыл» (fire-and-forget), когда агенту делегируется задача, и он выполняет её полностью самостоятельно.
- Характер задачи: спектр от чистой обработки, синтеза и интерпретации естественного языка до глубокой автоматизации процессов и символьных манипуляций со структурами данных вроде JSON или XML.
По оценке Уэлша, ранние ИИ-продукты вроде Jasper.ai находились в квадранте копилотов и работы с текстом. Платформа Fixie.ai, напротив, целится в противоположный угол спектра — в максимальную автономность и автоматизацию бизнес-процессов, где ИИ действует как компьютер, программируемый на английском языке.
🛡️ Вызовы корпоративной безопасности и архитектура «Гардрейлов» 21:22
Развертывание ИИ-агентов в корпоративной среде сталкивается с серьезными вызовами информационной безопасности. В рамках текущего девелоперского превью Fixie.ai намеренно открыли платформу для свободного тестирования, однако для Enterprise-клиентов эта модель неприемлема. При интеграции агента с внутренними базами данных (например, Notion) возникает сложная цепочка уязвимостей, связанных с передачей контекста сторонним провайдерам моделей и сохранением истории на чужих серверах.
Уэлш ожидает, что для решения этой проблемы необходимы локальные опенсорсные модели, развертываемые внутри закрытого контура компании. Кроме того, ИИ-модели остаются уязвимы для атак типа «инъекция промпта» (prompt injection). В качестве перспективного решения Уэлш выделяет проект Guardrails от Шреи Раджпал (Shreya Rajpal), бывшей сотрудницы Apple. Эта технология позволяет жестко специфицировать семантические требования к ответам ИИ в определенных ситуациях.
По мнению гостя, будущее систем безопасности лежит за использованием специализированных, очень маленьких и дешевых моделей-валидаторов. Их единственная задача — проверять соответствие ответов основной генеративной модели заданным рамкам безопасности и выдавать бинарный вердикт.
🧠 Эфемерные сессии и долгосрочная память агентов 36:01
Проблема контекста и памяти в современных ИИ-систем остается одной из самых дискуссионных. В платформе Fixie.ai взаимодействие организовано через так называемые «сессии» — цепочки диалогов между пользователем и набором агентов. Контекст внутри сессии позволяет ИИ понимать короткие уточняющие команды пользователя, например, требование перестроить круговую диаграмму в гистограмму без повторного извлечения данных из GitHub.
Однако в текущей реализации эти сессии эфемерны. Мэтт Уэлш отмечает, что хотя такие проекты, как AutoGPT и BabyAGI, пытаются реализовать перманентную память, для большинства корпоративных задач долгосрочная память агента не требуется. Более того, в коммерческих сценариях она может быть опасна из-за рисков утечки данных между разными клиентами.
По мнению Уэлша, автоматическое сохранение данных должно жестко сегментироваться. Он приводит в пример собственную практику разделения профилей в браузере Chrome на рабочие и личные, подчеркивая, что память ИИ-агентов должна иметь аналогичные барьеры, чтобы избежать «отравления» нерелевантным контекстом.
🎙️ Эмбиентные интерфейсы: Будущее в стиле фильма «Она» 42:39
Рассуждая о том, как изменится повседневное взаимодействие с компьютером, Мэтт Уэлш выражает скепсис по отношению к очкам дополненной реальности. Имея личный опыт тестирования Google Glass в реальном мире, он заявляет, что они провалились из-за социальной неприемлемости ношения камеры на лице.
По прогнозу Уэлша, будущее человеко-компьютерного интерфейса будет больше похоже на научно-фантастический фильм Спайка Джонза «Она» (Her), где пользователь общается с ИИ через беспроводной наушник. Такой эмбиентный (скрытый) интерфейс социально приемлем и позволяет ИИ незаметно давать проактивные подсказки на основе анализа текущего контекста жизни пользователя. Экран смартфона при этом останется вспомогательным средством ввода и вывода информации.
Также Уэлш выражает поддержку стратегии компании Apple, направленной на выполнение ИИ-вычислений и хранение данных непосредственно на чипах самого устройства (on the edge). По его мнению, это единственная модель, способная гарантировать полную конфиденциальность личных данных в будущем.
🔮 Эволюция образования и ликвидация «касты программистов» 55:10
Главная надежда Мэтта Уэлша в отношении ИИ-революции заключается в тотальной демократизации технологий. Он верит, что ИИ позволит любому человеку на планете полноценно использовать вычислительные мощности компьютеров. Сегодня для этого нужно быть членом «элитарного кастового жречества», умеющего писать сложный код. Естественный язык, благодаря способностям моделей к рассуждению, станет новым универсальным языком программирования.
В то же время Уэлш испытывает серьезные опасения за будущее образования и своих детей. Старые методы оценки знаний, основанные на написании эссе или создании простых учебных программ, по его словам, полностью теряют смысл. Обществу придется радикально перестроить образовательный процесс и критерии оценки способностей, поскольку ИИ берет на себя автоматизацию большинства привычных когнических задач.