Эйдан Гомес (Cohere): языковые модели как новое программное обеспечение

В новом выпуске подкаста Machine Learning Street Talk ведущий Тим обсудил с соавтором архитектуры Transformer и генеральным директором ИИ-стартапа Cohere Эйданом Гомесом эволюцию языковых моделей как нового слоя программного обеспечения. Собеседники подробно разобрали историю создания исторической статьи «Attention Is All You Need», фундаментальные ограничения современных нейросетей и прагматичные барьеры, стоящие перед независимыми разработчиками при интеграции больших языковых моделей (LLM) в бизнес-приложения. Особое внимание было уделено философии Cohere, которая стремится упростить доступ к технологиям машинного обучения для миллионов классических программистов.

🚀 От интернатуры до революции: как создавался Transformer 4:03

История создания архитектуры Transformer началась в стенах подразделения Google Brain, где Эйдан Гомес проходил исследовательскую интернатуру под руководством одного из «крестных отцов» глубокого обучения Джеффри Хинтона. На тот момент в лаборатории существовало несколько разрозненных исследовательских потоков, нацеленных на развертывание авторегрессионных последовательных моделей для работы с текстом, вдохновленных успехом модели WaveNet в аудиогенерации.

Эйдан Гомес работал вместе с Лукашем Кайзером над программной стороной проекта — созданием масштабируемых фреймворков для распределенного обучения нейросетей, способных работать не на десятках, а на тысячах ускорителей. Результатом этой работы стала библиотека tensor2tensor, которая впоследствии легла в основу экспериментов по созданию Трансформера.

Объединение усилий произошло спонтанно. Эйдан Гомес вспоминает, что они с Лукашем Кайзером убедили Ноама Шазира, работавшего над схожими авторегрессионными механизмами, перенести свои наработки на их фреймворк. Одновременно с этим в отделе Google Translate исследователи Якоб Ушкурайт, Ашиш Васвани, Ники Пармар и Илья Полосухин пытались создать абсолютно «чистую» модель внимания, полностью очищенную от сложности рекуррентных нейронных сетей (RNN), сложных вентилей (gates) и скрытых состояний. В итоге все три группы исследователей консолидировались вокруг фреймворка tensor2tensor.

Финальная стадия разработки заняла всего 12 недель интенсивного спринта перед дедлайном конференции NeurIPS. По воспоминаниям Эйдана Гомеса, команда фактически жила и спала в офисе, непрерывно запуская итерации экспериментов и отлавливая баги. Будучи интерном, Гомес изначально воспринял такой экстремальный темп как стандартную норму для академических исследований.

Масштаб совершенного прорыва стал очевиден далеко не сразу. Эйдан Гомес приводит в пример примечательный диалог, состоявшийся в три часа ночи прямо перед сдачей статьи на NeurIPS:

«Мы с Ашишем Васвани сидели на диване в офисе Google Brain, и он повернулся ко мне со словами: "Эйдан, это будет нечто огромное". Моя реакция тогда была скептичной: "Ну, мы же просто подняли метрику BLEU на один пункт. Ты правда так думаешь? Разве не в этом суть исследований — добавить один балл к бенчмарку?"»

Как признает Гомес, в тот момент он не осознавал, насколько важную роль сыграет экстремальная простота и лаконичность новой архитектуры. Модель базовой конфигурации обучалась всего на 8 ускорителях в течение одних суток, но при этом демонстрировала феноменальную производительность и была идеально адаптирована для дальнейшего горизонтального масштабирования. По его мнению, именно Ашиш Васвани тогда оказался наиболее прозорливым участником команды, сумевшим разглядеть долгосрочный потенциал технологии.

🧠 Ограничения архитектуры и иерархия Хомского против масштабирования 9:37

Ведущий подкаста Тим выразил скептицизм относительно абсолютизации законов масштабирования (scaling laws). В качестве аргумента он привел недавнее исследование лаборатории DeepMind под названием «Neural Networks and the Chomsky Hierarchy». Согласно выводам авторов этой работы, стандартные Трансформеры способны репрезентировать исключительно конечные языки (finite languages), уступая даже классическим RNN в контексте распознавания регулярных языков. Для работы со сложными контекстно-свободными языками нейросети требуют обязательного аугментированного расширения памяти в виде стека. Тим подчеркнул, что без внешней памяти нейросеть представляет собой лишь конечный автомат, неспособный к подлинному символическому композиционному мышлению или аппроксимации бесконечных объектов вроде числа $\pi$ до $n$-го знака.

Эйдан Гомес согласился с наличием практических лимитов у текущей архитектуры, отметив, что был бы крайне разочарован, если бы Transformer оказался вершиной креативности человечества в сфере ИИ. По мнению Гомеса, повсеместное доминирование Трансформеров сегодня объясняется не их идеальной теоретической базой, а двумя прагматичными факторами:

Отличные свойства масштабирования при росте вычислительных мощностей.
Мощный сетевой эффект: сообщество консолидировалось вокруг одной архитектуры и выстроило под нее гигантскую инфраструктуру программного и аппаратного обеспечения.

Комментируя выводы DeepMind, Гомес указал на разницу между теорией и практикой машинного обучения. В теории Transformer является универсальным аппроксиматором и может демонстрировать полноту по Тюрингу. Однако на практике, в условиях оптимизации методом градиентного спуска, модель всегда находит простейшую функцию, удовлетворяющую условиям конкретной задачи, поскольку не может исследовать все возможные перестановки параметров.

В качестве перспективного вектора развития Гомес выделил архитектуру RETRO от DeepMind, которая аугментирует Трансформер возможностью поиска по внешней базе данных. По его словам, индустрии жизненно необходимы архитектуры, способные:

Удерживать стабильное внутреннее состояние (state) на сверхдлинных временных горизонтах.
Самостоятельно производить запись в собственную память (делать условные «заметки» о прочитанном в прошлом).

Главным барьером для внедрения подобных инноваций Гомес считает жесткие требования к вычислительной эффективности. Рынок и разработчики всегда будут выбирать самое простое, быстрое и производительное решение, поэтому любые новые компоненты памяти должны научиться масштабироваться так же эффективно, как это делает современный «ванильный» Transformer.

💼 Бизнес-модель Cohere: демократизация ИИ для разработчиков 15:00

Миссия стартапа Cohere заключается в том, чтобы «наделить технологии языком» путем передачи LLM в руки широкого круга программистов. Эйдан Гомес подчеркивает, что сегодня интеграция языковых моделей в коммерческие продукты сопряжена с огромным технологическим трением. Разработчику приходится развертывать сложные фреймворки вроде PyTorch или JAX, а также вручную компилировать CUDA-ядра на виртуальных машинах, что требует глубоких узкоспециализированных знаний.

Cohere стремится полностью абстрагировать этот низкоуровневый слой, предложив рынку интуитивно понятные API-интерфейсы. В качестве примера Гомес привел функцию cohere.classify, где для классификации массива твитов разработчику достаточно отправить текстовый запрос и несколько примеров разметки, сразу получив готовый результат без настройки нейросетевых весов.

По мнению генерального директора Cohere, несмотря на то, что Transformer был изобретен более пяти лет назад, технология до сих пор слабо изменила структуру повседневных пользовательских приложений. Гомес выделяет два главных барьера, которые сдерживают экспансию LLM на потребительском рынке:

Вычислительный барьер (Compute Barrier): Для обучения крупных моделей требуются суперкомпьютеры и колоссальные объемы данных, к которым у обычных ИТ-команд нет доступа.
Дефицит талантов (Talent Barrier): На планете работают миллионы разработчиков, но лишь ничтожная их доля обладает компетенциями в области Machine Learning и обучения моделей. Стратегия Cohere нацелена на то, чтобы стереть разницу между мобильными разработчиками, создателями баз данных и ML-инженерами, дав им единый простой инструмент управления языком.

На текущий момент компания Cohere, базирующаяся в Торонто, привлекла $175 млн венчурного финансирования. В числе инвесторов стартапа значатся фонд Index Ventures, а также знаковые фигуры индустрии: Джеффри Хинтон, Фэй-Фэй Ли и Питер Аббил. Своим ключевым конкурентным преимуществом Cohere называет фокус на безопасности данных и предсказуемости поведения моделей, что критически важно для крупных корпоративных клиентов.

🤝 Борьба с трением: гибкость стартапов против жестких политик БигТеха 18:42

Ведущий подкаста Тим, будучи основателем стартапа, поделился личным негативным опытом использования API от OpenAI и Microsoft в продакшене. По его мнению, их комплаенс-политики и анкеты верификации выглядят пугающе:

Провайдеры жестко ограничивают приложения с открытым контуром (open-ended applications), где пользователи могут свободно экспериментировать с промптами, хотя именно такие сценарии Тим считает самыми перспективными.
Существует постоянный риск внезапного отключения сервиса (rug-pulling) со стороны корпораций.
Потоковое логирование и запись всех пользовательских действий осуществляются под предлогом обеспечения безопасности.

Тим отметил, что LLM создают новый паттерн, где конечные пользователи приложения фактически сами становятся его программистами, формируя маркетплейсы готовых промпт-структур.

Эйдан Гомес заверил, что Cohere полностью поддерживает концепцию открытых и игровых («playful») платформ, проводя аналогию с тем, как сообщества развивали Midjourney и Stable Diffusion через коллективный обмен опытом. Единственным жестким ограничением со стороны Cohere является соблюдение базовых этических принципов: стартапы не должны использовать мощности платформы для создания автоматизированных бот-сетей, генерирующих дезинформацию или разжигающих ненависть в социальных сетях.

В отличие от жесткого корпоративного подхода конкурентов, Cohere позиционирует себя как гибкого партнера. По словам Гомеса, если один из пользователей стартапа попытается совершить состязательную атаку (adversarial attack) на модель, Cohere не станет превентивно блокировать весь аккаунт разработчика. Вместо этого команда стартапа получит совместную инженерную поддержку для модерации трафика, выявления злоумышленников и развертывания инструментов фильтрации. Кроме того, Cohere уже поддерживает архитектурный паттерн BYOK («Bring Your Own Key»), при котором конечные пользователи приложения могут вводить свои собственные API-ключи, самостоятельно неся юридическую ответственность перед провайдером ИИ.

⚡ Технический стек Cohere: от Command-моделей до бесконечного контекста 25:32

Описывая фундаментальные отличия от OpenAI, Эйдан Гомес указал, что создатели GPT-3 выбрали стратегию «hands-off» — выкатили API-эндпоинты по принципу «удачи, развлекайтесь, стройте сами». Cohere же формирует дорожную карту продукта на основе непрерывного диалога с клиентами. Так, в ответ на массовые запросы разработчиков компания оперативно запустила специализированный эндпоинт для суммаризации длинных документов и чат-логов.

Гомес прокомментировал недавнее качественное улучшение моделей OpenAI (семейство DaVinci-2), которое было достигнуто благодаря тонкой настройке с помощью обучения с подкреплением на основе обратной связи от человека (RLHF/Instruct). В Cohere развивают аналогичное направление, но называют такие решения Command-моделями. На момент записи интервью продукт находился в стадии закрытого бета-тестирования.

Переход к Command-моделям Гомес назвал важнейшим эволюционным шагом:

«Базовые нейросети обучаются на сырых данных из интернета, и нет никаких объективных причин ожидать от них осмысленного поведения — нам просто повезло, что они работают в режиме few-shot подсказок. До появления Instruct-моделей разработчикам приходилось буквально "разгадывать язык" конкретной нейросети. Это был слепой, хрупкий и мучительный процесс перестановки слов в промпте. Командные модели убирают это трение».

В ходе блиц-опроса об инженерных характеристиках инфраструктуры Cohere Гомес раскрыл следующие параметры и планы компании:

Размер контекстного окна: Текущий лимит составляет 2048 токенов с ближайшим переходом на 4096 токенов. Долгосрочная инженерная цель Cohere — создание моделей с бесконечным контекстным окном.
Лимиты на одновременные запросы: Базовое ограничение составляет 10 000 запросов в минуту (QPM), однако для крупных клиентов этот лимит полностью снимается, позволяя обрабатывать миллиарды символов в сутки.
Корпоративная безопасность: Платформа полностью поддерживает протоколы Single Sign-On (SSO). Функции ротации ключей безопасности и мультиоблачной колокации (co-location) находятся в процессе разработки.
Главный коммерческий кейс: На данный момент наиболее очевидный Product-Market Fit технология нашла в сфере автоматизированного копирайтинга (сервисы Jasper, Copy.ai, HyperWrite), где объемы генерации контента растут лавинообразно.

Тим предложил идею создания компилируемых вычислительных графов (DAG) для цепочек промптов. Вместо выполнения множества последовательных сетевых запросов от приложения к API Cohere (что сильно увеличивает задержки), разработчик мог бы отправлять единый скомпилированный граф условий и циклов, который исполнялся бы параллельно прямо на серверной фабрике Cohere. Эйдан Гомес назвал эту концепцию великолепной продуктовой идеей и пообещал изучить возможности ее реализации, добавив, что сейчас Cohere решает проблему задержек (latency) путем кастомного распределения весов моделей между увеличенным количеством GPU-нод для конкретных заказчиков.

🌐 Будущее интерфейсов: графы промптов и LLM как поисковые движки 31:49

Коснувшись природы ИИ, собеседники обсудили тезис известного исследователя Франсуа Шолле, который сравнил большие языковые модели с базами данных (структурами типа B-деревьев). Тим развил эту мысль, заявив, что LLM — это одновременно и база данных, и сам движок базы данных, принципы работы которого человечество пока до конца не понимает.

Эйдану Гомесу ближе другая аналогия: он рассматривает базовую LLM, обученную на массиве веб-страниц, как эволюцию поисковой системы. Вместо жесткой выдачи гиперссылок в ответ на специфически сформулированный запрос (что Гомес называет «особым искусственным языком Google»), языковая модель предлагает мягкий, диалоговый интерфейс к накопленному человечеством знанию.

Главной проблемой этого подхода Гомес считает феномен компрессии: модели сжимают терабайты интернета в фиксированный набор своих параметров, неизбежно теряя детали. При попытке восстановить информацию модель начинает «галлюцинировать», заполняя пробелы правдоподобным, но вымышленным текстом. Решением этой проблемы Гомес видит обязательное заземление (grounding) моделей через интеграцию механизмов извлечения информации (Information Retrieval), когда нейросеть сначала совершает поисковый запрос к базе проверенных фактов, а затем лишь лаконично дистиллирует и пересказывает полученные документы пользователю.

🔮 Новый фронтир: память, мультимодальность и расширенное сознание 41:10

По мнению Эйдана Гомеса, в ближайшие годы индустрия ИИ сосредоточится на трех ключевых технологических столпах:

Долгосрочное удержание контекста (State): Модель должна уйти от транзакционного принципа «текст на вход — текст на выход — забыли». Идеальный ассистент обязан помнить всю историю многолетних интеракций с пользователем и знать его глубокие предпочтения.
Мультимодальность: Интеграция обработки аудио, видео и изображений позволит заземлить модель в физической реальности нашего мира.
Использование внешних инструментов (Tool Use): Обучение моделей навигации в браузерах, кликам по ссылкам и взаимодействию с интерфейсами, которые изначально создавались людьми для людей. Первые результаты в этой сфере Гомес назвал «супер-захватывающими».

В финальной части дискуссии Тим затронул философскую проблему понимания, сославшись на работу Мелани Митчелл о феномене «быстрого обучения» (shortcut learning), когда ИИ демонстрирует высокие результаты на бенчмарках за счет ложных статистических корреляций, не обладая реальным пониманием контекста. Митчелл предполагает, что человеческий интеллект всегда будет эффективнее в условиях дефицита данных благодаря сильным каузальным (причинно-следственным) механизмам, тогда как статистические модели займут нишу обработки гигантских исторических массивов информации.

Эйдан Гомес высказал мнение, что ключевое различие между человеческим и машинным пониманием кроется в целевой функции (objective function). Человеческий мозг эволюционировал в агрессивной физической среде, где язык — лишь один из периферийных инструментов для выживания и продолжения рода. Нейросеть же обучается исключительно на задаче предсказания следующего токена. Тем не менее, Гомес не согласен с тезисом о категорическом отличии ИИ от человека: по его мнению, биологический мозг в своей основе точно так же оперирует статистическими моделями и паттернами, а сами области понимания человека и машин пересекаются огромным образом.

Тим провел параллель с концепцией «расширенного сознания» (Extended Mind) философа Дэвида Чалмерса, заявив, что рассматривает LLM как симбиотическое расширение собственного интеллекта, лишенное личной агентности, но кратно усиливающее человека при совместной работе.

Эйдан Гомес полностью поддержал эту точку зрения, напомнив, что появление поисковых систем и смартфонов избавило человечество от необходимости помнить терабайты фактов, освободив нейроны для решения более высокоуровневых задач. Современные языковые модели делают следующий шаг — они позволяют делегировать ИИ не просто поиск знаний, а выполнение целых рутинных рабочих процессов, трансформируя саму производительность человеческого труда.