Джей Аламмар о будущем LLM, эволюции RAG и разделении труда в ИТ-индустрии

В новом выпуске подкаста Machine Learning Street Talk известный популяризатор технологий и эксперт по искусственному интеллекту Джей Аламмар (Jay Alammar) делится инсайдами о своей работе в компании Cohere и будущем больших языковых моделей. В центре дискуссии — практическое применение LLM, эволюция систем RAG и тектонический сдвиг в ИТ-индустрии, разделяющий инженеров на создателей моделей и архитекторов прикладных ИИ-систем. Материал раскрывает, как преодолеть галлюцинации нейросетей и превратить впечатляющие техно-демо из соцсетей в надежные бизнес-продукты.

🏢 От визуализации к коммерческой разработке: новая роль Джея Аламмара в Cohere 0:00

Джей Аламмар, получивший всемирную известность благодаря своему таланту визуализировать сложные концепции искусственного интеллекта и ставший автором легендарного разбора «Illustrated Transformer», уже третий год работает внутри индустрии в компании Cohere. Его текущая миссия — служить мостиком между создателями передовых моделей, сообществом разработчиков и крупными корпоративными клиентами. Джей Аламмар помогает бизнесу решать прикладные задачи с помощью LLM, объясняя, какие сценарии использования приносят реальную экономическую ценность, а какие остаются лишь красивой игрушкой.

По его мнению, наиболее захватывающие и стабильные прорывы в ИИ сегодня происходят не в области чистой генерации контента, а в сфере семантического поиска и изменения ранжирования (reranking). Это те самые надежные юзкейсы, которые предприятия могут безбоязненно внедрять уже сейчас. Собеседники сходятся во мнении, что Cohere занимает уникальную нишу на рынке, помогая клиентам преодолеть «последнюю милю» — этап превращения сырой технологии ИИ в отказоустойчивое коммерческое приложение.

🛠️ Эволюция RAG и практический инструментарий Cohere Toolkit 2:08

За последние пять лет программное обеспечение совершило драматический скачок, получив возможности, которые ранее казались фантастикой. Однако пользователи быстро захотели использовать языковые модели для получения точной фактологической информации, что выявило фундаментальную проблему архитектуры — галлюцинации. Главным решением этой проблемы, как утверждает Джей Аламмар, стала технология генерации с привлечением поисковой информации (Retrieval Augmented Generation, RAG), которая на сегодняшний день является самым востребованным и полезным приложением LLM в мире.

Суть базового RAG проста: вместо того чтобы отвечать мгновенно на основе заложенных в параметры знаний, ИИ-система сначала выполняет шаг поиска во внешнем источнике данных, находит релевантный контекст и передает его модели вместе с исходным вопросом. Это гарантирует, что генерация будет заземлена на конкретный массив документов.

Для расширения этих возможностей Cohere разработала и выложила в открытый доступ Cohere Toolkit — отполированную за два года песочницу, оптимизированную для сложных сценариев использования. Этот инструмент позволяет скачивать готовые веб-приложения через Docker и поддерживает следующие продвинутые механики:

Переписывание запросов (Query Rewriting): вместо отправки всей поисковой фразы или параграфа, написанного пользователем, система оптимизирует и извлекает точные ключевые слова для поискового движка.
Многошаговый RAG (Multi-step / Multi-hop RAG): модель способна последовательно задавать уточняющие вопросы и продолжать поиск в источниках до тех пор, пока не соберет все фрагменты пазла для выполнения сложного аналитического задания.
Маршрутизация (Routing): автоматическое определение того, к какому источнику данных направить вопрос (например, запросы по кадрам отправлять в Notion, технические — в базу данных PostgreSQL, а общие вопросы — в глобальный веб).

📊 Поисковые эмбеддинги и реранкеры против сверхдлинных контекстных окон 3:19

Джей Аламмар настоятельно рекомендует начинающим разработчикам создавать семантические поисковые движки. Работа с эмбеддингами гораздо ближе к классической инженерии, чем промпт-инжиниринг. Векторные представления (embeddings) лежат в основе так называемого плотного извлечения (dense retrieval). Стандартная модель BERT фокусировалась на токенах, но для качественного поиска потребовалось контрастивное обучение (contrastive training), реализованное в проекте Sentence BERT Нильса Реймерса. Этот метод учит модель понимать, что предложение-запрос и предложение-ответ должны находиться близко друг к другу в векторном пространстве, даже если они не совпадают лексически.

Другим мощным инструментом Джей Аламмар называет реранкеры (rerankers) — это самый быстрый способ внедрить интеллект LLM в существующую традиционную поисковую систему всего за один вызов API. Схема работы реранкера выглядит следующим образом:

Существующая в компании поисковая система выдает топ-100 результатов по запросу пользователя.
Реранкер анализирует этот список и меняет порядок документов, поднимая, например, скрытый на 30-й позиции, но максимально релевантный документ на первое место.
Такой подход кратно повышает точность поиска без необходимости перестраивать всю ИТ-инфраструктуру компании.

В ответ на аргумент о том, что современные LLM со сверхдлинными контекстными окнами могут обрабатывать огромные документы целиком, Джей Аламмар приводит прагматичный контраргумент. По его словам, отправлять весь текст технической документации при каждом из 1000 пользовательских вопросов экономически неэффективно. Это приводит к колоссальной потере вычислительных мощностей (wasted compute), которую легко предотвратить с помощью хранения эмбеддингов и точечного извлечения контекста через RAG.

🧑‍💻 Новое разделение труда: инженеры машинного обучения против ИИ-инженеров 13:51

По наблюдениям Джея Аламмара, за последние два года отношение к технологии полностью изменилось. Если раньше на конференциях приходилось доказывать, почему большие языковые модели вообще интересны, то сегодня практически каждый человек лично соприкоснулся с их возможностями. Внутри индустрии этот сдвиг привел к четкому формированию двух различных профессий: Machine Learning Engineer (MLE) и AI Engineer.

их роли в цепочке создания ценности принципиально различаются:

Machine Learning Engineer (Инженер МО): работает непосредственно на уровне обучения моделей, имеет доступ к весам нейросети и управляет огромными вычислительными мощностями. Он занимается долгосрочным предобучением базовых моделей, а также пост-тренингом: настройкой инструкций (instruction tuning) и выравниванием предпочтений через RLHF или DPO.
AI Engineer (ИИ-инженер): эта позиция гораздо доступнее для специалистов, приходящих из классической веб-разработки или дата-сайенс. Их главные инструменты — промпт-инжиниринг, построение цепочек из нескольких API (chaining) и поверхностное тонкое дообучение под конкретные бизнес-домены.

🏢 Корпоративное развертывание, приватность данных и скрытые ловушки автоматизации 7:40

Собеседники развеивают миф о том, что интеграция искусственного интеллекта в бизнес дается бесплатно — она требует серьезных инженерных усилий. Джей Аламмар предостерегает компании от слепого доверия красивым демонстрациям (cherry-picked examples) в социальных сетях, которые в реальности работают лишь в 6 из 10 случаев. Для вывода продукта в промышленную эксплуатацию (production) необходима предсказуемость, поэтому Cohere предлагает гибкую экосистему развертывания. Крупный бизнес критически обеспокоен приватностью данных, поэтому Cohere реализует принцип «модель идет к данным, а не наоборот». Продукты компании интегрируются со всеми основными облачными провайдерами (мультиоблачность), виртуальными частными облаками (VPC), а также сервисами вроде Amazon Bedrock и Oracle Generative AI.

Ведущий подкаста отмечает, что современное ПО становится похожим на нейробиологию: инженеры строят непостижимые «живые» системы, вставляют в них датчики-пробы и наблюдают за поведением, при этом ни один человек до конца не понимает внутренние механизмы. Комментируя этот тезис, Джей Аламмар подчеркивает важность ответственного ИИ. По его мнению, у обывателей существует когнитивное искажение — они склонны неосознанно приписывать ИИ человеческие качества (personhood) и слепо доверять ему.

Кроме того, эксперты обращают внимание на другие, менее заметные риски:

Алгоритмы рекомендаций: традиционные рекомендательные системы в соцсетях, не являясь генеративным ИИ, ежедневно часами контролируют потоки информации, попадающие в головы миллиардов людей, что представляет огромный латентный вызов для безопасности общества.
Иллюзия надежности: разработчики часто создают продукты на основе единичного удачного опыта взаимодействия с моделью, сталкиваясь затем с невозможностью обеспечить стабильную работу в 95–99% реальных кейсов. Внедрение практик классической инженерии (юнит-тесты, регрессионное тестирование, утверждения-assertions в коде) критически необходимо для LLM-приложений.

🎨 Искусство визуализации сложных концепций: как создавался «Illustrated Transformer» 28:11

Вспоминая свой карьерный путь, Джей Аламмар рассказывает, что его главным сильным стимулом для перехода в сферу машинного обучения стал открытый релиз библиотеки TensorFlow корпорацией Google. Это совпало с эпохой взрывного роста глубокого обучения (deep learning). Позже, когда вышла историческая статья «Attention Is All You Need» (2017), описывающая архитектуру Transformer для задач перевода, Джей решил написать подробный иллюстрированный разбор. Так родился знаменитый блог «Illustrated Transformer».

Джей делится уникальным «лайфхаком» для всех создателей обучающего контента: написав первый черновик разбора, он отправил его напрямую авторам архитектуры Transformer, чьи email-адреса были указаны на первой странице научного исследования. Ученые дали ценную обратную связь, благодаря которой в статье появился важнейший раздел об остаточных связях (residual connections). В то время Джей работал в Udacity, что заставляло его детально разбираться в коде, чтобы объяснять сложные вещи студентам.

По словам эксперта, создание визуализаций — это часть его собственного процесса мышления, и каждое изображение проходит через 6-7 итераций исправлений, прежде чем стать понятным. Визуальный контент обладает колоссальной пропускной способностью (bandwidth) для восприятия человеческим мозгом по сравнению с сухим текстом или формулами. При чтении технических статей люди сначала сканируют заголовки и иллюстрации, и только если изображения вызывают доверие, они решаются на глубокое погружение в текст.

🔮 Будущее архитектур и новая книга «Hands-On Large Language Models» 49:04

Рассуждая о технологических трендах, Джей Аламмар отмечает определенную конвергенцию в исследованиях нейросетевых архитектур за последние годы — фундаментальных прорывов на уровне самой структуры моделей почти нет. Главный фокус сместился на качество и кураторство данных, а также на три ключевых этапа обучения: языковое моделирование (предобучение), инструктивное тонкое дообучение (SFT) и настройку предпочтений (RLHF/DPO). В то же время хакерское сообщество творит чудеса на уровне оптимизации: благодаря квантованию (quantization), модели сжимаются и запускаются на потребительских ноутбуках и даже микроконтроллерах вроде Arduino Llama.

Изменилась и доминирующая форма архитектуры — если оригинальный трансформер 2017 года был структурой типа «энкодер-декодер», то сегодня балом правят исключительно декодерные модели для генерации текста. За прошедшие годы проверку временем также прошли позиционное кодирование RoPE и метод Grouped Query Attention (GQA).

В завершение беседы Джей Аламмар анонсировал выход своей новой книги «Hands-On Large Language Models», написанной в соавторстве с Мартином Кортенхорстом (Martin Kortenhorst) и выпускаемой издательством O'Reilly. Книга ориентирована на инженеров и дата-сайентистов, фокусируясь на прикладных индустриальных кейсах и содержащих полностью обновленную визуальную версию «Illustrated Transformer» XXI века. По давней традиции O'Reilly, обложку книги украсит секретно выбранное издательством животное — на этот раз им стал кенгуру. Главный совет, который Джей дает всем новичкам в индустрии: навсегда отбросить синдром самозванца и публично делиться всем, чему они научились, в любом удобном формате.