От Трансформеров к Jamba: Шохам о будущем корпоративного ИИ и Maestro

В новом выпуске подкаста Eye on AI Йоав Шохам, сооснователь компании AI21 Labs и почетный профессор Стэнфордского университета, обсуждает технологический сдвиг от «чистых» языковых моделей к комплексным ИИ-системам. Шохам подробно описывает инновационную гибридную архитектуру Jamba, запуск оркестратора Maestro и делится философскими размышлениями о том, что на самом деле означает «понимание» в контексте машинного обучения.

🧠 Путь от логики к гибридному ИИ: История AI21 Labs 2:29

Йоав Шохам пришел в сферу искусственного интеллекта еще в 1987 году, начав карьеру ассистента профессора в Стэнфорде после учебы в Йельском университете . В течение 28 лет он занимался преимущественно теоретическими исследованиями — логикой, философией и теорией игр (его онлайн-курс по теории игр посмотрели более миллиона человек) .

Идея создания компании AI21 Labs (которой сейчас 7 лет) возникла у Шохама после продажи его предыдущего стартапа корпорации Google. По словам Шохама, он почувствовал, что индустрия ИИ совершает ошибку, «складывая все яйца в одну корзину» глубокого обучения (Deep Learning) .

Ключевые тезисы Шохама о создании компании:

Проблема чистой статистики: Шохам утверждает, что статистические методы, лежащие в основе современных LLM, никогда не обеспечат надежного логического вывода (reasoning), необходимого для серьезных задач .
Синтез подходов: Целью AI21 Labs стало объединение «старого доброго ИИ» (символьного ИИ и экспертных систем) с современным глубоким обучением .
Команда: Сооснователями выступили Ори Гошен и Амнон Шашуа (основатель Mobileye). В начале пути Шохам лично обучал первых сотрудников логике и временным рассуждениям, чтобы восполнить пробелы в их классическом образовании .
Фокус на языке: Хотя в 2017 году компьютерное зрение считалось более перспективным, команда выбрала работу с текстом. Шохам объясняет это тем, что язык, в отличие от зрения, обладает глобальной семантикой: изменение одного слова может полностью изменить смысл всего предложения .

Первым заметным продуктом компании стала модель Jurassic-1, а затем — популярный помощник для написания текстов WordTune, который быстро набрал 10 миллионов пользователей .

🏗️ Архитектура Jamba: Победить линейность Трансформеров 11:07

Одной из главных проблем современных моделей на базе Трансформеров Шохам называет их квадратичную сложность: при увеличении контекста (например, до миллиона токенов) вычислительные затраты растут слишком быстро . Для решения этой задачи AI21 Labs разработала семейство моделей Jamba.

Особенности архитектуры Jamba:

Гибридный подход: Модель базируется на SSM (State Space Model) — архитектуре Mamba, разработанной в академической среде. AI21 Labs первыми смогли масштабировать её до уровня больших моделей .
Структура блоков: Блок Jamba состоит из восьми слоев, где семь слоев — это Mamba, и один — традиционный Transformer (Attention-слой) . Это позволяет сохранить долгосрочную память и линейную сложность, не теряя в качестве ответов.
Параметры и эффективность:
- Jamba Small: Общее число параметров — 52 млрд (активных — 12 млрд). Модель способна уместиться на одном графическом процессоре (GPU) .
- Jamba Large (1.6): Общее число параметров — 398 млрд (активных — 94 млрд). Она умещается в один кластер HPU .
Сравнение с RNN: В отличие от старых рекуррентных сетей, SSM лучше удерживают контекст через состояние (state), которое обновляется по мере чтения входных данных .

Шохам утверждает, что по результатам тестов Jamba не уступает топовым моделям аналогичного размера, при этом значительно превосходя их по пропускной способности и эффективности использования памяти .

📊 Скепсис в отношении бенчмарков и RLHF 19:04

Несмотря на высокие показатели своих моделей в тестах, Шохам высказывает скептическое отношение к индустриальным бенчмаркам (GSM8K, MMLU и др.). По его мнению, они дают «слабый сигнал» о реальном качестве модели по двум причинам :

Низкая корреляция: Успехи в решении математических задач из тестов часто не означают, что модель будет эффективно работать в реальном бизнесе .
Манипуляции (Gaming): Бенчмарки легко «взламываются». Разработчики могут не использовать тестовые данные напрямую в обучении, но направлять огромные вычислительные ресурсы именно на те области, которые замеряются в тестах, что не делает модель лучше в целом .

Шохам также затронул тему терминологии. Он утверждает, что RLHF (обучение с подкреплением на основе отзывов людей) — это «неверное название» (misnomer). На самом деле это моделирование вознаграждения, а не полноценное обучение с подкреплением (Reinforcement Learning) . Тем не менее, в новейших моделях (таких как O1 от OpenAI или R1) RL действительно играет важную роль в формировании цепочек рассуждений (Chain of Thought) .

🏢 Переход к AI-системам и Maestro 24:54

Главный тезис Шохама заключается в том, что мир постепенно уходит от «чистых» языковых моделей к полноценным ИИ-системам. Для корпоративного сектора (Enterprise) простого чат-бота недостаточно, так как бизнесу нужна предсказуемость, а не лотерея «prompt and pray» (написал промпт и молись) .

Для решения этой задачи AI21 Labs представила Maestro — планирующий оркестратор.

Ключевые характеристики Maestro:

Мультимодельность: Он может использовать не только Jamba, но и любые другие модели (GPT-4o, Claude Opus и др.), выбирая наиболее подходящую для конкретного шага задачи .
Инструменты и код: Оркестратор умеет обращаться к внешним калькуляторам, базам данных через RAG-системы и исполнять программный код для точных вычислений .
Автоматизация цепочек: Раньше разработчикам приходилось вручную прописывать жесткие сценарии («вызови модель А, проверь вывод, вызови модель Б»). Maestro сам планирует рабочий процесс на основе ИИ .
Эффективность: По данным Шохама, использование Maestro в среднем повышает точность выполнения задач на 50% .

🧐 Понимают ли LLM на самом деле? 38:10

Шохам вступает в заочную полемику с Джеффри Хинтоном и Эндрю Ыном по поводу того, обладают ли модели интеллектом. Вместе с коллегой Кевином Лейтоном-Брауном он работает над философско-техническим проектом «Понимание понимания» .

По мнению Шохама, для того чтобы заявить, что система «понимает» конкретную область (например, арифметику), она должна соответствовать трем критериям:

Компетентность: Ответы должны быть в подавляющем большинстве случаев правильными (базовый проходной балл) .
Отсутствие «абсурдных» ошибок: Если система правильно решает сложные задачи, но на вопрос «сколько будет 2+2» отвечает «5» и пытается это аргументировать, она не понимает домен .
Способность к объяснению: Объяснение процесса решения дает уверенность в том, что система не просто угадала или запомнила статистический паттерн, а применила общую процедуру .

Шохам утверждает, что современные LLM в нетривиальных доменах пока не демонстрируют истинного понимания. Он также вспоминает свой семинар в Стэнфорде «Могут ли компьютеры думать и чувствовать?», отмечая, что развитие ИИ заставляет нас переосмыслять не только машины, но и понятие человеческого сознания .