# От Трансформеров к Jamba: Шохам о будущем корпоративного ИИ и Maestro

Источник: https://www.youtube.com/watch?v=DqZsvSLJ40Y
Канал: Eye on AI
Опубликовано: 27.03.2025

---

В новом выпуске подкаста Eye on AI Йоав Шохам, сооснователь компании AI21 Labs и почетный профессор Стэнфордского университета, обсуждает технологический сдвиг от «чистых» языковых моделей к комплексным ИИ-системам. Шохам подробно описывает инновационную гибридную архитектуру Jamba, запуск оркестратора Maestro и делится философскими размышлениями о том, что на самом деле означает «понимание» в контексте машинного обучения.

## 🧠 Путь от логики к гибридному ИИ: История AI21 Labs
[[JUMP:02:29]]

Йоав Шохам пришел в сферу искусственного интеллекта еще в 1987 году, начав карьеру ассистента профессора в Стэнфорде после учебы в Йельском университете [02:41]. В течение 28 лет он занимался преимущественно теоретическими исследованиями — логикой, философией и теорией игр (его онлайн-курс по теории игр посмотрели более миллиона человек) [03:09].

Идея создания компании AI21 Labs (которой сейчас 7 лет) возникла у Шохама после продажи его предыдущего стартапа корпорации Google. По словам Шохама, он почувствовал, что индустрия ИИ совершает ошибку, «складывая все яйца в одну корзину» глубокого обучения (Deep Learning) [04:30].

Ключевые тезисы Шохама о создании компании:

*   **Проблема чистой статистики:** Шохам утверждает, что статистические методы, лежащие в основе современных LLM, никогда не обеспечат надежного логического вывода (reasoning), необходимого для серьезных задач [04:58].
*   **Синтез подходов:** Целью AI21 Labs стало объединение «старого доброго ИИ» (символьного ИИ и экспертных систем) с современным глубоким обучением [05:11].
*   **Команда:** Сооснователями выступили Ори Гошен и Амнон Шашуа (основатель Mobileye). В начале пути Шохам лично обучал первых сотрудников логике и временным рассуждениям, чтобы восполнить пробелы в их классическом образовании [06:07].
*   **Фокус на языке:** Хотя в 2017 году компьютерное зрение считалось более перспективным, команда выбрала работу с текстом. Шохам объясняет это тем, что язык, в отличие от зрения, обладает глобальной семантикой: изменение одного слова может полностью изменить смысл всего предложения [07:11].

Первым заметным продуктом компании стала модель Jurassic-1, а затем — популярный помощник для написания текстов WordTune, который быстро набрал 10 миллионов пользователей [09:50].

## 🏗️ Архитектура Jamba: Победить линейность Трансформеров
[[JUMP:11:07]]

Одной из главных проблем современных моделей на базе Трансформеров Шохам называет их квадратичную сложность: при увеличении контекста (например, до миллиона токенов) вычислительные затраты растут слишком быстро [12:00]. Для решения этой задачи AI21 Labs разработала семейство моделей Jamba.

Особенности архитектуры Jamba:

1.  **Гибридный подход:** Модель базируется на SSM (State Space Model) — архитектуре Mamba, разработанной в академической среде. AI21 Labs первыми смогли масштабировать её до уровня больших моделей [12:42].
2.  **Структура блоков:** Блок Jamba состоит из восьми слоев, где семь слоев — это Mamba, и один — традиционный Transformer (Attention-слой) [18:26]. Это позволяет сохранить долгосрочную память и линейную сложность, не теряя в качестве ответов.
3.  **Параметры и эффективность:**
    *   **Jamba Small:** Общее число параметров — 52 млрд (активных — 12 млрд). Модель способна уместиться на одном графическом процессоре (GPU) [13:48].
    *   **Jamba Large (1.6):** Общее число параметров — 398 млрд (активных — 94 млрд). Она умещается в один кластер HPU [14:02].
4.  **Сравнение с RNN:** В отличие от старых рекуррентных сетей, SSM лучше удерживают контекст через состояние (state), которое обновляется по мере чтения входных данных [15:20].

Шохам утверждает, что по результатам тестов Jamba не уступает топовым моделям аналогичного размера, при этом значительно превосходя их по пропускной способности и эффективности использования памяти [13:23].

## 📊 Скепсис в отношении бенчмарков и RLHF
[[JUMP:19:04]]

Несмотря на высокие показатели своих моделей в тестах, Шохам высказывает скептическое отношение к индустриальным бенчмаркам (GSM8K, MMLU и др.). По его мнению, они дают «слабый сигнал» о реальном качестве модели по двум причинам [19:17]:

*   **Низкая корреляция:** Успехи в решении математических задач из тестов часто не означают, что модель будет эффективно работать в реальном бизнесе [19:45].
*   **Манипуляции (Gaming):** Бенчмарки легко «взламываются». Разработчики могут не использовать тестовые данные напрямую в обучении, но направлять огромные вычислительные ресурсы именно на те области, которые замеряются в тестах, что не делает модель лучше в целом [21:32].

Шохам также затронул тему терминологии. Он утверждает, что RLHF (обучение с подкреплением на основе отзывов людей) — это «неверное название» (misnomer). На самом деле это моделирование вознаграждения, а не полноценное обучение с подкреплением (Reinforcement Learning) [22:43]. Тем не менее, в новейших моделях (таких как O1 от OpenAI или R1) RL действительно играет важную роль в формировании цепочек рассуждений (Chain of Thought) [23:08].

## 🏢 Переход к AI-системам и Maestro
[[JUMP:24:54]]

Главный тезис Шохама заключается в том, что мир постепенно уходит от «чистых» языковых моделей к полноценным ИИ-системам. Для корпоративного сектора (Enterprise) простого чат-бота недостаточно, так как бизнесу нужна предсказуемость, а не лотерея «prompt and pray» (написал промпт и молись) [31:25].

Для решения этой задачи AI21 Labs представила Maestro — планирующий оркестратор.

Ключевые характеристики Maestro:

*   **Мультимодельность:** Он может использовать не только Jamba, но и любые другие модели (GPT-4o, Claude Opus и др.), выбирая наиболее подходящую для конкретного шага задачи [39:36].
*   **Инструменты и код:** Оркестратор умеет обращаться к внешним калькуляторам, базам данных через RAG-системы и исполнять программный код для точных вычислений [33:16].
*   **Автоматизация цепочек:** Раньше разработчикам приходилось вручную прописывать жесткие сценарии («вызови модель А, проверь вывод, вызови модель Б»). Maestro сам планирует рабочий процесс на основе ИИ [35:31].
*   **Эффективность:** По данным Шохама, использование Maestro в среднем повышает точность выполнения задач на 50% [39:50].

## 🧐 Понимают ли LLM на самом деле?
[[JUMP:38:10]]

Шохам вступает в заочную полемику с Джеффри Хинтоном и Эндрю Ыном по поводу того, обладают ли модели интеллектом. Вместе с коллегой Кевином Лейтоном-Брауном он работает над философско-техническим проектом «Понимание понимания» [38:36].

По мнению Шохама, для того чтобы заявить, что система «понимает» конкретную область (например, арифметику), она должна соответствовать трем критериям:

1.  **Компетентность:** Ответы должны быть в подавляющем большинстве случаев правильными (базовый проходной балл) [43:30].
2.  **Отсутствие «абсурдных» ошибок:** Если система правильно решает сложные задачи, но на вопрос «сколько будет 2+2» отвечает «5» и пытается это аргументировать, она не понимает домен [44:36].
3.  **Способность к объяснению:** Объяснение процесса решения дает уверенность в том, что система не просто угадала или запомнила статистический паттерн, а применила общую процедуру [46:02].

Шохам утверждает, что современные LLM в нетривиальных доменах пока не демонстрируют истинного понимания. Он также вспоминает свой семинар в Стэнфорде «Могут ли компьютеры думать и чувствовать?», отмечая, что развитие ИИ заставляет нас переосмыслять не только машины, но и понятие человеческого сознания [48:17].

---