От Трансформеров к Jamba: Шохам о будущем корпоративного ИИ и Maestro

Eye on AI 537 52 мин 5 мин 27.03.2025
Главное

В новом выпуске подкаста Eye on AI Йоав Шохам, сооснователь компании AI21 Labs и почетный профессор Стэнфордского университета, обсуждает технологический сдвиг от «чистых» языковых моделей к комплексным ИИ-системам. Шохам подробно описывает инновационную гибридную архитектуру Jamba, запуск оркестратора Maestro и делится философскими размышлениями о том, что на самом деле означает «понимание» в контексте машинного обучения.

🧠 Путь от логики к гибридному ИИ: История AI21 Labs 2:29

Йоав Шохам пришел в сферу искусственного интеллекта еще в 1987 году, начав карьеру ассистента профессора в Стэнфорде после учебы в Йельском университете . В течение 28 лет он занимался преимущественно теоретическими исследованиями — логикой, философией и теорией игр (его онлайн-курс по теории игр посмотрели более миллиона человек) .

Идея создания компании AI21 Labs (которой сейчас 7 лет) возникла у Шохама после продажи его предыдущего стартапа корпорации Google. По словам Шохама, он почувствовал, что индустрия ИИ совершает ошибку, «складывая все яйца в одну корзину» глубокого обучения (Deep Learning) .

Ключевые тезисы Шохама о создании компании:

Первым заметным продуктом компании стала модель Jurassic-1, а затем — популярный помощник для написания текстов WordTune, который быстро набрал 10 миллионов пользователей .

🏗️ Архитектура Jamba: Победить линейность Трансформеров 11:07

Одной из главных проблем современных моделей на базе Трансформеров Шохам называет их квадратичную сложность: при увеличении контекста (например, до миллиона токенов) вычислительные затраты растут слишком быстро . Для решения этой задачи AI21 Labs разработала семейство моделей Jamba.

Особенности архитектуры Jamba:

  1. Гибридный подход: Модель базируется на SSM (State Space Model) — архитектуре Mamba, разработанной в академической среде. AI21 Labs первыми смогли масштабировать её до уровня больших моделей .
  2. Структура блоков: Блок Jamba состоит из восьми слоев, где семь слоев — это Mamba, и один — традиционный Transformer (Attention-слой) . Это позволяет сохранить долгосрочную память и линейную сложность, не теряя в качестве ответов.
  3. Параметры и эффективность:
    • Jamba Small: Общее число параметров — 52 млрд (активных — 12 млрд). Модель способна уместиться на одном графическом процессоре (GPU) .
    • Jamba Large (1.6): Общее число параметров — 398 млрд (активных — 94 млрд). Она умещается в один кластер HPU .
  4. Сравнение с RNN: В отличие от старых рекуррентных сетей, SSM лучше удерживают контекст через состояние (state), которое обновляется по мере чтения входных данных .

Шохам утверждает, что по результатам тестов Jamba не уступает топовым моделям аналогичного размера, при этом значительно превосходя их по пропускной способности и эффективности использования памяти .

📊 Скепсис в отношении бенчмарков и RLHF 19:04

Несмотря на высокие показатели своих моделей в тестах, Шохам высказывает скептическое отношение к индустриальным бенчмаркам (GSM8K, MMLU и др.). По его мнению, они дают «слабый сигнал» о реальном качестве модели по двум причинам :

Шохам также затронул тему терминологии. Он утверждает, что RLHF (обучение с подкреплением на основе отзывов людей) — это «неверное название» (misnomer). На самом деле это моделирование вознаграждения, а не полноценное обучение с подкреплением (Reinforcement Learning) . Тем не менее, в новейших моделях (таких как O1 от OpenAI или R1) RL действительно играет важную роль в формировании цепочек рассуждений (Chain of Thought) .

🏢 Переход к AI-системам и Maestro 24:54

Главный тезис Шохама заключается в том, что мир постепенно уходит от «чистых» языковых моделей к полноценным ИИ-системам. Для корпоративного сектора (Enterprise) простого чат-бота недостаточно, так как бизнесу нужна предсказуемость, а не лотерея «prompt and pray» (написал промпт и молись) .

Для решения этой задачи AI21 Labs представила Maestro — планирующий оркестратор.

Ключевые характеристики Maestro:

🧐 Понимают ли LLM на самом деле? 38:10

Шохам вступает в заочную полемику с Джеффри Хинтоном и Эндрю Ыном по поводу того, обладают ли модели интеллектом. Вместе с коллегой Кевином Лейтоном-Брауном он работает над философско-техническим проектом «Понимание понимания» .

По мнению Шохама, для того чтобы заявить, что система «понимает» конкретную область (например, арифметику), она должна соответствовать трем критериям:

  1. Компетентность: Ответы должны быть в подавляющем большинстве случаев правильными (базовый проходной балл) .
  2. Отсутствие «абсурдных» ошибок: Если система правильно решает сложные задачи, но на вопрос «сколько будет 2+2» отвечает «5» и пытается это аргументировать, она не понимает домен .
  3. Способность к объяснению: Объяснение процесса решения дает уверенность в том, что система не просто угадала или запомнила статистический паттерн, а применила общую процедуру .

Шохам утверждает, что современные LLM в нетривиальных доменах пока не демонстрируют истинного понимания. Он также вспоминает свой семинар в Стэнфорде «Могут ли компьютеры думать и чувствовать?», отмечая, что развитие ИИ заставляет нас переосмыслять не только машины, но и понятие человеческого сознания .


💬 Цитаты

«Статистика никогда не даст вам надежного логического вывода того типа, который необходим.»

Йоав Шохам 04:58

«Бог не создавал нейронные сети для выполнения арифметики. HP дала нам калькулятор в 1970 году, нам не нужно изобретать это колесо заново.»

Йоав Шохам 33:03

«Я называю их «большими моделями размышлений» (large musing models), а не моделями рассуждений.»

Йоав Шохам 37:25
👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
SSM (State Space Model)
Архитектура нейронных сетей с линейной сложностью, которая эффективнее Трансформеров при обработке длинных последовательностей.
Mamba
Конкретная реализация архитектуры SSM, ставшая основой для моделей Jamba.
Оркестратор (Maestro)
Программная надстройка над ИИ-моделями, которая управляет вызовами инструментов, распределяет задачи и проверяет результаты.
RAG (Retrieval-Augmented Generation)
Технология, позволяющая нейросети использовать внешние надежные источники данных для генерации ответа.
📊 Цифры
🗓 Хронология
  1. 1987 Йоав Шохам начинает карьеру ассистента профессора в Стэнфордском университете.
  2. 2017 Основание AI21 Labs и выход статьи о Трансформерах.
  3. 2021 Выпуск модели Jurassic-1 компанией AI21 Labs.
  4. 2024 Релиз Jamba 1.6 и анонс системы Maestro.
⚖️ Другая сторона
Искусственный интеллект Yoav Shoham AI21 Labs Jamba Transformer Mamba