В новом выпуске подкаста Eye on AI Йоав Шохам, сооснователь компании AI21 Labs и почетный профессор Стэнфордского университета, обсуждает технологический сдвиг от «чистых» языковых моделей к комплексным ИИ-системам. Шохам подробно описывает инновационную гибридную архитектуру Jamba, запуск оркестратора Maestro и делится философскими размышлениями о том, что на самом деле означает «понимание» в контексте машинного обучения.
🧠 Путь от логики к гибридному ИИ: История AI21 Labs 2:29
Йоав Шохам пришел в сферу искусственного интеллекта еще в 1987 году, начав карьеру ассистента профессора в Стэнфорде после учебы в Йельском университете . В течение 28 лет он занимался преимущественно теоретическими исследованиями — логикой, философией и теорией игр (его онлайн-курс по теории игр посмотрели более миллиона человек) .
Идея создания компании AI21 Labs (которой сейчас 7 лет) возникла у Шохама после продажи его предыдущего стартапа корпорации Google. По словам Шохама, он почувствовал, что индустрия ИИ совершает ошибку, «складывая все яйца в одну корзину» глубокого обучения (Deep Learning) .
Ключевые тезисы Шохама о создании компании:
- Проблема чистой статистики: Шохам утверждает, что статистические методы, лежащие в основе современных LLM, никогда не обеспечат надежного логического вывода (reasoning), необходимого для серьезных задач .
- Синтез подходов: Целью AI21 Labs стало объединение «старого доброго ИИ» (символьного ИИ и экспертных систем) с современным глубоким обучением .
- Команда: Сооснователями выступили Ори Гошен и Амнон Шашуа (основатель Mobileye). В начале пути Шохам лично обучал первых сотрудников логике и временным рассуждениям, чтобы восполнить пробелы в их классическом образовании .
- Фокус на языке: Хотя в 2017 году компьютерное зрение считалось более перспективным, команда выбрала работу с текстом. Шохам объясняет это тем, что язык, в отличие от зрения, обладает глобальной семантикой: изменение одного слова может полностью изменить смысл всего предложения .
Первым заметным продуктом компании стала модель Jurassic-1, а затем — популярный помощник для написания текстов WordTune, который быстро набрал 10 миллионов пользователей .
🏗️ Архитектура Jamba: Победить линейность Трансформеров 11:07
Одной из главных проблем современных моделей на базе Трансформеров Шохам называет их квадратичную сложность: при увеличении контекста (например, до миллиона токенов) вычислительные затраты растут слишком быстро . Для решения этой задачи AI21 Labs разработала семейство моделей Jamba.
Особенности архитектуры Jamba:
- Гибридный подход: Модель базируется на SSM (State Space Model) — архитектуре Mamba, разработанной в академической среде. AI21 Labs первыми смогли масштабировать её до уровня больших моделей .
- Структура блоков: Блок Jamba состоит из восьми слоев, где семь слоев — это Mamba, и один — традиционный Transformer (Attention-слой) . Это позволяет сохранить долгосрочную память и линейную сложность, не теряя в качестве ответов.
- Параметры и эффективность:
- Jamba Small: Общее число параметров — 52 млрд (активных — 12 млрд). Модель способна уместиться на одном графическом процессоре (GPU) .
- Jamba Large (1.6): Общее число параметров — 398 млрд (активных — 94 млрд). Она умещается в один кластер HPU .
- Сравнение с RNN: В отличие от старых рекуррентных сетей, SSM лучше удерживают контекст через состояние (state), которое обновляется по мере чтения входных данных .
Шохам утверждает, что по результатам тестов Jamba не уступает топовым моделям аналогичного размера, при этом значительно превосходя их по пропускной способности и эффективности использования памяти .
📊 Скепсис в отношении бенчмарков и RLHF 19:04
Несмотря на высокие показатели своих моделей в тестах, Шохам высказывает скептическое отношение к индустриальным бенчмаркам (GSM8K, MMLU и др.). По его мнению, они дают «слабый сигнал» о реальном качестве модели по двум причинам :
- Низкая корреляция: Успехи в решении математических задач из тестов часто не означают, что модель будет эффективно работать в реальном бизнесе .
- Манипуляции (Gaming): Бенчмарки легко «взламываются». Разработчики могут не использовать тестовые данные напрямую в обучении, но направлять огромные вычислительные ресурсы именно на те области, которые замеряются в тестах, что не делает модель лучше в целом .
Шохам также затронул тему терминологии. Он утверждает, что RLHF (обучение с подкреплением на основе отзывов людей) — это «неверное название» (misnomer). На самом деле это моделирование вознаграждения, а не полноценное обучение с подкреплением (Reinforcement Learning) . Тем не менее, в новейших моделях (таких как O1 от OpenAI или R1) RL действительно играет важную роль в формировании цепочек рассуждений (Chain of Thought) .
🏢 Переход к AI-системам и Maestro 24:54
Главный тезис Шохама заключается в том, что мир постепенно уходит от «чистых» языковых моделей к полноценным ИИ-системам. Для корпоративного сектора (Enterprise) простого чат-бота недостаточно, так как бизнесу нужна предсказуемость, а не лотерея «prompt and pray» (написал промпт и молись) .
Для решения этой задачи AI21 Labs представила Maestro — планирующий оркестратор.
Ключевые характеристики Maestro:
- Мультимодельность: Он может использовать не только Jamba, но и любые другие модели (GPT-4o, Claude Opus и др.), выбирая наиболее подходящую для конкретного шага задачи .
- Инструменты и код: Оркестратор умеет обращаться к внешним калькуляторам, базам данных через RAG-системы и исполнять программный код для точных вычислений .
- Автоматизация цепочек: Раньше разработчикам приходилось вручную прописывать жесткие сценарии («вызови модель А, проверь вывод, вызови модель Б»). Maestro сам планирует рабочий процесс на основе ИИ .
- Эффективность: По данным Шохама, использование Maestro в среднем повышает точность выполнения задач на 50% .
🧐 Понимают ли LLM на самом деле? 38:10
Шохам вступает в заочную полемику с Джеффри Хинтоном и Эндрю Ыном по поводу того, обладают ли модели интеллектом. Вместе с коллегой Кевином Лейтоном-Брауном он работает над философско-техническим проектом «Понимание понимания» .
По мнению Шохама, для того чтобы заявить, что система «понимает» конкретную область (например, арифметику), она должна соответствовать трем критериям:
- Компетентность: Ответы должны быть в подавляющем большинстве случаев правильными (базовый проходной балл) .
- Отсутствие «абсурдных» ошибок: Если система правильно решает сложные задачи, но на вопрос «сколько будет 2+2» отвечает «5» и пытается это аргументировать, она не понимает домен .
- Способность к объяснению: Объяснение процесса решения дает уверенность в том, что система не просто угадала или запомнила статистический паттерн, а применила общую процедуру .
Шохам утверждает, что современные LLM в нетривиальных доменах пока не демонстрируют истинного понимания. Он также вспоминает свой семинар в Стэнфорде «Могут ли компьютеры думать и чувствовать?», отмечая, что развитие ИИ заставляет нас переосмыслять не только машины, но и понятие человеческого сознания .