Как 15 ученых смогли превзойти ИИ-гигантов уровня Meta?

Выпуск подкаста The Cognitive Revolution с участием Нейтана Ламберта из Allen Institute for AI открывает завесу тайны над одним из самых закрытых и сложных этапов создания современных больших языковых моделей — посттренингом. Ведущий Нейтан Лабенц обсуждает с гостем запуск проекта Tulu 3, призванного совершить прорыв в прозрачности ИИ-разработки и предоставить сообществу открытые воспроизводимые рецепты постобучения ИИ. Главная интрига релиза заключается в том, как небольшой академической команде всего из 15 человек удалось повторить и в ряде тестов превзойти результаты ИТ-гигантов уровня Meta.

🏛️ Секреты Allen Institute: наука на миллиарды техасского инвестора 6:22

Институт искусственного интеллекта Аллена (Allen Institute for AI, или AI2), расположенный в Сиэтле, отмечает свое десятилетие. Некоммерческая организация была основана на средства сооснователя Microsoft Пола Аллена. Как объясняет исследователь машинного обучения Нейтан Ламберт, миссия института всегда заключалась в проведении ИИ-исследований на благо общества, успешно совмещая академическую свободу и индустриальные мощности. Недавно в организации сменилось руководство: пост генерального директора занял Али Фархади, бывший топ-менеджер Apple и автор знаменитой линейки архитектур компьютерного зрения YOLO.

Под управлением Фархади институт сузил фокус и сосредоточился на создании полноценных открытых языковых моделей. По мнению Ламберта, для любой ИИ-организации сегодня критически важно иметь авторитет в сфере LLM, чтобы оставаться валидным игроком на научной сцене. Финансирование из наследия технологического миллиардера позволяет институту не зависеть от коммерческого давления, хотя Ламберт с долей здорового скепсиса отмечает, что некоммерческие структуры во многом занимаются «красивым сторителлингом» для изменения государственной политики и формирования общественного мнения.

Тем не менее, за этим сторителлингом стоят реальные мощности. Сегодня AI2 располагает внушительным парком оборудования, включающим несколько тысяч графических процессоров H100, что превращает его вычислительную базу в мощный инфраструктурный актив стоимостью более $10 млн в год.

🔄 Эволюция семейства Tulu: от смешивания данных к сложным конвейерам 10:30

Линейка открытых рецептов посттренинга под брендом Tulu развивается уже около полутора лет. Проект начинался в эпоху популярности Open Assistant с версии Tulu 1, где исследователи систематически смешивали доступные наборы инструкций, чтобы понять механику их взаимодействия. В версии Tulu 2 команда сфокусировалась на алгоритме прямой оптимизации предпочтений (DPO), доказав возможность его масштабирования до моделей с 70 миллиардами параметров. Промежуточная версия Tulu 2.5 ставила целью разрешить принципиальный спор между алгоритмами PPO и DPO. Главный вывод того этапа, по словам Ламберта, заключался в том, что при идеальной настройке гиперпараметров PPO работает незначительно лучше, однако тратить все ресурсы на тюнинг алгоритмов не имеет смысла — гораздо эффективнее инвестировать время в создание качественных данных и пайплайнов фильтрации.

Создание конвейера Tulu 3 было продиктовано резким качественным скачком закрытых моделей от Google и OpenAI, а также публикацией подробных отчетов Meta по Llama 3 и Apple по их собственным ИИ-архитектурам. Современный посттренинг стал намного сложнее, чем простая комбинация этапа SFT и поверхностного DPO на чат-данных.

Если над посттренингом Llama 3 в Meta трудились сотни специалистов, то ядро команды Tulu 3 насчитывало всего от 10 до 20 человек. Их целью было понять, как академические группы могут выстраивать многоступенчатые цепочки постобучения, улучшая конкретные хард-скиллы моделей в математике, программировании и следовании сложным инструкциям.

🎯 Цель — превзойти Llama 3.1 13:09

Основным ориентиром для разработчиков Tulu 3 стала модель Llama 3.1 Instruct от Meta. Исследователи взяли базовую предобученную модель Llama 3 Base и попытались полностью воссоздать или превзойти результаты Meta в условиях абсолютной прозрачности. По словам гостя, хотя Meta публикует высокоуровневое описание своих методов, она скрывает конкретные гиперпараметры, код и обучающие данные. Tulu 3 принципиально отличается тем, что все созданные датасеты (от 3 до 6 абсолютно новых наборов данных) выложены в открытый доступ для ИИ-сообщества.

Процесс разработки Ламберт описывает как методичный подъем по кривой метрик:

В ходе экспериментов было обучено около 1000 промежуточных моделей с объемом 8B параметров для точечного тестирования гипотез.
Лучшие рецепты затем валидировались и переносились на тяжелую архитектуру в 70B параметров.
В процессе эволюции проекта команда также внедряла собственную модель OLMo в качестве проверки универсальности подходов.

В итоге конвейер Tulu 3 позволил последовательно обойти показатели Llama 3 Instruct, затем Llama 3.1 Instruct на конфигурации 8B, а на финальных стадиях — и флагманскую версию на 70B. Ламберт подчеркивает важность обучения именно с чистого листа базовой модели (from base), так как это гарантирует долгосрочную прозрачность экосистемы, в отличие от популярного в стартапах дообучения уже готовых инструктивных моделей (fine-tuning from instruct), скрывающего прошлые ошибки распределения.

🛠️ Анатомия трехступенчатого обучения Tulu 3 20:39

Посттренинг Tulu 3 состоит из трех последовательных стадий: контролируемого тонкого обучения (SFT), оптимизации предпочтений (DPO) и обучения с подкреплением на основе проверяемой награды (RLVR). Каждая стадия требует уникального баланса данных и вычислительных мощностей.

Особенности этапов ИИ-конвейера:

Этап SFT (Supervised Fine-Tuning): Финальный микс включает около 1 миллиона промптов, преимущественно одношаговых. На этой стадии закладывается базовая способность следовать формату разметки и токенам управления. На инфраструктуре из 32 графических процессоров H100 обучение модели размером 8B занимает ровно 24 часа, что по рыночным ценам эквивалентно примерно $1000–$1500 вычислительных затрат. Команда сделала огромный упор на математические данные, которые составили более 30% всего объема SFT.
Этап DPO (Direct Preference Optimization): Набор данных здесь значительно скромнее — около пары сотен тысяч пар предпочтений, поэтому вычисления занимают от 6 до 12 часов на 16–32 GPUs. Исследователям пришлось оптимизировать код Hugging Face, внедрив кэширование логарифмических вероятностей референсной модели, чтобы избежать одновременного удержания в памяти двух тяжелых моделей по 70B.
Этап RLVR (Reinforcement Learning from Verifiable Reward): Это инновационная третья ступень, предложенная внешними экспертами проекта. Вместо использования нестабильной модели награды (reward model) система выдает жесткий бинарный или численный бонус за объективно проверяемый результат с помощью Python-скриптов. Проверяются математические ответы (например, в бенчмарке GSM8K) или соблюдение строгих констрейнтов в инструкциях IFEval (например, «напиши ровно 100 слов и используй слово X»).

🤖 Синтетические судьи за $50 000 и эпидемия «грязных» данных 23:53

Поскольку Allen Institute не обладает бюджетами коммерческих ИТ-гигантов для найма тысяч людей-аннотаторов, в качестве критиков ответов выступали другие большие языковые модели (метод LLM-as-a-judge). Ламберт цитирует известного исследователя OpenAI Джона Шульмана для описания этой парадигмы:

«Данные человеческих предпочтений обладают высоким уровнем шума, но низким системным смещением (bias). Данные предпочтений от LLM — наоборот, низкошумные, но высокосмещенные».

Главным открытием стало то, что генерация «on-policy» данных (когда предпочтения собираются на основе ответов собственной, только что обученной SFT-модели, а затем оцениваются через GPT-4) дает устойчивое преимущество над использованием статичных готовых датасетов с Hugging Face. На регулярную оплату API-ключей OpenAI для разметки судейскими моделями институт потратил более $50 000 за время проекта.

В процессе подготовки данных команда столкнулась со скрытой проблемой ИИ-индустрии — тотальной контаминацией (загрязнением) обучающих наборов тестовыми заданиями. Проверяя чужие открытые данные методом точного совпадения промптов (если пересечение превышало 2%, данные безжалостно удалялись), исследователи обнаружили утечки тестов в очень популярных репозиториях.

В частности, явные загрязнения математических тестов были найдены в датасетах NVIDIA Nemotron (Daring Anteater) и проектах NuminaMath. Ламберт также описывает курьезный случай с методом синтетической генерации Magpie: эта архитектура заставляла модель Llama Instruct генерировать промпты из собственного распределения, что приводило к случайному скрытому воспроизведению тестовых задач из закрытых бенчмарков прямо в обучающий контур.

🧠 Эффект o1: как алгоритмы RLVR порождают «размышления» 27:42

Самым захватывающим открытием проекта Tulu 3 стало появление эмерджентного (внезапно возникшего) поведения во время сверхудлиненных сессий обучения с подкреплением на математических задачах. Когда одну из моделей оставили работать в режиме RLVR значительно дольше стандартного времени, её цепочки рассуждений (Chain of Thought) качественно изменились. Модель начала циклически возвращаться к своим шагам и генерировать фразы вида: «Подожди, дай-ка я перепроверю этот ответ», фактически имитируя логику работы нашумевшей закрытой системы OpenAI o1.

Ламберт признает, что этот конкретный эксперимент в итоге разрушил общие языковые способности модели на стандартных тестах, превратив ее в узкоспециализированный математический инструмент с перекошенным распределением. Тем не менее, по мнению Ламберта, это доказывает, что способность моделей «думать перед ответом» не является магической тайной OpenAI, а выступает естественным свойством алгоритмов RL при долгой оптимизации под верифицируемые награды.

Гость прогнозирует, что открытые аналоги o1 от Anthropic и Google появятся на рынке в ближайшие несколько месяцев. В качестве подтверждения этого тренда ведущий Нейтан Лабенц упомянул недавний релиз китайской модели Deep Think от компании DeepSeek, которая также демонстрирует свои скрытые рассуждения и планируется к открытию. Это, по мнению авторов, должно заставить любого эксперта переосмыслить категоричные прогнозы о том, что западные закрытые корпорации смогут удержать монопольный отрыв на пути к сильному искусственному интеллекту (AGI).