Как 15 ученых смогли превзойти ИИ-гигантов уровня Meta?

The Cognitive Revolution 8,7 тыс. 1 ч 49 мин 7 мин 21.11.2024
Главное

Выпуск подкаста The Cognitive Revolution с участием Нейтана Ламберта из Allen Institute for AI открывает завесу тайны над одним из самых закрытых и сложных этапов создания современных больших языковых моделей — посттренингом. Ведущий Нейтан Лабенц обсуждает с гостем запуск проекта Tulu 3, призванного совершить прорыв в прозрачности ИИ-разработки и предоставить сообществу открытые воспроизводимые рецепты постобучения ИИ. Главная интрига релиза заключается в том, как небольшой академической команде всего из 15 человек удалось повторить и в ряде тестов превзойти результаты ИТ-гигантов уровня Meta.

🏛️ Секреты Allen Institute: наука на миллиарды техасского инвестора 6:22

Институт искусственного интеллекта Аллена (Allen Institute for AI, или AI2), расположенный в Сиэтле, отмечает свое десятилетие. Некоммерческая организация была основана на средства сооснователя Microsoft Пола Аллена. Как объясняет исследователь машинного обучения Нейтан Ламберт, миссия института всегда заключалась в проведении ИИ-исследований на благо общества, успешно совмещая академическую свободу и индустриальные мощности. Недавно в организации сменилось руководство: пост генерального директора занял Али Фархади, бывший топ-менеджер Apple и автор знаменитой линейки архитектур компьютерного зрения YOLO.

Под управлением Фархади институт сузил фокус и сосредоточился на создании полноценных открытых языковых моделей. По мнению Ламберта, для любой ИИ-организации сегодня критически важно иметь авторитет в сфере LLM, чтобы оставаться валидным игроком на научной сцене. Финансирование из наследия технологического миллиардера позволяет институту не зависеть от коммерческого давления, хотя Ламберт с долей здорового скепсиса отмечает, что некоммерческие структуры во многом занимаются «красивым сторителлингом» для изменения государственной политики и формирования общественного мнения.

Тем не менее, за этим сторителлингом стоят реальные мощности. Сегодня AI2 располагает внушительным парком оборудования, включающим несколько тысяч графических процессоров H100, что превращает его вычислительную базу в мощный инфраструктурный актив стоимостью более $10 млн в год.

🔄 Эволюция семейства Tulu: от смешивания данных к сложным конвейерам 10:30

Линейка открытых рецептов посттренинга под брендом Tulu развивается уже около полутора лет. Проект начинался в эпоху популярности Open Assistant с версии Tulu 1, где исследователи систематически смешивали доступные наборы инструкций, чтобы понять механику их взаимодействия. В версии Tulu 2 команда сфокусировалась на алгоритме прямой оптимизации предпочтений (DPO), доказав возможность его масштабирования до моделей с 70 миллиардами параметров. Промежуточная версия Tulu 2.5 ставила целью разрешить принципиальный спор между алгоритмами PPO и DPO. Главный вывод того этапа, по словам Ламберта, заключался в том, что при идеальной настройке гиперпараметров PPO работает незначительно лучше, однако тратить все ресурсы на тюнинг алгоритмов не имеет смысла — гораздо эффективнее инвестировать время в создание качественных данных и пайплайнов фильтрации.

Создание конвейера Tulu 3 было продиктовано резким качественным скачком закрытых моделей от Google и OpenAI, а также публикацией подробных отчетов Meta по Llama 3 и Apple по их собственным ИИ-архитектурам. Современный посттренинг стал намного сложнее, чем простая комбинация этапа SFT и поверхностного DPO на чат-данных.

Если над посттренингом Llama 3 в Meta трудились сотни специалистов, то ядро команды Tulu 3 насчитывало всего от 10 до 20 человек. Их целью было понять, как академические группы могут выстраивать многоступенчатые цепочки постобучения, улучшая конкретные хард-скиллы моделей в математике, программировании и следовании сложным инструкциям.

🎯 Цель — превзойти Llama 3.1 13:09

Основным ориентиром для разработчиков Tulu 3 стала модель Llama 3.1 Instruct от Meta. Исследователи взяли базовую предобученную модель Llama 3 Base и попытались полностью воссоздать или превзойти результаты Meta в условиях абсолютной прозрачности. По словам гостя, хотя Meta публикует высокоуровневое описание своих методов, она скрывает конкретные гиперпараметры, код и обучающие данные. Tulu 3 принципиально отличается тем, что все созданные датасеты (от 3 до 6 абсолютно новых наборов данных) выложены в открытый доступ для ИИ-сообщества.

Процесс разработки Ламберт описывает как методичный подъем по кривой метрик:

В итоге конвейер Tulu 3 позволил последовательно обойти показатели Llama 3 Instruct, затем Llama 3.1 Instruct на конфигурации 8B, а на финальных стадиях — и флагманскую версию на 70B. Ламберт подчеркивает важность обучения именно с чистого листа базовой модели (from base), так как это гарантирует долгосрочную прозрачность экосистемы, в отличие от популярного в стартапах дообучения уже готовых инструктивных моделей (fine-tuning from instruct), скрывающего прошлые ошибки распределения.

🛠️ Анатомия трехступенчатого обучения Tulu 3 20:39

Посттренинг Tulu 3 состоит из трех последовательных стадий: контролируемого тонкого обучения (SFT), оптимизации предпочтений (DPO) и обучения с подкреплением на основе проверяемой награды (RLVR). Каждая стадия требует уникального баланса данных и вычислительных мощностей.

Особенности этапов ИИ-конвейера:

🤖 Синтетические судьи за $50 000 и эпидемия «грязных» данных 23:53

Поскольку Allen Institute не обладает бюджетами коммерческих ИТ-гигантов для найма тысяч людей-аннотаторов, в качестве критиков ответов выступали другие большие языковые модели (метод LLM-as-a-judge). Ламберт цитирует известного исследователя OpenAI Джона Шульмана для описания этой парадигмы:

«Данные человеческих предпочтений обладают высоким уровнем шума, но низким системным смещением (bias). Данные предпочтений от LLM — наоборот, низкошумные, но высокосмещенные».

Главным открытием стало то, что генерация «on-policy» данных (когда предпочтения собираются на основе ответов собственной, только что обученной SFT-модели, а затем оцениваются через GPT-4) дает устойчивое преимущество над использованием статичных готовых датасетов с Hugging Face. На регулярную оплату API-ключей OpenAI для разметки судейскими моделями институт потратил более $50 000 за время проекта.

В процессе подготовки данных команда столкнулась со скрытой проблемой ИИ-индустрии — тотальной контаминацией (загрязнением) обучающих наборов тестовыми заданиями. Проверяя чужие открытые данные методом точного совпадения промптов (если пересечение превышало 2%, данные безжалостно удалялись), исследователи обнаружили утечки тестов в очень популярных репозиториях.

В частности, явные загрязнения математических тестов были найдены в датасетах NVIDIA Nemotron (Daring Anteater) и проектах NuminaMath. Ламберт также описывает курьезный случай с методом синтетической генерации Magpie: эта архитектура заставляла модель Llama Instruct генерировать промпты из собственного распределения, что приводило к случайному скрытому воспроизведению тестовых задач из закрытых бенчмарков прямо в обучающий контур.

🧠 Эффект o1: как алгоритмы RLVR порождают «размышления» 27:42

Самым захватывающим открытием проекта Tulu 3 стало появление эмерджентного (внезапно возникшего) поведения во время сверхудлиненных сессий обучения с подкреплением на математических задачах. Когда одну из моделей оставили работать в режиме RLVR значительно дольше стандартного времени, её цепочки рассуждений (Chain of Thought) качественно изменились. Модель начала циклически возвращаться к своим шагам и генерировать фразы вида: «Подожди, дай-ка я перепроверю этот ответ», фактически имитируя логику работы нашумевшей закрытой системы OpenAI o1.

Ламберт признает, что этот конкретный эксперимент в итоге разрушил общие языковые способности модели на стандартных тестах, превратив ее в узкоспециализированный математический инструмент с перекошенным распределением. Тем не менее, по мнению Ламберта, это доказывает, что способность моделей «думать перед ответом» не является магической тайной OpenAI, а выступает естественным свойством алгоритмов RL при долгой оптимизации под верифицируемые награды.

Гость прогнозирует, что открытые аналоги o1 от Anthropic и Google появятся на рынке в ближайшие несколько месяцев. В качестве подтверждения этого тренда ведущий Нейтан Лабенц упомянул недавний релиз китайской модели Deep Think от компании DeepSeek, которая также демонстрирует свои скрытые рассуждения и планируется к открытию. Это, по мнению авторов, должно заставить любого эксперта переосмыслить категоричные прогнозы о том, что западные закрытые корпорации смогут удержать монопольный отрыв на пути к сильному искусственному интеллекту (AGI).

💬 Цитаты

«Данные человеческих предпочтений обладают высоким уровнем шума, но низким смещением. Данные предпочтений от LLM — наоборот, низкошумные, но высокосмещенные.»

Нейтан Ламберт 24:06

«Мы до сих пор точно не знаем, что именно определяет пределы насыщения базовых моделей на разных этапах постобучения.»

Нейтан Ламберт 1:37:06
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Посттренинг (Post-training)
Этап дообучения языковой модели после базового претренинга для улучшения следованию инструкциям, безопасности и специализированных навыков.
SFT (Supervised Fine-Tuning)
Контролируемое обучение модели на парах заданных промптов и идеальных эталонных ответов.
DPO (Direct Preference Optimization)
Алгоритм прямой оптимизации предпочтений, обучающий модель выбирать лучшие ответы без использования отдельной тяжелой модели вознаграждения.
RLVR (Reinforcement Learning from Verifiable Reward)
Обучение с подкреплением на основе автоматической проверки ответов внешним программным кодом или математическими тестами.
📊 Цифры
🗓 Хронология
  1. 2023 год Выпуск первой версии Tulu, сфокусированной на систематическом смешивании открытых инструктивных датасетов.
  2. Начало 2024 года Запуск Tulu 2, доказавший эффективность масштабирования алгоритма DPO до 70 миллиардов параметров.
  3. Май 2026 года Официальный релиз Tulu 3, полностью повторившего и местами превзошедшего показатели Llama 3.1.
⚖️ Другая сторона
Искусственный интеллект Нейтан Ламберт Allen Institute Tulu 3 алгоритм DPO обучение с подкреплением