Как Allen Institute for AI открывает «черный ящик» LLM с помощью проекта OLMo

Современная индустрия искусственного интеллекта переживает кризис воспроизводимости: большинство передовых больших языковых моделей (LLM) разрабатываются за закрытыми дверями технологических гигантов. В ответ на эту тенденцию некоммерческий Институт искусственного интеллекта Аллена (AI2) представил OLMo — полностью открытую инициативу, призванную вернуть научную строгость и прозрачность в сферу глубокого обучения. Старший инженер-исследователь AI2 Акшита Бхагия рассказывает, как создание открытой экосистемы из обучающих данных, кода, логов и промежуточных весов меняет подход к созданию ИИ и с какими неожиданными трудностями сталкиваются разработчики при масштабировании моделей.

🚀 Философия OLMo: почему закрытые ИИ-модели тормозят науку 2:01

Проект OLMo (Open Language Model) зародился в начале 2023 года . Главным стимулом для его запуска стало то, что подавляющее большинство коммерческих и даже номинально открытых моделей на рынке скрывают детали своего обучения . Разработчики либо предоставляют доступ к технологиям исключительно через API, либо публикуют веса моделей без раскрытия состава обучающей выборки и конфигурационных файлов.

По мнению Акшиты Бхагии, отсутствие прозрачности делает невозможным полноценное научное исследование ИИ . Ученые не могут понять, почему модель ведёт себя определённым образом, как на её выводы влияют те или иные обучающие тексты и где проходят границы её когнитивных возможностей. Кроме того, закрытость процессов приводит к колоссальным финансовым потерям в масштабах всей индустрии: десятки научных групп параллельно тратят миллионы долларов на одни и те же вычислительные эксперименты , повторно совершая одни и те же ошибки и «изобретая велосипед» .

Вместо выпуска очередной изолированной модели команда AI2 создала полноценную открытую экосистему. В неё входят:

Исходный код для пре-трейнинга и инструкции по его запуску ;
Обучающие логи, включая полные отчеты из системы отслеживания Weights & Biases ;
Инструменты для оценки моделей и код для их дообучения под инструкции (instruction tuning) ;
Промежуточные веса моделей на разных этапах обучения, что позволяет анализировать динамику оптимизации нейросети .

На момент публикации материалов проекта инженерами были подготовлены версии моделей OLMo на 1 млрд (1B) и 7 млрд (7B) параметров . На этапе обучения находится флагманская модель масштабом 65 млрд (65B) параметров .

По мнению Акшиты Бхагии, цель проекта состоит не в том, чтобы занять первую строчку в каком-либо бенчмарке на две недели . Команда стремится дать исследователям фундамент для совместной работы. Если другая научная группа возьмет наработки OLMo и сделает модель еще лучше — это будет победой для всего мирового сообщества .

📊 Дольма: 3 триллиона токенов под строгим контролем 6:40

Ключевым дифференциатором OLMo на фоне таких моделей, как Llama 2, является полная открытость обучающей выборки . Инженеры AI2 представили проект Dolma (шутливая расшифровка — Data to feed OLMo’s appetite, «Данные для утоления аппетита OLMo») . Это гигантский датасет объемом около 3 триллионов токенов , а также открытый одноименный инструментарий (Dolma Toolkit) для его фильтрации и курирования .

Для построения выборки исследователи сознательно выбирали только общедоступные источники информации, чтобы избежать юридических рисков и обеспечить максимальную прозрачность . В состав Dolma вошли:

Архивы веб-страниц Common Crawl и C4 ;
Базы программного кода (использовался очищенный датасет The Stack) ;
Архивы обсуждений Reddit ;
Академические статьи, электронные книги и русскоязычные/англоязычные разделы Википедии .

Очистка данных проходила в несколько этапов. На первом шаге применялся языковой фильтр, поскольку Dolma ориентирована преимущественно на английский язык и языки программирования . На втором этапе производилась фильтрация качества по базовым эвристикам — например, из датасета исключались документы, состоящие из одной повторяющейся гласной буквы . Третий этап включал удаление персональных данных (PII) и фильтрацию токсичного контента .

Особое внимание команда уделила борьбе с контаминацией данных . С помощью внутреннего проекта AI2 под названием What’s in my Big Data разработчики проверяли обучающую выборку на предмет утечки в неё тестовых вопросов из популярных бенчмарков . Если тесты попадают в обучение, модель демонстрирует отличные результаты на бумаге, но теряет объективность при реальном тестировании .

Акшита Бхагия подчёркивает, что знание точного состава обучающих данных критически важно для коммерческого использования моделей . Бизнес должен понимать, видела ли модель во время обучения политические новости, медицинские карты или специфический технический сленг, чтобы прогнозировать её поведение в реальных продуктах .

🛠 Инженерные ловушки: непредсказуемый PyTorch и проблемы с весами 15:32

Процесс обучения крупной языковой модели всегда сопряжен с техническими трудностями, которые редко попадают на страницы академических публикаций. Инженеры AI2 столкнулись со множеством скрытых факторов, влияние которых невозможно было просчитать заранее из-за ограничений вычислительного бюджета на проведение предварительных тестов (абляций) .

Одной из главных архитектурных проблем при переходе от масштаба в 1 млрд параметров к 7 млрд стала нестабильность функции потерь . При обучении OLMo 1B хорошо себя показал метод связывания весов (weight tying), при котором эмбеддинги входного и выходного слоёв используют общую матрицу параметров . Однако на модели масштабом 7B этот подход начал вызывать регулярные скачки лосса и нестабильность обучения .

Кроме того, разработчики столкнулись с проблемами при использовании параметрической нормализации слоёв (parametric layer norm) . В отличие от авторов большинства аналогичных LLM, инженерам OLMo пришлось отказаться от этого подхода в пользу непараметрической нормализации слоёв .

Самым ярким и неожиданным препятствием в процессе обучения стал баг в генераторе случайных чисел популярной библиотеки PyTorch . На ранних этапах обучения инженеры зафиксировали странные периодические аномалии на графиках сходимости модели . Исследователи две недели вели ожесточенные споры об архитектуре нейросети, подозревая ошибки в конфигурации гиперпараметров .

В итоге выяснилось, что стандартная функция генерации случайных чисел в PyTorch (torch.random) выдает некорректные, недостаточно случайные перестановки при перемешивании обучающих последовательностей . Этот случай, по мнению Бхагии, наглядно демонстрирует пользу публикации подробных инженерных отчетов: такие «невидимые» проблемы часто замалчиваются командами разработчиков, вынуждая другие лаборатории тратить недели на их повторное обнаружение .

⚖️ Paloma: новая методология оценки ИИ на 600 микродоменах 23:26

Оценка возможностей современных моделей — еще одна проблемная зона ИИ-индустрии. Традиционные бенчмарки (такие как Helm или AlpacaEval) чаще всего формулируют задачи в виде ранговой классификации или генерации ответов на вопросы . Однако точность модели в таких тестах сильно зависит от формулировки промпта . Изменение пары слов в вопросе может драматически снизить или повысить показатели системы .

Для решения этой проблемы исследователь Иэн Магнусон из команды AI2 возглавил разработку Paloma — специализированного бенчмарка для оценки перплексии моделей (Perplexity Analysis for Language Model Assessment) . Перплексия измеряет, насколько хорошо модель предсказывает распределение символов или слов в конкретном тексте .

Paloma предлагает комплексную оценку на основе:

600 различных микродоменов ;
18 независимых источников данных (включая C4, академические архивы и веб-страницы) .

Такой подход позволяет уйти от усредненных оценок. Акшита Бхагия объясняет, что общая перплексия модели на терабайтах интернет-текста может улучшаться по мере её масштабирования, но это не гарантирует равномерного прогресса во всех областях . Модель может прекрасно генерировать посты для социальных сетей благодаря обилию разговорной речи в выборке, но при этом деградировать в понимании медицинской литературы или юридических документов .

Бенчмарк Paloma позволяет исследователям точечно оценивать готовность модели к работе в узкоспециализированных сферах. Например, ученые в области цифровых гуманитарных наук (digital humanities) могут проверить, насколько хорошо OLMo ориентируется в детективных романах XIX века и способна ли она корректно воспринимать описанное там насилие .

🛡 Безопасность открытого кода и взгляд в будущее 31:46

В индустрии не утихают дискуссии об опасности бесконтрольного распространения весов мощных нейросетей. Оппоненты открытого подхода утверждают, что злоумышленники могут переобучить публичные модели для создания спам-ботов, генерации пропаганды или планирования кибератак.

Акшита Бхагия категорически не согласна с идеей о том, что закрытость систем гарантирует безопасность . По мнению исследовательницы, если архитектура и обучающие данные модели скрыты от общественности, независимые эксперты не могут провести аудит её уязвимостей . Без понимания того, как модель обучалась, невозможно выстроить надежные внешние фильтры и защитные барьеры . Открытая дискуссия и публикация всех этапов создания ИИ — единственный путь к формированию по-настоящему безопасных и этичных технологий .

В планах развития проекта OLMo:

Завершение обучения и публикация модели масштабом 65B параметров ;
Эксперименты с новыми модальностями (включая обработку изображений и аудио) ;
Дальнейшее развитие методов выравнивания моделей (alignment) на базе проекта Tulu от AI2 .

В AI2 подчеркивают, что институт не ставит перед собой задачу конкурировать со всеми коммерческими лабораториями во всех возможных направлениях . Главная миссия OLMo — передать эстафету сообществу разработчиков, обеспечив их фундаментальными инструментами для дальнейших открытий .