Nous Research представила технологию децентрализованного обучения моделей Distro

a16z (Andreessen Horowitz) 2,7 тыс. 1 ч 16 мин 11 мин 01.10.2024
Главное

В новом выпуске подкаста венчурного фонда a16z представители исследовательского коллектива Nous Research обсуждают свой революционный проект Distro, способный перевернуть индустрию искусственного интеллекта. Разработчики представляют технологию децентрализованного обучения больших языковых моделей через обычное интернет-соединение, что лишает крупные корпорации монополии на суперкомпьютеры. Проект призван защитить движение Open Source от регуляторных рисков и дать сообществу инструмент для создания ИИ передового уровня совместными усилиями.

💡 Философия Nous Research и бунт против академических догм 0:00

Современное состояние искусственного интеллекта как науки уникально тем, что оно представляет собой абсолютно «зеленое поле». По мнению Джеффа, в отличие от химии или биологии, где для внесения крошечного вклада в науку нужно пройти через жесткие академические жернова магистратур и докторантур Stanford или MIT, в сфере ИИ любой энтузиаст сегодня может совершить прорывное открытие.

Nous Research позиционирует себя как открытый ИИ-акселератор, цель которого — сделать базовые технологии доступными для каждого. Спикеры подчеркивают, что доступность означает не просто создание конечного продукта, а возможность для любого человека заглянуть под капот технологии, изучить код и запустить его локально. Инновации с открытым исходным кодом исторически служат мощным мультипликатором для всей технологической экосистемы.

Команда Nous Research придерживается глубоко индивидуалистического подхода. Они сознательно отказываются от структуры монолитной корпорации в пользу гибкого объединения независимых исследователей с порой противоположными взглядами на мир. Своей главной задачей они видят проведение фундаментальных исследований, направленных на расширение границ возможностей ИИ при минимальном использовании вычислительных мощностей, что идет вразрез с общепринятыми трендами ИТ-гигантов.

🚗 От автопрома и Lego к ИИ: как ковались создатели Nous Research 3:55

Путь основателей Nous Research в сферу ИИ оказался далек от классической академической траектории. Джефф вырос в Детройте и 15 лет проработал в автомобильной промышленности, занимаясь системами автономного вождения. Прорыв в его сознании произошел после того, как он, по собственному выражению, «принял крипто-таблетку». Во время написания магистерской работы по криптовалюте Zcash он открыл для себя программируемый блокчейн Ethereum. Очарованный возможностями смарт-контрактов, Джефф начал писать код по ночам. Заметив эту страсть, жена поддержала его решение бросить стабильную работу с полисом медицинского страхования ради неизвестности и свободного поиска. В ИИ его привела чистая любознательность, вспыхнувшая после релиза первой версии Stable Diffusion. Он потратил целый год на самостоятельное изучение математических основ современного машинного обучения, после чего присоединился к анонимному Discord-серверу Nous Research, где энтузиасты обменивались идеями.

Второй гость, Боуэн, с детства обожал разбирать и собирать вещи, а его любимой игрушкой был электронный конструктор наподобие Lego, позволявший собирать AM-радиоприемники из блоков. Поступив в университет, он мечтал работать с компьютерами, веря в обещание технологий, что машины смогут делать все то же, что и человек. Поворотным моментом в его жизни стала первая же лекция по программированию, которую вел Аарон Курвилль — профессор известного исследовательского института Mila. В 2014 году профессор показал студентам первые генеративно-состязательные сети (GAN). По словам Боуэна, возможность компьютера самостоятельно генерировать изображения и музыку поразила его настолько, что он бесповоротно ушел в сферу генеративных моделей. Получив магистерскую степень на стыке компьютерной графики и ИИ, Боуэн занимался фриланс-исследованиями. С Джеффом они познакомились на платформе Reddit в сообществе LocalLlama: Джефф опубликовал пост со своими результатами, а Боуэн написал ему «холодное» электронное письмо, когда Джефф как раз ехал забирать пиццу. Из этого случайного контакта и родилось их текущее партнерство.

🛠 От Hermes до Yarn: предыдущие вехи команды 9:22

До начала работы над Distro проект Nous Research уже получил широкую известность в сообществе благодаря двум ключевым разработкам:

⚡️ Проект Distro: децентрализованная революция в обучении ИИ 13:17

Идея Distro родилась из осознания экзистенциальной угрозы для всего open-source сообщества. В настоящее время разработчики открытых моделей тотально зависят от доброй воли корпораций, и в первую очередь — компании Meta и Марка Цукерберга. Собеседники задались вопросом: что произойдет, если под давлением регуляторов или из соображений коммерческой выгоды крупные игроки завтра закроют доступ к своим новым разработкам вроде гипотетической Llama 4? Без возможности обучать фундаментальные модели с нуля open-source движение окажется мертвым.

Главным техническим барьером для независимого обучения ИИ является современная инфраструктурная парадигма. На сегодняшний день для обучения передовой модели уровня Llama 3 405B требуется колоссальный дата-центр, где десятки тысяч ускорителей (например, 40 000 плат Nvidia H100) соединены сверхбыстрыми и дорогими кабелями (InfiniBand) в одном помещении. Причина этого — необходимость постоянного высокоскоростного обмена данными между картами, требования к которому растут квадратично с добавлением каждого нового GPU. Это требует гигантских объемов электроэнергии и сложных систем охлаждения.

Как утверждают гости, в мире существует не более пяти-шести организаций, способных позволить себе подобную инфраструктуру (OpenAI, Anthropic, Meta, xAI, Google и, возможно, структуры, поддерживаемые отдельными государствами). Проект Distro доказывает, что эту жесткую привязку производительности к физическим проводам можно разорвать. Разработчики обнаружили математическую закономерность: по мере масштабирования и увеличения размера самой нейросети объем данных, который необходимо передавать между GPU во время обучения, растет значительно медленнее, чем размер модели. Это позволило полностью декуплировать (разъединить) масштабирование ИИ и скорость сетевого интерконнекта.

📈 Математическое чудо: 1000-кратное снижение требований к связи 26:29

Теоретический фундамент Distro был заложен во время многочасовых дискуссий команды в Нью-Йорке. Опираясь на особенности динамики обучения нейросетей, исследователи пришли к выводу, что децентрализованное обучение возможно, хотя на проверку этой гипотезы и написание кода ушли месяцы «слепой веры» и несколько ложных стартов. Как отмечает Джефф, многие современные прорывы в ИИ на самом деле базируются на математических инсайтах 1980-х и 1990-х годов, которые в свое время казались безобидными или бесполезными, но выстрелили при текущих масштабах вычислений.

Результаты тестов Distro оказались ошеломляющими для индустрии:

Эффективность проверялась стандартными метриками: кросс-энтропийными потерями (cross-entropy loss), перплексией, а также бенчмарками Hellaswag и MMLU. Этот успех, по мнению разработчиков, проливает свет на фундаментальную загадку ИИ — проблему интерпретируемости (interpretability). Distro доказал, что для успешного обучения узлам не нужно обмениваться вообще всеми параметрами: в процессе обучения критически важна лишь узкая прослойка высокозначимых сигналов, и передачи этого минимума информации достаточно для получения эквивалентного результата.

🧪 Разрушая скепсис: редтиминг и верификация через OLMo 33:17

Разработчики открыто признают, что первой реакцией ИИ-сообщества на публикацию результатов Distro было тотальное неверие. Джефф заявляет, что на месте сторонних исследователей сам отнесся бы к подобным заявлениям с глубоким скептицизмом. Главные аргументы критиков сводились к двум тезисам:

  1. Проблема неверного бэйслайна (базовой линии): Обучение ИИ — капризный процесс с сотнями гиперпараметров. Критики предполагали, что Nous Research могли случайно сравнить Distro с изначально плохо обученной стандартной моделью.
  2. Проблема масштабирования: Оппоненты утверждали, что метод, работающий на маленьких тестовых моделях, сломается при попытке обучить ИИ на триллионы параметров.

Чтобы доказать свою правоту, команда Nous Research пошла на радикальный шаг: они полностью выбросили свои первоначальные наработки, созданные на базе фреймворка Nanotron от Hugging Face, и запустили проект заново в третий раз. Для чистоты эксперимента была взята кодовая база OLMo от института Allen AI — максимально прозрачный ИИ-проект, где создатели публикуют точный индекс каждого токена и данные для 100% воспроизводимости.

Nous Research полностью воспроизвели эталонный цикл обучения Allen AI, а затем заменили стандартный оптимизатор AdamW на свой Distro, не меняя больше ни одной строчки кода и ни одного гиперпараметра. Графики обучения совпали с идеальной точностью, продемонстрировав превосходство Distro. Боуэн, называющий себя главным скептиком проекта, подчеркнул, что после этого эксперимента все сомнения отпали. Официальная научная статья с математическими доказательствами и полными результатами абляционных исследований будет представлена на конференции ICLR.

💻 Сеть из потребительских видеокарт и крах монополии InfiniBand 40:55

Первой реакцией рыночных аналитиков на новость о Distro стали предположения о крахе бизнес-модели Nvidia, чья капитализация держится на многомиллиардных контрактах на поставку оборудования для централизованных дата-центров. Однако разработчики Distro считают, что технология не несет мгновенной угрозы для чипмейкера. Nvidia сохраняет лидерство за счет программного стека CUDA и архитектуры самих графических процессоров.

Вместе с тем Distro кардинально меняет «мету» аппаратного обеспечения:

Для реализации этой концепции Nous Research пишет отказоустойчивый (fault-tolerant) код. В отличие от корпоративных систем, где сбой одной платы останавливает обучение всей модели, децентрализованный ИИ от Distro будет продолжать работу, даже если часть пользовательских компьютеров неожиданно отключится от сети или будет иметь разную производительность.

🔄 Как устроен Distro изнутри: конец парадигмы «Все возвращаются к маме» 56:56

Чтобы объяснить суть технологии, разработчики описывают стандартный метод параллелизма данных с оптимизатором AdamW. В классическом сценарии на каждом GPU лежит копия модели. Каждому процессору дают читать свою «книгу» (пакет данных), они делают один шаг обучения, и их веса начинают слегка различаться. После каждого шага запускается ресурсоемкая операция All-Reduce: система принудительно собирает данные со всех тысяч плат, высчитывает среднее арифметическое и возвращает все GPU в абсолютно идентичную точку. Джефф иронично называет это «необходимостью для всех детей после прогулки вернуться домой к маме». Это абстракция единой модели, требующая гигантских скоростей связи.

Distro полностью ломает эту парадигму:

Самым удивительным постфактум-открытием (post-hoc realization) для команды стало то, что такое децентрализованное разнообразие поиска (diversity of search space) не ухудшило, а, напротив, улучшило кривую обучения ИИ. Позволяя узлам исследовать ландшафт независимо, система находит более эффективные решения, чем монолитный централизованный алгоритм.

🔮 Будущее ИИ: когда inference поглотит обучение 1:10:41

На ранних этапах проекта Nous Research пыталась пойти еще дальше и экспериментировала с так называемой «оптимизацией нулевого порядка» (Zero-Th Order optimization). Этот метод подразумевает обучение нейросети исключительно через прямые проходы (forward passes), вообще без использования обратного распространения ошибки (backpropagation). Идея выглядела заманчиво для домашних видеокарт, однако тесты показали, что «обратный проход по-прежнему правит бал» (backprop is still King). Без него обучение происходит примерно в 1000 раз медленнее на текущей архитектуре чипов.

Тем не менее, в будущем, с появлением специализированных микросхем (ASIC) для сверхбыстрого инференса (как у стартапа Groq) или развитием 1-битных архитектур вроде BitNet, ситуация может измениться. В BitNet все веса принимают значения только -1, 0 или 1, благодаря чему операция умножения матриц исчезает, превращаясь в простое сложение, что колоссально ускоряет вычисления.

Боуэн описывает фантастический, но технически реализуемый сценарий будущего, в котором обучение ИИ станет побочным продуктом его использования (byproduct of inference). Сегодняшние модели разделены: они сначала долго обучаются на суперкомпьютерах, а затем замораживаются и отправляются пользователям для генерации ответов. В будущем децентрализованная сеть позволит вашему смартфону в процессе повседневного инференса сохранять микроскопические доли полезной информации и отправлять их обратно в общую сеть. Нейросеть будет непрерывно дообучаться прямо в процессе ее использования человечеством.

Ближайшие планы Nous Research амбициозны. Сразу после публикации исходного кода Distro в октябре команда планирует решить проблему координации и вознаграждения участников краудсорсинговой сети ИИ. Джефф заявляет, что силами сообщества, арендовавшего около 1000 карт H100 через доступные сервисы вроде RunPod, они смогут без труда обучить качественную модель размером 7B на 4 триллиона токенов. Создание полностью децентрализованной open-source альтернативы тяжеловесным моделям уровня 405B силами распределенной сети обычных людей станет возможным уже в следующем году.

💬 Цитаты

«Мы ломаем парадигму того, что обучается одна модель. На самом деле обучается N моделей, каждая в своем мини-исследовании, но в ограниченном пространстве.»

«По мере роста размера моделей объем коммуникаций между GPU растет медленнее, что позволяет нам полностью разделить масштабирование ИИ и скорость проводов.»

🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Интерконнект
Высокоскоростная сетевая архитектура (например, InfiniBand) для быстрой связи процессоров внутри суперкомпьютера.
Синтетические данные
Информация, искусственно сгенерированная одной нейросетью для обучения других алгоритмов.
All-Reduce
Техническая операция в параллельных вычислениях, собирающая данные со всех узлов и усредняющая их значения.
Инференс
Процесс работы уже обученной нейросети, когда она выполняет задачу пользователя (например, генерирует ответ).
📊 Цифры
🗓 Хронология
  1. 2014 Боуэн впервые видит генеративно-состязательные сети (GAN) на лекции профессора Аарона Курвилля в Mila.
  2. Октябрь Nous Research планирует официально опубликовать научную статью по Distro и выложить исходный код на конференции ICLR.
⚖️ Другая сторона
Искусственный интеллект Nous Research Project Distro Yarn RTX 4090 OLMo