Nous Research представила технологию децентрализованного обучения моделей Distro

В новом выпуске подкаста венчурного фонда a16z представители исследовательского коллектива Nous Research обсуждают свой революционный проект Distro, способный перевернуть индустрию искусственного интеллекта. Разработчики представляют технологию децентрализованного обучения больших языковых моделей через обычное интернет-соединение, что лишает крупные корпорации монополии на суперкомпьютеры. Проект призван защитить движение Open Source от регуляторных рисков и дать сообществу инструмент для создания ИИ передового уровня совместными усилиями.

💡 Философия Nous Research и бунт против академических догм 0:00

Современное состояние искусственного интеллекта как науки уникально тем, что оно представляет собой абсолютно «зеленое поле». По мнению Джеффа, в отличие от химии или биологии, где для внесения крошечного вклада в науку нужно пройти через жесткие академические жернова магистратур и докторантур Stanford или MIT, в сфере ИИ любой энтузиаст сегодня может совершить прорывное открытие.

Nous Research позиционирует себя как открытый ИИ-акселератор, цель которого — сделать базовые технологии доступными для каждого. Спикеры подчеркивают, что доступность означает не просто создание конечного продукта, а возможность для любого человека заглянуть под капот технологии, изучить код и запустить его локально. Инновации с открытым исходным кодом исторически служат мощным мультипликатором для всей технологической экосистемы.

Команда Nous Research придерживается глубоко индивидуалистического подхода. Они сознательно отказываются от структуры монолитной корпорации в пользу гибкого объединения независимых исследователей с порой противоположными взглядами на мир. Своей главной задачей они видят проведение фундаментальных исследований, направленных на расширение границ возможностей ИИ при минимальном использовании вычислительных мощностей, что идет вразрез с общепринятыми трендами ИТ-гигантов.

🚗 От автопрома и Lego к ИИ: как ковались создатели Nous Research 3:55

Путь основателей Nous Research в сферу ИИ оказался далек от классической академической траектории. Джефф вырос в Детройте и 15 лет проработал в автомобильной промышленности, занимаясь системами автономного вождения. Прорыв в его сознании произошел после того, как он, по собственному выражению, «принял крипто-таблетку». Во время написания магистерской работы по криптовалюте Zcash он открыл для себя программируемый блокчейн Ethereum. Очарованный возможностями смарт-контрактов, Джефф начал писать код по ночам. Заметив эту страсть, жена поддержала его решение бросить стабильную работу с полисом медицинского страхования ради неизвестности и свободного поиска. В ИИ его привела чистая любознательность, вспыхнувшая после релиза первой версии Stable Diffusion. Он потратил целый год на самостоятельное изучение математических основ современного машинного обучения, после чего присоединился к анонимному Discord-серверу Nous Research, где энтузиасты обменивались идеями.

Второй гость, Боуэн, с детства обожал разбирать и собирать вещи, а его любимой игрушкой был электронный конструктор наподобие Lego, позволявший собирать AM-радиоприемники из блоков. Поступив в университет, он мечтал работать с компьютерами, веря в обещание технологий, что машины смогут делать все то же, что и человек. Поворотным моментом в его жизни стала первая же лекция по программированию, которую вел Аарон Курвилль — профессор известного исследовательского института Mila. В 2014 году профессор показал студентам первые генеративно-состязательные сети (GAN). По словам Боуэна, возможность компьютера самостоятельно генерировать изображения и музыку поразила его настолько, что он бесповоротно ушел в сферу генеративных моделей. Получив магистерскую степень на стыке компьютерной графики и ИИ, Боуэн занимался фриланс-исследованиями. С Джеффом они познакомились на платформе Reddit в сообществе LocalLlama: Джефф опубликовал пост со своими результатами, а Боуэн написал ему «холодное» электронное письмо, когда Джефф как раз ехал забирать пиццу. Из этого случайного контакта и родилось их текущее партнерство.

🛠 От Hermes до Yarn: предыдущие вехи команды 9:22

До начала работы над Distro проект Nous Research уже получил широкую известность в сообществе благодаря двум ключевым разработкам:

Семейство моделей Hermes: Линейка моделей, отличающаяся «нейтральным выравниванием». Разработчики объясняют, что они не пытались создать опасный «бесцензурный» инструмент, а стремились уйти от навязанной корпорациями роли ИИ как «послушного и безвредного ассистента» — своего рода секретаря на ресепшене. Модели Hermes спроектированы так, чтобы принимать любое мировоззрение и любую персону, заданную пользователем, действуя в рамках этой логики как продолжение его личности. Команда Nous Research одной из первых в индустрии внедрила обучение на синтетических данных, когда одна нейросеть генерирует тексты для обучения другой. Джефф вспоминает, что три года назад идея обучения «студента у мастера» считалась спорной из-за риска деградации моделей, но у команды просто не было бюджетов на разметку данных людьми. Джефф сравнивает свою команду с астронавтами миссии «Аполлон-13», которым пришлось собирать работающий очиститель углекислого газа из случайных предметов, вываленных на стол.
Метод Yarn: Технология расширения контекстного окна языковых моделей, ведущим автором которой стал Боуэн. На момент создания Yarn открытые модели страдали от «амнезии»: их контекст ограничивался примерно 500 словами против 4000 слов у закрытой ChatGPT от OpenAI. Созданный Nous Research метод позволил кардинально расширить этот лимит без потери качества и сегодня используется практически во всех ведущих открытых моделях, включая Llama от Meta, Mistral, Qwen и DeepSeek.

⚡️ Проект Distro: децентрализованная революция в обучении ИИ 13:17

Идея Distro родилась из осознания экзистенциальной угрозы для всего open-source сообщества. В настоящее время разработчики открытых моделей тотально зависят от доброй воли корпораций, и в первую очередь — компании Meta и Марка Цукерберга. Собеседники задались вопросом: что произойдет, если под давлением регуляторов или из соображений коммерческой выгоды крупные игроки завтра закроют доступ к своим новым разработкам вроде гипотетической Llama 4? Без возможности обучать фундаментальные модели с нуля open-source движение окажется мертвым.

Главным техническим барьером для независимого обучения ИИ является современная инфраструктурная парадигма. На сегодняшний день для обучения передовой модели уровня Llama 3 405B требуется колоссальный дата-центр, где десятки тысяч ускорителей (например, 40 000 плат Nvidia H100) соединены сверхбыстрыми и дорогими кабелями (InfiniBand) в одном помещении. Причина этого — необходимость постоянного высокоскоростного обмена данными между картами, требования к которому растут квадратично с добавлением каждого нового GPU. Это требует гигантских объемов электроэнергии и сложных систем охлаждения.

Как утверждают гости, в мире существует не более пяти-шести организаций, способных позволить себе подобную инфраструктуру (OpenAI, Anthropic, Meta, xAI, Google и, возможно, структуры, поддерживаемые отдельными государствами). Проект Distro доказывает, что эту жесткую привязку производительности к физическим проводам можно разорвать. Разработчики обнаружили математическую закономерность: по мере масштабирования и увеличения размера самой нейросети объем данных, который необходимо передавать между GPU во время обучения, растет значительно медленнее, чем размер модели. Это позволило полностью декуплировать (разъединить) масштабирование ИИ и скорость сетевого интерконнекта.

📈 Математическое чудо: 1000-кратное снижение требований к связи 26:29

Теоретический фундамент Distro был заложен во время многочасовых дискуссий команды в Нью-Йорке. Опираясь на особенности динамики обучения нейросетей, исследователи пришли к выводу, что децентрализованное обучение возможно, хотя на проверку этой гипотезы и написание кода ушли месяцы «слепой веры» и несколько ложных стартов. Как отмечает Джефф, многие современные прорывы в ИИ на самом деле базируются на математических инсайтах 1980-х и 1990-х годов, которые в свое время казались безобидными или бесполезными, но выстрелили при текущих масштабах вычислений.

Результаты тестов Distro оказались ошеломляющими для индустрии:

Снижение требований к пропускной способности сети: В худшем, самом консервативном сценарии метод Distro снижает необходимую скорость соединения между узлами в 87 раз.
Реальные показатели оптимизации: На практике исследователям удалось добиться стабильного обучения с уменьшением сетевого трафика в 1000 раз, а в оптимистичных сценариях команда видит маркеры потенциального снижения требований в 2000–3000 раз.

Эффективность проверялась стандартными метриками: кросс-энтропийными потерями (cross-entropy loss), перплексией, а также бенчмарками Hellaswag и MMLU. Этот успех, по мнению разработчиков, проливает свет на фундаментальную загадку ИИ — проблему интерпретируемости (interpretability). Distro доказал, что для успешного обучения узлам не нужно обмениваться вообще всеми параметрами: в процессе обучения критически важна лишь узкая прослойка высокозначимых сигналов, и передачи этого минимума информации достаточно для получения эквивалентного результата.

🧪 Разрушая скепсис: редтиминг и верификация через OLMo 33:17

Разработчики открыто признают, что первой реакцией ИИ-сообщества на публикацию результатов Distro было тотальное неверие. Джефф заявляет, что на месте сторонних исследователей сам отнесся бы к подобным заявлениям с глубоким скептицизмом. Главные аргументы критиков сводились к двум тезисам:

Проблема неверного бэйслайна (базовой линии): Обучение ИИ — капризный процесс с сотнями гиперпараметров. Критики предполагали, что Nous Research могли случайно сравнить Distro с изначально плохо обученной стандартной моделью.
Проблема масштабирования: Оппоненты утверждали, что метод, работающий на маленьких тестовых моделях, сломается при попытке обучить ИИ на триллионы параметров.

Чтобы доказать свою правоту, команда Nous Research пошла на радикальный шаг: они полностью выбросили свои первоначальные наработки, созданные на базе фреймворка Nanotron от Hugging Face, и запустили проект заново в третий раз. Для чистоты эксперимента была взята кодовая база OLMo от института Allen AI — максимально прозрачный ИИ-проект, где создатели публикуют точный индекс каждого токена и данные для 100% воспроизводимости.

Nous Research полностью воспроизвели эталонный цикл обучения Allen AI, а затем заменили стандартный оптимизатор AdamW на свой Distro, не меняя больше ни одной строчки кода и ни одного гиперпараметра. Графики обучения совпали с идеальной точностью, продемонстрировав превосходство Distro. Боуэн, называющий себя главным скептиком проекта, подчеркнул, что после этого эксперимента все сомнения отпали. Официальная научная статья с математическими доказательствами и полными результатами абляционных исследований будет представлена на конференции ICLR.

💻 Сеть из потребительских видеокарт и крах монополии InfiniBand 40:55

Первой реакцией рыночных аналитиков на новость о Distro стали предположения о крахе бизнес-модели Nvidia, чья капитализация держится на многомиллиардных контрактах на поставку оборудования для централизованных дата-центров. Однако разработчики Distro считают, что технология не несет мгновенной угрозы для чипмейкера. Nvidia сохраняет лидерство за счет программного стека CUDA и архитектуры самих графических процессоров.

Вместе с тем Distro кардинально меняет «мету» аппаратного обеспечения:

Отказ от InfiniBand: Крупным игрокам больше не нужно строить сверхдорогие и сложные сетевые структуры внутри одного здания — дата-центры для обучения одной модели могут быть физически разбросаны по разным городам или континентам, общаясь через стандартный 10- или 100-гигабитный Ethernet.
Использование геймерских видеокарт: Джефф объясняет, что графический чип внутри потребительской карты RTX 4090 практически идентичен чипу промышленного ускорителя Nvidia H100. Разница в цене обусловлена дорогой памятью HBM3, которой окружают серверные чипы, и маркетинговой наценкой enterprise-сегмента. Distro позволяет объединить в единую сеть тысячи обычных игровых компьютеров.
Активация латентных мощностей Apple: Разработчики выражают восторг по поводу платформы MLX от Apple и их кремниевой архитектуры Apple Silicon. В перспективе Distro сможет использовать простаивающие мощности миллионов потребительских ноутбуков и смартфонов.

Для реализации этой концепции Nous Research пишет отказоустойчивый (fault-tolerant) код. В отличие от корпоративных систем, где сбой одной платы останавливает обучение всей модели, децентрализованный ИИ от Distro будет продолжать работу, даже если часть пользовательских компьютеров неожиданно отключится от сети или будет иметь разную производительность.

🔄 Как устроен Distro изнутри: конец парадигмы «Все возвращаются к маме» 56:56

Чтобы объяснить суть технологии, разработчики описывают стандартный метод параллелизма данных с оптимизатором AdamW. В классическом сценарии на каждом GPU лежит копия модели. Каждому процессору дают читать свою «книгу» (пакет данных), они делают один шаг обучения, и их веса начинают слегка различаться. После каждого шага запускается ресурсоемкая операция All-Reduce: система принудительно собирает данные со всех тысяч плат, высчитывает среднее арифметическое и возвращает все GPU в абсолютно идентичную точку. Джефф иронично называет это «необходимостью для всех детей после прогулки вернуться домой к маме». Это абстракция единой модели, требующая гигантских скоростей связи.

Distro полностью ломает эту парадигму:

Свобода движения: Проект отказывается от идеи обучения «одной модели». Вместо этого одновременно обучаются $N$ разных моделей на $N$ разных GPU. Каждому узлу дана свобода самостоятельно двигаться по ландшафту потерь в поисках оптимума.
Эффект банджи-джампинга: Чтобы модели не разлетелись в хаотичных направлениях, они связаны виртуальным «эластичным тросом» (bungee cord). Если один из узлов натыкается на удачную зону с низким уровнем потерь, этот воображаемый канат начинает мягко подтягивать остальные узлы в этом направлении.
Звонок домой вместо возвращения: Узлы не сливаются воедино. Каждый шаг они лишь отправляют «домой» короткое сообщение объемом около 1 мегабайта, содержащее ключевые инсайты о проделанном пути, вместо пересылки гигабайтных массивов весов.

Самым удивительным постфактум-открытием (post-hoc realization) для команды стало то, что такое децентрализованное разнообразие поиска (diversity of search space) не ухудшило, а, напротив, улучшило кривую обучения ИИ. Позволяя узлам исследовать ландшафт независимо, система находит более эффективные решения, чем монолитный централизованный алгоритм.

🔮 Будущее ИИ: когда inference поглотит обучение 1:10:41

На ранних этапах проекта Nous Research пыталась пойти еще дальше и экспериментировала с так называемой «оптимизацией нулевого порядка» (Zero-Th Order optimization). Этот метод подразумевает обучение нейросети исключительно через прямые проходы (forward passes), вообще без использования обратного распространения ошибки (backpropagation). Идея выглядела заманчиво для домашних видеокарт, однако тесты показали, что «обратный проход по-прежнему правит бал» (backprop is still King). Без него обучение происходит примерно в 1000 раз медленнее на текущей архитектуре чипов.

Тем не менее, в будущем, с появлением специализированных микросхем (ASIC) для сверхбыстрого инференса (как у стартапа Groq) или развитием 1-битных архитектур вроде BitNet, ситуация может измениться. В BitNet все веса принимают значения только -1, 0 или 1, благодаря чему операция умножения матриц исчезает, превращаясь в простое сложение, что колоссально ускоряет вычисления.

Боуэн описывает фантастический, но технически реализуемый сценарий будущего, в котором обучение ИИ станет побочным продуктом его использования (byproduct of inference). Сегодняшние модели разделены: они сначала долго обучаются на суперкомпьютерах, а затем замораживаются и отправляются пользователям для генерации ответов. В будущем децентрализованная сеть позволит вашему смартфону в процессе повседневного инференса сохранять микроскопические доли полезной информации и отправлять их обратно в общую сеть. Нейросеть будет непрерывно дообучаться прямо в процессе ее использования человечеством.

Ближайшие планы Nous Research амбициозны. Сразу после публикации исходного кода Distro в октябре команда планирует решить проблему координации и вознаграждения участников краудсорсинговой сети ИИ. Джефф заявляет, что силами сообщества, арендовавшего около 1000 карт H100 через доступные сервисы вроде RunPod, они смогут без труда обучить качественную модель размером 7B на 4 триллиона токенов. Создание полностью децентрализованной open-source альтернативы тяжеловесным моделям уровня 405B силами распределенной сети обычных людей станет возможным уже в следующем году.