Сара Хукер: «Колоссальная часть весов ИИ тратится на компенсацию зашумленных данных»

В новом выпуске подкаста «The TWIML AI Podcast» ведущий Сэм Черингтон беседует с Сарой Хукер, директором исследовательской лаборатории Cohere for AI. В центре дискуссии — разработка мультиязычных языковых моделей, преодоление аппаратных ограничений и оптимизация данных обучения. Собеседники также подробно разбирают глубокий идеологический раскол в ИИ-сообществе между сторонниками концепции экзистенциального риска и исследователями, сфокусированными на решении насущных проблем текущих моделей.

🌐 От Google Brain к децентрализованной науке: рождение Cohere for AI 0:00

Сара Хукер вспоминает, что до перехода в Cohere она на протяжении пяти лет работала в лаборатории Google Brain, которая к сегодняшнему дню уже прекратила свое существование в прежнем виде. Около полутора лет назад сооснователи Cohere Эйден Гомез и Ник Фрост предложили ей возглавить новую исследовательскую структуру. По признанию Хукер, ее первой реакцией были слова о том, что они «сошли с ума», поскольку создание лаборатории с нуля требует колоссальных усилий. Тем не менее ее привлекла идея гибридного формата, совмещающего традиционную коммерческую лабораторию и открытые научные инициативы (open science).

Компания Cohere была основана примерно три года назад Эйденом Гомезом, Ником Фростом и Иваном Чжаном еще до эпохи взрывного интереса к ChatGPT. Как утверждает гостья подкаста, изначально это была лингвоцентричная компания, ориентированная исключительно на языковые модели. Сама идея Cohere for AI выросла из децентрализованного академического проекта «4AI», который Иван Чжан и Эйден Гомез запустили во время учебы в Университете Торонто. В рамках этого независимого сотрудничества они опубликовали знаковую статью для конференции NeurIPS, получившую право на устный доклад (oral presentation), причем Чжан на тот момент официально бросил учебу. Ник Фрост присоединился к ним позже, покинув Google Brain.

Сегодня Cohere for AI реализует модель распределенной международной лаборатории. Сара Хукер осознанно сделала ставку на поиск талантов по всему миру, отказавшись от попыток скопировать структуру гигантских корпораций вроде Google DeepMind. В ее команде на постоянной основе работают ученые из разных стран:

Германия
Нидерланды (Амстердам)
Канада
США
Бразилия
Нигерия

По словам Хукер, такой удаленный формат (remote first) позволяет находить блестящих специалистов в нестандартных локациях. В то время как многие крупные технологические игроки закрывают свои исследования, Cohere for AI делает ставку на широкую открытую кооперацию, привлекая к проектам как ученых из ведущих институтов вроде MIT, так и независимых начинающих исследователей.

🌿 Проект Aya: преодоление «проклятия мультиязычности» на 101 языке 9:00

Флагманским открытым проектом лаборатории стал Aya (в переводе с языка чви — «папоротник», символизирующий стойкость и способность расти в неблагоприятных условиях). Цель проекта — создание масштабной открытой генеративной модели, охватывающей 101 язык. Сара Хукер отмечает, что современный прорыв в области генеративного ИИ в основном затронул английский язык благодаря трем компонентам: масштабированию, инструктивному дообучению (instruction fine-tuning) на структурированных данных формата «вопрос-ответ» и обучению на основе предпочтений (preference training). Однако за пределами английского языка качественных инструктивных данных практически нет.

Оптимизация мультиязычной модели сопряжена с серьезными техническими вызовами. Гостья подкаста приводит аналогию с бутылкой воды: когда вы резко наклоняете ее в одну сторону, чтобы покрыть определенные языки, вода уходит из другой части, то есть качество одних языков ухудшается за счет других. Главная задача исследователей — найти правильный баланс и пропорции данных. Кроме того, ИИ-индустрия сталкивается с кризисом оценки: исторически академические бенчмарки были ориентированы на короткие дискретные ответы из одного слова (например, классификация тональности). Для современных универсальных моделей требуются длинные, связные и флюидные ответы, а существующие мультиязычные датасеты приводят к слишком коротким генерациям.

Для решения проблемы нехватки ресурсов команда Aya применила агрессивную аугментацию данных, переведя высококачественные английские инструкции на множество языков и увеличив размер исходного датасета в четыре раза. Хукер признает наличие системных искажений и предвзятости (biases) в переводных моделях, но утверждает, что для низкоресурсных языков эта стратегия все равно дает огромный позитивный сдвиг. В рамках проекта готовятся две научные публикации: одна посвящена архитектуре модели, вторая — созданному датасету.

В процессе работы исследователи сталкиваются со следующими фундаментальными феноменами:

«Проклятие мультиязычности» (Curse of multilinguality): чем больше языков должна поддерживать модель, тем больше параметров ей требуется, иначе языки начинают конкурировать за общую емкость сети и «пожирать» ресурсы друг друга.
Преимущества совместного обучения (Joint training): одновременное обучение на множестве языков помогает низкоресурсным языкам за счет переноса общих семантических структур из высокоресурсных (например, из английского).

Команда экспериментирует с открытой базовой моделью mt5 от Google объемом 13 млрд параметров, которая уже демонстрирует значительное улучшение флюидности и длины ответов. В планах лаборатории — масштабировать эксперименты до моделей размером 52 млрд и 100 млрд параметров, чтобы изучить, как объем претрейнинга влияет на последующий перенос знаний при инструктивном дообучении. На следующем этапе оптимизации в следующем году планируется переработать алгоритмы токенизации, которые сейчас некорректно работают с алфавитами хинди, арабского, японского и корейского языков.

📉 Меньше значит больше: эффективное сжатие данных при претрейнинге 24:49

Другим важным вектором исследований Cohere for AI стала работа «Less is More» («Меньше значит больше»), посвященная прунингу (отсечению) данных при предварительном обучении моделей. Сара Хукер критикует два доминирующих тренда последнего десятилетия: «чем больше параметров, тем лучше» и «чем больше данных, тем лучше». Она называет эти подходы «болезненно простыми» и указывает на их экономическую неэффективность. Если модель обучается на «мусорных» данных, эти данные фактически выступают в роли регуляризатора, и инженерам приходится раздувать емкость сети (количество параметров) лишь для того, чтобы модель могла компенсировать шум и извлечь крупицы полезных сигналов. Ссылаясь на свои прошлые работы, Хукер отмечает, что при удалении 90% параметров модель в первую очередь забывает редкие и зашумленные примеры. Это доказывает, что колоссальная часть весов тратится исключительно на компенсацию некачественных данных.

В индустрии обработки естественного языка (NLP) стандартом считается обучение в одну эпоху (one epoch), так как разработчики боятся исчерпания уникальных текстов в интернете. В компьютерном зрении ситуация противоположная: модели обучаются по 90 эпох, проходя через одни и те же изображения десятки раз. Исследование Cohere for AI под руководством Макса показало, что при правильном отборе можно оставить всего 30% от общего объема данных и достичь эквивалентного уровня производительности модели.

Для оценки качества текстов в интернете исследователи протестировали три методики различной вычислительной сложности:

Перплексия (Perplexity): простейший и самый дешевый «грубый» сигнал, генерируемый моделью при прохождении текста.
Метрика EL2N (L2-норма ошибки градиента): метод, требующий фиксации изменений градиентов на различных чекпоинтах в процессе обучения 15 независимых моделей.
Индекс запоминания (Memorization score): ресурсоемкий вычислительный алгоритм.

Результаты экспериментов оказались парадоксальными: только перплексия стабильно превзошла случайный выбор данных (random baseline). Сложные и теоретически строгие метрики, изначально созданные для анализа пространства весов, а не пространства данных, в этой задаче уступили простейшему базовому сигналу.

По мнению Сары Хукер, конечной целью подобных исследований является переход к адаптивному обучению (adaptive training). В отличие от текущих систем, которые тратят одинаковые вычислительные ресурсы на простые и сложные токены, адаптивные модели будущего должны имитировать человеческое поведение: концентрировать внимание и емкость на трудных задачах и игнорировать тривиальные примеры.

🧩 Архитектура Mixture of Experts: за кулисами эффективности и латентности GPT-4 33:41

Развитием идеи адаптивных вычислений является архитектура Mixture of Experts (MoE — смесь экспертов). Проект лаборатории под руководством Теда был направлен на повышение параметрической эффективности MoE. Суть концепции MoE заключается в том, что вместо одной монолитной нейросети создается ансамбль специализированных подмоделей («экспертов»), а специальный роутер распределяет входящие токены тому эксперту, который лучше всего подходит для конкретной задачи (например, для написания кода или генерации французского текста).

Однако на практике обучение и развертывание MoE сталкивается со следующими барьерами:

Дисбаланс экспертов на ранних стадистях: если роутер начинает отдавать предпочтение одному эксперту в начале обучения, тот быстро прогрессирует и начинает забирать себе все последующие задачи. Для борьбы с этим инженерам приходится применять грубые методы балансировки нагрузки с помощью случайного распределения.
Проблема операционной масштабируемости: при деплое модели необходимо удерживать в оперативной памяти машин чекпоинты абсолютно всех экспертов, чтобы мгновенно вызвать нужного, что требует колоссальных объемов памяти.

Команда Теда предложила комбинировать MoE с параметрически эффективными модулями. Вместо дублирования полноценных больших моделей они использовали одну базовую сеть, поверх которой надстраивались крошечные роутеры и модули, обновляющие всего 1-2% весов при обучении. Это позволило добиться драматической экономии памяти и снизить задержку системы.

Комментируя циркулирующие в индустрии слухи о том, что архитектура GPT-4 от OpenAI основана на смеси из 8 экспертов, Сара Хукер отмечает экономическую подоплеку этого решения. Переход к MoE часто интерпретируют как признак «замедления» или упирания в тупик традиционных законов масштабирования (scaling laws), поскольку разработчики не смогли обучить еще более гигантский монолит. Хукер не согласна с тезисом о тупике масштабирования, но подтверждает, что MoE является прагматичным способом радикально снизить количество эффективных FLOPs (операций с плавающей запятой). Модель растет в ширину, а не в глубину, что экономит вычислительные ресурсы при инференсе, хотя и увеличивает латентность (время ожидания ответа). Пользователи GPT-4 часто жалуются на высокую задержку, что, по мнению Хукер, напрямую связано с многоступенчатой процедурой выбора модели-эксперта.

При этом гостья указывает на скрытый парадокс: исходная цель создания MoE — семантическая специализация — в современных коммерческих моделях практически не реализуется. Из-за того, что случайное перемешивание данных (random shuffling) при обучении до сих пор невозможно превзойти, «эксперты» обучаются хаотично и не делятся строго по темам. Эксперименты команды Cohere for AI показали, что попытки искусственно навязать тематическую специализацию через подачу эмбеддингов вместо токенов приводили лишь к ухудшению итоговых метрик модели. Сегодня MoE ценится в индустрии исключительно как инструмент снижения энергопотребления и оптимизации вычислений.

🎰 «Великая иллюзия» переносимости: аппаратная лотерея в эпоху Трансформеров 46:32

Тема технологических ограничений получила развитие в исследовании «The Grand Illusion» («Великая иллюзия»), выполненном Фрейзером и Чжаном. Эта работа логически продолжает знаменитый манифест Сары Хукер «The Hardware Lottery» («Аппаратная лотерея»). Основной тезис теории Хукер заключается в том, что доступные инженерам аппаратные инструменты жестко диктуют, какие научные идеи победят, а какие будут маргинализированы. Ярким примером служит успех сверточных нейросетей в 2012 году: алгоритмы глубокого обучения разрабатывались десятилетиями, но получили мгновенное признание только тогда, когда под них адаптировали графические процессоры (GPU), изначально создававшиеся для видеоигр. Напротив, математически изящная концепция разреженности (sparsity) не дает реального выигрыша в скорости на современных GPU, поскольку вся архитектура микросхем «заточена» под обработку плотных, структурированных матриц.

В статье «The Grand Illusion» исследователи решили измерить реальный уровень «закрепощения» (lock-in) разработчиков внутри популярных программных фреймворков (PyTorch, TensorFlow, Jax), которые позиционируются как универсальные библиотеки на Python. Выяснилось, что их универсальность — это иллюзия, и программы намертво привязаны к конкретному «железу»:

PyTorch на TPU: при попытке перенести код, написанный на PyTorch, на тензорные процессоры (TPU) от Google, 40% всех функций просто отказываются работать, либо вызывают катастрофическое падение производительности.
Jax на GPU: фреймворк Jax демонстрирует отличную переносимость без критических сбоев, однако более 90% его функций выполняются на видеокартах GPU с огромной задержкой, так как библиотека изначально оптимизировалась под архитектуру TPU.

Сара Хукер выражает серьезную обеспокоенность тем, что ИИ-индустрия начинает страдать от «аппаратного оверфиттинга» (переобучения под одну архитектуру). Современное железо создается исключительно под Трансформеры — вплоть до того, что Nvidia прямо называет чип H100 «ускорителем трансформеров» (Transformer Engine / Accelerator). В результате ученым становится все сложнее совершить следующий качественный скачок и уйти от Трансформеров к принципиально иным архитектурам, поскольку любые альтернативные идеи будут заведомо проигрывать на неадаптированном оборудовании.

В качестве примера упущенных возможностей из-за «программной лотереи» Хукер приводит алгоритм «раннего выхода» (early exiting), который позволяет модели не прогонять легкие примеры через все слои сети, экономя память. Этот метод абсолютно неэффективен во фреймворке TensorFlow из-за архитектурного принципа статической инициализации графа в самом начале программы — структуру сети нельзя динамически изменить в процессе работы, и выигрыш в памяти обнуляется. Хукер призывает преодолеть культурный и коммуникационный разрыв между разработчиками алгоритмов (которые общаются в открытом коде и в соцсети Twitter) и аппаратными архитекторами (которые традиционно используют LinkedIn). Нам необходим единый язык и прозрачные таблицы совместимости — по аналогии с картами поддержки CSS и HTML в веб-браузерах, без которых развитие интернета зашло бы в тупик.

⚖️ Раскол ценностей: экзистенциальные угрозы против насущных рисков AI 58:49

В заключительной части интервью спикеры обращаются к социально-философской проблеме, которую Сара Хукер называет «расколом ценностей» (values divide) в ИИ-сообществе. Генеративный ИИ стал первой технологией, которая установила глубокую эмоциональную связь с миллионами обычных людей. В отличие от сверточных сетей, которые незаметно работают «под капотом» мобильных приложений, диалоговые чат-боты кажутся пользователям прозрачными и интерактивными: любой человек может самостоятельно протестировать модель через чат, нащупать ее слабые места и увидеть логику ответов.

По мнению Хукер, этот феномен породил два противоположных лагеря среди исследователей и политиков, которые жестко конкурируют за ресурсы и влияние на регуляторику:

Сторонники концепции экзистенциального риска (Existential Risk): группа исследователей, сфокусированная на отдаленных сценариях будущего, где гипотетический сверхинтеллект может стать угрозой выживанию человечества. В рамках этого подхода приоритетными считаются угрозы уровня биосистемной безопасности (например, способность модели сгенерировать инструкцию по созданию бомбы или биологического оружия).
Защитники текущей безопасности (Current Risks): ученые (включая саму Хукер), которые считают, что фокус на далеком будущем отвлекает внимание от реального вреда, наносимого технологиями уже сегодня.

Сара Хукер выделяет несколько критических проблем развернутых систем, требующих немедленного финансирования:

Масштабная дезинформация: генеративные модели снизили барьер для создания текстов, неотличимых от человеческих, что делает генерацию фейков дешевой и массовой. Необходимо инвестировать в методы верификации, отслеживания происхождения данных (traceability) и детекции ИИ-текстов.
Игнорирование мультиязычности: крупные лаборатории, находящиеся в странах Запада и Китае, создают модели с фокусом на свои рынки, оставляя огромную часть населения планеты без адекватного доступа к безопасным технологиям на их родных языках.
Отсутствие подотчетности: предотвращение «будущих» катастроф невозможно измерить математически, что позволяет авторам таких теорий избегать ответственности за результаты своей работы, в то время как ошибки текущих моделей видны ежедневно.

Ведущий Сэм Черингтон предлагает альтернативный взгляд, заявляя, что эти позиции не обязательно должны быть взаимоисключающими. По его мнению, диверсификация рисков полезна для индустрии, а ресурсы не делятся в рамках «игры с нулевой суммой». В качестве примера он приводит компанию OpenAI, которая, будучи исторически одержима вопросами долгосрочной безопасности и выравнивания (alignment), попутно создавала прорывные практические продукты. Сара Хукер соглашается, что ученые должны исследовать то, что приносит им радость, но настаивает на технической интервенции в текущий политический дискурс: экзистенциальная риторика звучит излишне кинематографично и тревожно для широкой публики, из-за чего насущные технические проблемы сегодня попросту исключаются из глобальной регуляторной повестки.

🗺️ Сложности регуляризации: концепт «Frontier AI» под лупой 1:12:50

Иллюстрацией этого ценностного противостояния стала совместная научная статья, посвященная регулированию так называемых «передовых моделей» (Frontier AI), в написании которой Хукер принимала участие. Авторы работы попытались определить Frontier AI как класс моделей, обладающих высокой вероятностью нанесения критического ущерба человеческому благополучию из-за внезапного проявления опасных эмерджентных (внезапно возникающих при масштабировании) способностей.

Хукер указывает на серьезные методологические изъяны и внутренние противоречия этой концепции при попытке применить ее на практике:

Проблема демаркации: под критерии «опасной передовой модели» из статьи не подпадает семейство моделей LLaMA, хотя они обладают огромной мощностью. Непонятно, где именно находится точка перелома, когда обычная модель превращается во «Frontier AI», является ли этот статус бинарным и может ли модель регрессировать обратно.
Уязвимость метрик к манипуляциям: если регулятор введет жесткую проверку модели только на биоугрозы, разработчики точечно заблокируют эту тему. Но по принципу «бутылки с водой» это неизбежно вызовет непредсказуемый сдвиг параметров и ухудшение контроля в других, не менее важных сферах безопасности.

По мнению гостьи, если сообщество до сих пор не выработало строгих и общепринятых методологий для измерения текущих рисков и уровня неопределенности статических сетей, то любые попытки математического прогнозирования рисков будущих моделей напоминают худшие сценарии обучения с подкреплением (reinforcement learning), где добавление фактора времени лишь многократно умножает нестабильность и делает алгоритмы абсолютно неконтролируемыми. Подводя итог, Сара Хукер подчеркивает, что технические специалисты обязаны возвращать дискуссию в русло прикладной науки и реальных возможностей существующих систем, не подменяя строгие измерения научно-фантастическими спекуляциями.