Марк Саруфим и Мэтью Салварис обсудили кризис стимулов в ИИ

Современная индустрия искусственного интеллекта переживает глубокий кризис академических стимулов, превращающий амбициозных исследователей в заложников погони за метриками и корпоративным престижем. В новом выпуске подкаста Machine Learning Street Talk ведущий Тим Скарф совместно с соавторами Янником Килчером и доктором Мэтью Салварисом обсуждает резонансную статью Марка Саруфима «Великий застой в машинном обучении». Участники дискуссии препарируют устройство современной ИИ-индустрии, противопоставляют платформенные подходы медийным стратегиям и объясняют, почему истинные инновации сегодня рождаются за пределами традиционных академических институтов.

📉 Великий застой в машинном обучении и кризис академических стимулов 0:23

В своей статье Марк Саруфим проводит провокационную аналогию, сравнивая аспирантов, изучающих машинное обучение, с аналитиками в сфере инвестиционного банкинга. По его мнению, обе группы руководствуются стремлением обеспечить себе максимальную карьерную вариативность (optionality), отличаясь лишь поверхностными деталями: первые предпочитают медитацию, марихуану и аддералл, тогда как вторые выбирают вечеринки, алкоголь и кокаин. Саруфим утверждает, что аспирантура по направлению машинного обучения превратилась в затянутое собеседование для попадания в компании FAANG (Facebook, Google, Microsoft и др.).

Процесс отбора дата-сайентистов в крупных лабораториях, по словам Саруфима, стал смесью проверки тривиальных фактов и оценки престижа кандидатов. Оценка реального портфолио проектов занимает слишком много времени, поэтому рекрутеры используют простые фильтры: диплом Стэнфорда или наличие совместных публикаций с Google Brain. При этом на вопросы новичков о необходимой математической базе Марк отвечает лаконично: достаточно знать умножение матриц и производные квадратных функций. Все популярные нейронные аналогии, как считает исследователь, наносят лишь вред, искажая понимание реальных механизмов работы алгоритмов.

Марк Саруфим подчеркивает эмпирическую природу глубокого обучения, где понимание причин эффективности того или иного метода носит скорее анекдотический, чем теоретический характер. По его мнению, наилучших результатов здесь добиваются люди с наибольшим объёмом практического опыта, способные одновременно запускать множество параллельных экспериментов. Поскольку доступ к мощным дата-центрам есть лишь у ограниченного круга лиц, возникает мультипликативная петля обратной связи. Это, как утверждает исследователь, объясняет, почему ключевые публикации сосредоточены в нескольких элитных лабораториях, таких как Google Brain, DeepMind и OpenAI.

Особой критике Саруфим подвергает лавинообразный рост публикаций вокруг архитектуры Transformer за последние три года. По его словам, этот поток состоит из инкрементальных (минимально улучшенных) работ с заголовками, напоминающими бульварную прессу: «Внимание — это всё, что вам нужно», «Трансформеры в протеинах», «Трансформеры на графах» и так далее. По оценке Саруфима, вся полезная исследовательская деятельность свелась к попыткам сделать трансформеры быстрее, меньше и адаптировать их к длинным последовательностям. В результате на рынке появилась полноценная профессия «BERT-инженера», чья квалификация включает написание Bash-скриптов, знание пакетного менеджера Pip, ожидание новых релизов от Hugging Face и пересказ роликов Янника Килчера на командных митингах. Саруфим иронизирует, что это напоминает DevOps, но с гораздо более высокой оплатой труда.

🔄 Алгоритм «градиентного спуска аспирантов» и мнимая строгость науки 3:42

В качестве альтернативы классическому научному подходу Марк Саруфим предлагает шуточный, но отражающий реальность алгоритм «градиентного спуска аспирантов» (Graduate Student Descent, GSD). Суть алгоритма выглядит следующим образом:

Инициализировать проект.
Найти текущий SOTA-результат (State-of-the-Art) на Archive.
Найти соответствующий код на GitHub.
Если результаты неудовлетворительны, внести случайные изменения в код.
Опубликовать статью.

По мнению Саруфима, в условиях жесткого принципа «публикуйся или умри» (publish or perish) данный подход является самым надежным способом получения SOTA-результатов, поскольку он идеально распараллеливается на любое количество аспирантов или наемных сотрудников лаборатории. Исследователи сознательно избегают неопределенных и рискованных проектов, так как следование собственным научным интересам мешает продвижению по службе.

Марк считает, что рассуждать на основе фундаментальных принципов (first principles) в машинном обучении крайне сложно из-за высокой нелинейности, непредсказуемости и огромного количества параметров алгоритмов. Проведение абляционных исследований (ablations) помогает, но даже они не дают окончательных выводов в условиях широкого спектра переменных.

Дополнительно Саруфим указывает на проблему «мнимой строгости» (fake rigor) в научном сообществе. Любя математику, он предостерегает от спекулятивного использования формализма, когда авторы закладывают оторванные от реальности свойства данных ради схождения теорем или расписывают многостраничные выводы градиентов вместо использования автоматического дифференцирования. Худшим проявлением этого тренда Марк называет искусственное усложнение нейросетей математическими концепциями ради апелляции к эстетическим чувствам читателя — например, рассказами о том, что преобразование Фурье лежит в основе вычислений. Этим часто грешит оптимизационное сообщество: авторы предлагают новые функции активации, такие как Swish, а затем тратят страницы текста на описание красивых свойств ландшафта потерь. По утверждению Саруфима, единственный надежный способ внедрить новую идею — создать бенчмарк, на котором текущие SOTA-методы проваливаются, и доказать превосходство своего подхода, избегая дискуссий в Твиттере. При этом он призывает не уподобляться Гари Маркусу, который лишь критикует существующие работающие методы, не предлагая взамен ничего лучшего.

🛠️ Проблема масштабирования и инженерия вместо чистой науки 5:00

Марк Саруфим отмечает, что в академической среде распространено наивное представление о масштабировании моделей. По его наблюдениям, ученые часто думают, что переход к крупным моделям выглядит как запуск скрипта с флагом --super-large. В реальности же приходится сталкиваться со сложнейшими инженерными вызовами:

параллелизм моделей и данных (model and data parallelism);
организация конвейерной обработки (pipelining);
тонкая настройка гиперпараметров;
использование аппаратных ускорителей;
устранение узких мест в сети, вычислениях, хранилищах и операциях ввода-вывода (I/O bottlenecks).

Ведущий Тим Скарф полностью разделяет эту позицию, делясь личным опытом проведения собеседований. Скарф заявляет, что всегда спрашивает кандидатов об архитектурных вызовах масштабирования в их недавних проектах. По его мнению, невозможно работать над реальным приложением и не столкнуться с ограничениями: нехваткой памяти GPU, лимитами процессора, скоростью жесткого диска или задержками при обращении к облачным объектным хранилищам (blob store). Тим Скарф категорично утверждает: если кандидат не может страстно и подробно рассказать о том, как он преодолевал эти инженерные барьеры, он не получит работу в его команде.

🧠 Смена парадигмы: машинное обучение как проблема дизайна компиляторов 7:47

Несмотря на жесткую критику «карго-культа» и монокультуры в ИИ, Марк Саруфим видит огромный потенциал для инноваций. По его мнению, машинное обучение сегодня следует рассматривать не через призму матриц или отдельных нейронов, а как задачу проектирования языковых компиляторов и архитектурного дизайна. В качестве успешных примеров Саруфим приводит фреймворки Keras и Fast.ai.

Собеседники выражают глубокое уважение к создателю Keras Франсуа Шолле. Саруфим отмечает, что Keras спроектирован как пользователь-центричная библиотека, которая абстрагирует сложности глубокого обучения и открывает эту сферу для классических программных инженеров. По мнению Марка, машинное обучение должно эволюционировать в сторону традиционной софтверной инженерии, фокусируясь на создании чистых интерфейсов и декомпозиции сложных компонентов в понятные строительные блоки.

В контексте абстракций Саруфим опровергает мнение о том, что высокая abstraction неизбежно вредит производительности. История вычислительной техники, на его взгляд, доказывает обратное. В качестве примера приводится библиотека Fast.ai, предлагающая три уровня API (высокий, средний и низкий) без потери эффективности. Саруфим также упоминает инструмент nbdev, созданный Джереми Ховардом для разработки в среде Jupyter Notebook с соблюдением стандартов софтверного процесса. Тим Скарф, однако, выражает скепсис по отношению к nbdev, хотя и признает выдающийся ум Ховарда, заявляя, что «всё, к чему прикасается Джереми, превращается в золото».

Развивая идею программного взгляда на ИИ, участники дискуссии вспоминают концепцию Андрея Карпати «Software 2.0» или дифференцируемого программирования, где обучение моделей рассматривается как автоматический поиск программ с помощью стохастического градиентного спуска.

🦜 Феномен Hugging Face против медиа-модели OpenAI 10:11

В оценке ключевых игроков индустрии Марк Саруфим демонстрирует радикальную смену взглядов. Он признается, что если бы в 2018 году его спросили о самой важной ИИ-компании, он без колебаний назвал бы OpenAI, которая поражала мир великолепными демо-версиями игровых агентов. Однако со временем, по мнению исследователя, OpenAI превратилась в медийную и сервисную компанию. Саруфим указывает на красивые посты в их блогах с великолепной типографикой и обращает внимание на то, что компания заставляет платить за доступ к GPT-3. Он убежден, что OpenAI не является платформенной компанией.

Настоящим лидером индустрии Саруфим считает Hugging Face. По его словам, невозможно найти крупную команду по обработке естественного языка (NLP), которая не экспериментировала бы с решениями от Hugging Face. Эта компания добавляет новые архитектуры трансформеров в течение нескольких дней после публикации научных статей, поддерживает токенизаторы, датасеты, загрузчики данных и готовые NLP-приложения. Саруфим подчеркивает, что Hugging Face создала несколько уровней платформ, каждый из которых мог бы стать успешным самостоятельным бизнесом. Миллиарды долларов рыночной стоимости, по его прогнозу, будут созданы именно на базе решений Hugging Face при решении прикладных, гораздо менее спекулятивных задач, чем создание сильного искусственного интеллекта (AGI). Главная заслуга стартапа, по мнению гостя, заключается в том, что он избежал типичной ловушки ИИ-стартапов — превращения либо в консалтинговую фирму, либо в «ферму цитирований».

📦 Взгляд со стороны: почему современное ML превратилось в эхо-камеру 11:37

Марк Саруфим ссылается на разбор, набравший популярность на Reddit и Hacker News, в котором независимый внешний наблюдатель анализирует публикационные практики в сфере машинного обучения. Этот исследователь был поражен огромным количеством откровенно слабых статей, которые фактически перефразируют методы 1960-х и 1980-х годов, но успешно принимаются на конференции. Согласно этому анализу, стандартный рецепт таких публикаций строится на четырех проблемах:

Клановость и закрытость конференций. Исследователи публикуются строго внутри ИИ-сообщества. Например, в статье по состязательному машинному обучению (adversarial ML) вся суть сводилась к решению задачи оптимизации через незначительное изменение давно изученных методов. Однако работа отправляется не в профильные журналы по оптимизации и управлению, а на ML-конференции.
Некомпетентность рецензентов. Система Open Review показывает, что рецензенты часто не обладают глубокими знаниями в конкретной узкой теме. Они комментируют исключительно корректность выкладок, но не способны оценить фактическую новизну метода.
Катастрофическая культура цитирования. Авторы цитируют либо себя, либо коллег по ИИ-цеху за последние пару лет. Иногда добавляется одна дежурная ссылка на Коши, Ньютона, Фурье или Тьюринга, после чего зияет столетний провал до 2018 или 2019 года.
Злоупотребление математикой (Mathiness). В сообществе силен тренд на возведение массивных «стен из формул». Авторы доказывают эзотерические условия для собственных значений, градиентов или якобианов под надуманными допущениями. Однако при запуске алгоритма на реальных невыпуклых задачах глубокого обучения все эти условия нарушаются, превращая сложные теоремы в бесполезную декорацию.

На основе этих факторов внешний исследователь пришел к выводу, что машинное обучение превратилось в эхо-камеру, где старые результаты упаковываются в новую терминологию, а рецензенты просто не способны распознать вторичность материала.

🏰 «Суверенный исследователь» и возвращение системы меценатства 28:41

В ходе дискуссии доктор Мэтью Салварис отмечает, что современная грантовая система вынуждает ученых заниматься лишь тем, что находится в моде. В качестве исторического примера он напоминает, что Джеффри Хинтон и его коллеги в «темные века» нейросетей были вынуждены сознательно избегать упоминания нейросетей в своих заявках на гранты, чтобы не получить мгновенный отказ.

Для преодоления этой изоляции Марк Саруфим предлагает концепцию «суверенного исследователя» (Sovereign Researcher). Вместо того чтобы просить разрешения у авторитетов или государственных фондов вроде NSF, ученым следует вести независимые блоги, создавать собственные журналы и открыто публиковать код. Саруфим призывает к возрождению системы частного меценатства (patronage system): талантливый разработчик может найти состоятельного единомышленника в Твиттере, показать свой GitHub-репозиторий и получить прямое финансирование на жизнь ради реализации смелых идей. По его наблюдениям, на GitHub сегодня есть 17-летние инженеры, которые пишут код в десять раз лучше 30-летних профессионалов, но у них нет доступа в академическую среду из-за отсутствия публикаций.

GitHub, по мнению собеседников, представляет собой уникальную открытую систему, свободную от тирании целей. Здесь каждый может форкнуть репозиторий и следовать собственному «градиенту интереса».

Сам Марк Саруфим три года назад покинул высокооплачиваемую позицию в Microsoft, чтобы заняться свободным поиском. Он критикует чрезмерную затянутость современной системы образования, считая, что её ранние этапы выполняют скорее функцию присмотра за детьми (babysitting), пока родители работают. Свои принципы он изложил в бесплатном онлайн-учебнике Robot Overlord Manual, написанном на языке Julia с обилием иллюстраций и без математического запутывания.

🎭 Искусство быть собой: как преодолеть страх ошибок и «ад туториалов» 1:13:18

Одной из главных психологических преград в науке и инженерии участники называют страх оказаться неправым, из-за чего люди предпочитают бездумно ретранслировать чужие авторитетные мнения. Марк Саруфим делится личной историей времен работы в Microsoft над BI-системами для рекламы. Будучи новичком, он страдал от отсутствия документации и непрерывно конспектировал совещания. Один из старших менеджеров прервал его жестким вопросом: «Ты здесь для того, чтобы конспектировать или принимать решения?». Позже этот коллега дал Марку ценный совет: «Нарисуй заведомо неверную схему архитектуры и покажи всем. Тебя тут же начнут исправлять». С тех пор Саруфим активно использует метод публикации черновых, потенциально ошибочных материалов для получения качественной обратной связи от интернет-сообщества.

Обсуждая дистрибуцию талантов, Марк заявляет, что в индустрии действует жесткий степенной закон (power law): менее 1% (а возможно, около 0,1%) специалистов реально двигают инновации вперед. При этом существующая система собеседований в ИТ полностью сломана. Саруфим, недавно опубликовавший эссе «Миф об объективных технических скринингах», утверждает, что стандартные тесты проверяют лишь устойчивость к стрессу и умение зубрить шаблоны (rubrics), аналогично экзаменам SAT. Он убежден, что интервью должны быть субъективными: нужно просить кандидата рассказать о его самом любимом проекте и искать «искру в глазах».

Доктор Мэтью Салварис поддерживает этот подход и делится своим любимым приемом на собеседованиях: он всегда оставляет время в конце, чтобы спросить кандидата, какая научная статья за последнее время показалась ему наиболее интересной и почему. По словам Салвариса, если человек искренне увлечен, он назовет немейнстримовую работу, что продемонстрирует его способность связывать неочевидные факты и мыслить вне шаблонов.

В завершение беседы Марк Саруфим дает совет тем, кто готовится к ИИ-интервью: вместо бесконечного погружения в «ад туториалов» достаточно быстро прочитать «Стостраничную книгу по машинному обучению» (The 100-Page Machine Learning Book), изучить книгу Джоэла Раса «Data Science с нуля» (Data Science from Scratch) и разобраться в базовом устройстве архитектур Transformer и ResNet. Самое ценное в эмпирической науке — это личный багаж из сотен неудавшихся и успешных экспериментов, формирующий интуицию разработчика.