Марк Саруфим о великом застое в AI: „Мы превратились в хайп-чейсеров с религиозным вайбом“

Современная индустрия машинного обучения переживает период, который эксперты называют «великим застоем», когда погоня за сиюминутными результатами вытесняет фундаментальные научные открытия. В рамках подкаста Machine Learning Street Talk ведущий Тим Скарф, специалист по машинному обучению Марк Саруфим и исследователь в области ИИ Мэттью Салварис подробно разобрали, как сломались стимулы в академической среде и почему индустрия превратилась в культ карго. Участники дискуссии обсудили упадок классических научных подходов, феномен «BERT-инженерии» и предложили альтернативные стратегии выживания для независимых исследователей.

📉 Кризис стимулов: почему аспиранты по ML стали новыми инвестбанкирами 0:23

В своей нашумевшей статье Марк Саруфим выдвинул провокационный тезис: аспиранты, изучающие машинное обучение, сегодня напоминают аналитиков из сферы инвестиционного банкинга. По мнению гостя, обе эти группы мотивированы исключительно стремлением сохранить максимальную вариативность карьерного выбора, отличаясь лишь внешними атрибутами — например, предпочтением медитации вместо шумных вечеринок или использованием аддералла и марихуаны вместо алкоголя и кокаина. Марк Саруфим утверждает, что получение степени PhD в области машинного обучения сегодня превратилось всего лишь в затяжное собеседование в компании FAANG.

Процесс отбора кандидатов в крупных исследовательских лабораториях, как считает Марк, стал смесью проверки на знание тривиальных фактов и оценки престижа. Изучение реального портфолио проектов занимает у нанимателей слишком много времени, поэтому они используют простые фильтры: диплом Стэнфордского университета или наличие совместной публикации с Google Brain.

При этом Марк Саруфим указывает на критический разрыв между реальной математической базой и популярным нарративом. Когда молодые студенты спрашивают его, какую математику нужно знать для глубокого обучения, он отвечает, что достаточно понимать матричное умножение и производные квадратных функций. По мнению Марка, аналогии с биологическими нейронами приносят больше вреда, чем пользы, искажая понимание того, как на самом деле устроено машинное обучение. Глубокое обучение — это сугубо эмпирическая область, где объяснения механизмов работы алгоритмов чаще носят характер личных наблюдений, нежели строгой теории.

В таких эмпирических дисциплинах, как утверждает гость, лучших результатов добиваются те, кто наколлекционировал наибольший практический опыт, проводя множество параллельных экспериментов. Поскольку доступ к дата-центрам порождает мультипликативную обратную связь, наиболее значимые исследования публикуются силами всего нескольких элитарных лабораторий, включая Google Brain, DeepMind и OpenAI.

⚙️ Эпоха BERT-инженерии и «спуск по градиенту аспирантов» 2:20

Последние три года в индустрии ознаменовались доминированием архитектуры трансформеров, однако Марк Саруфим характеризует этот период как неослабевающий поток инкрементальной работы. Названия научных статей, по его словам, стали напоминать заголовки таблоидов: «Внимание — это все, что вам нужно», «Трансформеры в протеинах», «Трансформеры в молекулах», «Быстрые трансформеры». По мнению спикера, полезные исследования на любых наборах данных фактически свелись к банальным попыткам сделать трансформеры быстрее, меньше и адаптировать их под более длинные последовательности.

В результате на рынке труда появилась полноценная штатная позиция — «BERT-инженер». Марк Саруфим с иронией перечисляет ключевые квалификационные требования к такому специалисту:

Базовые навыки написания скриптов на Bash.
Глубокое знание пакетного менеджера pip.
Ожидание релиза новой модели от Hugging Face.
Просмотр разборов свежих статей на YouTube-канале Янника Кильхера в день их выхода.
Дословное повторение тезисов Янника на рабочих встречах своей команды.

По оценке гостя, эта деятельность напоминает обычный DevOps, но оплачивается существенно выше.

Параллельно с этим индустрию захватил феномен, который Марк Саруфим называет «спуском по градиенту аспирантов» (Graduate Student Descent, GSD). Алгоритм этого процесса выглядит следующим образом:

Инициализация системы.
Поиск SOTA-решения (State of the Art) на платформе arXiv.
Скачивание готового кода с репозитория GitHub.
Внесение случайных изменений в код в случае неудачи, пока метрики не улучшатся.
Публикация работы.

По мнению Марка, GSD стал самым надежным способом достижения топовых результатов, поскольку этот процесс идеально распараллеливается на любое количество аспирантов или наемных сотрудников лаборатории. Тим Скарф согласился с этой оценкой, добавив, что в условиях жестких метрик исследователям крайне тяжело идти против течения и следовать за собственными научными интересами, ведь за это не продвинут по службе. Марк Саруфим подчеркивает, что из-за огромного количества нелинейных и непредсказуемых взаимодействий параметров в современных сетях ученые практически лишились возможности рассуждать с позиций фундаментальных принципов.

❌ Иллюзия масштабирования и ложная математическая строгость 5:00

Марк Саруфим убежден, что в академической среде сложилось ложное и чрезмерно упрощенное представление о масштабировании моделей. Многим профессорам кажется, будто переход к крупным нейросетям выглядит как запуск команды python model.py --super_large. На самом же деле, как отмечает гость, инженерам приходится сталкиваться с колоссальным пластом сложнейших инфраструктурных проблем:

Параллелизм моделей и данных (model and data parallelism).
Конвейеризация вычислений (pipelining).
Тонкая настройка гиперпараметров.
Оптимизация работы аппаратных ускорителей.
Устранение узких мест в сети, хранилище данных и процессах ввода-вывода (I/O bottlenecks).

Ведущий подкаста Тим Скарф подтвердил важность этой проблемы, отметив, что всегда спрашивает кандидатов на собеседованиях об их опыте преодоления инфраструктурных ограничений. По мнению Тима, невозможно работать над реальными ИИ-приложениями и не сталкиваться с нехваткой памяти GPU или ограничениями пропускной способности жестких дисков; если кандидат не может увлеченно говорить об этих вызовах, он не получает работу.

Второй системной проблемой индустрии Марк считает «фальшивую строгость» (fake rigor). Любя математику, Марк выступает против ее избыточного использования ради создания видимости научности. Он критикует исследователей, которые выдумывают удобные свойства данных ради доказательства теорем, расписывают многостраничные выводы градиентов в приложениях вместо использования автоматического дифференцирования или искусственно внедряют сложные математические концепты в архитектуру сетей просто ради эстетики. В качестве примера он приводит сообщество оптимизаторов, которые предлагают функции активации вроде Swish, а затем тратят страницы текста на описание красивых свойств ландшафта потерь.

По мнению Саруфима, единственным надежным способом продвижения новых идей является создание бенчмарка, на котором текущие SOTA-методы терпят неудачу, с последующей демонстрацией превосходства новой техники. При этом Марк призывает избегать позиции известного критика ИИ Гэри Маркуса, который, по словам спикера, постоянно критикует существующие работающие методы, не предлагая взамен никаких жизнеспособных альтернатив.

🚀 Настоящие инновации: софт против матриц 7:47

Несмотря на критику культа карго, Марк Саруфим признает наличие подлинных инноваций, выделяя проекты Keras и Fast.ai. По его мнению, современное машинное обучение — это прежде всего проблема дизайна интерфейсов и компиляторов языков программирования. Тим Скарф поддержал эту точку зрения, заявив о своей любви к Keras и подходу Франсуа Шолле, который ориентирован на пользователя и абстрагирует внутреннюю сложность глубокого обучения, открывая эту сферу для обычных разработчиков. Тим считает, что машинное обучение должно эволюционировать в сторону классической программной инженерии, фокусируясь на создании понятных интерфейсов и декомпозиции сложных компонентов на предсказуемые строительные блоки.

Марк Саруфим заявляет, что противопоставление производительности алгоритмов и уровня абстракции кода — это ложная дихотомия, что доказывает вся история вычислительной техники. В качестве примера качественной многоуровневой абстракции он приводит Fast.ai, где реализованы программные интерфейсы (API) высокого, среднего и низкого уровней. Также гость упомянул nbdev — среду разработки Джереми Ховарда на базе Jupyter Notebook, сближающую исследовательский код с промышленными стандартами инженерии. Хотя Тим Скарф признался, что не является фанатом этого инструмента, он подчеркнул, что уважает интеллект Ховарда и считает, что все, к чему он прикасается, превращается в золото.

Главным долгосрочным обещанием глубокого обучения, по мнению собеседников, остается концепция дифференцируемых вычислений, когда модели рассматриваются как компьютерные программы, а стохастический градиентный спуск — как метод поиска программ. Это то, что исследователь Андрей Карпати ранее назвал «Программным обеспечением 2.0» (Software 2.0).

🎭 OpenAI против Hugging Face: медиа-компания против платформы 10:19

В оценке ключевых игроков ИИ-рынка Марк Саруфим демонстрирует жесткий скепсис. Если в 2018 году он считал OpenAI самой важной компанией в мире благодаря потрясающим демонстрациям игровых агентов, то со временем, по его мнению, их фокус сместился. Марк прямо называет OpenAI «медиа- и сервисной компанией», указывая на красивые блоги с великолепной типографикой и требование платить за использование GPT-3. По словам Саруфима, OpenAI не является платформенной компанией, и в ее текущей деятельности что-то упущено.

Истинным лидером и платформой Марк считает Hugging Face. По его наблюдениям, сегодня нет ни одной крупной NLP-команды, которая бы не экспериментировала с инструментами этой экосистемы. Разработчики Hugging Face внедряют новые трансформерные модели в течение нескольких дней после публикации соответствующих научных статей, поддерживая токенизаторы, наборы данных, загрузчики и готовые приложения. Марк утверждает, что Hugging Face создала несколько уровней платформ, каждый из которых мог бы стать успешным самостоятельным бизнесом, и с их помощью будут созданы миллиарды долларов стоимости на решении вполне осязаемых, практических задач, далеких от спекуляций вокруг сильного ИИ (AGI). При этом компании удается избегать типичной ловушки ML-стартапов — превращения в консалтинговую фирму или фабрику по штамповке цитирований.

Глубокое разочарование Марка Саруфима вызывает то, что наиболее захватывающие идеи в сфере машинного обучения сейчас приходят извне. Проведя в этой области около 10 лет, Марк признается, что сегодня он узнает гораздо больше от сумасшедших аутсайдеров в Twitter, чем из рецензируемых научных статей. Он хочет, чтобы машинное обучение снова стало веселым, и призывает к публикации идей, которые, возможно, и не сработают, но расширят горизонты мышления.

В качестве подтверждения застоя Тим Скарф привел недавний вирусный пост с Reddit, написанный внешним наблюдателем. Тот был поражен огромным количеством слабых статей, которые просто перефразируют методы 1960-х или 1980-х годов и успешно принимаются на конференции. Этому способствует ряд факторов:

Клановость и закрытость ML-конференций (авторы публикуются только внутри своего круга, игнорируя журналы по оптимизации и управлению, где лежит суть их математики).
Некомпетентность рецензентов в рамках открытого рецензирования (Open Review), которые оценивают лишь формальную корректность текста, а не реальную новизну метода.
Катастрофическая культура цитирования (авторы цитируют только себя или коллег за последние пару лет, иногда вставляя одну ссылку на Коши, Ньютона или Фурье, образуя столетний провал в истории науки).
«Математизированность» (mathiness) — огромные стены формул, доказывающие эзотерические условия для градиентов или якобианов под вымышленными предпосылками, которые полностью нарушаются при первом же запуске на невыпуклых архитектурах глубокого обучения.

💼 Механизмы стагнации: почему корпорации спонсируют этот процесс 17:10

Мэттью Салварис, подключившийся к беседе в качестве приглашенного интервьюера, отметил, что статья Саруфима мгновенно резонирует с каждым, кто работает в индустрии, поскольку сжимает в емкие мемы то, о чем все знают, но боятся сказать вслух.

Комментируя причины происходящего, Марк Саруфим указал на парадокс богатства. Исторически академическая среда функционировала как защита от падения (downside hedge) — ученый не рисковал оказаться на улице, если его безумная идея не работала, но в случае успеха получал признание. Сегодня же, благодаря коммерческому буму ИИ, средний исследователь стал весьма состоятельным человеком. Физики и биологи массово уходят в ML из-за огромных зарплат. По мнению Марка, имея гарантированную финансовую безопасность, ученые получили бы уникальную возможность идти на колоссальные риски, но вместо этого они придумывают оправдания, почему не могут этого сделать, стремясь лишь к сохранению своего высокого дохода.

На вопрос Мэттью Салвариса о том, почему технологические гиганты вроде Google, Facebook и Microsoft продолжают спонсировать эту неэффективную систему, Марк ответил, что инкрементальные улучшения финансово выгодны бизнесу. Компании уровня Intel или AMD успешно зарабатывают миллиарды, просто делая свои процессоры на несколько процентов лучше каждый год; им не нужны ежемесячные прорывы. Кроме того, в корпорациях действуют жесткие индивидуальные стимулы: сотрудники оцениваются раз в квартал или год, они хотят повышения, статуса и признания коллег. Инкрементальное исследование гарантирует предсказуемый результат, в то время как радикальный эксперимент с высокой долей вероятности приведет к увольнению.

Мэттью Салварис добавил, что корпоративные исследовательские лаборатории просто скопировали академическую систему оценки — количество публикаций и индекс цитирования. Поэтому молодые ученые внутри корпораций вынуждены играть по тем же правилам. Ситуация усугубляется практикой оборонительного найма. Компании нанимают сильных специалистов и платят им огромные деньги не ради создания прорывных продуктов, а просто ради того, чтобы они не достались конкурентам. В качестве иллюстрации Тим Скарф рассказал, что им с Янником недавно предлагали работу по воссозданию аналога GPT-3/4 со стартовым окладом около миллиона долларов в год, однако они отказались из-за понимания технологических ограничений подобных моделей.

🥊 Границы масштабирования и опыт Dota-ботов 51:08

Тим Скарф попытался частично защитить SOTA-гонку, отметив, что масштабные модели вроде GPT-3 и DALL-E от OpenAI демонстрируют действительно поразительные результаты, которые многие эксперты начинают искренне называть проявлением интеллекта. Визуализация в DALL-E, генерирующая несуществующие в реальности объекты (вроде улитки-гамбургера или кресла-авокадо), доказывает, что нейросети способны на сложные обобщения.

Марк Саруфим согласился, что масштаб творит магию, сославшись на «горький урок» Ричарда Саттона: методы, которые лучше всего масштабируются за счет вычислений, в конечном итоге побеждают любые сложные экспертные правила. Марк поделился личным опытом игры против ботов OpenAI в Dota 2. Будучи заядлым игроком, он чувствовал себя абсолютно разгромленным, поскольку алгоритм раз за разом переигрывал его на микро- и макроуровнях, манипулируя поведением и заставляя совершать ошибки. Боты OpenAI смогли дважды победить действующих чемпионов мира — команду OG, и были уязвимы лишь для специфических эксплойтов после того, как модель открыли для тысяч игроков.

Тем не менее, по мнению Марка, масштабирование — это тривиальная с научной точки зрения задача. Это сложнейшая инженерная и операционная проблема (Ops), в решении которой сильна именно индустрия, умеющая строить конвейеры и оптимизировать инфраструктуру, но академической науке там делать нечего.

Мэттью Салварис провел аналогию со StarCraft II и ботом AlphaStar. По словам Мэттью, несмотря на впечатляющие стратегии, AlphaStar так и не смог на равных конкурировать с топовыми южнокорейскими киберспортсменами без искусственных преимуществ вроде сверхчеловеческой скорости реакции (APM) и идеальной точности управления юнитами. Когда эти параметры искусственно ограничили, профессиональные игроки быстро нашли уязвимости в логике алгоритма, не оставив машине шансов.

🏋️‍♂️ «Стратегия штанги» и контент как спасение для ученых 1:02:11

В качестве практического решения для исследователей Марк Саруфим предлагает использовать «стратегию штанги» Нассима Талеба. Ее суть заключается в грамотном распределении рисков:

Тратить около 70% своего рабочего времени на выполнение того, чего требует рынок (инкрементальные исследования, BERT-инженерия, коммерческие проекты), обеспечивая себе высокий стабильный доход и безопасность.
Оставшиеся 30% времени инвестировать в абсолютно безумные, высокорисковые и спекулятивные проекты, которые действительно интересны исследователю.

Марк подчеркивает важность создания подушки безопасности в начале карьеры. Молодым и небогатым специалистам он прямо рекомендует идти работать в Google, зарабатывать деньги и формировать финансовый тыл, а уже затем использовать эту свободу для настоящей науки.

Для аспирантов и профессоров, находящихся за пределами элитарных ИИ-центров и обделенных вычислительными ресурсами, Марк видит единственный эффективный путь — превращение в индивидуальную медиа-компанию. По его мнению, если у вас нет доступа к кластерам, нужно начинать качественно структурировать, рецензировать и резюмировать чужую работу, выкладывая это в открытый доступ. Это позволяет обходить традиционные иерархии престижа. Саруфим приводит в пример открытый исходный код: такие библиотеки, как PyTorch, NumPy или язык Julia, держатся на плечах всего нескольких сотен преданных разработчиков по всему миру.

Интернет, как считает Марк, стер классические понятия нетворкинга и конференций; теперь это площадка, где увлеченные люди могут находить друг друга напрямую. Главное — избегать поведения, которое гость называет «LinkedIn-ботами» (люди без собственного мнения, репостящие только корпоративный пиар).

Марк поделился ценным лайфхаком, полученным от старшего коллеги во время работы в Microsoft: если вы хотите разобраться в сложной системе, нарисуйте заведомо неправильную архитектурную схему и покажите её коллегам. Из желания доказать вашу неправоту эксперты мгновенно укажут на все реальные ошибки и объяснят, как всё устроено на самом деле. Этот подход Саруфим успешно применил при написании статьи по лагранжевой механике, получив ценнейшие правки от профессиональных физиков со всего мира на Hacker News.

В заключение Марк дал совет тем, кто хочет выделиться: не нужно пытаться быть лучшим в одной узкой сфере, где вас гарантированно обойдут крупные игроки. Проще стать лучшим на стыке нескольких дисциплин — например, системного программирования, машинного обучения и качественного литературного текста с элементами сатиры.