Янник Кильхер об обучении нейросетей: «XLNet стоит как пять аспирантов»

Исследователь в области машинного обучения Янник Кильхер вместе со своим гостем Антонио провели первый пилотный выпуск обзора мемов, посвященных глубокому обучению. В ходе юмористического разбора авторы затронули как вечные проблемы индустрии ИИ вроде переобучения моделей и манипуляций со случайными сидами, так и реальные технологические боли — от дороговизны обучения нейросетей до нелепых ошибок современных голосовых ассистентов. Такой неформальный подход позволил экспертам без лишнего академизма взглянуть на повседневную жизнь дата-сайентистов и суровые реалии современного научного поиска.

🧓 Стресс исследователей и «большие» градиенты 0:43

Первый же мем коснулся темы психологического состояния научных сотрудников в ИИ-сфере. Картинка с ироничной подписью «Быть исследователем в области глубокого обучения совсем не стрессово» демонстрирует глубоко состарившегося человека, что вызвало искренний смех у авторов. Янник Кильхер в шутку отметил, что всегда знал, к чему приводит эта работа, добавив, что в этой сфере, вопреки расхожему мнению, «никогда не было зимы ИИ».

Далее собеседники перешли к обсуждению математических парадоксов в обучении моделей. На примере шутки о «большом мозге» и огромных градиентах они разобрали, почему исследователи иногда радуются масштабным изменениям шага оптимизации. По мнению Кильхера, большие градиенты привлекают ресерчеров, так как траектория обучения там кажется гораздо интереснее, чем в глубоких локальных минимумах. При этом реальные рабочие параметры шага зачастую оказываются ничтожно малыми, например, на уровне порядка $10^{-7}/4$. Вспоминая «старые добрые времена» библиотеки scikit-learn, авторы поиронизировали над современной модой усложнять терминологию и использовать множественное число для любых базовых понятий в ИИ.

💸 Битва титанов: BERT против дорогостоящего XLNet 2:09

Особое внимание в обзоре заняло сравнение популярных языковых моделей BERT и XLNet. Антонио пояснил, что архитектура XLNet представляет собой тот же BERT, но обученный по другой методике, из-за чего стоимость ее создания возрастает примерно в 10 раз.

По оценкам экспертов, которые привели ведущие, финансовые и энергетические затраты на обучение одной модели XLNet колоссальны:

Стоимость затраченной электроэнергии для обучения одной сети XLNet составляет порядка $200 000.
Прирост эффективности от таких колоссальных затрат составляет всего около 1% по сравнению с базовым BERT.

Янник Кильхер с иронией подсчитал, что сумма в 200 тысяч долларов эквивалентна бюджету на содержание пяти аспирантов (PhD-студентов). По его мнению, такая незначительная прибавка к точности заставляет задуматься о целесообразности подобных затрат, в шутку назвав XLNet «языковой моделью по цене самоката».

👥 Настоящее рецензирование: arXiv против Facebook 2:52

Обсуждая мем про поиск актуальной научной информации, Янник Кильхер и Антонио затронули тему кризиса традиционного рецензирования работ (peer review). Согласно шуточному алгоритму типичного дата-сайентиста, для поиска препринтов используется платформа arXiv, для поиска кода — GitHub, а для решения сложных технических вопросов — «случайные идиоты на Facebook».

Тем не менее, в этой шутке авторы усмотрели глубинную правду индустрии. Янник Кильхер согласился с тезисом, что сейчас намного проще опубликоваться на платформе arXiv и остаться незамеченным, поскольку ежедневный поток публикаций огромен. В то же время, по утверждению Антонио, настоящая жесткая критика и проверка гипотез происходят именно в тематических сообществах соцсетей. По его словам, если выложить слабую работу на хорошую мем-страницу про глубокое обучение в Facebook, автора моментально «разнесут в щепки» (get rekt), что фактически заменяет полноценный и строгий аудит качества модели.

🤖 Любовные чат-боты и «модные» датасеты 3:31

Развеселила авторов и реальная история об инженере, который разработал автоматического чат-бота для общения со своей девушкой, пока сам был сильно занят на работе. Проект провалился из-за слишком высокой скорости ответов алгоритма, что быстро вызвало у девушки подозрения. Как отметил Янник Кильхер, современные проблемы действительно требуют современных решений, но современные чат-боты пока выдают себя банальным отсутствием естественных задержек, типичных для человека при наборе текста.

Следом зашла речь о классическом датасете Fashion MNIST, созданном как более сложная альтернатива обычному MNIST с рукописными цифрами. Антонио сыронизировал над тем, как фэшн-компании пытаются продать людям то, что они «действительно хотят», противопоставив это пиксельным изображениям одежды из датасета. Ведущие сошлись во мнении, что решать задачи на Fashion MNIST слишком просто — высокая точность моделей там достигается без особого труда. В процессе обсуждения они также посмеялись над комиксом, метафорически описывающим поведение нейронов после применения популярного слоя Dropout («отсева»).

📺 Обучающие ролики Эндрю Ына вместо запретного контента 4:53

Одним из самых ярких моментов выпуска стал мем, сравнивающий чрезмерный просмотр туториалов по машинному обучению с зависимостью от взрослого контента. На картинке персонаж стыдливо пытается скрыть от близких, что тайно смотрит лекции знаменитого профессора Эндрю Ына (Andrew Ng) и пишет код на фреймворке Keras.

Янник Кильхер признался, что прекрасно понимает этот юмор. По его словам, лекции Эндрю Ына обладают настоящим терапевтическим эффектом:

Профессор всегда успокаивает студентов, говоря, что абсолютно нормально, если вы не понимаете всё до конца с первого раза.
Взрослый контент, напротив, устроен совершенно иначе — там, по шутливому замечанию Янника Кильхера, непонимание сюжета или контекста вообще не считается нормальным.

📈 Секреты точности: случайные сиды и суровая финансовая предсказательность 5:34

Авторы детально разобрали циничную, но правдивую практику подгонки результатов в научных статьях. Мем с шаблоном «работа небольшая, но честная» высмеивает бинарный классификатор, выдающий базовую точность всего в 51%. Чтобы спасти исследование и заявить об успехе нового метода, ресерчеры часто прибегают к перебору параметра random seed (случайного зерна), пока точность не поднимется до приемлемых, например, 52.00%. Янник Кильхер и Антонио подтвердили, что в академической среде этот трюк используется повсеместно.

Еще более жесткой критике со стороны ведущих подверглось применение глубокого обучения в сфере финансов. По мнению Янника Кильхера, большинство «продвинутых» нейросетевых методов в прогнозировании временных рядов на бирже создают лишь иллюзию эффективности. На самом деле лучшая стратегия предсказания стоимости актива на следующий шаг — это просто взять его текущее, последнее известное значение. Кильхер пошутил, что после осознания этого факта ему хочется сменить тему своей докторской диссертации (PhD), ведь сложные модели «работают» только потому, что неявно копируют предыдущую точку данных, выдавая это за глубокий анализ рынка.

🛠 Беспощадный MATLAB и вечная победа SGD 6:27

Не обошли стороной и классический инженерный софт MATLAB, в который разработчики добавили инструмент Deep Learning Toolbox. Они представили новые сетевые графы, заявив, что они работают практически как человеческий мозг. На этот счет Янник Кильхер отпустил язвительную ремарку, задавшись вопросом: может ли эта нейросеть наконец научить программу тому, как правильно полностью удалить сам MATLAB с компьютера.

Следом зашла речь о вечном противостоянии алгоритмов оптимизации. Исследователи постоянно разрабатывают новые продвинутые методы обучения, однако на практике обычный стохастический градиентный спуск (SGD) раз за разом оказывается эффективнее:

Ученые тратят месяцы на создание сложных адаптивных оптимизаторов.
Классический базовый метод SGD все равно побеждает их в финальных тестах точности.

Антонио и Янник Кильхер согласились, что оптимизация — это невероятно сложная математическая задача, и попытки перехитрить базовую математику часто разбиваются о стабильность и надежность SGD.

🏆 Капсульные сети Джеффри Хинтона и мечта о возвращении RNN 7:39

Ведущие вспомнили знаменитый мем «Я и пацаны на пути к получению премии Тюринга», на котором изображены создатели современных архитектур ИИ. Обсуждение плавно перешло на судьбу некогда популярных капсульных нейросетей (CapsNets), активно продвигавшихся Джеффри Хинтоном.

Антонио поинтересовался, каков текущий статус этой многообещающей технологии, разработанной несколько лет назад. Янник Кильхер объяснил суть концепции CapsNet:

Идея заключалась в абстрагировании визуальных концептов в отдельные группы нейронов — «капсулы».
Эти капсулы должны были динамически перенаправлять (маршрутизировать) информацию друг другу в зависимости от контекста задачи.

Тем не менее, оценивая реальные успехи CapsNet, Янник Кильхер констатировал, что технология работает лишь отчасти. Хотя заставить капсульные сети выполнять базовые задачи возможно, они так и не совершили революции и не смогли превзойти стандартные сверточные сети на сложных массивах данных.

В довершение темы архитектур авторы посмеялись над мемом про «нетрадиционные желания» дата-сайентистов, где вместо привычных современных видеокарт серий RTX герой мечтает о триумфальном возвращении эпохи рекуррентных нейросетей (RNN). На фоне тотального доминирования Трансформеров (Transformers) в обработке естественного языка, Янник Кильхер выразил надежду, что старые добрые архитектуры вроде LSTM еще вернутся в строй.

🤖 Восстание машин отменяется: тупость ассистентов и неуклюжие роботы 9:22

В финальной части выпуска блогеры высмеяли панику вокруг того, что искусственный интеллект вот-вот захватит мир и лишит людей рабочих мест. В качестве контраргумента они продемонстрировали пример работы стандартного голосового ассистента. На команду пользователя «запомни эту локацию» алгоритм буквально сохранил текстовую фразу «эту локацию» и при следующем запросе выдал бессмысленные результаты поиска из интернета. По мнению Янника Кильхера, глядя на такой уровень «интеллекта», человечеству пока точно не стоит переживать за свое будущее.

Последним роликом в обзоре стало видео симуляции робота, обучающегося подбирать мяч методами обучения с подкреплением (Reinforcement Learning). Эксперимент включал два сценария:

Обучение с использованием референсных движений человека. В этом случае робот успешно и плавно копирует технику и берет мяч.
Обучение «с нуля» (from scratch) без каких-либо подсказок. Во втором случае робот начинает совершать нелепые хаотичные движения, падать и буквально крушить все вокруг себя.

Антонио и Янник Кильхер сквозь смех заключили, что именно так и выглядит «грозная армия боевых роботов будущего», которая пока способна лишь нанести урон самой себе. На этой оптимистичной ноте ведущий завершил дебютный эпизод шоу, поблагодарив зрителей за просмотр.