# Сара Хукер: «Мы строим лестницу на Луну, обучая гигантские нейросети»

Источник: https://www.youtube.com/watch?v=sQFxbQ7ade0
Канал: Machine Learning Street Talk
Опубликовано: 20.10.2020

---

В новом эпизоде подкаста Machine Learning Street Talk исследовательница Google Brain Сара Хукер (Sara Hooker) представляет концепцию «аппаратной лотереи», которая определяет успех или провал научных идей в области искусственного интеллекта. В ходе беседы участники обсуждают, почему современные нейросети стали слишком «прожорливыми», как сжатие моделей незаметно дискриминирует меньшинства и почему человеческий мозг на порядки эффективнее существующих графических процессоров.

## 🎰 Аппаратная лотерея: почему побеждают не лучшие идеи
[[JUMP:03:39]]

Сара Хукер вводит термин «аппаратная лотерея» для описания инерции в научном мире. По её мнению, успех идеи в компьютерных науках часто зависит не от её внутренней ценности, а от совместимости с доступным на данный момент программным обеспечением и «железом» [03:52]. 

Ключевые тезисы концепции:

*   **Историческая случайность:** Современные компьютеры существуют менее ста лет. За это короткое время большинство прорывов случалось на стыке «правильная идея в правильное время», где «правильное время» — это наличие подходящей архитектуры процессоров [04:20].
*   **Победа коннекционизма:** Глубокое обучение (Deep Learning) долгое время находилось в упадке, так как центральные процессоры (CPU) плохо справлялись с параллелизацией матричных вычислений. Успех нейросетей в 2012 году стал возможен благодаря адаптации графических процессоров (GPU), изначально созданных для игровой индустрии [07:53].
*   **Замкнутый круг:** Сейчас исследователи «переобучены» под текущее железо. Мы создаем модели, которые хорошо работают на GPU/TPU, и тем самым игнорируем альтернативные подходы, требующие иной архитектуры [09:12].

Сара Хукер утверждает, что стоимость входа в разработку нового железа экстремально высока — от 85 до 130 миллионов долларов за цикл разработки длительностью 2–3 года [14:09]. Это создает ситуацию, когда исследователи ИИ практически перестали влиять на дизайн оборудования, принимая существующие инструменты как данность.

## 📉 Лестница на Луну: кризис масштабирования
[[JUMP:18:04]]

Обсуждая текущий тренд на увеличение количества параметров (например, GPT-3), Сара Хукер выражает серьезное беспокойство. По её мнению, отрасль движется к «обрыву» [19:10].

Аргументы против бесконечного масштабирования:

1.  **Экономическая нецелесообразность:** Обучение GPT-3 стоило примерно 12 миллионов долларов за один запуск [21:33]. По словам Хукер, это напоминает «постройку лестницы на Луну» — мы надеемся достичь новых высот, просто добавляя ступеньки к старой конструкции.
2.  **Биологический контраргумент:** Человеческий мозг весит около 1400 граммов, содержит 85 миллиардов нейронов и потребляет энергию, сопоставимую с мощностью электробритвы (около 20 Вт) [31:30]. В то же время обучение одной крупной модели ИИ потребляет энергию, эквивалентную тысячам авиаперелетов [32:25].
3.  **Локальные vs Глобальные обновления:** Нынешние нейросети полагаются на глобальные обновления весов (backpropagation), что требует огромной памяти. Мозг же использует локальные сигналы, которые гораздо эффективнее с точки зрения энергозатрат [31:44].

Сара делает «дерзкую ставку»: подход Рича Саттона (Rich Sutton), описанный в эссе «Горький урок» (The Bitter Lesson), который призывает полагаться только на вычислительные мощности, в долгосрочной перспективе проиграет [32:38].

## ✂️ Прореживание моделей и «забывание» редких данных
[[JUMP:21:48]]

Важной частью работы Сары Хукер является исследование сжатия моделей (pruning и quantization). В теории сжатие позволяет запускать нейросети на смартфонах и в условиях ограниченных ресурсов, что критически важно для развивающихся стран (Сара выросла в Африке и часто апеллирует к этому опыту) [23:43].

Однако исследование Хукер «Характеристика и смягчение предвзятости в компактных моделях» выявило скрытую проблему:

*   **Эффект «длинного хвоста»:** При удалении 90% весов модель сохраняет общую точность на тестовом наборе, но резко теряет качество на редких примерах из «длинного хвоста» распределения [26:12].
*   **Скрытая дискриминация:** Если в обучающей выборке какая-то группа людей (например, «блондины-мужчины» в датасете CelebA) представлена редко, сжатая модель «забудет», как их распознавать, в первую очередь [23:36].
*   **Модель как частотный счетчик:** Параметрические модели склонны запоминать то, что встречается часто, и игнорировать редкие случаи при дефиците емкости [58:35].

Хукер полагает, что мы тратим большую часть параметров современных нейросетей именно на «зубрежку» редких примеров [26:39]. Вместо того чтобы просто увеличивать модель, она предлагает пересмотреть процесс обучения, чтобы уделять «длинному хвосту» больше внимания без раздувания весов [27:35].

## 🔍 Проблема интерпретируемости и «слепые» методы
[[JUMP:1:05:53]]

Обсуждая вопрос о том, как понять логику работы ИИ, Сара Хукер критикует популярные методы «карт важности» (saliency maps). В её работе «Бенчмарк для методов интерпретируемости» доказано, что многие из них выдают оценки, которые не лучше случайного угадывания [02:22].

Её предложения по улучшению интерпретируемости:

1.  **Уход от единичных объяснений:** Пытаться объяснить решение модели для одной картинки — тупиковый путь. Человеку проще понимать относительные различия [1:07:36].
2.  **Автоматическое выделение «срезов»:** Вместо карт важности Сара предлагает алгоритмы, которые сами находят группы (срезы) данных, на которых модель ошибается чаще всего [1:08:43].
3.  **Отказ от жестких категорий:** Поскольку социальные определения (например, раса или гендер) текучи и меняются со временем, инструменты аудита ИИ не должны жестко кодировать эти предпочтения, а должны уметь подсвечивать любые аномалии в границах принятия решений [1:13:23].

## 🇨🇦 Геополитика ИИ: почему Канада выиграла «зиму»
[[JUMP:49:20]]

Интересным аспектом дискуссии стала роль государственной политики в развитии технологий. Сара отмечает, что лидерство Канады в современном ИИ (школы Торонто и Монреаля) — это результат стратегического решения правительства [49:33].

*   **ИИ-зима:** В 1970–1980-х годах США (через DARPA) и Великобритания практически прекратили финансирование нейросетей [49:59].
*   **Канадское упорство:** Канада была единственной страной, которая последовательно финансировала исследования ИИ на протяжении десятилетий «зимы». В результате большинство нынешних топ-менеджеров и ученых в области глубокого обучения вышли именно из канадской академической среды [49:33].

Сара Хукер подытоживает, что технологический прогресс — это не только алгоритмы, но и национальные стратегии, определяющие, во что вкладывать деньги на горизонте 20–30 лет [50:52].

---