Сара Хукер: «Мы строим лестницу на Луну, обучая гигантские нейросети»

В новом эпизоде подкаста Machine Learning Street Talk исследовательница Google Brain Сара Хукер (Sara Hooker) представляет концепцию «аппаратной лотереи», которая определяет успех или провал научных идей в области искусственного интеллекта. В ходе беседы участники обсуждают, почему современные нейросети стали слишком «прожорливыми», как сжатие моделей незаметно дискриминирует меньшинства и почему человеческий мозг на порядки эффективнее существующих графических процессоров.

🎰 Аппаратная лотерея: почему побеждают не лучшие идеи 3:39

Сара Хукер вводит термин «аппаратная лотерея» для описания инерции в научном мире. По её мнению, успех идеи в компьютерных науках часто зависит не от её внутренней ценности, а от совместимости с доступным на данный момент программным обеспечением и «железом» .

Ключевые тезисы концепции:

Историческая случайность: Современные компьютеры существуют менее ста лет. За это короткое время большинство прорывов случалось на стыке «правильная идея в правильное время», где «правильное время» — это наличие подходящей архитектуры процессоров .
Победа коннекционизма: Глубокое обучение (Deep Learning) долгое время находилось в упадке, так как центральные процессоры (CPU) плохо справлялись с параллелизацией матричных вычислений. Успех нейросетей в 2012 году стал возможен благодаря адаптации графических процессоров (GPU), изначально созданных для игровой индустрии .
Замкнутый круг: Сейчас исследователи «переобучены» под текущее железо. Мы создаем модели, которые хорошо работают на GPU/TPU, и тем самым игнорируем альтернативные подходы, требующие иной архитектуры .

Сара Хукер утверждает, что стоимость входа в разработку нового железа экстремально высока — от 85 до 130 миллионов долларов за цикл разработки длительностью 2–3 года . Это создает ситуацию, когда исследователи ИИ практически перестали влиять на дизайн оборудования, принимая существующие инструменты как данность.

📉 Лестница на Луну: кризис масштабирования 18:04

Обсуждая текущий тренд на увеличение количества параметров (например, GPT-3), Сара Хукер выражает серьезное беспокойство. По её мнению, отрасль движется к «обрыву» .

Аргументы против бесконечного масштабирования:

Экономическая нецелесообразность: Обучение GPT-3 стоило примерно 12 миллионов долларов за один запуск . По словам Хукер, это напоминает «постройку лестницы на Луну» — мы надеемся достичь новых высот, просто добавляя ступеньки к старой конструкции.
Биологический контраргумент: Человеческий мозг весит около 1400 граммов, содержит 85 миллиардов нейронов и потребляет энергию, сопоставимую с мощностью электробритвы (около 20 Вт) . В то же время обучение одной крупной модели ИИ потребляет энергию, эквивалентную тысячам авиаперелетов .
Локальные vs Глобальные обновления: Нынешние нейросети полагаются на глобальные обновления весов (backpropagation), что требует огромной памяти. Мозг же использует локальные сигналы, которые гораздо эффективнее с точки зрения энергозатрат .

Сара делает «дерзкую ставку»: подход Рича Саттона (Rich Sutton), описанный в эссе «Горький урок» (The Bitter Lesson), который призывает полагаться только на вычислительные мощности, в долгосрочной перспективе проиграет .

✂️ Прореживание моделей и «забывание» редких данных 21:48

Важной частью работы Сары Хукер является исследование сжатия моделей (pruning и quantization). В теории сжатие позволяет запускать нейросети на смартфонах и в условиях ограниченных ресурсов, что критически важно для развивающихся стран (Сара выросла в Африке и часто апеллирует к этому опыту) .

Однако исследование Хукер «Характеристика и смягчение предвзятости в компактных моделях» выявило скрытую проблему:

Эффект «длинного хвоста»: При удалении 90% весов модель сохраняет общую точность на тестовом наборе, но резко теряет качество на редких примерах из «длинного хвоста» распределения .
Скрытая дискриминация: Если в обучающей выборке какая-то группа людей (например, «блондины-мужчины» в датасете CelebA) представлена редко, сжатая модель «забудет», как их распознавать, в первую очередь .
Модель как частотный счетчик: Параметрические модели склонны запоминать то, что встречается часто, и игнорировать редкие случаи при дефиците емкости .

Хукер полагает, что мы тратим большую часть параметров современных нейросетей именно на «зубрежку» редких примеров . Вместо того чтобы просто увеличивать модель, она предлагает пересмотреть процесс обучения, чтобы уделять «длинному хвосту» больше внимания без раздувания весов .

🔍 Проблема интерпретируемости и «слепые» методы 1:05:53

Обсуждая вопрос о том, как понять логику работы ИИ, Сара Хукер критикует популярные методы «карт важности» (saliency maps). В её работе «Бенчмарк для методов интерпретируемости» доказано, что многие из них выдают оценки, которые не лучше случайного угадывания .

Её предложения по улучшению интерпретируемости:

Уход от единичных объяснений: Пытаться объяснить решение модели для одной картинки — тупиковый путь. Человеку проще понимать относительные различия .
Автоматическое выделение «срезов»: Вместо карт важности Сара предлагает алгоритмы, которые сами находят группы (срезы) данных, на которых модель ошибается чаще всего .
Отказ от жестких категорий: Поскольку социальные определения (например, раса или гендер) текучи и меняются со временем, инструменты аудита ИИ не должны жестко кодировать эти предпочтения, а должны уметь подсвечивать любые аномалии в границах принятия решений .

🇨🇦 Геополитика ИИ: почему Канада выиграла «зиму» 49:20

Интересным аспектом дискуссии стала роль государственной политики в развитии технологий. Сара отмечает, что лидерство Канады в современном ИИ (школы Торонто и Монреаля) — это результат стратегического решения правительства .

ИИ-зима: В 1970–1980-х годах США (через DARPA) и Великобритания практически прекратили финансирование нейросетей .
Канадское упорство: Канада была единственной страной, которая последовательно финансировала исследования ИИ на протяжении десятилетий «зимы». В результате большинство нынешних топ-менеджеров и ученых в области глубокого обучения вышли именно из канадской академической среды .

Сара Хукер подытоживает, что технологический прогресс — это не только алгоритмы, но и национальные стратегии, определяющие, во что вкладывать деньги на горизонте 20–30 лет .