Сара Хукер: «Мы строим лестницу на Луну, обучая гигантские нейросети»

Machine Learning Street Talk 5,6 тыс. 1 ч 19 мин 4 мин 20.10.2020
Главное

В новом эпизоде подкаста Machine Learning Street Talk исследовательница Google Brain Сара Хукер (Sara Hooker) представляет концепцию «аппаратной лотереи», которая определяет успех или провал научных идей в области искусственного интеллекта. В ходе беседы участники обсуждают, почему современные нейросети стали слишком «прожорливыми», как сжатие моделей незаметно дискриминирует меньшинства и почему человеческий мозг на порядки эффективнее существующих графических процессоров.

🎰 Аппаратная лотерея: почему побеждают не лучшие идеи 3:39

Сара Хукер вводит термин «аппаратная лотерея» для описания инерции в научном мире. По её мнению, успех идеи в компьютерных науках часто зависит не от её внутренней ценности, а от совместимости с доступным на данный момент программным обеспечением и «железом» .

Ключевые тезисы концепции:

Сара Хукер утверждает, что стоимость входа в разработку нового железа экстремально высока — от 85 до 130 миллионов долларов за цикл разработки длительностью 2–3 года . Это создает ситуацию, когда исследователи ИИ практически перестали влиять на дизайн оборудования, принимая существующие инструменты как данность.

📉 Лестница на Луну: кризис масштабирования 18:04

Обсуждая текущий тренд на увеличение количества параметров (например, GPT-3), Сара Хукер выражает серьезное беспокойство. По её мнению, отрасль движется к «обрыву» .

Аргументы против бесконечного масштабирования:

  1. Экономическая нецелесообразность: Обучение GPT-3 стоило примерно 12 миллионов долларов за один запуск . По словам Хукер, это напоминает «постройку лестницы на Луну» — мы надеемся достичь новых высот, просто добавляя ступеньки к старой конструкции.
  2. Биологический контраргумент: Человеческий мозг весит около 1400 граммов, содержит 85 миллиардов нейронов и потребляет энергию, сопоставимую с мощностью электробритвы (около 20 Вт) . В то же время обучение одной крупной модели ИИ потребляет энергию, эквивалентную тысячам авиаперелетов .
  3. Локальные vs Глобальные обновления: Нынешние нейросети полагаются на глобальные обновления весов (backpropagation), что требует огромной памяти. Мозг же использует локальные сигналы, которые гораздо эффективнее с точки зрения энергозатрат .

Сара делает «дерзкую ставку»: подход Рича Саттона (Rich Sutton), описанный в эссе «Горький урок» (The Bitter Lesson), который призывает полагаться только на вычислительные мощности, в долгосрочной перспективе проиграет .

✂️ Прореживание моделей и «забывание» редких данных 21:48

Важной частью работы Сары Хукер является исследование сжатия моделей (pruning и quantization). В теории сжатие позволяет запускать нейросети на смартфонах и в условиях ограниченных ресурсов, что критически важно для развивающихся стран (Сара выросла в Африке и часто апеллирует к этому опыту) .

Однако исследование Хукер «Характеристика и смягчение предвзятости в компактных моделях» выявило скрытую проблему:

Хукер полагает, что мы тратим большую часть параметров современных нейросетей именно на «зубрежку» редких примеров . Вместо того чтобы просто увеличивать модель, она предлагает пересмотреть процесс обучения, чтобы уделять «длинному хвосту» больше внимания без раздувания весов .

🔍 Проблема интерпретируемости и «слепые» методы 1:05:53

Обсуждая вопрос о том, как понять логику работы ИИ, Сара Хукер критикует популярные методы «карт важности» (saliency maps). В её работе «Бенчмарк для методов интерпретируемости» доказано, что многие из них выдают оценки, которые не лучше случайного угадывания .

Её предложения по улучшению интерпретируемости:

  1. Уход от единичных объяснений: Пытаться объяснить решение модели для одной картинки — тупиковый путь. Человеку проще понимать относительные различия .
  2. Автоматическое выделение «срезов»: Вместо карт важности Сара предлагает алгоритмы, которые сами находят группы (срезы) данных, на которых модель ошибается чаще всего .
  3. Отказ от жестких категорий: Поскольку социальные определения (например, раса или гендер) текучи и меняются со временем, инструменты аудита ИИ не должны жестко кодировать эти предпочтения, а должны уметь подсвечивать любые аномалии в границах принятия решений .

🇨🇦 Геополитика ИИ: почему Канада выиграла «зиму» 49:20

Интересным аспектом дискуссии стала роль государственной политики в развитии технологий. Сара отмечает, что лидерство Канады в современном ИИ (школы Торонто и Монреаля) — это результат стратегического решения правительства .

Сара Хукер подытоживает, что технологический прогресс — это не только алгоритмы, но и национальные стратегии, определяющие, во что вкладывать деньги на горизонте 20–30 лет .


💬 Цитаты

«Мы строим лестницу на Луну. Мы используем тысячи авиаперелетов энергии, чтобы обучить одну модель, в то время как мозг работает на мощности электробритвы.»

Сара Хукер 32:38

«Аппаратная лотерея — это инерция. Это всё то, кроме ценности самой идеи, что может усилить её или отбросить назад.»

Сара Хукер 03:52
👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Hardware Lottery
Термин, описывающий ситуацию, когда успех научной идеи определяется наличием подходящего оборудования, а не качеством самой идеи.
Pruning (прореживание)
Метод сжатия нейросети путем удаления из неё наименее важных весов.
Saliency maps
Визуализация, показывающая, на какие пиксели изображения нейросеть обращала больше всего внимания при принятии решения.
Sparsity (разреженность)
Свойство моделей или матриц, в которых большинство элементов равны нулю, что позволяет экономить память.
📊 Цифры
🗓 Хронология
  1. 1969 Начало активного продвижения универсального железа (CPU), которое не подходило для нейросетей.
  2. 1970-е Прекращение финансирования ИИ в США (DARPA) и Великобритании, начало ИИ-зимы.
  3. 2012 Прорыв глубокого обучения благодаря использованию GPU и появлению больших датасетов (ImageNet).
  4. 2017 OpenAI предложила блочно-разреженные матрицы, которые до сих пор плохо поддерживаются железом.
  5. 2020 Выход GPT-3 и осознание огромных затрат на обучение гигантских моделей.
⚖️ Другая сторона
Искусственный интеллект Сара Хукер Hardware Lottery Google Brain Machine Learning Street Talk Sparsity