Uber меняет XGBoost на Deep Learning, а MuZero берется за сжатие YouTube: главные новости ML

Yannic Kilcher 21,4 тыс. 26 мин 4 мин 18.02.2022
Главное

В новом выпуске ML News Янник Кильхер (Yannic Kilcher) разбирает ключевые технологические сдвиги: от перехода Uber на глубокое обучение для предсказания времени прибытия до выхода алгоритма MuZero за пределы игр в сферу сжатия видео. В центре внимания — масштабируемость нейросетей, их адаптация под конкретное «железо» и создание цифровых копий целых городских кварталов.


🚗 Uber меняет XGBoost на глубокое обучение 2:10

Компания Uber, чей бизнес охватывает поездки, доставку еды и посылок, радикально обновила систему прогнозирования ожидаемого времени прибытия (ETA). Ранее для этих целей использовалась модель градиентного бустинга XGBoost, однако с ростом объемов данных и требований к точности в разных локациях она перестала масштабироваться.

Вместо прямой попытки предсказать время прибытия «с нуля», инженеры Uber внедрили иерархический подход. Существующая система маршрутизации (аналог Google Maps) выдает базовую оценку, анализируя участки пути и трафик. Модель глубокого обучения на базе архитектуры Transformer получает на вход квантованные признаки (дискретные и непрерывные) и предсказывает резидуал — величину отклонения от базового прогноза.

Янник Кильхер отмечает несколько технических особенностей системы:

По мнению ведущего, подход с предсказанием «остатка» (residual) поверх эвристики — это недооцененный метод, который стоит использовать чаще вместо попыток построить полностью сквозные (end-to-end) модели.


📹 MuZero: из шахмат в сжатие видео на YouTube 5:44

DeepMind сделала важный шаг в коммерциализации своего алгоритма MuZero. В отличие от AlphaZero, которому требовался симулятор (например, правила шахмат), MuZero строит скрытую (latent) модель среды, что позволяет применять его в реальном мире, где четких правил «симулятора» нет.

Первым практическим применением стало сжатие видео. В современных кодеках (например, VP9) есть параметр квантования (QP), который определяет степень сжатия кадра. Сейчас он управляется инженерными эвристиками. MuZero же рассматривает это как задачу последовательного принятия решений:

  1. Алгоритм анализирует последовательность кадров.
  2. Для статичных сцен (например, говорящая голова на зеленом фоне) MuZero максимально увеличивает сжатие.
  3. Для динамичных сцен алгоритм снижает сжатие, чтобы сохранить детализацию.

Результаты внедрения показывают экономию битрейта на 4,7% при сохранении визуального качества. Янник Кильхер подчеркивает, что, хотя цифра кажется небольшой, в масштабах глобального интернет-трафика, большую часть которого составляет видеостриминг, это колоссальная экономия ресурсов инфраструктуры.


🏙️ Block-NeRF: города в 3D 12:45

Исследователи из UC Berkeley, Waymo и Google Research представили проект Block-NeRF. Это развитие технологии Neural Radiance Fields (NeRF), которая позволяет создавать фотореалистичные 3D-представления объектов на основе набора фотографий.

Главное новшество Block-NeRF — масштаб. Система способна реконструировать целые городские кварталы, объединяя множество отдельных NeRF-сцен в единое пространство. Данные собирались с автомобилей Waymo в течение длительного времени. Система умеет «сшивать» фрагменты так, что пользователь может свободно перемещаться по цифровому городу, причем камера не ограничена траекторией движения автомобиля.


⚡ EfficientNet-X и критика метрики FLOPs 14:18

Google AI представила семейство моделей EfficientNet-X, разработанное с помощью поиска нейронных архитектур (NAS), учитывающего особенности «железа» (TPU и GPU).

Основной вывод исследования: традиционная метрика FLOPs (количество операций с плавающей точкой) — плохой показатель реальной скорости работы модели.

Это происходит благодаря оптимизации доступа к памяти и более эффективному использованию вычислительных блоков ускорителей. По словам Кильхера, ошибка при оценке производительности через FLOPs в данном случае достигает 400%, что заставляет полностью пересмотреть подходы к проектированию нейросетей.


🧪 Альтернативный ИИ: самоорганизация и жизнь 16:54

Команда Flower представила проект Lenia — исследование в области искусственной жизни и клеточных автоматов. В отличие от классического обучения с учителем, здесь нет централизованного управления. Жизненные формы в Lenia самоорганизуются, умеют обходить препятствия и взаимодействовать друг с другом без «топ-даун» контроля со стороны алгоритма. Ведущий рекомендует этот проект всем, кто устал от мейнстримного глубокого обучения и ищет вдохновения в биологических системах.


🛠️ Инструменты и обновления недели 18:43

В завершение выпуска Янник Кильхер перечислил ряд полезных релизов:


💬 Цитаты

«Подход с предсказанием резидуала от базовой эвристики может быть гораздо более общим методом, чем мы привыкли видеть.»

Янник Кильхер 04:20

«4,7% экономии битрейта может показаться мелочью, но это гигантская цифра для перегруженной инфраструктуры интернета.»

Янник Кильхер 09:28
👥 Спикер
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
ETA (Estimated Time of Arrival)
Ожидаемое время прибытия объекта в точку назначения.
Резидуал (Residual)
Разница между реальным значением и предсказанием базовой модели.
Квантование (Quantization)
Процесс уменьшения точности представления данных для сжатия их объема.
FLOPs
Количество операций с плавающей точкой, мера вычислительной сложности алгоритма.
📊 Цифры
🗓 Хронология
  1. 2022 Выход статьи Uber о переходе на Deep Learning для ETA.
  2. 2022 DeepMind адаптирует MuZero для видеокодека VP9.
  3. Май 2022 Релиз документации для Gym после 5 месяцев поддержки сообществом.
⚖️ Другая сторона
Искусственный интеллект Uber MuZero Block-NeRF EfficientNet-X DeepMind