Uber меняет XGBoost на Deep Learning, а MuZero берется за сжатие YouTube: главные новости ML

В новом выпуске ML News Янник Кильхер (Yannic Kilcher) разбирает ключевые технологические сдвиги: от перехода Uber на глубокое обучение для предсказания времени прибытия до выхода алгоритма MuZero за пределы игр в сферу сжатия видео. В центре внимания — масштабируемость нейросетей, их адаптация под конкретное «железо» и создание цифровых копий целых городских кварталов.

🚗 Uber меняет XGBoost на глубокое обучение 2:10

Компания Uber, чей бизнес охватывает поездки, доставку еды и посылок, радикально обновила систему прогнозирования ожидаемого времени прибытия (ETA). Ранее для этих целей использовалась модель градиентного бустинга XGBoost, однако с ростом объемов данных и требований к точности в разных локациях она перестала масштабироваться.

Вместо прямой попытки предсказать время прибытия «с нуля», инженеры Uber внедрили иерархический подход. Существующая система маршрутизации (аналог Google Maps) выдает базовую оценку, анализируя участки пути и трафик. Модель глубокого обучения на базе архитектуры Transformer получает на вход квантованные признаки (дискретные и непрерывные) и предсказывает резидуал — величину отклонения от базового прогноза.

Янник Кильхер отмечает несколько технических особенностей системы:

Асимметричная функция потерь (Asymmetric Huber Loss): Инженеры исходят из бизнес-логики, согласно которой опоздание на одну минуту гораздо хуже для пользователя, чем прибытие на минуту раньше.
Хеширование местоположения: Модель должна понимать 2D-структуру города, поэтому координаты обрабатываются специальным алгоритмом, позволяющим балансировать между точностью и объемом хранимых данных.
Производительность: Несмотря на сложность нейросети, время отклика (inference) составляет миллисекунды.

По мнению ведущего, подход с предсказанием «остатка» (residual) поверх эвристики — это недооцененный метод, который стоит использовать чаще вместо попыток построить полностью сквозные (end-to-end) модели.

📹 MuZero: из шахмат в сжатие видео на YouTube 5:44

DeepMind сделала важный шаг в коммерциализации своего алгоритма MuZero. В отличие от AlphaZero, которому требовался симулятор (например, правила шахмат), MuZero строит скрытую (latent) модель среды, что позволяет применять его в реальном мире, где четких правил «симулятора» нет.

Первым практическим применением стало сжатие видео. В современных кодеках (например, VP9) есть параметр квантования (QP), который определяет степень сжатия кадра. Сейчас он управляется инженерными эвристиками. MuZero же рассматривает это как задачу последовательного принятия решений:

Алгоритм анализирует последовательность кадров.
Для статичных сцен (например, говорящая голова на зеленом фоне) MuZero максимально увеличивает сжатие.
Для динамичных сцен алгоритм снижает сжатие, чтобы сохранить детализацию.

Результаты внедрения показывают экономию битрейта на 4,7% при сохранении визуального качества. Янник Кильхер подчеркивает, что, хотя цифра кажется небольшой, в масштабах глобального интернет-трафика, большую часть которого составляет видеостриминг, это колоссальная экономия ресурсов инфраструктуры.

🏙️ Block-NeRF: города в 3D 12:45

Исследователи из UC Berkeley, Waymo и Google Research представили проект Block-NeRF. Это развитие технологии Neural Radiance Fields (NeRF), которая позволяет создавать фотореалистичные 3D-представления объектов на основе набора фотографий.

Главное новшество Block-NeRF — масштаб. Система способна реконструировать целые городские кварталы, объединяя множество отдельных NeRF-сцен в единое пространство. Данные собирались с автомобилей Waymo в течение длительного времени. Система умеет «сшивать» фрагменты так, что пользователь может свободно перемещаться по цифровому городу, причем камера не ограничена траекторией движения автомобиля.

⚡ EfficientNet-X и критика метрики FLOPs 14:18

Google AI представила семейство моделей EfficientNet-X, разработанное с помощью поиска нейронных архитектур (NAS), учитывающего особенности «железа» (TPU и GPU).

Основной вывод исследования: традиционная метрика FLOPs (количество операций с плавающей точкой) — плохой показатель реальной скорости работы модели.

Модель EfficientNet-X требует в два раза больше FLOPs, чем оригинальный EfficientNet.
При этом на целевом оборудовании она работает в два раза быстрее.

Это происходит благодаря оптимизации доступа к памяти и более эффективному использованию вычислительных блоков ускорителей. По словам Кильхера, ошибка при оценке производительности через FLOPs в данном случае достигает 400%, что заставляет полностью пересмотреть подходы к проектированию нейросетей.

🧪 Альтернативный ИИ: самоорганизация и жизнь 16:54

Команда Flower представила проект Lenia — исследование в области искусственной жизни и клеточных автоматов. В отличие от классического обучения с учителем, здесь нет централизованного управления. Жизненные формы в Lenia самоорганизуются, умеют обходить препятствия и взаимодействовать друг с другом без «топ-даун» контроля со стороны алгоритма. Ведущий рекомендует этот проект всем, кто устал от мейнстримного глубокого обучения и ищет вдохновения в биологических системах.

🛠️ Инструменты и обновления недели 18:43

В завершение выпуска Янник Кильхер перечислил ряд полезных релизов:

Know Your Data: Инструмент от команды TensorFlow для анализа датасетов. Позволяет находить ошибки, предвзятость (bias) и фильтровать изображения по метаданным (например, по геолокации или наличию лиц).
OpenAI CLIP: В открытый доступ выложены веса самых больших моделей CLIP.
Neural Differential Equations: Патрик Киджер опубликовал свою докторскую диссертацию, которая фактически является учебником по нейронным дифференциальным уравнениям.
DIAMBRA: Окружение для обучения с подкреплением на базе файтингов (Street Fighter, Tekken), где агенты могут сражаться друг с другом.
Gym: Популярная библиотека для RL спустя годы наконец-то получила полноценную документацию благодаря усилиям сообщества и разработчика JK Terry.