В новом выпуске ML News Янник Кильхер (Yannic Kilcher) разбирает ключевые технологические сдвиги: от перехода Uber на глубокое обучение для предсказания времени прибытия до выхода алгоритма MuZero за пределы игр в сферу сжатия видео. В центре внимания — масштабируемость нейросетей, их адаптация под конкретное «железо» и создание цифровых копий целых городских кварталов.
🚗 Uber меняет XGBoost на глубокое обучение 2:10
Компания Uber, чей бизнес охватывает поездки, доставку еды и посылок, радикально обновила систему прогнозирования ожидаемого времени прибытия (ETA). Ранее для этих целей использовалась модель градиентного бустинга XGBoost, однако с ростом объемов данных и требований к точности в разных локациях она перестала масштабироваться.
Вместо прямой попытки предсказать время прибытия «с нуля», инженеры Uber внедрили иерархический подход. Существующая система маршрутизации (аналог Google Maps) выдает базовую оценку, анализируя участки пути и трафик. Модель глубокого обучения на базе архитектуры Transformer получает на вход квантованные признаки (дискретные и непрерывные) и предсказывает резидуал — величину отклонения от базового прогноза.
Янник Кильхер отмечает несколько технических особенностей системы:
- Асимметричная функция потерь (Asymmetric Huber Loss): Инженеры исходят из бизнес-логики, согласно которой опоздание на одну минуту гораздо хуже для пользователя, чем прибытие на минуту раньше.
- Хеширование местоположения: Модель должна понимать 2D-структуру города, поэтому координаты обрабатываются специальным алгоритмом, позволяющим балансировать между точностью и объемом хранимых данных.
- Производительность: Несмотря на сложность нейросети, время отклика (inference) составляет миллисекунды.
По мнению ведущего, подход с предсказанием «остатка» (residual) поверх эвристики — это недооцененный метод, который стоит использовать чаще вместо попыток построить полностью сквозные (end-to-end) модели.
📹 MuZero: из шахмат в сжатие видео на YouTube 5:44
DeepMind сделала важный шаг в коммерциализации своего алгоритма MuZero. В отличие от AlphaZero, которому требовался симулятор (например, правила шахмат), MuZero строит скрытую (latent) модель среды, что позволяет применять его в реальном мире, где четких правил «симулятора» нет.
Первым практическим применением стало сжатие видео. В современных кодеках (например, VP9) есть параметр квантования (QP), который определяет степень сжатия кадра. Сейчас он управляется инженерными эвристиками. MuZero же рассматривает это как задачу последовательного принятия решений:
- Алгоритм анализирует последовательность кадров.
- Для статичных сцен (например, говорящая голова на зеленом фоне) MuZero максимально увеличивает сжатие.
- Для динамичных сцен алгоритм снижает сжатие, чтобы сохранить детализацию.
Результаты внедрения показывают экономию битрейта на 4,7% при сохранении визуального качества. Янник Кильхер подчеркивает, что, хотя цифра кажется небольшой, в масштабах глобального интернет-трафика, большую часть которого составляет видеостриминг, это колоссальная экономия ресурсов инфраструктуры.
🏙️ Block-NeRF: города в 3D 12:45
Исследователи из UC Berkeley, Waymo и Google Research представили проект Block-NeRF. Это развитие технологии Neural Radiance Fields (NeRF), которая позволяет создавать фотореалистичные 3D-представления объектов на основе набора фотографий.
Главное новшество Block-NeRF — масштаб. Система способна реконструировать целые городские кварталы, объединяя множество отдельных NeRF-сцен в единое пространство. Данные собирались с автомобилей Waymo в течение длительного времени. Система умеет «сшивать» фрагменты так, что пользователь может свободно перемещаться по цифровому городу, причем камера не ограничена траекторией движения автомобиля.
⚡ EfficientNet-X и критика метрики FLOPs 14:18
Google AI представила семейство моделей EfficientNet-X, разработанное с помощью поиска нейронных архитектур (NAS), учитывающего особенности «железа» (TPU и GPU).
Основной вывод исследования: традиционная метрика FLOPs (количество операций с плавающей точкой) — плохой показатель реальной скорости работы модели.
- Модель EfficientNet-X требует в два раза больше FLOPs, чем оригинальный EfficientNet.
- При этом на целевом оборудовании она работает в два раза быстрее.
Это происходит благодаря оптимизации доступа к памяти и более эффективному использованию вычислительных блоков ускорителей. По словам Кильхера, ошибка при оценке производительности через FLOPs в данном случае достигает 400%, что заставляет полностью пересмотреть подходы к проектированию нейросетей.
🧪 Альтернативный ИИ: самоорганизация и жизнь 16:54
Команда Flower представила проект Lenia — исследование в области искусственной жизни и клеточных автоматов. В отличие от классического обучения с учителем, здесь нет централизованного управления. Жизненные формы в Lenia самоорганизуются, умеют обходить препятствия и взаимодействовать друг с другом без «топ-даун» контроля со стороны алгоритма. Ведущий рекомендует этот проект всем, кто устал от мейнстримного глубокого обучения и ищет вдохновения в биологических системах.
🛠️ Инструменты и обновления недели 18:43
В завершение выпуска Янник Кильхер перечислил ряд полезных релизов:
- Know Your Data: Инструмент от команды TensorFlow для анализа датасетов. Позволяет находить ошибки, предвзятость (bias) и фильтровать изображения по метаданным (например, по геолокации или наличию лиц).
- OpenAI CLIP: В открытый доступ выложены веса самых больших моделей CLIP.
- Neural Differential Equations: Патрик Киджер опубликовал свою докторскую диссертацию, которая фактически является учебником по нейронным дифференциальным уравнениям.
- DIAMBRA: Окружение для обучения с подкреплением на базе файтингов (Street Fighter, Tekken), где агенты могут сражаться друг с другом.
- Gym: Популярная библиотека для RL спустя годы наконец-то получила полноценную документацию благодаря усилиям сообщества и разработчика JK Terry.