NVIDIA GTC'21, открытый симулятор MuJoCo и нейросети в Google Sheets

Yannic Kilcher 6,2 тыс. 26 мин 8 мин 29.10.2021
Главное

В новом выпуске новостей машинного обучения ведущий Янник Кильхер (Yannic Kilcher) разбирает ключевые события ИТ-индустрии, включая предстоящую конференцию NVIDIA GTC'21 и неожиданное решение DeepMind сделать физический симулятор MuJoCo полностью бесплатным. Также в обзоре представлены последние технологические новинки: от интеграции нейросетевых предсказаний формул в Google Sheets до масштабных обновлений популярных библиотек и курьезов с беспилотными автомобилями. Этот детальный разбор позволяет заглянуть в закулисье современного ИТ-бизнеса и прикладной науки.

🎮 NVIDIA GTC'21: Виртуальные аватары, технические сессии и розыгрыш RTX 3090 0:18

Конференция NVIDIA GTC запланирована на период с 8 по 11 ноября. Мероприятие выступает официальным спонсором этого выпуска новостей, в связи с чем Янник Кильхер подготовил версии видео как на английском, так и на немецком языках.

Конференция GTC представляет огромный интерес для всего сообщества машинного обучения, поскольку NVIDIA является ключевым игроком на рынке аппаратного обеспечения для ИИ, и ее технологические шаги определяют развитие индустрии. Программа включает выступления множества приглашенных спикеров, чьи доклады не связаны напрямую с коммерческими продуктами организатора. Доступ ко всем лекциям предоставляется бесплатно, однако пользователям необходима предварительная регистрация.

В рамках партнерства среди зрителей, зарегистрировавшихся по персональной ссылке ведущего, разыгрывается флагманская видеокарта NVIDIA RTX 3090. Кильхер иронизирует, что высокая частота кадров в секунду автоматически сделает любого покупателя лучшим геймером, однако карту можно крайне эффективно использовать и для задач глубокого обучения (Deep Learning) в перерывах между игровыми сессиями. По мнению ведущего, визуальная составляющая и графика в игре Cyberpunk были единственным удачным элементом данного проекта.

Особое внимание аудитории привлекает предстоящий главный доклад (keynote) генерального директора Дженсена Хуанга. На прошлой конференции разгорелся медийный скандал: выяснилось, что лишь 14 секунд из полуторачасовой презентации транслировался цифровой аватар Хуанга, созданный с помощью компьютерной графики, тогда как все остальное время выступал настоящий директор. Ведущий отмечает оригинальный маркетинговый ход компании: при использовании хэштега #GTC21 в социальной сети Twitter рядом автоматически появляется иконка в виде кожаной куртки, ставшей неизменной визитной карточкой главы NVIDIA.

Среди ожидаемых технологических анонсов Кильхер выделяет платформу NVIDIA Omniverse — мощный фреймворк для рендеринга в реальном времени, который ранее требовал дней вычислений на огромных мощностях. Всего на конференции заявлено более 500 сессий, из которых:

Помимо бесплатных лекций, в рамках GTC доступны платные практические воркшопы под руководством инструкторов. Там участников обучат созданию коммерческих приложений на базе архитектуры Transformer и фундаментальным основам ускоренной обработки данных.

🤖 Покупка и опенсорс MuJoCo: подарок от DeepMind для исследователей робототехники 6:08

Компания DeepMind официально приобрела робототехнический симулятор MuJoCo (Multi-Joint dynamics with Contact) и перевела его в статус проектов с открытым исходным кодом. Этот движок широко известен в академической среде благодаря своей способности точно и быстро моделировать сложные физические процессы.

В отличие от стандартных игровых движков, MuJoCo точно воспроизводит специфические физические эффекты, такие как гироскопический эффект в условиях нулевой гравитации, где ось вращения регулярно переворачивается на 180 градусов. Высокая скорость работы позволяет эффективно применять его в задачах обучения с подкреплением (Reinforcement Learning) и системах автоматического управления.

Основной проблемой MuJoCo ранее являлась высокая стоимость коммерческой лицензии. Это жестко ограничивало доступ для независимых исследователей и небольших университетских лабораторий.

Янник Кильхер предполагает, что шаг DeepMind по открытию исходного кода написанного на языке C симулятора может быть как отличным пиар-ходом, так и иметь иные внутренние корпоративные причины. Тем не менее, данное решение окажет мощное позитивное влияние на развитие сообщества continuous reinforcement learning, открыв доступ к передовым инструментам всем желающим. Ведущий подчеркивает, что ключевое достоинство MuJoCo заключается не в гиперреалистичной графике, а в математически точной симуляции взаимодействия между объектами.

⚡ Релиз PyTorch 1.10: графы CUDA и борьба с задержками вычислений 9:01

Сообщество разработчиков представило версию библиотеки PyTorch 1.10 с важными архитектурными оптимизациями. Ключевым нововведением стало внедрение поддержки графов CUDA (CUDA Graphs).

Ранее при выполнении последовательных операций на графическом процессоре (GPU) центральный процессор (CPU) должен был поочередно отправлять каждую команду — например, сначала матричное умножение, а затем сложение элементов. Это приводило к заметным задержкам (latency) из-за постоянной избыточной коммуникации между процессорами. Теперь благодаря поддержке CUDA Graphs центральный процессор может сформировать и отправить на GPU весь вычислительный граф целиком, что полностью исключает простои графического чипа в ожидании инструкций.

Другие важные обновления в релизе:

По мнению Кильхера, данные изменения значительно упрощают проведение экспериментов для научных сотрудников, позволяя им быстро тестировать новые гипотезы.

📊 Умные таблицы Google: искусственный интеллект предсказывает формулы в Spreadsheet 11:24

Компания Google успешно интегрировала в свой облачный сервис Spreadsheet технологию автоматического предсказания формул, основанную на научной работе «Spreadsheet Formula Prediction from Mixture of Context». Инструмент работает по принципу автодополнения (tab completion), знакомому пользователям по почтовому сервису Gmail или Google Docs: как только пользователь вводит знак равенства «=» в ячейке, система предлагает наиболее вероятную формулу, которую можно применить нажатием клавиши Tab.

Алгоритм учитывает широкий спектр контекстных данных:

Например, если в заголовке строки написано «Total» (Итого), система понимает, что требуется функция суммирования (SUM). Если же колонка называется «Percent Change» (Процентное изменение), нейросеть сгенерирует специфическую формулу расчета динамики показателей.

Техническая архитектура решения включает надежный кодировщик строк и столбцов (row and column-based encoder), механизмы skip connections и декодировщик на базе архитектуры LSTM. Янник Кильхер восхищен тем, как быстро теоретическое исследование превратилось в реальную продуктовую интеграцию, доступную каждому пользователю бесплатного сервиса Google Sheets, что происходит в индустрии достаточно редко.

👁️ Браузерный трекинг рук и Kaggle-соревнование Sartorius 14:07

Большую популярность на платформе Reddit завоевал открытый проект для распознавания жестов рук непосредственно в браузере. Система сфокусирована на определении конкретных жестов, таких как сжатие пальцев (pinch) или кулак.

Эти жесты привязаны к определенным действиям на веб-странице: например, сжатие позволяет рисовать на экране, а сжатие руки в кулак полностью очищает виртуальный холст. Несмотря на то, что при слишком быстрых движениях трекинг может кратковременно сбоить, инструмент работает крайне плавно, выдавая около 40 кадров в секунду (FPS) даже в условиях запущенной записи экрана через программу OBS на двух мониторах. Весь исходный код опубликован в открытом доступе на GitHub.

Параллельно на платформе Kaggle запущено масштабное соревнование по компьютерному зрению Sartorius Cell Instance Segmentation с призовым фондом в 75 000 долларов США. Участникам необходимо разработать модель сегментации клеток на изображениях, полученных методом фазово-контрастной микроскопии. Кильхер отмечает, что для некоторых типов клеток задача точного определения границ до сих пор остается нерешенной в биологической науке, поэтому лучшие алгоритмы участников найдут прямое практическое применение в живой медицине.

🛠️ Полезные ML-инструменты: от поиска багов в коде до синтеза данных 16:06

Ведущий представил подробную подборку полезных библиотек, выпущенных или получивших обновления за последнее время:

  1. ControlFlag: Система поиска аномалий в структурах управления программного обеспечения, обучающаяся в режиме self-supervised. Модель самостоятельно проанализировала огромные массивы исходного кода на GitHub без использования ручной разметки багов. Она выявляет нетипичные, редкие паттерны написания кода, которые могут сигнализировать об ошибках, утечках памяти или некорректных алгоритмах. На данный момент поддерживаются языки C и Verilog. Кильхер делает важное замечание: ControlFlag не сможет обнаружить те баги, которые программисты совершают массово, так как система посчитает такой шаблон «нормальным» и общепринятым.
  2. Salina: Легковесная библиотека от Facebook для моделирования последовательных агентов. Она позволяет гибко и просто описывать комплексные задачи принятия решений, выходя далеко за рамки классического обучения с подкреплением (Reinforcement Learning), предоставляя баланс между кастомизацией и простотой внедрения кода.
  3. Synthetic Data Library (SDV): Специализированный генератор синтетических табличных данных и временных рядов. Инструмент позволяет обучить GAN на реальных данных (например, наборе данных о мошенничестве с кредитными картами) для генерации сбалансированных выборок, что крайне важно при сильном дисбалансе классов или строгих требованиях конфиденциальности данных.
  4. Aim: Активно развивающаяся open-source библиотека для трекинга экспериментов в машинном обучении. Последний релиз оптимизирован под обработку сверхбольших объемов данных: отображение графиков для более чем 2000 экспериментов теперь занимает менее одной секунды. Инструмент легко интегрируется со всеми популярными ML-фреймворками.
  5. RobustBench: Стандартизированный бенчмарк для оценки устойчивости моделей к состязательным атакам (adversarial examples). Платформа позволяет протестировать модель против 80 актуальных state-of-the-art алгоритмов защиты и зафиксировать результат в единой таблице лидеров (leaderboard), решая проблему несопоставимости результатов в научных публикациях разных лабораторий.

🗺️ Городские курьезы автопилотов и «умная» сельхозтехника от Blue River 23:04

Телеканал CBS Local San Francisco опубликовал репортаж об аномальном поведении беспилотных автомобилей на одной из улиц Сан-Франциско. Каждые пять минут несколько тестовых самоуправляемых машин заезжают в один и тот же тупик, разворачиваются и уезжают обратно. При этом за рулем находятся инженеры-испытатели, которые, по информации телеканала, сами не понимают причин происходящего и заявляют, что автомобиль просто следует заложенному внутреннему маршруту.

Янник Кильхер предполагает, что сбой вызван ошибкой во внутренних навигационных картах, где данная тупиковая зона не была вовремя отмечена в системе маршрутизации беспилотников. Ведущий шутит, что в будущем беспилотного транспорта коммерческие компании смогут устраивать шуточные соревнования по тому, кто заманит больше робомобилей конкурента в глухой тупик.

В завершение выпуска ведущий продемонстрировал ролик компании Blue River Technology, которую называют «Boston Dynamics в сфере сельского хозяйства». На видео тяжелая сельскохозяйственная техника весом от 5 до 10 тонн идеально балансирует всего на двух небольших колесах, используя алгоритмы стабилизации, аналогичные тем, что применяются в современных квадрокоптерах.

Хотя реальный бизнес-план Blue River Technology заключается не в двухколесных тракторах, а в комплексном внедрении искусственного интеллекта в агропромышленный сектор, видео выглядит впечатляюще. По мнению Кильхера, интеграция ИИ в сельское хозяйство несет огромный позитивный потенциал: она позволит повысить эффективность использования ресурсов, снизить экологическую нагрузку на почву и собирать больше урожая без истощения земельных угодий.

💬 Цитаты

«По моему мнению, графика была действительно единственной вещью в этой игре, которая была хороша.»

Янник Кильхер 02:46

«Дело не в том, что это супер-пупер реалистично, а просто в том, что взаимодействия между объектами реалистичны.»

Янник Кильхер 08:34

«Я действительно верю, что ИИ в сельском хозяйстве имеет хорошие шансы принести много позитивного.»

Янник Кильхер 25:59
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
CUDA Graphs
Инструмент, позволяющий отправлять на графический процессор всю цепочку вычислительных операций за один шаг, минуя задержки CPU.
LSTM (Long Short-Term Memory)
Архитектура рекуррентных нейронных сетей, предназначенная для обработки и прогнозирования последовательностей данных.
Обучение с подкреплением
Метод машинного обучения, при котором агент учится принимать решения, получая награды или штрафы за свои действия.
Сегментация экземпляров (Instance Segmentation)
Задача компьютерного зрения, заключающаяся в обнаружении отдельных объектов на изображении и точной разметке их границ.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Янник Кильхер NVIDIA GTC DeepMind MuJoCo Google Sheets PyTorch 1.10