Тако Коэн из Qualcomm: «В физике симметрия — закон, в нейросетях — путь к эффективности»

The TWIML AI Podcast 992 1 ч 3 мин 4 мин 05.01.2021
Главное

В новом выпуске подкаста TWIML AI Сэм Чаррингтон беседует с Тако Коэном, исследователем в области машинного обучения из Qualcomm Technologies. Коэн, чей путь в науку начался с попытки понять работу человеческого мозга через призму геймдив-разработки, сегодня находится на острие фундаментальных исследований, объединяя высшую математику, теоретическую физику и архитектуры нейронных сетей следующего поколения.

🧠 От нейробиологии к инженерному интеллекту 0:14

Тако Коэн начал свою карьеру с изучения компьютерных наук, но быстро переключился на когнитивистику и психологию . По его словам, классическая нейробиология пока не дает ответов на алгоритмическом уровне: ученые видят либо «микроскопические» детали рецепторов, либо слишком грубые данные МРТ, которые не объясняют суть обработки информации .

В итоге Коэн пришел к выводу, что наиболее эффективный путь к пониманию разума — это инженерный подход: «Давайте сначала создадим системы, которые ведут себя разумно, а затем будем соотносить их с мозгом» . Этот путь привел его к сотрудничеству с Максом Веллингом в Университете Амстердама, созданию собственного стартапа и последующему его поглощению компанией Qualcomm .

⚛️ Симметрия как ключ к эффективности нейросетей 6:11

Основная область исследований Коэна — эквивариантные сети (equivariant networks). Идея заимствована из фундаментальной физики, где симметрия является организующим принципом .

Преимущества эквивариантных сетей:

  1. Эффективность данных: такие сети обучаются на гораздо меньшем количестве примеров, чем стандартные, так как им не нужно «заучивать» один и тот же объект в разных положениях .
  2. Математическая гарантия: свойство эквивариантности встроено в саму архитектуру через разделение весов (weight sharing), что делает модель предсказуемой и устойчивой .

📊 Natural Graph Networks: категория вместо перестановок 22:37

Коэн представил развитие своих идей в области графов — Natural Graph Networks (натуральные графовые сети). Традиционно считалось, что графовые сети должны быть эквивариантны к любым перестановкам узлов . Однако Коэн считает, что это слишком жесткое ограничение: для графа из $n$ узлов существует $n!$ (факториал) комбинаций, что делает линейные слои «слишком скучными» и ограниченными по параметрам .

Используя аппарат теории категорий, команда Коэна ввела понятие «натуральности» (naturality) . По словам исследователя:

📱 GPU на смартфоне: запуск GCNN в реальных условиях 34:26

Одной из самых сложных задач Коэн называет запуск групповых эквивариантных сверточных сетей (GCNN) на мобильных устройствах. У таких моделей есть специфика: они могут быть очень большими, но с малым количеством уникальных параметров .

Для демонстрации на конференции NeurIPS команда подготовила демо на базе медицинского приложения . Чтобы сеть работала на смартфоне, использовались следующие инструменты:

🎬 Революция в сжатии видео: от JPEG к нейросетям 41:22

Второй масштабный поток исследований Тако Коэна — сжатие данных с помощью генеративных моделей (VAE, GAN и потоки). Согласно теории информации Шеннона, сжатие — это обратная сторона моделирования вероятности .

Как работает нейросжатие (Neural Compression):

  1. Вместо жестких формул (например, дискретного косинусного преобразования в JPEG) используется автоэнкодер .
  2. Энкодер переводит изображение в скрытые переменные (latents), отсекая лишнее .
  3. Декодер — это генеративная модель, которая буквально «додумывает» детали.

Коэн утверждает, что такие кодеки уже показывают результаты на уровне или лучше классических методов (AVC, HEVC) . Особенно впечатляющий успех достигнут в сжатии речи — трехкратное превосходство по битрейту над классическими алгоритмами при том же качестве звука .

Будущее генеративного сжатия: По мнению гостя, в будущем при очень низком битрейте картинка может меняться (например, трава будет выглядеть иначе, чем в оригинале), но она всегда будет выглядеть реалистично и приятно для глаза, в отличие от «пиксельных квадратов» старых кодеков . Основным барьером для массового внедрения сейчас является вычислительная сложность, но работа над эффективностью на мобильных чипах ведётся постоянно .


💬 Цитаты

«Для физика симметрия — это организующий принцип мира. В машинном обучении она позволяет строить модели, понимающие суть вещей вне зависимости от их положения в пространстве.»

Тако Коэн 11:07

«В идеальном нейрокодеке при нулевом битрейте вы просто получите чистое генеративное моделирование — создание случайных, но абсолютно реалистичных изображений.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Эквивариантность
Свойство системы, при котором преобразование входных данных (например, поворот) приводит к аналогичному преобразованию выходных данных.
Изоморфизм графов
Свойство двух графов быть структурно идентичными, несмотря на разную нумерацию или расположение узлов.
Квантование
Процесс уменьшения точности чисел в весах нейросети для ускорения её работы на мобильных процессорах.
📊 Цифры
🗓 Хронология
  1. 2016 Публикация работы по обобщению свёрточных сетей через теорию групп.
  2. 2018 Выход статьи о сферических свёрточных сетях (Spherical CNNs).
  3. 2020 Представление Natural Graph Networks на конференции NeurIPS.
⚖️ Другая сторона
Искусственный интеллект Taco Cohen Qualcomm Equivariant Neural Networks Graph Networks Neural Compression