# Тако Коэн из Qualcomm: «В физике симметрия — закон, в нейросетях — путь к эффективности»

Источник: https://www.youtube.com/watch?v=YQ6vOeYtKz8
Канал: The TWIML AI Podcast
Опубликовано: 05.01.2021

---

В новом выпуске подкаста TWIML AI Сэм Чаррингтон беседует с Тако Коэном, исследователем в области машинного обучения из Qualcomm Technologies. Коэн, чей путь в науку начался с попытки понять работу человеческого мозга через призму геймдив-разработки, сегодня находится на острие фундаментальных исследований, объединяя высшую математику, теоретическую физику и архитектуры нейронных сетей следующего поколения.

## 🧠 От нейробиологии к инженерному интеллекту
[[JUMP:00:14]]

Тако Коэн начал свою карьеру с изучения компьютерных наук, но быстро переключился на когнитивистику и психологию [00:54]. По его словам, классическая нейробиология пока не дает ответов на алгоритмическом уровне: ученые видят либо «микроскопические» детали рецепторов, либо слишком грубые данные МРТ, которые не объясняют суть обработки информации [01:46]. 

В итоге Коэн пришел к выводу, что наиболее эффективный путь к пониманию разума — это инженерный подход: «Давайте сначала создадим системы, которые ведут себя разумно, а затем будем соотносить их с мозгом» [03:06]. Этот путь привел его к сотрудничеству с Максом Веллингом в Университете Амстердама, созданию собственного стартапа и последующему его поглощению компанией Qualcomm [04:13].

## ⚛️ Симметрия как ключ к эффективности нейросетей
[[JUMP:06:11]]

Основная область исследований Коэна — эквивариантные сети (equivariant networks). Идея заимствована из фундаментальной физики, где симметрия является организующим принципом [11:07].

*   **Принцип симметрии в физике:** законы природы (например, сохранение энергии) не должны зависеть от того, в какой точке координат находится наблюдатель или как он ориентирован [08:11].
*   **Принцип в машинном обучении:** Коэн утверждает, что если мы строим модель для классификации клеток в медицине, результат не должен зависеть от того, под каким углом расположена клетка на снимке или в какой части кадра она находится [11:45].

**Преимущества эквивариантных сетей:**

1.  **Эффективность данных:** такие сети обучаются на гораздо меньшем количестве примеров, чем стандартные, так как им не нужно «заучивать» один и тот же объект в разных положениях [06:52].
2.  **Математическая гарантия:** свойство эквивариантности встроено в саму архитектуру через разделение весов (weight sharing), что делает модель предсказуемой и устойчивой [13:56].

## 📊 Natural Graph Networks: категория вместо перестановок
[[JUMP:22:37]]

Коэн представил развитие своих идей в области графов — Natural Graph Networks (натуральные графовые сети). Традиционно считалось, что графовые сети должны быть эквивариантны к любым перестановкам узлов [23:15]. Однако Коэн считает, что это слишком жесткое ограничение: для графа из $n$ узлов существует $n!$ (факториал) комбинаций, что делает линейные слои «слишком скучными» и ограниченными по параметрам [27:03].

Используя аппарат теории категорий, команда Коэна ввела понятие «натуральности» (naturality) [24:56]. По словам исследователя:

*   Вместо того чтобы требовать одинаковой обработки от всех перестановок, сеть должна демонстрировать эквивалентную обработку только для изоморфных графов [27:30].
*   Это позволяет сетям различать сложные структуры, которые обычные эквивариантные графовые сети считают идентичными [31:02].
*   Главный итог — повышение выразительности моделей без потери их математической строгости [30:50].

## 📱 GPU на смартфоне: запуск GCNN в реальных условиях
[[JUMP:34:26]]

Одной из самых сложных задач Коэн называет запуск групповых эквивариантных сверточных сетей (GCNN) на мобильных устройствах. У таких моделей есть специфика: они могут быть очень большими, но с малым количеством уникальных параметров [35:33].

Для демонстрации на конференции NeurIPS команда подготовила демо на базе медицинского приложения [37:08]. Чтобы сеть работала на смартфоне, использовались следующие инструменты:

*   **AI Model Efficiency Toolkit (AIMET):** библиотека Qualcomm для прунинга (удаления лишних связей) и квантования моделей [36:55].
*   **Адаптивное сглаживание фильтров:** инженеры решили проблему алиасинга (искажений), возникающую при квантовании симметричных фильтров [36:28].

## 🎬 Революция в сжатии видео: от JPEG к нейросетям
[[JUMP:41:22]]

Второй масштабный поток исследований Тако Коэна — сжатие данных с помощью генеративных моделей (VAE, GAN и потоки). Согласно теории информации Шеннона, сжатие — это обратная сторона моделирования вероятности [42:38].

**Как работает нейросжатие (Neural Compression):**

1.  Вместо жестких формул (например, дискретного косинусного преобразования в JPEG) используется автоэнкодер [49:51].
2.  Энкодер переводит изображение в скрытые переменные (latents), отсекая лишнее [44:09].
3.  Декодер — это генеративная модель, которая буквально «додумывает» детали.

Коэн утверждает, что такие кодеки уже показывают результаты на уровне или лучше классических методов (AVC, HEVC) [53:37]. Особенно впечатляющий успех достигнут в сжатии речи — трехкратное превосходство по битрейту над классическими алгоритмами при том же качестве звука [57:49].

**Будущее генеративного сжатия:**
По мнению гостя, в будущем при очень низком битрейте картинка может меняться (например, трава будет выглядеть иначе, чем в оригинале), но она всегда будет выглядеть реалистично и приятно для глаза, в отличие от «пиксельных квадратов» старых кодеков [56:17]. Основным барьером для массового внедрения сейчас является вычислительная сложность, но работа над эффективностью на мобильных чипах ведётся постоянно [59:22].

---