Тако Коэн из Qualcomm: «В физике симметрия — закон, в нейросетях — путь к эффективности»

В новом выпуске подкаста TWIML AI Сэм Чаррингтон беседует с Тако Коэном, исследователем в области машинного обучения из Qualcomm Technologies. Коэн, чей путь в науку начался с попытки понять работу человеческого мозга через призму геймдив-разработки, сегодня находится на острие фундаментальных исследований, объединяя высшую математику, теоретическую физику и архитектуры нейронных сетей следующего поколения.

🧠 От нейробиологии к инженерному интеллекту 0:14

Тако Коэн начал свою карьеру с изучения компьютерных наук, но быстро переключился на когнитивистику и психологию . По его словам, классическая нейробиология пока не дает ответов на алгоритмическом уровне: ученые видят либо «микроскопические» детали рецепторов, либо слишком грубые данные МРТ, которые не объясняют суть обработки информации .

В итоге Коэн пришел к выводу, что наиболее эффективный путь к пониманию разума — это инженерный подход: «Давайте сначала создадим системы, которые ведут себя разумно, а затем будем соотносить их с мозгом» . Этот путь привел его к сотрудничеству с Максом Веллингом в Университете Амстердама, созданию собственного стартапа и последующему его поглощению компанией Qualcomm .

⚛️ Симметрия как ключ к эффективности нейросетей 6:11

Основная область исследований Коэна — эквивариантные сети (equivariant networks). Идея заимствована из фундаментальной физики, где симметрия является организующим принципом .

Принцип симметрии в физике: законы природы (например, сохранение энергии) не должны зависеть от того, в какой точке координат находится наблюдатель или как он ориентирован .
Принцип в машинном обучении: Коэн утверждает, что если мы строим модель для классификации клеток в медицине, результат не должен зависеть от того, под каким углом расположена клетка на снимке или в какой части кадра она находится .

Преимущества эквивариантных сетей:

Эффективность данных: такие сети обучаются на гораздо меньшем количестве примеров, чем стандартные, так как им не нужно «заучивать» один и тот же объект в разных положениях .
Математическая гарантия: свойство эквивариантности встроено в саму архитектуру через разделение весов (weight sharing), что делает модель предсказуемой и устойчивой .

📊 Natural Graph Networks: категория вместо перестановок 22:37

Коэн представил развитие своих идей в области графов — Natural Graph Networks (натуральные графовые сети). Традиционно считалось, что графовые сети должны быть эквивариантны к любым перестановкам узлов . Однако Коэн считает, что это слишком жесткое ограничение: для графа из $n$ узлов существует $n!$ (факториал) комбинаций, что делает линейные слои «слишком скучными» и ограниченными по параметрам .

Используя аппарат теории категорий, команда Коэна ввела понятие «натуральности» (naturality) . По словам исследователя:

Вместо того чтобы требовать одинаковой обработки от всех перестановок, сеть должна демонстрировать эквивалентную обработку только для изоморфных графов .
Это позволяет сетям различать сложные структуры, которые обычные эквивариантные графовые сети считают идентичными .
Главный итог — повышение выразительности моделей без потери их математической строгости .

📱 GPU на смартфоне: запуск GCNN в реальных условиях 34:26

Одной из самых сложных задач Коэн называет запуск групповых эквивариантных сверточных сетей (GCNN) на мобильных устройствах. У таких моделей есть специфика: они могут быть очень большими, но с малым количеством уникальных параметров .

Для демонстрации на конференции NeurIPS команда подготовила демо на базе медицинского приложения . Чтобы сеть работала на смартфоне, использовались следующие инструменты:

AI Model Efficiency Toolkit (AIMET): библиотека Qualcomm для прунинга (удаления лишних связей) и квантования моделей .
Адаптивное сглаживание фильтров: инженеры решили проблему алиасинга (искажений), возникающую при квантовании симметричных фильтров .

🎬 Революция в сжатии видео: от JPEG к нейросетям 41:22

Второй масштабный поток исследований Тако Коэна — сжатие данных с помощью генеративных моделей (VAE, GAN и потоки). Согласно теории информации Шеннона, сжатие — это обратная сторона моделирования вероятности .

Как работает нейросжатие (Neural Compression):

Вместо жестких формул (например, дискретного косинусного преобразования в JPEG) используется автоэнкодер .
Энкодер переводит изображение в скрытые переменные (latents), отсекая лишнее .
Декодер — это генеративная модель, которая буквально «додумывает» детали.

Коэн утверждает, что такие кодеки уже показывают результаты на уровне или лучше классических методов (AVC, HEVC) . Особенно впечатляющий успех достигнут в сжатии речи — трехкратное превосходство по битрейту над классическими алгоритмами при том же качестве звука .

Будущее генеративного сжатия: По мнению гостя, в будущем при очень низком битрейте картинка может меняться (например, трава будет выглядеть иначе, чем в оригинале), но она всегда будет выглядеть реалистично и приятно для глаза, в отличие от «пиксельных квадратов» старых кодеков . Основным барьером для массового внедрения сейчас является вычислительная сложность, но работа над эффективностью на мобильных чипах ведётся постоянно .