В новом выпуске подкаста TWIML AI Сэм Чаррингтон беседует с Тако Коэном, исследователем в области машинного обучения из Qualcomm Technologies. Коэн, чей путь в науку начался с попытки понять работу человеческого мозга через призму геймдив-разработки, сегодня находится на острие фундаментальных исследований, объединяя высшую математику, теоретическую физику и архитектуры нейронных сетей следующего поколения.
🧠 От нейробиологии к инженерному интеллекту 0:14
Тако Коэн начал свою карьеру с изучения компьютерных наук, но быстро переключился на когнитивистику и психологию . По его словам, классическая нейробиология пока не дает ответов на алгоритмическом уровне: ученые видят либо «микроскопические» детали рецепторов, либо слишком грубые данные МРТ, которые не объясняют суть обработки информации .
В итоге Коэн пришел к выводу, что наиболее эффективный путь к пониманию разума — это инженерный подход: «Давайте сначала создадим системы, которые ведут себя разумно, а затем будем соотносить их с мозгом» . Этот путь привел его к сотрудничеству с Максом Веллингом в Университете Амстердама, созданию собственного стартапа и последующему его поглощению компанией Qualcomm .
⚛️ Симметрия как ключ к эффективности нейросетей 6:11
Основная область исследований Коэна — эквивариантные сети (equivariant networks). Идея заимствована из фундаментальной физики, где симметрия является организующим принципом .
- Принцип симметрии в физике: законы природы (например, сохранение энергии) не должны зависеть от того, в какой точке координат находится наблюдатель или как он ориентирован .
- Принцип в машинном обучении: Коэн утверждает, что если мы строим модель для классификации клеток в медицине, результат не должен зависеть от того, под каким углом расположена клетка на снимке или в какой части кадра она находится .
Преимущества эквивариантных сетей:
- Эффективность данных: такие сети обучаются на гораздо меньшем количестве примеров, чем стандартные, так как им не нужно «заучивать» один и тот же объект в разных положениях .
- Математическая гарантия: свойство эквивариантности встроено в саму архитектуру через разделение весов (weight sharing), что делает модель предсказуемой и устойчивой .
📊 Natural Graph Networks: категория вместо перестановок 22:37
Коэн представил развитие своих идей в области графов — Natural Graph Networks (натуральные графовые сети). Традиционно считалось, что графовые сети должны быть эквивариантны к любым перестановкам узлов . Однако Коэн считает, что это слишком жесткое ограничение: для графа из $n$ узлов существует $n!$ (факториал) комбинаций, что делает линейные слои «слишком скучными» и ограниченными по параметрам .
Используя аппарат теории категорий, команда Коэна ввела понятие «натуральности» (naturality) . По словам исследователя:
- Вместо того чтобы требовать одинаковой обработки от всех перестановок, сеть должна демонстрировать эквивалентную обработку только для изоморфных графов .
- Это позволяет сетям различать сложные структуры, которые обычные эквивариантные графовые сети считают идентичными .
- Главный итог — повышение выразительности моделей без потери их математической строгости .
📱 GPU на смартфоне: запуск GCNN в реальных условиях 34:26
Одной из самых сложных задач Коэн называет запуск групповых эквивариантных сверточных сетей (GCNN) на мобильных устройствах. У таких моделей есть специфика: они могут быть очень большими, но с малым количеством уникальных параметров .
Для демонстрации на конференции NeurIPS команда подготовила демо на базе медицинского приложения . Чтобы сеть работала на смартфоне, использовались следующие инструменты:
- AI Model Efficiency Toolkit (AIMET): библиотека Qualcomm для прунинга (удаления лишних связей) и квантования моделей .
- Адаптивное сглаживание фильтров: инженеры решили проблему алиасинга (искажений), возникающую при квантовании симметричных фильтров .
🎬 Революция в сжатии видео: от JPEG к нейросетям 41:22
Второй масштабный поток исследований Тако Коэна — сжатие данных с помощью генеративных моделей (VAE, GAN и потоки). Согласно теории информации Шеннона, сжатие — это обратная сторона моделирования вероятности .
Как работает нейросжатие (Neural Compression):
- Вместо жестких формул (например, дискретного косинусного преобразования в JPEG) используется автоэнкодер .
- Энкодер переводит изображение в скрытые переменные (latents), отсекая лишнее .
- Декодер — это генеративная модель, которая буквально «додумывает» детали.
Коэн утверждает, что такие кодеки уже показывают результаты на уровне или лучше классических методов (AVC, HEVC) . Особенно впечатляющий успех достигнут в сжатии речи — трехкратное превосходство по битрейту над классическими алгоритмами при том же качестве звука .
Будущее генеративного сжатия: По мнению гостя, в будущем при очень низком битрейте картинка может меняться (например, трава будет выглядеть иначе, чем в оригинале), но она всегда будет выглядеть реалистично и приятно для глаза, в отличие от «пиксельных квадратов» старых кодеков . Основным барьером для массового внедрения сейчас является вычислительная сложность, но работа над эффективностью на мобильных чипах ведётся постоянно .