AlphaTensor: Как DeepMind ускоряет вычисления с помощью ИИ

Yannic Kilcher 185 тыс. 55 мин 2 мин 07.10.2022
Главное

Революция в матричных вычислениях: Как AlphaTensor меняет правила игры 0:00

Матричное умножение — фундамент практически всей современной науки и вычислительной техники, от графики до обучения нейронных сетей. Команда DeepMind представила систему AlphaTensor, которая с помощью обучения с подкреплением находит новые алгоритмы умножения матриц, работающие быстрее общепринятых методов. Этот успех подтверждает состоятельность подхода DeepMind: разработка методов для «игровых» сред, будь то Atari, шахматы или Go, имеет прямые прикладные задачи в реальном мире, где многие процессы можно представить как игру.

🎮 Матричное умножение как игра 1:17

Традиционно умножение матриц $n \times n$ требует около $O(n^3)$ операций умножения, что является крайне ресурсозатратным процессом, так как на аппаратном уровне процессоры тратят на умножение чисел гораздо больше времени, чем на их сложение.

По словам Янника Кильхера, хотя задача декомпозиции тензора порядка выше двух является NP-трудной, использование глубокого обучения с подкреплением позволяет находить решения там, где человеческие методы ограничены.

🧠 Архитектура и обучение AlphaTensor 34:05

Система AlphaTensor базируется на принципах AlphaZero и использует нейронную сеть с архитектурой на основе трансформеров, расширяющих форму аксиального внимания (axial attention).

🚀 Результаты: Скорость и адаптивность 45:40

Для многих задач матричного умножения AlphaTensor нашел алгоритмы с меньшим количеством операций, чем лучшие известные человечеству методы.

  1. Превосходство над человеком: Для матриц $4 \times 4$ AlphaTensor предложил алгоритм с 47 умножениями, тогда как предыдущий рекорд составлял 49.
  2. Аппаратная оптимизация: Самое впечатляющее достижение — возможность настройки алгоритма под конкретное «железо» (например, TPU или GPU). Даже если архитектура чипа является «черным ящиком» для системы, через обучение с подкреплением AlphaTensor находит варианты, которые исполняются значительно быстрее на целевом оборудовании.
  3. Математическая ценность: Для умножения матриц $4 \times 4$ система обнаружила более 14 000 неэквивалентных факторизаций (различных алгоритмов), что открывает новые горизонты для специалистов в теории сложности вычислений.

По мнению Кильхера, потенциал технологии выходит далеко за пределы простого умножения матриц. Подобные методы обучения могут применяться к компиляторам, которые смогут автоматически оптимизировать код под конкретные аппаратные метрики, такие как скорость, энергопотребление или использование памяти.

💬 Цитаты

«Поскольку матричные умножения лежат в основе практически всей науки, ускорение на 10, 20 или даже один процент в этой области — это огромный успех.»

Янник Кильхер 00:25

«AlphaTensor не знает, что такое V100, но благодаря обучению с подкреплением система находит алгоритмы, которые работают быстрее на конкретном железе.»

Янник Кильхер 50:03
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Матричное умножение
Фундаментальная математическая операция, при которой из двух матриц-чисел получается новая матрица.
Декомпозиция тензора
Математический процесс разложения многомерного массива данных на более простые компоненты.
Обучение с подкреплением
Метод обучения ИИ, при котором агент получает награды или штрафы за свои действия в среде, стремясь максимизировать суммарную выгоду.
AlphaZero
Алгоритм обучения с подкреплением от DeepMind, ставший основой для AlphaTensor.
TPU
Тензорный процессор, специализированный чип от Google для ускорения операций ИИ.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект DeepMind AlphaTensor Reinforcement Learning Matrix multiplication