Новости машинного обучения: от мегамоделей до «прибыли» DeepMind 0:00
Неделя в индустрии ИИ прошла под знаком масштабных достижений, новых инструментов для разработчиков и дискуссий о будущем глобального технологического лидерства. Янник Кильхер (Yannic Kilcher) в своем еженедельном обзоре проанализировал ключевые события, начиная с выхода гигантской языковой модели Microsoft и заканчивая вопросами финансовой устойчивости DeepMind.
🏗 Развитие языковых моделей: Microsoft Megatron-Turing NLG 530B 2:32
Microsoft представила Megatron-Turing NLG 530B — декодерную языковую модель, которая значительно превосходит GPT-3 по количеству параметров.
- Технические характеристики: Модель включает 105 слоев, скрытая размерность превышает 20 000, а каждый слой оснащен 128 головами внимания.
- Инфраструктура: Обучение проводилось на базе 560 серверов DGX A100, каждый из которых содержит восемь GPU A100. Все узлы объединены с помощью технологий NVLink, NVSwitch и InfiniBand.
- Процесс обучения: Использовалась библиотека Deep Speed от Microsoft. Стартовый размер батча составлял 32, постепенно увеличиваясь до итоговых 1920.
- Данные: В качестве основы использован набор данных The Pile от EleutherAI, дополненный материалами из Common Crawl и RealNews.
По мнению Кильхера, несмотря на впечатляющие результаты в zero-shot задачах, вопрос о том, будет ли модель доступна широкому кругу пользователей или останется сугубо академическим упражнением, остается открытым.
🎨 Генеративные модели и компьютерное зрение 5:14
Nvidia представила код и предобученные модели для StyleGAN3 (ранее известной как «alias-free GAN»). Главное отличие от предшественника StyleGAN2 заключается в том, что объекты в генерациях StyleGAN3 не имеют жесткой зависимости от абсолютной позиции в кадре, что позволяет им перемещаться более естественно.
Другие интересные разработки:
- ConvMixer: Архитектура, объединяющая достоинства Vision Transformers и MLP-Mixers. Авторам удалось достичь показателя точности более 80% на ImageNet, сохранив при этом компактность кода, который «помещается в твит».
- VQ-GAN: Новая итерация в области векторного квантования изображений с использованием авторегрессионных трансформеров. Кильхер отмечает, что изображения получаются настолько «кристально чистыми» и гладкими, что выглядят искусственно, напоминая обложки глянцевых журналов, а не реальные фото.
🔬 Наука и медицина: AlphaFold и новые материалы 12:34
DeepMind продолжает активно применять ИИ для решения фундаментальных биологических задач:
- AlphaFold Multimer: Специализированная версия AlphaFold, предназначенная для предсказания структуры белковых комплексов (взаимодействия нескольких цепей аминокислот), что является гораздо более сложной задачей, чем анализ одиночных белков.
- Прогноз экспрессии генов: Использование больших трансформеров для анализа ДНК. Модель предсказывает, как различные модификации ДНК (метилирование, гистоны, регуляторные последовательности) влияют на считывание генов, что позволяет анализировать варианты генома без проведения дорогостоящих экспериментов.
Также Google AI предложил метод использования струйных принтеров для создания комбинаторных смесей оксидов металлов, свойства которых затем анализируются с помощью машинного обучения. Из огромного числа вариантов исследователи выделили 51 перспективную систему, при этом лишь одна из них была ранее подтверждена экспериментально.
💼 Индустрия: Инвестиции, лидерство и «прибыльность» DeepMind 0:16
Финансовый ландшафт ИИ-сектора претерпел значительные изменения:
- Weights & Biases: Компания привлекла финансирование серии C с оценкой в 1 млрд долларов, став «единорогом».
- Gretel AI: Стартап поднял 50 млн долларов на платформе для создания синтетических данных, обеспечивающих приватность при обучении моделей.
- DeepMind: Компания впервые стала прибыльной. Однако Кильхер высказывает скепсис, предполагая, что это может быть «бухгалтерским трюком», так как единственным клиентом DeepMind является их материнская компания Alphabet, которая может устанавливать внутренние цены на услуги по своему усмотрению.
В разделе геополитики Кильхер прокомментировал заявление ушедшего в отставку руководителя по программному обеспечению Пентагона, который утверждает, что США уже проиграли технологическую войну Китаю. По мнению Кильхера, дискуссии об этике ИИ в США — это способ успокоить определенные общественные группы, в то время как Китай фокусируется исключительно на наращивании мощностей.