[ML Olds] Meta Research Supercluster | OpenAI GPT-Instruct | Google LaMDA

Масштабирование инфраструктуры Meta, совершенствование языковых моделей OpenAI и Google, а также неожиданные решения в области прикладной робототехники — таковы ключевые темы последних недель в мире машинного обучения. Ведущий канала Янник Килчер (Yannic Kilcher) в своем новом выпуске «ML News» анализирует наиболее значимые события индустрии, которые позволяют заглянуть в текущие приоритеты технологических гигантов.

🏗️ Гигантский суперкомпьютер от Meta 0:42

Meta AI официально представила Meta Research Supercluster (RSC) — масштабный суперкомпьютер, предназначенный для передовых исследований в области искусственного интеллекта. По словам Килчера, это по-настоящему впечатляющая установка, которая по своим масштабам значительно превосходит стандартные вычислительные мощности.

Основные технические характеристики системы:

Архитектура включает 760 модулей DGX A100, что в сумме дает 6080 графических процессоров NVIDIA A100.
Вычислительные узлы объединены высокоскоростной сетью InfiniBand.
Система хранения данных включает 175 ПБ флэш-массивов, 46 ПБ кэш-хранилища и 10 ПБ флэш-накопителей стандарта FlashBlade.

Как отмечает ведущий, разработка RSC была продиктована необходимостью поддерживать производственные и исследовательские нагрузки Meta AI. На текущий момент кластер уже введен в эксплуатацию, а завершение масштабирования до проектной мощности запланировано на середину 2022 года.

🧠 Инструктивное обучение языковых моделей 2:28

OpenAI представила результаты работы над настройкой языковых моделей для точного выполнения человеческих инструкций — проект получил название GPT-Instruct. В отличие от классического GPT-3, который часто продолжает текст, имитируя статистическую закономерность (например, когда вопрос принимается за начало статьи), InstructGPT был дообучен для прямого ответа на запросы.

Процесс обучения модели состоял из нескольких этапов:

Сбор небольшого набора размеченных данных.
Ранжирование ответов модели людьми для формирования предпочтений.
Обучение модели вознаграждения на основе этих ранжирований.
Использование обучения с подкреплением для оптимизации модели под полученную функцию вознаграждения.

Килчер подчеркивает, что, хотя предложенный метод не является принципиально новым, итоговые модели InstructGPT оказались более предпочтительными для людей по сравнению с гораздо более крупными версиями оригинального GPT-3.

🌐 Мультиязычность и диалоговые системы 4:03

Параллельно с OpenAI, другие лидеры индустрии также сосредоточились на развитии разговорных и многоязычных возможностей ИИ.

Meta AI: Выпустила серию авторегрессионных языковых моделей с количеством параметров до 7,5 млрд. Эти системы демонстрируют значительно лучшие результаты в few-shot обучении на 20+ языках по сравнению с моделями, ориентированными исключительно на английский. Некоторые версии обучены на 134 различных языках.
Google: Опубликовала исследование, посвященное LaMDA — модели для диалоговых приложений. Инновация заключается не только в предобучении на текстовых данных, но и в использовании классификаторов для оценки ответов по метрикам безопасности, осмысленности и интересности. Кроме того, модель способна обращаться к внешним источникам, таким как Wikipedia, для подтверждения фактов в процессе генерации ответа.

🦾 Прикладные инструменты и необычные задачи 5:51

В выпуске также обсуждались узкоспециализированные бенчмарки и инструменты для reinforcement learning (обучения с подкреплением).

Evolution Gym: Новый бенчмарк для эволюционных «мягких» роботов, где агенту нужно не только выучить стратегию управления, но и самостоятельно сконструировать свое тело из доступных блоков.
Stable Baselines3: Популярная библиотека для алгоритмов обучения с подкреплением теперь доступна на платформе Hugging Face, что упрощает доступ к готовым реализациям (например, PPO, Q-learning).
RL и Трансформеры: Ведущий выделил репозиторий Алехандро Фонверы (Alejandro Fonvera), предлагающий примеры использования трансформеров для решения задач обучения с подкреплением.

Кроме того, внимание Килчера привлекло исследование об автономной системе борьбы с голубями на крышах зданий при помощи дронов. Камера фиксирует скопление птиц, после чего дрон совершает вылет, чтобы распугать их и предотвратить порчу имущества экскрементами.

📱 Компьютерное зрение и корпоративные сдвиги 8:28

Google представила технологию «альфа-маттинга» (выделения силуэта) для портретного режима в смартфонах Pixel 6. Процесс обучения системы потребовал создания сложной студийной инфраструктуры с массивом камер и управляемым освещением, что позволило генерировать точные маски волос даже в сложных условиях.

Наконец, в корпоративном секторе произошли изменения в структуре IBM: компания продала активы проекта Watson Health за сумму, превышающую $1 млрд. По мнению Килчера, проект Watson Health не оправдал ожиданий в реальном использовании в медицине и финансах, несмотря на ранний успех в игре Jeopardy. Ведущий отмечает, что сейчас IBM планирует сфокусироваться на предоставлении облачных инфраструктур для ИИ-решений, что, по его ироничному замечанию, является более прибыльным делом.

[ML Olds] Meta Research Supercluster | OpenAI GPT-Instruct | Google LaMDA | Drones fight Pigeons

🏗️ Гигантский суперкомпьютер от Meta 0:42

🧠 Инструктивное обучение языковых моделей 2:28

🌐 Мультиязычность и диалоговые системы 4:03

🦾 Прикладные инструменты и необычные задачи 5:51

📱 Компьютерное зрение и корпоративные сдвиги 8:28