# [ML Olds] Meta Research Supercluster | OpenAI GPT-Instruct | Google LaMDA | Drones fight Pigeons

Источник: https://www.youtube.com/watch?v=XjILIYVLFrI
Канал: Yannic Kilcher
Опубликовано: 23.02.2022

---

Масштабирование инфраструктуры Meta, совершенствование языковых моделей OpenAI и Google, а также неожиданные решения в области прикладной робототехники — таковы ключевые темы последних недель в мире машинного обучения. Ведущий канала Янник Килчер (Yannic Kilcher) в своем новом выпуске «ML News» анализирует наиболее значимые события индустрии, которые позволяют заглянуть в текущие приоритеты технологических гигантов.

## 🏗️ Гигантский суперкомпьютер от Meta
[[JUMP:0:42]]

Meta AI официально представила Meta Research Supercluster (RSC) — масштабный суперкомпьютер, предназначенный для передовых исследований в области искусственного интеллекта. По словам Килчера, это по-настоящему впечатляющая установка, которая по своим масштабам значительно превосходит стандартные вычислительные мощности.

Основные технические характеристики системы:

* Архитектура включает 760 модулей DGX A100, что в сумме дает 6080 графических процессоров NVIDIA A100.
* Вычислительные узлы объединены высокоскоростной сетью InfiniBand.
* Система хранения данных включает 175 ПБ флэш-массивов, 46 ПБ кэш-хранилища и 10 ПБ флэш-накопителей стандарта FlashBlade.

Как отмечает ведущий, разработка RSC была продиктована необходимостью поддерживать производственные и исследовательские нагрузки Meta AI. На текущий момент кластер уже введен в эксплуатацию, а завершение масштабирования до проектной мощности запланировано на середину 2022 года.

## 🧠 Инструктивное обучение языковых моделей
[[JUMP:2:28]]

OpenAI представила результаты работы над настройкой языковых моделей для точного выполнения человеческих инструкций — проект получил название GPT-Instruct. В отличие от классического GPT-3, который часто продолжает текст, имитируя статистическую закономерность (например, когда вопрос принимается за начало статьи), InstructGPT был дообучен для прямого ответа на запросы.

Процесс обучения модели состоял из нескольких этапов:

1.  Сбор небольшого набора размеченных данных.
2.  Ранжирование ответов модели людьми для формирования предпочтений.
3.  Обучение модели вознаграждения на основе этих ранжирований.
4.  Использование обучения с подкреплением для оптимизации модели под полученную функцию вознаграждения.

Килчер подчеркивает, что, хотя предложенный метод не является принципиально новым, итоговые модели InstructGPT оказались более предпочтительными для людей по сравнению с гораздо более крупными версиями оригинального GPT-3.

## 🌐 Мультиязычность и диалоговые системы
[[JUMP:4:03]]

Параллельно с OpenAI, другие лидеры индустрии также сосредоточились на развитии разговорных и многоязычных возможностей ИИ.

* **Meta AI:** Выпустила серию авторегрессионных языковых моделей с количеством параметров до 7,5 млрд. Эти системы демонстрируют значительно лучшие результаты в few-shot обучении на 20+ языках по сравнению с моделями, ориентированными исключительно на английский. Некоторые версии обучены на 134 различных языках.
* **Google:** Опубликовала исследование, посвященное LaMDA — модели для диалоговых приложений. Инновация заключается не только в предобучении на текстовых данных, но и в использовании классификаторов для оценки ответов по метрикам безопасности, осмысленности и интересности. Кроме того, модель способна обращаться к внешним источникам, таким как Wikipedia, для подтверждения фактов в процессе генерации ответа.

## 🦾 Прикладные инструменты и необычные задачи
[[JUMP:5:51]]

В выпуске также обсуждались узкоспециализированные бенчмарки и инструменты для reinforcement learning (обучения с подкреплением).

* **Evolution Gym:** Новый бенчмарк для эволюционных «мягких» роботов, где агенту нужно не только выучить стратегию управления, но и самостоятельно сконструировать свое тело из доступных блоков.
* **Stable Baselines3:** Популярная библиотека для алгоритмов обучения с подкреплением теперь доступна на платформе Hugging Face, что упрощает доступ к готовым реализациям (например, PPO, Q-learning).
* **RL и Трансформеры:** Ведущий выделил репозиторий Алехандро Фонверы (Alejandro Fonvera), предлагающий примеры использования трансформеров для решения задач обучения с подкреплением.

Кроме того, внимание Килчера привлекло исследование об автономной системе борьбы с голубями на крышах зданий при помощи дронов. Камера фиксирует скопление птиц, после чего дрон совершает вылет, чтобы распугать их и предотвратить порчу имущества экскрементами.

## 📱 Компьютерное зрение и корпоративные сдвиги
[[JUMP:8:28]]

Google представила технологию «альфа-маттинга» (выделения силуэта) для портретного режима в смартфонах Pixel 6. Процесс обучения системы потребовал создания сложной студийной инфраструктуры с массивом камер и управляемым освещением, что позволило генерировать точные маски волос даже в сложных условиях.

Наконец, в корпоративном секторе произошли изменения в структуре IBM: компания продала активы проекта Watson Health за сумму, превышающую $1 млрд. По мнению Килчера, проект Watson Health не оправдал ожиданий в реальном использовании в медицине и финансах, несмотря на ранний успех в игре Jeopardy. Ведущий отмечает, что сейчас IBM планирует сфокусироваться на предоставлении облачных инфраструктур для ИИ-решений, что, по его ироничному замечанию, является более прибыльным делом.