# Янник Килхер о новых возможностях GPT-3 и инфраструктуре Pathways

Источник: https://www.youtube.com/watch?v=vGFaiLeoLWw
Канал: Yannic Kilcher
Опубликовано: 30.03.2022

---

В новом выпуске еженедельного дайджеста ML News Янник Килхер (Yannic Kilcher) обсуждает ключевые технологические анонсы в области машинного обучения. В центре внимания — новые возможности редактирования текста с помощью GPT-3, инфраструктурные решения Google Pathways, успехи в генерации изображений на основе текстовых промптов и новые инструменты для анализа игровых багов.

## ✍️ GPT-3: от генерации к редактированию
[[JUMP:2:53]]

OpenAI расширила функциональность своей языковой модели GPT-3, добавив специализированные инструменты для редактирования кода и текста. В дополнение к привычному режиму «завершения» (completion), теперь доступны режимы «вставки» (insert) и «редактирования» (edit).

Янник продемонстрировал возможности нового интерфейса, успешно применив его для работы с кодом:

* **Генерация документации:** Модель эффективно создает docstrings для функций, уточняет параметры и добавляет аннотации типов.
* **Трансляция кода:** Демонстрация показала возможность перевода функций с Python на JavaScript прямо «на лету».
* **Рефакторинг:** Модель успешно справилась с задачей преобразования рекурсивного алгоритма поиска в глубину (DFS) в итеративный вариант.

По мнению ведущего, несмотря на то, что модель иногда может быть «переоценена» в маркетинговых материалах, инструменты редактирования значительно повышают продуктивность разработчиков. Доступ к API OpenAI теперь открыт для всех желающих, что снимает ограничения закрытого бета-тестирования.

## 🖼️ Генерация изображений: Make-A-Scene и residual quantization
[[JUMP:6:22]]

В области генерации изображений по тексту (text-to-image) наметились два важных достижения.

### Make-A-Scene от Meta
[[JUMP:6:35]]
Исследователи Meta представили метод «Make-A-Scene», который использует человеческие приоритеты для улучшения качества генерации. В отличие от DALL-E или GLIDE, этот подход опирается на дополнительные вспомогательные данные:

* Сегментационные карты, задающие композицию сцены.
* Референсные изображения для копирования визуальных токенов.

Янник отметил создание полноценной иллюстрированной истории «Маленькая красная лодка» (The Little Red Boat), все визуальные элементы которой были созданы этой моделью. Прогресс в этой сфере ведущий назвал «потрясающим», подчеркнув, как быстро меняются технологии с момента выпуска его собственного музыкального видео.

### Residual Quantization от Kakao Brain и POSTECH
[[JUMP:14:45]]
Второй проект — «Auto-aggressive image generation using residual quantization» — использует технику остаточного квантования.

* В процессе уменьшения размерности (downsampling) модель квантует изображение на каждом этапе, сохраняя «остатки» (residual) данных.
* Это позволяет формировать многомасштабное представление, сохраняющее высокую детализацию структуры изображения.
* Модель с 3,9 млрд параметров доступна для загрузки всем желающим.

## ⚡ Google Pathways: инфраструктурный прорыв
[[JUMP:7:53]]

После длительного ожидания Google опубликовала подробную техническую документацию по Pathways. По словам Килхера, Pathways — это не столько новая архитектура модели, сколько мощная инфраструктурная система для распределенных вычислений.

Янник описывает Pathways как «MapReduce для машинного обучения»:

* **Эффективное распределение:** Система позволяет распределять вычисления по множеству устройств (акселераторов) с разной сетевой архитектурой, эффективно работая с гетерогенными задачами.
* **Умный планировщик:** pathways выступает в роли компилятора и планировщика, который асинхронно распределяет нагрузку, минимизируя время простоя оборудования.

Автор полагает, что это решение позволит Google значительно оптимизировать работу своих дата-центров, хотя и воздерживается от точных прогнозов о том, как это скажется на ценах для пользователей Google Cloud Platform.

## 🔍 Инструменты и исследования
[[JUMP:10:46]]

* **DouBlind:** Платформа для открытого социального рецензирования научных статей. Хотя Янник поддерживает идею, он скептически относится к тому, что сообщество в ближайшее время сделает её основным центром обсуждений, опасаясь предвзятости пользователей.
* **CLIP для поиска багов:** Метод поиска багов в видеоиграх путем индексации игровых футажей через CLIP. Это позволяет разработчикам быстро находить специфические аномалии (например, «персонаж в воздухе»), просто вводя текстовый запрос. Ограничением является необходимость заранее знать, какой баг искать.
* **Полезные библиотеки:**
    * *Stumpy* для анализа временных рядов.
    * *Fast TreeSHAP* для интерпретируемости деревьев решений.
    * *Jax-exercises* (100 упражнений для обучения JAX).
    * *NovGrid* — вариант MiniGrid для тестирования адаптивности агентов.
    * *Isaac Gym* от Nvidia для физически точных симуляций на GPU.