Янник Килхер о новых возможностях GPT-3 и инфраструктуре Pathways

В новом выпуске еженедельного дайджеста ML News Янник Килхер (Yannic Kilcher) обсуждает ключевые технологические анонсы в области машинного обучения. В центре внимания — новые возможности редактирования текста с помощью GPT-3, инфраструктурные решения Google Pathways, успехи в генерации изображений на основе текстовых промптов и новые инструменты для анализа игровых багов.

✍️ GPT-3: от генерации к редактированию 2:53

OpenAI расширила функциональность своей языковой модели GPT-3, добавив специализированные инструменты для редактирования кода и текста. В дополнение к привычному режиму «завершения» (completion), теперь доступны режимы «вставки» (insert) и «редактирования» (edit).

Янник продемонстрировал возможности нового интерфейса, успешно применив его для работы с кодом:

Генерация документации: Модель эффективно создает docstrings для функций, уточняет параметры и добавляет аннотации типов.
Трансляция кода: Демонстрация показала возможность перевода функций с Python на JavaScript прямо «на лету».
Рефакторинг: Модель успешно справилась с задачей преобразования рекурсивного алгоритма поиска в глубину (DFS) в итеративный вариант.

По мнению ведущего, несмотря на то, что модель иногда может быть «переоценена» в маркетинговых материалах, инструменты редактирования значительно повышают продуктивность разработчиков. Доступ к API OpenAI теперь открыт для всех желающих, что снимает ограничения закрытого бета-тестирования.

🖼️ Генерация изображений: Make-A-Scene и residual quantization 6:22

В области генерации изображений по тексту (text-to-image) наметились два важных достижения.

Make-A-Scene от Meta 6:35

Исследователи Meta представили метод «Make-A-Scene», который использует человеческие приоритеты для улучшения качества генерации. В отличие от DALL-E или GLIDE, этот подход опирается на дополнительные вспомогательные данные:

Сегментационные карты, задающие композицию сцены.
Референсные изображения для копирования визуальных токенов.

Янник отметил создание полноценной иллюстрированной истории «Маленькая красная лодка» (The Little Red Boat), все визуальные элементы которой были созданы этой моделью. Прогресс в этой сфере ведущий назвал «потрясающим», подчеркнув, как быстро меняются технологии с момента выпуска его собственного музыкального видео.

Residual Quantization от Kakao Brain и POSTECH 14:45

Второй проект — «Auto-aggressive image generation using residual quantization» — использует технику остаточного квантования.

В процессе уменьшения размерности (downsampling) модель квантует изображение на каждом этапе, сохраняя «остатки» (residual) данных.
Это позволяет формировать многомасштабное представление, сохраняющее высокую детализацию структуры изображения.
Модель с 3,9 млрд параметров доступна для загрузки всем желающим.

⚡ Google Pathways: инфраструктурный прорыв 7:53

После длительного ожидания Google опубликовала подробную техническую документацию по Pathways. По словам Килхера, Pathways — это не столько новая архитектура модели, сколько мощная инфраструктурная система для распределенных вычислений.

Янник описывает Pathways как «MapReduce для машинного обучения»:

Эффективное распределение: Система позволяет распределять вычисления по множеству устройств (акселераторов) с разной сетевой архитектурой, эффективно работая с гетерогенными задачами.
Умный планировщик: pathways выступает в роли компилятора и планировщика, который асинхронно распределяет нагрузку, минимизируя время простоя оборудования.

Автор полагает, что это решение позволит Google значительно оптимизировать работу своих дата-центров, хотя и воздерживается от точных прогнозов о том, как это скажется на ценах для пользователей Google Cloud Platform.

🔍 Инструменты и исследования 10:46

DouBlind: Платформа для открытого социального рецензирования научных статей. Хотя Янник поддерживает идею, он скептически относится к тому, что сообщество в ближайшее время сделает её основным центром обсуждений, опасаясь предвзятости пользователей.
CLIP для поиска багов: Метод поиска багов в видеоиграх путем индексации игровых футажей через CLIP. Это позволяет разработчикам быстро находить специфические аномалии (например, «персонаж в воздухе»), просто вводя текстовый запрос. Ограничением является необходимость заранее знать, какой баг искать.
Полезные библиотеки:
- Stumpy для анализа временных рядов.
- Fast TreeSHAP для интерпретируемости деревьев решений.
- Jax-exercises (100 упражнений для обучения JAX).
- NovGrid — вариант MiniGrid для тестирования адаптивности агентов.
- Isaac Gym от Nvidia для физически точных симуляций на GPU.