В новом выпуске еженедельного дайджеста ML News Янник Килхер (Yannic Kilcher) обсуждает ключевые технологические анонсы в области машинного обучения. В центре внимания — новые возможности редактирования текста с помощью GPT-3, инфраструктурные решения Google Pathways, успехи в генерации изображений на основе текстовых промптов и новые инструменты для анализа игровых багов.
✍️ GPT-3: от генерации к редактированию 2:53
OpenAI расширила функциональность своей языковой модели GPT-3, добавив специализированные инструменты для редактирования кода и текста. В дополнение к привычному режиму «завершения» (completion), теперь доступны режимы «вставки» (insert) и «редактирования» (edit).
Янник продемонстрировал возможности нового интерфейса, успешно применив его для работы с кодом:
- Генерация документации: Модель эффективно создает docstrings для функций, уточняет параметры и добавляет аннотации типов.
- Трансляция кода: Демонстрация показала возможность перевода функций с Python на JavaScript прямо «на лету».
- Рефакторинг: Модель успешно справилась с задачей преобразования рекурсивного алгоритма поиска в глубину (DFS) в итеративный вариант.
По мнению ведущего, несмотря на то, что модель иногда может быть «переоценена» в маркетинговых материалах, инструменты редактирования значительно повышают продуктивность разработчиков. Доступ к API OpenAI теперь открыт для всех желающих, что снимает ограничения закрытого бета-тестирования.
🖼️ Генерация изображений: Make-A-Scene и residual quantization 6:22
В области генерации изображений по тексту (text-to-image) наметились два важных достижения.
Make-A-Scene от Meta 6:35
Исследователи Meta представили метод «Make-A-Scene», который использует человеческие приоритеты для улучшения качества генерации. В отличие от DALL-E или GLIDE, этот подход опирается на дополнительные вспомогательные данные:
- Сегментационные карты, задающие композицию сцены.
- Референсные изображения для копирования визуальных токенов.
Янник отметил создание полноценной иллюстрированной истории «Маленькая красная лодка» (The Little Red Boat), все визуальные элементы которой были созданы этой моделью. Прогресс в этой сфере ведущий назвал «потрясающим», подчеркнув, как быстро меняются технологии с момента выпуска его собственного музыкального видео.
Residual Quantization от Kakao Brain и POSTECH 14:45
Второй проект — «Auto-aggressive image generation using residual quantization» — использует технику остаточного квантования.
- В процессе уменьшения размерности (downsampling) модель квантует изображение на каждом этапе, сохраняя «остатки» (residual) данных.
- Это позволяет формировать многомасштабное представление, сохраняющее высокую детализацию структуры изображения.
- Модель с 3,9 млрд параметров доступна для загрузки всем желающим.
⚡ Google Pathways: инфраструктурный прорыв 7:53
После длительного ожидания Google опубликовала подробную техническую документацию по Pathways. По словам Килхера, Pathways — это не столько новая архитектура модели, сколько мощная инфраструктурная система для распределенных вычислений.
Янник описывает Pathways как «MapReduce для машинного обучения»:
- Эффективное распределение: Система позволяет распределять вычисления по множеству устройств (акселераторов) с разной сетевой архитектурой, эффективно работая с гетерогенными задачами.
- Умный планировщик: pathways выступает в роли компилятора и планировщика, который асинхронно распределяет нагрузку, минимизируя время простоя оборудования.
Автор полагает, что это решение позволит Google значительно оптимизировать работу своих дата-центров, хотя и воздерживается от точных прогнозов о том, как это скажется на ценах для пользователей Google Cloud Platform.
🔍 Инструменты и исследования 10:46
- DouBlind: Платформа для открытого социального рецензирования научных статей. Хотя Янник поддерживает идею, он скептически относится к тому, что сообщество в ближайшее время сделает её основным центром обсуждений, опасаясь предвзятости пользователей.
- CLIP для поиска багов: Метод поиска багов в видеоиграх путем индексации игровых футажей через CLIP. Это позволяет разработчикам быстро находить специфические аномалии (например, «персонаж в воздухе»), просто вводя текстовый запрос. Ограничением является необходимость заранее знать, какой баг искать.
- Полезные библиотеки: