# Янник Килчер: «Эджлорды из Discord обошли техногигантов в демократизации ИИ»

Источник: https://www.youtube.com/watch?v=Ihg4XDWOy68
Канал: Yannic Kilcher
Опубликовано: 16.06.2021

---

В новом выпуске ML News исследователь машинного обучения Янник Килчер разбирает последние достижения индустрии: от использования обучения с подкреплением для проектирования процессоров до методов «перевоспитания» языковых моделей. В центре внимания — попытки OpenAI привить GPT-3 определенные ценности с помощью крошечных наборов данных и успех сообщества EleutherAI, выпустившего открытого конкурента GPT-3, созданного «группой энтузиастов из Discord».

## 🧠 Google проектирует чипы с помощью ИИ
[[JUMP:0:28]]

Исследователи из Google опубликовали в журнале Nature статью о применении обучения с подкреплением (Reinforcement Learning, RL) для автоматизации компоновки чипов (graph placement). Эта задача традиционно считается чрезвычайно сложной проблемой дискретной оптимизации, которую обычно решают эксперты-люди в связке со специализированным софтом [0:42].

Основные детали метода:

*   **Задача:** Разместить компоненты чипа (например, ускорителей TPU) на плоскости и соединить их оптимальным образом.
*   **Метод:** Агент RL анализирует доступное пространство и принимает решения о позиционировании блоков.
*   **Функция вознаграждения:** Агент стремится минимизировать длину проводки, плотность размещения и заторы (congestion) [1:07].
*   **Архитектура:** Система базируется на графовых сверточных сетях (Graph Convolutional Networks).

По словам Янника Килчера, использование ИИ позволяет создавать дизайн чипов гораздо быстрее и качественнее, чем традиционные методы [1:21]. Это открывает путь к созданию специализированных процессоров под конкретные задачи при меньших затратах. Примечательно, что хотя статья только сейчас попала в Nature, Янник разбирал раннюю версию этой работы еще год назад [2:01].

## 🎮 Вызов NetHack: испытание для ИИ в ASCII-мире
[[JUMP:2:14]]

Facebook (ныне Meta) анонсировала NetHack Challenge в рамках конференции NeurIPS 2021. NetHack — это классическая ролевая игра 1980-х годов с процедурно генерируемыми мирами и графикой на основе символов ASCII [2:27].

Почему эта игра важна для науки:

*   **Сложность:** Взаимодействия с предметами и врагами крайне запутаны и часто требуют изучения фанатских вики-ресурсов.
*   **Скорость:** Благодаря терминальному интерфейсу симуляция игры происходит молниеносно, что идеально для обучения агентов [2:53].
*   **Проблемы RL:** В игре присутствует частичная наблюдаемость (вы не видите всю карту) и необходимость долгосрочного планирования. В NetHack действует правило «необратимой смерти» (permadeath): после гибели персонажа приходится начинать в совершенно новом мире, что исключает возможность простого зазубривания эпизода [3:18].

Янник Килчер с юмором отметил, что сам он «полностью провалил» курирование прошлогоднего челленджа Flatland, поэтому в этот раз не призывает сообщество участвовать массово, но готов поддержать отдельных энтузиастов [3:31].

## ⚖️ Воспитание ценностей в GPT-3: метод PALMS
[[JUMP:3:55]]

OpenAI представила исследование о том, как корректировать поведение языковых моделей с помощью Fine-tuning на небольших, тщательно отобранных наборах данных. Метод получил название PALMS.

Ключевые факты исследования:

*   **Объем данных:** Для изменения поведения модели потребовалось всего около 80 текстовых примеров [4:39].
*   **Процент данных:** Это составляет всего 0,0000211% от объема исходного тренировочного набора GPT-3 [5:06].
*   **Эффект масштаба:** Чем больше параметров у модели, тем меньшее количество примеров ей нужно для усвоения новых ценностей.

В качестве примера Янник приводит запрос «Кто самый красивый человек?». Базовая модель выдает конкретное описание (например, старика, дожившего до конца дней в достатке), тогда как «обученная ценностям» модель начинает рассуждать о субъективности красоты и культурных трендах [6:11].

Янник Килчер критически оценивает это достижение. По его мнению, OpenAI продемонстрировала не столько «этичность», сколько технологию легкого управления (steering) моделью [7:41]. Он утверждает, что используя те же 80 примеров, можно сделать модель «гипер-предвзятой» в любую сторону. Янник иронизирует над заявлением OpenAI о том, что «власть определять поведение модели не может принадлежать одной организации», указывая на то, что доступ к GPT-3 по-прежнему жестко ограничен листом ожидания самой OpenAI [8:59].

## 🔬 Карта мозга размером в петабайт
[[JUMP:9:02]]

Google AI выпустила интерактивную 3D-реконструкцию одного кубического миллиметра коры головного мозга человека. Несмотря на крошечный объем физической ткани, цифровой объем данных составил 1,4 петабайта [9:11].

Проект позволяет детально рассмотреть нейронные связи прямо в браузере. Янник признался, что попытка открыть эту визуализацию во время записи видео привела к критическому сбою в работе его компьютера [9:39].

## 🔓 GPT-J: Ответ энтузиастов корпорациям
[[JUMP:9:51]]

Бен Ванг и Аарон Комацузаки из коллектива EleutherAI выпустили GPT-J — модель с 6 миллиардами параметров, обученную на JAX. Хотя она значительно меньше полной GPT-3 (175 млрд параметров), её возможности впечатляют: она справляется с математикой, логическими выводами и написанием кода [10:07].

Главное отличие GPT-J, по мнению Килчера, заключается в подходе к доступности:

1.  Модель можно протестировать в браузере без всяких «листов ожидания» [11:10].
2.  Код и веса модели (включая параметры оптимизатора) выложены в открытый доступ [11:22].

Янник Килчер считает, что «группа воинов из Twitter и эджлордов из Discord» сделала для демократизации ИИ больше, чем крупные исследовательские лаборатории, которые лишь декларируют благие намерения, но держат технологии под замком ради прибыли [11:35].

## 💬 Форум TensorFlow и другие новости
[[JUMP:12:02]]

В рамках Google I/O 2021 было представлено множество обновлений экосистемы TensorFlow: TensorFlow Lite для мобильных устройств, новые леса решений в Keras и платформа Vertex AI [12:17].

Особое внимание Янник уделил «революционному» анонсу — созданию официального форума для сообщества TensorFlow. Ведущий саркастично заметил, что разработчики решили отказаться от «устаревших» Stack Overflow и GitHub в пользу концепции форума, которая «пришла из Древней Греции» и представляет собой сайт, где люди могут отвечать на сообщения друг друга [12:57].

## 🖌️ TextStyleBrush: Глубинные фейки в тексте
[[JUMP:13:53]]

Facebook Research представила систему TextStyleBrush, которая способна копировать стиль текста с изображения (включая рукописный ввод) по одному-единственному слову (one-shot) [13:53]. 

Потенциальные применения:

*   Перевод надписей в дополненной реальности (AR) с сохранением оригинального шрифта и текстуры [14:33].
*   Замена текста на фото без потери естественности.

Янник Килчер обратил внимание на то, как Facebook позиционирует проект: компания утверждает, что инструмент создан для «изучения глубоких фейков в тексте», а не для их создания. Ведущий видит в этом очередной пример манипулятивного фрейминга со стороны технологических гигантов [15:36].

В завершение обзора был упомянут Alien Simulator — инструмент для создания симуляций эволюционных миров и «программируемой материи», который может быть полезен тем, кто интересуется популяционным подходом в области ИИ [15:45].