Янник Килчер: «Эджлорды из Discord обошли техногигантов в демократизации ИИ»

В новом выпуске ML News исследователь машинного обучения Янник Килчер разбирает последние достижения индустрии: от использования обучения с подкреплением для проектирования процессоров до методов «перевоспитания» языковых моделей. В центре внимания — попытки OpenAI привить GPT-3 определенные ценности с помощью крошечных наборов данных и успех сообщества EleutherAI, выпустившего открытого конкурента GPT-3, созданного «группой энтузиастов из Discord».

🧠 Google проектирует чипы с помощью ИИ 0:28

Исследователи из Google опубликовали в журнале Nature статью о применении обучения с подкреплением (Reinforcement Learning, RL) для автоматизации компоновки чипов (graph placement). Эта задача традиционно считается чрезвычайно сложной проблемой дискретной оптимизации, которую обычно решают эксперты-люди в связке со специализированным софтом .

Основные детали метода:

Задача: Разместить компоненты чипа (например, ускорителей TPU) на плоскости и соединить их оптимальным образом.
Метод: Агент RL анализирует доступное пространство и принимает решения о позиционировании блоков.
Функция вознаграждения: Агент стремится минимизировать длину проводки, плотность размещения и заторы (congestion) .
Архитектура: Система базируется на графовых сверточных сетях (Graph Convolutional Networks).

По словам Янника Килчера, использование ИИ позволяет создавать дизайн чипов гораздо быстрее и качественнее, чем традиционные методы . Это открывает путь к созданию специализированных процессоров под конкретные задачи при меньших затратах. Примечательно, что хотя статья только сейчас попала в Nature, Янник разбирал раннюю версию этой работы еще год назад .

🎮 Вызов NetHack: испытание для ИИ в ASCII-мире 2:14

Facebook (ныне Meta) анонсировала NetHack Challenge в рамках конференции NeurIPS 2021. NetHack — это классическая ролевая игра 1980-х годов с процедурно генерируемыми мирами и графикой на основе символов ASCII .

Почему эта игра важна для науки:

Сложность: Взаимодействия с предметами и врагами крайне запутаны и часто требуют изучения фанатских вики-ресурсов.
Скорость: Благодаря терминальному интерфейсу симуляция игры происходит молниеносно, что идеально для обучения агентов .
Проблемы RL: В игре присутствует частичная наблюдаемость (вы не видите всю карту) и необходимость долгосрочного планирования. В NetHack действует правило «необратимой смерти» (permadeath): после гибели персонажа приходится начинать в совершенно новом мире, что исключает возможность простого зазубривания эпизода .

Янник Килчер с юмором отметил, что сам он «полностью провалил» курирование прошлогоднего челленджа Flatland, поэтому в этот раз не призывает сообщество участвовать массово, но готов поддержать отдельных энтузиастов .

⚖️ Воспитание ценностей в GPT-3: метод PALMS 3:55

OpenAI представила исследование о том, как корректировать поведение языковых моделей с помощью Fine-tuning на небольших, тщательно отобранных наборах данных. Метод получил название PALMS.

Ключевые факты исследования:

Объем данных: Для изменения поведения модели потребовалось всего около 80 текстовых примеров .
Процент данных: Это составляет всего 0,0000211% от объема исходного тренировочного набора GPT-3 .
Эффект масштаба: Чем больше параметров у модели, тем меньшее количество примеров ей нужно для усвоения новых ценностей.

В качестве примера Янник приводит запрос «Кто самый красивый человек?». Базовая модель выдает конкретное описание (например, старика, дожившего до конца дней в достатке), тогда как «обученная ценностям» модель начинает рассуждать о субъективности красоты и культурных трендах .

Янник Килчер критически оценивает это достижение. По его мнению, OpenAI продемонстрировала не столько «этичность», сколько технологию легкого управления (steering) моделью . Он утверждает, что используя те же 80 примеров, можно сделать модель «гипер-предвзятой» в любую сторону. Янник иронизирует над заявлением OpenAI о том, что «власть определять поведение модели не может принадлежать одной организации», указывая на то, что доступ к GPT-3 по-прежнему жестко ограничен листом ожидания самой OpenAI .

🔬 Карта мозга размером в петабайт 9:02

Google AI выпустила интерактивную 3D-реконструкцию одного кубического миллиметра коры головного мозга человека. Несмотря на крошечный объем физической ткани, цифровой объем данных составил 1,4 петабайта .

Проект позволяет детально рассмотреть нейронные связи прямо в браузере. Янник признался, что попытка открыть эту визуализацию во время записи видео привела к критическому сбою в работе его компьютера .

🔓 GPT-J: Ответ энтузиастов корпорациям 9:51

Бен Ванг и Аарон Комацузаки из коллектива EleutherAI выпустили GPT-J — модель с 6 миллиардами параметров, обученную на JAX. Хотя она значительно меньше полной GPT-3 (175 млрд параметров), её возможности впечатляют: она справляется с математикой, логическими выводами и написанием кода .

Главное отличие GPT-J, по мнению Килчера, заключается в подходе к доступности:

Модель можно протестировать в браузере без всяких «листов ожидания» .
Код и веса модели (включая параметры оптимизатора) выложены в открытый доступ .

Янник Килчер считает, что «группа воинов из Twitter и эджлордов из Discord» сделала для демократизации ИИ больше, чем крупные исследовательские лаборатории, которые лишь декларируют благие намерения, но держат технологии под замком ради прибыли .

💬 Форум TensorFlow и другие новости 12:02

В рамках Google I/O 2021 было представлено множество обновлений экосистемы TensorFlow: TensorFlow Lite для мобильных устройств, новые леса решений в Keras и платформа Vertex AI .

Особое внимание Янник уделил «революционному» анонсу — созданию официального форума для сообщества TensorFlow. Ведущий саркастично заметил, что разработчики решили отказаться от «устаревших» Stack Overflow и GitHub в пользу концепции форума, которая «пришла из Древней Греции» и представляет собой сайт, где люди могут отвечать на сообщения друг друга .

🖌️ TextStyleBrush: Глубинные фейки в тексте 13:53

Facebook Research представила систему TextStyleBrush, которая способна копировать стиль текста с изображения (включая рукописный ввод) по одному-единственному слову (one-shot) .

Потенциальные применения:

Перевод надписей в дополненной реальности (AR) с сохранением оригинального шрифта и текстуры .
Замена текста на фото без потери естественности.

Янник Килчер обратил внимание на то, как Facebook позиционирует проект: компания утверждает, что инструмент создан для «изучения глубоких фейков в тексте», а не для их создания. Ведущий видит в этом очередной пример манипулятивного фрейминга со стороны технологических гигантов .

В завершение обзора был упомянут Alien Simulator — инструмент для создания симуляций эволюционных миров и «программируемой материи», который может быть полезен тем, кто интересуется популяционным подходом в области ИИ .