В новом выпуске ML News исследователь машинного обучения Янник Килчер разбирает последние достижения индустрии: от использования обучения с подкреплением для проектирования процессоров до методов «перевоспитания» языковых моделей. В центре внимания — попытки OpenAI привить GPT-3 определенные ценности с помощью крошечных наборов данных и успех сообщества EleutherAI, выпустившего открытого конкурента GPT-3, созданного «группой энтузиастов из Discord».
🧠 Google проектирует чипы с помощью ИИ 0:28
Исследователи из Google опубликовали в журнале Nature статью о применении обучения с подкреплением (Reinforcement Learning, RL) для автоматизации компоновки чипов (graph placement). Эта задача традиционно считается чрезвычайно сложной проблемой дискретной оптимизации, которую обычно решают эксперты-люди в связке со специализированным софтом .
Основные детали метода:
- Задача: Разместить компоненты чипа (например, ускорителей TPU) на плоскости и соединить их оптимальным образом.
- Метод: Агент RL анализирует доступное пространство и принимает решения о позиционировании блоков.
- Функция вознаграждения: Агент стремится минимизировать длину проводки, плотность размещения и заторы (congestion) .
- Архитектура: Система базируется на графовых сверточных сетях (Graph Convolutional Networks).
По словам Янника Килчера, использование ИИ позволяет создавать дизайн чипов гораздо быстрее и качественнее, чем традиционные методы . Это открывает путь к созданию специализированных процессоров под конкретные задачи при меньших затратах. Примечательно, что хотя статья только сейчас попала в Nature, Янник разбирал раннюю версию этой работы еще год назад .
🎮 Вызов NetHack: испытание для ИИ в ASCII-мире 2:14
Facebook (ныне Meta) анонсировала NetHack Challenge в рамках конференции NeurIPS 2021. NetHack — это классическая ролевая игра 1980-х годов с процедурно генерируемыми мирами и графикой на основе символов ASCII .
Почему эта игра важна для науки:
- Сложность: Взаимодействия с предметами и врагами крайне запутаны и часто требуют изучения фанатских вики-ресурсов.
- Скорость: Благодаря терминальному интерфейсу симуляция игры происходит молниеносно, что идеально для обучения агентов .
- Проблемы RL: В игре присутствует частичная наблюдаемость (вы не видите всю карту) и необходимость долгосрочного планирования. В NetHack действует правило «необратимой смерти» (permadeath): после гибели персонажа приходится начинать в совершенно новом мире, что исключает возможность простого зазубривания эпизода .
Янник Килчер с юмором отметил, что сам он «полностью провалил» курирование прошлогоднего челленджа Flatland, поэтому в этот раз не призывает сообщество участвовать массово, но готов поддержать отдельных энтузиастов .
⚖️ Воспитание ценностей в GPT-3: метод PALMS 3:55
OpenAI представила исследование о том, как корректировать поведение языковых моделей с помощью Fine-tuning на небольших, тщательно отобранных наборах данных. Метод получил название PALMS.
Ключевые факты исследования:
- Объем данных: Для изменения поведения модели потребовалось всего около 80 текстовых примеров .
- Процент данных: Это составляет всего 0,0000211% от объема исходного тренировочного набора GPT-3 .
- Эффект масштаба: Чем больше параметров у модели, тем меньшее количество примеров ей нужно для усвоения новых ценностей.
В качестве примера Янник приводит запрос «Кто самый красивый человек?». Базовая модель выдает конкретное описание (например, старика, дожившего до конца дней в достатке), тогда как «обученная ценностям» модель начинает рассуждать о субъективности красоты и культурных трендах .
Янник Килчер критически оценивает это достижение. По его мнению, OpenAI продемонстрировала не столько «этичность», сколько технологию легкого управления (steering) моделью . Он утверждает, что используя те же 80 примеров, можно сделать модель «гипер-предвзятой» в любую сторону. Янник иронизирует над заявлением OpenAI о том, что «власть определять поведение модели не может принадлежать одной организации», указывая на то, что доступ к GPT-3 по-прежнему жестко ограничен листом ожидания самой OpenAI .
🔬 Карта мозга размером в петабайт 9:02
Google AI выпустила интерактивную 3D-реконструкцию одного кубического миллиметра коры головного мозга человека. Несмотря на крошечный объем физической ткани, цифровой объем данных составил 1,4 петабайта .
Проект позволяет детально рассмотреть нейронные связи прямо в браузере. Янник признался, что попытка открыть эту визуализацию во время записи видео привела к критическому сбою в работе его компьютера .
🔓 GPT-J: Ответ энтузиастов корпорациям 9:51
Бен Ванг и Аарон Комацузаки из коллектива EleutherAI выпустили GPT-J — модель с 6 миллиардами параметров, обученную на JAX. Хотя она значительно меньше полной GPT-3 (175 млрд параметров), её возможности впечатляют: она справляется с математикой, логическими выводами и написанием кода .
Главное отличие GPT-J, по мнению Килчера, заключается в подходе к доступности:
- Модель можно протестировать в браузере без всяких «листов ожидания» .
- Код и веса модели (включая параметры оптимизатора) выложены в открытый доступ .
Янник Килчер считает, что «группа воинов из Twitter и эджлордов из Discord» сделала для демократизации ИИ больше, чем крупные исследовательские лаборатории, которые лишь декларируют благие намерения, но держат технологии под замком ради прибыли .
💬 Форум TensorFlow и другие новости 12:02
В рамках Google I/O 2021 было представлено множество обновлений экосистемы TensorFlow: TensorFlow Lite для мобильных устройств, новые леса решений в Keras и платформа Vertex AI .
Особое внимание Янник уделил «революционному» анонсу — созданию официального форума для сообщества TensorFlow. Ведущий саркастично заметил, что разработчики решили отказаться от «устаревших» Stack Overflow и GitHub в пользу концепции форума, которая «пришла из Древней Греции» и представляет собой сайт, где люди могут отвечать на сообщения друг друга .
🖌️ TextStyleBrush: Глубинные фейки в тексте 13:53
Facebook Research представила систему TextStyleBrush, которая способна копировать стиль текста с изображения (включая рукописный ввод) по одному-единственному слову (one-shot) .
Потенциальные применения:
- Перевод надписей в дополненной реальности (AR) с сохранением оригинального шрифта и текстуры .
- Замена текста на фото без потери естественности.
Янник Килчер обратил внимание на то, как Facebook позиционирует проект: компания утверждает, что инструмент создан для «изучения глубоких фейков в тексте», а не для их создания. Ведущий видит в этом очередной пример манипулятивного фрейминга со стороны технологических гигантов .
В завершение обзора был упомянут Alien Simulator — инструмент для создания симуляций эволюционных миров и «программируемой материи», который может быть полезен тем, кто интересуется популяционным подходом в области ИИ .