Янник Кильхер: WebGPT, ожившие рисунки и новый журнал TMLR

Искусственный интеллект: от поиска в сети до оживления детских рисунков 2:36

В свежем выпуске еженедельного дайджеста Янник Кильхер обсуждает последние достижения в области машинного обучения: от интеграции языковых моделей с интернетом до новых стандартов публикации научных работ и инструментов для генеративного искусства.

🌐 WebGPT: GPT-3 учится пользоваться поисковиком 2:50

OpenAI представила WebGPT — версию модели GPT-3, способную самостоятельно искать информацию в сети для ответов на запросы.

Принцип работы: Модель использует интерфейс, имитирующий поведение человека-исследователя. Она делает поисковые запросы, переходит по ссылкам и собирает фрагменты текстов, формируя «контекст» для финального ответа.
Обучение: Авторы применили комбинацию методов: поведение клонирования (imitation learning) на действиях экспертов, обучение модели вознаграждения (reward model) с участием людей-оценщиков и, наконец, обучение с подкреплением (RL).
Фильтрация: Для повышения точности ответов OpenAI использует «отбрасывающую выборку» (rejection sampling) — модель генерирует несколько вариантов, а затем выбирает лучший с помощью модели вознаграждения.

Кильхер отмечает, что такой подход делает работу модели более объяснимой, так как она предоставляет ссылки на источники. Он также жестко раскритиковал датасет TruthfulQA, назвав его «скамом», так как, по его мнению, он предвзято составлен для провокации моделей на генерацию «конспирологического» бреда, в то время как отказ от ответа («I don't know») засчитывается как верный, но неинформативный.

🎨 Искусство и анимация: рисунки оживают 15:44

Meta AI Research представила проект, позволяющий оживлять детские рисунки. Процесс включает сегментацию изображения, регистрацию ключевых точек и последующую анимацию с помощью обученной нейросети.

Практика: Кильхер попробовал демо-версию, отметив, что хотя алгоритм отлично справляется с простыми формами, сложные объекты вроде столов могут потребовать ручной корректировки ключевых точек.

В области генеративного искусства также вышли:

MinDALL-E: Модель на 1,3 млрд параметров, обученная на 14 млн пар «текст-изображение».
Arnheim v3: Новая версия модели от DeepMind, использующая «нейронные визуальные грамматики» для создания коллажей и изображений не попиксельно, а через последовательность действий (мазков или размещения объектов).

🔬 Новая площадка для науки: TMLR 18:18

Янник Кильхер и группа соавторов анонсировали создание нового журнала «Transactions on Machine Learning Research» (TMLR).

Особенности: Отказ от жестких дедлайнов (публикация в любое время), открытое рецензирование (OpenReview) с возможностью анонимности и акцент на обоснованности выводов, а не на «хайпе» или новизне.
Критика: Ведущий опасается, что журнал может стать местом, куда будут отправлять статьи, не прошедшие фильтры топовых конференций из-за отсутствия «рекордных» метрик.

🛠 Кратко о других обновлениях 21:19

Gradio: Сервис для быстрого создания интерфейсов моделей был приобретен Hugging Face.
Fine-tuning GPT-3: OpenAI открыла API для дообучения модели под конкретные задачи с использованием небольших наборов данных.
Оптимизация внимания: Google Research представила метод, позволяющий избежать требования памяти $O(N^2)$ в механизме self-attention.
Дистилляция данных: Google AI Blog рассказал о методах создания «сверхпрототипов» данных, позволяющих обучать классификаторы на крайне малых выборках.