Янник Килчер: OpenAI суммаризирует книги, а Шмидхубер снова требует признания

В новом выпуске новостей машинного обучения Янник Килчер разбирает запутанный скандал с тройным плагиатом в научных статьях, возможности использования модели CLIP для мгновенного поиска по записям камер наблюдения и новый метод рекурсивного суммаризирования книг от OpenAI. Также в центре внимания — очередной манифест Юргена Шмидхубера против лауреатов премии Тьюринга и амбициозный план Великобритании по превращению в ИИ-сверхдержаву.

🕵️ Тройной плагиат: детективная история в мире машинного обучения 0:00

История началась с поста пользователя Chuong98 на Reddit, который обвинил авторов одной из свежих статей в плагиате . По версии Chuong98, их работа (условно — «Статья А»), загруженная на arXiv в августе, была скопирована «Статьей B», появившейся в сентябре . Сходство заключалось в использовании идентичных методов на разных наборах данных и почти дословных выводах .

Однако в деле быстро обнаружился неожиданный поворот. Другой пользователь, zil 24, выяснил, что сама «Статья А» (обвинитель) почти слово в слово повторяет «Статью C», написанную китайскими авторами еще в 2020 году .

Ситуация выглядит крайне запутанно:

«Статья B» действительно является копией «Статьи C», включая скриншоты диаграмм в худшем разрешении .
«Статья C» никогда не публиковалась открыто — авторы забросили её после нескольких отказов на конференциях .
Авторы «Статьи А» отрицают плагиат «Статьи C», утверждая, что идея была настолько простой, что они пришли к ней независимо .

Янник Килчер отмечает, что в области машинного обучения, где ежемесячно выходят тысячи работ, подобные совпадения неизбежны . По мнению автора канала, авторам «Статьи А», скорее всего, можно верить: простые и эффективные идеи часто приходят в голову разным группам ученых одновременно . Главный вопрос остается открытым: как авторы «Статьи B» получили доступ к неопубликованному тексту «Статьи C»? Комитет конференции NeurIPS проверил своих рецензентов, но не нашел связей с предполагаемыми плагиаторами .

👁️ CLIP на службе видеонаблюдения: новая суперсила или этический кошмар? 7:26

Разработчик Джон Модерн продемонстрировал, как модель CLIP от OpenAI можно эффективно использовать для поиска объектов на записях камер наблюдения. Хотя изначально в OpenAI заявляли, что CLIP не очень подходит для подобных задач, проект Модерна доказывает обратное .

Принцип работы системы:

Каждый кадр видео кодируется с помощью CLIP.
Текстовый запрос пользователя (например, «белый автомобиль BMW» или «велосипедист в синей рубашке») также кодируется моделью.
Вычисляется скалярное произведение между векторами кадров и текста. Если сходство превышает порог, кадр выводится пользователю .

Янник Килчер подчеркивает, что эта технология дает «суперсилу» любому владельцу домашнего компьютера . Раньше для подобного отслеживания требовалось обучать специализированные детекторы, теперь же достаточно ввести текстовое описание. Автор выражает опасение, что хотя камеры часто устанавливают для благих целей (например, фиксации проезда на красный свет), наличие таких инструментов упрощает их нецелевое использование для тотальной слежки .

📜 Юрген Шмидхубер против «Троицы» ИИ: битва за цитирование 11:00

Известный ученый Юрген Шмидхубер опубликовал в своем блоге очередной объемный текст, в котором критикует лекцию лауреатов премии Тьюринга 2021 года — Йошуа Бенжио, Яна Лекуна и Джеффри Хинтона . Шмидхубер обвиняет «троицу» в присвоении чужих заслуг и неправильном цитировании исторических источников .

Основные претензии Шмидхубера:

Dropout (метод исключения нейронов) — это лишь вариант его «стохастического дельта-правила» 1990 года .
GAN (генеративно-состязательные сети) — частный случай его принципа «состязательного любопытства» .
Трансформеры — по сути, являются «программаторами с быстрыми весами» (fast weight programmers), которые он описывал десятилетия назад .

Янник Килчер, признавая фундаментальный вклад лаборатории Шмидхубера, считает такую манеру ведения дискуссии контрпродуктивной . По мнению ведущего, Шмидхубер выглядит «обиженным» из-за отсутствия у него премии Тьюринга . Постоянные попытки свести любое современное достижение к своим работам 90-х годов приводят к тому, что научное сообщество просто перестает на него реагировать . Килчер иронично предлагает Шмидхуберу предсказать «следующую большую вещь» заранее, чтобы ускорить революцию, а не критиковать постфактум .

📚 Рекурсивное суммаризирование: как OpenAI учит GPT-3 читать книги 15:00

OpenAI представила метод суммаризации целых книг с использованием обратной связи от человека. Поскольку современные языковые модели имеют ограниченное окно контекста, они не могут прочитать книгу целиком за один раз.

Решение OpenAI заключается в рекурсивном разложении задачи :

Книга разбивается на небольшие фрагменты.
Модель суммаризирует каждый фрагмент.
Затем модель суммаризирует полученные краткие содержания в еще более сжатые тексты, и так до самого верхнего уровня .
При суммаризации текущего фрагмента модель учитывает краткое содержание предыдущих частей, чтобы не терять нить повествования .

По словам Килчера, такой подход позволяет работать с текстами неограниченной длины. Однако он отмечает, что текущие результаты еще далеки от идеала: на верхнем уровне модель склонна перечислять события, но плохо передает общую сюжетную арку или абстрактные идеи произведения .

🛡️ Корпоративный мониторинг и цифровая диагностика 17:57

Борьба с предвзятостью в переписке

Стартап Unbiasedit представил продукт для мониторинга корпоративной почты на предмет расовой и иных форм предвзятости . Программа флагует сомнительные фразы (например, упоминание «diversity hire» — найма ради квот) и отправляет уведомление в HR-отдел . Любопытно, что разработчики сознательно отказались от использования ИИ, чтобы избежать «предвзятости внутри самого алгоритма», полагаясь на простой поиск по ключевым словам . Янник Килчер называет этот софт «пугающим» и сомневается, что он способен реально улучшить климат в коллективе, скорее создавая атмосферу надзора .

iPhone как инструмент психиатра 20:02

Apple работает над функциями для обнаружения депрессии и ранних когнитивных нарушений (предвестников болезни Альцгеймера) через анализ использования iPhone . Килчер относится к этой новости более оптимистично, полагая, что при условии добровольности и конфиденциальности данных это может быть полезно, учитывая дефицит специалистов в области ментального здоровья . Однако он призывает учитывать огромные риски для приватности .

🇬🇧 Британия как ИИ-сверхдержава и новости библиотек 21:32

Правительство Великобритании опубликовало 10-летний план по превращению страны в мирового лидера в области ИИ, стремясь конкурировать с США и Китаем . План включает расширение вычислительных мощностей и создание исследовательских центров . Янник Килчер видит здесь две основные проблемы:

Мобильность кадров: ученые и инженеры легко переезжают из страны в страну вслед за лучшими условиями .
Поглощения: успешные британские стартапы часто покупаются американскими или китайскими гигантами (как это случилось с DeepMind, который теперь принадлежит Google) .

Технические обновления :

Scikit-learn 1.0: Знаковое обновление популярной библиотеки. Основное изменение — обязательное использование именованных аргументов во многих функциях .
Dopamine 4.0: Библиотека для обучения с подкреплением (RL) теперь поддерживает Jax и Docker .
Microsoft Muzic: Репозиторий для генерации музыки и понимания аудио . Их логотип в MIDI-формате можно даже прослушать .
DynaTask от Facebook: Новая система для бенчмаркинга NLP-моделей с участием человека, который пытается «сломать» модель состязательными примерами .
PhiFlow: Фреймворк для решения дифференциальных уравнений, полезный в гидродинамике .
Dora the Explorer: Менеджер экспериментов от Facebook, фокусирующийся на простоте и использовании чистого Python вместо YAML-файлов .
Habitat Lab: Библиотека для робототехники в 3D-средах получила новый датасет Matterport 3D с реальными сканами помещений .
Google WIT: Датасет из пар «изображение-текст», основанный на данных Wikipedia. Он меньше аналогов, но обладает очень высоким качеством описаний на разных языках .