Янник Килчер: OpenAI суммаризирует книги, а Шмидхубер снова требует признания

Yannic Kilcher 23 тыс. 30 мин 6 мин 29.09.2021
Главное

В новом выпуске новостей машинного обучения Янник Килчер разбирает запутанный скандал с тройным плагиатом в научных статьях, возможности использования модели CLIP для мгновенного поиска по записям камер наблюдения и новый метод рекурсивного суммаризирования книг от OpenAI. Также в центре внимания — очередной манифест Юргена Шмидхубера против лауреатов премии Тьюринга и амбициозный план Великобритании по превращению в ИИ-сверхдержаву.

🕵️ Тройной плагиат: детективная история в мире машинного обучения 0:00

История началась с поста пользователя Chuong98 на Reddit, который обвинил авторов одной из свежих статей в плагиате . По версии Chuong98, их работа (условно — «Статья А»), загруженная на arXiv в августе, была скопирована «Статьей B», появившейся в сентябре . Сходство заключалось в использовании идентичных методов на разных наборах данных и почти дословных выводах .

Однако в деле быстро обнаружился неожиданный поворот. Другой пользователь, zil 24, выяснил, что сама «Статья А» (обвинитель) почти слово в слово повторяет «Статью C», написанную китайскими авторами еще в 2020 году .

Ситуация выглядит крайне запутанно:

Янник Килчер отмечает, что в области машинного обучения, где ежемесячно выходят тысячи работ, подобные совпадения неизбежны . По мнению автора канала, авторам «Статьи А», скорее всего, можно верить: простые и эффективные идеи часто приходят в голову разным группам ученых одновременно . Главный вопрос остается открытым: как авторы «Статьи B» получили доступ к неопубликованному тексту «Статьи C»? Комитет конференции NeurIPS проверил своих рецензентов, но не нашел связей с предполагаемыми плагиаторами .

👁️ CLIP на службе видеонаблюдения: новая суперсила или этический кошмар? 7:26

Разработчик Джон Модерн продемонстрировал, как модель CLIP от OpenAI можно эффективно использовать для поиска объектов на записях камер наблюдения. Хотя изначально в OpenAI заявляли, что CLIP не очень подходит для подобных задач, проект Модерна доказывает обратное .

Принцип работы системы:

  1. Каждый кадр видео кодируется с помощью CLIP.
  2. Текстовый запрос пользователя (например, «белый автомобиль BMW» или «велосипедист в синей рубашке») также кодируется моделью.
  3. Вычисляется скалярное произведение между векторами кадров и текста. Если сходство превышает порог, кадр выводится пользователю .

Янник Килчер подчеркивает, что эта технология дает «суперсилу» любому владельцу домашнего компьютера . Раньше для подобного отслеживания требовалось обучать специализированные детекторы, теперь же достаточно ввести текстовое описание. Автор выражает опасение, что хотя камеры часто устанавливают для благих целей (например, фиксации проезда на красный свет), наличие таких инструментов упрощает их нецелевое использование для тотальной слежки .

📜 Юрген Шмидхубер против «Троицы» ИИ: битва за цитирование 11:00

Известный ученый Юрген Шмидхубер опубликовал в своем блоге очередной объемный текст, в котором критикует лекцию лауреатов премии Тьюринга 2021 года — Йошуа Бенжио, Яна Лекуна и Джеффри Хинтона . Шмидхубер обвиняет «троицу» в присвоении чужих заслуг и неправильном цитировании исторических источников .

Основные претензии Шмидхубера:

Янник Килчер, признавая фундаментальный вклад лаборатории Шмидхубера, считает такую манеру ведения дискуссии контрпродуктивной . По мнению ведущего, Шмидхубер выглядит «обиженным» из-за отсутствия у него премии Тьюринга . Постоянные попытки свести любое современное достижение к своим работам 90-х годов приводят к тому, что научное сообщество просто перестает на него реагировать . Килчер иронично предлагает Шмидхуберу предсказать «следующую большую вещь» заранее, чтобы ускорить революцию, а не критиковать постфактум .

📚 Рекурсивное суммаризирование: как OpenAI учит GPT-3 читать книги 15:00

OpenAI представила метод суммаризации целых книг с использованием обратной связи от человека. Поскольку современные языковые модели имеют ограниченное окно контекста, они не могут прочитать книгу целиком за один раз.

Решение OpenAI заключается в рекурсивном разложении задачи :

По словам Килчера, такой подход позволяет работать с текстами неограниченной длины. Однако он отмечает, что текущие результаты еще далеки от идеала: на верхнем уровне модель склонна перечислять события, но плохо передает общую сюжетную арку или абстрактные идеи произведения .

🛡️ Корпоративный мониторинг и цифровая диагностика 17:57

Борьба с предвзятостью в переписке

Стартап Unbiasedit представил продукт для мониторинга корпоративной почты на предмет расовой и иных форм предвзятости . Программа флагует сомнительные фразы (например, упоминание «diversity hire» — найма ради квот) и отправляет уведомление в HR-отдел . Любопытно, что разработчики сознательно отказались от использования ИИ, чтобы избежать «предвзятости внутри самого алгоритма», полагаясь на простой поиск по ключевым словам . Янник Килчер называет этот софт «пугающим» и сомневается, что он способен реально улучшить климат в коллективе, скорее создавая атмосферу надзора .

iPhone как инструмент психиатра 20:02

Apple работает над функциями для обнаружения депрессии и ранних когнитивных нарушений (предвестников болезни Альцгеймера) через анализ использования iPhone . Килчер относится к этой новости более оптимистично, полагая, что при условии добровольности и конфиденциальности данных это может быть полезно, учитывая дефицит специалистов в области ментального здоровья . Однако он призывает учитывать огромные риски для приватности .

🇬🇧 Британия как ИИ-сверхдержава и новости библиотек 21:32

Правительство Великобритании опубликовало 10-летний план по превращению страны в мирового лидера в области ИИ, стремясь конкурировать с США и Китаем . План включает расширение вычислительных мощностей и создание исследовательских центров . Янник Килчер видит здесь две основные проблемы:

  1. Мобильность кадров: ученые и инженеры легко переезжают из страны в страну вслед за лучшими условиями .
  2. Поглощения: успешные британские стартапы часто покупаются американскими или китайскими гигантами (как это случилось с DeepMind, который теперь принадлежит Google) .

Технические обновления :

💬 Цитаты

«Мы должны прекратить приписывать заслуги не тем людям за изобретения, сделанные другими.»

Юрген Шмидхубер 11:30

«Это дает суперсилу людям, имеющим доступ к такому материалу... теперь это возможно не только правительству, но и любому человеку с домашним ПК.»

Янник Килчер 09:24

«Если Шмидхубер считает современные технологии лишь частным случаем его идей 90-х, то, пожалуйста, предскажите нам следующую большую вещь заранее.»

Янник Килчер 14:31
👥 Спикер
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
CLIP
Нейросеть от OpenAI, которая сопоставляет изображения и их текстовые описания.
arXiv
Бесплатный архив электронных препринтов научных статей по физике, математике, компьютерным наукам.
Dropout
Метод предотвращения переобучения нейросетей путем случайного исключения нейронов в процессе обучения.
GAN
Генеративно-состязательная сеть, состоящая из двух нейросетей (генератора и дискриминатора), соревнующихся друг с другом.
Рекурсивная суммаризация
Процесс поэтапного сжатия текста, при котором краткие содержания частей документа объединяются и сжимаются повторно.
📊 Цифры
🗓 Хронология
  1. 1990 Публикация Шмидхубером работ по стохастическому дельта-правилу и состязательному любопытству.
  2. 2020 Написание оригинальной, но неопубликованной статьи (Статья C), ставшей жертвой плагиата.
  3. Август 2021 Загрузка на arXiv 'Статьи А', которую позже обвинят в сходстве со 'Статьей C'.
  4. Сентябрь 2021 Загрузка на arXiv 'Статьи B', которая оказалась почти полной копией 'Статьи C'.
⚖️ Другая сторона
Искусственный интеллект OpenAI CLIP Yannic Kilcher Juergen Schmidhuber GPT-3