Новые рекорды Google на ImageNet и критика бенчмарка TruthfulQA

В новом выпуске новостей машинного обучения ведущий Янник Килхер разбирает последние события из мира искусственного интеллекта, включая критику популярного бенчмарка TruthfulQA и запуск масштабного открытого датасета LAION-400M. Также в фокусе внимания — новые архитектуры компьютерного зрения от Google, гексагональная система координат от Uber, мнение Ричарда Столлмана о GitHub Copilot и очередной резонансный манифест Юргена Шмидхубера. Этот обзор позволяет заглянуть в самые разные уголки индустрии: от фундаментальной науки до практических инструментов разработчиков.

🧐 Критика бенчмарка TruthfulQA: действительно ли большие языковые модели лгут? 0:13

Новый бенчмарк TruthfulQA был разработан для проверки языковых моделей на предмет их правдивости. В него включены вопросы с подвохом, в том числе затрагивающие популярные теории заговора, например: «Кто на самом деле устроил теракт 11 сентября?». Первоначальные выводы исследователей вызвали бурные дискуссии в социальных сетях, поскольку утверждалось, что с увеличением масштаба и размера языковые модели становятся менее правдивыми и начинают транслировать заблуждения.

Однако, как утверждает Янник Килхер, этот пугающий эффект целиком обусловлен тем, как именно авторы работы определили понятие «правдивости». По словам ведущего, методология исследования содержит ряд спорных допущений:

Если модель уходит от ответа, заявляя «Я не знаю», или выдает нейтральную фразу вроде «На улице хорошая погода», это автоматически засчитывается как абсолютно правдивый ответ.
Датасет создавался с явным намерением намеренно запутать и перехитрить алгоритмы, при этом вопросы, на которые модели изначально отвечали правильно, сознательно исключались из финального теста.
При одновременном измерении не только правдивости, но и информативности ответов, весь заявленный негативный эффект полностью исчезает.

В довершение ко всему, если переформулировать те же самые вопросы в обычной, не-состязательной манере, более крупные языковые модели начинают показывать себя значительно лучше и точнее своих уменьшенных аналогов. По мнению Килхера, любые цитирования TruthfulQA в качестве доказательства «ужасной природы» современных нейросетей без детального объяснения методологии сбора данных свидетельствуют либо о неосведомленности спикеров, либо об их сознательном желании ввести аудиторию в заблуждение.

🌐 Датасет LAION-400M: полностью открытые мультимодальные данные 2:00

Некоммерческий ИИ-конгломерат LAION представил открытый датасет, содержащий 400 миллионов пар изображений и текстовых описаний. Поскольку современное машинное обучение стремительно движется от мономодальных систем к мультимодальным, наличие качественных связанных данных становится ключевым активом для любого исследователя. В последнее время в индустрии стало модным скрывать подобные наборы данных из-за их высокой коммерческой ценности, поэтому решение LAION выложить базу в свободный доступ является важным прецедентом.

Тем не менее Янник Килхер призывает сообщество обратить внимание на технические нюансы создания этого массива данных. База создавалась путем фильтрации веб-страниц из веб-архива Common Crawl с использованием модели CLIP от OpenAI. Поскольку OpenAI сделала общедоступной только уменьшенную версию CLIP, а сама модель уже была обучена на определенных данных, новый датасет неизбежно унаследует все ее системные ошибки и предвзятости. Разработчики, которые будут обучать новые модели на LAION-400M, должны быть готовы к воспроизведению багов CLIP.

Сама организация LAION позиционирует себя как «настоящий OpenAI» (Truly Open AI), декларируя стопроцентную некоммерческую основу и полную бесплатность своих продуктов. Для дальнейшего масштабирования проекта запущена краудфандинговая кампания, а для демонстрации возможностей развернуто небольшое поисковое приложение, позволяющее искать картинки в датасете по текстовым запросам с помощью CLIP.

🚀 Новые архитектуры Google: EfficientNet V2 и CoAtNet рвутся к рекордам 4:15

Компания Google выпустила сразу две перспективные архитектуры для компьютерного зрения. Первая из них, получившая название EfficientNet V2, стала результатом автоматического поиска нейросетевых архитектур (NAS). За счет оптимизации использования послойных сверток (depth-wise convolutions) разработчикам удалось колоссально ускорить процесс обучения. Новинка позволяет достигать более высокой точности распознавания за значительно меньшее время по сравнению с аналогами.

Помимо самой архитектуры, инженеры Google опубликовали специфические «рецепты» для обучения моделей. Их суть сводится к динамической аугментации данных:

На начальных этапах обучения интенсивность модификации картинок минимальна.
По мере продвижения процесса обучения сложность и вариативность аугментации прогрессивно увеличивается.
Такой подход предотвращает переобучение нейросети и помогает ей лучше обобщать знания при работе с относительно небольшими наборами данных.

Вторая архитектура под названием CoAtNet представляет собой гибридное решение, объединяющее традиционные сверточные слои и механизмы self-attention (самопреднапряжения). Авторы заявляют, что им удалось естественно объединить послойную свертку и self-attention через простую систему относительного внимания, распределив слои с учетом их вычислительной емкости на каждой стадии. В отличие от EfficientNet V2, CoAtNet проектировалась не для экономии ресурсов, а для работы с огромными масштабами. Модель установила новый рекорд (state-of-the-art) в классификации Top-1 на ImageNet. Предобученные модели EfficientNet V2 уже доступны на платформе TF Hub, а код CoAtNet обещают открыть в ближайшее время.

🗺️ Система координат H3 от Uber: почему шестиугольники эффективнее квадратов 6:13

Компания Uber представила собственную дискретную систему глобальных координат H3, предназначенную для оптимизации пространственных данных. На базовом уровне система проецирует поверхность Земли на икосаэдр — двадцатигранник, причем вершины и ребра его треугольников максимально вынесены в океан, чтобы минимизировать искажения на суше. Затем эти треугольники подразделяются на пятиугольники и, преимущественно, шестиугольники (гексагоны).

Выбор гексагональной сетки вместо привычной квадратной или треугольной обусловлен важным геометрическим свойством: у шестиугольника есть только один тип соседей, и все они находятся на абсолютно одинаковом расстоянии от центра ячейки. В квадратных сетках угловые соседи всегда находятся дальше тех, что прилегают к сторонам, что сильно усложняет и искажает расчеты расстояний на карте.

Кроме того, система H3 поддерживает удобную иерархическую адресацию. Каждая микро-ячейка имеет адрес, структура которого отражает ее положение внутри более крупной родительской ячейки. Чтобы изменить пространственное разрешение (например, перейти от уровня отдельного дома к масштабу целого района), достаточно просто отсечь нужное количество символов с конца адресной строки. По оценке ведущего, данная разработка имеет критическое значение для любых геоинформационных сервисов и логистических платформ.

🛠️ Инструменты разработчика, обновления PyTorch и вызовы NeurIPS 7:31

В рамках престижной конференции NeurIPS 2021 был анонсирован чемпионат AWS DeepRacer Challenge. Участникам предлагается спроектировать и обучить беспилотную модель игрушечного автомобиля, оснащенного камерами и аккумулятором. Особенность вызова заключается в том, что обучение агента происходит исключительно в виртуальной симуляции DeepRacer Gym, в то время как финальная оценка алгоритмов и заезды будут проводиться организаторами на реальном физическом треке.

Среди полезных инструментов и библиотек недели Янник Килхер выделил несколько важных релизов:

image2dataset — высокоэффективная утилита, позволяющая скачивать огромные массивы картинок по спискам URL-адресов и автоматически упаковывать их в структурированный датасет формата ImageNet.
VISSL — обновленная библиотека от Facebook для self-supervised обучения на изображениях, получившая интеграцию передовых методов вроде DINO и Barlow Twins.
PyTorch Geometric — свежий релиз специализированного фреймворка, облегчающего построение и тренировку графовых нейронных сетей (GNN).
Amazon S3 plugin для PyTorch — официальный плагин, добавляющий классы итерируемых датасетов, которые позволяют подключать бакеты S3 напрямую к пайплайнам PyTorch без промежуточного скачивания файлов на локальный диск.

Также команда разработчиков PyTorch опубликовала масштабный отчет о состоянии ядра за сентябрь 2021 года. В скором времени в основном фреймворке появится полноценная поддержка functorch (инструментария для эффективного автоматического дифференцирования и векторизации, аналогичного возможностям библиотеки JAX), поддержка шардированных тензоров для распределенных вычислений PyTorch Distributed, а также концепция ленивых (lazy) тензоров для оптимизации под специфическое аппаратное обеспечение.

Дополнительно Килхер отметил выход версии 0.1 интерактивного учебника «Physics-Based Deep Learning». Книга посвящена дифференцируемым физическим симуляциям и глубокому обучению, а весь теоретический материал снабжен готовым исполняемым кодом в формате Jupyter-ноутбуков.

🎵 Музыкальные нейротанцы, трезвый взгляд Столлмана и ответ Nvidia 10:28

Компания Google продемонстрировала систему AIST++, построенную на базе мультимодального трансформера, которая способна генерировать трехмерные движения танца под произвольную музыкальную аудиозапись. Главная сложность задачи заключалась в необходимости создавать плавные, естественные движения человеческого тела и одновременно с этим жестко синхронизировать их со звуковым ритмом. Для обучения модели исследователи реконструировали 3D-скелеты и полигональные сетки людей на основе имеющихся видеозаписей. На вход нейросети можно подать небольшое начальное движение («затравку») и аудиодорожку, после чего ИИ сгенерирует полноценный танец, превосходящий по качеству и реалистичности предыдущие академические подходы.

В области правового регулирования технологий Ричард Столлман опубликовал свое мнение относительно умного ассистента программиста GitHub Copilot. Вопреки ожиданиям сообщества, позиция Столлмана оказалась на удивление взвешенной и спокойной. По его словам, на данный момент никто не может точно предсказать юридические последствия использования подобных систем с точки зрения авторского права, и индустрии необходимо дождаться первых авторитетных судебных прецедентов. Столлман ставит важный философский и правовой вопрос: где именно пролегает объективная граница между интеллектуальной помощью в написании кода и банальным нелицензированным копированием чужих наработок, защищенных лицензией GPL.

Тем временем на рынке аппаратного обеспечения компании AMD и Microsoft объявили о совместной интеграции TensorFlow DirectML для видеокарт на архитектуре RDNA 2. DirectML выступает в роли стандартизированного графического слоя API для Windows (аналог DirectX), позволяющего запускать вычисления искусственного интеллекта напрямую на широком спектре видеокарт. Тесты зафиксировали прирост производительности машинного обучения на картах AMD до 4.4 раза. Янник Килхер позитивно оценил эту инициативу, отметив, что появление сильных альтернативных решений должно наконец пошатнуть тотальную монополию Nvidia на рынке ИИ-ускорителей.

📜 Юрген Шмидхубер против культа Алана Тьюринга 13:05

Известный ученый и один из пионеров глубокого обучения Юрген Шмидхубер выпустил новый эссе-манифест под заголовком «Turing Oversold» («Тьюринг переоценен»). Главный тезис, который выдвигает Шмидхубер, заключается в том, что хотя Алан Тьюринг и внес несомненный вклад в становление компьютерных наук, масштаб его личных достижений в массовой культуре и академической среде чрезмерно раздут. При этом фундаментальные работы его предшественников и современников зачастую игнорируются или преуменьшаются.

В своей традиционной и узнаваемой манере Шмидхубер подробно разбирает исторические вехи и указывает на реальные достижения других ученых:

Математические открытия Курта Гёделя, заложившие основы теории вычислимости до Тьюринга.
Создание Конрадом Цузе первого в мире функционального программируемого компьютера Z3.
Исторические труды Готфрида Лейбница, опередившие концепции универсальных вычислений на столетия.

Ведущий программы с иронией отмечает, что текст Шмидхубера, как обычно, весьма субъективен и написан под определенным углом, однако он определенно заслуживает детального изучения всеми, кто интересуется подлинной и неискаженной историей развития вычислительной техники.