# DeepMind против Google: гонка супермоделей Gopher и GLaM

Источник: https://www.youtube.com/watch?v=ZOkvFf8JbkA
Канал: Yannic Kilcher
Опубликовано: 21.12.2021

---

В новом выпуске проекта ML News известный исследователь и блогер Янник Килчер представляет масштабный аналитический обзор ключевых событий в индустрии искусственного интеллекта. В центре внимания автора оказались новые языковые модели-гиганты от DeepMind и Google, концепция краудсорсинговой разработки архитектур, а также этически неоднозначные проекты, доверяющие нейросетям вопросы человеческой жизни и смерти. Представленный материал позволяет оценить технологический срез индустрии и намечающиеся тренды в сфере машинного обучения.

## 📊 Интерактивная аналитика: новые возможности Weights & Biases
[[JUMP:0:19]]

Выпуск начинается с обзора обновлений платформы Weights & Biases, выступающей спонсором видео. Янник Килчер делится персональной ссылкой `1db.me/yannick` для доступа к сервису. Основное внимание ведущий уделяет новой функции интерактивных таблиц — проектору эмбеддингов (Embedding Projector).

Ранее исследователям приходилось выполнять проекцию векторов внутри эксперимента и экспортировать статичные изображения в сторонние инструменты вроде TensorBoard. Теперь инструмент интегрирован напрямую. По словам ведущего, система позволяет брать любые столбцы таблиц с типами данных целых чисел или чисел с плавающей запятой и проецировать их в двухмерное пространство для наглядного анализа.

Для работы доступны три популярных алгоритма:

* Метод главных компонент (PCA).
* Алгоритм U-MAP.
* Алгоритм t-SNE.

Пользователи могут интерактивно настраивать параметры визуализации, группировать данные по цветам и интенсивности, а также добавлять полученные интерактивные графики в финальные отчеты. Ведущий подчеркивает, что инструмент полностью бесплатен для персонального и академического использования.

## 🧠 Масштабирование нейросетей от DeepMind: Gopher и архитектура RETRO
[[JUMP:3:01]]

Главной новостью недели стала публикация компанией DeepMind серии из трех научных работ, посвященных языковому моделированию. Первая модель, получившая название Gopher, обладает колоссальным масштабом в 280 миллиардов параметров, что почти вдвое превышает объем популярной сети GPT-3. Авторы протестировали систему на 152 различных задачах, зафиксировав передовой уровень производительности (state-of-the-art) в большинстве из них.

Для обучения Gopher разработчики собрали массив данных Massive Text, включающий англоязычные веб-страницы, книги, новостные статьи и исходный код. Эксперименты подтвердили важный вывод: качество очистки и фильтрации входящего текста влияет на итоговый результат столь же сильно, как и его физический объем. Масштабирование дало наибольший прирост в понимании прочитанного, фактчекинге и распознавании токсичного контента, однако в логических и математических рассуждениях прогресс оказался скромным.

Ведущий отмечает, что Gopher по-прежнему существенно уступает экспертам-людям в точных дисциплинах. По мнению Янника Килчера, это закономерно: математическое мышление требует не просто усвоения языковых паттернов, а тренировки жестких алгоритмов вывода, что схоже с программированием человеческого мозга. В то время как тривиальные факты модель может просто цитировать из интернета, логические цепочки ей приходится выстраивать фактически через аналог обучения с подкреплением.

Вторая статья DeepMind посвящена шести категориям социальных и этических рисков языковых моделей:

* Дискриминация, изоляция и токсичность.
* Информационные угрозы (hazards).
* Распространение дезинформации.
* Вредоносное использование технологий.
* Проблемы взаимодействия человека и компьютера.
* Автоматизация, доступность и экологический ущерб.

Наибольший практический интерес, по оценке ведущего, представляет третья работа — модель RETRO (Retrieval-Enhanced Transformer). Эта архитектура способна в процессе генерации токенов обращаться к внешней индексируемой базе данных, содержащей триллионы токенов из Википедии, GitHub и новостей. Поиск ближайших соседей осуществляется с помощью предобученной модели эмбеддингов BERT.

Благодаря специальной модификации механизма внимания (chunked attention), RETRO извлекает контекст без квадратичного роста нагрузки на память. Модель демонстрирует сопоставимое с гигантами качество, используя в разы меньше параметров. Как объясняет Килчер, ранее знания приходилось «запекать» напрямую в веса сети, увеличивая ее размеры. Архитектура RETRO позволяет отделить вычислительную мощность от объема знаний, подгружая факты на этапе инференса. 

При этом систему можно использовать как обычный трансформер без подключения базы или же «дооборудовать» (retrofit) ею уже обученные сторонние модели, что, по шутливому замечанию ведущего, выглядит как идеальная «батина шутка», готовившаяся девять месяцев. Такой подход позволит обновлять знания ИИ простым переключением баз без дорогостоящего переобучения.

## 🦜 Генерация кода с CodeParrot и обучение на визуальном шуме
[[JUMP:11:46]]

В блоге Hugging Face опубликовано подробное руководство Леандро фон Верра по обучению модели CodeParrot с нуля. Проект представляет собой миниатюрный аналог системы GitHub Copilot, генерирующей продолжение исходного кода. Автор гайда детально описывает стадии подготовки данных, токенизации кода, фильтрации дубликатов (которых на GitHub оказывается аномально много) и оптимизации параллельного обучения.

В качестве демонстрации приводится пример создания юнит-теста для функции проверки четности числа `is_even`. Хотя маленькая модель не всегда идеально справляется с логикой теста, она безошибочно выстраивает структуру и docstring-описания. Кроме того, CodeParrot демонстрирует отличные результаты при работе со сторонними API-библиотеками, собирая классификатор BERT всего в пару строк.

Параллельно исследователи из MIT представили нестандартную работу «Обучение зрению через созерцание шума» (Learning to See by Looking at Noise). Авторы оспорили классическую парадигму предобучения на реальных датасетах, заменив их процедурно сгенерированным и статистическим шумом, а также изображениями из необученной сети StyleGAN. Удивительно, но модели, прошедшие через такой «шумовой» этап, продемонстрировали высокие результаты при последующей линейной адаптации к датасету ImageNet. Также высокие показатели зафиксированы при использовании случайно сгенерированных текстур из игры Minecraft.

## 🧪 Квантовая симуляция материи и триллионный масштаб Google GLaM
[[JUMP:15:49]]

Компания DeepMind отметилась важной публикацией в журнале Science, посвященной моделированию материи на квантовом уровне с помощью машинного обучения. Алгоритм решает задачу предсказания плотности распределения электронов в молекулах. Ведущий откровенно признается, что квантовая химия находится вне зоны его компетенции, однако подчеркивает: благодаря продвинутой инженерии признаков нейросеть сумела превзойти все существовавшие классические эвристические системы моделирования.

В свою очередь, подразделение Google AI представило разреженную языковую модель GLaM (Generalist Language Model), содержащую более 1 триллиона параметров. В отличие от плотной архитектуры GPT-3, модель GLaM использует концепцию смеси экспертов (Mixture of Experts, MoE). При обработке каждого токена специальный слой маршрутизации (gating layer) активирует лишь небольшую часть экспертных субмоделей.

Такой подход обеспечивает колоссальную энергоэффективность при инференсе и высокую скорость работы. Хотя на этапе обучения GLaM требует больше вычислительных операций (FLOPs) из-за огромного датасета, суммарное потребление электричества оказывается ниже, чем у плотных аналогов. В тестах на естественных языках GLaM превзошла GPT-3 по многим параметрам.

## 🤝 Идеология открытых моделей и академический скепсис вокруг DeepMind
[[JUMP:18:42]]

Исследователь Колин Раффель выступил с манифестом, призвав развивать искусственный интеллект по канонам классического программного обеспечения с открытым исходным кодом. Он предлагает внедрить механизмы контроля версий, пулл-реквестов, семантического версионирования и слияния патчей для совместного обучения сетей. В качестве гипотетического примера описывается коллаборация университетов, которые поочередно дообучают разные слои условной модели Clamp, публикуя версии 1.0.0 и 1.0.1.

Янник Килчер выражает скепсис относительно ряда аналогий Раффеля. По мнению ведущего, идея частичного обновления параметров ради экономии трафика несостоятельна, так как в распределенном обучении важна частота синхронизации, а не итоговый размер файла весов при отправке пулл-реквеста. Кроме того, Янник считает концепцию обратной совместимости моделей натянутой, поскольку в ИИ-сфере она сводится к неизменности входов и выходов, что относится скорее к традиционному софтварному инжинирингу. Главным же препятствием для модульности Килчер называет необходимость сквозного обучения систем (end-to-end).

Вторым заметным дискуссионным событием стала статья Эрнеста Дэвиса, раскритиковавшая недавний громкий успех DeepMind в области фундаментальной математики. В аннотации Дэвис утверждает, что в задачах теории узлов вклад глубокого обучения был минимален и можно было обойтись классическим статистическим анализом, а в теории представлений ИИ выполнял лишь роль привычной экспериментальной математики. Критик полагает, что тезис о «направлении человеческой интуиции» с помощью ИИ является вводящим в заблуждение.

Янник Килчер с иронией отмечает высокий уровень скепсиса и резкости в тексте Дэвиса. Ведущий задается вопросом: если стандартных методов статистики было достаточно, почему критики сами не применили их ранее для вывода фундаментальных теорем? По мнению Килчера, оригинальная статья DeepMind корректно описывала свои результаты, а гнев академического сообщества должен быть перенаправлен на прессу, раздувшую хайп в стиле «ИИ полностью решил математику».

## 🛠 Еженедельный дайджест: релизы, утилиты и конкурсы
[[JUMP:24:48]]

В традиционной рубрике полезных инструментов ведущий выделил ряд важных релизов недели:

* Вышла библиотека Transformers версии 4.13.0, получившая поддержку bfloat16 и новых моделей: SegFormer, ImageGPT, DeBERTa v3.
* Cohere AI опубликовала практическое руководство по промпт-инжинирингу и настройке параметров temperature, top-k и top-p.
* GitHub существенно обновил поисковой движок по коду, добавив продвинутые фильтры и поддержку регулярных выражений (regex).
* Hugging Face представила интерактивный инструмент Data Measurements Tool для глубокого экспресс-анализа распределения данных в датасетах.
* Microsoft выпустила панель Responsible AI Dashboard, включающую модули причинно-следственного вывода, анализа ошибок и интерпретируемости моделей.
* Саша Руш представил интерактивный учебник MiniTorch для самостоятельного написания аналога PyTorch с нуля.
* Запущен сервис Pandas Tutor, визуализирующий пошаговое выполнение цепочек преобразования данных на примере таблиц с характеристиками собак.
* Энтузиасты создали поисковик Yuno, подбирающий аниме на основе текстового описания скрытых качеств персонажей.

В сфере практического применения выделяется масштабный конкурс от Бюро мелиорации США с призовым фондом в 500 000 долларов. Участникам предлагается построить алгоритм прогнозирования объемов таяния снежного покрова в Скалистых горах весной и летом, что критически важно для планирования водных ресурсов западных штатов. Главный победитель получит 150 000 долларов.

Также Килчер отметил публикацию пользователя Reddit под ником Arno Wakzinski, который, не имея опыта веб-разработки, создал браузерную версию стратегической игры «Ультимативный крестики-нолики» (Ultimate Tic-Tac-Toe) на базе ИИ-алгоритма AlphaZero. Игра обладает сложной иерархической структурой, где каждый ход определяет субрегион для следующего действия оппонента. Помимо этого, вышли фреймворк для текстовой аугментации NL Augmenter и база из 33 психологических датасетов от проекта Open Psychometrics.

## 💀 Искусственный интеллект на границе этики: капсула Sarco и аватары Synthesia
[[JUMP:32:24]]

Резонансной темой выпуска стало обсуждение планов по выводу на рынок Швейцарии роботизированной капсулы для ассистируемого самоубийства Sarco. Издание Swiss Info опубликовало материал, который позже подвергся серьезному фактчекингу и исправлению: первоначальные заявления о прохождении юридической экспертизы в стране оказались ложными. В Швейцарии эвтаназия легальна, однако медицинские организации предъявляют жесткие требования к психическому состоянию человека.

Создатели капсулы Sarco планируют автоматизировать этот процесс, внедрив скрининг-систему на базе искусственного интеллекта для оценки вменяемости пользователя. По задумке авторов, человек должен пройти тест онлайн, получить код доступа, лечь в капсулу, ответить на контрольные вопросы и нажать кнопку для снижения уровня кислорода. Проект вызвал резкий протест у профессиональных психиатров.

Янник Килчер жестко критикует данную инициативу, называя идею выдачи кодов на эвтаназию после онлайн-тестов чудовищным упрощением. По мнению ведущего, создатели системы фатально недооценивают механизмы работы клинической депрессии и ее влияние на сознание. Хотя Килчер допускает, что в долгосрочной перспективе алгоритмы смогут сравняться в точности диагностики с практикующими врачами, в обозримом будущем доверять машине подобные вердикты категорически недопустимо.

В финале видео упоминается успех компании Synthesia, привлекшей 50 миллионов долларов инвестиций на развитие платформы фотореалистичных виртуальных аватаров для корпоративного обучения. Ведущий с иронией указывает на высокий уровень мета-иронии стартапа: всплывающий на их сайте чат-бот для продаж использует один из их собственных ИИ-аватаров вместо живого сотрудника. Килчер предполагает, что подобные технологии могут вызвать обратную реакцию общества — взрывной рост спроса на подчеркнуто несовершенных, реальных людей-актеров без макияжа, со шрамами и грязью на лице, доказывающими их биологическое происхождение.