# Релиз BLOOM 176B, китайский суперкомпьютер и громкие увольнения: ИИ-итоги лета от Янника Килчера

Источник: https://www.youtube.com/watch?v=W3mrgqtm5R4
Канал: Yannic Kilcher
Опубликовано: 27.07.2022

---

В новом выпуске своего дайджеста известный ИИ-исследователь Янник Килчер возвращается после летнего перерыва, чтобы подробно разобрать главные технологические прорывы и кадровые потрясения в индустрии машинного обучения. В центре внимания автора — долгожданный релиз гигантской открытой языковой модели BLOOM, сенсационные слухи о создании в Китае нейросети «мозгового масштаба» и масштабный проект по автоматическому переводу от Meta AI. Помимо этого, ведущий анализирует новые тренды в ИИ-законодательстве, парадигмы использования моделей для генерации синтетических данных и причины громких увольнений топ-менеджеров из Apple и Tesla.

## 🌟 Эпоха открытого гигантизма: BLOOM и YaLM 100B
[[JUMP:0:51]]

Летний сезон ознаменовался выходом целого ряда масштабных языковых моделей, разработанных как коммерческими ИИ-гигантами, так и независимыми исследовательскими группами. Самым важным событием в этой сфере Янник Килчер называет запуск BLOOM — языковой модели со 176 миллиардами параметров, созданной в рамках глобального исследовательского консорциума Big Science. Этот проект объединил более тысячи ученых из более чем 250 стран, поставивших перед собой амбициозную цель: не просто воспроизвести успех закрытой модели GPT-3 от OpenAI, но и превзойти её, сделав разработку полностью открытой для мирового сообщества.

BLOOM представляет собой огромный шаг вперед для всей индустрии независимых исследований. Процесс разработки, проектирования архитектуры и непосредственного обучения нейросети проходил в абсолютно прозрачном режиме под кураторством сообщества, а финальные веса модели теперь официально выложены в открытый доступ на платформе Hugging Face. 

Подобный подход имеет несколько ключевых преимуществ:

* **Прозрачность данных:** в отличие от закрытых коммерческих систем, исследователи точно знают, на каких текстах обучалась нейросеть.
* **Мультиязычность:** датасет включает более 59 языков, что расширяет возможности работы со слабо представленными лингвистическими группами.
* **Программирование:** порядка 13% обучающей выборки составляют языки программирования, обеспечивая модели базовые навыки генерации кода.

В данный момент протестировать модель BLOOM можно в специальном веб-интерфейсе, однако из-за гигантского объема нейросети разработчики пока принимают только короткие текстовые запросы. Параллельно с мировым релизом BLOOM свои успехи на поприще создания больших моделей продемонстрировали и российские разработчики. Так, компания «Яндекс» представила YaLM 100B — текстовую модель со 100 миллиардами параметров, которая специализируется на генерации контента на английском и русском языках.

---

## 📜 Лицензия RAIL: этические запреты и автоматические контракты
[[JUMP:2:27]]

Одной из самых интересных и обсуждаемых особенностей релиза BLOOM, по мнению Янника Килчера, стал юридический формат распространения модели. Нейросеть поставляется под специализированной лицензией Big Science RAIL (Responsible AI License), которая накладывает строгие этические и практические ограничения на использование технологии. В некотором смысле RAIL напоминает классические копилефт-лицензии: если независимый разработчик создает на основе BLOOM производный продукт (например, проводит тонкую настройку модели под свои задачи), он обязан распространять свою версию на тех же юридических условиях.

Основная часть ограничений прописана в специальном приложении к документу. И если запреты на использование ИИ для нарушения международного законодательства или причинения вреда несовершеннолетним стандартны, то некоторые специфические пункты вызывают у экспертов много вопросов. В частности, лицензия RAIL категорически запрещает применять BLOOM для полностью автоматизированного принятия решений, которые могут негативно повлиять на юридические права человека или создать юридически обязывающие соглашения (например, автоматические контракты).

Янник Килчер признается, что пока не до конца понимает, как именно эти запреты будут интерпретироваться и соблюдаться на практике. Автор строит предположения о потенциальных сценариях:

* **Сфера страхования:** если клиент общается с чат-ботом на базе BLOOM, и тот автоматически генерирует для него страховой полис, будет ли это считаться нарушением лицензии?
* **Концепция Human-in-the-Loop:** сможет ли бизнес обойти данное ограничение, если ИИ будет лишь формировать проект контракта, а финальную подпись и проверку анкеты соискателя или клиента продолжит осуществлять живой менеджер?

По словам Килчера, подобные юридические тонкости ИИ-лицензирования обществу и судам еще только предстоит детально проработать в будущем. Ещё одно любопытное требование RAIL заключается в том, что любой создатель автоматических ботов, статей или публикаций в соцсетях с помощью BLOOM обязан явно и понятно информировать читателей о том, что текст сгенерирован искусственным интеллектом. Тем не менее, ведущий считает лицензию достаточно мягкой и компромиссной, ведь она по-прежнему позволяет исследователям создавать на базе модели коммерческие, монетизируемые продукты.

---

## 🇨🇳 Китайский суперкомпьютер: нейросети масштаба человеческого мозга
[[JUMP:5:42]]

Если западные открытые модели измеряются сотнями миллиардов параметров, то новости из Азии выводят масштабы вычислений на принципиально иной уровень. Со ссылкой на публикацию в издании South China Morning Post Янник Килчер рассказывает о новом китайском суперкомпьютере, на котором ученым якобы удалось успешно обучить нейросеть «мозгового масштаба». Заявленный объем модели составляет беспрецедентные 174 триллиона параметров, что примерно в тысячу раз превышает размеры GPT-3 или BLOOM.

Ведущий подчеркивает, что к этой информации стоит относиться с определенной долей осторожности, поскольку на момент записи видео никаких официальных научных заявлений или подробных отчетов от китайских исследовательских институтов опубликовано не было. Ранее в ИИ-индустрии уже создавались триллионные модели, однако они, как правило, основывались на архитектуре разреженной активации (sparse models), когда в один момент времени работает лишь малая часть сети. Какая архитектура используется в новом китайском проекте — пока остается загадкой.

Тем не менее, масштаб инженерной мысли впечатляет. Число параметров этой сети действительно начинает приближаться к теоретическому количеству синапсов в человеческом мозге. По заявлениям китайских разработчиков, им удалось добиться стабильной и высокопроизводительной работы системы, а скорость межнодового обмена данными внутри суперкомпьютера превысила фантастические 23 петабайта в секунду.

В статье SCMP приводится цитата одного из исследователей, который утверждает, что параллельные вычисления этой машины имитируют человеческое мышление — например, «способность одновременно принимать пищу и смотреть телевизор». Янник Килчер с иронией комментирует это заявление, отмечая, что если роботы и ИИ действительно научатся есть перед экраном, то главная цель по созданию сильного искусственного интеллекта (AGI) будет официально достигнута, ведь более великого человеческого навыка мир ещё не знал.

---

## 🌐 Проект No Language Left Behind от Meta AI: разрушение языковых барьеров
[[JUMP:7:28]]

Ещё одним крупным релизом лета стала публикация исследовательской работы и блог-поста от Meta AI под говорящим названием No Language Left Behind («Ни один язык не будет забыт»). Компания представила масштабную модель-переводчик, способную работать со списком из более чем 200 мировых языков. Особый технологический акцент в данном проекте сделан на поддержке так называемых «низкоресурсных» языков (low-resource languages), которые традиционно игнорируются крупными ИИ-разработчиками.

Проблема перевода редких языков долгое время оставалась тупиковой для машинного обучения. Чтобы обучить качественную модель, разработчикам требуются огромные массивы параллельных данных — то есть один и тот же текст, зеркально переведенный на два языка. Существующие методы, такие как перевод через язык-посредник (например, перевод с суахили на хинди через английский), искажают смысл и требуют обязательного наличия качественной англоязычной базы.

Инженеры Meta AI смогли преодолеть это ограничение, применив революционный подход: они задействовали дополнительную нейросеть для автоматического поиска и выравнивания текстов.

Система работает следующим образом:

1. В модель загружаются огромные массивы разрозненных, не связанных между собой текстов на разных языках.
2. Специальный ИИ-алгоритм сканирует их и автоматически находит фрагменты, которые с высокой долей вероятности являются смысловыми переводами друг друга.
3. Сформированная таким образом база данных становится фундаментом для обучения основной мультиязычной модели перевода.

Янник Килчер выражает искреннее восхищение этой концепцией, подчеркивая, что индустрия наконец-то отходит от примитивной парадигмы «собери готовые данные вручную и обучи одну модель». Идея использовать одни нейросети для генерации или разметки качественных обучающих датасетов для других моделей открывает невероятные перспективы для ИИ-индустрии. Это позволяет создавать продвинутые системы даже в тех областях, где человечество физически не накопило достаточного количества структурированной информации.

---

## 🔬 Кризис воспроизводимости научного ML и новые инвестиции AI21 Labs
[[JUMP:9:54]]

Помимо триумфальных релизов, в академическом сообществе активно обсуждаются и внутренние системные проблемы. Килчер обращает внимание на научный воркшоп, посвященный кризису утечки данных и воспроизводимости в исследованиях на базе машинного обучения. Сама сфера Computer Science регулярно страдает от невозможности в точности повторить результаты чужих экспериментов, но в смежных дисциплинах — медицине, химии, биологии и физике, где ученые применяют ML в качестве прикладного инструмента — ситуация, по словам организаторов, выглядит ещё более удручающей.

Основные методологические ошибки, из-за которых научные статьи содержат некорректные выводы, включают в себя:

* Отсутствие четкого разделения данных на обучающую и тестовую выборки (train-test split).
* Временную утечку данных (temporal leakage), когда модель заглядывает в "будущее" при анализе временных рядов.
* Проведение предобработки и нормализации данных одновременно для тестового и обучающего датасетов, что искажает чистоту эксперимента.

Янник Килчер иронично признается, что в своей исследовательской практике сам порой совершал подобные ошибки, однако подчеркивает важность открытого обсуждения таких ловушек для оздоровления научной ИИ-среды.

На финансовом фронте ИИ-индустрии дела идут отлично: стартап AI21 Labs, считающийся одним из главных конкурентов OpenAI, успешно закрыл раунд финансирования в размере 64 миллионов долларов для расширения своих коммерческих языковых сервисов. Ведущий выражает сомнение в том, что колоссальные инвестиции, вливаемые сегодня в многочисленные ИИ-стартапы, окупятся для каждого инвестора на рынке. Тем не менее, Килчер хвалит оригинальный технологический подход AI21 Labs. В своих моделях линейки Jurassic-X они учат нейросеть не просто генерировать текст, а самостоятельно использовать сторонние программы и цифровые инструменты для эффективного решения поставленных пользователем задач.

---

## 🏃‍♂️ Великий исход топ-менеджеров: перестановки в Apple, Tesla и DeepMind
[[JUMP:11:54]]

Лето принесло и крупные кадровые тектонические сдвиги на самом высоком уровне ИИ-индустрии. Один из создателей генеративно-состязательных сетей (GAN) Ян Гудфеллоу официально покинул корпорацию Apple и перешел на работу в DeepMind. В профильной прессе долгое время циркулировали слухи, будто ключевой причиной его ухода стало жесткое нежелание руководства Apple продлевать соглашения об удаленной работе для сотрудников. Килчер рекомендует относиться к подобным инсайдам журналистов с осторожностью, отмечая, что пресса обычно знает не более пяти процентов от реального положения дел внутри компаний.

Практически одновременно об уходе со своего поста объявил легендарный директор по искусственному интеллекту компании Tesla Андрей Карпати. Незадолго до этого он брал длительный творческий отпуск, который в итоге перерос в окончательное увольнение. По имеющейся информации, Карпати пока не планирует переходить в другие корпорации, а собирается сфокусироваться на собственных независимых проектах и вещах, которые приносят ему искреннее удовольствие.

На этом фоне финансовое издание Business Insider сообщило о том, что Tesla уволила около 200 сотрудников из своего подразделения Autopilot. В ИИ-сообществе тут же поползли мрачные шутки о том, что уволенных специалистов планируют полностью заменить на разрабатываемых Илоном Маском роботов Optimus, однако Янник поспешил успокоить зрителей, напомнив, что эти слухи пока не имеют под собой никаких официальных подтверждений.

---

## 🎮 Минутка юмора: нейросетевая игра Word-Dally
[[JUMP:12:54]]

В финале выпуска Янник Килчер решил разбавить серьезную повестку демонстрацией развлекательного веб-проекта под названием Word-Dally, размещенного на платформе Hugging Face. Проект представляет собой оригинальный гибрид сверхпопулярной словесной игры Wordle и генератора изображений DALL-E Mini (ныне известного как Craiyon).

Суть игрового процесса проста:

* Пользователю демонстрируется коллаж из девяти картинок, сгенерированных нейросетью по какому-то секретному текстовому запросу.
* Игрок должен угадать исходный текстовый промпт, который был отправлен модели.
* При каждом обновлении страницы генерируется абсолютно новая загадка.

Килчер прямо в эфире протестировал игру на одном из вариантов. Посмотрев на специфические размытые изображения, ведущий с первой же попытки безошибочно угадал правильный ответ — «Эминем в игре GTA». В шутливой форме Янник признал, что последующие уровни игры становятся гораздо сложнее, и призвал своих зрителей обязательно беречь себя, пить больше воды в жаркие летние дни и следить за будущими выпусками новостей машинного обучения.