Коннор Лихи из EleutherAI: «Мы строим джинна, который может нас взорвать»

Eye on AI 2,1 тыс. 28 мин 4 мин 12.01.2022
Главное

В мире искусственного интеллекта долгое время доминировало убеждение, что создание сверхмощных моделей — прерогатива лишь технологических гигантов уровня Google или OpenAI. Однако Коннор Лихи, сооснователь хакерского коллектива EleutherAI, на собственном примере доказывает, что децентрализованные группы энтузиастов способны играть в той же лиге. В беседе с Крейгом Смитом он раскрывает внутреннюю кухню разработки больших языковых моделей (LLM) и предупреждает о рисках, связанных с гонкой вооружений в сфере ИИ.

🛠 Демократизация ИИ: Хакеры против корпораций 1:18

Проект EleutherAI возник как «децентрализованный исследовательский коллектив», родившийся из случайной реплики в чате. Коннор Лихи описывает участников как «кучку странных людей», которые решили бросить вызов монополии крупных лабораторий на передовые исследования . Несмотря на отсутствие у большинства участников профильных ученых степеней, коллектив смог создать и выпустить в открытый доступ модель GPT-J с 6 миллиардами параметров .

По словам Лихи, успех проекта обусловлен специфической культурой:

⚙️ Математика против инженерии: Как строятся LLM 4:48

Техническая сторона создания моделей, по мнению Лихи, полна парадоксов. С одной стороны, теоретическая база и алгоритмы (преимущественно архитектура Transformer) общеизвестны и понятны . С другой — практическая реализация требует колоссальных инженерных усилий.

Лихи выделяет несколько критических аспектов масштабирования моделей:

  1. Проблема памяти. Когда модель перешагивает порог в несколько миллиардов параметров, она перестает помещаться в память одного графического процессора (GPU) . Это требует разработки сложных схем распределения модели между несколькими устройствами.
  2. Аппаратные ограничения. Для обучения больших моделей критически важна не только мощность процессоров, но и скорость сетевого соединения между ними. Лихи отмечает заслуги компании NVIDIA, которая доминирует на рынке благодаря высокоскоростным интерконнектам (после поглощения Mellanox) .
  3. Вычислительные ресурсы. GPT-J обучалась с использованием мощностей Google Cloud в рамках программы поддержки академических исследований (TFRC) . Лихи подчеркивает, что основным автором кода, позволившего запустить модель на специализированных чипах TPU, стал Бен Ванг (ныне сотрудник OpenAI).

Интересно, что сам код модели может занимать всего несколько сотен или тысяч строк, так как он опирается на высокоуровневые библиотеки (TensorFlow, PyTorch) . Сложность заключается в настройке процесса обучения, борьбе с численными ошибками и оптимизации производительности.

🇨🇳 Китайский масштаб: WuDao 2.0 и магия Mixture of Experts 12:05

Обсуждая китайскую модель WuDao 2.0, которая в десять раз больше GPT-3 (1,75 трлн параметров против 175 млрд), Лихи призывает к осторожности в сравнениях. Он объясняет разницу между «плотными» (dense) моделями и моделями «смеси экспертов» (Mixture of Experts, MoE) .

Суть феномена MoE, по словам гостя:

Лихи считает, что гигантские цифры часто используются для громких пресс-релизов, хотя реальная эффективность таких систем может быть ниже ожидаемой при слепом масштабировании .

🧠 Феномен GPT-3: Когда количество переходит в качество 14:29

Главным научным открытием современности Лихи называет успех GPT-3. По его мнению, научное сообщество еще не в полной мере осознало шокирующий факт: простое увеличение масштаба (больше данных, больше вычислителей) позволило модели разблокировать навыки, которым её никогда не учили намеренно .

Модель научилась писать код, решать математические задачи и вести диалог без специального инжиниринга этих функций . Лихи проводит параллель с «Горьким уроком» Ричарда Саттона: простые алгоритмы, способные эффективно использовать огромные вычисления, в конечном итоге всегда побеждают сложные «умные» алгоритмы, созданные вручную учеными .

⚠️ Угроза экзистенциального риска: Джинн в черном ящике 20:10

Одной из самых тревожных тем беседы стал вопрос безопасности и контроля над ИИ. Лихи сравнивает современный ИИ с «инопланетным разумом», принципы работы которого внутри «черного ящика» мы понимаем крайне плохо .

Ключевые опасения Коннора Лихи:

Ведущий Крейг Смит предположил, что ИИ может стать инструментом глобальной координации, способным найти идеальные компромиссы между враждующими политическими системами . Лихи соглашается, что ИИ мог бы «доказать» честность намерений сторон через проверку исходного кода, но подчеркивает: для этого ИИ сам должен быть подконтрольным и заслуживающим доверия .

🛑 Можно ли остановить прогресс? 25:41

Несмотря на открытость разработок EleutherAI, Лихи признает, что создание по-настоящему опасных моделей пока ограничено огромным порогом входа. «Трудно спрятать суперкомпьютер стоимостью 100 миллионов долларов», — иронизирует он .

Тем не менее, Лихи не питает иллюзий относительно будущего:

💬 Цитаты

«Мы — кучка странных людей, тусующихся в чате и проводящих исследования ради удовольствия.»

Коннор Лихи 01:32

«ИИ — это инопланетяне. Они не люди, они не думают как мы, и они очень хороши в оптимизации целей.»

Коннор Лихи 20:24

«Проблема контроля — это философия с дедлайном. У нас есть срок, и если мы не разберемся, нам конец.»

Коннор Лихи 24:09
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Трансформер (Transformer)
Архитектура нейронных сетей, ставшая стандартом для обработки текстов и позволившая эффективно распараллеливать обучение.
Параметры
Числовые значения внутри нейросети, которые настраиваются в процессе обучения; их количество часто служит мерой 'сложности' модели.
Mixture of Experts (MoE)
Метод обучения, при котором активируется только часть нейронной сети для каждого конкретного запроса, что экономит вычислительные ресурсы.
Alignment Problem
Проблема согласования целей искусственного интеллекта с намерениями и ценностями человека.
📊 Цифры
🗓 Хронология
  1. 2020 Выход GPT-3 и начало бума больших языковых моделей.
  2. 2021 Выпуск модели GPT-J коллективом EleutherAI.
⚖️ Другая сторона
Искусственный интеллект EleutherAI Connor Leahy GPT-J GPT-3 WuDao 2.0