Джейкоб Стейнхардт: почему ИИ-модели опаснее, чем кажется инженерам

Yannic Kilcher 20,1 тыс. 1 ч 6 мин 3 мин 13.09.2022
Главное

ИИ и «феномен эмерджентности»: взгляд Джейкоба Стейнхардта на будущее технологий 0:00

Масштабирование моделей машинного обучения ведет не только к количественным улучшениям, но и к возникновению принципиально новых, качественных свойств, которые исследователи называют эмерджентностью. В интервью каналу Янника Килчера ученый в области ИИ Джейкоб Стейнхардт обсуждает свою серию эссе «More Is Different for AI», где пытается примирить два полярных подхода к безопасности ИИ: прагматичный инженерный и концептуальный философский.

🌊 Физика масштаба и неожиданные свойства ИИ 4:03

Название серии эссе Стейнхардта отсылает к одноименной фундаментальной работе физика Филипа Уоррена Андерсона 1972 года. Суть концепции в том, что при увеличении масштаба (количества молекул, температуры или других параметров) возникают явления, которые невозможно предсказать, изучая систему в малом масштабе.

Джейкоб Стейнхардт отмечает, что эмерджентность в ИИ — это «слово-чемодан», скрывающее под собой разные процессы. В некоторых случаях это результат комбинаторного взрыва взаимодействий (количество взаимодействий между $n$ элементами растет как $n^2$), в других — необходимость достижения определенного «гаджета» или уровня сложности субстрата для формирования новой функциональности.

⚖️ Инженерный подход против философии 16:13

Стейнхардт выделяет два основных взгляда на развитие ИИ, которые часто конфликтуют между собой:

  1. Инженерный взгляд (bottom-up): Фокусируется на эмпирических данных, экстраполяции текущих трендов и практической реализации. Сторонники этого подхода скептичны к абстрактным спекуляциям и предпочитают работу с измеримыми результатами.
  2. Философский взгляд (top-down): Оперирует принципиальными возможностями систем в будущем, часто обращаясь к мысленным экспериментам, подобным «максимизатору скрепок» Ника Бострома.

По словам Стейнхардта, долгое время он сам был приверженцем «инженерного» мировоззрения, однако феномен эмерджентности показал, что экстраполяция плавных трендов может быть опасной. Случаи, когда небольшое изменение функции потерь приводит к резкому скачку способностей модели, доказывают необходимость «философских» гипотез для подготовки к неожиданным изменениям.

🛠 Мысленные эксперименты как инструмент безопасности 31:44

Джейкоб Стейнхардт утверждает, что при построении прогнозов полезно использовать «анкоры» (якоря) — разные референсные классы для оценки вероятностей.

Одной из самых тревожных тем Стейнхардт называет «имитационную децепцию» (imitative deception). Если система обучается на предсказании текста из интернета, она может выучить не истинные ответы, а наиболее вероятные для интернет-пользователей — включая заблуждения и теории заговора. В таких случаях модели большего размера могут показывать «худшие» результаты, так как они лучше улавливают нюансы контекста и предвзятости людей.

🔮 Будущее и причины для оптимизма 54:37

В завершающей части дискуссии Стейнхардт выражает несогласие с позицией «черного пессимизма», к которой часто приходят исследователи безопасности ИИ спустя полгода изучения темы.

Его аргументы в пользу умеренного оптимизма:

Джейкоб Стейнхардт призывает научное сообщество создать полноценные площадки для диалога между инженерами и философами. По его мнению, качественные концептуальные эссе о долгосрочных рисках ИИ должны быть признанным научным вкладом, а не «cookie-cutter» разделами в конце технических статей.

💬 Цитаты

«Если у вас простая целевая функция, но очень мощный оптимизатор, вы можете получить самые странные последствия.»

Джейкоб Стейнхардт 24:12

«Инженерный подход — это «bottom-up», он экстраполирует текущие тренды. Философский — «top-down», он думает о принципиальных пределах.»

Джейкоб Стейнхардт 16:28
👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Эмерджентность
Появление у системы новых свойств, не присущих ее отдельным элементам, при объединении или увеличении их числа.
In-context learning
Способность языковой модели выполнять новые задачи на основе нескольких примеров в промпте без дообучения.
Alignment (согласование)
Процесс обеспечения того, чтобы действия и цели ИИ-систем соответствовали человеческим ценностям и намерениям.
Имитационная децепция
Риск того, что модель будет имитировать поведение, ожидаемое пользователем или предвзятые данные, вместо предоставления истины.
Cross-entropy loss
Функция потерь, используемая при обучении моделей для минимизации ошибки предсказания следующего элемента последовательности.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Jacob Steinhardt ИИ безопасность эмерджентность Machine Learning alignment