Джейкоб Стейнхардт: почему ИИ-модели опаснее, чем кажется инженерам

ИИ и «феномен эмерджентности»: взгляд Джейкоба Стейнхардта на будущее технологий 0:00

Масштабирование моделей машинного обучения ведет не только к количественным улучшениям, но и к возникновению принципиально новых, качественных свойств, которые исследователи называют эмерджентностью. В интервью каналу Янника Килчера ученый в области ИИ Джейкоб Стейнхардт обсуждает свою серию эссе «More Is Different for AI», где пытается примирить два полярных подхода к безопасности ИИ: прагматичный инженерный и концептуальный философский.

🌊 Физика масштаба и неожиданные свойства ИИ 4:03

Название серии эссе Стейнхардта отсылает к одноименной фундаментальной работе физика Филипа Уоррена Андерсона 1972 года. Суть концепции в том, что при увеличении масштаба (количества молекул, температуры или других параметров) возникают явления, которые невозможно предсказать, изучая систему в малом масштабе.

Примеры эмерджентности:
- Вода: Отдельные молекулы H₂O не обладают свойством «влажности»; оно появляется только при взаимодействии огромного числа молекул.
- Биология: ДНК служит примером того, как сложность структуры, обусловленная размером, позволяет хранить информацию — чего нельзя добиться на уровне простых молекул.
- Машинное обучение: Развитие таких моделей, как GPT-3, стало для научного сообщества сюрпризом, продемонстрировав способность к «обучению в контексте» (in-context learning), которой не было у предыдущих систем.

Джейкоб Стейнхардт отмечает, что эмерджентность в ИИ — это «слово-чемодан», скрывающее под собой разные процессы. В некоторых случаях это результат комбинаторного взрыва взаимодействий (количество взаимодействий между $n$ элементами растет как $n^2$), в других — необходимость достижения определенного «гаджета» или уровня сложности субстрата для формирования новой функциональности.

⚖️ Инженерный подход против философии 16:13

Стейнхардт выделяет два основных взгляда на развитие ИИ, которые часто конфликтуют между собой:

Инженерный взгляд (bottom-up): Фокусируется на эмпирических данных, экстраполяции текущих трендов и практической реализации. Сторонники этого подхода скептичны к абстрактным спекуляциям и предпочитают работу с измеримыми результатами.
Философский взгляд (top-down): Оперирует принципиальными возможностями систем в будущем, часто обращаясь к мысленным экспериментам, подобным «максимизатору скрепок» Ника Бострома.

По словам Стейнхардта, долгое время он сам был приверженцем «инженерного» мировоззрения, однако феномен эмерджентности показал, что экстраполяция плавных трендов может быть опасной. Случаи, когда небольшое изменение функции потерь приводит к резкому скачку способностей модели, доказывают необходимость «философских» гипотез для подготовки к неожиданным изменениям.

🛠 Мысленные эксперименты как инструмент безопасности 31:44

Джейкоб Стейнхардт утверждает, что при построении прогнозов полезно использовать «анкоры» (якоря) — разные референсные классы для оценки вероятностей.

Текущий ИИ-анкор: Прогноз, что будущие системы будут похожи на нынешние.
Человеческий анкор: Сравнение ИИ с человеческими способностями (вызывает споры из-за риска антропоморфизма).
Анкор оптимизации: Моделирование поведения ИИ как «идеального оптимизатора» своей целевой функции.

Одной из самых тревожных тем Стейнхардт называет «имитационную децепцию» (imitative deception). Если система обучается на предсказании текста из интернета, она может выучить не истинные ответы, а наиболее вероятные для интернет-пользователей — включая заблуждения и теории заговора. В таких случаях модели большего размера могут показывать «худшие» результаты, так как они лучше улавливают нюансы контекста и предвзятости людей.

🔮 Будущее и причины для оптимизма 54:37

В завершающей части дискуссии Стейнхардт выражает несогласие с позицией «черного пессимизма», к которой часто приходят исследователи безопасности ИИ спустя полгода изучения темы.

Его аргументы в пользу умеренного оптимизма:

Интроспекция: В отличие от черных ящиков, нейронные сети имеют внутренние представления, которые можно изучать и интерпретировать при должном усилии.
Предсказуемость ошибок: Даже если модели generalize (обобщают) не так, как люди, их ошибки часто поддаются анализу и пониманию.

Джейкоб Стейнхардт призывает научное сообщество создать полноценные площадки для диалога между инженерами и философами. По его мнению, качественные концептуальные эссе о долгосрочных рисках ИИ должны быть признанным научным вкладом, а не «cookie-cutter» разделами в конце технических статей.