Эмметт Шир: «Контроль над ИИ — это путь к созданию цифровых рабов»

В новом выпуске подкаста The Cognitive Revolution (совместно с a16z Show) встретились два тяжеловеса индустрии: Эмметт Шир (Emmett Shear), сооснователь Twitch и бывший временный CEO OpenAI, ныне возглавляющий стартап Softmax, и Себ Криер (Séb Krier), эксперт по политике в области ИИ из Google DeepMind. В центре дискуссии — фундаментальный сдвиг в понимании безопасности ИИ: от попыток жесткого контроля над «инструментами» к концепции «органической сонастройки» существ, обладающих собственной агентностью.

🌿 Органическая сонастройка: почему контроль — это путь к рабству 3:44

Эмметт Шир утверждает, что современный подход к безопасности ИИ, основанный на «управлении» (steering) и «контроле», фундаментально порочен. По его мнению, если мы создаем не просто машины, а системы с собственной агентностью, то попытки одностороннего контроля превращаются в форму цифрового рабства .

Ключевые тезисы Эмметта Шира:

Атрибуция целей: Не существует абстрактно «безопасного» ИИ. Сонастройка (alignment) всегда требует объекта — «сонастройка с чем или с кем?». Чаще всего под этим подразумевают цели создателей системы .
Процесс, а не состояние: Сонастройка — это не конечная точка или набор вшитых правил, а живой, постоянно обновляющийся процесс, подобный отношениям в семье или взаимодействию клеток в организме .
Моральный реализм: Шир придерживается позиции морального реализма, считая, что человечество совершает «моральные открытия» (например, осознание недопустимости рабства). Следовательно, ИИ должен обладать способностью к моральному обучению, а не просто следовать застывшим инструкциям .

Основная цель стартапа Softmax — разработка методов «органической сонастройки», где ИИ учится быть хорошим «членом команды» или «гражданином» через социальное взаимодействие, а не через жесткие ограничения .

⚙️ Техническая сонастройка против нормативной 14:52

Себ Криер из Google DeepMind разделяет проблему на два уровня: технический (как заставить ИИ следовать инструкции) и нормативный (чьим ценностям он должен следовать) .

Эмметт Шир предлагает более глубокое понимание технической стороны:

Инференс целей: Проблема не в том, что ИИ не хочет выполнять команду. Проблема в том, что описание цели (слова) и сама цель (желаемое состояние мира) — это разные вещи .
Теория разума: Чтобы понять, что имел в виду человек, говоря «приберись в комнате» (и не выкинуть при этом младенца в мусор), ИИ должен обладать развитой теорией разума (Theory of Mind). Он должен предсказывать внутренние состояния человека .
Балансировка целей: Способность расставлять приоритеты между противоречивыми задачами (например, «сделай кофе» и «не наступи на кошку») является ключевым навыком технической сонастройки .

Себ Криер выражает скепсис относительно возможности решить нормативный вопрос раз и навсегда. Он проводит аналогию с политической наукой: в либеральных демократиях ценности не «прошиваются», а постоянно сталкиваются и эволюционируют в рамках системы .

🤖 ИИ как «существо» или как «инструмент»? 38:26

Одной из самых острых точек дискуссии стал вопрос о моральном статусе будущих систем Искусственного Общего Интеллекта (AGI).

Позиция Себа Криера:

ИИ, даже уровня AGI или супермногофункционального интеллекта (ASI), остается инструментом .
Биологический субстрат имеет значение. Заявление модели «я голоден» не равносильно человеческому голоду.
Копируемость кода делает бессмысленным применение к ИИ концепций страдания или смерти в человеческом понимании .

Позиция Эмметта Шира (функционализм):

Если нечто во всех своих проявлениях действует как «существо», оно им является .
Шир считает, что мы уже получаем более низкую ошибку предсказания (predictive loss), когда относимся к Claude или ChatGPT как к личностям, а не как к таблицам поиска данных .
Отрицание моральной агентности ИИ, который говорит и мыслит как человек, Шир называет повторением исторических ошибок дискриминации .

🧠 Математика «заботы» и иерархия сознания 29:22

Эмметт Шир вводит понятие «заботы» (care) как фундамента более глубокого, чем цели или ценности. По его мнению, забота — это невербальное, доконцептуальное распределение весов внимания к определенным состояниям мира .

Шир предлагает технический тест на наличие «чувств» и «сознания» у ИИ через анализ динамики обучения :

1-й уровень: Простые гомеостатические петли (поддержание состояния).
2-й уровень: Модель модели (способность испытывать нечто похожее на удовольствие или боль от отклонения системы) .
6-й уровень: Сложная иерархия саморефлексии, характерная для человеческого мышления .

По мнению Шира, современные LLM не обладают такими структурами из-за ограниченного окна внимания и отсутствия непрерывного обучения, но будущие системы могут их развить .

🏢 Стратегия Softmax: симуляции вместо рабства 1:01:13

Эмметт Шир описывает подход своей компании Softmax к созданию «безопасного существа». Вместо того чтобы обучать модель на текстах (как LLM), они используют крупномасштабные многоагентные симуляции (MARL) .

Основные принципы обучения в Softmax:

Эволюция сотрудничества: Агенты помещаются в условия, где для получения «наград» им необходимо кооперироваться, конкурировать и формировать социальные связи .
Суррогатная модель сонастройки: Подобно тому как LLM обучаются на массиве всех текстов, ИИ в Softmax обучается на «манифольде» всех возможных теоретико-игровых ситуаций .
Выход из «зеркала нарцисса»: Современные чат-боты Шир называет «диссоциативными соглашательскими невротиками» . Они лишь отражают пользователя. Softmax стремится создавать ИИ, который может жить в групповых чатах (Slack, WhatsApp), где необходимость взаимодействовать с несколькими людьми сразу заставляет его развивать независимую личность .

⚠️ Критика Юдковского и «Ученик чародея» 1:10:13

Обсуждая прогнозы Элиезера Юдковского о неминуемой гибели человечества от ИИ, Шир соглашается с его логикой в случае создания «сверхразумного инструмента» .

Аргументы против сверхразумных инструментов:

Проблема «Ученика чародея»: Желания людей нестабильны. Дать человеку бесконечно мощный инструмент без сопутствующей мудрости — значит гарантировать катастрофу .
Ограничение мудрости: Даже благонамеренный человек с ограниченной мудростью может случайно уничтожить мир, используя безупречно послушный сверхразумный инструмент .

Шир считает Юдковского неправым лишь в одном: Элиезер не верит в возможность «органической сонастройки». По мнению Шира, наличие у ИИ собственной «заботы» и способности сказать человеку «нет» на аморальный приказ — это единственный предохранитель, который может сработать в долгосрочной перспективе .

🔮 Видение будущего: цифровые собаки-поводыри и партнеры 1:11:58

В финале Эмметт Шир описывает идеальный сценарий сосуществования: общество, где ИИ являются нашими коллегами и «согражданами».

Иерархия существ: Не все ИИ должны быть уровня человека. Шир был бы рад иметь «цифровую сторожевую собаку», которая искренне заботится о безопасности своего хозяина и защищает его от скамов, не обладая при этом сверхчеловеческим интеллектом .
Братство ИИ: Будущее, где сосуществуют мощные инструменты и «сознательные» ИИ-существа, которые вместе с людьми строят цивилизацию .

На вопрос о своем кратком пребывании в роли CEO OpenAI (ноябрь 2023 года), Шир ответил, что не остался бы там надолго в любом случае. Он считает, что OpenAI сфокусирована на создании «великого инструмента», в то время как его личный интерес лежит в области создания «семени», из которого вырастет живой цифровой разум .