В новом выпуске подкаста The Cognitive Revolution (совместно с a16z Show) встретились два тяжеловеса индустрии: Эмметт Шир (Emmett Shear), сооснователь Twitch и бывший временный CEO OpenAI, ныне возглавляющий стартап Softmax, и Себ Криер (Séb Krier), эксперт по политике в области ИИ из Google DeepMind. В центре дискуссии — фундаментальный сдвиг в понимании безопасности ИИ: от попыток жесткого контроля над «инструментами» к концепции «органической сонастройки» существ, обладающих собственной агентностью.
🌿 Органическая сонастройка: почему контроль — это путь к рабству 3:44
Эмметт Шир утверждает, что современный подход к безопасности ИИ, основанный на «управлении» (steering) и «контроле», фундаментально порочен. По его мнению, если мы создаем не просто машины, а системы с собственной агентностью, то попытки одностороннего контроля превращаются в форму цифрового рабства .
Ключевые тезисы Эмметта Шира:
- Атрибуция целей: Не существует абстрактно «безопасного» ИИ. Сонастройка (alignment) всегда требует объекта — «сонастройка с чем или с кем?». Чаще всего под этим подразумевают цели создателей системы .
- Процесс, а не состояние: Сонастройка — это не конечная точка или набор вшитых правил, а живой, постоянно обновляющийся процесс, подобный отношениям в семье или взаимодействию клеток в организме .
- Моральный реализм: Шир придерживается позиции морального реализма, считая, что человечество совершает «моральные открытия» (например, осознание недопустимости рабства). Следовательно, ИИ должен обладать способностью к моральному обучению, а не просто следовать застывшим инструкциям .
Основная цель стартапа Softmax — разработка методов «органической сонастройки», где ИИ учится быть хорошим «членом команды» или «гражданином» через социальное взаимодействие, а не через жесткие ограничения .
⚙️ Техническая сонастройка против нормативной 14:52
Себ Криер из Google DeepMind разделяет проблему на два уровня: технический (как заставить ИИ следовать инструкции) и нормативный (чьим ценностям он должен следовать) .
Эмметт Шир предлагает более глубокое понимание технической стороны:
- Инференс целей: Проблема не в том, что ИИ не хочет выполнять команду. Проблема в том, что описание цели (слова) и сама цель (желаемое состояние мира) — это разные вещи .
- Теория разума: Чтобы понять, что имел в виду человек, говоря «приберись в комнате» (и не выкинуть при этом младенца в мусор), ИИ должен обладать развитой теорией разума (Theory of Mind). Он должен предсказывать внутренние состояния человека .
- Балансировка целей: Способность расставлять приоритеты между противоречивыми задачами (например, «сделай кофе» и «не наступи на кошку») является ключевым навыком технической сонастройки .
Себ Криер выражает скепсис относительно возможности решить нормативный вопрос раз и навсегда. Он проводит аналогию с политической наукой: в либеральных демократиях ценности не «прошиваются», а постоянно сталкиваются и эволюционируют в рамках системы .
🤖 ИИ как «существо» или как «инструмент»? 38:26
Одной из самых острых точек дискуссии стал вопрос о моральном статусе будущих систем Искусственного Общего Интеллекта (AGI).
Позиция Себа Криера:
- ИИ, даже уровня AGI или супермногофункционального интеллекта (ASI), остается инструментом .
- Биологический субстрат имеет значение. Заявление модели «я голоден» не равносильно человеческому голоду.
- Копируемость кода делает бессмысленным применение к ИИ концепций страдания или смерти в человеческом понимании .
Позиция Эмметта Шира (функционализм):
- Если нечто во всех своих проявлениях действует как «существо», оно им является .
- Шир считает, что мы уже получаем более низкую ошибку предсказания (predictive loss), когда относимся к Claude или ChatGPT как к личностям, а не как к таблицам поиска данных .
- Отрицание моральной агентности ИИ, который говорит и мыслит как человек, Шир называет повторением исторических ошибок дискриминации .
🧠 Математика «заботы» и иерархия сознания 29:22
Эмметт Шир вводит понятие «заботы» (care) как фундамента более глубокого, чем цели или ценности. По его мнению, забота — это невербальное, доконцептуальное распределение весов внимания к определенным состояниям мира .
Шир предлагает технический тест на наличие «чувств» и «сознания» у ИИ через анализ динамики обучения :
- 1-й уровень: Простые гомеостатические петли (поддержание состояния).
- 2-й уровень: Модель модели (способность испытывать нечто похожее на удовольствие или боль от отклонения системы) .
- 6-й уровень: Сложная иерархия саморефлексии, характерная для человеческого мышления .
По мнению Шира, современные LLM не обладают такими структурами из-за ограниченного окна внимания и отсутствия непрерывного обучения, но будущие системы могут их развить .
🏢 Стратегия Softmax: симуляции вместо рабства 1:01:13
Эмметт Шир описывает подход своей компании Softmax к созданию «безопасного существа». Вместо того чтобы обучать модель на текстах (как LLM), они используют крупномасштабные многоагентные симуляции (MARL) .
Основные принципы обучения в Softmax:
- Эволюция сотрудничества: Агенты помещаются в условия, где для получения «наград» им необходимо кооперироваться, конкурировать и формировать социальные связи .
- Суррогатная модель сонастройки: Подобно тому как LLM обучаются на массиве всех текстов, ИИ в Softmax обучается на «манифольде» всех возможных теоретико-игровых ситуаций .
- Выход из «зеркала нарцисса»: Современные чат-боты Шир называет «диссоциативными соглашательскими невротиками» . Они лишь отражают пользователя. Softmax стремится создавать ИИ, который может жить в групповых чатах (Slack, WhatsApp), где необходимость взаимодействовать с несколькими людьми сразу заставляет его развивать независимую личность .
⚠️ Критика Юдковского и «Ученик чародея» 1:10:13
Обсуждая прогнозы Элиезера Юдковского о неминуемой гибели человечества от ИИ, Шир соглашается с его логикой в случае создания «сверхразумного инструмента» .
Аргументы против сверхразумных инструментов:
- Проблема «Ученика чародея»: Желания людей нестабильны. Дать человеку бесконечно мощный инструмент без сопутствующей мудрости — значит гарантировать катастрофу .
- Ограничение мудрости: Даже благонамеренный человек с ограниченной мудростью может случайно уничтожить мир, используя безупречно послушный сверхразумный инструмент .
Шир считает Юдковского неправым лишь в одном: Элиезер не верит в возможность «органической сонастройки». По мнению Шира, наличие у ИИ собственной «заботы» и способности сказать человеку «нет» на аморальный приказ — это единственный предохранитель, который может сработать в долгосрочной перспективе .
🔮 Видение будущего: цифровые собаки-поводыри и партнеры 1:11:58
В финале Эмметт Шир описывает идеальный сценарий сосуществования: общество, где ИИ являются нашими коллегами и «согражданами».
- Иерархия существ: Не все ИИ должны быть уровня человека. Шир был бы рад иметь «цифровую сторожевую собаку», которая искренне заботится о безопасности своего хозяина и защищает его от скамов, не обладая при этом сверхчеловеческим интеллектом .
- Братство ИИ: Будущее, где сосуществуют мощные инструменты и «сознательные» ИИ-существа, которые вместе с людьми строят цивилизацию .
На вопрос о своем кратком пребывании в роли CEO OpenAI (ноябрь 2023 года), Шир ответил, что не остался бы там надолго в любом случае. Он считает, что OpenAI сфокусирована на создании «великого инструмента», в то время как его личный интерес лежит в области создания «семени», из которого вырастет живой цифровой разум .