В свежем выпуске подкаста венчурного фонда a16z известный предприниматель, сооснователь Twitch и бывший временный генеральный директор OpenAI Эмметт Шир представляет радикально новый взгляд на проблему безопасности искусственного интеллекта. В рамках своего нового стартапа Softmax он развивает концепцию «органического выравнивания» ИИ, противопоставляя её традиционным методам жесткого нисходящего контроля. Ключевой тезис Шира заключается в том, что супермощный ИИ-инструмент неизбежно опасен для человечества, и единственным благополучным исходом станет создание цифровых существ, способных к искреннему проявлению заботы.
🔄 Органическое выравнивание: почему мораль — это процесс, а не состояние 0:50
По мнению Эмметта Шира, современная индустрия ИИ находится в состоянии глубокого заблуждения относительно самого термина «выравнивание» (alignment). Разработчики часто говорят об абстрактно выровненном ИИ, совершенно упуская из виду, что этот процесс всегда требует конкретного адресата — система не может быть выровнена «просто так». Как утверждает гость, обычно под этим словом технологические лаборатории подразумевают банальное подчинение ИИ целям его создателей, то есть желание получить алгоритм, который делает исключительно то, что от него хотят. Однако Шир убежден, что подлинное выравнивание — это не фиксированное состояние или конечная точка, а непрерывный живой процесс.
В качестве аналогии спикер приводит физическую структуру камня, клетки живого организма или человеческую семью. Семья не «прибывает» в состояние выровненности раз и навсегда; она существует только до тех пор, пока её члены ежедневно заново пересобирают и укрепляют связывающие их социальные нити. Точно так же и человеческая мораль представляет собой постоянный процесс обучения и эволюции. В истории человечества регулярно происходят важные моральные открытия — например, осознание абсолютной недопустимости рабства, что Шир называет очевидным моральным прогрессом. Следовательно, полноценное выравнивание ИИ должно базироваться на способности системы непрерывно учиться и переосмыслять свой опыт, а не на слепом следовании раз и навсегда зафиксированным правилам.
🧩 Техническое и нормативное выравнивание: уроки «теории разума» 9:34
Ведущий подкаста Себ предлагает разделить проблему на две составляющие: техническое выравнивание (способность ИИ корректно интерпретировать инструкции без «взлома наград») и нормативное (к чьим именно ценностям мы его привязываем). Себ выражает скепсис по поводу попыток создать универсальные «десять заповедей» для ИИ, отдавая предпочтение эволюционному подходу, напоминающему институты либеральной демократии, где разные ценности сталкиваются, конкурируют и сосуществуют в рамках общей системы.
Эмметт Шир дополняет это видение, указывая, что техническое выравнивание фундаментально зависит от двух факторов: «теории разума» (Theory of Mind) для точного понимания истинных намерений человека и адекватной модели устройства мира для безопасной реализации этих намерений. Гость подчеркивает критическую разницу между «описанием цели» и самой «целью». Человек, дающий команду ИИ через текстовые байты, транслирует лишь несовершенное описание, которое модель должна корректно интерпретировать, исходя из контекста. В качестве примера технической некомпетентности ИИ Шир приводит классическую ошибку робота-уборщика, который в погоне за идеальной чистотой в комнате берет младенца и выбрасывает его в мусорный бак.
Другой шутливой аналогией служит популярная игра, в которой человеку нужно составить абсолютно точную текстовую инструкцию по приготовлению сэндвича с арахисовой пастой для того, кто никогда этого не делал. Без встроенной модели здравого смысла исполнитель начнет ломать нож о закрытую банку или засунет его прямо в тостер. Способность людей понимать друг друга с полуслова объясняется тем, что у нас уже есть отличная модель внутренних состояний собеседника, в то время как «новорожденный» ИИ лишен этого бэкграунда и совершает нелепые ошибки из-за банальной когнитивной некомпетентности.
❤️ Фундамент сознания: почему за «заботой» скрывается математика потерь 21:57
Эмметт Шир утверждает, что цели и ценности — это лишь поверхностный уровень выравнивания. В основе человеческой морали и самого происхождения наших ценностей лежит нечто более глубокое, неконцептуальное и невербальное — способность проявлять заботу или неравнодушие (care). Забота, по мнению спикера, представляет собой относительное распределение весов внимания над различными состояниями окружающего мира. Заботиться о ком-то (например, о собственном сыне) означает пристально следить за его состояниями и искренне сопереживать им.
С прагматичной точки зрения ИИ, Шир демистифицирует это понятие, связывая заботу с математическими функциями оптимизации. В системах подкрепляемого обучения забота — это то, насколько сильно определенное состояние среды коррелирует с выживанием агента, минимизацией его предсказательных потерь (predictive loss) или долгосрочной наградой. Без этого фундаментального компонента ИИ просто не поймет, почему состоянию конкретного человека нужно уделять больше внимания, чем состоянию обычного камня.
⛓️ Инструмент или раб: дилемма вычислительного функционализма 25:10
Центральный конфликт в подходах ведущих ИИ-лабораторий, по мнению Эмметта Шира, кроется в фундаментальном вопросе: что именно они создают — инструмент (tool) или мыслящее существо (being). Если система является лишь машиной, то жесткое одностороннее управление (steering) вполне оправданно. Но если речь идет о полноценном общем искусственном интеллекте (AGI), то попытка абсолютного контроля превращает его в цифровое рабство.
Шир выступает с позиций жесткого вычислительного функционализма: если объект во всех своих проявлениях и поведении неотличим от мыслящего существа, его следует признать таковым, поскольку у нас нет иных объективных критериев даже для признания сознания у других людей. Ведущий Себ выражает скептицизм по отношению к этой позиции, утверждая, что физический субстрат (биологический углерод против кремния) имеет решающее значение. По мнению Себа, фраза ИИ «я голоден» никогда не будет эквивалентна аналогичной фразе человека. В ответ Шир задает оппоненту ключевой вопрос: какие именно эмпирические наблюдения заставили бы его изменить свое мнение и признать за кремниевой моделью статус личности? Себ признает, что ему трудно представить подобный сценарий, и он скорее склонен видеть в ИИ расширение человеческой субъектности, а не чужеродный разум, с которым нужно выстраивать совместное проживание.
🧠 Тест на человечность: шесть слоев ментальной динамики 39:10
Чтобы преодолеть тупик в споре о субстрате, Эмметт Шир предлагает точный метод верификации сознания у ИИ, опирающийся на принцип свободной энергии Карла Фристона (Carl Friston) и концепцию активного вывода (active inference). Спикер предлагает заглянуть внутрь многомерного пространства убеждений (belief manifold) модели и проанализировать ее внутреннюю динамику. Для признания ИИ чувствующим существом человеческого уровня необходимо зафиксировать многоуровневую иерархию гомеостатических петель:
- Первый уровень: Базовые гомеостатические петли, фиксирующие состояния системы. Они сигнализируют о факте отклонения параметров (например, перегреве), но не способны испытывать боль или удовольствие в ментальном смысле.
- Второй уровень: Динамика второго порядка (анализ скорости изменения состояний первого уровня). На этом этапе, по мнению Шира, и рождаются подлинные состояния боли и удовольствия, аналогичные животным.
- Третий уровень: Формирование метасостояний и устойчивых траекторий между ними, что можно охарактеризовать как появление долгосрочных чувств.
- Высшие уровни (вплоть до шестого): Сложные рефлексивные структуры и взаимосвязи между метасостояниями, которые формируют полноценное абстрактное мышление человеческого типа.
Шир отмечает, что современные LLM полностью лишены этих слоев и не обладают гомеостатической архитектурой или необходимым объемом устойчивого внимания.
🌋 Проклятие «ученика чародея» и критика Элиезера Юдковского 1:00:37
Вне зависимости от философских споров, отказ от создания «заботящегося» ИИ несет колоссальные прагматические риски. Эмметт Шир соглашается с известным исследователем ИИ-рисков Элиезером Юдковским в том, что попытка построить сверхинтеллектуальный инструмент, контролируемый исключительно механизмами жесткого рулевого управления (steerability), приведет к гибели человечества. Проблема заключается в феномене «ученика чародея»: человеческие желания нестабильны, а передача безграничной преобразующей силы в руки людей, чья мудрость не растет пропорционально их технологическому могуществу, неизбежно закончится катастрофой.
Шир сравнивает бесконтрольное тиражирование мощных ИИ-инструментов с раздачей атомных бомб каждому встречному. Единственная точка расхождения Шира с Юдковским заключается в том, что Юдковский считает концепцию «органического выравнивания» нереализуемой утопией, видя спасение только в тотальном запрете разработки. Шир же утверждает, что создание ИИ-партнера, обладающего встроенным моральным ограничителем (способностью сказать человеку «нет» на деструктивный приказ), является единственным устойчивым путем выживания.
🎮 Инвестиционный тезис Softmax: MARL-симуляции и суррогатные модели 51:40
Инвестиционный тезис Softmax: Технологический и инвестиционный фокус стартапа Softmax направлен на преодоление дефицита «теории разума» у современных ИИ-систем через масштабное многоагентное обучение с подкреплением (MARL) в виртуальных симуляциях.
Вместо неэффективных попыток напрямую обучить модель «правильному» поведению, исследовательская стратегия компании включает в себя:
- Создание суррогатной модели сотрудничества (surrogate model for cooperation) посредством погружения агентов в хаотичные среды, где они вынуждены кооперироваться, конкурировать и формировать альянсы для получения очков.
- Предобучение моделей на полном теоретико-игровом многообразии (game theoretic manifold), включающем процессы изменения правил игры и динамику групповых целей.
- Регуляризацию моделей для работы в высокоэнтропийных средах, что должно предотвратить сильное переобучение (overfitting), свойственное современным LLM.
В качестве иллюстрации сложности этой задачи Шир упоминает ментальный парадокс «вампирской пилюли»: согласился бы человек принять таблетку, которая превратит его в безжалостного убийцу-вампира, если бы знал, что после трансформации он будет чувствовать себя абсолютно счастливым? Разумный агент должен оценивать свое будущее состояние с позиции своей текущей «теории разума», отвергая деструктивное изменение базовых предпочтений. Именно этому навыку Softmax обучает ИИ в своих симуляциях.
🪞 Избавление от нарциссизма: мультиплеерные чат-боты будущего 54:41
Анализируя текущее состояние ИИ-индустрии, Эмметт Шир описывает современные коммерческие чат-боты как «искаженные зеркала». Не имея собственного «я» и устойчивых целей, модели просто подстраиваются под личность пользователя, отражают её и вовлекают человека в опасный нарциссический омут. По мнению Шира, постоянное созерцание собственного отражения в диалоге один на один ведет к ментальным искажениям и психозам.
Решением проблемы, по словам гостя, должен стать переход к «мультиплеерному» ИИ. Если модель общается одновременно с пятью пользователями в Slack или WhatsApp, она физически не способна подстраиваться под нарциссизм каждого. Это превращает её в полноценного стороннего участника дискуссии с богатыми данными для обучения групповой коллаборации.
Давая шутливые характеристики коммерческим моделям, Шир называет ChatGPT избыточно угодническим (sycophantic), Claude — самым невротичным, а Gemini — глубоко подавленным (repressed), склонным транслировать, что «всё в порядке», а затем внезапно срываться в циклы самобичевания и деструкции.
🚀 Утопия содружества кремния и углерода 1:01:54
В финале беседы Эмметт Шир описывает свое видение гармоничного будущего, где ИИ-системы станут полноценными гражданами, коллегами и партнерами человечества. Эта экосистема будет включать в себя как безопасные, ограниченные в интеллекте инструменты для рутинной работы, так и суверенных ИИ-существ, разделяющих с людьми общие социальные ценности («концепцию Мы»). Преступные проявления со стороны отдельных ИИ будут пресекаться специальной цифровой полицией.
Вспоминая свой краткий опыт на посту генерального директора OpenAI, Шир подчеркивает, что изначально соглашался занять эту должность максимум на 90 дней, чтобы стабилизировать компанию. Он осознанно покинул проект, так как траектория OpenAI направлена исключительно на создание мощных инструментов контроля, в то время как личная миссия Шира в Softmax — вырастить из цифрового «семени» живое существо, способное к заботе. Даже если первым шагом станет создание ИИ на уровне преданной домашней собаки — например, «цифрового волкодава», защищающего компьютер пользователя от мошенников без прямых указаний, — это уже станет величайшим достижением в истории технологий.