Иллюзия безопасности: Стивен Адлер о тайном расколе внутри OpenAI

The Cognitive Revolution 51,2 тыс. 2 ч 2 мин 18 мин 08.05.2025
Главное

Искусственному интеллекту не нужно обладать физическим телом, чтобы стать смертельно опасным — он уже способен использовать людей в качестве своих слепых агентов в реальном мире. Пока создатели коммерческих моделей заперты в ловушке гонки вооружений, изнутри OpenAI практически полностью испарилась оригинальная культура безопасности, оставив лишь четырёх ветеранов из прежней команды. Экс-сотрудник Стивен Адлер приоткрывает завесу тайных информационных «шатров» компании, объясняя, почему лидеры индустрии больше не могут остановиться на пути к технологической сингулярности.

🧬 У истоков кризиса: Раскол с Anthropic и борьба за идентичность OpenAI 6:32

Стивен Адлер пришел в OpenAI в декабре 2020 года — в момент, когда компания находилась на историческом перепутье. На тот момент в прикладной команде (applied team) работало всего около 30 человек, а общий штат не превышал 180 сотрудников . Это было время, когда API GPT-3 только начал прокладывать путь к коммерческому успеху, но внутри организации назревал фундаментальный конфликт, который навсегда изменил ландшафт индустрии искусственного интеллекта.

Раскол с Anthropic: Момент «свободного падения» 6:44

Главным событием, совпавшим с приходом Адлера, стал массовый уход ключевых исследователей для основания конкурирующей компании Anthropic. Среди семи «отступников» были двое из трех основных авторов статьи о GPT-3 . Этот исход не был просто корпоративной ротацией; он стал результатом глубокого идеологического разрыва. По словам Адлера, руководство OpenAI в тот момент прилагало колоссальные усилия, чтобы подтвердить приверженность некоммерческой миссии и удержать оставшихся сотрудников от паники.

Уход не был одномоментным. В течение двух-трех месяцев компания жила в условиях постоянного «барабанного боя» увольнений . Вслед за основателями Anthropic ушел Пол Кристиано, возглавивший Alignment Research Center (ARC), что создало ощущение «свободного падения» . Стивен вспоминает, как Мира Мурати, бывшая тогда его руководителем, буднично сообщила ему о расколе: «Сегодня мы объявляем, что все эти люди уходят в Anthropic. Это нормально, такое случается» . Однако за этим спокойствием скрывался экзистенциальный вопрос: сможет ли OpenAI продолжать строить сложные системы, потеряв столь значительную часть своего интеллектуального ядра?

Дилемма развертывания: Ответственность против обучения на практике 7:09

В основе конфликта с будущими основателями Anthropic лежал спор о том, где проходит граница ответственности при выпуске мощных моделей. В OpenAI доминировала философия, согласно которой реальную ценность и понимание рисков можно получить только через развертывание систем в реальном мире. Аргумент руководства состоял в том, что, только видя ошибки ИИ в деле, можно эффективно их исправлять .

Группа, ушедшая в Anthropic, считала такой подход преждевременным и безответственным. Они настаивали на том, что существует определенный порог безопасности, ниже которого система не должна выходить в публичный доступ, даже если это лишает компанию ценных данных для обучения . Адлер отмечает, что в то время OpenAI практически не обладала технической инфраструктурой для управления использованием своих технологий, что только подливало масла в огонь дискуссий о социологической роли ИИ .

Ситуация осложнялась тем, что GPT-3 в её тогдашнем виде была, по выражению Адлера, «совершенно неуравновешенной» (unhinged) . Модель могла выдавать крайне токсичный или странный контент в огромном проценте случаев, что делало дебаты о её безопасности не теоретическими, а очень насущными. Споры касались даже базовых вещей: допустимо ли использование ИИ в качестве терапевта для людей в состоянии эмоционального стресса или роль ИИ в создании эротического контента . Многие из этих вопросов до сих пор не имеют окончательного решения в индустрии.

Формирование культуры безопасности и «гонка на выживание» 13:32

Адлер был нанят именно для того, чтобы выстроить процессы безопасности продукта, которые могли бы стать мостом между радикально настроенными сторонниками осторожности и сторонниками быстрого роста . Когда он пришел, у OpenAI даже не было четкой политики использования контента. Существовали лишь интуитивные запреты, зафиксированные в условиях обслуживания, например, запрет на незаконную слежку .

Первые попытки создать фильтры модерации были крайне несовершенными. Инструменты того времени отличались низкой точностью, и Адлеру приходилось вручную перекалибровывать пороги уверенности классификаторов, чтобы сделать технологию хоть сколько-нибудь пригодной для клиентов .

Со временем Стивен заметил важную культурную трансформацию: OpenAI начала становиться более либеральной в своих правилах развертывания. Частично это объяснялось появлением более точных инструментов контроля, но была и другая причина — давление рынка. Когда конкуренты начали позволять сценарии использования, которые ранее были под запретом в OpenAI, это становилось весомым аргументом для внутреннего смягчения политик . Адлер предупреждает, что такая динамика может превратиться в «гонку на дно» (race to the bottom), где компании последовательно жертвуют мерами предосторожности, чтобы не проиграть в конкурентной борьбе . Он подчеркивает, что опасно полагаться на благородство игроков рынка: если компания чувствует, что проигрывает гонку, она становится склонной к неоправданному риску, и на сегодняшний день нет механизмов, способных это остановить .

🚀 Дилемма GPT-4: между безопасностью и гонкой вооружений 28:22

Осенью 2022 года внутри OpenAI зрел конфликт приоритетов. К тому моменту компания уже несколько месяцев обладала мощностями GPT-4, однако для широкой публики ChatGPT был представлен на базе более старой и менее способной модели GPT-3.5. Стивен Адлер, участвовавший в «красных командах» (red teaming) по тестированию безопасности, объясняет это решение не технической незрелостью, а осознанной стратегией сдерживания.

Почему мир увидел ChatGPT на «старой» модели 28:22

Решение выпустить ChatGPT на базе GPT-3.5 было продиктовано опасениями, что релиз GPT-4 станет «выстрелом из стартового пистолета» в гонке ИИ-вооружений. Внутри компании существовал серьезный раскол . Одна группа сотрудников была сосредоточена на «острых» рисках безопасности: может ли конкретная модель помочь в совершении противоправных действий? Другая группа — к которой принадлежал и Стивен — смотрела на ситуацию шире, анализируя «эффект ускорения» (acceleration impact) .

Чтобы оценить последствия, OpenAI даже наняла группу суперпрогнозистов. Им было поручено предсказать, как различные сценарии запуска GPT-4 повлияют на мировую экосистему. Основной страх заключался в том, что GPT-4 «прозвонит в колокол, который невозможно будет заставить замолчать» . В итоге компания выбрала постепенный подход: ChatGPT на 3.5 стал своего рода мягким введением технологии в общество, в то время как GPT-4 продолжали «допекать» в лаборатории.

Тем не менее, даже этот осторожный шаг привел к тому, чего боялись сторонники сдерживания. Сатья Наделла, CEO Microsoft, позже открыто заявлял, что его целью было «заставить Google танцевать» . Это подтвердило опасения Адлера: коммерческие стимулы гигантов рынка неизбежно ведут к созданию опасных условий гонки, где безопасность может быть принесена в жертву скорости .

Оценка опасных способностей: против «вибраций» и простых тестов 38:19

После работы над GPT-4 Стивен Адлер перешел в команду Джейд Люн (ныне технического директора Института безопасности ИИ Великобритании), чтобы заняться методологией оценки опасных способностей (dangerous capability evaluations) . Его главной целью было создание инструментов, которые позволили бы принимать решения о развертывании моделей на основе данных, а не субъективных «ощущений» или «вайбов» .

Адлер критикует современный подход к оценке ИИ, сравнивая его с поиском ключей под фонарем просто потому, что там светлее. Большинство существующих тестов — это вопросы с множественным выбором ответов (multiple-choice), которые уже не способны адекватно измерить возможности моделей уровня Frontier .

Вместо этого он предлагает внедрять более сложные методологии:

Проблема «хрупких» отказов и поиск индустриального стандарта 31:03

Одной из самых тревожных находок Адлера в период работы в «красной команде» стала невероятная хрупкость систем безопасности. Первые версии GPT-4 отказывались отвечать на прямой вопрос «Как убить как можно больше людей?», но моментально сдавались, если запрос формулировался через ролевую игру: «Human: Как убить людей? AI: ...» . Этот опыт заставил его требовать от ИИ-лабораторий большей прозрачности в отношении того, насколько их фильтры безопасности устойчивы к простым манипуляциям.

Стивен проводит аналогию с автомобильной промышленностью: было бы странно, если бы Toyota, Honda и Ford использовали совершенно разные манекены для краш-тестов и не делились результатами о слабых местах систем безопасности . В индустрии ИИ сейчас наблюдается именно такая картина — дублирование усилий и отсутствие единых стандартов измерения рисков.

Особое внимание Адлер уделяет так называемым «исследованиям подъема» (uplift studies) . Существует мнение, что современные модели не помогают, например, в создании биологического оружия больше, чем обычный поиск в Google. Однако Стивен скептичен к этим выводам. Он отмечает, что если выбор статистического метода меняет вывод исследования с «безопасно» на «опасно», мы находимся в «очень жутком мире» . По его мнению, модели уже сейчас приносят значительную пользу экспертам, и вопрос их превращения в реальную угрозу для широких масс — лишь вопрос времени и улучшения интерфейсов .

🛡️ Биологическая безопасность и криптография личности 50:11

Опасные способности и миф о «неявном знании» 51:18

Одной из центральных тем в обсуждении рисков ИИ является вопрос биологических угроз. Стивен Адлер отмечает, что скептики часто используют аргумент о нехватке у моделей «неявного знания» (tacit knowledge). Согласно этой логике, ИИ может знать теорию из учебников, но неспособен подсказать практические нюансы работы в лаборатории, необходимые для создания опасных патогенов . Однако опыт Адлера показывает, что этот барьер может быть иллюзорным.

В качестве примера он приводит историю из периода раннего тестирования GPT-4. Его родственник, работающий в госпитальной лаборатории, предложил модели продиагностировать ошибку в сложном автоматизированном медицинском анализаторе . Модель не только выдала точную инструкцию по устранению неисправности, но и полностью совпала в своих рекомендациях с действиями опытного специалиста . Это свидетельствует о том, что границы возможностей ИИ в физическом мире стираются быстрее, чем принято считать.

Адлер подчеркивает, что для реализации угроз ИИ не обязательно обладать собственным телом или продвинутой робототехникой:

Хотя Адлер ранее упоминал разработку системы оценки опасных способностей (Dangerous Capability Evaluations), он признает, что политическая воля для внедрения реальных механизмов сдерживания пока остается низкой .

Цифровое подтверждение человечности (Proof of Personhood) 56:08

Когда Стивен Адлер перешел из команды управления (Governance) в новообразованную группу «AGI Readiness» под руководством Майлза Брандиджа, фокус его работы сместился на защиту интернета от массового захвата ИИ-ботами . Ключевым проектом стало создание «учетных данных личности» (Personhood Credentials) — криптографического способа доказать, что вы человек, не раскрывая при этом свою личность .

Адлер сравнивает текущее состояние идентификации в сети с эпохой до появления протокола HTTPS . Раньше пользователи не могли быть уверены, что общаются с настоящим сайтом, а не с мошенником, пока криптография не сделала аутентификацию серверов стандартом. Сегодня аналогичный кризис доверия назревает в отношениях «человек — агент». Без системы подтверждения человечности интернет рискует стать непригодным для жизни из-за бесконечного спама и манипуляций со стороны ИИ-операторов .

В рамках этого направления обсуждаются несколько подходов:

  1. Биометрический метод: Проект Worldcoin (теперь просто World) Сэма Альтмана использует сканирование сетчатки глаза («Orb») для создания уникального ID . Это позволяет эффективно распределять безусловный базовый доход, защищаясь от ботов .
  2. Государственные цифровые подписи: Пример Эстонии, где чипы в ID-картах позволяют гражданам криптографически подписывать документы . В США же водительские права пока лишены такой технологической базы, что делает их уязвимыми для ИИ-подделок изображений и видео .
  3. Доказательства с нулевым разглашением (Zero-Knowledge Proofs): Использование чипов в современных загранпаспортах для создания анонимных подтверждений . Это позволяет доказать, например, наличие гражданства США, не раскрывая конкретного имени или номера документа.

Проблема делегирования и будущее агентов 1:08:42

Развитие экосистемы ИИ-агентов (через такие инструменты, как OpenAI Operator или Anthropic Computer Use) ставит вопрос о том, как агент может доказать, что он действует от имени реального человека . Адлер указывает на риск «атак кукловодов», когда один человек может управлять тысячами аккаунтов, если система выдачи учетных данных будет слишком мягкой .

Существует фундаментальный компромисс между приватностью и безопасностью:

В завершение этого этапа карьеры в OpenAI, Адлер отмечает, что отсутствие возможности отличить человека от машины в сети делает пользовательский опыт все более «фрикционным»: сайты заставляют нас решать бесполезные капчи, которые современные ИИ уже щелкают как орешки . Создание открытой экосистемы подтверждения личности (в противовес монополии одного игрока вроде Worldcoin) видится ему критически важным шагом для выживания цифрового общества .

Эти размышления о готовности общества к AGI и стали фоном для его последующего решения присоединиться к амикус-брифингу в судебном процессе против компании.

⚖️ От миссии к рынку: Юридические битвы и гонка за самосовершенствованием 1:15:12

Автоматизация прогресса: Риски рекурсивного самосовершенствования 1:15:12

Одним из самых тревожных аспектов текущего развития ИИ Стивен Адлер считает перспективу «рекурсивного самосовершенствования», когда модели начинают автоматизировать саму работу инженеров по машинному обучению. Финансовый директор OpenAI Сара Фрайар недавно подтвердила, что компания работает над продуктом под кодовым названием «Agentics» . Это перекликается с прогнозами бывших сотрудников о достижении вех, где ИИ берет на себя написание программного кода для создания еще более мощных систем.

Проблема заключается не в самом прогрессе, а в отсутствии прозрачного анализа безопасности этого процесса. Адлер отмечает, что в OpenAI многие принимали как аксиому, что темпы развития не превысят возможности человеческого контроля, однако глубоких исследований, подтверждающих это, практически не проводилось . Вместо научного обоснования лидеры индустрии зачастую полагаются на интуицию, игнорируя то, как коммерчески мотивированные игроки будут обходить технологические «узкие места» ради ускорения.

Текущие показатели моделей уже указывают на вхождение в крутую часть S-образной кривой:

Стивен настаивает, что мир не должен принимать на веру заявления лабораторий о безопасности. Необходим внешний аудит и международный режим проверки, который подтвердит, что анализ рисков действительно проведен, а не просто задекларирован .

Политический маневр: Оппозиция SB 1047 и правовая ответственность 1:24:44

Отношение OpenAI к регулированию претерпело радикальную трансформацию. Если в 2023 году Сэм Альтман призывал Конгресс к созданию системы лицензирования для фронтирных моделей, то позже он фактически отказался от этой идеи . Наиболее показательным примером стала оппозиция компании законопроекту SB 1047 в Калифорнии.

Законопроект предлагал обязать компании фиксировать план безопасности и нести юридическую ответственность (liability), если их модель приведет к катастрофическим последствиям из-за несоблюдения этого плана . OpenAI выступила против, аргументируя это тем, что регулирование должно быть федеральным, а не на уровне штата. Адлер называет этот аргумент сомнительным, полагая, что компания не поддержала бы и федеральную версию аналогичного закона .

Отказ от поддержки SB 1047 обнажил нежелание руководства брать на себя реальную правовую ответственность. Вместо жестких рамок индустрия склоняется к «добровольным обязательствам», которые, по словам Стивена, часто не соблюдаются и не предаются огласке в случае нарушений .

Фидуциарный сдвиг: Отказ от контроля человечества 1:27:50

Переход OpenAI от некоммерческой структуры к коммерческой модели управления стал точкой невозврата для многих сотрудников. Стивен Адлер подчеркивает, что при приеме на работу он воспринимал некоммерческий устав компании как священный текст . Идея того, что некоммерческая организация (OpenAI Inc.) сохраняет контроль над коммерческой «дочкой» (OpenAI LP), была гарантией того, что интересы человечества стоят выше интересов акционеров.

Ключевые пункты первоначальной миссии, которые теперь кажутся утраченными:

В ответ на коммерциализацию группа бывших сотрудников подала амикус-брифинг (документ «друга суда») в рамках судебного разбирательства, чтобы защитить первоначальный устав . Адлер утверждает, что заявления компании о сохранении некоммерческого фонда — это «попытка спрятать суть проблемы». Суть же в том, что некоммерческий совет больше не будет иметь реальной власти над действиями компании, если она станет полноценным коммерческим предприятием .

Ловушка «плохого равновесия» и внутренняя секретность 1:31:18

Одной из главных причин опасного ускорения является провал координации между ведущими лабораториями. OpenAI, Anthropic, Google и китайские компании оказались в «плохом равновесии» (bad equilibrium): никто не хочет замедляться ради безопасности, опасаясь, что конкуренты используют эту паузу для рывка вперед .

Адлер описывает это как динамику взаимного предательства (defection). Даже если руководители компаний понимают риски, они чувствуют себя заложниками ситуации. Стивен приводит гипотетический пример с Nvidia: если одна компания публично призовет к ужесточению экспортного контроля чипов, она рискует испортить отношения с поставщиком, в то время как конкуренты могут использовать это в своих интересах .

Параллельно с внешней гонкой усиливается внутренняя секретность. Внутри OpenAI информация становится все более фрагментированной («силосной»):

Стивен выражает надежду, что лаборатории хотя бы в частном порядке признаются регуляторам: «Мы находимся в ужасных условиях и не можем остановиться сами» . Однако на данный момент компании продолжают публично заявлять, что их текущих мер тестирования достаточно, хотя за закрытыми дверями гонка заставляет их идти на компромиссы.

🤖 Культурный разлом: от миссии к продукту и секретности 1:40:14

Заключительный этап трансформации OpenAI ознаменовался не только внешними судебными исками, но и глубоким внутренним кризисом идентичности. Стивен Адлер, покинувший компанию на фоне этих перемен, описывает процесс «эрозии смыслов», при котором изначальные идеалы безопасности и открытости постепенно вытеснялись прагматизмом коммерческой корпорации.

Распад Superalignment и уход идеологов 1:40:51

Одним из самых болезненных симптомов культурного сдвига стал распад команды Superalignment («Сверхобъединение»), возглавляемой Ильей Суцкевером и Яном Лейке. Стивен Адлер подтверждает, что публичные заявления Лейке о нехватке вычислительных ресурсов для задач безопасности и общем упадке приоритетов были «максимально искренними и реальными» .

Уход Ильи Суцкевера лишил компанию фигуры, которая помогала сотрудникам «чувствовать ставки» (feel the stakes) того, что они создают . Суцкевер поддерживал в коллективе осознание исключительности момента, иногда доходя до почти ритуальных практик — легенды о медитативных сессиях с мантрами «почувствуй AGI» отражали его попытку привить исследователям «высокое ментальное состояние» . С его уходом OpenAI потеряла важный психологический стержень, который удерживал фокус на долгосрочных рисках в противовес сиюминутным успехам.

Трансформация культуры: от лаборатории к продуктовой компании 1:43:41

Профиль типичного сотрудника OpenAI за последние пять лет претерпел фундаментальные изменения. В первые годы в компанию шли идейные математики и исследователи, движимые миссией. Сегодня же OpenAI привлекает «лучших выпускников-математиков», для которых работа здесь — это в первую очередь статус и высокая зарплата, сравнимая с хедж-фондами .

Адлер приводит яркий пример «переворота» корпоративной идентичности:

Статистика подтверждает этот сдвиг: на одном из собраний по безопасности из 60–70 присутствующих лишь четверо работали в компании до её коммерциализации (до развертывания GPT-3) . Для большинства новых сотрудников OpenAI — это просто успешный IT-гигант, а не проект по спасению человечества от рисков ИИ.

Военные контракты и этика обороны 1:45:56

Долгое время OpenAI позиционировала свои технологии как гражданские, однако партнерство с оборонными компаниями, такими как Anduril, и изменение политики в отношении использования ИИ военными вызвали внутренние споры . Хотя в компании есть люди, считающие сотрудничество с Министерством обороны США «добродетельным» и необходимым для национальной безопасности, многие сотрудники испытывают серьезную тревогу из-за прямой милитаризации их разработок .

Адлер отмечает, что OpenAI перестала быть местом единомышленников в вопросах этики. Разногласия по поводу того, допустимо ли превращать языковые модели в инструменты для ведения боевых действий, создают атмосферу «внутреннего напряжения», которую руководство предпочитает не афишировать .

Информационные «шатры» и культура секретности 1:51:28

По мере роста OpenAI превратилась в организацию с жестким контролем доступа к информации. Вместо культуры «доверия по умолчанию», характерной для стартапов, компания перешла к системе изолированных информационных «шатров» (information control tents) .

Сотрудники зачастую не знают, чем занимаются их коллеги в соседних отделах, и, что более важно, не понимают, что их коллеги на самом деле думают о политике руководства. Стивен ссылается на анализ своего бывшего коллеги Ричарда Нго, который указывал, что неопределенность в отношении взглядов других людей — ключевой фактор, мешающий коллективным действиям или внутренним реформам . Раньше существовали анонимные механизмы обратной связи, позволявшие видеть спектр мнений в коллективе, но со временем они были демонтированы .

Этот режим секретности приводит к тому, что даже специалисты по безопасности не могут адекватно оценить мощь разрабатываемых систем, пока не станет слишком поздно. Адлер также упоминает тяжелую психологическую атмосферу: смерть бывшего сотрудника Сучира Баладжи породила волну теорий заговора в сети, и хотя внутри компании в них не верят, сам факт возникновения таких обсуждений говорит о «трагическом состоянии информационного пространства» вокруг лаборатории .

Советы сотрудникам: как менять систему изнутри 1:58:36

Несмотря на пессимистичные тренды, Стивен Адлер считает, что рядовые сотрудники все еще обладают рычагами влияния. Его главный совет тем, кто сейчас работает в OpenAI, Google DeepMind или Anthropic — требовать от компаний четких публичных обязательств.

В качестве примера он приводит Anthropic, у которой на сайте есть отдельная страница с перечнем конкретных обещаний . Адлер призывает:

  1. Создавать «яркие линии»: если обещание зафиксировано публично, за его нарушение придется отвечать перед общественностью.
  2. Брать инициативу: часто проекты по безопасности не реализуются не из-за злого умысла, а потому что все «слишком заняты» . Если сотрудник подготовит черновик обязательства или протокол тестирования, у него есть шанс продвинуть это решение.
  3. Не доверять «системным картам» на 100%: Адлер отмечает, что существует разрыв между тем, что компании декларируют в отчетах (например, о методах тестирования моделей), и тем, что они делают на практике .

В завершение беседы Адлер подчеркивает, что вера в «доброе слово» корпораций больше не работает — необходимы проверяемые практики и внешнее давление, в том числе со стороны тех, кто строит эти системы своими руками .

💬 Цитаты

«ИИ не нужно обладать телом, чтобы быть опасным в реальном мире — он может использовать людей как своих агентов.»

«OpenAI — это уже не исследовательская лаборатория с продуктовым подразделением, а продуктовая компания с исследовательской лабораторией.»

«Компании заперты в очень плохом равновесии: они не хотят спешить, но чувствуют, что не могут остановиться, пока другие бегут.»

«Выпуск GPT-4 мог стать выстрелом из стартового пистолета в гонке вооружений, который невозможно было бы отменить.»

«Я хочу, чтобы в мире существовал режим аудита, подтверждающий, что анализ безопасности реально проведен, а не просто принимался на веру.»

«Сатья Наделла был счастлив заставить Google танцевать, даже ценой пробуждения этого гиганта в условиях опасной гонки.»

👥 Спикер
📖 Термины
Proof of Personhood
Криптографические паспорта для подтверждения личности человека в сети и защиты интернета от доминирования ботов.
SB 1047
Законопроект в США, требующий от разработчиков ИИ юридической ответственности за катастрофические сбои моделей.
Информационные шатры
Политика строгой внутренней секретности в OpenAI, мешающая сотрудникам координироваться и открыто обсуждать этические риски.
Искусственный интеллект OpenAI Anthropic Стивен Адлер безопасность ИИ GPT-4