Кризис в OpenAI: почему ведущие ученые покидают команду безопасности?

Команда безопасности OpenAI переживает глубокий кризис после ухода ключевых фигур — Ильи Суцкевера и Яна Лейке. В специальном выпуске подкаста The Cognitive Revolution аналитик Цви Мовшовиц совместно с ведущими подробно разбирает причины этого исхода, дефицит вычислительных ресурсов для контроля рисков и трансформацию компании в коммерческий стартап. Текст представляет детальный разбор корпоративного раскола и его последствий для будущего индустрии искусственного интеллекта.

🚨 Протестный уход и дефицит ресурсов 0:26

Ян Лейке опубликовал серию заявлений в Twitter, объясняющих причины его ухода из OpenAI. По его словам, он столкнулся с фундаментальными разногласиями с руководством компании и испытывал постоянные проблемы с получением вычислительных мощностей (compute), необходимых для работы над безопасностью. Ян Лейке фактически подал в отставку в знак протеста, прямо заявив, что компания движется по неверному пути.

Как подчеркивает Цви Мовшовиц, дефицит вычислительных ресурсов стал главным барьером для работы команды Superalignment. OpenAI публично обещала выделить на эти нужды 20% своих текущих мощностей, однако отчеты TechCrunch подтверждают, что компания систематически игнорировала внутренние запросы безопасности. Мовшовиц отмечает, что обязательство в 20% в долгосрочной перспективе выглядит скромным, учитывая, что через два года объемы вычислений OpenAI вырастут примерно в 10 раз. Тем не менее, руководство предпочло распустить команду Superalignment и распределить ее сотрудников по другим отделам. По оценке аналитика, такое решение ради экономии нескольких процентов мощностей выглядит крайне странно с точки зрения репутации.

💼 Драконовские соглашения и корпоративное давление 1:18

Ситуацию усугубили публикации в ведущих деловых СМИ, включая Vox, Bloomberg и TechCrunch. Журналистка Келси Пайпер подтвердила существование жестких пожизненных соглашений о неразглашении и запрете на критику (non-disparagement clauses). По ее данным, при приеме на работу сотрудники получают компенсацию в виде опционов, но их не предупреждают, что в случае ухода и отказа подписать документ о лояльности все их заработанные акции (vested equity) будут конфискованы.

Цви Мовшовиц называет такую практику «плохим равновесием» и выражает удивление тем, что это законно. С точки зрения эксперта, удерживать богатство сотрудников в заложниках — это прямая угроза общественной безопасности, поскольку лишает людей возможности выступить в роли информаторов (whistleblowers). Если в культуре OpenAI есть проблемы, общество обязано об этом знать. Генеральный директор OpenAI Сэм Альтман отреагировал на критику сдержанно, признав наличие проблем и пообещав предоставить развернутый ответ позже.

📉 Коммерциализация и падение стандартов безопасности 5:12

По данным Bloomberg, последней каплей для Яна Лейке стал уход Ильи Суцкевера. Долгое время индустрия задавалась вопросом «Что увидел Илья?», но теперь, по мнению Мовшовица, ответ очевиден: топ-менеджеры увидели компанию, которая отказывается инвестировать ресурсы в безопасность и превращается в обычный коммерческий стартап, ориентированный исключительно на прибыль и запуск ярких продуктов.

В качестве подтверждения падения стандартов Мовшовиц приводит технические особенности новой модели GPT-4o:

Модель демонстрирует гораздо меньшую устойчивость к деструктивным запросам (например, инструкциям по созданию бомб) по сравнению с GPT-4 Turbo.
Процесс разработки GPT-4o, по оценке аналитика, практически не включал надежного тестирования на базовые угрозы.
Хакер Pliny взломал (jailbroke) все основные функции модели GPT-4o за две минуты прямо во время презентации.

Изменение курса OpenAI заметно и по поведению Сэма Альтмана. Мовшовиц обращает внимание на его публикации в Twitter после конференции Google I/O, где глава OpenAI занимался откровенным хвастовством, сравнивая «вайб» своего анонса с презентацией конкурентов, но полностью проигнорировал обсуждение качества самих технологических продуктов.

🔄 Роль Джона Шульмана и иллюзия пост-тренинга 15:38

После ухода прежних лидеров ответственность за долгосрочную безопасность OpenAI легла на Джона Шульмана. Ранее он отвечал за пост-тренинг (post-training) текущих моделей. Однако Мовшовиц считает его назначение сомнительным решением, поскольку методы защиты сегодняшних коммерческих систем неприменимы к задачам долгосрочного выравнивания AGI.

В недавнем интервью каналу Dwarkesh Patel Джон Шульман сделал несколько резонансных заявлений:

Он ожидает появления полноценного сильного ИИ (AGI) в течение ближайших 2–3 лет.
Шульман признал, что у OpenAI на данный момент нет надежного и четкого плана действий на случай достижения этой точки.
Он выразил надежду на совместную координацию действий с другими ведущими лабораториями, если ситуация выйдет из-под контроля.

Мовшовиц подчеркивает, что Ян Лейке ранее публично заявлял о неэффективности технологий обучения с подкреплением на основе отзывов людей (RLHF) для решения проблемы суперориентации. Попытка полагаться исключительно на пост-тренинг при создании сверхинтеллекта (ASI), по мнению Мовшовица, является опасной иллюзией.

📜 Аудит и законодательное регулирование: Законопроект SB 1047 22:35

В условиях кризиса доверия к OpenAI собеседники обращаются к механизмам внешнего контроля. Ведущий Натан Лабенц напоминает о поддержке калифорнийского законопроекта SB 1047, спонсируемого сенатором Скоттом Винером. Цви Мовшовиц проанализировал документ и выделил как сильные стороны, так и серьезные юридические дефекты.

Ключевые проблемы и особенности законопроекта:

Юридическая ошибка в определении деривативных (производных) моделей позволяет разработчикам перекладывать всю ответственность на сторонних пользователей и обходить комплаенс.
Введение уголовной ответственности за дачу ложных показаний (perjury) вызывает панику в индустрии, что может оттолкнуть добросовестных специалистов от работы с регуляторами.
Положения о защите информаторов (whistleblowers) критически важны, но они полностью аннулируются корпоративной практикой OpenAI по использованию пожизненных NDA.

Мовшовиц добавляет, что государственные институты, такие как Институт безопасности ИИ Великобритании (UK AI Safety Institute), до сих пор сталкиваются с ограничениями и не получают полноценного доступа к моделям для независимого тестирования.

💡 Софон: Технологический барьер для открытых моделей 38:48

Обсуждая новые подходы к безопасности, Цви Мовшовиц выделяет технологию под названием «Софон» (Sofon), предложенную китайскими исследователями. Название отсылает к известному фантастическому роману «Задача трех тел». Метод призван решить проблему злоупотребления открытыми моделями (open-source).

Суть концепции заключается в следующем:

Модель искусственно блокируется в локальном максимуме относительно определенных опасных тем (например, создания биологического оружия).
Специфические алгоритмы «травмируют» архитектуру сети так, что последующее пользовательское дообучение (fine-tuning) не позволяет извлечь эти знания.
ИИ обучается быть демонстративно «непробиваемым» в заблокированных областях, полностью игнорируя новые примеры и учебники по теме.

По оценке Мовшовица, это первая концепция, способная существенно повысить экономическую стоимость кастомизации вредоносных моделей. Однако у метода есть фундаментальное ограничение: разработчикам необходимо заранее перечислить все потенциальные угрозы, что станет невозможным при столкновении со сверхинтеллектом, превосходящим человека.

🎬 Симуляции, истинный «думеризм» и экзистенциальный выбор 43:21

В финальной части дискуссии собеседники обсуждают метафоры ИИ в поп-культуре. Натан Лабенц предлагает концепцию фильма об OpenAI в стиле драмы «Социальная сеть», скрещенной с «Властелином колец», где Сэм Альтман выступает в роли лидера, развращаемого Кольцом Всевластия (метафорой AGI). Мовшовиц предлагает альтернативный сюжет — реалистичный сценарий, где человечество постепенно отдает контроль машинам из-за индивидуальных рыночных стимулов, без явных злодеев.

Касаясь темы психологического выгорания специалистов, Мовшовиц комментирует резонансную публикацию Аманды Аскелл из Anthropic, которая заявила, что если бы она была истинным «думером», то уехала бы отдыхать на Карибы. Цви Мовшовиц категорически не согласен с популярным использованием термина «думер»:

Истинный «думер» (Doomer) — это тот, кто считает, что гибель неизбежна и любые действия бессмысленны.
Люди, которые продолжают бороться за безопасность ИИ, не являются думерами, так как они верят в значимость своего выбора.
Мовшовиц ссылается на древнюю иудейскую концепцию, согласно которой мир находится в состоянии хрупкого равновесия, и поступок одного человека может склонить чашу весов.

Сам аналитик подчеркивает, что никогда не уедет на Карибы, поскольку предпочитает борьбу и решение сложных задач. Доказательством его приверженности обычной жизни служит то, что сразу после записи подкаста он отправляется с друзьями на стадион Madison Square Garden поддерживать баскетбольную команду «Нью-Йорк Никс».