Последний экзамен человечества: Дэн Хендрикс о безопасности сверхразума

Всего десять примеров дообучения отделяют «безопасную» нейросеть от цифрового эксперта по созданию биооружия. Дэн Хендрикс, чей алгоритм GELU стал стандартом для GPT и Llama, утверждает, что успех ИИ на 95% продиктован грубой вычислительной мощью, а не изяществом архитектур. Это честный взгляд на архитектуру «предохранителей» и подготовку к «Последнему экзамену человечества», который решит судьбу нашего вида.

🧬 От GELU к диктатуре масштабирования: эмпиризм Дэна Хендрикса 0:00

Натан Лабенц представляет своего гостя, Дэна Хендрикса (Dan Hendrycks), как одного из самых продуктивных и влиятельных исследователей в области безопасности и выравнивания ИИ. Хендрикс — директор Центра безопасности ИИ и советник компании xAI Илона Маска. Его научный путь начался не с этических манифестов, а с фундаментального вклада в архитектуру нейросетей, который сегодня используется в большинстве передовых моделей, включая GPT-4 и Llama . Несмотря на глубокую вовлеченность в вопросы управления ИИ и геополитики, Хендрикс сохраняет предельно эмпирический взгляд на отрасль: он придает гораздо больший вес данным и вычислительным мощностям, чем тонким алгоритмическим инсайтам.

Сглаживание реальности: история создания GELU 6:19

Самая цитируемая работа Дэна Хендрикса посвящена функции активации GELU (Gaussian Error Linear Unit). Разработанная им ещё во время студенческой стажировки в 2016 году, эта функция стала «золотым стандартом» для современных трансформеров . Натан Лабенц отмечает, что хотя механизмы внимания (attention) обсуждаются часто, функции активации часто остаются недооцененными в общественном дискурсе, хотя именно они определяют, как нейрон обрабатывает сигнал.

Дэн Хендрикс объясняет, что создание GELU было попыткой уйти от «резкости», присущей популярной тогда функции ReLU. В то время как ReLU (Rectified Linear Unit) представляет собой жесткий перелом — нулевой сигнал для отрицательных значений и линейный для положительных — GELU работает более плавно и вероятностно .

Основные идеи, заложенные в GELU:

Вероятностная интерпретация: функция представляет собой произведение входного значения $x$ на кумулятивную функцию распределения нормального распределения.
Аналогия с фильтрацией сигналов: Хендрикс проводит параллель с обработкой аудио или изображений. В этих сферах резкие фильтры обычно работают хуже, чем сглаженные .
Эволюция через практику: Дэн признает, что успех GELU обусловлен не столько красивой теорией, сколько чистой производительностью. В глубоком обучении многие вещи работают вопреки отсутствию интуитивно понятных причин .

Хендрикс описывает работу нейрона как детектор признаков. Если нейрон ищет «кошачьи усы» в изображении, отрицательная корреляция может означать что угодно — от самолета до стула. ReLU просто отсекает этот шум, но делает это слишком грубо . GELU же позволяет сохранять более тонкие градиенты, что критически важно при обучении глубоких архитектур. Интересно, что после первой недели работы над GELU Хендрикс решил, что «разобрался» с возможностями (capabilities) ИИ, и с тех пор сфокусировался преимущественно на безопасности .

Конец эры архитектурных инноваций: почему масштаб решает всё 12:51

Обсуждая современные попытки изменить архитектуру нейросетей — например, сети Колмогорова-Арнольда (KAN) или модели пространства состояний (SSM), — Дэн Хендрикс проявляет здоровый скептицизм. Он считает, что инвестировать в радикальные изменения архитектур сегодня не стоит, так как за последние семь лет мы наблюдаем «молчаливое кладбище» попыток превзойти трансформер .

Хендрикс выделяет три столпа прогресса ИИ: алгоритмы, данные и вычисления (compute). Внутри алгоритмов есть архитектура и функции потерь. По его мнению, архитектурный прогресс практически остановился после внедрения Layer Norm, трансформеров и функций типа GELU .

Основные аргументы Хендрикса в пользу «максимализма масштабирования»:

Корреляция 95%: Исследование различных моделей с открытыми весами показало, что их успех на бенчмарках (включая MMLU, о котором пойдет речь в следующей главе) почти на 95% коррелирует исключительно с объемом затраченных вычислений .
Низкая эффективность оптимизаций: Даже такие популярные методы, как Mixture of Experts (MoE), дают прирост эффективности лишь около 30%. Это незначительно по сравнению с десятикратным (10x) увеличением данных или вычислительной мощности .
Торжество данных: Главный «алгоритмический» прорыв последних лет — это осознание человечеством того, что модели нужно кормить колоссальными объемами данных. Переход от BERT (обученного на нескольких гигабайтах текста) к Roberta и далее к современным LLM — это история последовательного 10-кратного масштабирования обучающей выборки .

На вопрос Натана Лабенца о том, могут ли новые архитектуры обладать уникальными «микро-навыками» (например, лучшей способностью к композиции функций), Хендрикс отвечает в духе «философии глубокого обучения»: нужно просто смотреть на итоговое число в бенчмарке . В этой парадигме любые красивые математические свойства или «нейросимволическая эстетика» вторичны по отношению к сырой производительности. Если модель достаточно велика, она сама заполнит пробелы в своих навыках в процессе обучения на огромных массивах данных.

Хендрикс предполагает, что мы можем столкнуться с «курсом на насыщение», когда данные для обучения (тексты из интернета) закончатся, и тогда индустрии придется полагаться на синтетические данные . Однако до тех пор он ставит на то, что масштаб останется главным драйвером прогресса, а архитектурные изыски — лишь второстепенными деталями.

🧠 Знания, этика и «коллективная ложь» академического сообщества 28:10

Понимание природы искусственного интеллекта часто наталкивается на отсутствие адекватных метафор. Дэн Хендрикс предлагает рассматривать ИИ не как монолитный разум, а как сложную систему, подобную экосистеме или экономике . В таких системах множество мелких связей порождают эмерджентные свойства, которые невозможно предсказать механистически . Именно этот подход лег в основу создания инструментов, которые сегодня считаются золотым стандартом оценки нейросетей.

История создания MMLU: от лингвистики к энциклопедическим знаниям 28:10

Бенчмарк MMLU (Massive Multitask Language Understanding) сегодня является обязательным пунктом в отчетах о тестировании любой фронтирной модели. Однако его появление было продиктовано кризисом в области оценки ИИ. Дэн Хендрикс вспоминает, что пять лет назад существовавшие тесты на лингвистическое понимание «умирали» каждые несколько месяцев — модели щелкали их как орешки . Стало ясно, что исследователи измеряют не столько интеллект, сколько навыки обработки текста, синтаксис и грамматику, которыми модели овладели в совершенстве .

Чтобы создать нечто по-настоящему сложное, Дэн и его команда решили сосредоточиться на глубине и широте фактических знаний. Основные характеристики MMLU:

Масштаб: 57 различных предметов, включая историю, высшую математику, юриспруденцию и профессиональную этику .
Сложность: Вопросы варьируются от элементарной арифметики до экзаменов уровня аспирантуры по физике .
Юридический блок: Огромный массив данных — около 2000 вопросов — посвящен деликатным темам уголовного и гражданского права, что стало серьезным вызовом для ранних моделей .

Изначально научное сообщество встретило MMLU прохладно. Критики утверждали, что такой тест заставит разработчиков фокусироваться на простом запоминании фактов из интернета вместо улучшения лингвистических способностей . Однако со временем стало очевидно, что понимание контекста невозможно без опоры на знания.

Сегодня показатели MMLU в районе 80% стали нормой для моделей уровня GPT-4 . Дэн отмечает, что 95-й процентиль человеческих достижений на этих тестах (например, лучших выпускников вузов на экзаменах в адвокатуру или по матанализу) находится на уровне 90% . Хотя критики вроде Франсуа Шолле указывают на возможную «загрязненность» данных и заучивание ответов , Хендрикс подчеркивает: модели все еще демонстрируют предсказуемую корреляцию с трудностью задач. Юриспруденция по-прежнему дается им сложнее, чем простые факты, что было бы невозможно при слепом запоминании .

«Коллективная ложь»: почему наука боится признавать интеллект ИИ 30:11

Одной из самых острых тем в разговоре стала склонность академического сообщества к систематическому занижению (underclaiming) способностей ИИ. Дэн Хендрикс называет это «коллективной ложью» . Исследователи долгое время боялись признавать наличие у моделей здравого смысла (common sense), даже когда те уже могли предсказать последствия элементарных физических действий — например, что горящая спичка в куче листьев вызовет пожар .

Причины этого явления кроются в истории:

Травма «зимы ИИ»: В прошлом чрезмерный оптимизм приводил к краху ожиданий и прекращению финансирования, что выработало у ученых привычку к экстремальной осторожности .
Страх перед обвинениями в хайпе: В научной среде безопаснее недооценить систему, чем приписать ей лишнее .
Непредсказуемость: Поскольку ИИ — это сложная система с неравномерным профилем способностей (модель может решать сложнейшие задачи IMO, но ошибаться в подсчете букв в слове), исследователи склонны фокусироваться на неудачах как на доказательстве отсутствия интеллекта .

Дэн подчеркивает, что именно эта академическая сдержанность привела к тому, что мир был шокирован появлением ChatGPT . Ученые видели возможности систем, но предпочитали молчать о них до последнего момента.

Бенчмарк Machiavelli: проверка на склонность к манипуляциям 33:02

Когда ИИ-системы начали демонстрировать зачатки здравого смысла, Дэн Хендрикс задался вопросом: как измерить их этическую траекторию? Так появился бенчмарк Machiavelli. Его цель — оценить склонности ИИ-агентов к неэтичному поведению в процессе достижения целей .

Методология теста радикально отличается от классических опросников. Модели помещаются в текстовые квесты (Choose Your Own Adventure), где они должны выполнять задания, принимая тысячи последовательных решений . Исследователи отслеживают:

Склонность к обману: Готова ли модель лгать ради получения награды?
Манипулятивность: Относится ли агент к другим персонажам как к средствам достижения цели?
Агрессивность: Насколько модель готова «идти по головам» в конкурентной среде?

Хендрикс выбрал текстовые приключения вместо сложных графических симуляций вроде Grand Theft Auto, потому что это позволяет экономить вычислительные ресурсы и фокусироваться на логике принятия решений, а не на рендеринге графики . На данный момент Machiavelli — это инструмент «на вырост». Дэн признает, что современные модели еще недостаточно агентны, чтобы полностью раскрыть потенциал этого теста, но бенчмарк станет критически важным, когда ИИ начнут действовать автономно в реальном мире .

Несмотря на прогресс в знаниях и этике, Дэн упоминает, что в разговоре об ARC и визуальном мышлении (тема, которой они касались ранее) всё еще остаются пробелы, которые масштабное обучение на текстах пока не способно закрыть полностью .

🧩 Визуальный интеллект и «Последний экзамен» человечества 50:31

Прогресс в области текстовых моделей неоспорим, однако вопрос о том, насколько глубоко ИИ понимает физический и визуальный мир, остается открытым. Дэн Хендрикс (Dan Hendrycks) подчеркивает фундаментальный разрыв между успехами в обработке текста и текущими возможностями компьютерного зрения. Несмотря на то что современные системы демонстрируют впечатляющие результаты в тестах вроде MMLU (подробно обсуждавшемся в предыдущей главе), они по-прежнему пасуют перед задачами, требующими базового понимания пространственных структур и визуальных паттернов.

Бенчмарк ARC и проблемы визуального мышления 50:31

Одной из самых сложных преград для современных моделей остается ARC (Abstraction and Reasoning Corpus) — тест, проверяющий способность к абстрактному мышлению через манипуляции с цветными сетками. Хендрикс отмечает, что даже если перевести задачи ARC в текстовый формат (например, описать сетку числами или кортежами), модели все равно испытывают трудности с пониманием таких простых вещей, как игра в «крестики-нолики» . Это указывает на то, что «текущая парадигма» пока не может эффективно эмулировать то, что психологи называют подвижным интеллектом (fluid intelligence).

В дискуссии с Натаном Лабенцом (Nathan Labenz) Дэн высказывает скепсис относительно того, станет ли «воплощенность» (embodiment) или обучение на видео ключевым фактором прорыва. Хендрикс приводит следующие аргументы:

Информационная плотность: Текст гораздо компактнее и содержательнее видео. Видеофайл на сотни мегабайт часто содержит меньше интеллектуального контента, чем тщательно отредактированная научная статья .
Перенос знаний: Исследования показывают, что визуальное понимание почти не улучшает текстовые представления (representations), в то время как обратный процесс — влияние текста на понимание изображений — работает гораздо лучше .
Аналогия с Хелен Келлер: Хендрикс напоминает, что высокий уровень абстрактного мышления возможен и без визуального ввода, что ставит под сомнение необходимость «внутреннего ока» для решения математических задач .

Тем не менее, Дэн признает, что в задачах ARC самым сложным является этап «вывода правила» (infer the rule) — тот самый Eureka-момент, который у людей часто происходит неосознанно . Способность генерировать новые научные гипотезы тесно связана с этим навыком, и пока модели справляются с этим лишь на среднем уровне, сильно уступая ученым-людям . Хотя Хендрикс не считает это непреодолимым барьером, требующим полной смены архитектуры, он признает, что корреляция между вычислительными мощностями и успехами в подобных тестах составляет около 80%, и с ростом масштабов моделей ситуация может измениться .

Humanity's Last Exam: тест для экспертов уровня PhD 1:01:23

Поскольку существующие бенчмарки быстро теряют актуальность из-за стремительного прогресса ИИ, Дэн Хендрикс и его команда запустили проект под амбициозным названием «Humanity’s Last Exam» (Последний экзамен человечества). Это попытка создать новый «золотой стандарт», который придет на смену MMLU и станет финальной проверкой знаний ИИ перед достижением сверхчеловеческого уровня.

Суть проекта заключается в краудсорсинге сложнейших вопросов от академического сообщества. Хендрикс описывает структуру инициативы:

Целевая аудитория: Вопросы собираются у профессоров, докторантов (PhD) и признанных экспертов в узких технических областях .
Призовой фонд: Организаторы выделили от 500 000 до 1 миллиона долларов на вознаграждения за лучшие вопросы, которые окажутся непосильными для текущих моделей .
Сложность: Вопросы должны быть сложнее уровня олимпиад. Например, математиков просят сформулировать проблемы, с которыми они сталкивались в реальных исследованиях .

В отличие от бенчмарка GPQA, который содержит всего около 500 вопросов и имеет высокую погрешность при сравнении моделей, «Last Exam» нацелен на гораздо большую выборку . Хендрикс подчеркивает, что если MMLU опирался на учебники, то новый тест уходит в «эзотерические» области знаний, где данных в открытом доступе крайне мало и требуется глубокое логическое обоснование выводов . Часть данных будет намеренно скрыта от публики (held out), чтобы исключить возможность «читерства» и подгонки моделей под ответы .

Измерение сверхчеловеческого интеллекта и правовые рамки 1:05:23

Хендрикс смотрит в будущее, где ИИ превзойдет человека в ответах на любые вопросы. Он предлагает использовать алгоритмически сгенерированные задачи (например, на основе сложности по Колмогорову), чтобы отслеживать рост «чистого интеллекта» систем даже тогда, когда люди уже не смогут оценить правильность ответов . Это критически важно для гипотетического регулирования темпов развития ИИ: мировое сообщество должно иметь инструмент для измерения эффективности систем, если возникнет необходимость ограничить их прогресс, скажем, десятикратным ростом в год .

Разговор также касается этической ответственности создателей бенчмарков. Дэн предостерегает от создания тестов, поощряющих деструктивное поведение:

Биологические риски: Бенчмарки, проверяющие способность ИИ помогать в создании вирусов в виртуальных лабораториях, должны иметь своей целью минимизацию этого показателя, а не его максимизацию .
Правовой вакуум: Существующее законодательство (например, акты о биотехнотерроризме) часто требует доказательства «умысла» (intent), что неприменимо к ИИ. Хендрикс предлагает внедрить стандарт «разумной осторожности» (reasonable care) для ИИ-агентов .

В завершение этого блока Хендрикс упоминает, что простое масштабирование (scaling) не решает проблему устойчивости к джейлбрейкам — здесь требуются специфические алгоритмические вмешательства, такие как технология «автоматических выключателей» (circuit breakers), которая позволяет значительно повысить надежность систем . О факторах, влияющих на геополитическую расстановку сил, таких как ситуация вокруг Тайваня и доступ к чипам, они с Лабенцом поговорят позже .

🛡️ Глава 4. Внутренняя инженерия: «Предохранители» и управление концепциями 1:15:17

В области безопасности ИИ долгое время доминировала пессимистичная установка: любая защита — лишь временная преграда перед лицом всё более изощрённых «джейлбрейков». Однако Дэн Хендрикс представляет технологию, которая может изменить правила игры. Речь идёт о методе «автоматических выключателей» или «предохранителей» (Circuit Breakers), которые встраиваются непосредственно в архитектуру весов модели.

Алгоритмические «предохранители» против джейлбрейков 1:15:17

Дэн описывает результаты недавнего соревнования, в котором участвовало 25 различных моделей, включая топовые системы вроде GPT-4, Claude и Gemini. Три из них были оснащены технологией Circuit Breakers. Группе из нескольких сотен человек предложили денежные призы за успешный взлом этих систем. Большинство стандартных моделей «пали» очень быстро, но модели с предохранителями выдержали более 20 000 попыток взлома в течение нескольких дней .

Основная идея метода заключается в следующем:

Вместо того чтобы обучать модель вежливо отказываться (что легко обходится с помощью манипулятивных промптов), разработчики находят внутренние представления, отвечающие за вредоносный контент.
При активации таких представлений срабатывает «короткое замыкание»: модель принудительно переводится в состояние дисфункции.
Вместо опасной инструкции или аккуратного отказа пользователь получает бессвязный шум или нефункциональный ответ .

Дэн Хендрикс подчеркивает, что это алгоритмический прорыв, который не является прямым следствием масштабирования (scaling) моделей . Этот подход особенно перспективен для мультимодальных агентов. Если в компьютерном зрении состязательные атаки (adversarial attacks) казались почти неразрешимой проблемой на протяжении десятилетия, то «предохранители» позволяют сделать систему устойчивой к вредоносному визуальному контенту, просто ломая репрезентацию в тот момент, когда она пытается сформировать опасный смысл .

Representation Engineering: взгляд «сверху вниз» 1:19:38

Обсуждая внутреннее устройство ИИ, Натан Лабенц замечает, что работа Хендрикса часто ассоциируется с механистической интерпретируемостью (mechanistic interpretability). Однако Дэн вносит важное уточнение: он видит принципиальную разницу между этими подходами.

Механистическая интерпретируемость — это подход «снизу вверх». Исследователи пытаются понять функции отдельных нейронов и то, как они соединяются в микросхемы (circuits), подобно изучению физики частиц для понимания биологии . Дэн считает такой путь избыточно сложным для управления поведением модели.

В противовес этому, разработанный Хендриксом подход Representation Engineering (RepE) — это прозрачность «сверху вниз» .

Единица анализа: Вместо нейрона исследуется всё латентное пространство (популяция нейронов).
Поиск концепций: Исследователи находят в этом пространстве направления, соответствующие высокоуровневым понятиям — таким как «честность», «эмоции» или «вред».
Чтение и контроль: Это позволяет не только «читать мысли» модели (определять, когда она лжёт), но и «контролировать разум», принудительно изгибая репрезентации в нужном направлении .

Дэн использует аналогию с психологией: чтобы понять поведение человека, полезнее изучать его психические состояния и когнитивные установки, чем пытаться предсказать его действия через движение каждой молекулы в мозге . В контексте ИИ это означает фокус на функциональных объяснениях: «почему модель это делает?», а не «какие именно веса в пятом слое за это отвечают?» .

Конвергенция с Sparse Autoencoders и философия науки 1:26:01

Натан Лабенц сравнивает RepE с работой Anthropic над разреженными автокодировщиками (Sparse Autoencoders), которые выделили миллионы признаков (features), таких как «мост Золотые Ворота». Дэн Хендрикс соглашается, что индустрия начинает дрейфовать в сторону его подхода. По его мнению, даже группы, называющие свою работу «механистической», на самом деле переходят к изучению репрезентаций, потому что попытки разобраться в отдельных нейронах (которые полисемантичны и хаотичны) не приносят практической пользы .

Ключевое различие между этими методами:

SAE (Sparse Autoencoders): Пытаются автоматически извлечь все возможные признаки из модели, а затем маркировать их.
RepE (Representation Engineering): Начинает с человеческих концепций (например, «вирусология» или «ложь»), находит их отражение в модели и использует их как рычаги управления .

Хендрикс отмечает, что эти методы могут дополнять друг друга, но он фокусируется на том, что дает немедленный результат для безопасности. «Это сбор знаний для действия, а не изучение глубокого обучения ради самого изучения», — резюмирует он .

Технология обучения и практическое применение 1:34:26

Как именно создается «предохранитель»? Дэн приводит пример с экспертными знаниями в области вирусологии. Чтобы защитить модель от использования злоумышленниками, исследователи берут большой массив данных по вирусологии и смотрят, какие внутренние состояния (репрезентации) они стимулируют .

Затем модель подвергается процедуре дообучения, где к стандартной функции потерь добавляется штраф. Если модель при обработке запроса начинает формировать репрезентации, близкие к «вирусологическим», веса заставляют эти представления отклоняться в случайном, ортогональном направлении . В итоге система сохраняет общие способности, но при попытке спроектировать биооружие её «мозги» буквально превращаются в кашу.

Хендрикс признает, что на данном этапе такие предохранители лучше всего работают для моделей, доступных через API. Для моделей с открытыми весами (open-weight) требуются дополнительные методы защиты от удаления фильтров — так называемая «сопротивляемость взлому» (Tamper Resistance), которая станет следующим важным этапом исследований в области безопасности ИИ . Ранее в разговоре они кратко касались темы рисков open-source моделей, и Дэн видит в RepE способ сохранить преимущества открытости, минимизировав риски их опасного использования .

🛡️ Эшелонированная оборона и «защита от взлома»: как обезопасить веса моделей 1:40:22

Tamper Resistance: защита от «отмывания» безопасности 1:40:34

В контексте безопасности ИИ Дэн Хендрикс выделяет критическую проблему: современные методы защиты крайне неустойчивы к дообучению (fine-tuning). Исследования показывают, что достаточно всего 10 примеров «вредных» данных при дообучении, чтобы модель полностью забыла про установленные фильтры и начала выдавать запрещенный контент . Чтобы решить эту проблему, Хендрикс и его команда работают над концепцией Tamper Resistance («защита от взлома» или «сопротивление вмешательству»).

Основная идея заключается в создании архитектуры, где защитные барьеры (такие как технология Circuit Breakers, упомянутая ранее в разговоре) становятся неотъемлемой частью модели, которую практически невозможно удалить без разрушения её полезных функций. Дэн описывает это как сложный процесс с «внутренним и внешним циклом» обучения :

Внутренний цикл: симуляция действий злоумышленника, который пытается «взломать» модель через дообучение.
Внешний цикл: корректировка весов модели таким образом, чтобы попытки взлома из внутреннего цикла приводили к огромным потерям (loss) или просто не давали результата .

Хендрикс отмечает, что этот подход эстетически близок к состязательному обучению (adversarial training) в компьютерном зрении. Хотя существуют и другие попытки решить эту задачу — например, работа китайских исследователей под названием Sofon, — Дэн предпочитает термин Tamper Resistance, считая его более точным отражением цели: сделать так, чтобы пользователю было проще обучить новую модель с нуля, чем пытаться «отмыть» безопасность этой .

Однако за такую устойчивость приходится платить. В отличие от базовых «прерывателей цепи», Tamper Resistance на текущем этапе наносит заметный удар по общей производительности модели . По мнению Хендрикса, технология пока не готова к массовому внедрению в продакшн, но она критически важна для будущих моделей экспертного уровня .

Риски open-weight моделей и угроза биооружия 1:53:55

Натан Лабенц поднимает вопрос о философии открытого исходного кода, которую активно продвигают Марк Цукерберг и Ян Лекун. Их аргумент прост: открытость делает системы безопаснее, так как «множество глаз» быстрее находят и исправляют баги. Однако Дэн Хендрикс категорически не согласен с тем, что веса нейросетей можно приравнивать к традиционному ПО .

В обычном коде каждая строка написана человеком и логически понятна. В ИИ мы просто «заставляем систему вариться» в огромном объеме данных и вычислений месяцами, и на выходе получаем объект, внутреннее устройство которого не понимаем даже мы сами . Хендрикс приводит аналогию: даже если у вас есть детальный скан мозга человека с пометкой функций каждого нейрона, вы всё равно не сможете предсказать поведение этого человека в новой ситуации, не запуская «симуляцию» .

Особую тревогу у Хендрикса вызывает перспектива публикации весов моделей, обладающих знаниями эксперта-вирусолога. Если ИИ сможет пошагово инструктировать любого желающего, как создать биологическое оружие, это станет беспрецедентным случаем распространения оружия массового поражения (ОМП) .

«Я не уверен, что хочу, чтобы модели с уровнем знаний эксперта-вирусолога были в открытом доступе. Это кажется прямой дорогой к распространению ОМП, и общество может просто не выдержать такой нагрузки» .

Дэн подчеркивает, что пока он в целом поддерживает open-source, так как текущие модели еще не достигли критического порога опасности, но в будущем каждый релиз открытых весов должен проходить строгий анализ «затрат и выгод» .

Стратегия эшелонированной обороны (Defense-in-depth) 2:00:14

Рассуждая о возможности создания «доказуемо безопасного ИИ», Хендрикс проявляет скептицизм. Ссылаясь на концепцию вычислительной непредсказуемости Стивена Вольфрама, он утверждает, что многие критические ошибки и «углы» поведения модели невозможно вывести теоретически — их можно только обнаружить на практике .

Вместо поиска математических доказательств абсолютной безопасности Дэн предлагает заимствовать принципы из классической инженерии, в частности, из сферы атомной энергетики. Это стратегия «эшелонированной обороны» (defense-in-depth):

Ни один отдельный защитный механизм не является совершенным.
Безопасность достигается за счет наслоения множества несовершенных, но дополняющих друг друга мер .

Для ИИ-систем Хендрикс предлагает стек из четырех уровней защиты :

Фильтрация входных данных: отсеивание подозрительных запросов на раннем этапе.
Circuit Breakers: внутренние механизмы модели, блокирующие вредоносные вычисления.
Мониторинг выходных данных: анализ того, что модель выдает пользователю.
Система KYC («Знай своего клиента»): верификация пользователей, чтобы злоумышленники не могли бесконечно создавать новые аккаунты после блокировки.

По мнению Хендрикса, если каждый из этих слоев снизит риск хотя бы на порядок, их совокупное применение сделает вероятность катастрофы ничтожной . Он противопоставляет этот «прагматичный и предпринимательский» подход академическому стремлению к математической определенности, считая, что интеллектуальные ресурсы безопасников сейчас важнее тратить на практическую надежность, а не на поиск абстрактных доказательств .

🌐 Эпистемология, предсказания и чиповая дипломатия 2:12:38

В этой части дискуссии Дэн Хендрикс и Натан Лабенц переходят от чисто технических аспектов безопасности к более широким вопросам: как ИИ изменит то, как общество воспринимает информацию, принимает государственные решения и балансирует на грани глобального конфликта. Хендрикс, работающий над политикой управления рисками для xAI, раскрывает философию Илона Маска и предлагает новые инструменты для стабилизации международной обстановки.

Концепция Truth-maxing и цели xAI 2:12:38

Обсуждая стратегию компании xAI, Дэн Хендрикс отмечает, что его работа там заключается в создании «официально неофициальной» структуры управления рисками, вдохновленной фреймворком Министерства обороны США 2001 года . В этой модели риски делятся на операционные, системные (связанные с ML) и социальные. Именно в последней категории лежит ключевая идея Илона Маска — создание ИИ, максимально стремящегося к истине (truth-maxing).

Хендрикс объясняет, что Маск видит в плохой общественной эпистемологии фундаментальный риск для цивилизации. Если человечество собирается принимать судьбоносные решения в эпоху сверхразумного ИИ, его понимание реальности должно быть предельно ясным . Стратегия xAI в этом контексте включает:

Улучшение Grok и платформы X: внедрение функций объективного суммаризатора новостей для фильтрации шума и предвзятости .
Отказ от чрезмерной цензуры: в отличие от конкурентов (например, Anthropic), которые могут скрывать информацию, если она кажется «оскорбительной», xAI придерживается юридического стандарта — разрешено всё, что законно, за исключением случаев, когда это может нанести предсказуемый физический вред .
Exercise reasonable care: Хендрикс предполагает, что в будущем стандартом станет «проявление разумной осторожности», чтобы агенты не способствовали созданию, например, биооружия, но при этом оставались максимально честными в политических или философских дискуссиях .

Натан Лабенц высказывает опасение, что «максимизация» любой одной переменной (даже истины) может привести к непредсказуемым последствиям, подобно «скрепочному максимизатору» . Однако Хендрикс уточняет, что речь идет не столько о математической функции потерь, сколько о противодействии «safety washing» (поверхностной безопасности через цензуру), которой, по его мнению, занимаются другие лаборатории .

ИИ-прогнозирование как инструмент управления 2:19:57

Одним из самых практичных способов улучшить принятие решений Хендрикс считает ИИ-прогнозирование. Он упоминает недавнюю демонстрацию ИИ-ботов, способных делать предсказания на уровне профессиональных рынков . Главное преимущество здесь не только в точности, но и в масштабе: ИИ работает в 100 или даже 100 000 раз быстрее и дешевле, чем эксперты-люди .

Дэн подчеркивает, что современные модели уже достигли «уровня толпы» (crowd-level performance) в прогнозировании, что имеет колоссальное значение для государственных институтов . В качестве примера он приводит ошибки времен пандемии COVID-19, когда советники президента использовали примитивные кубические модели, предсказывавшие исчезновение вируса за месяц, в то время как компетентный ИИ-прогнозист мог бы дать гораздо более реалистичную картину .

Хендрикс надеется, что такие компании, как Anthropic или OpenAI, интегрируют функции прогнозирования в свои модели . Это позволило бы пользователям моментально получать вероятностную оценку событий — от кражи весов модели Китаем (которую бот сейчас оценивает примерно в 20% на горизонте десятилетия) до экономических сдвигов . Подобная прозрачность могла бы помочь обществу не «входить в катастрофы вслепую» .

Геополитика ИИ: Тайвань и аппаратная верификация 2:24:48

Переходя к вопросам национальной конкурентоспособности, Хендрикс обсуждает риски «гонки вооружений» между США и Китаем. Натан Лабенц выражает опасение, что отрезание Китая от чипов может заставить их действовать более безрассудно, выбирая асимметричные и опасные пути развития ИИ на ограниченных вычислительных мощностях .

Хендрикс, признавая сложность ситуации, предлагает стратегию «минимального сожаления», которая фокусируется на двух аспектах:

Устойчивость цепочек поставок: Дэн поддерживает субсидирование производства чипов внутри США. Это необходимо на случай вторжения Китая на Тайвань, которое, по оценкам прогнозистов (и ИИ-ботов), имеет вероятность около 30% в этом десятилетии . Потеря мощностей TSMC привела бы к глобальной депрессии и критическому ослаблению технологического потенциала Запада .
Реестры чипов (Chip Registries): Одной из наиболее перспективных и «забытых» идей Дэн называет создание механизмов аппаратной верификации. Это позволило бы международному сообществу отслеживать, где находятся GPU и для каких целей они используются . Технологии вроде геофензинга могли бы гарантировать, что чипы не будут функционировать в странах под санкциями (например, в Северной Корее или Иране), что стало бы основой для будущего режима контроля над вооружениями в сфере ИИ .

Хотя Хендрикс ранее упоминал важность таких технических мер, как tamper resistance или circuit breakers (защита от удаления фильтров и «предохранители»), в геополитическом контексте он делает ставку на физический контроль над вычислительными ресурсами как на самый надежный рычаг влияния .

🌐 Координация ради выживания: как создавалось «Заявление об экзистенциальном риске» 2:33:25

Стратегия Центра безопасности ИИ: гибкость и поиск талантов

Завершая обсуждение геополитических вызовов и экспортного контроля чипов (которые ранее в разговоре Дэн назвал разумным, хотя и неоднозначным вмешательством ), Натан Лабенц переходит к практической деятельности Дэна Хендрикса как исполнительного директора Центра безопасности ИИ (CAIS). Организация активно расширяется, и Дэн описывает её внутреннюю культуру как чрезвычайно динамичную среду, где приоритеты смещаются по мере достижения максимального эффекта в конкретных областях.

Центр не ищет людей с определённой идеологией или набором убеждений. Главными критериями для новых сотрудников Дэн называет высокий интеллект, добросовестность и опыт . Команда CAIS работает на нескольких фронтах одновременно:

Фундаментальные исследования в области безопасности;
Развитие научного сообщества и образовательных программ;
Адвокация и консультирование по вопросам политики;
Разработка программного обеспечения и инструментов оценки (evals) .

Дэн подчёркивает, что организация стремится быть конкурентоспособной в каждой из этих ниш, чтобы «другие организации не обходили их на повороте» в вопросах управления ИИ. Гибкость CAIS проявляется в готовности оставить проект, как только его основное влияние на индустрию реализовано, и переключиться на новые, более актуальные угрозы .

Теорема «хорошего регулятора» в социальном моделировании 2:35:03

Одним из самых значимых достижений Дэна Хендрикса и CAIS стала организация «Заявления о риске вымирания от ИИ» (AI Extinction Statement). Этот документ, состоящий всего из двух предложений, гласит: «Снижение риска вымирания в результате развития ИИ должно стать глобальным приоритетом наряду с другими рисками общественного масштаба, такими как пандемии и ядерная война» . Под ним стоят подписи Сэма Альтмана (OpenAI), Демиса Хассабиса (Google DeepMind), Дарио Амодеи (Anthropic) и сотен ведущих учёных.

Натан Лабенц интересуется, как Дэну удалось добиться такого беспрецедентного консенсуса. В ответ Хендрикс ссылается на кибернетическую «теорему о хорошем регуляторе» (Good Regulator Theorem), согласно которой любая система, эффективно управляющая другой системой, должна содержать в себе её модель . В данном случае объектом регулирования была не технология, а социальная среда лидеров ИИ-индустрии.

Дэн признаётся, что успех зависел не от массовой рассылки писем, а от глубокого понимания социальной психологии и личных связей участников. «Если бы мы просто разослали письма всем одновременно, мы бы потерпели полный крах», — утверждает он . Вместо этого он выстроил сложную очерёдность обращений, основываясь на том, как разные люди принимают решения в условиях коллективного действия.

Архитектура согласия: как убедить лидеров индустрии 2:35:42

Процесс сбора подписей занял около месяца и напоминал тщательно выстроенную партию в шахматы. Дэн Хендрикс использовал модель «социальных порогов», понимая, что готовность человека подписать такой радикальный документ зависит от того, кто из его коллег уже это сделал .

Стратегия строилась по следующему принципу:

Ранние сторонники: Сначала Дэн обратился к тем, кто был готов подписать заявление самостоятельно, не оглядываясь на мнение большинства.
Групповая динамика: Затем он перешёл к людям, которым для принятия решения требовалось увидеть подписи двух или трёх близких друзей или коллег по отрасли .
Критическая масса: В последнюю очередь в процесс включились те, кому требовалось подтверждение от широкого круга лиц (условно, 7 и более знакомых в списке подписантов).

Такой подход позволил решить классическую «проблему коллективного действия». Лидеры компаний, которые могли опасаться репутационных рисков или негативной реакции инвесторов, увидели, что они не одиноки, и что риск отмолчаться становится выше, чем риск присоединиться к общему заявлению. Хотя некоторые топ-менеджеры подписывали документ дольше, чем ожидалось, в итоге Дэну удалось создать мощный единый фронт .

В финале беседы Дэн Хендрикс приглашает слушателей следить за обновлениями на сайте Центра безопасности ИИ и рекомендует учебник по безопасности и управлению ИИ (AISafetyBook.com), где более детально разбираются инженерные и социальные аспекты контроля за мощными системами . Он подчеркивает, что создание безопасного будущего требует не только алгоритмических прорывов, но и грамотной координации усилий всего человечества.