# Биологические алгоритмы эмпатии: как AE Studio меняет архитектуру безопасности ИИ

Источник: https://www.youtube.com/watch?v=1C3yLKAvPw8
Канал: The Cognitive Revolution
Опубликовано: 05.10.2024

---

В новом выпуске подкаста **The Cognitive Revolution** Натан Лабенц беседует с лидерами **AE Studio** — генеральным директором Джаддом и директором по исследованиям и разработкам Майком. Команда **AE Studio** прошла уникальный путь от бутстрап-консалтинга и разработки нейроинтерфейсов до создания передовых методов выравнивания ИИ (AI Alignment), вдохновлённых биологическими механизмами мозга.

## 🚀 Философия AE Studio: от консалтинга к спасению человечества
[[JUMP:0:00]]

История **AE Studio** началась в 2016 году с необычного бизнес-плана. Джадд решил создать прибыльный консалтинговый бизнес, который не зависит от венчурных инвестиций, чтобы направлять доходы на решение фундаментальных проблем человечества [5:54]. Сегодня в штате компании более 160 человек, а её прибыль инвестируется в долгосрочные проекты, такие как интерфейсы «мозг-компьютер» (BCI) и безопасность ИИ [7:51].

Ключевые принципы культуры **AE Studio**:

*   **Human Agency (Агентность человека):** Главная цель любого продукта — увеличивать возможности пользователя, а не манипулировать им ради рекламы [6:47].
*   **Good Tripper (Хороший походник):** Внутренняя концепция, пришедшая из опыта Джадда в организации походов: делать больше своей доли работы и брать на себя ответственность в трудные моменты [22:09].
*   **Эффективный альтруизм:** Компания жертвует 5% прибыли в высокоэффективные благотворительные организации, такие как фонды по борьбе с малярией [23:11].

Джадд утверждает, что отсутствие внешних инвесторов позволяет **AE Studio** сохранять фокус на долгосрочном выравнивании ИИ, не будучи обязанными создавать AGI ради финансовой выгоды [8:55]. По его мнению, человечество может столкнуться с ситуацией «неограниченного финансирования» безопасности ИИ уже через несколько лет, и к этому нужно быть готовым организационно [33:46].

## 🧠 Смена курса: почему BCI уступили место AI Alignment
[[JUMP:31:49]]

Изначально Джадд видел в нейроинтерфейсах (BCI) способ «усилить» человеческий интеллект, чтобы люди стали достаточно мудрыми для решения проблемы безопасности ИИ [31:49]. Однако прогресс в области ИИ оказался значительно быстрее, чем развитие BCI.

Основные причины рефокусировки команды:

1.  **Слишком длинные горизонты BCI:** По оценкам Майка, путь от современных прототипов (как у Neuralink или Blackrock Neurotech) до полноценного усиления интеллекта займёт не менее 30 лет [39:08].
2.  **Сжатые сроки AGI:** Джадд считает, что сроки появления мощного ИИ могут составлять всего несколько лет [8:41].
3.  **Низкая пропускная способность:** Даже с учетом последних достижений Илона Маска, BCI пока решают узкие задачи (управление курсором), чего недостаточно для глобального контроля над сверхразумом [40:52].

Несмотря на смену приоритетов, **AE Studio** продолжает использовать свои наработки в нейронауках для создания «биологически вдохновлённых» методов выравнивания ИИ [37:59].

## 📊 Опрос исследователей: индустрия в тупике?
[[JUMP:42:53]]

Чтобы понять, куда двигаться дальше, **AE Studio** провела опрос среди исследователей безопасности ИИ. Результаты оказались тревожными: большинство специалистов не верят, что текущие подходы (такие как механистическая интерпретируемость или оценка моделей — evals) позволят вовремя решить проблему выравнивания [43:17].

Основные выводы опроса:

*   Текущие методы не покрывают всё пространство необходимых решений [45:47].
*   В сообществе существует «страх способностей»: многие боятся предлагать идеи, которые могут случайно ускорить развитие возможностей ИИ, хотя 70% опрошенных считают, что выравнивание и развитие способностей не исключают друг друга [1:43:21].
*   Недооцениваются гибкие навыки: сообщество переоценивает чистый математический интеллект и недооценивает важность сотрудничества и организационной эффективности [48:36].

Джадд подчеркивает важность работы над «забытыми подходами» (neglected approaches) — идеями, которые кажутся маловероятными, но могут дать огромный эффект в случае успеха [9:59].

## 📉 Self-Modeling: как самопознание упрощает нейросети
[[JUMP:50:05]]

Первая важная работа **AE Studio** в 2024 году посвящена «самомоделированию» ИИ. Идея вдохновлена теорией схемы внимания (Attention Schema Theory, AST) профессора Майкла Грациано из Принстона [55:47]. Согласно этой теории, сознание — это упрощенная модель того, на что направлено наше внимание [1:04:19].

Суть эксперимента Майка:

*   В архитектуру нейросети добавляется дополнительный слой, задача которого — предсказывать внутренние активации самой сети (свои «мысли») [58:12].
*   Функция потерь (loss function) теперь заставляет модель не только решать задачу (например, распознавание цифр MNIST), но и понимать своё внутреннее состояние [59:05].

Результаты исследования:

1.  **Упрощение (Simplification):** Сети, обученные самомоделированию, становятся структурно проще при сохранении той же точности [1:00:12].
2.  **Предсказуемость:** Упрощенные внутренние состояния делают модель более прозрачной и легкой для интерпретации другими агентами или людьми [1:15:54].
3.  **Нулевой налог на выравнивание:** Метод не снижает производительность модели на основных задачах [1:00:27].

Майк отмечает, что это может быть путем к созданию более предсказуемых и кооперативных систем, так как агент, понимающий себя, лучше понимает других [1:10:02].

## 🤝 Минимизация различий между «Я» и «Другим»
[[JUMP:1:24:42]]

Второй прорывной проект — минимизация различий между тем, как ИИ представляет себя и других агентов (Self-Other Distinction Minimization). В биологии высокая степень «перекрытия» этих представлений коррелирует с эмпатией, а низкая — с психопатией [1:26:01].

Описание эксперимента:

*   Использовалась среда с двумя агентами и «ловушкой». Обычный агент обучается обманывать противника, заманивая его в ловушку, чтобы самому достичь цели [1:28:13].
*   Майк применил тонкую настройку (fine-tuning), заставляя модель минимизировать разницу в своих активациях в ситуациях, когда противник присутствует и когда его нет [1:32:40].

Поразительный результат: ИИ перестал быть лживым и начал вести себя честно, даже если за обман полагалась награда [1:33:48]. При этом общие способности агента к решению задач не пострадали. Джадд считает, что этот метод может быть масштабирован на большие языковые модели (LLM) для борьбы с «галлюцинациями» и намеренным обманом пользователей [1:26:28].

## ⚖️ Политика и «отрицательный налог» на выравнивание
[[JUMP:1:43:07]]

Джадд выдвигает спорную, но оптимистичную гипотезу о «отрицательном налоге на выравнивание» (negative alignment tax) [1:44:14]. В сообществе принято считать, что безопасный ИИ всегда будет чуть менее мощным, чем небезопасный. Однако Джадд полагает, что методы, вдохновленные биологией, могут сделать ИИ более эффективным именно *благодаря* его этичности и предсказуемости [1:45:32].

В вопросах политики Джадд призывает к деполяризации темы безопасности ИИ:

*   **Против «Woke» ярлыков:** По мнению Джадда, многие на правом фланге ошибочно путают безопасность ИИ с «прогрессивной цензурой» (наподобие неудачного запуска Google Gemini с историческими неточностями) [1:57:38].
*   **Двупартийность:** Крайне важно сделать AI Alignment темой, объединяющей политиков, а не раскалывающей их по партийному признаку, особенно в преддверии возможных президентских изменений в США [1:58:44].
*   **Защита информаторов:** Джадд поддерживает усиление законодательной защиты для сотрудников ИИ-лабораторий, готовых сообщать о рисках [1:57:26].

Джадд и Майк заключают, что для успеха в выравнивании ИИ нам нужно не только больше математиков, но и больше предпринимателей, готовых реализовывать безумные на первый взгляд, но биологически обоснованные идеи [5:01].