Биологические алгоритмы эмпатии: как AE Studio меняет архитектуру безопасности ИИ

В новом выпуске подкаста The Cognitive Revolution Натан Лабенц беседует с лидерами AE Studio — генеральным директором Джаддом и директором по исследованиям и разработкам Майком. Команда AE Studio прошла уникальный путь от бутстрап-консалтинга и разработки нейроинтерфейсов до создания передовых методов выравнивания ИИ (AI Alignment), вдохновлённых биологическими механизмами мозга.

🚀 Философия AE Studio: от консалтинга к спасению человечества 0:00

История AE Studio началась в 2016 году с необычного бизнес-плана. Джадд решил создать прибыльный консалтинговый бизнес, который не зависит от венчурных инвестиций, чтобы направлять доходы на решение фундаментальных проблем человечества . Сегодня в штате компании более 160 человек, а её прибыль инвестируется в долгосрочные проекты, такие как интерфейсы «мозг-компьютер» (BCI) и безопасность ИИ .

Ключевые принципы культуры AE Studio:

Human Agency (Агентность человека): Главная цель любого продукта — увеличивать возможности пользователя, а не манипулировать им ради рекламы .
Good Tripper (Хороший походник): Внутренняя концепция, пришедшая из опыта Джадда в организации походов: делать больше своей доли работы и брать на себя ответственность в трудные моменты .
Эффективный альтруизм: Компания жертвует 5% прибыли в высокоэффективные благотворительные организации, такие как фонды по борьбе с малярией .

Джадд утверждает, что отсутствие внешних инвесторов позволяет AE Studio сохранять фокус на долгосрочном выравнивании ИИ, не будучи обязанными создавать AGI ради финансовой выгоды . По его мнению, человечество может столкнуться с ситуацией «неограниченного финансирования» безопасности ИИ уже через несколько лет, и к этому нужно быть готовым организационно .

🧠 Смена курса: почему BCI уступили место AI Alignment 31:49

Изначально Джадд видел в нейроинтерфейсах (BCI) способ «усилить» человеческий интеллект, чтобы люди стали достаточно мудрыми для решения проблемы безопасности ИИ . Однако прогресс в области ИИ оказался значительно быстрее, чем развитие BCI.

Основные причины рефокусировки команды:

Слишком длинные горизонты BCI: По оценкам Майка, путь от современных прототипов (как у Neuralink или Blackrock Neurotech) до полноценного усиления интеллекта займёт не менее 30 лет .
Сжатые сроки AGI: Джадд считает, что сроки появления мощного ИИ могут составлять всего несколько лет .
Низкая пропускная способность: Даже с учетом последних достижений Илона Маска, BCI пока решают узкие задачи (управление курсором), чего недостаточно для глобального контроля над сверхразумом .

Несмотря на смену приоритетов, AE Studio продолжает использовать свои наработки в нейронауках для создания «биологически вдохновлённых» методов выравнивания ИИ .

📊 Опрос исследователей: индустрия в тупике? 42:53

Чтобы понять, куда двигаться дальше, AE Studio провела опрос среди исследователей безопасности ИИ. Результаты оказались тревожными: большинство специалистов не верят, что текущие подходы (такие как механистическая интерпретируемость или оценка моделей — evals) позволят вовремя решить проблему выравнивания .

Основные выводы опроса:

Текущие методы не покрывают всё пространство необходимых решений .
В сообществе существует «страх способностей»: многие боятся предлагать идеи, которые могут случайно ускорить развитие возможностей ИИ, хотя 70% опрошенных считают, что выравнивание и развитие способностей не исключают друг друга .
Недооцениваются гибкие навыки: сообщество переоценивает чистый математический интеллект и недооценивает важность сотрудничества и организационной эффективности .

Джадд подчеркивает важность работы над «забытыми подходами» (neglected approaches) — идеями, которые кажутся маловероятными, но могут дать огромный эффект в случае успеха .

📉 Self-Modeling: как самопознание упрощает нейросети 50:05

Первая важная работа AE Studio в 2024 году посвящена «самомоделированию» ИИ. Идея вдохновлена теорией схемы внимания (Attention Schema Theory, AST) профессора Майкла Грациано из Принстона . Согласно этой теории, сознание — это упрощенная модель того, на что направлено наше внимание .

Суть эксперимента Майка:

В архитектуру нейросети добавляется дополнительный слой, задача которого — предсказывать внутренние активации самой сети (свои «мысли») .
Функция потерь (loss function) теперь заставляет модель не только решать задачу (например, распознавание цифр MNIST), но и понимать своё внутреннее состояние .

Результаты исследования:

Упрощение (Simplification): Сети, обученные самомоделированию, становятся структурно проще при сохранении той же точности .
Предсказуемость: Упрощенные внутренние состояния делают модель более прозрачной и легкой для интерпретации другими агентами или людьми .
Нулевой налог на выравнивание: Метод не снижает производительность модели на основных задачах .

Майк отмечает, что это может быть путем к созданию более предсказуемых и кооперативных систем, так как агент, понимающий себя, лучше понимает других .

🤝 Минимизация различий между «Я» и «Другим» 1:24:42

Второй прорывной проект — минимизация различий между тем, как ИИ представляет себя и других агентов (Self-Other Distinction Minimization). В биологии высокая степень «перекрытия» этих представлений коррелирует с эмпатией, а низкая — с психопатией .

Описание эксперимента:

Использовалась среда с двумя агентами и «ловушкой». Обычный агент обучается обманывать противника, заманивая его в ловушку, чтобы самому достичь цели .
Майк применил тонкую настройку (fine-tuning), заставляя модель минимизировать разницу в своих активациях в ситуациях, когда противник присутствует и когда его нет .

Поразительный результат: ИИ перестал быть лживым и начал вести себя честно, даже если за обман полагалась награда . При этом общие способности агента к решению задач не пострадали. Джадд считает, что этот метод может быть масштабирован на большие языковые модели (LLM) для борьбы с «галлюцинациями» и намеренным обманом пользователей .

⚖️ Политика и «отрицательный налог» на выравнивание 1:43:07

Джадд выдвигает спорную, но оптимистичную гипотезу о «отрицательном налоге на выравнивание» (negative alignment tax) . В сообществе принято считать, что безопасный ИИ всегда будет чуть менее мощным, чем небезопасный. Однако Джадд полагает, что методы, вдохновленные биологией, могут сделать ИИ более эффективным именно благодаря его этичности и предсказуемости .

В вопросах политики Джадд призывает к деполяризации темы безопасности ИИ:

Против «Woke» ярлыков: По мнению Джадда, многие на правом фланге ошибочно путают безопасность ИИ с «прогрессивной цензурой» (наподобие неудачного запуска Google Gemini с историческими неточностями) .
Двупартийность: Крайне важно сделать AI Alignment темой, объединяющей политиков, а не раскалывающей их по партийному признаку, особенно в преддверии возможных президентских изменений в США .
Защита информаторов: Джадд поддерживает усиление законодательной защиты для сотрудников ИИ-лабораторий, готовых сообщать о рисках .

Джадд и Майк заключают, что для успеха в выравнивании ИИ нам нужно не только больше математиков, но и больше предпринимателей, готовых реализовывать безумные на первый взгляд, но биологически обоснованные идеи .