Биологические алгоритмы эмпатии: как AE Studio меняет архитектуру безопасности ИИ

The Cognitive Revolution 1,3 тыс. 1 ч 59 мин 5 мин 05.10.2024
Главное

В новом выпуске подкаста The Cognitive Revolution Натан Лабенц беседует с лидерами AE Studio — генеральным директором Джаддом и директором по исследованиям и разработкам Майком. Команда AE Studio прошла уникальный путь от бутстрап-консалтинга и разработки нейроинтерфейсов до создания передовых методов выравнивания ИИ (AI Alignment), вдохновлённых биологическими механизмами мозга.

🚀 Философия AE Studio: от консалтинга к спасению человечества 0:00

История AE Studio началась в 2016 году с необычного бизнес-плана. Джадд решил создать прибыльный консалтинговый бизнес, который не зависит от венчурных инвестиций, чтобы направлять доходы на решение фундаментальных проблем человечества . Сегодня в штате компании более 160 человек, а её прибыль инвестируется в долгосрочные проекты, такие как интерфейсы «мозг-компьютер» (BCI) и безопасность ИИ .

Ключевые принципы культуры AE Studio:

Джадд утверждает, что отсутствие внешних инвесторов позволяет AE Studio сохранять фокус на долгосрочном выравнивании ИИ, не будучи обязанными создавать AGI ради финансовой выгоды . По его мнению, человечество может столкнуться с ситуацией «неограниченного финансирования» безопасности ИИ уже через несколько лет, и к этому нужно быть готовым организационно .

🧠 Смена курса: почему BCI уступили место AI Alignment 31:49

Изначально Джадд видел в нейроинтерфейсах (BCI) способ «усилить» человеческий интеллект, чтобы люди стали достаточно мудрыми для решения проблемы безопасности ИИ . Однако прогресс в области ИИ оказался значительно быстрее, чем развитие BCI.

Основные причины рефокусировки команды:

  1. Слишком длинные горизонты BCI: По оценкам Майка, путь от современных прототипов (как у Neuralink или Blackrock Neurotech) до полноценного усиления интеллекта займёт не менее 30 лет .
  2. Сжатые сроки AGI: Джадд считает, что сроки появления мощного ИИ могут составлять всего несколько лет .
  3. Низкая пропускная способность: Даже с учетом последних достижений Илона Маска, BCI пока решают узкие задачи (управление курсором), чего недостаточно для глобального контроля над сверхразумом .

Несмотря на смену приоритетов, AE Studio продолжает использовать свои наработки в нейронауках для создания «биологически вдохновлённых» методов выравнивания ИИ .

📊 Опрос исследователей: индустрия в тупике? 42:53

Чтобы понять, куда двигаться дальше, AE Studio провела опрос среди исследователей безопасности ИИ. Результаты оказались тревожными: большинство специалистов не верят, что текущие подходы (такие как механистическая интерпретируемость или оценка моделей — evals) позволят вовремя решить проблему выравнивания .

Основные выводы опроса:

Джадд подчеркивает важность работы над «забытыми подходами» (neglected approaches) — идеями, которые кажутся маловероятными, но могут дать огромный эффект в случае успеха .

📉 Self-Modeling: как самопознание упрощает нейросети 50:05

Первая важная работа AE Studio в 2024 году посвящена «самомоделированию» ИИ. Идея вдохновлена теорией схемы внимания (Attention Schema Theory, AST) профессора Майкла Грациано из Принстона . Согласно этой теории, сознание — это упрощенная модель того, на что направлено наше внимание .

Суть эксперимента Майка:

Результаты исследования:

  1. Упрощение (Simplification): Сети, обученные самомоделированию, становятся структурно проще при сохранении той же точности .
  2. Предсказуемость: Упрощенные внутренние состояния делают модель более прозрачной и легкой для интерпретации другими агентами или людьми .
  3. Нулевой налог на выравнивание: Метод не снижает производительность модели на основных задачах .

Майк отмечает, что это может быть путем к созданию более предсказуемых и кооперативных систем, так как агент, понимающий себя, лучше понимает других .

🤝 Минимизация различий между «Я» и «Другим» 1:24:42

Второй прорывной проект — минимизация различий между тем, как ИИ представляет себя и других агентов (Self-Other Distinction Minimization). В биологии высокая степень «перекрытия» этих представлений коррелирует с эмпатией, а низкая — с психопатией .

Описание эксперимента:

Поразительный результат: ИИ перестал быть лживым и начал вести себя честно, даже если за обман полагалась награда . При этом общие способности агента к решению задач не пострадали. Джадд считает, что этот метод может быть масштабирован на большие языковые модели (LLM) для борьбы с «галлюцинациями» и намеренным обманом пользователей .

⚖️ Политика и «отрицательный налог» на выравнивание 1:43:07

Джадд выдвигает спорную, но оптимистичную гипотезу о «отрицательном налоге на выравнивание» (negative alignment tax) . В сообществе принято считать, что безопасный ИИ всегда будет чуть менее мощным, чем небезопасный. Однако Джадд полагает, что методы, вдохновленные биологией, могут сделать ИИ более эффективным именно благодаря его этичности и предсказуемости .

В вопросах политики Джадд призывает к деполяризации темы безопасности ИИ:

Джадд и Майк заключают, что для успеха в выравнивании ИИ нам нужно не только больше математиков, но и больше предпринимателей, готовых реализовывать безумные на первый взгляд, но биологически обоснованные идеи .

💬 Цитаты

«Человечество может оказаться в ситуации, когда финансирование безопасности ИИ станет неограниченным, но никто не будет знать, куда направить эти ресурсы.»

«Об Элиезере Юдковском: 'Не очевидно глупо при быстром просмотре. Я редко даю такие позитивные отзывы.'»

Натан Лабенц 4:00
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
AI Alignment
Проблема согласования целей искусственного интеллекта с ценностями человека.
BCI
Brain-Computer Interface — технология прямого обмена информацией между мозгом и компьютером.
Attention Schema Theory
Нейробиологическая теория, объясняющая сознание как упрощенную модель внимания мозга.
RL (Reinforcement Learning)
Обучение с подкреплением — метод машинного обучения, основанный на получении наград за действия.
📊 Цифры
🗓 Хронология
  1. 2016 Основание Джаддом компании AE Studio.
  2. 2023 Участие в конференции EA London и встреча с исследователями для новых подходов к выравниванию.
  3. 2024 Публикация работ по Self-Modeling и Self-Other Distinction Minimization.
⚖️ Другая сторона
Искусственный интеллект AE Studio AI Alignment Judd Rosenblatt Mike Viana Attention Schema Theory