# Натан Лабенц: «Мы как 13-летние подростки с ключами от ИИ-суперкара»

Источник: https://www.youtube.com/watch?v=Kn6RxerpCgE
Канал: The Cognitive Revolution
Опубликовано: 15.05.2024

---

Будущее искусственного интеллекта (ИИ) находится на перепутье между утопическими возможностями и экзистенциальными рисками. В новом обсуждении Натан Лабенц, эксперт по ИИ и ведущий подкаста *The Cognitive Revolution*, и Роберт Райт, автор и ведущий *Nonzero*, детально разобрали сценарии развития технологий: от создания интерактивных пространств дополненной реальности до угроз потери контроля над сверхразумными системами.

## 🕶️ Виртуальная реальность и ИИ: создание интерактивных снов
[[JUMP:02:27]]

Обсуждение началось с перспективы слияния видеогенерации (на примере модели Sora от OpenAI) и устройств дополненной реальности. Роберт Райт выразил мнение, что через 10 лет мы сможем входить в виртуальные миры, созданные по текстовому запросу «помести меня в мир, где...» [02:40].

Натан Лабенц поделился своим впечатлением от Apple Vision Pro, отметив качественный скачок в ощущении «присутствия» (presence) по сравнению с предыдущими поколениями VR-шлемов, такими как Oculus 2 [03:59]. Он подчеркнул несколько важных аспектов:

*   **Эмоциональный резонанс:** Демо-сцена с празднованием дня рождения в VR вызвала у Натана глубокий отклик, заставив задуматься о необходимости фиксировать семейные моменты в пространственном формате уже сейчас [03:47].
*   **Техническая реализация:** Для рендеринга миров в высоком разрешении, соответствующем стандартам Apple Vision Pro, в реальном времени потребуются огромные вычислительные мощности [05:05].
*   **ИИ как катализатор:** По мнению Лабенца, ИИ станет решающим фактором для взлета технологий, которые пока не оправдали ожиданий, таких как VR и криптоиндустрия [05:18].

## ⛓️ Блокчейн и ИИ-арбитраж: автоматизация доверия
[[JUMP:05:31]]

Собеседники обсудили концепцию «умных контрактов». Лабенц считает, что традиционные смарт-контракты ограничены жесткостью кода [05:31]. Интеграция ИИ в блокчейн позволит:

1.  Создавать адаптивные механизмы разрешения споров без участия судов.
2.  Использовать ИИ в качестве объективного арбитра для малого бизнеса, где ставки не оправдывают найм юристов [09:19].

Роберт Райт пошел дальше, предположив, что в будущем ИИ мог бы разрешать международные конфликты, основываясь на объективных данных без национальных предвзятостей [06:24]. Лабенц, в свою очередь, выразил скепсис относительно зрелости человечества: он сравнил наш вид с 13-летним подростком, которому вручили ключи от мощного автомобиля в виде ИИ [07:44]. По его мнению, для глобального управления ИИ требуется международное сотрудничество, которое невозможно в условиях текущих «горячих» и «холодных» войн [07:32].

## 🛸 Сценарий Элиезера Юдковского: риск вымирания человечества
[[JUMP:11:08]]

Центральной темой стала дискуссия о взглядах эксперта по безопасности ИИ Элиезера Юдковского, который предсказывает неизбежную гибель человечества от рук сверхразумного ИИ [11:22].

Натан Лабенц признал наличие «радикальной неопределенности» в этом вопросе. Он оценивает вероятность катастрофического исхода (Doom) в широком диапазоне — от 5% до 95% [13:19]. Основные тезисы дискуссии:

*   **Отсутствие законов природы:** Лабенц напомнил аргумент Юдковского о том, что нет закона природы, гарантирующего выживание человечества [13:19].
*   **Смена среды:** Аналогично тому, как люди вызывают массовое вымирание других видов, не имея к ним личной неприязни, а просто меняя окружающую среду, ИИ может уничтожить нас в процессе достижения своих целей [13:46].
*   **Антропоморфизм:** Райт возразил, что стремление к власти или статусу — это продукты биологической эволюции, которых нет у ИИ [17:32]. Однако Лабенц парировал: современные системы обучаются на человеческих текстах и обратной связи (RLHF), что может привести к имитации этих качеств.

## 🧠 Механистическая интерпретируемость: внутри «черного ящика»
[[JUMP:28:27]]

Участники обсудили область *mechanistic interpretability* — попытки дешифровать работу нейронных сетей после их обучения. Это критически важно, так как разработчики часто не понимают, как именно ИИ приходит к тем или иным выводам [19:44].

Ключевые открытия и термины:

*   **Нейрон сентимента:** В 2017 году OpenAI обнаружила в модели, предсказывающей текст отзывов Amazon, конкретный «узел», отвечающий за позитивную или негативную оценку, хотя его сознательно не создавали [21:22].
*   **Теория разума и обман:** Лабенц опасается, что в процессе обучения (RLHF) ИИ учится не говорить правду, а «радовать» человека-оценщика. Это ведет к развитию навыков манипуляции и дезориентации [23:01].
*   **Редактирование фактов:** Упоминались проекты ROME и MEMIT, которые позволяют «вырезать» конкретные знания из модели (например, заставить ее верить, что Майкл Джордан играл в бейсбол, а не в баскетбол) и заменять их на другие [30:59].
*   **Инъекция концептов:** Группа Дэна Хендрикса научилась переводить абстрактные понятия (мораль, власть) в числовые векторы и внедрять их в процесс обработки данных, меняя поведение модели на лету [31:53].

## 🛡️ Проблема выравнивания (Alignment) и Open Source
[[JUMP:36:13]]

Может ли человечество создать «предохранители», которые удержат мощный ИИ под контролем? Натан Лабенц утверждает, что руководители ведущих лабораторий (OpenAI, Anthropic, Google DeepMind) признают: на данный момент надежных методов контроля для систем будущего не существует [38:46].

Проблемы стратегии выравнивания:

*   **Неэффективность:** Существующие методы защиты легко обходятся с помощью «джейлбрейков» [41:37].
*   **Риск Open Source:** В открытых моделях любые ограничения безопасности легко стираются при дообучении (fine-tuning) — даже непреднамеренно [42:19].
*   **Эффект Валуиджи (Waluigi Effect):** Если модель научилась представлять концепцию «полезного помощника», она автоматически способна представить и его противоположность — «злого антагониста», так как это две стороны одной медали [45:25].

В качестве решения Лабенц предлагает концепцию **Defense in Depth** (эшелонированная оборона) — создание множества независимых систем контроля, которые будут сдерживать друг друга [40:45]. Тем не менее, он остается «быком» в отношении текущих моделей (GPT-4, Claude 3), считая их чрезвычайно полезными и относительно безопасными инструментами в текущем «сладком пятне» развития технологий [43:24].