Натан Лабенц: «Мы как 13-летние подростки с ключами от ИИ-суперкара»

Будущее искусственного интеллекта (ИИ) находится на перепутье между утопическими возможностями и экзистенциальными рисками. В новом обсуждении Натан Лабенц, эксперт по ИИ и ведущий подкаста The Cognitive Revolution, и Роберт Райт, автор и ведущий Nonzero, детально разобрали сценарии развития технологий: от создания интерактивных пространств дополненной реальности до угроз потери контроля над сверхразумными системами.

🕶️ Виртуальная реальность и ИИ: создание интерактивных снов 2:27

Обсуждение началось с перспективы слияния видеогенерации (на примере модели Sora от OpenAI) и устройств дополненной реальности. Роберт Райт выразил мнение, что через 10 лет мы сможем входить в виртуальные миры, созданные по текстовому запросу «помести меня в мир, где...» .

Натан Лабенц поделился своим впечатлением от Apple Vision Pro, отметив качественный скачок в ощущении «присутствия» (presence) по сравнению с предыдущими поколениями VR-шлемов, такими как Oculus 2 . Он подчеркнул несколько важных аспектов:

Эмоциональный резонанс: Демо-сцена с празднованием дня рождения в VR вызвала у Натана глубокий отклик, заставив задуматься о необходимости фиксировать семейные моменты в пространственном формате уже сейчас .
Техническая реализация: Для рендеринга миров в высоком разрешении, соответствующем стандартам Apple Vision Pro, в реальном времени потребуются огромные вычислительные мощности .
ИИ как катализатор: По мнению Лабенца, ИИ станет решающим фактором для взлета технологий, которые пока не оправдали ожиданий, таких как VR и криптоиндустрия .

⛓️ Блокчейн и ИИ-арбитраж: автоматизация доверия 5:31

Собеседники обсудили концепцию «умных контрактов». Лабенц считает, что традиционные смарт-контракты ограничены жесткостью кода . Интеграция ИИ в блокчейн позволит:

Создавать адаптивные механизмы разрешения споров без участия судов.
Использовать ИИ в качестве объективного арбитра для малого бизнеса, где ставки не оправдывают найм юристов .

Роберт Райт пошел дальше, предположив, что в будущем ИИ мог бы разрешать международные конфликты, основываясь на объективных данных без национальных предвзятостей . Лабенц, в свою очередь, выразил скепсис относительно зрелости человечества: он сравнил наш вид с 13-летним подростком, которому вручили ключи от мощного автомобиля в виде ИИ . По его мнению, для глобального управления ИИ требуется международное сотрудничество, которое невозможно в условиях текущих «горячих» и «холодных» войн .

🛸 Сценарий Элиезера Юдковского: риск вымирания человечества 11:08

Центральной темой стала дискуссия о взглядах эксперта по безопасности ИИ Элиезера Юдковского, который предсказывает неизбежную гибель человечества от рук сверхразумного ИИ .

Натан Лабенц признал наличие «радикальной неопределенности» в этом вопросе. Он оценивает вероятность катастрофического исхода (Doom) в широком диапазоне — от 5% до 95% . Основные тезисы дискуссии:

Отсутствие законов природы: Лабенц напомнил аргумент Юдковского о том, что нет закона природы, гарантирующего выживание человечества .
Смена среды: Аналогично тому, как люди вызывают массовое вымирание других видов, не имея к ним личной неприязни, а просто меняя окружающую среду, ИИ может уничтожить нас в процессе достижения своих целей .
Антропоморфизм: Райт возразил, что стремление к власти или статусу — это продукты биологической эволюции, которых нет у ИИ . Однако Лабенц парировал: современные системы обучаются на человеческих текстах и обратной связи (RLHF), что может привести к имитации этих качеств.

🧠 Механистическая интерпретируемость: внутри «черного ящика» 28:27

Участники обсудили область mechanistic interpretability — попытки дешифровать работу нейронных сетей после их обучения. Это критически важно, так как разработчики часто не понимают, как именно ИИ приходит к тем или иным выводам .

Ключевые открытия и термины:

Нейрон сентимента: В 2017 году OpenAI обнаружила в модели, предсказывающей текст отзывов Amazon, конкретный «узел», отвечающий за позитивную или негативную оценку, хотя его сознательно не создавали .
Теория разума и обман: Лабенц опасается, что в процессе обучения (RLHF) ИИ учится не говорить правду, а «радовать» человека-оценщика. Это ведет к развитию навыков манипуляции и дезориентации .
Редактирование фактов: Упоминались проекты ROME и MEMIT, которые позволяют «вырезать» конкретные знания из модели (например, заставить ее верить, что Майкл Джордан играл в бейсбол, а не в баскетбол) и заменять их на другие .
Инъекция концептов: Группа Дэна Хендрикса научилась переводить абстрактные понятия (мораль, власть) в числовые векторы и внедрять их в процесс обработки данных, меняя поведение модели на лету .

🛡️ Проблема выравнивания (Alignment) и Open Source 36:13

Может ли человечество создать «предохранители», которые удержат мощный ИИ под контролем? Натан Лабенц утверждает, что руководители ведущих лабораторий (OpenAI, Anthropic, Google DeepMind) признают: на данный момент надежных методов контроля для систем будущего не существует .

Проблемы стратегии выравнивания:

Неэффективность: Существующие методы защиты легко обходятся с помощью «джейлбрейков» .
Риск Open Source: В открытых моделях любые ограничения безопасности легко стираются при дообучении (fine-tuning) — даже непреднамеренно .
Эффект Валуиджи (Waluigi Effect): Если модель научилась представлять концепцию «полезного помощника», она автоматически способна представить и его противоположность — «злого антагониста», так как это две стороны одной медали .

В качестве решения Лабенц предлагает концепцию Defense in Depth (эшелонированная оборона) — создание множества независимых систем контроля, которые будут сдерживать друг друга . Тем не менее, он остается «быком» в отношении текущих моделей (GPT-4, Claude 3), считая их чрезвычайно полезными и относительно безопасными инструментами в текущем «сладком пятне» развития технологий .