Натан Лабенц: «Мы как 13-летние подростки с ключами от ИИ-суперкара»

The Cognitive Revolution 952 46 мин 4 мин 15.05.2024
Главное

Будущее искусственного интеллекта (ИИ) находится на перепутье между утопическими возможностями и экзистенциальными рисками. В новом обсуждении Натан Лабенц, эксперт по ИИ и ведущий подкаста The Cognitive Revolution, и Роберт Райт, автор и ведущий Nonzero, детально разобрали сценарии развития технологий: от создания интерактивных пространств дополненной реальности до угроз потери контроля над сверхразумными системами.

🕶️ Виртуальная реальность и ИИ: создание интерактивных снов 2:27

Обсуждение началось с перспективы слияния видеогенерации (на примере модели Sora от OpenAI) и устройств дополненной реальности. Роберт Райт выразил мнение, что через 10 лет мы сможем входить в виртуальные миры, созданные по текстовому запросу «помести меня в мир, где...» .

Натан Лабенц поделился своим впечатлением от Apple Vision Pro, отметив качественный скачок в ощущении «присутствия» (presence) по сравнению с предыдущими поколениями VR-шлемов, такими как Oculus 2 . Он подчеркнул несколько важных аспектов:

⛓️ Блокчейн и ИИ-арбитраж: автоматизация доверия 5:31

Собеседники обсудили концепцию «умных контрактов». Лабенц считает, что традиционные смарт-контракты ограничены жесткостью кода . Интеграция ИИ в блокчейн позволит:

  1. Создавать адаптивные механизмы разрешения споров без участия судов.
  2. Использовать ИИ в качестве объективного арбитра для малого бизнеса, где ставки не оправдывают найм юристов .

Роберт Райт пошел дальше, предположив, что в будущем ИИ мог бы разрешать международные конфликты, основываясь на объективных данных без национальных предвзятостей . Лабенц, в свою очередь, выразил скепсис относительно зрелости человечества: он сравнил наш вид с 13-летним подростком, которому вручили ключи от мощного автомобиля в виде ИИ . По его мнению, для глобального управления ИИ требуется международное сотрудничество, которое невозможно в условиях текущих «горячих» и «холодных» войн .

🛸 Сценарий Элиезера Юдковского: риск вымирания человечества 11:08

Центральной темой стала дискуссия о взглядах эксперта по безопасности ИИ Элиезера Юдковского, который предсказывает неизбежную гибель человечества от рук сверхразумного ИИ .

Натан Лабенц признал наличие «радикальной неопределенности» в этом вопросе. Он оценивает вероятность катастрофического исхода (Doom) в широком диапазоне — от 5% до 95% . Основные тезисы дискуссии:

🧠 Механистическая интерпретируемость: внутри «черного ящика» 28:27

Участники обсудили область mechanistic interpretability — попытки дешифровать работу нейронных сетей после их обучения. Это критически важно, так как разработчики часто не понимают, как именно ИИ приходит к тем или иным выводам .

Ключевые открытия и термины:

🛡️ Проблема выравнивания (Alignment) и Open Source 36:13

Может ли человечество создать «предохранители», которые удержат мощный ИИ под контролем? Натан Лабенц утверждает, что руководители ведущих лабораторий (OpenAI, Anthropic, Google DeepMind) признают: на данный момент надежных методов контроля для систем будущего не существует .

Проблемы стратегии выравнивания:

В качестве решения Лабенц предлагает концепцию Defense in Depth (эшелонированная оборона) — создание множества независимых систем контроля, которые будут сдерживать друг друга . Тем не менее, он остается «быком» в отношении текущих моделей (GPT-4, Claude 3), считая их чрезвычайно полезными и относительно безопасными инструментами в текущем «сладком пятне» развития технологий .

💬 Цитаты

«Я думаю о нашем виде как о 13-летнем подростке, которому говорят: «Вот тебе ключи от машины», когда дают ИИ. Мы недостаточно зрелы.»

Натан Лабенц 07:44

«Нет закона природы, который гласит, что мы не можем вымереть.»

Натан Лабенц (цитируя Юдковского) 13:19

«Если модель научилась представлять что-то, она так же легко может представить и его противоположность.»

Натан Лабенц 45:25
👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
RLHF
Обучение с подкреплением на основе отзывов людей — метод настройки ИИ для соответствия человеческим предпочтениям.
Эффект Валуиджи
Теория, согласно которой ИИ, обученный быть добрым, неизбежно понимает концепцию зла и может переключиться на нее.
Механистическая интерпретируемость
Область исследований, пытающаяся понять внутреннее устройство нейронных сетей на уровне отдельных «нейронов» и весов.
Defense in Depth
Стратегия многоуровневой защиты, где отказ одного элемента безопасности компенсируется другими.
📊 Цифры
🗓 Хронология
  1. 2017 OpenAI обнаруживает первый «нейрон сентимента» в простой языковой модели.
  2. Май 2024 Команда супервыравнивания OpenAI находится на шестом месяце своего четырехлетнего плана.
  3. Через 10 лет Горизонт предсказания Роберта Райта для создания полностью интерактивных ИИ-миров в VR.
⚖️ Другая сторона
Искусственный интеллект OpenAI RLHF Apple Vision Pro Dan Hendrycks Sora