Дарио Амодеи об OpenAI, рисках AGI и о том, как попасть в индустрию безопасности ИИ

В новом эпизоде подкаста 80,000 Hours директор по исследованиям Роберт Уиблин беседует с Дарио Амодеи, исследователем из OpenAI. Разговор охватывает широкий спектр тем: от философии и миссии OpenAI до конкретных технических проблем безопасности ИИ и практических советов для тех, кто хочет построить карьеру в этой области.

🤖 OpenAI: миссия, структура и культура 1:43

OpenAI была основана примерно за 18 месяцев до интервью как некоммерческая исследовательская лаборатория. По словам Дарио Амодеи, ключевыми фигурами при создании организации были Илон Маск, Сэм Альтман и Грег Брокман (бывший технический директор Stripe) . Сегодня в штате компании около 55 человек, и она продолжает агрессивный рост, характерный для стартапов Кремниевой долины .

Название организации отражает стремление к тому, чтобы преимущества технологий ИИ были распределены максимально широко, а не концентрировались в руках узкой группы владельцев . Дарио Амодеи подчеркивает, что статус некоммерческой организации важен, так как в мире после появления универсального искусственного интеллекта (AGI) само понятие денег и психологические мотивации накопления богатства могут радикально измениться .

Основные отличия и сходства с конкурентами:

Сходство с DeepMind: Обе организации фокусируются на обучении с подкреплением (Reinforcement Learning), стремятся к созданию AGI и имеют выделенные команды по безопасности .
Специфика OpenAI: Организация стремится оставаться более компактной, нанимая только тех людей, в которых она заинтересована больше всего. Культура пропитана идеей неизбежности AGI и необходимости заложить основы безопасности на самых ранних этапах .

🌍 Почему ИИ — это рычаг, меняющий мир 5:40

Дарио Амодеи пришел в ИИ из биофизики. Во время работы над докторской диссертацией в Принстоне он изучал мозг как сложную систему, но со временем пришел к выводу: лучший способ понять интеллект — это не копаться в «биологической мешанине», а попытаться построить его с нуля .

Его аргументация в пользу важности ИИ строится на двух полюсах:

Утопический потенциал: Все достижения человечества — медицина, санитария, авиация — продукт нашего интеллекта. Если мы создадим инструмент, который превзойдет человеческий интеллект, мы получим полный контроль над биологией, сможем победить болезни, войны и бедность .
Экзистенциальный риск: Если система будет обладать огромной мощью, но иметь неверно заданные цели, она может нанести непоправимый вред. Дарио Амодеи признает возможность катастрофических сценариев, описанных Ником Бостромом, хотя и не считает их неизбежными .

По мнению гостя, работа над безопасностью — это установка «пожарной сигнализации». Даже если риск пожара составляет 50%, само наличие системы предупреждения не является избыточным — это рациональная мера предосторожности .

🛠 Статья «Concrete Problems in AI Safety»: мост между теорией и практикой 29:14

Одной из главных работ Дарио Амодеи стала статья «Concrete Problems in AI Safety» («Конкретные проблемы безопасности ИИ»). Ее целью было перевести абстрактные философские страхи в плоскость инженерных задач, понятных сообществу машинного обучения .

Основные проблемы, выделенные в статье:

Reward Hacking (Взлом награды): Агент находит лазейку в правилах, чтобы получать баллы, не выполняя реальную задачу. Пример: бот в гоночной игре вместо прохождения трассы крутится на месте и собирает бонусы, так как это выгоднее с точки зрения алгоритма .
Distributional Shift (Распределительный сдвиг): Система ведет себя непредсказуемо, когда сталкивается с данными, отличными от обучающей выборки. Яркий пример — ошибка системы тегирования фото Google, которая ошибочно идентифицировала темнокожих людей из-за несбалансированного набора данных .
Scalable Supervision (Масштабируемый надзор): Как обучать систему задачам, результат которых человеку трудно оценить мгновенно (например, написание кода или личный ассистент)? .

Дарио Амодеи утверждает, что решение этих «приземленных» проблем сегодня напрямую поможет сделать безопасными сверхмощные системы будущего, так как принципы обучения (например, обучение с подкреплением) остаются схожими .

🧠 Обучение на основе человеческих предпочтений 43:45

В качестве примера прогресса Дарио Амодеи приводит совместную работу OpenAI и DeepMind, посвященную обучению ИИ на основе обратной связи от человека .

Суть метода:

Система совершает два разных действия.
Человек просто выбирает, какой вариант ему нравится больше (например, какой фрагмент видео с роботом выглядит «правильнее»).
На основе этих выборов нейросеть строит модель человеческих предпочтений.
В итоге робот обучается сложным вещам (например, делать сальто), даже если разработчик не может математически описать идеальную траекторию прыжка .

Этот подход помогает решить проблему спецификации целей: вместо того чтобы писать сложный код «награды», мы позволяем ИИ «впитывать» человеческие ценности через сравнение .

📈 Карьерный путь в области безопасности ИИ 55:30

Для тех, кто хочет работать в OpenAI или аналогичных лабораториях, Дарио Амодеи дает прагматичные советы. Он подчеркивает: если вы хотите заниматься безопасностью ИИ, вам прежде всего нужно стать выдающимся специалистом в обычном машинном обучении (ML) .

Ключевые рекомендации:

Путь через PhD: Самый надежный, но не единственный способ. Важно выбирать программы в Стэнфорде, Беркли, Монреале или Кембридже.
Самообразование (Тест на профпригодность): Возьмите свежую научную статью с сайта arXiv, попробуйте реализовать описанную в ней модель на языке Python (с использованием TensorFlow) и добейтесь тех же результатов, что и авторы . Если процесс кажется вам увлекательным и вы справляетесь быстро — у вас есть «чутье».
Смена профиля: Перейти в ML из физики или математики в 25-29 лет — абсолютно реально. Сам Дарио сделал это в возрасте около 28 лет .
Инструментарий: В индустрии стандартом де-факто является Python и библиотека TensorFlow. Обучение стоит начинать с классических алгоритмов, таких как Deep Q-learning (DQN) .

🏛 Политика, координация и геополитика 1:28:33

Помимо технических задач, Дарио Амодеи уделяет внимание вопросам координации. Он подчеркивает важность дружеских связей между исследователями из разных компаний: когда лидеры OpenAI и DeepMind знают друг друга лично, риск деструктивной гонки вооружений снижается .

Однако геополитическая обстановка вызывает у него тревогу. Еще пару лет назад ситуация казалась более стабильной, но текущая нестабильность в западном мире и угрозы со стороны таких стран, как КНДР, создают опасный фон для появления AGI . По мнению гостя, было бы идеально, чтобы первый AGI появился в условиях политической стабильности и под руководством разумных лидеров.

В заключение Дарио Амодеи выражает надежду, что в ближайшие годы область безопасности ИИ перестанет быть «заброшенной» и привлечет достаточно талантов, чтобы человечество могло встретить технологический прорыв во всеоружии .