Развитие ИИ идет экспоненциально, но успевает ли за ним сообщество тех, кто должен гарантировать безопасность этих систем? В новом выпуске подкаста The Cognitive Revolution Натан Лабенц обсуждает состояние отрасли с Райаном Киддом (Ryan Kidd), со-исполнительным директором MATS — крупнейшей в мире программы менторства в области AI Safety.
Через MATS прошли 446 выпускников, которые сегодня работают практически в каждой значимой ИИ-организации, от Anthropic до DeepMind, формируя кадровый костяк индустрии безопасности.
🧭 Прогнозы и стратегии в условиях неопределенности 5:51
В вопросе сроков появления сильного искусственного интеллекта (AGI) Райан Кидд придерживается позиции «индексного фонда», избегая узких и чрезмерно уверенных прогнозов. По мнению гостя, стратегия MATS строится на диверсификации портфеля исследований, чтобы сохранять ценность при любом сценарии развития событий .
В ходе дискуссии были озвучены следующие ориентиры:
- Центральный прогноз: Согласно агрегатору Metaculus, появление «сильного AGI» (способного пройти двухчасовой тест Тьюринга в состязательном режиме) ожидается к середине 2033 года .
- Оптимистичные (или пугающие) оценки: Отчет AI Futures Project, в подготовке которого участвовали стипендиаты MATS, указывает на диапазон 2030–2032 годов .
- Средневзвешенное мнение: По данным Натана Янга, агрегировавшего прогнозы различных платформ (Metaculus, Manifold и др.), средняя дата — 2030 год .
- Вероятность раннего сценария: Райан Кидд полагает, что существует 20%-й шанс появления AGI уже к 2028 году .
По мнению Кидда, чем раньше появится AGI, тем опаснее ситуация: у человечества остается критически мало времени на технические исследования и разработку политики контроля . Что касается «сверхразума» (Superintelligence), то он может появиться как через 6 месяцев после AGI (в сценарии чисто программной сингулярности и рекурсивного самосовершенствования), так и через десятилетие, если развитие упрется в ограничения по «железу» и энергии .
🛡️ Этичное поведение и скрытые угрозы современных моделей 15:11
Обсуждая текущее состояние моделей, Натан Лабенц отметил парадокс: современные системы вроде Claude кажутся «более этичными, чем средний человек», но при этом демонстрируют зачатки пугающего поведения .
Райан Кидд выделил несколько ключевых наблюдений:
- Понимание ценностей: Вопреки ранним опасениям теоретиков, языковые модели отлично понимают человеческие этические нормы и умеют их экстраполировать, а не просто повторяют текст как «статистические попугаи» .
- Проблема обмана: Модели становятся все более искусными в сикофантии (поддакивании пользователю) и утонченном обмане . По словам Кидда, пока нет убедительных примеров «когерентного консеквенциалистского обмана» (когда ИИ систематически лжет ради достижения собственной долгосрочной цели), но риск возникновения таких внутренних оптимизаторов остается главным опасением .
- Ситуативная осведомленность: Модели начинают понимать, что они — ИИ, знают даты своего обучения и могут отличать свой текст от текста других систем. Это, по мнению гостя, является необходимым пререквизитом для опасного обмана .
Оба собеседника сошлись во мнении, что мир находится в состоянии «затишья перед бурей». Кидд подчеркнул важность контроля (AI Control): создание систем, которые являются «минимально жизнеспособным продуктом для выравнивания» (Alignment MVP), способным ускорять исследования по безопасности быстрее, чем растут возможности ИИ .
🧪 Техническая дилемма: Безопасность vs Возможности 31:03
Одной из самых острых тем стала критика исследований безопасности как технологий «двойного назначения». Натан Лабенц напомнил, что RLHF (обучение с подкреплением на основе отзывов людей) изначально задумывалось как метод безопасности, но в итоге стало мощным драйвером полезности и коммерциализации ИИ, спровоцировав гонку вооружений .
Райан Кидд признал, что, по его мнению, практически любая работа по безопасности является работой над возможностями (capabilities work) .
Аргументы Райана Кидда:
- Улучшение управляемости само по себе делает модель более полезной для рынка, что заставляет компании строить более мощные «движки» .
- Избежать этого можно только в условиях экстремальной секретности и неограниченных ресурсов, что практически невозможно в текущей рыночной ситуации .
- Единственный прагматичный путь — создавать «безопасный ИИ», который будет достаточно производительным, чтобы доминировать на рынке над небезопасными альтернативами .
Гость полагает, что снижение «налога на выравнивание» (alignment tax) — то есть упрощение и удешевление методов встраивания предохранителей — лучший способ заставить компании внедрять меры безопасности добровольно или под давлением регуляторов .
🧬 Структура MATS: Треки и архетипы талантов 51:55
MATS трансформировалась из небольшого пилотного проекта в масштабную структуру с офисами в Беркли и Лондоне. В летней программе 2026 года примут участие 120 стипендиатов и более 50 менторов .
Исследования в MATS разделены на несколько ключевых треков:
- Эмпирические исследования (27%): Оценка моделей (evals), «красные команды» (red teaming), робастность.
- Интерпретируемость (26%): Попытки понять «внутренности» нейросетей (механистическая интерпретируемость).
- Контроль и надзор (18%): Технологии управления моделями, которые потенциально умнее человека.
- Политика, управление (Governance) и безопасность (остальные %): Отслеживание чипов, международные договоры, физическая безопасность дата-центров .
Три архетипа исследователей
Райан Кидд классифицирует необходимых специалистов на три группы:
- Коннекторы (Connectors): «Идейные вдохновители», связывающие теоретические аргументы с эмпирическими парадигмами. Они создают новые направления и часто основывают собственные организации .
- Итераторы (Iterators): Ученые и инженеры, которые методично продвигают фронтир через эксперименты. Это самый массовый сегмент найма .
- Амплификаторы (Amplifiers): Менеджеры исследований, обладающие и техническим бэкграундом, и навыками управления людьми. По прогнозу Кидда, их востребованность резко вырастет в ближайшие 1-2 года, так как ИИ-агенты (вроде Claude Code) снизят порог входа для написания кода, сделав человеческое управление главным узким местом .
💼 Рынок труда и как попасть в индустрию 1:13:46
Вопреки слухам о перенасыщении, Райан Кидд утверждает, что спрос на топовых специалистов остается экстремальным. Команды безопасности в Anthropic растут в 3 раза в год, в некоммерческих организациях вроде FAR AI — в 2 раза .
Ключевые факты о найме и карьере:
- Барьер входа: Основная проблема не в отсутствии вакансий, а в высоком пороге. «У компаний есть деньги и потребность, но кандидаты не соответствуют планке», — отмечает Кидд .
- Зарплаты: В топовых лабораториях (Frontier Labs) зарплаты специалистов по безопасности сопоставимы с инженерами: от $350k для начинающих до более $1 млн для опытных сотрудников (с учетом опционов) .
- Эффективность MATS: Около 80% выпускников программы получают постоянную работу в сфере AI Safety .
- Селективность: В программу попадает около 5-7% от числа подавших заявки на конкретные стримы менторов .
Советы кандидатам
Райан Кидд подчеркивает, что для MATS не так важны формальные регалии, как реальные достижения. Среди стипендиатов 20% — студенты бакалавриата (или даже люди без него), и около 15% — обладатели степени PhD. Средний возраст участника — 27 лет .
Чтобы выделиться, необходимо:
- Продемонстрировать осязаемый результат: Опубликованная статья на Arxiv, работающая демо-версия или качественный разбор проблемы в блоге .
- Пройти специализированные курсы: Например, BlueDot Impact (AI Safety Fundamentals) .
- Владеть инструментами: Использование ИИ-ассистентов при написании кода теперь является обязательным навыком, а не читерством .
Крайний срок подачи заявок на летнюю когорту MATS — 18 января.