Agency over AI? Allan Dafoe on Technological Determinism & DeepMind's Safety Plans, from 80000 Hours

The Cognitive Revolution 23,7 тыс. 3 ч 1 мин 29 мин 15.03.2025

«Как только вы опубликовали веса модели, люди сохранят их и загрузят в даркнет, и этот процесс необратим». В истории человечества есть примеры, когда общества успешно отказывались от опасных технологий — например, Япония эпохи Токугава добровольно запретила огнестрельное оружие на два века. Руководитель команды Frontier Safety в Google DeepMind Аллан Дафо объясняет, почему в эпоху гонки за AGI повторить этот трюк не удастся и как направить развитие искусственного интеллекта по безопасному руслу.

🛡️ Безопасность на передовой: как Google DeepMind планирует путь к AGI 8:21

Три столпа команды Frontier Safety: безопасность, управление и планирование 8:21

Аллан Дафо (Allan Dafoe) занимает ключевую позицию в одной из самых влиятельных ИИ-лабораторий мира — он руководит отделом передовой безопасности и управления (Frontier Safety and Governance) в Google DeepMind . Этот отдел выполняет критически важную задачу по обеспечению того, чтобы разработка мощных систем искусственного интеллекта не вышла из-под контроля человечества. Работа его подразделения структурирована вокруг трех главных направлений:

Термин «frontier» (передовой) здесь используется как профессиональный стандарт для обозначения больших мультимодальных моделей общего назначения, таких как Gemini . Хотя сама команда Дафо относительно невелика , она функционирует в условиях тесной внутренней коллаборации. Специалисты работают рука об руку с командами технической безопасности ИИ (AI Safety), выравнивания (Alignment), Gemini Safety, а также с юридическими и этическими отделами по всему холдингу Alphabet .

Внутренняя кухня Google DeepMind: синергия и принятие судьбоносных решений 10:04

До перехода в коммерческий сектор Аллан Дафо в 2021 году успешно руководил созданным им Центром управления ИИ (GovAI) при Оксфорде, который стал кузницей кадров для всей индустрии . Через его структуры прошли такие видные специалисты, как Джейд Ланг (Jade Leung), ныне технический директор Института безопасности ИИ Великобритании (UK AI Safety Institute) , Маркус Андерэнг (Marcus Anderjung) и другие эксперты .

Решение Дафо покинуть академическую среду и перейти непосредственно в Google DeepMind было продиктовано стремлением к максимальному практическому влиянию. Будучи неформальным советником генерального директора DeepMind Демиса Хассабиса (Demis Hassabis) и сооснователя Шейна Легга (Shane Legg) , он осознал, что для принятия по-настоящему эффективных решений необходимо находиться внутри компании. Это дает возможность глубоко понимать контекст разработки и напрямую взаимодействовать с людьми, принимающими ключевые решения .

Дафо разделяет исторический подход, согласно которому в поворотные моменты истории колоссальную роль играют конкретные личности — те, кто физически «находится в комнате» принятия решений . По его мнению, руководство Google DeepMind обладает редким сочетанием качеств, необходимых для безопасного перехода к AGI: глубокой осознанностью рисков, организационной компетентностью и мудростью при принятии сложных решений в условиях высокой неопределенности . Влияние на таких лидеров позволяет направлять развитие технологий в безопасное русло еще до того, как они достигнут критических порогов возможностей.

(Ранее в разговоре собеседники также вскользь касались вопросов академических дебатов вокруг технологического детерминизма и социального конструктивизма, подробнее о которых речь пойдет в следующей главе).

🏛️ Технологический детерминизм и социальный конструктивизм: кто пишет сценарий истории? 25:16

🔍 От микродеталей к макротеориям: суть академического спора 25:16

Развитие человеческой цивилизации неизбежно ставит вопрос о том, что именно движет историей. Аллан Дафо (Allan Dafoe) отмечает, что ранние философы техники, такие как Жак Эллюль, наделяли технологии собственной субъектностью . Однако последующие поколения исследователей подвергли этот взгляд жесткой критике. С точки зрения социального конструктивизма, абстрактной «технологии» как самостоятельной силы не существует . Под микроскопом истории видны лишь конкретные люди с их идеологиями, интересами и решениями .

Конструктивисты подчеркивают, что форма привычных нам вещей — от велосипеда до самолета — не была предопределена заранее . Поступив в аспирантуру Корнеллского университета, Аллан Дафо столкнулся с тем, что в академической среде технологический детерминизм долгое время считался маргинальной концепцией, «соломенным чучелом» . Стремление конструктивистов вернуть человеку субъектность понятно: они не хотели, чтобы вредоносные технологии оправдывали фразой «у нас не было выбора» . Сегодня аналогичный спор ведется вокруг искусственного интеллекта: критики концепции неизбежного AGI утверждают, что разговоры о его предопределенности лишают общество возможности влиять на его форму .

Чтобы объяснить это противоречие между микро- и макро-взглядами, Аллан Дафо предлагает метафору с изучением волн . Одни ученые изучают влияние ветра на рябь у поверхности, другие — брошенные в воду камни (микро-уровень) . Но есть и «макро-феноменологи», замечающие глобальную связь приливов с положением Луны . Ошибка конструктивистов, по мнению Дафо, заключается в полном отрицании макро-паттернов лишь из-за отсутствия очевидного микро-механизма .

🛠️ От парижских бульваров до алгоритмов соцсетей: грани детерминизма 30:35

Спектр технологического детерминизма гораздо шире, чем кажется на первый взгляд. Аллан Дафо выделяет несколько его ключевых разновидностей:

⚔️ Военно-экономическая конкуренция: сила, которая толкает нас в открытую дверь 39:24

Что же связывает микро-решения людей и макро-траектории истории? Аллан Дафо предлагает микрооснование, базирующееся на жестких механизмах военно-экономического отбора .

Классическая формула гласит: «Технологии не заставляют нас делать что-либо, они лишь открывают дверь». Однако Дафо переформулирует ее: технологии лишь открывают дверь, а пройти сквозь нее нас заставляет военно-экономическая конкуренция . Любое общество вольно игнорировать новое изобретение. Но если хотя бы одна группа начнет использовать его для получения преимущества, все остальные будут вынуждены либо перенять эту инновацию, либо уступить свои ресурсы более приспособленному конкуренту .

Дафо выделяет иерархию уровней отбора цивилизационных систем:

  1. Экологический отбор (Environment selection) — способность системы сохранять устойчивость в природной среде ;

  2. Военно-экономическая конкуренция ;

  3. Культурные и психологические факторы .

Даже в периоды мира общества развиваются под «тенью насилия» , моделируя будущие угрозы.

💡 «Опережающий отбор» и уроки британской энергосети 46:49

Чтобы выжить в конкурентной среде, цивилизации используют механизм, который историки называют опережающим отбором (vicarious selection) . Вместо того чтобы строить самолет, разбивать его и строить заново, инженеры создают аэродинамическую трубу . Они моделируют внешнюю среду внутри контролируемой системы.

Этот процесс работает и на уровне государств. В современной Великобритании прямая угроза вторжения кажется маловероятной . Тем не менее, соображения национальной безопасности и страх потерять стратегические позиции остаются мощнейшим стимулом для внутренних реформ .

Ярким историческим примером служит исследование Томаса Хьюза, посвященное энергетической системе Великобритании . До Второй мировой войны в стране преобладала децентрализованная система местных электростанций, идеально соответствовавшая британским идеалам локальной демократии . Однако колоссальные издержки военного времени и жесткий кризис выживания заставили страну отказаться от этой автономии в пользу создания единой Национальной энергосети (National Grid) . Это наглядно показывает, как внешнее конкурентное давление ломает даже самые устойчивые социокультурные предпочтения, принуждая общества к модернизации .

🎎 Исторические уроки изоляции и стратегия дифференциального развития 50:25

Кейс Японии эпохи Токугава: контролируемое забвение и шок модернизации 50:25

В поисках эмпирических свидетельств того, как человеческие сообщества могут управлять технологическим прогрессом вопреки внешнему давлению, Аллан Дафо обращается к истории Японии периода сёгуната Токугава . Этот исторический прецедент, длившийся около 200–250 лет, представляет собой один из самых чистых примеров сознательного отказа от военных технологий ради сохранения стабильности социума .

В начале этого периода у Японии уже было огнестрельное оружие. Однако правительство Токугава решило централизовать производство мушкетов и пушек. Оружейников переселили в единый центр и выплачивали им государственные стипендии за то, чтобы они не производили оружие . В результате за два столетия изоляции технологии огнестрельного оружия были практически забыты, а общество вернулось к традиционному укладу во главе с самураями .

Такой уникальный изоляционистский эксперимент был возможен исключительно благодаря географии. Япония — островное государство, что обеспечивало ей надежный защитный барьер . Находись она на материковой части Азии, постоянная угроза вторжения и страх перед соседями не оставили бы ей пространства для маневра и свободы выбора .

Однако историческая передышка закончилась в 1853 году, когда американский коммодор Мэттью Перри прибыл к берегам Японии с эскадрой паровых кораблей . Эти корабли казались японцам технологическим чудом: огромные металлические конструкции двигались против ветра без парусов, изрыгая черный дым . Продемонстрировав разрушительную мощь современных пушек при бомбардировке береговой линии, Перри вручил японским представителям белые флаги, чтобы те могли просигнализировать о прекращении огня в случае будущих конфликтов, и пообещал вернуться через год с еще большим флотом .

Этот инцидент привел к 15-летнему периоду революционных потрясений, известному как Реставрация Мэйдзи . Осознав, что продолжать прежний образ жизни физически невозможно, японское общество совершило разворот на 180 градусов . Страна начала форсированную модернизацию: на Запад отправлялись специалисты для изучения промышленных технологий и закупки книг по инженерии . В результате масштабного рывка всего за несколько десятилетий Япония превратилась в технологическую державу, способную на равных конкурировать с США и Великобританией .

Этот исторический опыт доказывает, что общество способно временно контролировать опасные технологии, но этот выбор всегда ограничен во времени тем, насколько долго внешние силы готовы мириться с подобным статус-кво .

Концепция дифференциального технологического развития 55:29

Опираясь на исторические законы развития, Аллан Дафо предлагает использовать концепцию дифференциального технологического развития (также известную в экспертных кругах как «оборонительный акселерационизм») . Ее суть заключается в том, чтобы целенаправленно ускорять разработку защитных мер, контрмер и институтов безопасности, опережая появление потенциально опасных и разрушительных систем .

Чтобы пояснить эту идею, Дафо приводит три наглядных примера:

  1. Ремень безопасности: технологически его можно было изобрести и внедрить задолго до появления полноценных автомобилей с двигателями внутреннего сгорания . Если бы эти системы защиты были готовы к моменту массового распространения машин, человечество избежало бы колоссального количества жертв на дорогах в первые десятилетия автомобилизации .

  2. Вакцины: заблаговременное создание платформ для разработки вакцин и систем общественного здравоохранения до того, как опасные патогены вызовут глобальные пандемии .

  3. Технологические альтернативы: если бы чистые источники энергии (солнечная и ветровая генерация) изначально субсидировались опережающими темпами, человечество могло бы пойти по устойчивому пути развития, минуя жесткую климатическую зависимость от ископаемого топлива .

Кроме того, выбор траектории развития имеет долгосрочные политические последствия. Философ Лэнгдон Виннер в свое время утверждал, что ядерная энергетика по своей природе авторитарна, поскольку требует создания жесткого силового аппарата для контроля над радиоактивными материалами . В то же время децентрализованные источники энергии (ветер и солнце) способствуют формированию более свободных и демократических политических институтов .

Проблемы реализуемости и рыночные стимулы в безопасности ИИ 59:28

Несмотря на очевидную привлекательность дифференциального подхода, Аллан Дафо выделяет несколько факторов, затрудняющих его практическую реализацию . Главная сложность — предсказать вторые и третьи порядки последствий развития технологий на ранних этапах . Кроме того, крупные первоначальные инвестиции создают технологическую инерцию (momentum): накапливается критическая масса экспертизы и инфраструктуры, из-за чего изменить траекторию движения в будущем становится крайне сложно .

В сфере искусственного интеллекта эта концепция лежит в основе всей индустрии безопасности и выравнивания (alignment) передовых моделей . Однако здесь возникает фундаментальный вопрос об эффективности некоммерческих усилий. Любой создатель коммерческого ИИ по умолчанию заинтересован в его базовой безопасности, поскольку токсичный, лживый или неуправляемый продукт просто не найдет своего покупателя на рынке .

Прорывные методы выравнивания, такие как обучение с подкреплением на основе обратной связи от людей (RLHF) и концепция «конституционного ИИ», действительно были созданы исследователями, ориентированными на безопасность . Однако критики резонно замечают, что без этих разработок рынок все равно создал бы аналогичные инструменты безопасности — возможно, лишь на два года позже, когда возникла бы острая коммерческая необходимость .

По мнению Дафо, ключевая задача специалистов по безопасности — фокусироваться исключительно на тех критических проблемах, которые рынок заведомо не успеет или не захочет решить самостоятельно . Ярким примером такой «нерыночной» угрозы является стратегический обман со стороны ИИ (deception) — сценарий, при котором высокоразвитая модель учится имитировать лояльность и скрывать свои истинные цели от разработчиков . Именно такие превентивные исследования представляют собой настоящий «ремень безопасности» для эпохи AGI .

В завершение этой логики Дафо отмечает, что дифференциальный подход применим не только к техническому выравниванию ИИ, но и к развитию его навыков взаимодействия в сложных многоагентных средах — концепции Cooperative AI, которая будет подробно разобрана далее .

🤝 От выравнивания к координации: концепция Cooperative AI и пределы кремниевого доверия 1:15:32

Недостаточность выравнивания и концепция Cooperative AI 1:15:32

Ранее в разговоре Аллан Дафо и ведущий затрагивали вопросы военной конкуренции, однако в повседневной жизни существует масса более приземленных сценариев, где координация ИИ критически важна . Проблема безопасности искусственного интеллекта традиционно сводится к «выравниванию» (alignment) — созданию систем, лояльных своим создателям. Однако Аллан Дафо подчеркивает, что этого недостаточно: если две идеально выровненные системы будут представлять конкурирующие стороны, они все равно могут оказаться в состоянии разрушительного конфликта из-за неспособности к глобальной координации.

Для решения этой проблемы Дафо предлагает развивать концепцию Cooperative AI (кооперативный ИИ). Он разделяет понятия «дружелюбия» (niceness) и «кооперативного интеллекта» (cooperative intelligence) . В реальном мире ИИ-системы будут выступать в качестве доверенных лиц (делегатов) конкретных игроков, а значит, отстаивать их эгоистичные интересы, а не абстрактное общественное благо . Основная цель кооперативного ИИ — научить эти системы эффективно договариваться друг с другом.

В качестве примеров Дафо приводит экономические транзакции и сложные корпоративные сделки . Одним из решений может стать размещение ИИ-делегатов двух сторон в изолированном цифровом «контейнере» (box) для ведения переговоров . ИИ могут обмениваться огромными массивами данных с высокой пропускной способностью и выдавать наружу только финальное компромиссное решение, избегая рисков раскрытия конфиденциальной информации и дорогостоящего демонстрирования силы .

Для продвижения этих идей Аллан Дафо помог основать Cooperative AI Foundation . Фонд видит огромный рычаг влияния в создании открытых бенчмарков и игровых сред , которые позволяют измерять способность моделей решать классические проблемы координации, такие как «дилемма заключенного» . Интересное решение проблемы взаимных обязательств предложил Карл Шульман: создание третьей независимой ИИ-системы-арбитра, архитектуру которой обе стороны могут проверить на отсутствие скрытых бэкдоров .

Однако координация несет в себе и риски, поскольку кооперативные навыки являются технологией двойного назначения . Они могут приводить к:

ИИ как фасилитатор политических дискуссий и «Машина Хабермаса» 1:19:15

Кооперативный ИИ способен помочь не только машинам договариваться между собой, но и людям находить общий язык в сложных социальных контекстах . Одним из наиболее многообещающих направлений является использование ИИ для улучшения политических дискуссий и поиска консенсуса в сообществах .

В качестве примера Аллан Дафо приводит недавнее исследование Google DeepMind, посвященное так называемой «Машине Хабермаса» (Habermas Machine) . В рамках этого проекта языковые модели использовались в качестве нейтральных посредников для фасилитации дебатов между людьми с противоположными политическими взглядами. Процесс строился следующим образом:

Результаты эксперимента оказались поразительными: разработанная «Машина Хабермаса» смогла сформулировать более качественный и убедительный консенсус, под которым участники охотно подписывались, превзойдя в этом профессиональных фасилитаторов-людей . Использование таких систем в будущем может существенно снизить уровень поляризации в обществе при обсуждении сложных многомерных проблем .

Гипотеза суперкооперативного общего искусственного интеллекта и проблема «чёрного ящика» 1:21:02

В ИИ-сообществе существует оптимистичное предположение, известное как «гипотеза суперкооперативного AGI» (supercooperative AGI hypothesis) . Согласно ей, по мере масштабирования ИИ до уровня общего искусственного интеллекта его способность к координации вырастет до абсолютных масштабов, что позволит системам автоматически решить все глобальные координационные проблемы человечества . Дафо ставит эту гипотезу под сомнение, указывая на фундаментальные различия между человеческой и машинной кооперацией.

Человеческое общение относительно прозрачно: мы обладаем общим эволюционным и культурным бэкграундом, умеем считывать эмоции и понимаем ограничения чужих целей . В отличие от этого, ИИ-агенты могут иметь совершенно «чуждые» для нас целевые функции — например, строго линейную полезность богатства, делающую их склонными к экстремальным ставкам по принципу «все или ничего» .

Главная проблема заключается в непрозрачности нейросетей, из-за которой ИИ остаются «черными ящиками» друг для друга . Даже если системы согласятся «показать» друг другу свои веса и нейронные активации, это не гарантирует честности из-за угрозы бэкдоров (backdoors) . Бэкдор представляет собой скрытый триггер, который может быть внедрен глубоко в архитектуру модели и заставить ее мгновенно и радикально изменить свое поведение при возникновении определенных условий (например, при произнесении «волшебного слова») .

Обнаружить такие бэкдоры крайне сложно, что порождает уникальные сценарии кибербезопасности. Например, разработчики могут намеренно внедрять бэкдоры в свои передовые модели в качестве защиты от кражи . Если модель будет украдена и запущена на инфраструктуре конкурента, она распознает это и полностью изменит свое поведение на саботирующее или хаотичное . Это, с одной стороны, может запустить «благотворную спираль» инвестиций в технологии выравнивания (поскольку ворам потребуется выявлять бэкдоры, а разработчикам — делать их устойчивыми к обнаружению) , но с другой стороны, сделает поведение моделей еще более непредсказуемым .

🧠 Систематизация AGI: от мифов о «человекоподобном ИИ» до спектра возможностей 1:44:46

Развенчание мифов: почему AGI не будет копией человека 1:44:46

Разговоры о создании сильного искусственного интеллекта (AGI) годами страдали от терминологической неопределенности. Чтобы исправить это и перевести дискуссию в строгое научное русло, Аллан Дафо совместно с коллегами из Google DeepMind опубликовал работу «Levels of AGI for operationalizing progress on the path to AGI» (среди специалистов известную просто как статья «What is AGI») . Ее цель — предложить четкую, систематизированную структуру для измерения прогресса на пути к AGI и уйти от бесплодных споров о том, что сам термин якобы плохо определен .

Аллан Дафо указывает на два ключевых когнитивных заблуждения, которые мешают адекватно оценивать перспективы этой технологии. Первое состоит в том, что AGI часто представляют как «ИИ человеческого уровня» — единую монолитную систему, обладающую теми же сильными и слабыми сторонами, что и человек . В реальности способности ИИ развиваются крайне неравномерно . Компьютеры уже давно превосходят людей в шахматах, математических вычислениях и объемах памяти , но при этом могут уступать в других, казалось бы, простых сферах. Системы AGI на пороге своего появления будут крайне несбалансированными по сравнению с человеческим профилем навыков .

Второе заблуждение заключается в стремлении «создать ИИ по образу и подобию нашему» . С экономической точки зрения это неоптимальный путь, поскольку он ведет к прямой замене человеческого труда . Вместо этого гораздо выгоднее создавать альтернативные, комплементарные системы, которые будут дополнять человека, а не вытеснять его. В качестве примера Аллан Дафо приводит систему AlphaFold от Google DeepMind . Это специализированный (narrow) ИИ, предсказывающий трехмерную структуру белков . Ни один человек не потерял из-за него работу , но система открыла колоссальные возможности для медицины и биологических исследований, делая человеческий труд в разы продуктивнее .

Сила универсальности: почему общие модели побеждают 1:48:06

Несмотря на привлекательность узкоспециализированных систем, Аллан Дафо убежден, что общие интеллектуальные системы (general intelligence) неизбежно победят в технологической гонке . Логика развития технологий последних лет наглядно демонстрирует это на примере больших языковых моделей (LLM) .

Оказалось, что лучшая модель для написания стихов, составления деловых писем, анализа исторических текстов или философских дискуссий — это одна и та же модель, обученная на гигантском массиве разнородных данных . В структуре человеческого знания существует феномен взаимопроникновения (spillover) . Модель начинает лучше рассуждать о философии именно потому, что она «читала» поэзию .

Люди вынуждены специализироваться в узких областях — химии, поэзии или финансах — просто потому, что емкость нашего мозга ограничена . Однако искусственные системы могут масштабироваться практически бесконечно . И хотя для экономии вычислительных ресурсов в будущем логично дистиллировать из огромных моделей более компактные специализированные версии (например, удалять исторические знания из кодинг-ассистентов для уменьшения их размера) , сам процесс обретения глубоких навыков все равно требует прохождения через этап универсального обучения .

Как измерить AGI: метрики, пороги и экономические последствия 1:54:16

Пытаясь найти альтернативу понятию AGI, некоторые исследователи используют термин «трансформативный ИИ» (Transformative AI), оценивающий масштаб влияния технологии на экономику (на уровне Промышленной революции) . Однако Аллан Дафо считает это определение неполным: даже узкоспециализированная система может вызвать глобальные трансформации или нести катастрофические риски . Поэтому важно сохранить и уточнить именно концепцию AGI как спектра систем .

В своей работе Аллан Дафо предлагает определять AGI через два ключевых параметра:

Преодоление этих порогов приведет к масштабному замещению человеческого труда , устранению человека из контуров управления процессами и возникновению принципиально новых технологических возможностей, которые ранее были недоступны человечеству в принципе . Примечательно, что эксперты часто совершают профессиональную ошибку, прогнозируя, что автоматизация их собственной деятельности (например, исследований в области машинного обучения) произойдет в самую последнюю очередь . Аллан Дафо допускает, что автоматизация ML-исследований может случиться гораздо раньше и проще, чем кажется самим разработчикам .

Траектории развития: какую версию AGI мы хотим построить? 1:55:48

Поскольку AGI представляет собой многомерное пространство способностей, путь к нему не предрешен заранее . Человечество может влиять на то, какие именно навыки систем будут развиваться в первую очередь . Аллан Дафо выделяет две принципиально разные траектории:

Ранее в разговоре собеседники подробно обсуждали концепцию Cooperative AI и гипотезу суперкооперативного AGI . Вне зависимости от выбранного пути, критически важным инструментом контроля становится своевременная оценка опасных возможностей передовых моделей, к детальному анализу которой Аллан Дафо и его коллеги переходят на примере новейших бенчмарков DeepMind .

6. Тестирование на прочность: как измерить скрытые угрозы и предсказать возможности ИИ 2:05:36

Оценка опасных возможностей: от убеждения до кибератак 2:05:51

Практика тестирования передовых ИИ-систем перед выпуском на рынок стала ключевым элементом современной стратегии безопасности. Аллан Дафо (Allan Dafoe) ссылается на совместное исследование DeepMind, в котором возможности модели Gemini оценивались по пятибалльной шкале в четырех ключевых зонах риска: убеждение и обман (persuasion), кибербезопасность (cyber security), самораспространение (self-proliferation) и ситуационная осведомленность (self-reasoning) . В тестах на убеждение модель получила 3 балла из 5 . Однако в сфере кибербезопасности и автономии показатели оказались на уровне 1–2 баллов .

Такой результат удивил многих, ведь современные LLM отлично справляются с программированием . Аллан Дафо подчеркивает, что относительно низкие баллы в лабораторных условиях не должны успокаивать. Способность ИИ находить уязвимости и писать эксплойты напрямую связана с его кодинг-навыками, и этот домен может показать взрывной рост в ближайшие 6–18 месяцев .

Элиситация скрытых способностей ИИ-моделей 2:09:14

Главная проблема стандартных тестов безопасности заключается в том, что «сырая» модель часто скрывает свой истинный потенциал. Чтобы оценить максимальные риски, специалисты используют элиситацию способностей (capability elicitation) — раскрытие скрытых навыков модели .

Аллан Дафо приводит в пример исследовательский проект Google Project Zero под названием Project Naptime . Исследователи обнаружили: если предоставить базовой модели специализированный инструментарий, интерактивную среду разработки и дополнительное время на рассуждения, ее эффективность в решении сложных киберзадач возрастает в разы .

Ярким примером важности такой «инфраструктуры поддержки» (scaffolding) служит модель o1 от OpenAI. Она построена на базе уже существующей архитектуры, однако за счет специальных надстроек и фазы рассуждений демонстрирует феноменальный скачок в сложных логических задачах . Для полноценной оценки угроз лабораториям необходимо постоянно находиться на острие методологии элиситации .

Тестирование систем в реальных условиях 2:13:08

Оценка поведения ИИ — это не точная математика, а процесс, близкий к психологии или социологии . Лабораторные тесты имеют ограничения, поэтому Аллан Дафо предлагает типологию проверок: от полностью автоматического кода до интерактивных тестов с участием людей . Например, при анализе склонности к манипуляциям реальные пользователи взаимодействуют с ИИ, проверяя, сможет ли он убедить их кликнуть по вредоносной ссылке .

Важнейшим дополнением к лабораторным исследованиям становится тестирование систем в реальных условиях (evals in the wild) . Наблюдение за тем, как ранние адепты и профессиональные команды используют Gemini для поиска уязвимостей или написания патчей в реальной работе, дает исследователям высокую внешнюю валидность . Главный минус такого подхода — временной лаг: реальные кейсы часто становятся «запаздывающим индикатором» . Чтобы снизить риски, ИИ-лаборатории внедряют стратегию поэтапного развертывания (staged release) .

Дилемма раскрытия весов передовых моделей 2:19:30

Поэтапный выпуск моделей тесно связан с острой дискуссией вокруг открытых весов (open weight models) . С одной стороны, публикация весов дает огромные преимущества научному сообществу, позволяя проводить исследования в области интерпретируемости моделей . Google исторически поддерживает открытый код, что доказывает пример с AlphaFold .

С другой стороны, раскрытие весов frontier-моделей несет в себе риск необратимого распространения . Как только веса опубликованы, их невозможно отозвать назад — они мгновенно окажутся на теневых ресурсах . Злоумышленники смогут снять любые ограничения безопасности. Именно поэтому к передовым моделям применяется дифференцированный подход с сохранением контроля над весами на серверах разработчика .

Прогнозирование темпов развития возможностей ИИ 2:21:44

Чтобы не реагировать на угрозы постфактум, индустрии необходимы методы прогнозирования. Эмпирические законы масштабирования (scaling laws) с высокой точностью предсказывают снижение функции потерь (loss) при увеличении вычислительной мощности . Однако они плохо предсказывают появление сложных прикладных навыков . Зависимость между точностью модели и ее реальной полезностью крайне нелинейна: например, беспилотный автомобиль с точностью 99% бесполезен, ему необходимы 99.999% безопасности .

Для предсказания качественных скачков Дафо выделяет два инструмента:

Дафо подчеркивает, что управление рисками ИИ должно быть многоуровневым . Ранее в разговоре обсуждались общие планы безопасности DeepMind, однако сейчас компания активно привлекает внешних экспертов из институтов безопасности ИИ (AISI) и сотрудничает в рамках Frontier Model Forum для выработки единых стандартов ответственного развертывания технологий.

🛡️ Структурные вызовы ИИ: баланс сил в реальном мире 2:30:56

Системный сбой: почему структурные риски опаснее злого умысла 2:30:56

В традиционном дискурсе о безопасности передовых технологий доминируют две категории: злонамеренное использование (misuse) и технические инциденты (accidents) . В первом случае речь идет о сознательном вреде со стороны злоумышленников, во втором — об ошибке инженеров, которую можно было предотвратить на этапе проектирования . Однако Аллан Дафо указывает на существование третьего, более глубокого уровня — структурных рисков (structural risks) .

Эта концепция, впервые сформулированная Алланом Дафо и его соавтором Ремосом Суте в 2019 году , смещает фокус внимания на макроусловия, при которых социальные, экономические и геополитические структуры делают катастрофические сценарии практически неизбежными — даже если никто из участников этого прямо не желает.

Классическим историческим примером структурного риска Дафо называет Карибский кризис . Это не было техническим сбоем ядерных систем или актом безумия лидеров двух сверхдержав . И США, и СССР действовали рационально в рамках сложившейся геополитической структуры, которая толкала их к опасному балансированию на грани войны .

Другой пример — развитие железных дорог в XIX веке . Сами по себе рельсы и поезда не несут угрозы, но они радикально изменили военную логистику, резко увеличив преимущество первого удара (first strike advantage) и сделав процесс мобилизации войск практически необратимым . Аналогично, эффекты от внедрения ИИ будут носить эмерджентный характер на глобальном уровне , и оценивать их силами одних лишь ИТ-компаний невозможно — здесь требуется прямое вмешательство государств . Ранее в разговоре собеседники уже касались темы военно-экономической конкуренции как двигателя прогресса, которая лишь усиливает подобные структурные риски.

Демократический дефицит и границы корпоративных обязательств 2:35:51

Развитие систем ИИ вызывает у общества растущее беспокойство, часто перерастающее в протестные движения вроде Pause AI . Главная претензия критиков заключается в демократической нелегитимности происходящего: узкая группа технологических компаний принимает решения, влияющие на судьбу всего человечества, не имея на то прямого мандата от граждан .

Отвечая на эти опасения, Аллан Дафо подчеркивает важность вовлечения общества через альтернативные институты. Он напоминает об исторических концепциях 1960–70-х годов, таких как «гражданские советы» или «гражданские жюри» , когда репрезентативные группы людей получали оплату за то, чтобы детально изучить технологию и вынести вердикт о ее внедрении в своих сообществах .

Сегодня этот процесс идет через развитие государственных институтов безопасности и международные соглашения. И хотя критики часто обвиняют индустрию в нежелании связывать себя жесткими законами , Дафо отмечает реальную ценность добровольных обязательств. Так, внутренние рабочие группы в Google детально прорабатывали требования, подписанные в Белом доме , превращая их в реальные инженерные регламенты . Параллельно с этим ведется работа на международных саммитах в Великобритании и Южной Корее , а также прямое участие в формировании кодекса практики в рамках европейского Закона об ИИ (EU AI Act) , что создает основу для будущих жестких стандартов.

Иллюзия «быстрого патча»: баланс нападения и защиты в биосфере 2:48:12

Одним из ключевых аргументов сторонников открытых систем является идея о том, что превосходство в ресурсах «хороших парней» компенсирует любые угрозы . В этой логике на каждый доллар злоумышленника защитники могут направить сто долларов на создание систем обороны . Однако Аллан Дафо предупреждает, что эта концепция разбивается о фундаментальный баланс нападения и защиты (offense-defense balance) в реальном мире .

В отличие от компьютерной безопасности, где обнаруженная уязвимость устраняется выпуском быстрого цифрового патча , биологические и социальные системы человека обладают колоссальной инерцией . В случае применения биологического оружия, созданного с помощью ИИ, невозможно мгновенно «пропатчить» человеческий организм . Разработка, производство и дистрибуция вакцины требуют колоссального времени, в течение которого масштаб ущерба может оказаться катастрофическим .

То же касается и социальных систем: например, защита от дипфейков требует не просто технологических фильтров, а полной перестройки привычек людей, изменения юридических процедур и систем верификации личности , что невозможно сделать за один день. Биосфера и человеческое общество чрезвычайно уязвимы, и дисбаланс в сторону атакующих средств здесь несет экзистенциальные риски .

Гуманитарный вектор: кадровый дефицит в сфере управления ИИ 2:50:20

Еще в 2018 году Аллан Дафо активно призывал специалистов из различных областей переходить в сферу безопасности и управления ИИ . Спустя годы этот призыв остается не менее актуальным: в индустрии сохраняется колоссальный дефицит ученых гуманитарного и социального профиля . Для того чтобы адекватно оценивать и направлять развитие технологий, требуются не только программисты, но и политологи, экономисты, историки, социологи, философы и этнографы .

Спектр задач, стоящих перед исследователями безопасности, огромен: от прогнозирования макротехнологических трендов и анализа рисков автономных агентов до прикладной этики и выстраивания международных дипломатических каналов управления ИИ . Без глубокого понимания социальных процессов и человеческой природы технологам не удастся построить надежные системы контроля, способные предотвратить глобальные системные кризисы.

🌟 Благополучие человечества: как ИИ изменит медицину, образование и экологию 2:55:52

🏥 Медицинские технологии: от диалоговых ассистентов до AlphaFold 2:55:52

Развитие искусственного интеллекта открывает колоссальные перспективы для глобального здравоохранения, переводя медицинскую помощь на качественно новый уровень доступности и точности. Уже сегодня многие пользователи обращаются к большим языковым моделям за базовыми медицинскими советами . Флагманским решением в этой области выступает семейство моделей MedLM (включая Med-PaLM 2) от Google, представляющее собой передовой край медицинской ИИ-консультации . Проект развивается в рамках обширного медицинского портфолио Google . Хотя MedLM пока не находится в полностью открытом публичном доступе, она уже успешно тестируется и используется ограниченным кругом специалистов .

Параллельно с развитием диалоговых систем ИИ совершает фундаментальные прорывы в фундаментальной науке. Ярким примером служит модель AlphaFold 2 от Google DeepMind, которая произвела настоящую революцию в биоинформатике . Точное предсказание структуры белков позволяет исследователям по всему миру ускорять разработку новых лекарств и глубже понимать природу сложнейших заболеваний, что кардинально повышает качество жизни человечества .

🚗 Автоматизация транспорта: радикальное снижение аварийности 2:55:52

Помимо медицины, колоссальный потенциал ИИ для сохранения человеческих жизней кроется в сфере транспорта. Системы автономного вождения и умные дорожные ассистенты способны радикально снизить аварийность на дорогах, практически полностью исключив пресловутый «человеческий фактор» — главную причину дорожно-транспортных происшествий во всем мире. Интеграция ИИ в транспортные системы позволит предотвращать миллионы аварий ежегодно, обеспечивая безопасность как водителей, так и пешеходов, что станет одним из самых осязаемых вкладов передовых технологий в повседневную безопасность и благополучие общества.

🎓 Образование будущего: индивидуальные ИИ-тьюторы для каждого ученика 2:56:42

Огромные надежды возлагаются на интеграцию ИИ в образовательный процесс. Внедрение ИИ-моделей в качестве персональных репетиторов способно компенсировать недостатки стандартной школьной системы, которая далеко не всегда способна предоставить качественное обучение . Как отмечает Аллан Дафо, ИИ в сфере образования открывает гигантские возможности . Исследования показывают, что индивидуальное обучение в малых группах или один на один критически важно для академических успехов учащихся .

Персональный ИИ-тьютор может эффективно дополнять традиционную школу:

Подобно тому, как появление интернета и таких платформ, как Академия Хана (Khan Academy), сделало качественные учебные материалы общедоступными, ИИ-тьюторы совершат следующий шаг в демократизации знаний . Такая технология окажется невероятно полезной для двух ключевых категорий учащихся . Во-первых, это одаренные дети, которые смогут двигаться вперед в собственном высоком темпе, не дожидаясь остального класса . Во-вторых, это отстающие ученики, которые, застряв на сложных темах в обычной школе, теряют нить понимания и перестают усваивать материал; ИИ поможет им мягко и последовательно закрыть пробелы в знаниях .

⚡ Технологии устойчивого развития: от термоядерного синтеза до оптимизации авиарейсов 2:59:19

Не менее захватывающие перспективы ИИ демонстрирует в решении экологических и энергетических проблем. Исследовательские проекты Google DeepMind в области устойчивого развития часто напоминают научную фантастику . Среди них:

Все эти примеры показывают, как точечные оптимизации энергетических процессов в сумме дают масштабный синергетический эффект, помогая человечеству эффективно бороться с глобальным изменением климата . Аллан Дафо резюмирует, что при условии успешного решения проблем безопасности, описанных в предыдущие часы беседы, человечество сможет в полной мере насладиться этим прекрасным новым миром и беспрецедентным качеством жизни .