Безопасность ИИ: Как OpenAI и Стэнфорд проектируют человекоцентричное будущее

В ходе дискуссии, организованной венчурным фондом Greylock, технический директор OpenAI Мира Мурати и профессор Стэнфордского университета Фэй-Фэй Ли обсудили текущее состояние искусственного интеллекта. Основное внимание эксперты уделили переходу технологий из лабораторий в реальный мир, вопросам безопасности и тому, как ИИ может усилить человеческий творческий потенциал, не заменяя его.

🤖 Новые горизонты: от робототехники до универсальных моделей 0:38

Фэй-Фэй Ли поделилась деталями готовящейся научной работы, которая, по её словам, призвана стать «Полярной звездой» для современной робототехники . Исследователи создали бенчмарк из 1000 задач для роботов, основанный на реальной деятельности людей.

Источники данных: Задачи были отобраны на основе обзоров использования времени в США и аналогичных европейских исследований .
Приоритеты пользователей: Исследование показало, что люди четко разделяют сферы помощи. Например, большинство опрошенных категорически не хотят, чтобы робот открывал их рождественские подарки — этот опыт люди ценят сами .
Грязная работа: При этом практически все респонденты выразили желание передать роботам чистку туалетов (задача получила самый высокий рейтинг) и сборку ланч-боксов для детей .

Мира Мурати, в свою очередь, отметила, что наиболее захватывающим процессом в OpenAI сейчас является проверка пределов текущей парадигмы: сочетания огромных нейронных сетей, колоссальных объемов данных и вычислительных мощностей . По её мнению, такие системы как GPT-3, Codex и DALL-E доказывают, что мы движемся к созданию систем с устойчивыми концепциями мира, где ИИ воспринимает слово «авокадо» и его изображение как единую сущность .

🛡️ Безопасность OpenAI: стратегия контролируемого развертывания 4:33

Мира Мурати подчеркнула, что обеспечение «благотворного» (beneficial) влияния ИИ на мир — это колоссальный вызов, так как предсказать все способы возникновения вредных предубеждений или рисков невозможно .

Стратегия OpenAI строится на нескольких принципах:

Постепенный доступ через API: GPT-3 сначала развертывалась в ограниченном режиме для узкого круга пользователей .
Проверка реальностью: Мурати утверждает, что многие риски невозможно симулировать в лаборатории. Например, при запуске GPT-3 команда ожидала, что главной проблемой станет дезинформация, но на практике самым массовым риском оказался спам .
Итеративная коррекция: Найденные уязвимости и «галлюцинации» (когда модель выдумывает факты) исправляются с помощью обратной связи.
Технология RLHF: Использование обучения с подкреплением на основе отзывов людей (Reinforcement Learning from Human Feedback) позволило создать серию моделей InstructGPT, которые гораздо надежнее следуют инструкциям оператора и реже совершают ошибки .

По словам Мурати, сейчас безопасность перестала быть теоретической дисциплиной и слилась с развитием возможностей моделей: более безопасные модели становятся и более полезными для бизнеса .

🎓 Стэнфорд и человекоцентричный ИИ 8:19

Фэй-Фэй Ли, как содиректор Института человекоцентричного ИИ Стэнфорда (Stanford HAI), представила академический взгляд на проблему. Она считает, что этические нормы и человеческие ценности должны внедряться на каждом этапе создания ИИ, а не после его готовности .

Постановка задачи: Перед написанием первой строки кода нужно решить: мы создаем систему для замены человека или для усиления его способностей? .
Целостность данных: Необходим контроль над тем, как собираются данные, как они размечаются и насколько они репрезентативны.
Совет по этике (ESR): Stanford HAI стал первой университетской организацией в США, создавшей Ethics and Society Review Board. Этот совет проверяет все заявки на гранты на предмет социальных и этических последствий .

Особое внимание Ли уделила созданию Национального облака исследовательских ресурсов (National Research Cloud/NAIRR). По её мнению, сейчас ресурсы (вычисления и данные) слишком сильно сконцентрированы в руках нескольких гигантов, таких как OpenAI, Microsoft, Google и Meta . Это мешает образованию новых талантов и снижает конкурентоспособность нации. В данный момент Ли входит в состав рабочей группы при администрации Байдена, которая разрабатывает план по созданию этой национальной инфраструктуры .

🎨 ИИ как усилитель творчества: уроки DALL-E 21:51

Обсуждая влияние ИИ на креативность, Мира Мурати привела пример того, как GPT-3 смогла написать стихотворение об уравнениях Максвелла в стиле любовной лирики Пабло Неруды . Это доказало, что ИИ может соединять фундаментальные научные концепции с глубокими человеческими эмоциями.

Мурати считает, что страх перед тем, что ИИ «размоет» ценность человеческого таланта, необоснован, и проводит исторические параллели:

Пример Рембрандта: В XVII веке не было нюансированного понимания искусства — ты был либо Рембрандтом, либо никем. Сегодня мы все еще ценим оригинал «Ночного дозора» выше, чем идеальную копию, сделанную талантливым выпускником арт-школы .
Аналогия с глобализацией: Культурный обмен иногда вызывает нежелательные эффекты, но в целом ведет к разнообразию и процветанию.
Книга «Созидательное разрушение» (Creative Destruction): Мурати ссылается на этот труд, утверждая, что в долгосрочной перспективе такие инструменты как DALL-E приведут к появлению большего количества идей и художественных форм .

⚖️ Регулирование против инноваций: ложная дилемма 29:26

Отвечая на вопрос из зала о том, не замедляют ли этические советы темпы прогресса, Фэй-Фэй Ли подчеркнула, что инновации и правила не исключают друг друга .

В качестве примера она привела работу своей лаборатории с «умными» камерами в больницах для мониторинга безопасности пациентов.

Конфликт: Намерение помочь врачам столкнулось с проблемами конфиденциальности пациентов .
Реакция: Это заставило студентов-исследователей заняться алгоритмами дифференциальной приватности (differential privacy).
Результат: Выяснилось, что существующие алгоритмы слишком медленны для видео. В итоге команда создала и опубликовала новые, более быстрые алгоритмы машинного обучения с защитой данных .

Таким образом, по мнению Ли, этические барьеры не просто ограничивают, а стимулируют поиск более совершенных технологических решений, от которых выигрывают все .