# Безопасность ИИ: Как OpenAI и Стэнфорд проектируют человекоцентричное будущее

Источник: https://www.youtube.com/watch?v=9B02MzWwkSo
Канал: Greylock
Опубликовано: 27.09.2022

---

В ходе дискуссии, организованной венчурным фондом Greylock, технический директор OpenAI Мира Мурати и профессор Стэнфордского университета Фэй-Фэй Ли обсудили текущее состояние искусственного интеллекта. Основное внимание эксперты уделили переходу технологий из лабораторий в реальный мир, вопросам безопасности и тому, как ИИ может усилить человеческий творческий потенциал, не заменяя его.

## 🤖 Новые горизонты: от робототехники до универсальных моделей
[[JUMP:0:38]]

Фэй-Фэй Ли поделилась деталями готовящейся научной работы, которая, по её словам, призвана стать «Полярной звездой» для современной робототехники [01:06]. Исследователи создали бенчмарк из 1000 задач для роботов, основанный на реальной деятельности людей.

*   **Источники данных:** Задачи были отобраны на основе обзоров использования времени в США и аналогичных европейских исследований [02:18].
*   **Приоритеты пользователей:** Исследование показало, что люди четко разделяют сферы помощи. Например, большинство опрошенных категорически не хотят, чтобы робот открывал их рождественские подарки — этот опыт люди ценят сами [02:32].
*   **Грязная работа:** При этом практически все респонденты выразили желание передать роботам чистку туалетов (задача получила самый высокий рейтинг) и сборку ланч-боксов для детей [02:46].

Мира Мурати, в свою очередь, отметила, что наиболее захватывающим процессом в OpenAI сейчас является проверка пределов текущей парадигмы: сочетания огромных нейронных сетей, колоссальных объемов данных и вычислительных мощностей [03:15]. По её мнению, такие системы как GPT-3, Codex и DALL-E доказывают, что мы движемся к созданию систем с устойчивыми концепциями мира, где ИИ воспринимает слово «авокадо» и его изображение как единую сущность [04:06].

## 🛡️ Безопасность OpenAI: стратегия контролируемого развертывания
[[JUMP:04:33]]

Мира Мурати подчеркнула, что обеспечение «благотворного» (beneficial) влияния ИИ на мир — это колоссальный вызов, так как предсказать все способы возникновения вредных предубеждений или рисков невозможно [05:26].

Стратегия OpenAI строится на нескольких принципах:

1.  **Постепенный доступ через API:** GPT-3 сначала развертывалась в ограниченном режиме для узкого круга пользователей [06:04].
2.  **Проверка реальностью:** Мурати утверждает, что многие риски невозможно симулировать в лаборатории. Например, при запуске GPT-3 команда ожидала, что главной проблемой станет дезинформация, но на практике самым массовым риском оказался спам [06:55].
3.  **Итеративная коррекция:** Найденные уязвимости и «галлюцинации» (когда модель выдумывает факты) исправляются с помощью обратной связи.
4.  **Технология RLHF:** Использование обучения с подкреплением на основе отзывов людей (Reinforcement Learning from Human Feedback) позволило создать серию моделей InstructGPT, которые гораздо надежнее следуют инструкциям оператора и реже совершают ошибки [14:03].

По словам Мурати, сейчас безопасность перестала быть теоретической дисциплиной и слилась с развитием возможностей моделей: более безопасные модели становятся и более полезными для бизнеса [14:44].

## 🎓 Стэнфорд и человекоцентричный ИИ
[[JUMP:08:19]]

Фэй-Фэй Ли, как содиректор Института человекоцентричного ИИ Стэнфорда (Stanford HAI), представила академический взгляд на проблему. Она считает, что этические нормы и человеческие ценности должны внедряться на каждом этапе создания ИИ, а не после его готовности [09:13].

*   **Постановка задачи:** Перед написанием первой строки кода нужно решить: мы создаем систему для замены человека или для усиления его способностей? [10:06].
*   **Целостность данных:** Необходим контроль над тем, как собираются данные, как они размечаются и насколько они репрезентативны.
*   **Совет по этике (ESR):** Stanford HAI стал первой университетской организацией в США, создавшей Ethics and Society Review Board. Этот совет проверяет все заявки на гранты на предмет социальных и этических последствий [18:02].

Особое внимание Ли уделила созданию Национального облака исследовательских ресурсов (National Research Cloud/NAIRR). По её мнению, сейчас ресурсы (вычисления и данные) слишком сильно сконцентрированы в руках нескольких гигантов, таких как OpenAI, Microsoft, Google и Meta [20:32]. Это мешает образованию новых талантов и снижает конкурентоспособность нации. В данный момент Ли входит в состав рабочей группы при администрации Байдена, которая разрабатывает план по созданию этой национальной инфраструктуры [21:26].

## 🎨 ИИ как усилитель творчества: уроки DALL-E
[[JUMP:21:51]]

Обсуждая влияние ИИ на креативность, Мира Мурати привела пример того, как GPT-3 смогла написать стихотворение об уравнениях Максвелла в стиле любовной лирики Пабло Неруды [22:56]. Это доказало, что ИИ может соединять фундаментальные научные концепции с глубокими человеческими эмоциями.

Мурати считает, что страх перед тем, что ИИ «размоет» ценность человеческого таланта, необоснован, и проводит исторические параллели:

*   **Пример Рембрандта:** В XVII веке не было нюансированного понимания искусства — ты был либо Рембрандтом, либо никем. Сегодня мы все еще ценим оригинал «Ночного дозора» выше, чем идеальную копию, сделанную талантливым выпускником арт-школы [24:30].
*   **Аналогия с глобализацией:** Культурный обмен иногда вызывает нежелательные эффекты, но в целом ведет к разнообразию и процветанию.
*   **Книга «Созидательное разрушение» (Creative Destruction):** Мурати ссылается на этот труд, утверждая, что в долгосрочной перспективе такие инструменты как DALL-E приведут к появлению большего количества идей и художественных форм [26:39].

## ⚖️ Регулирование против инноваций: ложная дилемма
[[JUMP:29:26]]

Отвечая на вопрос из зала о том, не замедляют ли этические советы темпы прогресса, Фэй-Фэй Ли подчеркнула, что инновации и правила не исключают друг друга [29:40].

В качестве примера она привела работу своей лаборатории с «умными» камерами в больницах для мониторинга безопасности пациентов.

1.  **Конфликт:** Намерение помочь врачам столкнулось с проблемами конфиденциальности пациентов [30:48].
2.  **Реакция:** Это заставило студентов-исследователей заняться алгоритмами дифференциальной приватности (differential privacy).
3.  **Результат:** Выяснилось, что существующие алгоритмы слишком медленны для видео. В итоге команда создала и опубликовала новые, более быстрые алгоритмы машинного обучения с защитой данных [31:16].

Таким образом, по мнению Ли, этические барьеры не просто ограничивают, а стимулируют поиск более совершенных технологических решений, от которых выигрывают все [31:44].