Безопасность ИИ: Как OpenAI и Стэнфорд проектируют человекоцентричное будущее

Greylock 62 тыс. 32 мин 4 мин 27.09.2022
Главное

В ходе дискуссии, организованной венчурным фондом Greylock, технический директор OpenAI Мира Мурати и профессор Стэнфордского университета Фэй-Фэй Ли обсудили текущее состояние искусственного интеллекта. Основное внимание эксперты уделили переходу технологий из лабораторий в реальный мир, вопросам безопасности и тому, как ИИ может усилить человеческий творческий потенциал, не заменяя его.

🤖 Новые горизонты: от робототехники до универсальных моделей 0:38

Фэй-Фэй Ли поделилась деталями готовящейся научной работы, которая, по её словам, призвана стать «Полярной звездой» для современной робототехники . Исследователи создали бенчмарк из 1000 задач для роботов, основанный на реальной деятельности людей.

Мира Мурати, в свою очередь, отметила, что наиболее захватывающим процессом в OpenAI сейчас является проверка пределов текущей парадигмы: сочетания огромных нейронных сетей, колоссальных объемов данных и вычислительных мощностей . По её мнению, такие системы как GPT-3, Codex и DALL-E доказывают, что мы движемся к созданию систем с устойчивыми концепциями мира, где ИИ воспринимает слово «авокадо» и его изображение как единую сущность .

🛡️ Безопасность OpenAI: стратегия контролируемого развертывания 4:33

Мира Мурати подчеркнула, что обеспечение «благотворного» (beneficial) влияния ИИ на мир — это колоссальный вызов, так как предсказать все способы возникновения вредных предубеждений или рисков невозможно .

Стратегия OpenAI строится на нескольких принципах:

  1. Постепенный доступ через API: GPT-3 сначала развертывалась в ограниченном режиме для узкого круга пользователей .
  2. Проверка реальностью: Мурати утверждает, что многие риски невозможно симулировать в лаборатории. Например, при запуске GPT-3 команда ожидала, что главной проблемой станет дезинформация, но на практике самым массовым риском оказался спам .
  3. Итеративная коррекция: Найденные уязвимости и «галлюцинации» (когда модель выдумывает факты) исправляются с помощью обратной связи.
  4. Технология RLHF: Использование обучения с подкреплением на основе отзывов людей (Reinforcement Learning from Human Feedback) позволило создать серию моделей InstructGPT, которые гораздо надежнее следуют инструкциям оператора и реже совершают ошибки .

По словам Мурати, сейчас безопасность перестала быть теоретической дисциплиной и слилась с развитием возможностей моделей: более безопасные модели становятся и более полезными для бизнеса .

🎓 Стэнфорд и человекоцентричный ИИ 8:19

Фэй-Фэй Ли, как содиректор Института человекоцентричного ИИ Стэнфорда (Stanford HAI), представила академический взгляд на проблему. Она считает, что этические нормы и человеческие ценности должны внедряться на каждом этапе создания ИИ, а не после его готовности .

Особое внимание Ли уделила созданию Национального облака исследовательских ресурсов (National Research Cloud/NAIRR). По её мнению, сейчас ресурсы (вычисления и данные) слишком сильно сконцентрированы в руках нескольких гигантов, таких как OpenAI, Microsoft, Google и Meta . Это мешает образованию новых талантов и снижает конкурентоспособность нации. В данный момент Ли входит в состав рабочей группы при администрации Байдена, которая разрабатывает план по созданию этой национальной инфраструктуры .

🎨 ИИ как усилитель творчества: уроки DALL-E 21:51

Обсуждая влияние ИИ на креативность, Мира Мурати привела пример того, как GPT-3 смогла написать стихотворение об уравнениях Максвелла в стиле любовной лирики Пабло Неруды . Это доказало, что ИИ может соединять фундаментальные научные концепции с глубокими человеческими эмоциями.

Мурати считает, что страх перед тем, что ИИ «размоет» ценность человеческого таланта, необоснован, и проводит исторические параллели:

⚖️ Регулирование против инноваций: ложная дилемма 29:26

Отвечая на вопрос из зала о том, не замедляют ли этические советы темпы прогресса, Фэй-Фэй Ли подчеркнула, что инновации и правила не исключают друг друга .

В качестве примера она привела работу своей лаборатории с «умными» камерами в больницах для мониторинга безопасности пациентов.

  1. Конфликт: Намерение помочь врачам столкнулось с проблемами конфиденциальности пациентов .
  2. Реакция: Это заставило студентов-исследователей заняться алгоритмами дифференциальной приватности (differential privacy).
  3. Результат: Выяснилось, что существующие алгоритмы слишком медленны для видео. В итоге команда создала и опубликовала новые, более быстрые алгоритмы машинного обучения с защитой данных .

Таким образом, по мнению Ли, этические барьеры не просто ограничивают, а стимулируют поиск более совершенных технологических решений, от которых выигрывают все .

💬 Цитаты

«Для GPT-3 мы были убеждены, что дезинформация будет самым важным риском, но на практике увидели, что гораздо большей проблемой стал спам.»

Мира Мурати 06:55

«Хорошие ограждения могут стимулировать хорошие инновации.»

Фэй-Фэй Ли 30:23
👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
RLHF
Обучение с подкреплением на основе отзывов людей — метод настройки ИИ-моделей для их соответствия человеческим предпочтениям.
InstructGPT
Серия моделей OpenAI, настроенных для точного следования инструкциям пользователя.
Дифференциальная приватность
Математический метод добавления шума в данные, который позволяет извлекать общие закономерности, не раскрывая информацию о конкретных личностях.
ESR (Ethics and Society Review)
Процесс рецензирования научных работ на предмет их влияния на общество и этику.
📊 Цифры
🗓 Хронология
  1. В данный момент (на момент видео) Фэй-Фэй Ли участвует в работе президентской группы по National Research Cloud.
  2. Ранее (до релиза InstructGPT) OpenAI обнаружила, что основной проблемой GPT-3 является спам, а не дезинформация.
⚖️ Другая сторона
Искусственный интеллект Мира Мурати Фэй-Фэй Ли OpenAI Stanford University GPT-3