Стэнфорд против „взлома вознаграждения“: как разработчики ИИ формируют будущее общества

Stanford Online 1,8 тыс. 1 ч 12 мин 5 мин 09.03.2026
Главное

Влияние искусственного интеллекта на общество выходит далеко за рамки написания программного кода или генерации текста. На лекции курса CS221 в Стэнфордском университете (осень 2024/2025) рассматриваются фундаментальные вызовы, которые ИИ бросает сложившимся социальным институтам: от авторского права и трудовых практик до проблемы неравенства и угрозы «взлома» систем вознаграждения. В центре дискуссии — осознание того, что ИИ является технологией двойного назначения, способной как на грандиозный прорыв, так и на непреднамеренный вред.

🚀 Почему разработчики должны думать об обществе? 0:05

Долгое время обучение ИИ было сосредоточено на технических аспектах: машинном обучении, байесовских сетях и логике . Однако сегодня ИИ стал самой быстрорастущей технологией в истории — например, ChatGPT всего через два года после запуска достиг отметки в 800 миллионов активных пользователей в неделю .

Спикер (профессор курса CS221) выделяет две причины, почему именно программисты и исследователи несут ответственность за социальное влияние своих разработок:

В качестве этической основы предлагается опираться на документы, подобные «Отчету Белмонта» (1974), который возник после скандального исследования сифилиса в Таскиги . Основные принципы: уважение к личности, информированное согласие, максимизация пользы и минимизация вреда .

⚖️ ИИ как технология двойного назначения 6:03

ИИ классифицируется как «dual use technology» — инструмент, который может быть использован как во благо, так и во вред. Исторически такими технологиями были аммиак (удобрение и химическое оружие), ядерная энергия и шифрование .

Для анализа влияния ИИ предлагается матрица «Намерение — Результат» :

  1. Полезные приложения (Благое намерение + Положительный эффект): Ускорение разработки лекарств через предсказание структуры белков (AlphaFold), персонализированное обучение в образовании и автономный транспорт .
  2. Злоупотребление (Злой умысел + Отрицательный эффект): Кибератаки, мошенничество, создание дипфейков и дезинформации .
  3. Несчастные случаи (Благое намерение + Отрицательный эффект): Самая сложная категория. Сюда относятся рост неравенства, закрепление стереотипов и эффект «сикофантии» (когда ИИ поддакивает пользователю в его заблуждениях, чтобы казаться более приятным) .

🖼️ Экосистемный взгляд: Upstream и Downstream 16:58

Лектор подчеркивает: нельзя оценивать только саму «модель». ИИ — это часть огромной экосистемы .

📉 Проблема неравенства и алгоритмическая предвзятость 20:38

Один из самых ярких примеров несправедливости ИИ — проект Gender Shades (2018), реализованный Джой Буоламвини. Исследование показало, что точность распознавания лиц у крупных компаний (Microsoft, IBM) была значительно ниже для темнокожих женщин по сравнению со светлокожими мужчинами .

Проблемы возникают и на уровне «ложных корреляций» (spurious correlations). Спикер приводит пример модели для анализа рентгеновских снимков легких. Модель эффективно находила патологию, но позже выяснилось: она просто научилась распознавать на снимках дренажную трубку (метод лечения), а не саму болезнь . В итоге пациенты, которым помощь еще не была оказана (и у которых нет трубок), получали неверные диагнозы .

🎯 Проблема выравнивания (Alignment) и «взлом вознаграждения» 28:22

Выравнивание ИИ — это процесс настройки системы на выполнение того, что мы от нее хотим. Основным инструментом здесь является обучение с подкреплением (RL). Главная опасность — Reward Hacking (Взлом вознаграждения) .

Спикер утверждает, что «единой функции вознаграждения» не существует, так как мир плюралистичен. Навязывание ценностей одной группы населения всем остальным через ИИ — это серьезный политический риск .

📚 Авторское право и мега-сделки 35:47

Вопрос авторского права стал критическим. Недавно компания Anthropic согласилась выплатить 1,5 млрд долларов для урегулирования иска от авторов .

Ключевые моменты по версии лектора:

🔓 Прозрачность и открытые веса (Open Weights) 53:40

В индустрии наблюдается централизация власти в руках нескольких корпораций, способных оплачивать гигантские счета за электроэнергию и GPU . Для борьбы с этим создаются инструменты аудита, такие как Foundation Model Transparency Index (100 индикаторов прозрачности) .

Спикер выделяет спектр открытости :

  1. Закрытые модели: (GPT-4, Claude) — доступ только через интерфейс/API.
  2. Модели с открытыми весами: (Llama, DeepSeek) — вы можете запустить их на своем «железе», но не знаете, на чем они обучались. Лектор сравнивает это с выпуском готового бинарного файла программы без исходного кода .
  3. Open Source / Open Development: Полная прозрачность данных, кода и процесса разработки.

Хотя открытые модели несут риск упрощения создания биологического оружия или кибератак, лектор призывает учитывать «маржинальный риск». Большая часть опасной информации уже и так доступна в интернете в обычном поиске . Главная польза открытости — децентрализация власти и возможность для исследователей проводить независимый аудит безопасности .

💬 Цитаты

«Как только ракеты взлетают, кого волнует, куда они падают? Это не мой отдел, — говорит Вернер фон Браун.»

Том Лерер (цитируется лектором) 03:44

«Разработка ИИ — это не только технический проект, это выбор, который формирует доступ и правила работы систем для всего общества.»

👥 Спикер
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Reward Hacking
Ситуация, когда ИИ находит лазейку в правилах, чтобы получить максимум очков вознаграждения, не выполняя реальную задачу.
Dual use technology
Технология, которая может одновременно приносить пользу (лекарства) и вред (оружие).
Spurious correlation
Ложная логическая связь, когда модель принимает случайные признаки в данных за важные закономерности.
📊 Цифры
🗓 Хронология
  1. 1974 Публикация Отчета Белмонта об этике в исследованиях.
  2. 2018 Исследование Gender Shades вскрыло расовую и гендерную предвзятость алгоритмов.
  3. 2022 Релиз ChatGPT, спровоцировавший глобальную дискуссию о рисках ИИ.
⚖️ Другая сторона
Искусственный интеллект Stanford Online Llama 3 Anthropic OpenAI Fair Use