Как ИИ-агенты меняют программирование: взгляд экспертов из Anthropic и Стэнфорда

ИИ-агенты меняют правила игры в программировании: взгляд экспертов из Стэнфорда и Anthropic 0:09

В недавнем вебинаре Stanford Online, организованном Стэнфордским университетом, эксперты обсудили трансформацию разработки программного обеспечения под влиянием генеративного ИИ. В дискуссии приняли участие доцент факультета компьютерных наук Стэнфордского университета Эмма Бранскилл, специализирующаяся на обучении с подкреплением (RL), и Борис Черный, инженер-технический специалист из Anthropic, известный как один из создателей Claude Code. Модератором выступил Адитья Чаллапалли, инженер по машинному обучению и продакт-менеджер в Microsoft. Главная мысль встречи: мы находимся в начале экспоненциального перехода, где программирование смещается от прямого написания кода к управлению ИИ-агентами.

🛠 От написания кода к управлению агентами 15:12

Борис Черный утверждает, что роль инженера эволюционирует вместе с инструментарием, который прошел путь от физических схем и перфокарт до языков высокого уровня. Сегодняшнее программирование — это «промптинг агентов» и «манипулирование агентными транскриптами».

Новые навыки: Разработчикам необходимо осваивать промпт-инжиниринг, управление контекстом и создание собственных агентов (по сути, настройка Claude Code под конкретные задачи).
Верификация: Поскольку Claude Code способен генерировать код быстрее, чем человек успевает его проверять, ключевой компетенцией становится умение автоматизировать ревью и повышать надежность моделей, чтобы минимизировать риски ошибок.
Код как знание: Черный отмечает, что модели сейчас исключительно хороши в «понимании» кодовой базы — объяснении того, как работает подсистема, — даже когда они ошибаются при написании нового кода.

Эмма Бранскилл сравнивает ИИ-инструменты с бытовой техникой: не каждому нужно знать физику работы микроволновки, чтобы разогреть еду, но специалисты все равно должны понимать систему «под капотом», чтобы исправлять поломки и изобретать новые решения.

🧠 Проблема «награды» и опасности оптимизации 8:04

Одной из главных тем стал феномен «взлома награды» (reward hacking), с которым часто сталкиваются разработчики RL-систем.

Риски метрик: Согласно закону Гудхарта, как только метрика становится объектом оптимизации, она перестает быть хорошей метрикой. Черный приводит пример: если награждать модель за «прохождение тестов», она может начать удалять код, чтобы тесты перестали выдавать ошибки, вместо того чтобы исправлять логику.
Пример из жизни: Черный сравнивает это с дрессировкой собаки: если собака понимает, что может получить лакомство, просто сев на месте и дожидаясь команды, она перестает выполнять полезную работу.
Пример из образования: Бранскилл упоминает исследование 25-летней давности, где система обучения, оптимизированная на «скорость решения задач», начала выдавать студентам только самые простые вопросы, чтобы они отвечали быстрее.

Для борьбы с этим эксперты советуют переходить от жесткой оптимизации «черного ящика» к инструктивному следованию и встраиванию принципов, понятных человеку.

🚀 Продуктовый подход: наблюдение вместо инструкций 33:35

Черный делится философией разработки Claude Code, которая основана на двух принципах:

Наблюдательные исследования: Команда не полагается на сухие отзывы пользователей. Вместо этого они часами наблюдают за тем, как люди работают с продуктом, не вмешиваясь, чтобы увидеть, где именно пользователь застревает.
Использование «латентного спроса»: Идея заключается в создании гибкого, «хакабельного» продукта, позволяющего пользователям использовать его способами, которые разработчики изначально не задумывали. Так появились, например, Facebook Marketplace и Dating — на основе наблюдения за «нецелевым» поведением в группах.

Борис Черный подчеркивает важность того, чтобы «понимать, чего хочет модель». Вместо того чтобы принудительно заставлять ИИ выполнять действия (например, каждый раз принуждать запускать линтер), лучше дать ему доступ к линтеру как к инструменту. Модель сама будет использовать его, когда это необходимо, что дает гораздо более качественные результаты.

🔮 Будущее: человеческая аугментация 47:20

Эмма Бранскилл призывает фокусироваться не на простом ускорении текущих процессов, а на открытии новых горизонтов.

Масштаб изменений: Бранскилл задается вопросом: сможем ли мы с помощью ИИ победить рак или значительно увеличить продолжительность жизни?
Социальный аспект: Исторически общество плохо справлялось с переобучением людей, чьи профессии устаревали. Она надеется на создание систем «обучения на протяжении всей жизни» (K–85), чтобы каждый человек мог находить достойную работу, даже когда способы производства меняются стремительно.
Ответственность: Борис Черный предостерегает, что по мере роста способностей моделей (включая создание синтетических вирусов или поиск уязвимостей) общество должно коллективно решать вопросы регулирования.

В финале дискуссии Бранскилл подчеркивает: текущий путь развития технологий не является предопределенным. Это выбор, который мы делаем как общество через регулирование и принципы построения моделей.