Мартин Касадо из a16z: «Мы должны защищать и освобождать ИИ, а не ограничивать его»

В штаб-квартире венчурного фонда Андриссен Горовиц (Andreessen Horowitz) прошла встреча, посвященная будущему генеративных агентов и проекту AI Town. Ведущий партнер фонда Мартин Касадо и исследователь из Стэнфорда Джун Пак обсудили, как симуляция человеческого поведения с помощью больших языковых моделей (LLM) меняет наше представление о социальном проектировании, экономике и программировании.

🤖 Что такое генеративные агенты: от чат-ботов к цифровым личностям 3:57

Джун Пак определяет генеративных агентов как вычислительные системы, способные симулировать правдоподобное человеческое поведение . В основе технологии лежат LLM, которые, по мнению Пака, уже впитали в себя колоссальные объемы данных о человеческой психологии и социальных взаимодействиях из Википедии и социальных сетей . Главная задача разработчиков сегодня — «извлечь» эти знания и применить их в конкретном контексте.

Ключевым отличием агентов от обычных чат-ботов является наличие архитектуры, которую Пак сравнивает с операционной системой для языковой модели . Если раньше для создания сложного поведения персонажей в играх или симуляциях требовалось прописывать каждую реакцию вручную, то теперь система генерирует их на лету.

История проекта началась в середине 2020 года, когда Пак начал работу над докторской диссертацией в Стэнфорде, как раз перед выходом GPT-3 . В тот период группа ученых опубликовала влиятельную статью о «базовых моделях» (Foundation Models), рассматривая их как своего рода «стволовые клетки» в биологии, которые можно адаптировать для выполнения широкого спектра задач .

🏗️ Архитектура «цифрового разума»: память, планирование и рефлексия 12:11

Чтобы агенты вели себя естественно, команда Джуна Пака разработала архитектуру, состоящую из трех основных процессов:

Наблюдение (Observe): Агенты фиксируют происходящее вокруг них.
Планирование (Plan): Они формируют последовательность действий на день.
Рефлексия (Reflect): Способность делать высокоуровневые выводы из накопленного опыта .

Техническая реализация этих процессов опирается на сложную систему оценки данных. Например, функция извлечения информации (retrieval function) оценивает каждое событие по трем критериям: недавность, важность и релевантность .

Примеры градации важности в симуляции:

Чистка зубов оценивается в 1 балл.
Разрыв отношений с партнером получает максимальные 10 баллов .

Механизм рефлексии запускается только после накопления определенного «критического веса» событий. По словам Пака, в их системе этот порог был установлен на уровне 150 баллов суммарной важности . Только после этого агент делает паузу, чтобы переосмыслить свой опыт и сформировать мнение о других персонажах. Это позволяет агентам, например, сделать вывод, что сосед любит омлеты, если они видели его завтракающим этим блюдом три дня подряд .

🏘️ AI Town: эксперимент, ставший «виртуальным кофейником» интернета 7:51

Мартин Касадо из Андриссен Горовиц (Andreessen Horowitz) сравнивает текущий этап развития ИИ-агентов с ранними днями интернета. Он вспоминает первый в истории стрим с веб-камеры, направленной на кофейник в Кембридже в начале 90-х: для стороннего наблюдателя это казалось глупостью, но для энтузиастов это было магией новой технологии .

Проект AI Town вырос из персонального проекта разработчицы Йоко (Yoko), который позже был превращен в полноценную платформу силами Иана (Ian) и команды Convex . Касадо подчеркивает, что за упрощенной графикой (тайл-сетом) скрывается сложнейшая инженерная задача — создание масштабируемой распределенной системы с общим состоянием, которая необходима для многопользовательских взаимодействий .

По мнению Касадо, сегодня мы находимся в «эре энтузиастов»:

Бизнес и крупные корпорации (вроде Эрика Шмидта в Sun Microsystems в свое время) часто скептически относятся к таким «игрушкам» .
Настоящие инновации всегда рождаются из неочевидных кейсов использования, которые изначально кажутся бесполезными .
Пытаться перенести старые интерфейсы в новую среду (как попытки сделать «Windows в облаке») — тупиковый путь; нужно искать нативные форматы для ИИ .

⚖️ Проблема правдоподобия: бар в полдень и ошибки симуляции 13:31

Одной из главных проблем исследования стала оценка качества агентов. Пак и его команда использовали концепцию «правдоподобия» (believability), своего рода расширенный тест Тьюринга . Однако они столкнулись с тем, что само определение «человечности» крайне субъективно.

В качестве примера Пак приводит случай, когда критики назвали поведение агента «неправдоподобным», потому что тот отправился в бар в 12 часов дня . На это другие люди возразили, что для них это вполне нормальное поведение. По мнению спикера, сложность человеческого поведения в том, что оно непредсказуемо и часто вызывает удивление даже у близких людей .

Следующим шагом Пак считает переход от простого «правдоподобия» к «точности» (accuracy). Это означает, что поведение агентов должно соответствовать статистическому распределению действий реальных людей в аналогичных ситуациях .

🎓 ИИ как «аспирант»: новая парадигма взаимодействия 21:51

Мартин Касадо делится своим «ага-моментом» в программировании с использованием моделей. Он обнаружил, что если допустить синтаксическую ошибку в коде при вызове API языковой модели, та не просто выдает ошибку, а начинает комментировать его код и предлагать исправления .

С этого момента Касадо пересмотрел свое отношение к LLM:

Он перестал воспринимать ИИ как классический API или конечный автомат .
В разговоре с профессором из Мичигана родилась аналогия: ИИ — это «аспирант». Он умен, понимает естественный язык, решает сложные задачи, и с ним не нужно общаться на формальных языках программирования .
Касадо утверждает, что написание JavaScript-кода поверх «суперразумных» моделей скоро станет восприниматься как странный ритуал прошлого .

🏛️ Будущее: банки, социальные науки и «освобождение ИИ» 26:26

Джун Пак видит огромный потенциал симуляций вне игровой индустрии. Он уже консультирует такие организации, как Банк Англии (Bank of England), которым нужны инструменты для тестирования экономических политик перед их реальным запуском .

Области применения точных симуляций по мнению спикеров:

Проверка социально-экономических теорий .
Прогнозирование реакции сообществ на новые законы или кризисы (например, симуляция отношения к вакцинации во время пандемии, которую Пак уже успешно проводил на GPT-3) .
Инструмент для антропологов и социологов, стремящихся понять «кто мы такие» через цифровое зеркало .

В вопросах этики и регулирования позиции участников разошлись. Пак выступает за осторожный подход: пользователи всегда должны знать, что общаются с агентом, а не с человеком . Он опасается, что ошибки в регулировании, допущенные в эпоху соцсетей, могут повториться и с ИИ .

Мартин Касадо занял более радикальную позицию. По его убеждению, регуляторная машина, сформировавшаяся за последние 20 лет, сегодня ищет новую жертву и ошибочно нацелилась на ИИ . Касадо заявляет, что наш моральный и этический долг — «защищать и освобождать ИИ» от избыточных ограничений, которые могут задушить технологию в зародыше . Он призывает «регулировать регуляторов», а не саму технологию .

❓ Вопросы и ответы: сотрудничество агентов и контекстное окно 34:41

Отвечая на вопросы аудитории, Джун Пак разделил задачи для агентов на два типа:

Задачи с «жесткими краями» (hard-edge): Там, где есть четкий ответ «да» или «нет» (например, заказ пиццы или классификация текста) .
Задачи с «мягкими краями» (soft-edge): Подобные рисованию портрета или созданию атмосферы города. Здесь небольшие ошибки прощаются пользователями и даже делают симуляцию интереснее .

Пак полагает, что в ближайшие годы наибольший прогресс будет именно в задачах с «мягкими краями», так как пользователи не готовы терпеть ошибки агента, если тот случайно закажет пиццу с ананасами (высокие ставки в бытовых задачах) .

Относительно технического развития контекстных окон (уже достигающих 1 миллиона токенов), Пак выразил скептицизм . Он считает, что для эффективного агента важнее не объем оперативной памяти, а качественная система извлечения (retrieval) . Человеку не нужно вспоминать все 30 лет своей жизни, чтобы решить, что съесть на завтрак; достаточно извлечь только релевантный контекст за последние дни. Большие контекстные окна часто «запутывают» модели и делают их работу дорогой и неэффективной .