Перси Лян о будущем ИИ: «Нам нужны новые типы приложений, а не просто более быстрые лошади»

В новом выпуске подкаста Greylock встретились два признанных эксперта в области искусственного интеллекта: Дэвид Луан (David Luan), CEO и сооснователь компании Adept, и Перси Лян (Percy Liang), профессор Стэнфордского университета и директор Центра исследований фундаментальных моделей (CRFM). Они обсудили текущую стадию развития больших языковых моделей (LLM), проблему дефицита данных для обучения и видение пути к универсальному искусственному интеллекту (AGI), который станет полноценным напарником человека.

🚀 Текущее состояние индустрии: больше, чем просто языковые модели 1:01

Несмотря на громкие успехи технологий вроде DALL-E и GPT, Дэвид Луан считает, что мы находимся лишь в самом начале пути и до сих пор недооцениваем потенциал этой сферы . По его мнению, развитие идет по двум основным осям:

Замена классического ML: В Google Луан заметил, что огромные универсальные модели способны заменить множество узкоспециализированных систем, которые инженеры годами настраивали вручную. Достаточно взять базовую модель, добавить немного данных для тонкой настройки (fine-tuning) и получить результат, превосходящий все старые разработки .
Мультимодальность: Мы привыкли говорить о тексте, но человеческие знания закодированы во множестве форматов. По прогнозу Луана, в будущем фундаментальные модели будут предсказывать не только следующий токен текста, но и любые другие типы данных, становясь хранилищами всего опыта человечества .

Перси Лян подчеркивает, что индустрия должна выйти за рамки парадигмы «улучшения существующих процессов». По его мнению, сейчас важно не просто делать «лошадей быстрее» (автоматизировать старые задачи), а создавать принципиально новые типы приложений, которые стали возможны благодаря способности моделей обучаться «с нуля» (zero-shot) через промпты .

🎨 Творчество и действие: новые сценарии использования 3:54

Обсуждая новые сферы применения ИИ, Перси Лян выделяет категорию «Создание» (Creation). Это касается не только текста или кода, но и белков, видео и презентаций . Ключевой технологический вызов здесь — работа с длинным контекстом. Современные модели ограничены несколькими тысячами токенов, но для создания полноценных фильмов потребуются системы, способные удерживать структуру на протяжении сотен тысяч кадров .

Дэвид Луан, в свою очередь, делает ставку на актуацию (actuation) — способность ИИ совершать действия .

Проблема: Современные генеративные модели лишь «притворяются», что выполняют задачи, потому что у них нет прямого понимания того, как устроены интерфейсы компьютеров.
Решение Adept: Компания работает над обучением фундаментальной модели действий человека за компьютером. Цель — превратить естественный язык в цепочку действий любой сложности внутри программного обеспечения .

Луан сравнивает ИИ не с заменой музыканта, а с появлением синтезатора: это инструмент, который повышает уровень абстракции, позволяя человеку творить быстрее и сложнее, не заменяя его самого .

🧪 Барьеры на пути к прогрессу: данные и надежность 6:19

Перси Лян отмечает, что для превращения ИИ из «чат-бота» (chatterbot) в надежный инструмент нужны глубокие фундаментальные исследования. Архитектура Transformer, по его мнению, довела нас далеко, но для работы с видео или сверхдлинными последовательностями может потребоваться нечто принципиально иное .

Дэвид Луан выдвигает тезис о скором дефиците данных. По его оценке, в ближайшие пару лет все ведущие разработчики исчерпают качественные запасы текстов из интернета (web crawl), и качество моделей у всех игроков выровняется . Для дальнейшего рывка понадобятся:

Новые источники знаний: Модели должны научиться сами добывать информацию и экспериментировать, а не просто копировать распределение данных из обучающей выборки .
Маховик данных (Data Flywheel): В Adept проектируют интерфейсы так, чтобы ИИ учился на том, как люди разбивают сложные задачи на этапы. Это позволяет собирать уникальные данные, которых нет в открытом доступе .

🏗️ Стратегия для основателей: API или собственная модель? 13:58

Один из главных вопросов для стартапов сегодня — строить ли продукт на базе чужого API (например, OpenAI) или обучать свою модель. Дэвид Луан советует сначала определить «петлю накопления» (compounding loop) компании .

Риск посредника: Луан предостерегает от того, чтобы становиться просто внешней оболочкой для сбора данных, которую со временем поглотит «версия Amazon Basics» от крупных игроков .
Вопрос надежности: Если продукту требуется «много девяток» (99.999% надежности), работа через посредника может быть невозможна из-за отсутствия прямого контроля над параметрами модели .

Перси Лян добавляет, что API идеально подходят для быстрого прототипирования. Можно за один день проверить гипотезу, используя метод Wizard of Oz (когда за ИИ в интерфейсе стоит человек), а затем заменить это на API и постепенно переходить к собственной специализированной и менее массивной модели (например, T5) .

🛡️ Безопасность, галлюцинации и «отравление» данных 18:55

Оба эксперта признают, что современные модели — это «двигатели галлюцинаций» . Луан считает неэффективным пытаться запихнуть все факты мира в параметры модели, так как факты постоянно меняются (например, кто является президентом страны в данный момент). Будущее за поисковой аугментацией (retrieval augmentation), когда модель обращается к внешним базам знаний .

Перси Лян выделяет дополнительные риски:

Неоднозначность истины: Часто ИИ сталкивается не с фактами, а с мнениями, которые невозможно проверить на ложность .
Отравление данных (Data Poisoning): Поскольку модели обучаются на всем интернете, злоумышленники могут намеренно размещать на GitHub или сайтах вредоносный контент, чтобы исказить поведение будущих ИИ-систем. Это огромная «дыра» в безопасности, которую трудно закрыть .
Асимметрия атаки и защиты: Луан подчеркивает, что с помощью ИИ атаковать системы (например, через агентов на базе обучения с подкреплением) гораздо легче, чем защищать их .

🔮 Взгляд в будущее: роботы и генерация миров 27:04

В финале дискуссии участники поделились своими ожиданиями от технологий ближайших лет. Дэвид Луан крайне заинтересован в создании фундаментальных моделей для робототехники. Он мечтает о системе, которая соберет все траектории движений роботов в реальном мире и даст им такую же универсальность, какую LLM дали тексту .

Перси Лян идет еще дальше и предсказывает переход от генерации отдельных картинок к генерации целых миров и иммерсивных пространств . Он считает ИИ «создателем крупных объектов», который вскоре сможет генерировать 3D-сцены и виртуальные среды с населяющими их персонажами, что откроет невероятные возможности для творчества и новых типов приложений .