# Перси Лян о будущем ИИ: «Нам нужны новые типы приложений, а не просто более быстрые лошади»

Источник: https://www.youtube.com/watch?v=_ydBm3tADvA
Канал: Greylock
Опубликовано: 21.09.2022

---

В новом выпуске подкаста Greylock встретились два признанных эксперта в области искусственного интеллекта: **Дэвид Луан (David Luan)**, CEO и сооснователь компании Adept, и **Перси Лян (Percy Liang)**, профессор Стэнфордского университета и директор Центра исследований фундаментальных моделей (CRFM). Они обсудили текущую стадию развития больших языковых моделей (LLM), проблему дефицита данных для обучения и видение пути к универсальному искусственному интеллекту (AGI), который станет полноценным напарником человека.

## 🚀 Текущее состояние индустрии: больше, чем просто языковые модели
[[JUMP:01:01]]

Несмотря на громкие успехи технологий вроде DALL-E и GPT, Дэвид Луан считает, что мы находимся лишь в самом начале пути и до сих пор недооцениваем потенциал этой сферы [01:13]. По его мнению, развитие идет по двум основным осям:

1.  **Замена классического ML:** В Google Луан заметил, что огромные универсальные модели способны заменить множество узкоспециализированных систем, которые инженеры годами настраивали вручную. Достаточно взять базовую модель, добавить немного данных для тонкой настройки (fine-tuning) и получить результат, превосходящий все старые разработки [01:40].
2.  **Мультимодальность:** Мы привыкли говорить о тексте, но человеческие знания закодированы во множестве форматов. По прогнозу Луана, в будущем фундаментальные модели будут предсказывать не только следующий токен текста, но и любые другие типы данных, становясь хранилищами всего опыта человечества [02:21].

Перси Лян подчеркивает, что индустрия должна выйти за рамки парадигмы «улучшения существующих процессов». По его мнению, сейчас важно не просто делать «лошадей быстрее» (автоматизировать старые задачи), а создавать принципиально новые типы приложений, которые стали возможны благодаря способности моделей обучаться «с нуля» (zero-shot) через промпты [03:02].

## 🎨 Творчество и действие: новые сценарии использования
[[JUMP:03:54]]

Обсуждая новые сферы применения ИИ, Перси Лян выделяет категорию «Создание» (Creation). Это касается не только текста или кода, но и белков, видео и презентаций [03:54]. Ключевой технологический вызов здесь — работа с длинным контекстом. Современные модели ограничены несколькими тысячами токенов, но для создания полноценных фильмов потребуются системы, способные удерживать структуру на протяжении сотен тысяч кадров [04:47].

Дэвид Луан, в свою очередь, делает ставку на **актуацию (actuation)** — способность ИИ совершать действия [05:27].

*   **Проблема:** Современные генеративные модели лишь «притворяются», что выполняют задачи, потому что у них нет прямого понимания того, как устроены интерфейсы компьютеров.
*   **Решение Adept:** Компания работает над обучением фундаментальной модели действий человека за компьютером. Цель — превратить естественный язык в цепочку действий любой сложности внутри программного обеспечения [05:52].

Луан сравнивает ИИ не с заменой музыканта, а с появлением синтезатора: это инструмент, который повышает уровень абстракции, позволяя человеку творить быстрее и сложнее, не заменяя его самого [09:49].

## 🧪 Барьеры на пути к прогрессу: данные и надежность
[[JUMP:06:19]]

Перси Лян отмечает, что для превращения ИИ из «чат-бота» (chatterbot) в надежный инструмент нужны глубокие фундаментальные исследования. Архитектура Transformer, по его мнению, довела нас далеко, но для работы с видео или сверхдлинными последовательностями может потребоваться нечто принципиально иное [06:46].

Дэвид Луан выдвигает тезис о скором **дефиците данных**. По его оценке, в ближайшие пару лет все ведущие разработчики исчерпают качественные запасы текстов из интернета (web crawl), и качество моделей у всех игроков выровняется [08:19]. Для дальнейшего рывка понадобятся:

*   **Новые источники знаний:** Модели должны научиться сами добывать информацию и экспериментировать, а не просто копировать распределение данных из обучающей выборки [08:56].
*   **Маховик данных (Data Flywheel):** В Adept проектируют интерфейсы так, чтобы ИИ учился на том, как люди разбивают сложные задачи на этапы. Это позволяет собирать уникальные данные, которых нет в открытом доступе [10:15].

## 🏗️ Стратегия для основателей: API или собственная модель?
[[JUMP:13:58]]

Один из главных вопросов для стартапов сегодня — строить ли продукт на базе чужого API (например, OpenAI) или обучать свою модель. Дэвид Луан советует сначала определить «петлю накопления» (compounding loop) компании [14:10].

*   **Риск посредника:** Луан предостерегает от того, чтобы становиться просто внешней оболочкой для сбора данных, которую со временем поглотит «версия Amazon Basics» от крупных игроков [14:36].
*   **Вопрос надежности:** Если продукту требуется «много девяток» (99.999% надежности), работа через посредника может быть невозможна из-за отсутствия прямого контроля над параметрами модели [15:02].

Перси Лян добавляет, что API идеально подходят для быстрого прототипирования. Можно за один день проверить гипотезу, используя метод Wizard of Oz (когда за ИИ в интерфейсе стоит человек), а затем заменить это на API и постепенно переходить к собственной специализированной и менее массивной модели (например, T5) [15:28].

## 🛡️ Безопасность, галлюцинации и «отравление» данных
[[JUMP:18:55]]

Оба эксперта признают, что современные модели — это «двигатели галлюцинаций» [18:07]. Луан считает неэффективным пытаться запихнуть все факты мира в параметры модели, так как факты постоянно меняются (например, кто является президентом страны в данный момент). Будущее за поисковой аугментацией (retrieval augmentation), когда модель обращается к внешним базам знаний [18:31].

Перси Лян выделяет дополнительные риски:

*   **Неоднозначность истины:** Часто ИИ сталкивается не с фактами, а с мнениями, которые невозможно проверить на ложность [20:14].
*   **Отравление данных (Data Poisoning):** Поскольку модели обучаются на всем интернете, злоумышленники могут намеренно размещать на GitHub или сайтах вредоносный контент, чтобы исказить поведение будущих ИИ-систем. Это огромная «дыра» в безопасности, которую трудно закрыть [23:32].
*   **Асимметрия атаки и защиты:** Луан подчеркивает, что с помощью ИИ атаковать системы (например, через агентов на базе обучения с подкреплением) гораздо легче, чем защищать их [24:38].

## 🔮 Взгляд в будущее: роботы и генерация миров
[[JUMP:27:04]]

В финале дискуссии участники поделились своими ожиданиями от технологий ближайших лет. Дэвид Луан крайне заинтересован в создании **фундаментальных моделей для робототехники**. Он мечтает о системе, которая соберет все траектории движений роботов в реальном мире и даст им такую же универсальность, какую LLM дали тексту [27:53].

Перси Лян идет еще дальше и предсказывает переход от генерации отдельных картинок к **генерации целых миров и иммерсивных пространств** [29:00]. Он считает ИИ «создателем крупных объектов», который вскоре сможет генерировать 3D-сцены и виртуальные среды с населяющими их персонажами, что откроет невероятные возможности для творчества и новых типов приложений [29:28].