Перси Лян о будущем ИИ: «Нам нужны новые типы приложений, а не просто более быстрые лошади»

Greylock 17,5 тыс. 29 мин 5 мин 21.09.2022
Главное

В новом выпуске подкаста Greylock встретились два признанных эксперта в области искусственного интеллекта: Дэвид Луан (David Luan), CEO и сооснователь компании Adept, и Перси Лян (Percy Liang), профессор Стэнфордского университета и директор Центра исследований фундаментальных моделей (CRFM). Они обсудили текущую стадию развития больших языковых моделей (LLM), проблему дефицита данных для обучения и видение пути к универсальному искусственному интеллекту (AGI), который станет полноценным напарником человека.

🚀 Текущее состояние индустрии: больше, чем просто языковые модели 1:01

Несмотря на громкие успехи технологий вроде DALL-E и GPT, Дэвид Луан считает, что мы находимся лишь в самом начале пути и до сих пор недооцениваем потенциал этой сферы . По его мнению, развитие идет по двум основным осям:

  1. Замена классического ML: В Google Луан заметил, что огромные универсальные модели способны заменить множество узкоспециализированных систем, которые инженеры годами настраивали вручную. Достаточно взять базовую модель, добавить немного данных для тонкой настройки (fine-tuning) и получить результат, превосходящий все старые разработки .
  2. Мультимодальность: Мы привыкли говорить о тексте, но человеческие знания закодированы во множестве форматов. По прогнозу Луана, в будущем фундаментальные модели будут предсказывать не только следующий токен текста, но и любые другие типы данных, становясь хранилищами всего опыта человечества .

Перси Лян подчеркивает, что индустрия должна выйти за рамки парадигмы «улучшения существующих процессов». По его мнению, сейчас важно не просто делать «лошадей быстрее» (автоматизировать старые задачи), а создавать принципиально новые типы приложений, которые стали возможны благодаря способности моделей обучаться «с нуля» (zero-shot) через промпты .

🎨 Творчество и действие: новые сценарии использования 3:54

Обсуждая новые сферы применения ИИ, Перси Лян выделяет категорию «Создание» (Creation). Это касается не только текста или кода, но и белков, видео и презентаций . Ключевой технологический вызов здесь — работа с длинным контекстом. Современные модели ограничены несколькими тысячами токенов, но для создания полноценных фильмов потребуются системы, способные удерживать структуру на протяжении сотен тысяч кадров .

Дэвид Луан, в свою очередь, делает ставку на актуацию (actuation) — способность ИИ совершать действия .

Луан сравнивает ИИ не с заменой музыканта, а с появлением синтезатора: это инструмент, который повышает уровень абстракции, позволяя человеку творить быстрее и сложнее, не заменяя его самого .

🧪 Барьеры на пути к прогрессу: данные и надежность 6:19

Перси Лян отмечает, что для превращения ИИ из «чат-бота» (chatterbot) в надежный инструмент нужны глубокие фундаментальные исследования. Архитектура Transformer, по его мнению, довела нас далеко, но для работы с видео или сверхдлинными последовательностями может потребоваться нечто принципиально иное .

Дэвид Луан выдвигает тезис о скором дефиците данных. По его оценке, в ближайшие пару лет все ведущие разработчики исчерпают качественные запасы текстов из интернета (web crawl), и качество моделей у всех игроков выровняется . Для дальнейшего рывка понадобятся:

🏗️ Стратегия для основателей: API или собственная модель? 13:58

Один из главных вопросов для стартапов сегодня — строить ли продукт на базе чужого API (например, OpenAI) или обучать свою модель. Дэвид Луан советует сначала определить «петлю накопления» (compounding loop) компании .

Перси Лян добавляет, что API идеально подходят для быстрого прототипирования. Можно за один день проверить гипотезу, используя метод Wizard of Oz (когда за ИИ в интерфейсе стоит человек), а затем заменить это на API и постепенно переходить к собственной специализированной и менее массивной модели (например, T5) .

🛡️ Безопасность, галлюцинации и «отравление» данных 18:55

Оба эксперта признают, что современные модели — это «двигатели галлюцинаций» . Луан считает неэффективным пытаться запихнуть все факты мира в параметры модели, так как факты постоянно меняются (например, кто является президентом страны в данный момент). Будущее за поисковой аугментацией (retrieval augmentation), когда модель обращается к внешним базам знаний .

Перси Лян выделяет дополнительные риски:

🔮 Взгляд в будущее: роботы и генерация миров 27:04

В финале дискуссии участники поделились своими ожиданиями от технологий ближайших лет. Дэвид Луан крайне заинтересован в создании фундаментальных моделей для робототехники. Он мечтает о системе, которая соберет все траектории движений роботов в реальном мире и даст им такую же универсальность, какую LLM дали тексту .

Перси Лян идет еще дальше и предсказывает переход от генерации отдельных картинок к генерации целых миров и иммерсивных пространств . Он считает ИИ «создателем крупных объектов», который вскоре сможет генерировать 3D-сцены и виртуальные среды с населяющими их персонажами, что откроет невероятные возможности для творчества и новых типов приложений .

💬 Цитаты

«Мы все еще недооцениваем, какой огромный путь нам осталось пройти в развитии этих технологий.»

Дэвид Луан 01:13

«Мы должны искать не способы сделать лошадей или машины быстрее, а создавать новые типы приложений.»

Перси Лян 03:16

«Эти модели обожают быть массивными двигателями галлюцинаций.»

Дэвид Луан 18:07
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Фундаментальные модели (Foundation Models)
Масштабные нейросети, обученные на огромных массивах данных, которые можно адаптировать под широкий спектр различных задач.
Актуация (Actuation)
Способность ИИ-системы совершать физические или цифровые действия в интерфейсах, а не просто генерировать контент.
Zero-shot learning
Способность модели выполнять задачу, для которой она не была специально обучена, без дополнительных примеров.
Data Poisoning
Метод атаки на ИИ, при котором в обучающую выборку намеренно вносятся вредоносные данные для искажения работы модели.
Retrieval Augmented Generation (RAG)
Метод улучшения ответов ИИ путем обращения к внешним, актуальным источникам информации вместо опоры только на веса модели.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Adept David Luan Percy Liang Foundation Models AGI