# Шерри Янг: «Видео — это универсальный接口 для мышления ИИ»

Источник: https://www.youtube.com/watch?v=NGNT9fW3Wig
Канал: The TWIML AI Podcast
Опубликовано: 18.03.2024

---

В очередном выпуске подкаста *The TWIML AI Podcast* ведущий Сэм Чаррингтон беседует с Шерри Янг (Sherry Yang), старшим исследователем из Google DeepMind и докторантом Калифорнийского университета в Беркли. В центре обсуждения — её революционная научная работа «Видео как новый язык для принятия решений в реальном мире» (Video as the new language for real world decisionmaking), постулирующая, что генерация видео способна стать универсальным интерфейсом для ИИ-мышления. Исследовательница утверждает, что видеомодели вскоре переживут свой «момент ChatGPT», превратившись из инструментов индустрии развлечений в полноценные симуляторы физического мира, способные обучаться автономно и управлять роботами.

## 🎬 От обучения с подкреплением к симуляции реальности
[[JUMP:1:34]]

Шерри Янг начала свой путь в науке об искусственном интеллекте с систем обучения с подкреплением (Reinforcement Learning). Она напоминает, что именно эта технология в 2016 году обеспечила триумф алгоритма AlphaGo над человеком в игре го. Однако, как отмечает исследовательница, после исторической победы AlphaGo ожидавшегося прорыва в сфере сильного ИИ (AGI) для реального мира так и не произошло. 

Причина этого застоя кроется в фундаментальном ограничении: AlphaGo опирался на идеальный встроенный симулятор, где правила игры и траектории будущего абсолютно детерминированы. В реальном же мире — например, в робототехнике — таких точных симуляторов не существует. Математические модели, созданные инженерами, слишком сильно отличаются от того, как робот и его окружение выглядят на практике. Возникает так называемый разрыв между симуляцией и реальностью (sim-to-real gap), из-за которого алгоритмы, идеально работающие в виртуальной среде, полностью отказывают на реальных физических объектах.

По мнению Шерри Янг, появление масштабных интернет-видеомоделей полностью меняет правила игры. Обладая доступом к терабайтам видеозаписей человеческой деятельности, нейросети могут обучаться выполнять роль реалистичных симуляторов самой жизни. Любые решения и стратегии, найденные ИИ внутри такой гиперреалистичной видеосимуляции, могут быть напрямую перенесены в физический мир, что потенциально открывает путь к достижению сверхчеловеческой эффективности в робототехнике.

## 🧠 Видео как универсальный интерфейс ИИ-мышления
[[JUMP:3:18]]

Главный тезис исследовательской работы Шерри Янг заключается в том, что видео представляет собой единый формат данных для консолидации абсолютно любой информации. 

Проводя аналогию с большими языковыми моделями (LLM), исследовательница объясняет секрет их успеха:

* **Единый формат:** Текст объединяет в себе всё — статьи из Википедии, программный код, математические формулы и художественную литературу.
* **Универсальный интерфейс задач:** Любая проблема (будь то перевод, суммаризация текста или решение уравнений) сводится к одной задаче — генерации следующего слова.

Благодаря этому разработчики могут загружать в единую архитектуру колоссальные массивы данных из интернета, получая на выходе универсальный интеллект. 

До недавнего времени этот принцип не был очевиден специалистам по генерации видео. По словам Шерри Янг, такие проекты, как Pika, Stable Diffusion или Runway, рассматривались индустрией преимущественно как инструменты развлечения для создания забавных роликов, например, с бегущей по улице пандой. Однако еще в сентябре 2022 года объединенная группа ученых из Google DeepMind, Беркли и MIT начала исследовать фундаментальный потенциал видеомоделей для решения прикладных задач.

Текст способен описать событие лишь на высоком уровне абстракции (например: «машина едет по улице»). Видео же по своей природе содержит колоссальный объем скрытой низкоуровневой информации. В пикселях неявно зашифрованы законы физики: трение, крутящий момент, геометрия объектов, расстояния и ориентация в пространстве. Именно поэтому человеку гораздо проще посмотреть минутное видео на YouTube, чтобы понять, как почистить ананас или поменять колесо у машины, чем читать пошаговое текстовое руководство.


Шерри Янг считает, что генерация видео должна стать универсальным интерфейсом для ИИ-систем, выполняющих планирование, физическое моделирование (включая гидродинамику и движение облаков) и управление роботами.

## 🛑 Технические барьеры на пути к «моменту ChatGPT»
[[JUMP:6:24]]

Перенос успехов текстовых LLM на видеомодели сталкивается с рядом серьезных вызовов, среди которых Шерри Янг выделяет три ключевых:

### 1. Покрытие данных (Data Coverage)
Любые слова, которые мы произносим в повседневной речи, гарантированно присутствуют в интернет-текстах. Но с видео это не так. К примеру, интерьер спальни, в которой сейчас находится Шерри Янг, уникален и отсутствует в обучающей выборке. Генерация видео по произвольному первому кадру — задача принципиально более сложная, чем продолжение текстового предложения.

### 2. Дефицит качественной разметки
В тексте каждое последующее слово естественным образом служит меткой и супервизией для предыдущих слов. В видео простая задача предсказания следующего кадра (infilling или frame interpolation) помогает нейросети выучить хорошие репрезентации, но, как подчеркивает гость, до сих пор не вполне ясно, как эффективно применять эти репрезентации в конечных прикладных задачах. Для управления роботами требуется управляемая (conditional) генерация видео по текстовой или физической команде (например, «сделай шаг вперед»), а найти в открытом доступе миллиарды видео с точными физическими логами движений крайне трудно. YouTube-субтитры фиксируют лишь речь, но не описывают динамику сцены.

### 3. Архитектурный хаос
В сфере NLP научное сообщество быстро сошлось на архитектуре авторегрессионных трансформеров. В области видео генерация остается крайне гетерогенной: одновременно развиваются диффузионные, маскированные и авторегрессионные модели. Единый технологический стандарт отсутствует, хотя в последнее время наметился определенный консенсус: высокоуровневая семантика токенизируется авторегрессионными методами, а диффузионные модели превращают эти токены в финальные высокоразрешенные пиксели.

## 🤖 Архитектура ИИ: Агенты и модели мира
[[JUMP:18:55]]

Шерри Янг рассматривает проблему ИИ сквозь призму классического последовательного принятия решений. Система должна состоять из двух фундаментальных компонентов:

* **Агент (Agent):** Сущность, принимающая решения и выбирающая действия на основе заданной стратегии (политики). В этой роли сегодня доминируют большие языковые модели.
* **Модель мира / Среда (World Model / Environment):** Система, которая принимает действие агента и симулирует, что произойдет дальше, возвращая обратную связь. В этой роли должны выступать видеомодели.

> **Мнение эксперта:** «Когда у нас есть агент, взаимодействующий со средой, и они непрерывно обучаются и самосовершенствуются в этом цикле — именно так мы получаем сверхчеловеческую эффективность (superhuman performance)», — утверждает Шерри Янг. Без такой модели мира ИИ ограничен лишь тем уровнем демонстрации, который заложен в статичном обучающем датасете.

Такой мультимодальный подход требует создания аналогов ИИ-инструментов (tools), привычных для текстовых LLM. Например, видеомодели должны поддерживать механизмы извлечения информации, схожие с RAG (Retrieval-Augmented Generation). Шерри Янг приводит пример: если ИИ сгенерировал видео, где человек кладет фрукт в ящик стола и закрывает его, то при генерации видео открытия этого же ящика через 5 часов модель обязана «вспомнить» и отобразить этот фрукт. Хранить пятичасовую историю в контекстном окне видеомодели вычислительно невозможно, поэтому необходима внешняя база данных состояний.

Другим направлением является гибридное моделирование физики. Гость описывает сценарий, в котором видеомодель симулирует бросок мяча: в момент отрыва мяча от руки нейросеть может вызывать внешний физический движок для точного расчета параболы полета и использовать эти параметры для генерации последующих кадров. Это мостик между классической графикой (подход «снизу вверх» на основе формул) и глубоким обучением (подход «сверху вниз» на основе интернет-данных). На текущий момент текстовое управление видео симуляциями страдает от нехватки точности: невозможно текстом попросить модель «заставь этого человека бежать ровно в 1.36 раза быстрее».

## 🚀 Эпоха Sora и академический ответ в лице UniSim
[[JUMP:27:24]]

Обсуждая появление модели Sora от OpenAI, Шерри Янг делится интересным инсайдом: её теоретическая статья о видео как интерфейсе принятия решений была написана и отправлена на Archive еще до публичного релиза Sora. Задержки в публикации привели к тому, что в тексте работы Sora не упоминается, однако индустрия и академия двигались к одной точке с разных сторон. OpenAI стремились создать гиперреалистичную генеративную модель для медиа-индустрии, в то время как ученые искали инструмент для обучения роботов. Тем не менее, обе стороны пришли к общему выводу: генеративные видеомодели — это симуляторы физического мира.

В октябре предыдущего года команда Шерри Янг опубликовала работу под названием UniSim (Learning Interactive Real-World Simulators). Проект UniSim построен на тех же концептуальных рельсах, что и Sora, но сфокусирован на прикладном применении — использовании сгенерированных видеопотоков для прямого обучения политик управления роботами (robot policies).

## 🧩 Логические цепочки в пиксельном пространстве
[[JUMP:30:01]]

Понятие «Chain of Thought» (цепочка рассуждений), ставшее стандартом для текстовых LLM, применимо и к видео, считает Шерри Янг. Примером визуального мышления может служить решение геометрических задач: для доказательства теоремы ИИ должен буквально нарисовать на картинке правильную вспомогательную линию. Описывать этот процесс текстом («проведем линию между точками А и Б») гораздо менее эффективно, чем мыслить визуальными образами и оценивать получившиеся углы на пиксельном уровне.

Другим примером визуального алгоритмического мышления является пространственный поиск. Когда ИИ визуализирует траектории алгоритма поиска в ширину (BFS), каждый кадр видео фактически фиксирует шаг графа, сохраняя информацию о посещенных локациях и совершенных действиях. Развертывание такого поискового пространства на видео эквивалентно тому, что видеомодель физически научилась вычислять маршруты.

Вместе с тем, исследовательница признает, что видеомодели пока не умеют полноценно самосовершенствоваться за счет обратной связи. В текстовом чате пользователь может поправить ИИ, и тот исправит логику. В видео это не работает: если модель сгенерировала кадр, где стулья летают по комнате сами по себе, она пока не способна принять замечание пользователя о том, что это противоречит законам физики, и на лету перерисовать видеоряд с учетом ограничений реального мира.

## 🖥️ Интерактивный тест-драйв: симулятор реальности в действии
[[JUMP:44:31]]

В финальной части беседы Шерри Янг демонстрирует работу своей интерактивной модели мира UniSim. В отличие от обычного генератора видео, где пользователь задает статичный текстовый промпт и получает готовый ролик, UniSim функционирует как полноценная компьютерная игра с непрерывным откликом на действия.

В рамках демонстрации были показаны четыре интерактивных сценария:

### Сценарий 1: Настенные выключатели
На экране отображается первый статичный кадр — панель с тремя выключателями на стене. Ведущий Сэм Чаррингтон выбирает действие: «нажать средний выключатель». Модель мгновенно генерирует видеоряд: в кадре появляется человеческая рука и переводит тумблер. Затем ведущий выбирает альтернативное действие: «подключить кабель» — и на базе того же стартового кадра модель генерирует совершенно другую траекторию с подключением провода. При выборе команды «нажать ручкой» модель послушно рендерит в руке человека канцелярскую ручку. 

Камера на видео совершает хаотичные микродвижения. Шерри Янг объясняет это спецификой датасета: нейросеть обучалась на записях от первого лица (egocentric video), снятых людьми с помощью экшн-камер GoPro на голове. Все ролики генерируются «на лету» из шума, никакого наложения объектов (superimposing) на статичную картинку не происходит.

### Сценарий 2: Бытовая навигация и манипуляции
Модель без швов объединяет задачи перемещения в пространстве и взаимодействия с предметами. В одном ролике человек сначала подходит к раковине и моет руки, а следующим текстовым шагом ИИ заставляют выключить воду, повернуться налево и выйти из кухни в коридор, динамически дорисовывая меняющуюся обстановку дома.

### Сценарий 3: Салфетка-невидимка
На столе лежит сложенная тканевая салфетка. Пользователю предлагается написать в текстовом поле название любого предмета, который должен оказаться под ней. Сэм Чаррингтон выбирает бутылку (отказавшись от пугающего варианта с пауком). Рука в кадре поднимает салфетку, и под ней обнаруживается физически корректно сгенерированная бутылка, с которой затем можно продолжить интерактивное взаимодействие. База визуальных знаний модели безгранична благодаря обучению на миллиардах картинок из интернета: под салфеткой можно материализовать зубную пасту, тарелку или тюбик крема.

### Сценарий 4: Виртуальный туризм
Модель UniSim способна генерировать интерактивные полеты на основе одной фотографии мировых достопримечательностей. В демо-версии были показаны Сикстинская капелла и мост Золотые Ворота в Сан-Франциско. Пользователь может в реальном времени управлять направлением полета камеры, приближать или отдалять объекты, заставляя нейросеть дорисовывать скрытые углы архитектурных сооружений.

По мнению Шерри Янг, в будущем подобные технологии трансформируются в «ультимативную дополненную реальность». Главное требование к полноценной модели мира — способность сохранять долгосрочную память о предыдущих манипуляциях и позволять пользователю или роботу взаимодействовать со средой бесконечное число раз.