Тяньминь Шу: «Мировые модели учат ИИ понимать законы физики»

Новая эра искусственного интеллекта: Как мировые модели меняют правила игры 0:32

Современный искусственный интеллект стремительно эволюционирует от простых чат-ботов к интеллектуальным агентам, способным взаимодействовать с физическим миром. В недавнем выпуске подкаста «Eye on AI» ведущий Крейг Смит обсудил эту трансформацию с Тяньминем Шу, исследователем ИИ, который вскоре возглавит направление в Университете Джонса Хопкинса. Центральной темой беседы стали «мировые модели» (world models) — архитектуры, позволяющие ИИ симулировать физическую реальность, прогнозировать последствия своих действий и обучаться подобно человеку.

🧠 Истоки концепции: От психологии к программному коду 5:08

По мнению Тяньминя Шу, концепция мировых моделей уходит корнями в когнитивную психологию и теорию развития. Еще в работах профессора Гарварда Лиз Спелке описывалась идея «базовых знаний» (core knowledge), которыми люди обладают с раннего детства.

Физический здравый смысл: Люди с рождения понимают базовые законы физики: объекты не исчезают (постоянство объекта) и нуждаются в опоре, чтобы не упасть.
Интуитивный физический движок: Исследования постдокторского советника Шу, Джоша Тененбаума, показывают, что в нашем сознании функционирует своего рода «внутренний физический движок». Он позволяет нам симулировать развитие событий, подобно тому как это делает движок видеоигры.

В техническом плане, как объясняет Шу, эти модели можно реализовать с помощью вероятностных программ (probabilistic programs). Они описывают генеративный процесс, где после применения определенной силы (действия) система выдает прогноз состояния объектов в будущем. Это позволяет ИИ не просто «угадывать» следующий токен в тексте, а проводить вероятностный вывод и планировать действия в условиях неопределенности.

🤖 Архитектура LAW: Язык, агенты и модели мира 11:36

Шу представил фреймворк, который называет LAW (Language model, Agent model, World model). Суть подхода заключается в интеграции сильных сторон языковых моделей (LLM) с предиктивными возможностями мировых моделей.

Роль LLM: Языковые модели выступают в качестве «интерфейса», преобразующего текстовое описание ситуации в программный код (симуляцию). Хотя LLM сами по себе не обладают глубоким пониманием физики, они мастерски пишут код, который может описывать физические процессы.
Агентный слой: Агент — это процесс принятия решений. Он обладает «убеждениями» (распределением вероятностей о состоянии мира) и пытается максимизировать вознаграждение, минимизируя затраты, основываясь на симуляциях будущего.

В отличие от классического обучения с подкреплением (RL), которое требует бесконечных проб и ошибок в реальном мире, этот подход опирается на «планирование на основе моделей». Это похоже на работу AlphaGo: система «представляет» множество вариантов развития событий перед тем, как совершить реальное действие.

🏠 От «умного дома» к реальным роботам 29:54

На данный момент исследования Шу сфокусированы на бытовых средах. В Массачусетском технологическом институте (MIT) была создана симуляция Visual Home, где агенты обучаются взаимодействию с объектами в квартире.

Специфика данных: Для понимания того, что произойдет после нажатия кнопки на посудомоечной машине, недостаточно «прочитать» книги. Исследователи используют мультимодальные данные: визуальные сцены (представленные в виде графов сцен), аудиотесты и даже потенциальные сенсорные данные о прикосновениях.
Преодоление разрыва реальности: Многие эксперты скептичны в отношении симуляций, считая, что «разрыв» между ними и реальным миром непреодолим. Однако Шу приводит пример работы AI2 (Allen Institute for AI), где агенты, обученные только в симуляции на пиксельных данных, успешно управляли реальными роботами без дополнительного дообучения.

🔮 Прогнозы и будущее ИИ 43:43

Когда речь заходит о сроках внедрения таких агентов в реальные продукты, Шу проявляет осторожность.

Сложность манипуляции: Физическое манипулирование объектами (например, захват предметов) остается крайне сложной задачей, на решение которой могут уйти десятилетия.
Виртуальные помощники: Шу полагает, что агенты для работы с веб-интерфейсами и виртуальные ассистенты могут появиться гораздо раньше, так как они не требуют сложной физической моторики.
Социальное обучение: Важнейшим направлением исследований для Шу является «социальное обучение» — создание агентов, которые могут учиться вместе с людьми и от них, имитируя человеческие механизмы передачи знаний.

Хотя на текущий момент коммерческих продуктов, полностью реализующих этот подход, по словам Шу, еще нет, он считает развитие мировых моделей наиболее многообещающим путем к созданию по-настоящему полезных «коллег-роботов» и интеллектуальных систем, способных работать в неструктурированной среде.