В новом выпуске подкаста Machine Learning Street Talk ведущий Тим Скарфе обсуждает с Максвеллом Рамстедом и Джейсоном Фоксом фундаментальные ограничения современных языковых моделей в контексте взаимодействия с реальностью. Главный тезис беседы заключается в том, что искусственный интеллект не сможет достичь истинного понимания мира, пока он остается «заперт» в пространстве данных и лишен физического воплощения.
🧱 Проблема «пространства данных» и аллегория пещеры 0:00
По мнению Максвелла Рамстеда, современное состояние ИИ можно охарактеризовать как пребывание в «пространстве данных» (data space) . Эти системы оперируют многомерными массивами информации, извлекая корреляции, но они не имеют прямого доступа к процессам, порождающим эти данные. Гость проводит аналогию с аллегорией пещеры Платона: узники видят лишь тени на стене, отбрасываемые объектами, которые проносят мимо огня, но не видят самих объектов или солнца .
Максвелл Рамстед утверждает, что LLM (большие языковые модели) находятся даже в более плачевном эпистемологическом положении:
- Язык — это «сжатие сжатия» или репрезентация репрезентации .
- Сначала человек получает перцептивный опыт, затем формирует модель понимания этого опыта, и только потом использует язык для коммуникации этого понимания.
- Таким образом, LLM удалены от реальности как минимум на два порядка .
Джейсон Фокс добавляет, что отсутствие воплощения (embodiment) является главным препятствием для внедрения ИИ в физические системы . По его мнению, простое подключение LLM к роботу не превратит его в «физический ИИ», так как модель не обучалась через непосредственный контакт с физикой мира и не понимает пространства или манипуляций с объектами .
🧠 Воплощенное познание: почему тело — это не опция 6:35
Максвелл Рамстед объясняет концепцию «воплощенного интеллекта» (Embodied Intelligence), согласно которой разум не является чем-то, что происходит исключительно внутри мозга. По его мнению, тело и физическая среда неразрывно связаны с тем, что значит быть «мыслящей вещью» .
В когнитивной науке существует давний спор между интернализмом (познание только в голове) и экстернализмом (познание включает внешние факторы) . Максвелл Рамстед придерживается позиции, что:
- Разум отражает, кодирует и ограничен специфическим материальным воплощением системы .
- Интеллект проявляется только через поведение в мире.
- Для адекватных действий в реальности системе необходима «модель мира» — репрезентация конкретной среды и конкретного тела, действующего в ней .
Тим Скарфе отмечает, что в классическом подходе ИИ рассматривался как алгоритм, который можно запустить в «сосуде» (in silico), но современная наука все чаще признает, что смысл символов, которыми оперирует мозг или ИИ, возникает только из их связи с воплощенным опытом .
🎡 Реальность как сопротивление и паттерны Деннета 26:32
Обсуждая вопрос о том, что считать «реальным», Максвелл Рамстед предлагает феноменологическое определение: «Реальность — это то, во что вы врезаетесь» . С точки зрения активного вывода (Active Inference), реальный объект — это то, что сопротивляется вашим действиям и фрустрирует ваши ожидания, заставляя систему учиться на ошибках прогноза .
Собеседники обсуждают теорию «реальных паттернов» Дэниела Деннета:
- Реальным паттерном считается любая регулярность, которая позволяет сжимать данные и предсказывать будущее .
- Если отказ от признания паттерна ухудшает предсказательную способность, значит, этот паттерн «заслужил свое онтологическое существование» .
Тим Скарфе приводит пример игры «Жизнь» Конвея, где из простых правил возникают сложные макроскопические феномены. Однако возникает метафизический вопрос: обладают ли эти эмерджентные явления каузальной (причинной) силой? .
⛓️ Ограничения против причин: философия уровней организации 30:35
Максвелл Рамстед ссылается на работы Алисии Хуарреро (Alicia Juarrero) и Макса Кистлера, предлагая различать два типа связей между уровнями организации мира :
- Композиция: отношение «часть — целое» (например, капли воды в облаке) .
- Ограничение (Constraint): способ, которым структура более высокого уровня направляет процессы нижнего уровня (например, архитектура печатной платы ограничивает поток электронов) .
По мнению Максвелла Рамстеда, в биологии ограничения часто являются не «лимитирующими» (запрещающими движение), а «обеспечивающими» (enabling constraints) — они позволяют системе обретать новую стабильность и доступ к состояниям, которые были бы невозможны иначе . Это позволяет говорить о детерминизме, который не сводится к простому столкновению «бильярдных шаров» (эффективной причинности Аристотеля) .
🔮 Принцип свободной энергии и границы объектов 40:49
Максвелл Рамстед дает одно из наиболее доступных объяснений Принципа свободной энергии (FEP) Карла Фристона. Он предлагает рассматривать FEP как расширение второго закона термодинамики для открытых систем с границами .
- В закрытой системе (газ в баллоне) все градиенты поглощаются, наступает термодинамическое равновесие и хаос (энтропия) .
- В системе с границами (например, биологическая клетка) градиенты сохраняются. Из-за наличия границы система не может «смешаться» с окружением, поэтому она делает «второе лучшее действие» — становится статистически похожей на окружение (информационное сопряжение) .
Главный вывод Максвелла Рамстеда для ИИ: объекты в физическом мире определяются своими границами и статистикой взаимодействия на этих границах . Современное машинное обучение определяет объекты в «пространстве признаков», что полезно для воображения (например, единорогов), но недостаточно для контроля робота в реальности, где действуют жесткие физические ограничения .
🤖 Почему LLM — это не «общий» интеллект 56:04
Максвелл Рамстед делает провокационное заявление: «Общего интеллекта не существует» . По его словам, любой интеллект специфичен для конкретной ситуации и набора данных, генерируемых через «сенсорную пальпацию» мира.
Аргументы против использования LLM в качестве основы для физического ИИ:
- Отсутствие заземления: LLM привязаны к реальности только через человеческие предпочтения (RLHF), а не через собственные действия .
- Неявные репрезентации: хотя в весах модели могут быть скрытые знания о мире, они распределены по миллиардам параметров и не могут быть извлечены для построения четких планов или логического вывода .
- Отсутствие композициональности: LLM не обучаются абстрактным примитивам, которые можно легко перекомбинировать. Они скорее «запоминают» конкретные фрагменты данных .
Джейсон Фокс подчеркивает проблему эффективности: перевозка дата-центра внутри робота для запуска гигантской модели — это «нонсенс» для производственных систем. Будущее за модульными, эффективными архитектурами, работающими на периферии (edge) .
🚀 Vision Noumenal: маркетплейс моделей и активный вывод 1:10:15
Гости представляют свою компанию Noumenal, которая строит архитектуру ИИ, вдохновленную эволюцией мозга. Вместо одной монолитной модели они предлагают сеть специализированных модулей .
Ключевые особенности их подхода:
- Behavior Packs (пакеты поведения): репозиторий навыков для физических систем, которые можно загружать и комбинировать .
- Байесовский подход: система способна квантифицировать собственное незнание. Если робот сталкивается с незнакомым паттерном данных, он может «позвонить другу» — запросить подходящую модель из облачной сети .
- Активное обучение: система сама генерирует данные через исследование среды, а не просто поглощает статические наборы из интернета .
Джейсон Фокс отмечает важность преодоления разрыва между симуляцией и реальностью (sim-to-real gap). По его словам, Noumenal планирует создать нечто вроде экосистемы Docker для робототехники, обеспечивая воспроизводимость и тестирование моделей на реальном «менажерии» роботов перед их развертыванием у заказчика .
💰 Экономика данных: почему модель OpenAI может рухнуть 1:15:11
Максвелл Рамстед критикует бизнес-модель гигантов вроде OpenAI. По его мнению:
- Данные исчерпаны: все публичные данные интернета уже использованы. Новые данные могут поступать только от самих агентов, исследующих мир .
- Проблема весов: владение весами модели (model weights) перестает быть защищенным бизнес-активом из-за техник дистилляции знаний .
- Юридические риски: массовое использование авторского контента ведет к дорогостоящим искам, которые могут сделать текущую модель прибыли нежизнеспособной .
Джейсон Фокс считает, что ценность сместится к сообществам, которые коллективно собирают и размечают данные о физическом мире, поскольку создать «канонический датасет физики» силами одной компании невозможно . В будущем пользователи захотят монетизировать свои данные и модели, а не просто отдавать их корпорациям бесплатно .