Владлен Колтун: «Высший разум — это лишь надстройка над физическим телом»

В современном мире искусственного интеллекта доминируют языковые модели, однако один из ведущих исследователей в области компьютерного зрения и робототехники, Владлен Колтун (Vladlen Koltun), уверен: путь к истинному разуму лежит через физическое тело. В интервью для подкаста Eye on AI ученый, успевший поработать в Intel и Apple, объясняет, почему для создания интеллекта уровня млекопитающего нам нужны не только алгоритмы, но и роботы, способные «чувствовать» поверхность под ногами и летать сквозь густой лес.

🤖 От теории к воплощению: путь Владлена Колтуна 2:38

Владлен Колтун начал свою карьеру как чистый теоретик . Получив докторскую степень в Тель-Авивском университете и поработав в Беркли и Стэнфорде, он прошел путь трансформации от математики к компьютерной графике, а затем к машинному обучению и робототехнике .

В его исследованиях можно выделить два главных вектора:

Фотореализм и эффект присутствия. Колтун признается, что его любовь к программированию началась с компьютерной графики, которую он воспринимал как магию . На это его вдохновила не индустрия игр, а «демосцена» (demo scene) — сообщество цифровых художников, объединявших программирование, музыку и визуальное искусство в реальном времени .
Природа интеллекта. Вторая страсть ученого — понимание того, как возникает разум в физических системах .

🧠 Гипотеза воплощенного интеллекта 11:50

Основной тезис Колтуна заключается в том, что высшие формы когнитивных способностей (игра в шахматы, написание симфоний) — это лишь тонкая надстройка над мощным фундаментом физического интеллекта . По мнению ученого, эволюции потребовались сотни миллионов лет, чтобы отточить связку «восприятие — действие», тогда как переход к абстрактному мышлению произошел практически мгновенно .

Ключевые идеи этой концепции:

Замкнутый цикл. Животные воспринимают мир, чтобы действовать, и действуют, чтобы лучше воспринимать мир .
Эволюционная гонка «хищник-жертва». Появление сложных моделей мира и «теории разума» (понимание намерений другого) Колтун связывает с возникновением охоты . Чтобы поймать добычу, хищник должен предсказывать её действия, а жертва — маневры охотника .
Предлингвистический фундамент. По словам Колтуна, волки или гепарды обладают глубоким пониманием физики и психологии окружающих без использования языка . Присвоение имен вещам (например, понятию «голод» или «газель») — это лишь финальный, относительно простой шаг эволюции .

В своих взглядах Колтун опирается на работы пионеров робототехники Ганса Моравека и Рода Брукса, которые еще в 80-х годах выступали против «логической школы» ИИ, утверждая приоритет физического взаимодействия над чистыми вычислениями .

🐕 Роботы, которые не падают: прорыв в локомоции 16:26

В сотрудничестве с лабораторией ETH Zurich Колтун разработал контроллер для четырехногих роботов, который радикально повышает их устойчивость.

Главное техническое новшество — использование рекуррентного энкодера для создания «интегрированного состояния убеждения» (integrated belief state) . Этот алгоритм объединяет два типа данных:

Проприоцепция: внутреннее чувство тела (углы суставов, ускорение, состояние мышц), получаемое от IMU-сенсоров .
Экстроцепция (зрение): данные о внешней среде от LiDAR или глубоких камер .

Адаптивность против хрупкости

Главная проблема классических роботов (включая ранние модели Boston Dynamics) — их зависимость от точных данных датчиков . Например, если датчик глубины видит густую траву, он может принять её за твердую кочку. Робот пытается опереться на неё и падает.

Подход Колтуна позволяет роботу «доверять, но проверять» . Если визуальные данные обещают твердую опору, а проприоцепция сигнализирует о провале ноги, энкодер мгновенно начинает игнорировать зрение и полагается на ощущения тела . Это делает систему невероятно надежной: робот может танцевать на лестницах любого типа без предварительной настройки «режима лестницы», который требуется тому же роботу Spot от Boston Dynamics .

🚁 Дроны в лесу и проект Megaverse 47:31

Помимо наземных систем, Колтун работает над автономными дронами, способными летать сквозь густой лес на высокой скорости, избегая препятствий в реальном времени . Это требует предельно плотной связки зрения и управления.

Для обучения таких систем Колтун и его команда создали Megaverse — 3D-платформу для обучения ИИ в симуляции со скоростью 1 000 000 кадров в секунду .

Зачем такая скорость? Обучение сложным навыкам у людей занимает годы . Искусственные системы обучаются медленнее на несколько порядков. Чтобы исследователь не ждал результатов эксперимента до 2032 года, Megaverse позволяет «прожить» десятки лет субъективного опыта робота за считанные часы .
Доступность. Платформа Megaverse является открытым ПО (Open Source) с разрешительной лицензией, доступным для использования любыми лабораториями .

🚀 Будущее: от перемещения к манипуляции 1:00:47

Владлен Колтун полагает, что нынешний этап развития робототехники — это эра «ловкого перемещения». Роботы научились ходить, бегать и не падать. Следующим великим вызовом станет манипуляция средой .

Его цель — создание систем с уровнем автономности собаки-спасателя в Альпах, которая может часами самостоятельно исследовать горы, находить людей и приносить им помощь . Ученый верит, что именно через решение таких сложных физических задач мы придем к созданию по-настоящему универсального искусственного интеллекта.