# Владлен Колтун: «Высший разум — это лишь надстройка над физическим телом»

Источник: https://www.youtube.com/watch?v=iAD7TfLCN1w
Канал: Eye on AI
Опубликовано: 02.03.2022

---

В современном мире искусственного интеллекта доминируют языковые модели, однако один из ведущих исследователей в области компьютерного зрения и робототехники, Владлен Колтун (Vladlen Koltun), уверен: путь к истинному разуму лежит через физическое тело. В интервью для подкаста Eye on AI ученый, успевший поработать в Intel и Apple, объясняет, почему для создания интеллекта уровня млекопитающего нам нужны не только алгоритмы, но и роботы, способные «чувствовать» поверхность под ногами и летать сквозь густой лес.

## 🤖 От теории к воплощению: путь Владлена Колтуна
[[JUMP:02:38]]

Владлен Колтун начал свою карьеру как чистый теоретик [04:02]. Получив докторскую степень в Тель-Авивском университете и поработав в Беркли и Стэнфорде, он прошел путь трансформации от математики к компьютерной графике, а затем к машинному обучению и робототехнике [04:43]. 

В его исследованиях можно выделить два главных вектора:

1.  **Фотореализм и эффект присутствия.** Колтун признается, что его любовь к программированию началась с компьютерной графики, которую он воспринимал как магию [07:48]. На это его вдохновила не индустрия игр, а «демосцена» (demo scene) — сообщество цифровых художников, объединявших программирование, музыку и визуальное искусство в реальном времени [09:15].
2.  **Природа интеллекта.** Вторая страсть ученого — понимание того, как возникает разум в физических системах [11:11].

## 🧠 Гипотеза воплощенного интеллекта
[[JUMP:11:50]]

Основной тезис Колтуна заключается в том, что высшие формы когнитивных способностей (игра в шахматы, написание симфоний) — это лишь тонкая надстройка над мощным фундаментом физического интеллекта [13:49]. По мнению ученого, эволюции потребовались сотни миллионов лет, чтобы отточить связку «восприятие — действие», тогда как переход к абстрактному мышлению произошел практически мгновенно [14:26].

Ключевые идеи этой концепции:

*   **Замкнутый цикл.** Животные воспринимают мир, чтобы действовать, и действуют, чтобы лучше воспринимать мир [12:17].
*   **Эволюционная гонка «хищник-жертва».** Появление сложных моделей мира и «теории разума» (понимание намерений другого) Колтун связывает с возникновением охоты [21:43]. Чтобы поймать добычу, хищник должен предсказывать её действия, а жертва — маневры охотника [22:37].
*   **Предлингвистический фундамент.** По словам Колтуна, волки или гепарды обладают глубоким пониманием физики и психологии окружающих без использования языка [24:34]. Присвоение имен вещам (например, понятию «голод» или «газель») — это лишь финальный, относительно простой шаг эволюции [25:01].

В своих взглядах Колтун опирается на работы пионеров робототехники Ганса Моравека и Рода Брукса, которые еще в 80-х годах выступали против «логической школы» ИИ, утверждая приоритет физического взаимодействия над чистыми вычислениями [27:56].

## 🐕 Роботы, которые не падают: прорыв в локомоции
[[JUMP:16:26]]

В сотрудничестве с лабораторией ETH Zurich Колтун разработал контроллер для четырехногих роботов, который радикально повышает их устойчивость. 

Главное техническое новшество — использование **рекуррентного энкодера** для создания «интегрированного состояния убеждения» (integrated belief state) [34:14]. Этот алгоритм объединяет два типа данных:

1.  **Проприоцепция:** внутреннее чувство тела (углы суставов, ускорение, состояние мышц), получаемое от IMU-сенсоров [34:57].
2.  **Экстроцепция (зрение):** данные о внешней среде от LiDAR или глубоких камер [35:48].

### Адаптивность против хрупкости
Главная проблема классических роботов (включая ранние модели Boston Dynamics) — их зависимость от точных данных датчиков [40:43]. Например, если датчик глубины видит густую траву, он может принять её за твердую кочку. Робот пытается опереться на неё и падает.

Подход Колтуна позволяет роботу «доверять, но проверять» [36:59]. Если визуальные данные обещают твердую опору, а проприоцепция сигнализирует о провале ноги, энкодер мгновенно начинает игнорировать зрение и полагается на ощущения тела [37:39]. Это делает систему невероятно надежной: робот может танцевать на лестницах любого типа без предварительной настройки «режима лестницы», который требуется тому же роботу Spot от Boston Dynamics [41:39].

## 🚁 Дроны в лесу и проект Megaverse
[[JUMP:47:31]]

Помимо наземных систем, Колтун работает над автономными дронами, способными летать сквозь густой лес на высокой скорости, избегая препятствий в реальном времени [48:08]. Это требует предельно плотной связки зрения и управления.

Для обучения таких систем Колтун и его команда создали **Megaverse** — 3D-платформу для обучения ИИ в симуляции со скоростью 1 000 000 кадров в секунду [50:15]. 

*   **Зачем такая скорость?** Обучение сложным навыкам у людей занимает годы [51:50]. Искусственные системы обучаются медленнее на несколько порядков. Чтобы исследователь не ждал результатов эксперимента до 2032 года, Megaverse позволяет «прожить» десятки лет субъективного опыта робота за считанные часы [54:03].
*   **Доступность.** Платформа Megaverse является открытым ПО (Open Source) с разрешительной лицензией, доступным для использования любыми лабораториями [58:59].

## 🚀 Будущее: от перемещения к манипуляции
[[JUMP:1:00:47]]

Владлен Колтун полагает, что нынешний этап развития робототехники — это эра «ловкого перемещения». Роботы научились ходить, бегать и не падать. Следующим великим вызовом станет **манипуляция средой** [1:01:30]. 

Его цель — создание систем с уровнем автономности собаки-спасателя в Альпах, которая может часами самостоятельно исследовать горы, находить людей и приносить им помощь [46:12]. Ученый верит, что именно через решение таких сложных физических задач мы придем к созданию по-настоящему универсального искусственного интеллекта.