# Дэвид Ха: «Интеллект — это результат ограничений, а не избытка ресурсов»

Источник: https://www.youtube.com/watch?v=PTmfED8Ktiw
Канал: The TWIML AI Podcast
Опубликовано: 11.11.2021

---

В новом выпуске The TWIML AI Podcast исследователь Google Brain Дэвид Ха (David Ha) рассказал о том, как фундаментальные ограничения биологических систем и искусственные «узкие места» в архитектуре нейросетей способствуют появлению более устойчивого и адаптивного интеллекта. По мнению гостя, избыток вычислительных ресурсов в современном машинном обучении может мешать развитию генерализации, в то время как дефицит и структурные барьеры заставляют алгоритмы находить суть явлений.

## 🧠 Биологическое вдохновение и парадокс ресурсов
[[JUMP:02:35]]

Дэвид Ха отмечает, что современное глубокое обучение (Deep Learning) движется по пути масштабирования: больше данных, больше электричества, больше вычислительных мощностей [2:48]. Однако биологический интеллект эволюционировал в условиях жесткой нехватки ресурсов. Эволюция отбирает системы, способные делать «большее с меньшим», что роднит биологию с процессом творчества, где минимализм часто ведет к более выразительным результатам [3:40].

В Google Brain Дэвид наблюдает два полюса исследований:

*   **Ресурсный подход:** создание экстремально больших моделей на гигантских датасетах [4:08].
*   **Теоретический подход:** работа специалистов по теоретической физике, которые могут практически не использовать компьютерное моделирование, фокусируясь на фундаментальных принципах [4:34].

По мнению Ха, для прогресса ИИ необходим баланс: большие модели должны уметь работать на маленьких чипах с низким энергопотреблением [5:02].

## 📉 «Узкие места» как катализатор абстрактного мышления
[[JUMP:05:15]]

Гость утверждает, что человеческое сознание и язык возникли как результат физиологических и когнитивных ограничений (bottlenecks). Мы передаем сложные концепции через узкий канал связи — слова, жесты или рисунки, что заставляет мозг формировать абстрактные представления [5:42].

В своих ранних работах Дэвид Ха применял принцип ограничений к генеративным моделям:

*   **CPPN (Compositional Pattern-Producing Networks):** вместо прямой генерации пикселей в 2016 году Ха использовал абстрактные правила параметризации. Это позволило создавать изображения цифр MNIST в разрешении 1000x1000 еще до того, как аппаратное обеспечение позволило делать это напрямую через GAN [8:06].
*   **Sketch-RNN:** модель для генерации дудлов (набросков), обученная на данных игры Quick Draw. Вместо работы с сеткой пикселей, модель оперирует векторными штрихами, имитируя то, как человек изображает объекты (например, свинью) с минимальным количеством деталей [10:08].

Дэвид полагает, что изучение того, как люди создают минималистичные репрезентации (из-за ограничений в виде рук, палок и поверхности пещер), помогает понять наши собственные индуктивные смещения (inductive biases) и перенести их в ИИ [11:41].

## 🎮 World Models: обучение внутри нейронного симулятора
[[JUMP:12:07]]

Одним из самых известных проектов Дэвида Ха стала работа «World Models» (Модели мира), созданная совместно с Юргеном Шмидтхубером [13:24].

Ключевые механизмы World Models:

1.  **Вариационный автокодировщик (VAE):** сжимает визуальный поток игры в низкоразмерное латентное пространство (информационное «узкое место») [13:38].
2.  **Рекуррентная нейросеть (RNN):** предсказывает будущее состояние этого латентного пространства на основе текущих действий [13:52].
3.  **Контроллер:** очень простая модель, которая принимает решения, имея на входе всего около 200 чисел (скрытое состояние RNN и вектор VAE), вместо миллионов пикселей [15:09].

Результатом этого подхода стала первая нейросеть, успешно прошедшая задание Car Racing в OpenAI Gym [15:22]. По словам Ха, оптимизировать политику агента гораздо проще, когда данные уже очищены от шума и представлены в виде компактной абстракции. Этот метод лег в основу более поздних эффективных алгоритмов, таких как SimPLe (2019 год) и Dreamer [18:58].

## 👀 Жесткое внимание и «интенциональная слепота»
[[JUMP:23:13]]

В проекте «Neuroevolution of Self-Interpretable Agents», выполненном под руководством Юджина Танга, команда Ха заменила латентное сжатие механизмом «жесткого внимания» (Hard Attention) [23:25].

Основные особенности метода:

*   Агенту разрешено видеть только 10 небольших патчей (фрагментов) экрана за раз [23:38].
*   Агент должен сам научиться решать, на какие точки «посмотреть», имитируя работу центральной ямки (fovea) человеческого глаза [24:04].
*   Эксперимент вдохновлен феноменом «интенциональной слепоты» (эксперимент с гориллой на баскетбольной площадке), когда сфокусированное внимание заставляет мозг игнорировать нерелевантные детали [26:07].

Преимущество такого ограничения — экстраординарная устойчивость. Если в игре Doom или Car Racing изменить цвет фона или добавить случайные объекты, агент с Hard Attention продолжает работать (zero-shot transfer), так как он просто не «смотрит» на неважные изменения [28:03]. Обычные модели в таких условиях часто выходят из строя.

## 🧬 Нейроэволюция и архитектурный поиск
[[JUMP:31:23]]

Дэвид Ха активно использует эволюционные алгоритмы (эволюционные стратегии, генетические алгоритмы) вместо градиентного спуска в задачах, где функции не дифференцируемы [32:42].

Проект **Weight Agnostic Neural Networks (WANN):**

*   Цель: найти архитектуры нейросетей, которые способны выполнять задачи (например, ходьба двуногого робота) даже со **случайными весами**, которые не менялись в процессе обучения [33:35].
*   Исследование показало, что сама структура сети может нести в себе «врожденные знания» или сильное индуктивное смещение, подобно тому как животные умеют ходить или избегать хищников сразу после рождения [35:36].
*   Хотя точность WANN на MNIST составила всего около 92%, работа вызвала большой интерес в сообществе нейробиологов [36:56].

В робототехнике, по словам гостя, эволюционные алгоритмы (такие как CMA-ES или Augmented Random Search) популярны из-за их объяснимости и эффективности для небольших контроллеров объемом в 1000–10000 параметров [38:13].

## 👅 Сенсорная замена и перемешивание входов
[[JUMP:41:43]]

Последние исследования гостя посвящены способности агентов адаптироваться к изменению сенсоров. Ха приводит в пример опыты Пола Бах-и-Риты [47:08]:

1.  Слепые люди учились «видеть» через тактильные сигналы от камеры, подаваемые на решетку электродов на спине или языке [48:15].
2.  Через несколько недель мозг начинал интерпретировать покалывания как визуальные образы [48:29].

Команда Ха создала агент «Sensory Neuron as a Transformer». Они скармливали нейросети данные, порядок которых постоянно перемешивался (shuffled observations) [42:33]. Благодаря использованию механизмов, схожих с Set Transformer, агент стал **инвариантным к порядку входных данных** [52:16].

Удивительным открытием стало то, что такой агент может работать, даже если данные перемешиваются прямо во время игрового эпизода каждые 100 шагов [54:51]. Кроме того, модель научилась игнорировать лишний шум: если ей дать 5 нужных сигналов и 15 шумовых в случайном порядке, она сама находит важные связи [56:13].

## 🐜 Будущее: коллективный интеллект и самоорганизация
[[JUMP:1:00:10]]

Дэвид Ха выразил восхищение работами своего коллеги Александра Мордвинцева над нейронными клеточными автоматами [1:00:26]. В будущем Ха планирует отойти от монолитных нейросетей в сторону **коллективного интеллекта**.

Его видение включает:

*   Системы из сотен тысяч уникальных агентов с локальными правилами обработки [1:01:20].
*   Возникновение глобальных свойств (emergent properties) из взаимодействия простых юнитов [1:01:46].
*   Объединение машинного обучения с компьютерным моделированием сложных систем и роевого интеллекта (swarm intelligence) [1:02:38].

По мнению гостя, такой подход может решить хронические проблемы обучения с подкреплением — хрупкость алгоритмов и их плохую способность к обобщению [1:02:01].