Как научить ИИ размышлять: Андреа Банино о механизмах PonderNet

The TWIML AI Podcast 570 41 мин 11 мин 18.10.2021
Главное

Исследователь из DeepMind Андреа Банино в беседе с ведущим Сэмом Чаррингтоном на подкасте The TWIML AI Podcast подробно разбирает эволюцию механизмов памяти в глубоких нейронных сетях и их значение для построения сильного искусственного интеллекта (AGI). В центре дискуссии — алгоритмический метод PonderNet, вдохновленный особенностями человеческого гиппокампа и позволяющий сетям адаптировать вычислительные ресурсы под сложность задачи. Эксперты также обсуждают проблемы переобучения, геометрическую красоту координатных нейронов и прорывные гибридные подходы на стыке трансформеров и обучения с подкреплением.

🧠 От нейробиологии к ИИ: роль эпизодической памяти в архитектуре AGI 0:01

Андреа Банино пришел в сферу искусственного интеллекта из академической нейробиологии, где изучал фундаментальные принципы работы человеческого мозга. В фокусе его научных интересов долгое время находились механизмы формирования воспоминаний, а именно — эпизодическая память.

По словам Банино, эпизодическую память часто называют автобиографической, поскольку она напрямую связана с личным опытом человека, фиксируя конкретные события, людей, локации и временные рамки — условные компоненты «что, где и когда». Исследователь противопоставляет ее семантической памяти, отвечающей за общие структурированные знания о мире. В качестве иллюстрации Банино приводит простое различие:

Связь между механизмами памяти и развитием интеллекта кажется очевидной, поскольку живые организмы постоянно используют прошлый опыт для принятия решений в стабильной и предсказуемой среде, избегая необходимости обучаться с нуля. Однако Банино подчеркивает более глубокую функцию эпизодической памяти — способность к генерализации посредством ассоциативного вывода. В ходе своих диссертационных исследований ученый обнаружил, что если мозг последовательно фиксирует связь между событиями А и B, а затем между B и C, он автоматически, без видимых усилий, выстраивает логический мост между А и C.

Для объяснения этого феномена Банино приводит бытовой пример: если вы видите человека, гуляющего с собакой утром, а днем замечаете ту же собаку, но уже с другим спутником, ваш мозг мгновенно свяжет этих двух людей между собой. Обеспечение подобных гибких ассоциативных связей внутри алгоритмов является, по мнению гостя, важнейшим шагом на пути к созданию общего искусственного интеллекта.

🏛️ Эволюция архитектур памяти в современных нейросетях 4:13

Несмотря на важность биологических принципов, эффективная интеграция полноценной памяти в ИИ-системы, по признанию Банино, до сих пор остается открытым и сложным вопросом. В современной индустрии применяется несколько ограниченных подходов к эмуляции памяти, каждый из которых обладает своей спецификой:

Ведущий Сэм Чаррингтон замечает, что в случае с моделями поиска возникает жесткая граница между блоком памяти и блоком вычислений, из-за чего логика обработки сигналов никогда не обновляется на основе входящих данных. Банино соглашается и добавляет, что существуют архитектуры с динамически обновляемыми вычислениями, однако их крайне тяжело масштабировать из-за колоссальной вычислительной сложности, что делает их неприменимыми для комплексных практических задач.

Отдельное место в эволюции ИИ занимают трансформеры. Банино отмечает, что эти модели демонстрируют удивительные свойства контекстной памяти в языковой сфере, реализуя способность к обучению по нескольким примерам (few-shot learning). При этом остается загадкой: обусловлено ли это самой архитектурой или же уникальной структурой текстовых данных, поскольку в других доменах аналогичные свойства памяти трансформеров пока не подтверждены.

В качестве примера популярной реализации гость упоминает архитектуру Transformer-XL, где на каждом слое сети добавляется специализированный блок внешней памяти. Тем не менее, стандартные трансформеры ограничены в работе с длинными контекстами из-за квадратичной сложности сквозного сопоставления элементов в последовательности. По мнению Банино, индустрия еще не подошла к этапу, когда модель способна свободно анализировать содержание нескольких книг и делать сложные выводы без постоянного обращения к внешним поисковым базам.

🛑 Проблема дифференцируемости и масштабирования памяти 9:09

Одной из главных преград на пути создания эффективных систем памяти является требование дифференцируемости функций для применения метода градиентного спуска. Как подчеркивает Банино, современные алгоритмы внешней памяти опираются на поиск К-ближайших соседей (K-nearest neighbors), который по своей природе является недифференцируемой операцией. С текущими технологиями сообщество ИИ не умеет осуществлять обратное распространение ошибки через сверхбольшие массивы памяти.

Отвечая на вопрос Чаррингтона о том, как именно размер памяти влияет на невозможность проведения бэкпропагейшна, Банино объясняет математическую суть проблемы. При обращении к памяти используется операция softmax, развернутая по всему объему хранилища. Когда размерность этой операции становится слишком большой, вычисления превращаются в практически невыполнимую задачу: они физически не помещаются в аппаратную память устройств, а сами градиенты начинают критически деградировать.

🧬 Переобучение как фича: grid-клетки и обобщение опыта 10:41

Традиционно в глубоком обучении заучивание данных (memorization) и переобучение (overfitting) воспринимаются как серьезные проблемы, мешающие обобщающей способности моделей. Однако Банино предлагает взглянуть на это под другим углом. Он ссылается на примечательную научную работу Ури Хассона (Uri Hasson) под названием «Direct Fit to Nature», опубликованную в 2020 году. В ней утверждается, что человеческий мозг по мере взросления индивида и в ходе эволюции биологического вида непрерывно расширяет базу своего опыта и, по сути, тоже занимается тотальным «заучиванием» окружающего мира.

По мнению Банино, способность к обобщению у людей также имеет свои границы, и нейросети, возможно, лишь ненамного более ограничены в этом аспекте, чем человек. В качестве доказательства возможности успешного обобщения ученый упоминает собственное исследование, опубликованное в журнале Nature в 2018 году. В той работе команда внедрила в нейросеть математическое представление структур гиппокампа, известных как grid-клетки (координатные нейроны). В результате ИИ-агент, выполнявший задачу пространственной навигации, научился самостоятельно находить более короткие пути и обходить заблокированные участки среды.

Банино детально описывает биологическое устройство этой навигационной системы мозга, состоящей из трех типов клеток:

Согласно существующим нейробиологическим теориям, гексагональная структура координатных нейронов позволяет вычислять кратчайший вектор между двумя точками пространства. В исследовании DeepMind эта репрезентация возникла внутри рекуррентной архитектуры естественным путем в процессе обучения задаче интеграции пути (path integration). Метод абляции доказал: при искусственном «повреждении» (отключении) grid-клеток способность агента находить короткие маршруты резко падала.

Чаррингтон поинтересовался, добавлялись ли в функцию потерь специальные тригонометрические компоненты (синусы и косинусы) для принудительного формирования гексагональных структур. Банино категорически это опроверг, заявив, что подход был строго дата-центричным (data-driven). Для достижения результата критически важными оказались два стандартных инженерных приема:

  1. Использование механизма Dropout, предотвращающего одновременную активацию всех нейронов.
  2. Добавление искусственного шума в градиенты.

Шум помог алгоритму эффективно выходить из локальных минимумов ландшафта функции потерь и направлять сеть к изящным пространственным решениям, аналогичным биологическим структурам.

⏳ Концепция PonderNet: почему ИИ должен учиться «думать» 18:10

Идея создания алгоритма PonderNet родилась непосредственно из описанных выше нейробиологических изысканий Банино. В ходе проведения фМРТ-исследований на людях ученые заметили, что при решении задач на ассоциативное мышление человеческий мозг задействует рекурсивное обдумывание (pondering). Когда испытуемых просили связать объекты А и С через промежуточный элемент B, они тратили существенно больше времени на размышления, чем при ответе на прямые вопросы о связях А-B или B-C. Данные томографии показали, что сигнал многократно циркулирует по петле, выходя из гиппокампа и возвращаясь обратно, обрабатываясь одной и той же системой до тех пор, пока не будет сформирован уверенный ответ.

На шутливое предположение ведущего о том, что у человеческого мозга просто нет встроенной функции быстрого объединения таблиц (inner join), Банино отвечает с позиций вычислительной теории. Он предполагает, что мозг минимизирует функцию потерь, направленную на снижение неопределенности. Чем точнее предсказание модели мира, тем меньше рисков для выживания организма. В более длинных ассоциативных цепочках человеку требуется выстраивать иерархическую структуру рассуждений, что неизбежно занимает больше времени.

Главная проблема современных глубоких нейросетей, по мнению Банино, заключается в том, что объем их вычислений жестко привязан к размеру входных данных (размерности признаков), а не к фактической сложности решаемой задачи. В реальном мире этот принцип не работает. Исследователь приводит наглядные примеры:

Разработка PonderNet была призвана создать гибкую архитектуру, способную самостоятельно инвестировать вычислительный бюджет в зависимости от внутренней сложности проблемы.

⚙️ Механика PonderNet: вероятностный подход к остановке вычислений 26:42

Ближайшим предшественником PonderNet был алгоритм Адаптивного времени вычислений (Adaptive Computation Time, ACT). Однако ACT напрямую минимизировал количество шагов обдумывания, из-за чего финальный ответ формировался как средневзвешенное значение всех промежуточных прогнозов. Это создавало серьезное смещение в градиентах.

В PonderNet команда DeepMind применила принципиально иной, вероятностный подход. На каждом шаге вычислений сеть формирует не только прогноз, но и рассчитывает вероятность остановки (halting probability), которая моделируется как случайная величина Бернулли. Перемножая эти значения, алгоритм выстраивает полноценное геометрическое распределение вероятностей.

Ключевые отличия и преимущества механики PonderNet:

Чаррингтон проводит аналогию с методом ранней остановки (early stopping), используемым для экономии времени обучения. Банино подтверждает, что в случае инференса логика схожая — дать сети возможность прекратить вычисления, как только она обретет уверенность в ответе. Это критично при переносе моделей на маломощные устройства, например, смартфоны. Более того, эксперименты показали, что PonderNet требует значительно меньшего общего числа обновлений градиента в процессе обучения для достижения аналогичного уровня качества по сравнению со стандартными подходами.

Метод является абсолютно независимым от конкретной нейросетевой архитектуры (architecture agnostic). Его можно развернуть поверх рекуррентных сетей, сверточных слоев (CNN), трансформеров или агентов обучения с подкреплением. Единственное условие — добавление небольшого дополнительного линейного модуля для расчета вероятности завершения шага.

📊 Тестирование эффективности: задачи на паритет и рассуждения 32:38

Оценка эффективности PonderNet проводилась на нескольких сложных бенчмарках. Первым выступил классический тест на четность битовой строки (parity task), заимствованный из оригинальной статьи по ACT. В этой задаче модели необходимо определить, является ли количество единиц в строке четным или нечетным. Особенность теста в том, что алгоритм не может принять решение до тех пор, пока не изучит абсолютно все биты входных данных. Обычные рекуррентные сети традиционно испытывают колоссальные трудности с решением подобных логических задач.

По словам Банино, PonderNet продемонстрировал превосходную способность к экстраполяции. Обучаясь на строках длиной до 48 целочисленных элементов, сеть смогла успешно пройти тестирование на последовательностях, превышающих обучающие в два раза. Вторым этапом стало тестирование на лингвистическом наборе задач bAbI, состоящем из 20 различных интеллектуальных тестов на рассуждения, которые обучались моделью параллельно.

🚀 Трансформеры в обучении с подкреплением: новые горизонты на ICML 34:51

В финальной части беседы Чаррингтон и Банино затронули тему недавнего воркшопа на конференции ICML, посвященного синергии архитектуры трансформеров и обучения с подкреплением (RL). Исторически в RL-средах для долгосрочного планирования применялись сети LSTM, однако они подвержены «предубеждению новизны» (recency bias) — склонности учитывать лишь самые свежие фрагменты последовательности. В масштабных комплексных средах, где контекст имеет огромную длину, LSTM теряют эффективность.

Использование трансформеров могло бы решить эту проблему, однако специфика RL накладывает жесткие ограничения: сигналы наград здесь крайне разрежены, а градиенты отличаются высоким уровнем шума, что делает обучение большого количества весов трансформера нестабильным. Команда Банино предложила оригинальное решение, адаптировав архитектуру маскирования BERT:

Разработчики создали гибридную архитектуру, объединив LSTM и трансформер в рамках единой системы. С помощью градиентов обучения с подкреплением агент самостоятельно определял, в какие моменты времени ему достаточно использовать простую и быструю LSTM-сеть, а когда необходимо активировать тяжеловесный трансформер для анализа глубокого контекста. В этом подходе явно прослеживаются идейные отголоски PonderNet — предоставление агенту контроля над собственными вычислительными затратами.

Эффективность гибрида тестировалась в трех различных доменах:

По заявлениям Банино, модель продемонстрировала колоссальный прирост в эффективности использования данных (data efficiency) по сравнению со всеми базовыми алгоритмами. В наиболее сложной трехмерной среде DeepMind Laboratory агент смог установить новый мировой рекорд качества (state-of-the-art). Исследователь убежден, что будущие интеллектуальные агенты должны в обязательном порядке оснащаться сложной иерархической системой памяти, охватывающей совершенно разные временные шкалы — от сверхкраткосрочных до долгосрочных интервалов.

💬 Цитаты

«Обычные нейронные сети тратят объем вычислений, который растет с размером ввода, но не со сложностью проблемы. Но это не то, как мы рассуждаем.»

Андреа Банино 24:16

«Я утверждаю, что агенты должны быть оснащены памятью различных временных шкал.»

Андреа Банино 40:59
👥 Спикеры
📖 Термины
Эпизодическая память
Тип памяти человека, связывающий воспоминания с конкретными событиями, временем и местом их происхождения.
Grid-клетки (координатные нейроны)
Нейроны в гиппокампе, которые активируются при перемещении в пространстве, формируя гексагональную сетку для навигации.
PonderNet
Алгоритмический метод, позволяющий нейросети самостоятельно решать, сколько вычислительных шагов («времени на размышление») требуется для получения ответа.
Предубеждение новизны (Recency bias)
Склонность рекуррентных нейросетей (LSTM) придавать избыточный вес последним элементам в последовательности данных, игнорируя долгосрочный контекст.
📊 Цифры
🗓 Хронология
  1. 2018 Андреа Банино публикует в журнале Nature работу по интеграции механизмов grid-клеток гиппокампа в навигационных ИИ-агентов.
  2. 2020 Ури Хассон публикует работу Direct Fit to Nature, переосмысляющую феномен заучивания данных мозгом.
  3. 2021 Команда DeepMind презентует алгоритм PonderNet и проводит воркшоп по трансформерам в RL на конференции ICML.
⚖️ Другая сторона
Искусственный интеллект DeepMind PonderNet Андреа Банино Transformers Обучение с подкреплением