Константин Руш: «Осцилляторы помогают RNN запоминать последовательности до 10 000 шагов»

The TWIML AI Podcast 703 39 мин 4 мин 17.05.2021
Главное

В области глубокого обучения рекуррентные нейронные сети (RNN) долгое время считались золотым стандартом для обработки последовательностей, будь то текст, аудио или биржевые котировки. Однако архитектуры вроде LSTM или GRU сталкиваются с серьезным барьером при попытке «вспомнить» информацию, которая была тысячи шагов назад. Константин Руш, исследователь из ETH Zurich, предлагает решение этой фундаментальной проблемы, обращаясь к принципам нейробиологии и теории сложных динамических систем.

🧠 От нейробиологии к динамическим системам 0:00

Константин Руш начал свой путь в машинном обучении с фундаментальной математики в Боннском университете, после чего переключился на прикладную математику в Великобритании . Его интерес к современным архитектурам ИИ возник на стыке изучения нелинейной динамики и вычислительной когнитивной нейробиологии .

Ключевым вдохновением для Руша стала математическая модель ФитцХью-Нагумо (FitzHugh-Nagumo model), описывающая процесс возбуждения потенциала действия в биологическом нейроне . По словам гостя, нейрон ведет себя как релаксационный осциллятор: он накапливает стимул, достигает порога, «выстреливает» и затихает .

Исследователь обратил внимание на то, что такие осцилляции — норма для работы мозга, например, в гиппокампе («гиппокампальные осцилляции»), и решил перенести эти стабильные периодические структуры в архитектуру нейросетей . В рамках его работы динамические системы стали основой для создания новых типов скрытых слоев в RNN .

📉 Проблема исчезающего градиента: почему RNN «забывают» 6:42

Основная трудность при обучении RNN на длинных последовательностях — это проблема исчезающего (vanishing) или взрывного (exploding) градиента . Руш объясняет это через математическую структуру обучения:

По мнению Руша, существующие решения вроде LSTM справляются с последовательностями длиной до 1000 шагов, но начинают давать сбои на более длинных дистанциях . В то же время простая стабилизация градиента (например, использование единичной матрицы) делает сеть стабильной, но «глупой», так как она перестает обучаться сложным зависимостям .

⚙️ CoRNN: осцилляторы на службе обучения 14:06

Для решения проблемы Руш и его коллеги представили CoRNN (Coupled Oscillatory RNN) — архитектуру, основанную на системе обыкновенных дифференциальных уравнений (ODE) второго порядка .

Основные характеристики CoRNN:

  1. Связанные осцилляторы (Coupled Oscillators): Каждая размерность скрытого состояния представляет собой нейрон, который взаимодействует с другими через плотную матрицу весов .
  2. Управляющие параметры: В систему введены два коэффициента — затухание (damping) и частота (frequency), которые регулируют стабильность амплитуды .
  3. Дискретизация: Поскольку компьютеры работают в дискретном времени, непрерывная система уравнений переводится в понятный нейросети вид с помощью схемы IMEX (Implicit-Explicit scheme), что позволяет сохранить структуру динамики в коде .

Математически Руш доказал две важные теоремы для CoRNN:

🦄 Unicorn: ускорение и инверсия во времени 28:40

Следующим шагом в исследованиях Руша стала модель UnicORN (Undamped Independent Controlled Oscillatory RNN) . В этой версии разработчики отказались от затухания и сделали осцилляторы независимыми.

Преимущества UnicORN:

🧪 Результаты тестов и честная самокритика 23:21

В синтетическом тесте «задача сложения» (Adding Problem), где нейросети нужно найти и сложить два числа в длинном векторе случайных чисел, CoRNN показала стабильную сходимость на последовательностях длиной 5000 шагов . Для сравнения, LSTM обычно терпит неудачу уже на 500 шагах .

Однако Руш признает слабые стороны своих моделей:

Сейчас Руш сотрудничает с группой ученых из Беркли, чтобы создать гибридную архитектуру, которая объединит стабильность осцилляторов с гибкостью классических RNN, стремясь создать по-настоящему универсальную модель для последовательных данных .

💬 Цитаты

«Если на входе последовательность длиной 10 000, градиент исчезает экспоненциально быстро. Мы математически доказали, что осцилляторы решают эту проблему.»

Константин Руш 21:24

«На моей локальной GPU время обучения сократилось с половины дня до полуминуты — это было безумие.»

Константин Руш 33:18
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Исчезающий градиент
Проблема, при которой ошибка при обучении уменьшается до нуля, и нейросеть перестает обновлять веса для ранних этапов последовательности.
Обыкновенные дифференциальные уравнения (ODE)
Математические уравнения, описывающие изменение величин во времени, используемые для моделирования физических и биологических систем.
BPTT
Backpropagation Through Time — стандартный алгоритм обучения рекуррентных нейросетей.
📊 Цифры
🗓 Хронология
  1. 2019-2021 Константин Руш работает в Германском авиационно-космическом центре (DLR) над задачами прикладной математики.
  2. 2021 Публикация работы по CoRNN (Coupled Oscillatory RNN).
  3. 2022 Разработка модели UnicORN с независимыми осцилляторами и высокой скоростью обучения.
⚖️ Другая сторона
Искусственный интеллект RNN LSTM vanishing gradient ETH Zurich CoRNN