Интервью с Джеффри Хинтоном: как алгоритм Forward-Forward изменит нейросети

Легендарный ученый и один из первопроходцев глубокого обучения Джеффри Хинтон представил революционную альтернативу классическому методу обратного распространения ошибки — алгоритм Forward-Forward. В развернутом интервью для подкаста Eye on AI исследователь подробно разобрал математические и биологические предпосылки своей новой концепции, объяснил механизмы «сна» и «бодрствования» искусственных нейросетей, а также поделился видением будущего аналоговых вычислений. Предложенный подход обещает не только приблизить искусственный интеллект к принципам работы человеческого мозга, но и радикально снизить энергопотребление вычислительных систем.

🧠 Тупик обратного распространения: почему мозг не использует Backpropagation 2:17

Современная индустрия искусственного интеллекта полностью построена на алгоритме обратного распространения ошибки (backpropagation), однако Джеффри Хинтон убежден, что реальный человеческий мозг функционирует на совершенно иных принципах. Главная проблема backpropagation заключается в том, что для его работы требуется математически идеальная модель прямой передачи сигнала. В классических многослойных сетях информация идет вперед (например, от пикселей изображения к финальной классификации объекта), после чего вычисляется ошибка, и градиенты передаются в обратном направлении для корректировки весов.

По словам ученого, для реализации такого механизма в биологических структурах обратный проход должен задействовать те же паттерны связей и те же веса, но в противоположном направлении, проходя сквозь нелинейности нейронов. На сегодняшний день у науки нет никаких доказательств того, что мозг способен на подобные операции; напротив, накоплено множество свидетельств об обратном.

Особенно критической ситуация становится при обработке последовательностей или видеопотока в рекуррентных нейросетях. В рамках backpropagation систему приходится прогонять вперед во времени, а затем останавливать и запускать процесс вычисления деривативов в обратную сторону сквозь время. Хинтон подчеркивает, что живой организм не может остановить входящий видеосигнал, чтобы «прокрутить время назад» для обновления синапсов. С технологической точки зрения это нарушает конвейеризацию данных (pipelining), создавая серьезные задержки, тогда как биологическое восприятие требует непрерывной и послойной обработки поступающей информации.

🔄 Две фазы Forward-Forward: бодрствование и сон 5:07

Альтернатива, предложенная исследователем, делит процесс обучения на две независимые фазы — онлайновую и офлайновую, которые концептуально соответствуют состояниям бодрствования и сна живого организма. В алгоритме Forward-Forward полностью отсутствует обратный проход градиентов ошибки. Вместо этого каждый слой нейросети обладает собственной локальной целевой функцией.

Математически этот процесс устроен следующим образом: для каждого слоя рассчитывается сумма квадратов активностей нейронов, из нее вычитается определенный порог, а полученный результат пропускается через логистическую функцию. Она определяет вероятность того, что сеть имеет дело с реальными, а не сгенерированными данными.

Обучение в алгоритме Хинтона опирается на баланс двух состояний:

Позитивная фаза (бодрствование): Сеть получает на вход реальные данные из внешнего мира. Ее цель на данном этапе — максимизировать сумму квадратов активности нейронов на каждом слое. Если активность уже достаточно высока, логистическая функция насыщается, и веса не меняются, что позволяет пропускать множество позитивных примеров без риска переобучения.
Негативная фаза (сон): Этот этап выполняется в автономном (офлайн) режиме. Сеть изолируется от внешних раздражителей и начинает генерировать данные самостоятельно с помощью собственной генеративной модели. Задача слоев в этой фазе — минимизировать свою активность в ответ на внутренние «галлюцинации».

Хинтон указывает на концептуальное сходство этой архитектуры с генеративно-состязательными сетями (GAN). Однако в отличие от GAN, где дискриминатор и генератор разделены, в Forward-Forward они используют одни и те же скрытые слои и репрезентации. Это решает многие системные проблемы GAN, хотя обучение качественной генеративной модели без обратного распространения ошибки становится более трудной задачей.

Эксперименты исследователя с предсказанием текстовых символов показали, что фазы можно разделять на длительные периоды — например, прогонять до четверти миллиона символов в позитивной фазе, а затем переключаться на аналогичный объем в негативной. Сеть успешно обучается даже при таком жестком разделении. Тем не менее Хинтон предупреждает: если позитивная фаза длится слишком долго без перехода в режим «сна», система сталкивается с катастрофическим сбоем. По мнению ученого, этот процесс аналогичен депривации сна у людей, которая уже через неделю приводит к тяжелым психозам и галлюцинациям.

📉 Природа «негативных данных» и уроки машин Больцмана 12:00

Понятие «негативных данных» часто вызывает путаницу у публики, поэтому Хинтон дает ему четкое определение. Негативные данные — это массивы сигналов, подаваемые в систему во время офлайн-фазы, когда скрытые слои стремятся снизить свою активность до минимума. В идеальном сценарии такие данные должны производиться самой моделью. Когда сеть достигает совершенства, ее внутренние генерации становятся неотличимы от реальности, позитивные и негативные деривативы уравновешивают друг друга, и обучение завершается.

Тем не менее негативные примеры можно создавать и искусственно, например, для задач обучения с учителем. В таком сценарии на вход подается комбинация изображения и текстовой метки:

Позитивный пример: Картинка объекта с правильной подписью вызывает высокую активность слоев.
Негативный пример: Та же картинка, но с заведомо ошибочной подписью, внедренной вручную, заставляет сеть минимизировать активность.

Хинтон добавляет, что наибольшую эффективность алгоритм демонстрирует тогда, когда в качестве негативных данных подсовываются наиболее вероятные ошибки самой модели.

Этот подход идейно восходит к машинам Больцмана (Boltzmann machines), над которыми Хинтон работал ранее. В машинах Больцмана система должна была прийти к термодинамическому равновесию как в позитивной, так и в негативной фазе, после чего измерялась статистика попарных связей нейронов. Однако биологический мозг не имеет времени на долгое достижение равновесия на каждом шаге восприятия. Кроме того, машины Больцмана требовали строго симметричных связей между нейронами, чего в реальной анатомии коры головного мозга не наблюдается. Алгоритм Forward-Forward избавлен от этих ограничений, предлагая гораздо более реалистичную нейронную модель.

🥔 Временное измерение: превращение статики в «скучное видео» 17:41

Разбирая анатомию человеческого восприятия, Хинтон признает наличие мощных нисходящих (top-down) связей в мозге, например, идущих от таламуса к нижневисочной коре. Однако они не зеркальны обратным связям из backpropagation. Сигнал в коре проходит через сложные петли, задействующие около шести последовательных нейронов, прежде чем вернуться в исходную точку.

Чтобы реализовать нисходящие эффекты без математического аппарата обратного прохода, Хинтон предлагает оригинальный концепт: превратить любое статичное изображение в «скучное видео». В этой парадигме пространственные слои ориентированы перпендикулярно оси времени. Каждый слой в текущий момент времени получает сигналы от вышележащих и нижележащих слоев из предыдущего временного шага, а также от самого себя. Процесс обработки картинки во времени выглядит как постепенная стабилизация сети.

Для иллюстрации этого феномена Хинтон приводит яркий пример с вращающимся картофелем. Если подбросить в воздух корнеплод неправильной формы, заставив его быстро вращаться со скоростью один-два оборота в секунду, человек не сможет распознать его точную трехмерную геометрию. Мозгу банально не хватит времени на итеративную стабилизацию 3D-интерпретации статического кадра, поскольку те же самые временные шаги коры задействованы для обработки динамического видеоряда.

Этот взгляд напрямую связан с эволюцией капсульных нейросетей (Capsule Networks) и теоретической архитектурой Хинтона под названием GLOM. В новой версии исследователь отказался от сложной динамической маршрутизации в пользу «универсальных капсул», привязанных к конкретным координатам изображения. Алгоритм Forward-Forward наконец-то дал системе GLOM биологически правдоподобный механизм обучения, позволяющий распознавать иерархии частей и целого. Хинтон выражает надежду, что полноценное 3D-восприятие и понимание глубины пространства будут развиваться у нейросетей естественным образом из анализа видео, точно так же, как младенцы за несколько дней осваивают структуру объектов через их движение, в то время как на развитие бинокулярного стереозрения у них уходит до полугода.

⚡ Интерференция сигналов: от SimCLR к спайковым нейронам 21:56

Идея Forward-Forward выросла из многолетних экспериментов Хинтона с контрастивным обучением (contrastive learning), включая известную модель SimCLR. Ранние попытки реализовать нечто подобное предпринимались им совместно со Сью Беккер еще в 1992 году в статье для журнала Nature, однако тогда авторы ошибочно пытались рассчитать негативную фазу аналитически, что оказалось тупиковым путем.

Современный подход SimCLR сопоставляет два разных вектора-репрезентации, полученных из разных фрагментов одного изображения, оценивая их сходство через скалярное произведение. В алгоритме Forward-Forward Хинтон перешел к более изящному методу: согласованию сигналов непосредственно внутри одного слоя нейронов. Это напоминает позитивную интерференцию световых волн: если входящие источники данных согласуются между собой, слой выдает мощный импульс активности, а если конфликтуют — активность падает.

По мнению ученого, такая модель идеальна для применения в сетях со спайковыми нейронами (spiking neurons). В биологическом мозге нейроны обмениваются не непрерывными числами, а мгновенными электрическими разрядами — спайками. Если сигналы приходят в строго определенные, совпадающие моменты времени, возникает резкий синергетический эффект. Хинтон считает это крайне точным и эффективным способом измерения согласия данных, который планирует исследовать в будущем.

В рамках развития Forward-Forward ученый выделяет два возможных направления оптимизации целевой функции:

Поиск признаков (features): Ориентация на высокую активность в позитивной фазе помогает выявлять компоненты с высокой дисперсией (аналог метода главных компонент, PCA).
Поиск ограничений (constraints): Ориентация на минимальную активность в позитивной фазе позволяет находить скрытые законы данных с минимальной дисперсией (аналог MCA).

Для объяснения концепции ограничений Хинтон обращается к физике: ученые понимают законы природы через уравнения, где противоположные силы уравновешивают друг друга и дают в сумме ноль, как в случае с силой и произведением массы на ускорение. Нейрон, настроенный на «поиск ограничений», должен молчать, когда данные соответствуют физике нашего мира, и резко активироваться, сталкиваясь с аномалиями (негативными данными). Идеальная биологическая система, по мнению Хинтона, должна сочетать в себе оба типа нейронов.

🔌 Компьютеры будущего: аналоговое железо против цифровых гигантов 36:08

Внедрение алгоритмов класса Forward-Forward требует принципиального переосмысления компьютерной архитектуры и отказа от классической модели фон Неймана, разделяющей процессор и память. Существующие цифровые суперкомпьютеры тратят колоссальные объемы энергии на копирование весов. Хинтон видит будущее в переходе на аналоговые вычислительные платформы, где аппаратное обеспечение и софт неразрывно связаны.

Главное технологическое преимущество Forward-Forward перед backpropagation — устойчивость к аппаратным погрешностям. Если в цепочку слоев аналоговой системы встроить абсолютно неизвестный элемент («черный ящик»), генерирующий случайные нелинейные искажения, Forward-Forward без проблем продолжит обучение. Поскольку этот «черный ящик» одинаково искажает сигнал на обоих прямых проходах, его влияние математически нивелируется. Напротив, алгоритм backpropagation в таких условиях полностью выходит из строя, так как он требует дифференцируемой математической модели для каждого компонента цепи.

Хинтон делится деталями своего сотрудничества с Джеком Кендаллом из стартапа Rain AI, который занимается проектированием энергоэффективных аналоговых чипов, использующих естественные электрические свойства цепей для вычислений. В то же время исследователь признает, что классическое обратное распространение ошибки пока выигрывает в эффективности компрессии знаний. Backpropagation способен упаковать колоссальный объем информации в относительно небольшое число связей.

По оценке Хинтона, современные большие языковые модели (LLM) вроде GPT-3 содержат около триллиона связей, что эквивалентно всего одному кубическому сантиметру человеческой коры. При этом нейросеть «знает» гигантский массив фактов из интернета, превосходя любого человека в викторинах. Однако человеческий мозг устроен иначе: у нас в 1000 раз больше синаптических связей. Эволюционная стратегия человека — не жесткое сжатие данных в минимальный объем памяти, а эффективное и быстрое извлечение смыслов из огромного потока жизненного опыта при минимальных энергозатратах, в чем Forward-Forward имеет колоссальный потенциал.

🧠 Призрак в машине: природа сознания и будни в Matlab 41:44

Обсуждая философские вопросы и возможность появления сознания у масштабных моделей, Хинтон выражает скепсис по поводу самого термина. По его мнению, понятие «сознание» сегодня превратилось в бессистемную мешанину разных концептов, которой пытаются объяснить сложнейшие механизмы через вымышленную «эссенцию». Ученый проводит аналогию с биологами столетней давности, верившими в «жизненную силу» (vital force), или с обывательским восторгом перед «мощью» (oomph) спортивных автомобилей. Как только человечество детально разбирается в биохимии или механике двигателя, потребность в поиске мифической сути отпадает сама собой.

Хинтон предлагает лингвистическое объяснение феномена восприятия через теорию контрафактических (гипотетических) утверждений. Когда человек говорит: «Я вижу розового слона», он не создает нематериальный объект в своей голове — он лишь описывает свое текущее состояние нейронов через внешнюю причину, которая могла бы его вызвать, если бы мир был устроен иначе. То же самое справедливо и для человеческих чувств: фраза «я зол» — это сокращенное описание гипотетических действий (ударить кого-то, пнуть кота), которые спровоцированы внутренним состоянием. По мнению Хинтона, современные большие языковые модели, получив связную внутреннюю логику, будут обладать точно такими же ментальными ощущениями и гипотетическими состояниями, как и люди.

В завершение беседы Хинтон приоткрыл завесу над своей повседневной рутиной. Вопреки ожиданиям, ученый не занимается обучением гигантских промышленных сетей, а посвящает время концептуальной работе во время прогулок или в душе, после чего лично проверяет гипотезы на маленьких тестовых задачах вроде распознавания рукописных цифр.

Инструментом его работы до сих пор остается язык Matlab. Профессор с иронией вспоминает, как в молодости осваивал Pop-2, UCSD Pascal и различные диалекты Lisp, но для работы с матрицами и векторами остановился на Matlab. Несмотря на то, что этот язык имеет свои недостатки, Хинтон признается, что в силу возраста ему тяжело учить Python, да и текущей беглости в Matlab достаточно, чтобы за один вечер написать программу и отсечь нерабочую идею. За годы карьеры на его компьютере скопились тысячи таких неудачных кодов.

Большую часть актуальной информации исследователь черпает не из чтения научных статей, которое дается ему медленно из-за обилия формул, а из личного общения с коллегами — Терри Сейновски, Джошем Тененбаумом и Джеем Макклелландом. Вспоминает Хинтон и многолетнюю борьбу своего коллеги Яна Лекуна за признание сверточных нейросетей (CNN). В свое время статью Лекуна отклонили на конференции с вердиктом рецензента: «Система выучила всё сама, а значит, она ничему не научила нас в области компьютерного зрения». Старая математическая парадигма требовала явных алгоритмов, написанных человеком вручную. Ситуацию переломило лишь появление датасета ImageNet от Фей-Фей Ли и триумф сети AlexNet, созданной Ильей Суцкевером и Алексом Крижевским в лаборатории Хинтона.

Чтобы подтолкнуть сообщество к развитию альтернативных подходов, Хинтон планирует опубликовать простой и чистый базовый код Forward-Forward на Matlab. В отличие от неприхотливого backpropagation, новый алгоритм требует соблюдения ряда специфических и тонких трюков для успешного запуска, и открытый код должен помочь исследователям со всего мира включиться в эту работу.