Джефф Хинтон о будущем ИИ: от капсульных сетей до загадок человеческого мозга

В новом выпуске подкаста Eye on AI ведущий Крейг Смит беседует с легендарным исследователем искусственного интеллекта Джеффом Хинтоном. Пионер глубокого обучения и лауреат премии Тьюринга подводит итоги насыщенного года исследований, подробно разбирая эволюцию капсульных сетей, алгоритм контрастивного обучения SimCLR и механизмы работы человеческого мозга. В центре дискуссии — то, как ИИ-модели переходят на рельсы самообучения без участия человека и почему будущее технологий лежит на стыке компьютерного зрения, робототехники и обработки естественного языка.

🧩 Эволюция капсульных сетей: переход к самообучению и трансформерам 2:24

Идея капсульных сетей изначально создавалась для решения фундаментальной проблемы компьютерного зрения — распознавания трехмерных объектов при изменении ракурса и точки обзора . Традиционные сверточные нейросети (CNN) с трудом справляются с изменением взаимного расположения элементов объекта, если смотреть на них под другим углом. Джефф Хинтон объясняет, что капсульные сети призваны распознавать целые объекты через идентификацию их частей и строгих пространственных отношений между ними .

В ранних версиях технологии исследователи полагались на обучение с учителем (supervised learning), однако за последний год подход радикально изменился . По признанию Джеффа Хинтона, он никогда глубоко не верил в эффективность обучения с учителем для создания сильного ИИ, поэтому его команда совершила переход к обучению без учителя (unsupervised learning) и интегрировала в архитектуру трансформеры множеств (set transformers) .

Основная сложность ранней концепции заключалась в так называемой динамической маршрутизации (dynamic routing) . Если нейросеть видит на рисунке простой круг, он может быть левым глазом, правым глазом, передним колесом автомобиля или дверной ручкой . Из-за этого капсула нижнего уровня отправляла «голоса» огромному количеству капсул верхнего уровня, создавая хаотичный поток информации, где большинство связей были ошибочными .

Чтобы решить эту проблему без разметки данных, исследователи разработали штабелированные капсульные автокодировщики (Stacked Capsule Autoencoders) . Джефф Хинтон приводит аналогию с обработкой естественного языка трансформерами:

Слово «may» в английском языке может быть как модальным глаголом (в значении «мочь»), так и названием месяца (май) .
Трансформер не пытается сразу определить значение слова изолированно. Вместо этого он анализирует контекст: если в предложении рядом стоят слова «june» (июнь) или «july» (июль), репрезентация слова «may» сдвигается в сторону значения месяца .
Если же рядом находятся слова «would» или «should», репрезентация приобретает свойства модального глагола .

Похожий принцип был реализован и в компьютерном зрении. Части первого уровня (например, геометрические фигуры) взаимодействуют друг с другом, чтобы уточнить собственный контекст . Как только система на основе взаимного расположения круга и треугольника (который может быть носом) понимает, что круг с высокой вероятностью является левым глазом, она перестает отправлять ложные «голоса» в капсулу автомобильного колеса . Обучение происходит за счет минимизации ошибки реконструкции: зная позу целого объекта, сеть должна уметь предсказать позу каждой его части без каких-либо текстовых меток . Языковые названия (например, «корова» или «овца») присваиваются распознанным образам уже на самом последнем этапе, имитируя то, как ребенок учится соотносить реальные объекты со словами своей матери .

📸 Прорыв SimCLR: контрастивное обучение и распознавание образов 10:25

Другим важнейшим направлением работы Джеффа Хинтона стал алгоритм SimCLR, разработанный исследователем Тин Ченом в торонтской лаборатории Google при участии самого Хинтона . Этот метод представляет собой альтернативный подход к обучению без учителя, не сфокусированный напрямую на эквивариантности точек обзора, но демонстрирующий выдающиеся результаты в распознавании образов .

Суть SimCLR заключается в контрастивном обучении (contrastive learning) . Нейросеть берет два случайных фрагмента (кропа) одного и того же изображения и пытается построить их векторные представления таким образом, чтобы они были максимально близки друг к другу . При этом фрагменты из разных изображений должны давать максимально отличающиеся векторы .

Джефф Хинтон отмечает, что сама концепция контрастивного обучения уходит корнями в его совместную работу со Сью Беккер 1992–1993 годов, а также в исследования 2002 года, однако тогда технологию не удалось заставить эффективно работать на изображениях . Лишь в 2018–2020 годах сторонние исследователи и команда Google смогли раскрыть потенциал метода .

Критически важным элементом SimCLR является аугментация (искусственное расширение) данных, выполняемая непосредственно в процессе обучения :

Случайное кадрирование (cropping): выделение различных частей одного кадра .
Изменение цветового баланса (color distortion): если не менять цвета фрагментов, нейросеть быстро учится «читерить», сопоставляя фрагменты исключительно по их цветовой гистограмме . Изменение баланса каналов RGB заставляет модель анализировать форму и текстуру .

По словам Хинтона, результаты SimCLR превзошли ожидания. Модель ResNet, обученная полностью без учителя с использованием SimCLR, поверх которой запускается простейший линейный классификатор без дополнительных скрытых слоев, показывает на датасете ImageNet точность, сопоставимую с классическими методами обучения с учителем . Для достижения такого результата требуется лишь использовать нейросеть большего масштаба . Этот подход идейно пересекается с экспериментами Яна Лекуна, который применяет схожие контрастивные методы для анализа видеопоследовательностей .

🧠 Мозг против обратного распространения: N-grads и обратная релаксация 17:37

Долгое время нейробиологи скептически относились к идее о том, что человеческий мозг способен реализовывать алгоритм обратного распространения ошибки (backpropagation), который является стандартом в современном ИИ . Главный контраргумент научного сообщества заключался в отсутствии очевидного физиологического механизма для передачи градиентов ошибок назад через синапсы.

Джефф Хинтон попытался решить эту дилемму, предложив концепцию N-grads (Neural Gradient Representation by Activity Differences) . В рамках этой гипотезы ошибка кодируется скоростью изменения нейронной активности во времени . Поскольку активность может как возрастать, так и убывать, это позволяет передавать градиенты обоих знаков . Такой подход напрямую соотносится с биологически доказанным явлением пластичности, зависящей от времени прихода импульса (STDP) . Хинтон напоминает, что еще в 1987 году в совместной работе с Дж. Макклелландом он предлагал использовать временные различия активности в качестве производных ошибки — задолго до экспериментального открытия STDP .

Тем не менее, на момент интервью Джефф Хинтон признается, что начал испытывать скепсис по отношению к применимости классического backprop к биологическому мозгу . По его мнению, алгоритм обратного распространения ошибки является «слишком хорошим» и эффективным для тех условий, в которых функционирует человек .

Исследователь указывает на кардинальное различие между искусственными нейросетями и биологическим мозгом в соотношении параметров и данных:

Режим искусственных нейросетей: относительно небольшое количество параметров (например, один миллиард, что эквивалентно всего одному кубическому миллиметру объема мозга) обучается на колоссальных объемах данных с миллионами повторений .
Режим человеческого мозга: колоссальное количество параметров (триллионы синапсов) обучается на крайне ограниченном объеме жизненного опыта . Человек живет всего около 1–2 миллиардов секунд и не получает гигантских массивов размеченных данных .

В качестве альтернативы Хинтон разработал концепцию «обратной релаксации» (back relaxation) . Вместо мгновенной передачи градиентов через множество слоев за один проход (как в backprop), мозг может стремиться к достижению согласия между восходящими (bottom-up) и нисходящими (top-down) репрезентациями . Нисходящее предсказание, основанное на широком контексте целого объекта, сравнивается с локальным восходящим извлечением признаков . Если они согласуются на одном изображении и расходятся на разных, система обучается контрастивным путем .

Информация при таком подходе распространяется назад постепенно, на один слой за шаг, требуя многократного предъявления одного и того же объекта . Впрочем, Хинтон с сожалением отмечает, что его июньские тесты показали: простое «жадное» послойное обучение восходящего типа (greedy bottom-up) справляется с задачами не хуже сложного алгоритма обратной релаксации, что несколько охладило его энтузиазм по поводу последней модели .

🔄 Конвергенция модальностей: зрение, текст и системы координат 29:48

Современная индустрия искусственного интеллекта движется в сторону тесной интеграции различных модальностей. Джефф Хинтон отмечает наметившуюся конвергенцию между обработкой естественного языка (NLP) и компьютерным зрением . Архитектура трансформеров, ставшая основой для таких языковых моделей, как BERT и GPT-3, начинает доказывать свою применимость для анализа визуальных паттернов (в частности, в экспериментах с обработкой изображений, разбитых на сетку из патчей 16x16) .

При этом Хинтон подчеркивает, что человеческое восприятие принципиально отличается от того, как видят мир современные сверточные нейросети . Ключевое отличие заключается в использовании внутренних систем координат (frames of reference) . В качестве примера ученый приводит геометрический эксперимент:

Если показать человеку квадрат, повернутый на 45 градусов, его можно воспринять двумя способами: как наклоненный квадрат или как вертикально стоящий ромб .
В зависимости от выбранной системы координат, знания человека об объекте и его свойствах будут кардинально отличаться .
Классические сверточные нейросети лишены этого свойства — у них есть лишь одна статичная репрезентация для такого объекта .

Из-за отсутствия гибких систем координат нейросети опираются в основном на текстуру объектов, игнорируя их глобальную геометрию . Именно этим объясняется феномен состязательных примеров (adversarial examples) — когда незначительный шум, незаметный для человека, заставляет модель полностью ошибаться в классификации объекта, и наоборот . Внедрение систем координат в нейросети по аналогии с компьютерной графикой (где дом описывается через фиксированные координаты, относительно которых позиционируются окна и двери) — важнейший шаг на пути к созданию человекоподобного зрения .

Джефф Хинтон также прокомментировал недавнюю подачу компании Google заявки на патент в области капсульных сетей . По мнению исследователя, эта инициатива носит исключительно оборонительный характер . В условиях современных патентных законов, где приоритет отдается тому, кто первым подал заявку, а не тому, кто изобрел технологию, Google вынужден защищать свои разработки от возможных патентных исков со стороны патентных троллей и конкурентов . Сам ИТ-гигант зарабатывает на создании отличных продуктов, а не на лицензировании патентов .

🦋 Метод дистилляции: как большие модели обучают малые 36:35

Поскольку современные нейросети требуют гигантских вычислительных мощностей и миллиардов параметров для извлечения структуры из данных, их прямое использование на конечных устройствах (например, на смартфонах) затруднено. В качестве решения Джефф Хинтон активно развивает концепцию дистилляции знаний (knowledge distillation) .

Идея состоит в том, чтобы использовать сверхбольшую и тяжелую модель для обучения компактной и быстрой «студенческой» сети . Хинтон описывает этот процесс с помощью ярких природных и исторических аналогий:

Биологический цикл насекомых: Гусеница (личинка бабочки) является идеальной «машиной для еды», оптимизированной исключительно для накопления питательных веществ из окружающей среды . Набрав массу, она превращается в жидкий «суп» в коконе, из которого формируется бабочка, оптимизированная совершенно под другие задачи — путешествия и размножение . Большая модель ИИ подобна гусенице, всасывающей структуру данных, а дистиллированная модель — бабочке .
Добыча золота: Чтобы получить чистый драгоценный металл, золотоискатели сначала перерабатывают тонны породы, превращая ее в золотоносный концентрат (шлих), и лишь затем плавят его при сверхвысоких температурах . Большие данные проходят аналогичную очистку через параметры крупной сети .
Передача научных знаний: Исаак Ньютон потратил годы на изобретение классической механики, что требовало выдающегося гения . Однако сегодня любой прилежный школьник может легко освоить законы Ньютона за несколько уроков, поскольку знания уже структурированы и дистиллированы учителями .

В процессе дистилляции большая модель выступает в роли умного наставника. Передавая малой модели не просто жесткие метки классов, а «мягкие» вероятности (показывающие, насколько, по мнению сети, один объект похож на другие), она обучает ее гораздо эффективнее, чем если бы малая сеть обучалась на «сырых» исходных данных напрямую .

🤖 Восприятие физического мира: робототехника и внимание 40:37

В дискуссии о будущем искусственного интеллекта Джефф Хинтон выражает солидарность со многими идеями Яна Лекуна . Оба исследователя убеждены в необходимости масштабирования контрастивных методов на видеоданные, однако Хинтон подчеркивает, что для работы с видео ключевым элементом должен стать механизм внимания (attention) . Без него невозможно обрабатывать динамический поток высокого разрешения в реальном времени .

Переход ИИ от пассивного наблюдения за статичными картинками к активному взаимодействию с физическим миром коренным образом меняет требования к архитектуре ИИ:

При пассивном просмотре изображений исследователи часто игнорируют проблему внимания .
Как только агент (робот) начинает перемещаться в пространстве, его ключевой задачей становится принятие решений о том, куда направить сенсоры . Вопрос «куда посмотреть в следующий момент?» является центральным для естественного зрения .

Хинтон выделяет успехи робототехнического подразделения Google (в частности, работы Пьера Сермане и Винсента Ванхука), где глубокое обучение для управления манипуляторами совмещается с языковыми интерфейсами . Робот способен не только выполнять команды человека, но и комментировать собственные действия в режиме реального времени .

По мнению Хинтона, такие успехи наглядно опровергают критику со стороны скептиков (таких как Гари Маркус), утверждающих, что глубокие нейросети не обладают реальным пониманием физического мира . Если робот заявляет: «Я открываю выдвижной ящик и достаю кубик», после чего безошибочно совершает эту последовательность действий в меняющейся обстановке, отрицать наличие у него понимания происходящего становится бессмысленно .

Человек приобретает базовое понимание физики (common-sense physics) задолго до освоения языка — например, когда учится забрасывать баскетбольный мяч в корзину с расстояния в 20 футов . Эта сложнейшая моторная координация тренируется путем проб, ошибок и активного взаимодействия с физической реальностью, а не через чтение учебников или вербальные инструкции .

🏷️ Переосмысление обучения с учителем: все дело в корреляциях 46:24

В завершение беседы Джефф Хинтон предлагает переосмыслить традиционное для Data Science жесткое разделение на обучение с учителем и без него, называя его во многом условным и вводящим в заблуждение .

Когда мать показывает ребенку корову и произносит слово «корова», в классическом машинном обучении это трактуется как предоставление внешней метки (обучение с учителем) . Однако с точки зрения биологических процессов в мозге ребенка происходит нечто иное. Мозг просто фиксирует устойчивую сложную корреляцию между двумя входящими сенсорными потоками — зрительным (образ животного) и слуховым (звучание слова) .

Таким образом, любое обучение сводится к поиску закономерностей и корреляций во входящих сигналах, что по своей сути является обучением без учителя . Что касается обучения с подкреплением (reinforcement learning), основанного на получении наград и штрафов, то, по мнению Хинтона, оно является лишь «глазурью на торте» . Сигналы подкрепления слишком бедны и не содержат в себе достаточного количества структурной информации для того, чтобы построить сложную модель репрезентации окружающего мира с нуля .