# Джефф Хинтон о будущем ИИ: от капсульных сетей до загадок человеческого мозга

Источник: https://www.youtube.com/watch?v=N0ER1MC9cqM
Канал: Eye on AI
Опубликовано: 17.12.2020

---

В новом выпуске подкаста Eye on AI ведущий Крейг Смит беседует с легендарным исследователем искусственного интеллекта Джеффом Хинтоном. Пионер глубокого обучения и лауреат премии Тьюринга подводит итоги насыщенного года исследований, подробно разбирая эволюцию капсульных сетей, алгоритм контрастивного обучения SimCLR и механизмы работы человеческого мозга. В центре дискуссии — то, как ИИ-модели переходят на рельсы самообучения без участия человека и почему будущее технологий лежит на стыке компьютерного зрения, робототехники и обработки естественного языка.

## 🧩 Эволюция капсульных сетей: переход к самообучению и трансформерам
[[JUMP:02:24]]

Идея капсульных сетей изначально создавалась для решения фундаментальной проблемы компьютерного зрения — распознавания трехмерных объектов при изменении ракурса и точки обзора [00:53]. Традиционные сверточные нейросети (CNN) с трудом справляются с изменением взаимного расположения элементов объекта, если смотреть на них под другим углом. Джефф Хинтон объясняет, что капсульные сети призваны распознавать целые объекты через идентификацию их частей и строгих пространственных отношений между ними [03:05].

В ранних версиях технологии исследователи полагались на обучение с учителем (supervised learning), однако за последний год подход радикально изменился [02:37]. По признанию Джеффа Хинтона, он никогда глубоко не верил в эффективность обучения с учителем для создания сильного ИИ, поэтому его команда совершила переход к обучению без учителя (unsupervised learning) и интегрировала в архитектуру трансформеры множеств (set transformers) [02:52].

Основная сложность ранней концепции заключалась в так называемой динамической маршрутизации (dynamic routing) [04:50]. Если нейросеть видит на рисунке простой круг, он может быть левым глазом, правым глазом, передним колесом автомобиля или дверной ручкой [03:56]. Из-за этого капсула нижнего уровня отправляла «голоса» огромному количеству капсул верхнего уровня, создавая хаотичный поток информации, где большинство связей были ошибочными [04:22].

Чтобы решить эту проблему без разметки данных, исследователи разработали штабелированные капсульные автокодировщики (Stacked Capsule Autoencoders) [05:02]. Джефф Хинтон приводит аналогию с обработкой естественного языка трансформерами:

*   Слово «may» в английском языке может быть как модальным глаголом (в значении «мочь»), так и названием месяца (май) [05:42].
*   Трансформер не пытается сразу определить значение слова изолированно. Вместо этого он анализирует контекст: если в предложении рядом стоят слова «june» (июнь) или «july» (июль), репрезентация слова «may» сдвигается в сторону значения месяца [06:08].
*   Если же рядом находятся слова «would» или «should», репрезентация приобретает свойства модального глагола [06:21].

Похожий принцип был реализован и в компьютерном зрении. Части первого уровня (например, геометрические фигуры) взаимодействуют друг с другом, чтобы уточнить собственный контекст [07:04]. Как только система на основе взаимного расположения круга и треугольника (который может быть носом) понимает, что круг с высокой вероятностью является левым глазом, она перестает отправлять ложные «голоса» в капсулу автомобильного колеса [07:17]. Обучение происходит за счет минимизации ошибки реконструкции: зная позу целого объекта, сеть должна уметь предсказать позу каждой его части без каких-либо текстовых меток [08:27]. Языковые названия (например, «корова» или «овца») присваиваются распознанным образам уже на самом последнем этапе, имитируя то, как ребенок учится соотносить реальные объекты со словами своей матери [09:05].

## 📸 Прорыв SimCLR: контрастивное обучение и распознавание образов
[[JUMP:10:25]]

Другим важнейшим направлением работы Джеффа Хинтона стал алгоритм SimCLR, разработанный исследователем Тин Ченом в торонтской лаборатории Google при участии самого Хинтона [11:44]. Этот метод представляет собой альтернативный подход к обучению без учителя, не сфокусированный напрямую на эквивариантности точек обзора, но демонстрирующий выдающиеся результаты в распознавании образов [10:52].

Суть SimCLR заключается в контрастивном обучении (contrastive learning) [11:18]. Нейросеть берет два случайных фрагмента (кропа) одного и того же изображения и пытается построить их векторные представления таким образом, чтобы они были максимально близки друг к другу [11:06]. При этом фрагменты из разных изображений должны давать максимально отличающиеся векторы [11:18]. 

Джефф Хинтон отмечает, что сама концепция контрастивного обучения уходит корнями в его совместную работу со Сью Беккер 1992–1993 годов, а также в исследования 2002 года, однако тогда технологию не удалось заставить эффективно работать на изображениях [11:56]. Лишь в 2018–2020 годах сторонние исследователи и команда Google смогли раскрыть потенциал метода [12:09].

Критически важным элементом SimCLR является аугментация (искусственное расширение) данных, выполняемая непосредственно в процессе обучения [14:21]:

*   **Случайное кадрирование (cropping):** выделение различных частей одного кадра [14:34].
*   **Изменение цветового баланса (color distortion):** если не менять цвета фрагментов, нейросеть быстро учится «читерить», сопоставляя фрагменты исключительно по их цветовой гистограмме [14:46]. Изменение баланса каналов RGB заставляет модель анализировать форму и текстуру [15:01].

По словам Хинтона, результаты SimCLR превзошли ожидания. Модель ResNet, обученная полностью без учителя с использованием SimCLR, поверх которой запускается простейший линейный классификатор без дополнительных скрытых слоев, показывает на датасете ImageNet точность, сопоставимую с классическими методами обучения с учителем [13:53]. Для достижения такого результата требуется лишь использовать нейросеть большего масштаба [14:08]. Этот подход идейно пересекается с экспериментами Яна Лекуна, который применяет схожие контрастивные методы для анализа видеопоследовательностей [16:06].

## 🧠 Мозг против обратного распространения: N-grads и обратная релаксация
[[JUMP:17:37]]

Долгое время нейробиологи скептически относились к идее о том, что человеческий мозг способен реализовывать алгоритм обратного распространения ошибки (backpropagation), который является стандартом в современном ИИ [18:02]. Главный контраргумент научного сообщества заключался в отсутствии очевидного физиологического механизма для передачи градиентов ошибок назад через синапсы.

Джефф Хинтон попытался решить эту дилемму, предложив концепцию N-grads (Neural Gradient Representation by Activity Differences) [18:02]. В рамках этой гипотезы ошибка кодируется скоростью изменения нейронной активности во времени [18:30]. Поскольку активность может как возрастать, так и убывать, это позволяет передавать градиенты обоих знаков [18:42]. Такой подход напрямую соотносится с биологически доказанным явлением пластичности, зависящей от времени прихода импульса (STDP) [18:42]. Хинтон напоминает, что еще в 1987 году в совместной работе с Дж. Макклелландом он предлагал использовать временные различия активности в качестве производных ошибки — задолго до экспериментального открытия STDP [19:22].

Тем не менее, на момент интервью Джефф Хинтон признается, что начал испытывать скепсис по отношению к применимости классического backprop к биологическому мозгу [19:47]. По его мнению, алгоритм обратного распространения ошибки является «слишком хорошим» и эффективным для тех условий, в которых функционирует человек [20:00]. 

Исследователь указывает на кардинальное различие между искусственными нейросетями и биологическим мозгом в соотношении параметров и данных:

1.  **Режим искусственных нейросетей:** относительно небольшое количество параметров (например, один миллиард, что эквивалентно всего одному кубическому миллиметру объема мозга) обучается на колоссальных объемах данных с миллионами повторений [20:13].
2.  **Режим человеческого мозга:** колоссальное количество параметров (триллионы синапсов) обучается на крайне ограниченном объеме жизненного опыта [20:25]. Человек живет всего около 1–2 миллиардов секунд и не получает гигантских массивов размеченных данных [20:38].

В качестве альтернативы Хинтон разработал концепцию «обратной релаксации» (back relaxation) [22:38]. Вместо мгновенной передачи градиентов через множество слоев за один проход (как в backprop), мозг может стремиться к достижению согласия между восходящими (bottom-up) и нисходящими (top-down) репрезентациями [21:20]. Нисходящее предсказание, основанное на широком контексте целого объекта, сравнивается с локальным восходящим извлечением признаков [21:33]. Если они согласуются на одном изображении и расходятся на разных, система обучается контрастивным путем [22:12]. 

Информация при таком подходе распространяется назад постепенно, на один слой за шаг, требуя многократного предъявления одного и того же объекта [23:03]. Впрочем, Хинтон с сожалением отмечает, что его июньские тесты показали: простое «жадное» послойное обучение восходящего типа (greedy bottom-up) справляется с задачами не хуже сложного алгоритма обратной релаксации, что несколько охладило его энтузиазм по поводу последней модели [23:41].

## 🔄 Конвергенция модальностей: зрение, текст и системы координат
[[JUMP:29:48]]

Современная индустрия искусственного интеллекта движется в сторону тесной интеграции различных модальностей. Джефф Хинтон отмечает наметившуюся конвергенцию между обработкой естественного языка (NLP) и компьютерным зрением [30:01]. Архитектура трансформеров, ставшая основой для таких языковых моделей, как BERT и GPT-3, начинает доказывать свою применимость для анализа визуальных паттернов (в частности, в экспериментах с обработкой изображений, разбитых на сетку из патчей 16x16) [33:35].

При этом Хинтон подчеркивает, что человеческое восприятие принципиально отличается от того, как видят мир современные сверточные нейросети [32:01]. Ключевое отличие заключается в использовании внутренних систем координат (frames of reference) [31:23]. В качестве примера ученый приводит геометрический эксперимент:

*   Если показать человеку квадрат, повернутый на 45 градусов, его можно воспринять двумя способами: как наклоненный квадрат или как вертикально стоящий ромб [30:56].
*   В зависимости от выбранной системы координат, знания человека об объекте и его свойствах будут кардинально отличаться [31:10].
*   Классические сверточные нейросети лишены этого свойства — у них есть лишь одна статичная репрезентация для такого объекта [31:10].

Из-за отсутствия гибких систем координат нейросети опираются в основном на текстуру объектов, игнорируя их глобальную геометрию [32:13]. Именно этим объясняется феномен состязательных примеров (adversarial examples) — когда незначительный шум, незаметный для человека, заставляет модель полностью ошибаться в классификации объекта, и наоборот [32:26]. Внедрение систем координат в нейросети по аналогии с компьютерной графикой (где дом описывается через фиксированные координаты, относительно которых позиционируются окна и двери) — важнейший шаг на пути к созданию человекоподобного зрения [31:36].

Джефф Хинтон также прокомментировал недавнюю подачу компании Google заявки на патент в области капсульных сетей [32:26]. По мнению исследователя, эта инициатива носит исключительно оборонительный характер [32:53]. В условиях современных патентных законов, где приоритет отдается тому, кто первым подал заявку, а не тому, кто изобрел технологию, Google вынужден защищать свои разработки от возможных патентных исков со стороны патентных троллей и конкурентов [33:06]. Сам ИТ-гигант зарабатывает на создании отличных продуктов, а не на лицензировании патентов [33:06].

## 🦋 Метод дистилляции: как большие модели обучают малые
[[JUMP:36:35]]

Поскольку современные нейросети требуют гигантских вычислительных мощностей и миллиардов параметров для извлечения структуры из данных, их прямое использование на конечных устройствах (например, на смартфонах) затруднено. В качестве решения Джефф Хинтон активно развивает концепцию дистилляции знаний (knowledge distillation) [37:00].

Идея состоит в том, чтобы использовать сверхбольшую и тяжелую модель для обучения компактной и быстрой «студенческой» сети [39:27]. Хинтон описывает этот процесс с помощью ярких природных и исторических аналогий:

*   **Биологический цикл насекомых:** Гусеница (личинка бабочки) является идеальной «машиной для еды», оптимизированной исключительно для накопления питательных веществ из окружающей среды [37:39]. Набрав массу, она превращается в жидкий «суп» в коконе, из которого формируется бабочка, оптимизированная совершенно под другие задачи — путешествия и размножение [38:07]. Большая модель ИИ подобна гусенице, всасывающей структуру данных, а дистиллированная модель — бабочке [39:13].
*   **Добыча золота:** Чтобы получить чистый драгоценный металл, золотоискатели сначала перерабатывают тонны породы, превращая ее в золотоносный концентрат (шлих), и лишь затем плавят его при сверхвысоких температурах [38:35]. Большие данные проходят аналогичную очистку через параметры крупной сети [38:59].
*   **Передача научных знаний:** Исаак Ньютон потратил годы на изобретение классической механики, что требовало выдающегося гения [39:40]. Однако сегодня любой прилежный школьник может легко освоить законы Ньютона за несколько уроков, поскольку знания уже структурированы и дистиллированы учителями [39:53].

В процессе дистилляции большая модель выступает в роли умного наставника. Передавая малой модели не просто жесткие метки классов, а «мягкие» вероятности (показывающие, насколько, по мнению сети, один объект похож на другие), она обучает ее гораздо эффективнее, чем если бы малая сеть обучалась на «сырых» исходных данных напрямую [39:27].

## 🤖 Восприятие физического мира: робототехника и внимание
[[JUMP:40:37]]

В дискуссии о будущем искусственного интеллекта Джефф Хинтон выражает солидарность со многими идеями Яна Лекуна [41:05]. Оба исследователя убеждены в необходимости масштабирования контрастивных методов на видеоданные, однако Хинтон подчеркивает, что для работы с видео ключевым элементом должен стать механизм внимания (attention) [41:47]. Без него невозможно обрабатывать динамический поток высокого разрешения в реальном времени [42:01].

Переход ИИ от пассивного наблюдения за статичными картинками к активному взаимодействию с физическим миром коренным образом меняет требования к архитектуре ИИ:

*   При пассивном просмотре изображений исследователи часто игнорируют проблему внимания [45:58].
*   Как только агент (робот) начинает перемещаться в пространстве, его ключевой задачей становится принятие решений о том, куда направить сенсоры [46:11]. Вопрос «куда посмотреть в следующий момент?» является центральным для естественного зрения [46:11].

Хинтон выделяет успехи робототехнического подразделения Google (в частности, работы Пьера Сермане и Винсента Ванхука), где глубокое обучение для управления манипуляторами совмещается с языковыми интерфейсами [43:19]. Робот способен не только выполнять команды человека, но и комментировать собственные действия в режиме реального времени [43:45]. 

По мнению Хинтона, такие успехи наглядно опровергают критику со стороны скептиков (таких как Гари Маркус), утверждающих, что глубокие нейросети не обладают реальным пониманием физического мира [43:58]. Если робот заявляет: «Я открываю выдвижной ящик и достаю кубик», после чего безошибочно совершает эту последовательность действий в меняющейся обстановке, отрицать наличие у него понимания происходящего становится бессмысленно [44:11].

Человек приобретает базовое понимание физики (common-sense physics) задолго до освоения языка — например, когда учится забрасывать баскетбольный мяч в корзину с расстояния в 20 футов [44:52]. Эта сложнейшая моторная координация тренируется путем проб, ошибок и активного взаимодействия с физической реальностью, а не через чтение учебников или вербальные инструкции [45:19].

## 🏷️ Переосмысление обучения с учителем: все дело в корреляциях
[[JUMP:46:24]]

В завершение беседы Джефф Хинтон предлагает переосмыслить традиционное для Data Science жесткое разделение на обучение с учителем и без него, называя его во многом условным и вводящим в заблуждение [47:03].

Когда мать показывает ребенку корову и произносит слово «корова», в классическом машинном обучении это трактуется как предоставление внешней метки (обучение с учителем) [47:18]. Однако с точки зрения биологических процессов в мозге ребенка происходит нечто иное. Мозг просто фиксирует устойчивую сложную корреляцию между двумя входящими сенсорными потоками — зрительным (образ животного) и слуховым (звучание слова) [47:30]. 

Таким образом, любое обучение сводится к поиску закономерностей и корреляций во входящих сигналах, что по своей сути является обучением без учителя [47:54]. Что касается обучения с подкреплением (reinforcement learning), основанного на получении наград и штрафов, то, по мнению Хинтона, оно является лишь «глазурью на торте» [47:54]. Сигналы подкрепления слишком бедны и не содержат в себе достаточного количества структурной информации для того, чтобы построить сложную модель репрезентации окружающего мира с нуля [48:07].