# Джеффри Хинтон об итогах 2020 года: капсульные сети, дистилляция знаний и обучение без учителя

Источник: https://www.youtube.com/watch?v=AsoMDjqczX0
Канал: Eye on AI
Опубликовано: 18.12.2020

---

Джеффри Хинтон, легендарный исследователь и один из «крестных отцов» современного глубокого обучения, в интервью Крейгу Смиту подводит итоги 2020 года и делится своим видением будущего нейросетей. В центре дискуссии — отказ от классического обучения «с учителем», переход к капсульным сетям нового поколения и попытки разгадать алгоритмы обучения человеческого мозга.

## 🚀 Эволюция капсульных сетей: от контроля к автономии
[[JUMP:01:32]]

После периода относительного затишья Джеффри Хинтон вернулся к развитию концепции капсульных сетей (Capsule Networks), представив стековые капсульные автокодировщики (Stacked Capsule Auto-Encoders). Основное изменение, по словам Хинтона, заключается в переходе от обучения с учителем (supervised) к обучению без учителя (unsupervised) [02:41].

Суть капсульного подхода заключается в распознавании объектов через их части и геометрические отношения между ними. Хинтон приводит наглядный пример: если система видит нечто похожее на глаз и нечто похожее на нос, и они находятся в правильном взаимном расположении, нейросеть делает вывод о наличии лица [03:07].

**Ключевые технологические сдвиги в капсулах:**

*   **Использование Set Transformers:** Теперь части объекта взаимодействуют друг с другом, чтобы уточнить свою роль. Например, круг может быть глазом или колесом. Взаимодействуя с контекстом (другими деталями), круг «понимает», чем он является, еще до того, как будет распознано все лицо или машина [05:30].
*   **Решение проблемы «динамической маршрутизации»:** Старая версия капсул страдала от избытка ложных «голосов» от мелких деталей. Новая архитектура позволяет частям сначала стать уверенными в своей идентичности, что резко снижает количество ошибочных связей [07:18].
*   **Реконструкция вместо меток:** Вместо того чтобы говорить нейросети, где лицо, модель приучается предсказывать положение частей на основе положения целого. Если известно положение лица, модель должна уметь предсказать координаты носа [08:39].

По мнению Хинтона, ребенок не учится различать корову и овцу потому, что мама постоянно дает им названия; он сначала учится видеть различия сам, аLabels (названия) накладываются уже на готовую систему восприятия [09:05].

## 🖼️ SimCLR и прорыв в контрастивном обучении
[[JUMP:10:29]]

Другим важным этапом года стало появление алгоритма SimCLR, разработанного Тин Ченом в лаборатории Google в Торонто при участии Хинтона. SimCLR реализует идею контрастивного обучения (contrastive learning) [11:37].

Принцип работы алгоритма:

1.  Берутся два разных фрагмента (croppings) одного и того же изображения.
2.  Нейросеть должна преобразовать их в векторные представления так, чтобы они были максимально похожи друг на друга, если они из одного кадра, и максимально различны, если из разных [11:24].
3.  Для предотвращения «читтинга» (когда сеть узнает фрагменты по цветовой гистограмме) применяется аугментация данных — например, изменение цветового баланса одного из фрагментов [15:06].

Хинтон подчеркивает, что линейный классификатор, обученный поверх таких «самостоятельно выученных» представлений, показывает на базе ImageNet результаты, сопоставимые с классическими глубокими сетями, обучавшимися на размеченных данных [13:45].

## 🧠 Мозг против Backpropagation: в поисках биологической правды
[[JUMP:17:50]]

Долгое время нейробиологи скептически относились к тому, что человеческий мозг может использовать алгоритм обратного распространения ошибки (backpropagation), который является фундаментом ИИ [18:04]. Хинтон предложил концепцию N-Grads (Neural Gradient Representation by Activity Differences), где градиент ошибки представляется скоростью изменения нейронной активности [18:30].

Однако исследователь признается в некотором разочаровании в собственных гипотезах:

*   **Проблема параметров:** Мозг имеет триллионы параметров (синапсов), но живет всего пару миллиардов секунд. У него мало обучающих примеров, в отличие от нейросетей, которые имеют меньше параметров, но пропускают через себя колоссальные объемы данных [20:30].
*   **Метод обратной релаксации (Back Relaxation):** Хинтон пытался доказать, что согласование прогноза «сверху вниз» и восприятия «снизу вверх» эффективнее простого наслоения автокодировщиков. Эксперименты показали, что обычное послойное обучение работает не хуже, что исследователь назвал «огромным разочарованием» [23:39].

Тем не менее, Хинтон считает, что индустрия возвращается к его идеям 2006 года: сначала использовать масштабное обучение без учителя (как это делают модели BERT и GPT-3), а затем проводить тонкую настройку [25:33].

## 🐜 Дистилляция знаний: метафора гусеницы и золота
[[JUMP:36:54]]

Хинтон активно развивает идею «дистилляции» (distillation) — процесса передачи знаний от огромной, тяжелой модели к маленькой и быстрой [36:54]. Он сравнивает это с жизненным циклом насекомых [37:33]:

*   **Личинка (гусеница):** «Машина по поеданию», оптимизированная для извлечения питательных веществ из среды. В ИИ это огромная модель, всасывающая структуру данных.
*   **Бабочка:** Элегантная форма, оптимизированная для перемещения и взаимодействия. В ИИ это компактная нейросеть в смартфоне пользователя.

По словам Хинтона, большая модель работает как наставник: она уже нашла закономерности в хаосе данных и может объяснить их «ученику» (маленькой модели) гораздо эффективнее, чем если бы тот пытался учиться на сырых данных самостоятельно [39:31].

## 🤖 Будущее: робототехника, язык и здравый смысл
[[JUMP:43:19]]

В контексте споров о том, понимают ли нейросети смысл слов (критика Гэри Маркуса), Хинтон ссылается на успехи Google в робототехнике. Когда робот говорит: «Я открываю ящик и достаю блок», и одновременно с этим реально выполняет эти действия, отрицать его «понимание» становится сложно [44:13].

Главные вызовы на горизонте по мнению Хинтона:

1.  **Внимание (Attention):** Для обработки видео роботам необходимо научиться решать, куда смотреть в следующий момент. Пассивное изучение статичных картинок не развивает этот навык [46:14].
2.  **Действие в мире:** Истинное понимание физики (например, как бросить мяч в корзину) приходит не через язык, а через активное взаимодействие с реальностью [45:47].
3.  **Единая корреляция:** Разница между обучением «с учителем» и «без учителя» надуманна. С точки зрения мозга, голос матери, произносящей слово «корова», — это просто еще один сложный сенсорный вход, который коррелирует с визуальным образом животного [47:23].