Джеффри Хинтон об итогах 2020 года: капсульные сети, дистилляция знаний и обучение без учителя

Джеффри Хинтон, легендарный исследователь и один из «крестных отцов» современного глубокого обучения, в интервью Крейгу Смиту подводит итоги 2020 года и делится своим видением будущего нейросетей. В центре дискуссии — отказ от классического обучения «с учителем», переход к капсульным сетям нового поколения и попытки разгадать алгоритмы обучения человеческого мозга.

🚀 Эволюция капсульных сетей: от контроля к автономии 1:32

После периода относительного затишья Джеффри Хинтон вернулся к развитию концепции капсульных сетей (Capsule Networks), представив стековые капсульные автокодировщики (Stacked Capsule Auto-Encoders). Основное изменение, по словам Хинтона, заключается в переходе от обучения с учителем (supervised) к обучению без учителя (unsupervised) .

Суть капсульного подхода заключается в распознавании объектов через их части и геометрические отношения между ними. Хинтон приводит наглядный пример: если система видит нечто похожее на глаз и нечто похожее на нос, и они находятся в правильном взаимном расположении, нейросеть делает вывод о наличии лица .

Ключевые технологические сдвиги в капсулах:

Использование Set Transformers: Теперь части объекта взаимодействуют друг с другом, чтобы уточнить свою роль. Например, круг может быть глазом или колесом. Взаимодействуя с контекстом (другими деталями), круг «понимает», чем он является, еще до того, как будет распознано все лицо или машина .
Решение проблемы «динамической маршрутизации»: Старая версия капсул страдала от избытка ложных «голосов» от мелких деталей. Новая архитектура позволяет частям сначала стать уверенными в своей идентичности, что резко снижает количество ошибочных связей .
Реконструкция вместо меток: Вместо того чтобы говорить нейросети, где лицо, модель приучается предсказывать положение частей на основе положения целого. Если известно положение лица, модель должна уметь предсказать координаты носа .

По мнению Хинтона, ребенок не учится различать корову и овцу потому, что мама постоянно дает им названия; он сначала учится видеть различия сам, аLabels (названия) накладываются уже на готовую систему восприятия .

🖼️ SimCLR и прорыв в контрастивном обучении 10:29

Другим важным этапом года стало появление алгоритма SimCLR, разработанного Тин Ченом в лаборатории Google в Торонто при участии Хинтона. SimCLR реализует идею контрастивного обучения (contrastive learning) .

Принцип работы алгоритма:

Берутся два разных фрагмента (croppings) одного и того же изображения.
Нейросеть должна преобразовать их в векторные представления так, чтобы они были максимально похожи друг на друга, если они из одного кадра, и максимально различны, если из разных .
Для предотвращения «читтинга» (когда сеть узнает фрагменты по цветовой гистограмме) применяется аугментация данных — например, изменение цветового баланса одного из фрагментов .

Хинтон подчеркивает, что линейный классификатор, обученный поверх таких «самостоятельно выученных» представлений, показывает на базе ImageNet результаты, сопоставимые с классическими глубокими сетями, обучавшимися на размеченных данных .

🧠 Мозг против Backpropagation: в поисках биологической правды 17:50

Долгое время нейробиологи скептически относились к тому, что человеческий мозг может использовать алгоритм обратного распространения ошибки (backpropagation), который является фундаментом ИИ . Хинтон предложил концепцию N-Grads (Neural Gradient Representation by Activity Differences), где градиент ошибки представляется скоростью изменения нейронной активности .

Однако исследователь признается в некотором разочаровании в собственных гипотезах:

Проблема параметров: Мозг имеет триллионы параметров (синапсов), но живет всего пару миллиардов секунд. У него мало обучающих примеров, в отличие от нейросетей, которые имеют меньше параметров, но пропускают через себя колоссальные объемы данных .
Метод обратной релаксации (Back Relaxation): Хинтон пытался доказать, что согласование прогноза «сверху вниз» и восприятия «снизу вверх» эффективнее простого наслоения автокодировщиков. Эксперименты показали, что обычное послойное обучение работает не хуже, что исследователь назвал «огромным разочарованием» .

Тем не менее, Хинтон считает, что индустрия возвращается к его идеям 2006 года: сначала использовать масштабное обучение без учителя (как это делают модели BERT и GPT-3), а затем проводить тонкую настройку .

🐜 Дистилляция знаний: метафора гусеницы и золота 36:54

Хинтон активно развивает идею «дистилляции» (distillation) — процесса передачи знаний от огромной, тяжелой модели к маленькой и быстрой . Он сравнивает это с жизненным циклом насекомых :

Личинка (гусеница): «Машина по поеданию», оптимизированная для извлечения питательных веществ из среды. В ИИ это огромная модель, всасывающая структуру данных.
Бабочка: Элегантная форма, оптимизированная для перемещения и взаимодействия. В ИИ это компактная нейросеть в смартфоне пользователя.

По словам Хинтона, большая модель работает как наставник: она уже нашла закономерности в хаосе данных и может объяснить их «ученику» (маленькой модели) гораздо эффективнее, чем если бы тот пытался учиться на сырых данных самостоятельно .

🤖 Будущее: робототехника, язык и здравый смысл 43:19

В контексте споров о том, понимают ли нейросети смысл слов (критика Гэри Маркуса), Хинтон ссылается на успехи Google в робототехнике. Когда робот говорит: «Я открываю ящик и достаю блок», и одновременно с этим реально выполняет эти действия, отрицать его «понимание» становится сложно .

Главные вызовы на горизонте по мнению Хинтона:

Внимание (Attention): Для обработки видео роботам необходимо научиться решать, куда смотреть в следующий момент. Пассивное изучение статичных картинок не развивает этот навык .
Действие в мире: Истинное понимание физики (например, как бросить мяч в корзину) приходит не через язык, а через активное взаимодействие с реальностью .
Единая корреляция: Разница между обучением «с учителем» и «без учителя» надуманна. С точки зрения мозга, голос матери, произносящей слово «корова», — это просто еще один сложный сенсорный вход, который коррелирует с визуальным образом животного .