Джеффри Хинтон об итогах 2020 года: капсульные сети, дистилляция знаний и обучение без учителя

Eye on AI 598 48 мин 4 мин 18.12.2020
Главное

Джеффри Хинтон, легендарный исследователь и один из «крестных отцов» современного глубокого обучения, в интервью Крейгу Смиту подводит итоги 2020 года и делится своим видением будущего нейросетей. В центре дискуссии — отказ от классического обучения «с учителем», переход к капсульным сетям нового поколения и попытки разгадать алгоритмы обучения человеческого мозга.

🚀 Эволюция капсульных сетей: от контроля к автономии 1:32

После периода относительного затишья Джеффри Хинтон вернулся к развитию концепции капсульных сетей (Capsule Networks), представив стековые капсульные автокодировщики (Stacked Capsule Auto-Encoders). Основное изменение, по словам Хинтона, заключается в переходе от обучения с учителем (supervised) к обучению без учителя (unsupervised) .

Суть капсульного подхода заключается в распознавании объектов через их части и геометрические отношения между ними. Хинтон приводит наглядный пример: если система видит нечто похожее на глаз и нечто похожее на нос, и они находятся в правильном взаимном расположении, нейросеть делает вывод о наличии лица .

Ключевые технологические сдвиги в капсулах:

По мнению Хинтона, ребенок не учится различать корову и овцу потому, что мама постоянно дает им названия; он сначала учится видеть различия сам, аLabels (названия) накладываются уже на готовую систему восприятия .

🖼️ SimCLR и прорыв в контрастивном обучении 10:29

Другим важным этапом года стало появление алгоритма SimCLR, разработанного Тин Ченом в лаборатории Google в Торонто при участии Хинтона. SimCLR реализует идею контрастивного обучения (contrastive learning) .

Принцип работы алгоритма:

  1. Берутся два разных фрагмента (croppings) одного и того же изображения.
  2. Нейросеть должна преобразовать их в векторные представления так, чтобы они были максимально похожи друг на друга, если они из одного кадра, и максимально различны, если из разных .
  3. Для предотвращения «читтинга» (когда сеть узнает фрагменты по цветовой гистограмме) применяется аугментация данных — например, изменение цветового баланса одного из фрагментов .

Хинтон подчеркивает, что линейный классификатор, обученный поверх таких «самостоятельно выученных» представлений, показывает на базе ImageNet результаты, сопоставимые с классическими глубокими сетями, обучавшимися на размеченных данных .

🧠 Мозг против Backpropagation: в поисках биологической правды 17:50

Долгое время нейробиологи скептически относились к тому, что человеческий мозг может использовать алгоритм обратного распространения ошибки (backpropagation), который является фундаментом ИИ . Хинтон предложил концепцию N-Grads (Neural Gradient Representation by Activity Differences), где градиент ошибки представляется скоростью изменения нейронной активности .

Однако исследователь признается в некотором разочаровании в собственных гипотезах:

Тем не менее, Хинтон считает, что индустрия возвращается к его идеям 2006 года: сначала использовать масштабное обучение без учителя (как это делают модели BERT и GPT-3), а затем проводить тонкую настройку .

🐜 Дистилляция знаний: метафора гусеницы и золота 36:54

Хинтон активно развивает идею «дистилляции» (distillation) — процесса передачи знаний от огромной, тяжелой модели к маленькой и быстрой . Он сравнивает это с жизненным циклом насекомых :

По словам Хинтона, большая модель работает как наставник: она уже нашла закономерности в хаосе данных и может объяснить их «ученику» (маленькой модели) гораздо эффективнее, чем если бы тот пытался учиться на сырых данных самостоятельно .

🤖 Будущее: робототехника, язык и здравый смысл 43:19

В контексте споров о том, понимают ли нейросети смысл слов (критика Гэри Маркуса), Хинтон ссылается на успехи Google в робототехнике. Когда робот говорит: «Я открываю ящик и достаю блок», и одновременно с этим реально выполняет эти действия, отрицать его «понимание» становится сложно .

Главные вызовы на горизонте по мнению Хинтона:

  1. Внимание (Attention): Для обработки видео роботам необходимо научиться решать, куда смотреть в следующий момент. Пассивное изучение статичных картинок не развивает этот навык .
  2. Действие в мире: Истинное понимание физики (например, как бросить мяч в корзину) приходит не через язык, а через активное взаимодействие с реальностью .
  3. Единая корреляция: Разница между обучением «с учителем» и «без учителя» надуманна. С точки зрения мозга, голос матери, произносящей слово «корова», — это просто еще один сложный сенсорный вход, который коррелирует с визуальным образом животного .
💬 Цитаты

«Гусеница — это машина для извлечения питательных веществ, а бабочка — для путешествий и спаривания. В ИИ нам нужны такие же разные модели для обучения и использования.»

Джеффри Хинтон 37:48

«Если робот говорит «я открываю ящик» и реально его открывает, очень трудно утверждать, что он не понимает, что делает.»

Джеффри Хинтон 44:13
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Капсульные сети
Архитектура нейросетей, которая учитывает иерархические отношения и пространственное положение частей объекта.
Контрастивное обучение
Метод обучения без учителя, где модель учится находить сходства между разными версиями одного объекта и отличия от других.
Дистилляция знаний
Процесс обучения маленькой нейросети на основе предсказаний уже обученной большой и сложной модели.
Backpropagation
Метод обратного распространения ошибки, основной алгоритм обучения современных нейросетей.
📊 Цифры
🗓 Хронология
  1. 1992/1993 Первые работы Хинтона над идеями контрастивного обучения вместе с Сью Беккой.
  2. 2006 Хинтон вводит концепцию послойного предварительного обучения (unsupervised pre-training).
  3. 2017 Представление первой версии капсульных сетей.
  4. 2020 Выход SimCLR и обновленных стековых капсульных автокодировщиков.
⚖️ Другая сторона
Искусственный интеллект Geoffrey Hinton Capsule Networks SimCLR Deep Learning Google Brain