Джеффри Хинтон, легендарный исследователь и один из «крестных отцов» современного глубокого обучения, в интервью Крейгу Смиту подводит итоги 2020 года и делится своим видением будущего нейросетей. В центре дискуссии — отказ от классического обучения «с учителем», переход к капсульным сетям нового поколения и попытки разгадать алгоритмы обучения человеческого мозга.
🚀 Эволюция капсульных сетей: от контроля к автономии 1:32
После периода относительного затишья Джеффри Хинтон вернулся к развитию концепции капсульных сетей (Capsule Networks), представив стековые капсульные автокодировщики (Stacked Capsule Auto-Encoders). Основное изменение, по словам Хинтона, заключается в переходе от обучения с учителем (supervised) к обучению без учителя (unsupervised) .
Суть капсульного подхода заключается в распознавании объектов через их части и геометрические отношения между ними. Хинтон приводит наглядный пример: если система видит нечто похожее на глаз и нечто похожее на нос, и они находятся в правильном взаимном расположении, нейросеть делает вывод о наличии лица .
Ключевые технологические сдвиги в капсулах:
- Использование Set Transformers: Теперь части объекта взаимодействуют друг с другом, чтобы уточнить свою роль. Например, круг может быть глазом или колесом. Взаимодействуя с контекстом (другими деталями), круг «понимает», чем он является, еще до того, как будет распознано все лицо или машина .
- Решение проблемы «динамической маршрутизации»: Старая версия капсул страдала от избытка ложных «голосов» от мелких деталей. Новая архитектура позволяет частям сначала стать уверенными в своей идентичности, что резко снижает количество ошибочных связей .
- Реконструкция вместо меток: Вместо того чтобы говорить нейросети, где лицо, модель приучается предсказывать положение частей на основе положения целого. Если известно положение лица, модель должна уметь предсказать координаты носа .
По мнению Хинтона, ребенок не учится различать корову и овцу потому, что мама постоянно дает им названия; он сначала учится видеть различия сам, аLabels (названия) накладываются уже на готовую систему восприятия .
🖼️ SimCLR и прорыв в контрастивном обучении 10:29
Другим важным этапом года стало появление алгоритма SimCLR, разработанного Тин Ченом в лаборатории Google в Торонто при участии Хинтона. SimCLR реализует идею контрастивного обучения (contrastive learning) .
Принцип работы алгоритма:
- Берутся два разных фрагмента (croppings) одного и того же изображения.
- Нейросеть должна преобразовать их в векторные представления так, чтобы они были максимально похожи друг на друга, если они из одного кадра, и максимально различны, если из разных .
- Для предотвращения «читтинга» (когда сеть узнает фрагменты по цветовой гистограмме) применяется аугментация данных — например, изменение цветового баланса одного из фрагментов .
Хинтон подчеркивает, что линейный классификатор, обученный поверх таких «самостоятельно выученных» представлений, показывает на базе ImageNet результаты, сопоставимые с классическими глубокими сетями, обучавшимися на размеченных данных .
🧠 Мозг против Backpropagation: в поисках биологической правды 17:50
Долгое время нейробиологи скептически относились к тому, что человеческий мозг может использовать алгоритм обратного распространения ошибки (backpropagation), который является фундаментом ИИ . Хинтон предложил концепцию N-Grads (Neural Gradient Representation by Activity Differences), где градиент ошибки представляется скоростью изменения нейронной активности .
Однако исследователь признается в некотором разочаровании в собственных гипотезах:
- Проблема параметров: Мозг имеет триллионы параметров (синапсов), но живет всего пару миллиардов секунд. У него мало обучающих примеров, в отличие от нейросетей, которые имеют меньше параметров, но пропускают через себя колоссальные объемы данных .
- Метод обратной релаксации (Back Relaxation): Хинтон пытался доказать, что согласование прогноза «сверху вниз» и восприятия «снизу вверх» эффективнее простого наслоения автокодировщиков. Эксперименты показали, что обычное послойное обучение работает не хуже, что исследователь назвал «огромным разочарованием» .
Тем не менее, Хинтон считает, что индустрия возвращается к его идеям 2006 года: сначала использовать масштабное обучение без учителя (как это делают модели BERT и GPT-3), а затем проводить тонкую настройку .
🐜 Дистилляция знаний: метафора гусеницы и золота 36:54
Хинтон активно развивает идею «дистилляции» (distillation) — процесса передачи знаний от огромной, тяжелой модели к маленькой и быстрой . Он сравнивает это с жизненным циклом насекомых :
- Личинка (гусеница): «Машина по поеданию», оптимизированная для извлечения питательных веществ из среды. В ИИ это огромная модель, всасывающая структуру данных.
- Бабочка: Элегантная форма, оптимизированная для перемещения и взаимодействия. В ИИ это компактная нейросеть в смартфоне пользователя.
По словам Хинтона, большая модель работает как наставник: она уже нашла закономерности в хаосе данных и может объяснить их «ученику» (маленькой модели) гораздо эффективнее, чем если бы тот пытался учиться на сырых данных самостоятельно .
🤖 Будущее: робототехника, язык и здравый смысл 43:19
В контексте споров о том, понимают ли нейросети смысл слов (критика Гэри Маркуса), Хинтон ссылается на успехи Google в робототехнике. Когда робот говорит: «Я открываю ящик и достаю блок», и одновременно с этим реально выполняет эти действия, отрицать его «понимание» становится сложно .
Главные вызовы на горизонте по мнению Хинтона:
- Внимание (Attention): Для обработки видео роботам необходимо научиться решать, куда смотреть в следующий момент. Пассивное изучение статичных картинок не развивает этот навык .
- Действие в мире: Истинное понимание физики (например, как бросить мяч в корзину) приходит не через язык, а через активное взаимодействие с реальностью .
- Единая корреляция: Разница между обучением «с учителем» и «без учителя» надуманна. С точки зрения мозга, голос матери, произносящей слово «корова», — это просто еще один сложный сенсорный вход, который коррелирует с визуальным образом животного .