Педро Домингос: почему глубокое обучение зашло в тупик локального оптимума

Machine Learning Street Talk 8,8 тыс. 1 ч 28 мин 9 мин 26.02.2022
Главное

В новом выпуске подкаста Machine Learning Street Talk профессор Вашингтонского университета Педро Домингос (Pedro Domingos) делится критическим взглядом на современное состояние индустрии искусственного интеллекта. Известный исследователь разбирает методологические тупики глубокого обучения, объясняет фундаментальные различия между человеческим и машинным разумом, а также предлагает неожиданный взгляд на законы физики через призму теории Марковских цепей. Центральной темой беседы становится поиск «Верховного алгоритма» — единой концепции, способной объединить разрозненные школы машинного обучения и вывести ИИ из затянувшегося локального оптимума.

📘 Книга «Верховный алгоритм» и философия доступного ИИ 0:01

По словам Педро Домингоса, идея написания его знаменитой книги «Верховный алгоритм» возникла из понимания того, что машинное обучение перестало быть сугубо академической дисциплиной. Сегодня базовые принципы работы ИИ необходимо понимать каждому гражданину и руководителю, принимающему решения. При этом гость подчеркивает, что обычному человеку не нужно погружаться в математические дебри, такие как стохастический градиентный спуск.

Для объяснения своей позиции Домингос приводит понятную аналогию с автомобилем:

«Вам не нужно знать, как устроен двигатель внутреннего сгорания — это работа для автомехаников и инженеров. Но вам совершенно необходимо понимать, как работают руль и педали, иначе вы никуда не уедете».

Современный ИИ, по мнению профессора, похож на беспилотный автомобиль, который подъезжает к вашему дому и обещает отвезти куда угодно, однако пассажир должен четко осознавать ограничения этой технологии.


🧠 Иллюзия антропоморфизма и истинная природа интеллекта 2:16

Ведущие подкаста упоминают концепцию Мелани Митчелл о «четырех заблуждениях в ИИ», включая ловушку антропоморфных метафор и иллюзию непрерывного прогресса на пути к сильному искусственному интеллекту (AGI). Педро Домингос соглашается с тем, что крупнейшие корпорации и их генеральные директора регулярно совершают критические и финансово затратные ошибки из-за полного непонимания природы ИИ. Главным системным заблуждением он называет отождествление искусственного интеллекта с человеческим.

Строгое техническое определение искусственного интеллекта, которое дает Домингос, звучит далеко не так романтично, как статьи в прессе:

Профессор призывает обратить внимание на «ошибку гомункула» (homunculus fallacy). Это ментальная ловушка, в которой человеку кажется, будто внутри каждой нейросети сидит маленький человечек, дергающий за ниточки и обладающий волей. На самом же деле обыватель ежедневно взаимодействует с алгоритмами, принимающими за него решения на основе простейшей логистической регрессии или наивного байесовского классификатора, работающих исключительно с корреляциями признаков.

Для профессионального сообщества Домингос предлагает шкалу интеграции с ИИ: от докторов наук (PhD), глубоко понимающих оптимизацию и статистику, до конечных пользователей ИИ-инструментов. Посередине находятся специалисты, способные строить модели своей предметной области (например, с помощью марковской логики), объединяя личный опыт с данными без необходимости понимать «кровавые подробности» низкоуровневых алгоритмов.


🛠️ Тупик глубокого обучения и пять «племен» ИИ 9:58

В беседе затрагивается недавняя научная работа Педро Домингоса, которая доказывает: любая модель, обученная с помощью градиентного спуска, эквивалентна ядерной машине (kernel machine). Из этого гость делает вывод, что все современные достижения глубокого обучения могут оказаться лишь вариацией старых и хорошо известных ядерных методов, а индустрия занимается простым «коллекционированием почтовых марок» вместо серьезной науки.

В своей книге автор выделяет пять основных интеллектуальных направлений («племен») в сфере ИИ:

  1. Символисты — фокусируются на логике и обратном выводе. Они незаменимы там, где требуется создание композиционного, структурированного знания.
  2. Байесовцы — оперируют вероятностным выводом и обновлением гипотез.
  3. Коннекционисты — развивают идеи нейросетей и обратного распространения ошибки (backpropagation).
  4. Эволюционисты — используют генетические алгоритмы и симулируют естественный отбор.
  5. Аналогизаторы — строят выводы на основе поиска сходств (например, метод опорных векторов).

Домингос утверждает, что для победы над раком или создания полноценной робототехники ИИ должен решить пять фундаментальных проблем, подвластных только кооперации этих подходов. В связи с этим профессор упоминает свой затянувшийся спор с главой ИИ-направления Meta Янном Лекуном (Yann LeCun). Лекун убежден, что искусственный интеллект будет полностью построен на базе градиентного спуска. Домингос считает такую слепую веру в backprop опасным заблуждением:

«Сторонники идеи, что интеллект можно решить исключительно градиентным спуском, должны сначала объяснить, как ученые совершают великие научные открытия, не используя в своей голове никакого градиентного спуска».

В качестве контраргумента против доминирования коннекционистов гость приводит биологию человеческого мозга. Единственная структура мозга, отдаленно напоминающая backprop по механике — это мозжечок. Однако ключевое свойство мозжечка, отвечающего за моторику (например, умение кататься на велосипеде), заключается в том, что освоенный навык фиксируется на всю жизнь. Искусственные же нейросети страдают от катастрофического забывания (catastrophic forgetting) при попытке обучить их чему-то новому, что доказывает их неестественность.


⚡ Проблема разреженности, энергопотребление и «машинная лотерея» 22:11

Обсуждая гипотезу «лотерейного билета» Джонатана Франкеля и разработки компании Numenta Джеффа Хокинса, собеседники приходят к выводу, что современная архитектура ИИ находится в заложниках у математического удобства. Градиентный спуск эффективно работает только на плотных (dense) многослойных перцептронах, поэтому инженеры искусственно раздувают сети до триллионов параметров, 99,9% из которых избыточны.

Педро Домингос подчеркивает, что природа шла по принципиально иному пути, где главным ограничителем выступало энергопотребление:

Глава ИИ в Google Джефф Дин (Jeff Dean), по словам Домингоса, тоже признает необходимость перехода к разреженным (sparse) сетям. В мозге человека в конкретный момент времени активна лишь малая часть нейронов.

Профессор вспоминает исторический курьез: на заре новой волны глубокого обучения (около 2002–2003 годов) на закрытом воркшопе из 50 специалистов Эндрю Ын (Andrew Ng) увлеченно доказывал, что ИИ будет решен со дня на день, поскольку наука разгадала механизм работы зрительной коры V1 — и это было разреженное кодирование (sparse coding). Однако затем случился триумф архитектуры AlexNet, и индустрия свернула на путь создания огромных избыточных матриц. Главную роль здесь сыграл феномен «машинной лотереи»: графические процессоры (GPU) дали колоссальное, но несправедливое вычислительное преимущество именно плотным нейросетям, задвинув более элегантные методы в тень.

Сегодня Google вынуждена бороться за разреженность моделей хотя бы на этапе инференса (выполнения), поскольку оплата гигантских счетов за электричество для дата-центров лежится тяжелым бременем на бюджет компании. Профессор делится инсайдом: его коллега недавно продал корпорации Apple стартап, который занимается экстремальным сжатием сетей до 1 бита на один вес, что позволяет запускать их локально на смартфонах.


🔄 Модели мира: генеративный подход против дискриминативного 30:09

Говоря о современных работах Йошуа Бенжио (Yoshua Bengio) и его теории G-FlowNet, собеседники обсуждают концепцию «моделей мира» (World Models). Многие физики и математики считают дискриминативное обучение (когда сеть просто классифицирует признаки) поверхностным «хакерством», отдавая приоритет строгому генеративному обучению.

Однако Домингос, апеллируя к эволюционной биологии, заявляет, что генеративные модели в чистом виде — непозволительная роскошь:

«Обычная муха обладает исключительно дискриминативной моделью мира. Попытка загрузить в её крошечную нервную систему полноценную генеративную модель привела бы к мгновенной гибели особи из-за энергетического истощения, в то время как более простые мухи выжили бы».

По мнению гостя, полноценная генеративная модель формируется в мозге естественным образом лишь тогда, когда дискриминативная модель становится достаточно мощной и гибкой, чтобы улавливать инварианты окружающей среды. Предиктивное кодирование в биологических системах существует не ради созерцания, а строго для управления действием (action execution). Все, что не помогает выживать и принимать решения, безжалостно отсекается эволюцией.


⚖️ Переосмысление Систем 1 и 2: от поиска к инстинкту 34:20

Домингос указывает на то, что ИИ-сообщество в корне неверно интерпретирует психологическую концепцию Даниэля Канемана о Системе 1 (быстрое, автоматическое мышление) и Системе 2 (медленное, осознанное рассуждение). В кругах разработчиков принято считать, что Система 1 — это распознавание образов нейросетями, а Система 2 — это логические рассуждения и символьный поиск, которые еще только предстоит воссоздать.

Сам Канеман, как утверждает Домингос, критикует такое разделение. Настоящая модель мира заложена как раз внутри Системы 1. Это всё то, что мы делаем на автомате благодаря жестко скомпилированным в нейронных связях паттернам. Только когда Система 1 дает сбой, мозг активирует тяжелый, энергозатратный и медленный последовательный поиск — Систему 2.

Ярким примером этой синергии Домингос называет алгоритм AlphaGo от Google DeepMind:

Для сравнения гость напоминает о матче Гарри Каспарова против суперкомпьютера Deep Blue в 1997 году. В Deep Blue не было вообще никакого машинного обучения — исключительно чистый, запрограммированный перебор вариантов (поиск), которого, тем не менее, хватило для победы над чемпионом мира.


🎯 Иллюзия причинно-следственных связей в машинном обучении 1:04:16

Педро Домингос выражает скепсис по поводу повального увлечения термином «причинность» (causality) в статьях по глубокому обучению. Если в работах математика Джуды Перла этот термин строго формализован, то в устах современных исследователей нейросетей он превратился в «магическую пыльцу» (causal pixie dust), которой пытаются посыпать любые методологические прорехи.

С точки зрения профессора, причинно-следственные связи — это удобная ментальная иллюзия, облегчающая выживание, наряду с концепцией свободы воли. Машины прекрасно ищут корреляции, но для перехода к действиям этого мало. Настоящее понимание причинности сводится к способности системы предсказать эффект от своего действия, которое она еще ни разу не совершала в реальности. В терминах машинного обучения теория причинности — это просто априорное смещение (inductive bias), позволяющее обобщать опыт.

В подтверждение своих мыслей исследователь цитирует создателя теории информации Клода Шеннона:

«Мы имеем знание о прошлом, но не можем его контролировать. Мы можем контролировать будущее, но не имеем о нем никаких знаний».


🌌 Вселенная как Марковская цепь: новый взгляд на энтропию и физику 1:10:05

В финальной части интервью ведущие просят Домингоса прокомментировать его резонансный твит: «Если информация сохраняется, а Вселенная конечна, то она циклична, а закон энтропии ложен». Профессор уверяет, что это не было попыткой дешевой провокации — за фразой стоит строгий математический аппарат теории информации. По его мнению, физики пребывают в глубоком заблуждении относительно природы энтропии последние 200 лет.

Взгляд со стороны Computer Science на второй закон термодинамики от Педро Домингоса:

Поскольку Андрей Марков создал свою теорию в 1913 году, отцы термодинамики просто не имели этого математического аппарата и были вынуждены придумывать сложные непрерывные абстракции. Домингос убежден, что непрерывность пространства и времени — это лишь удобная математическая иллюзия. В реальности никто и никогда не наблюдал бесконечных или бесконечно малых (инфинитезимальных) величин. Любое измерение в физическом мире квантовано: от щелчка счетчика Гейгера и детектора фотонов до молекулы родопсина в сетчатке человеческого глаза или дискретного переключения атома в атомных часах.

Современная теоретическая физика, по мнению гостя, зашла в тупик именно из-за попыток интегрировать непрерывные величины, что порождает бесконечные расходимости в квантовой теории поля и требует постоянных математических ухищрений в виде перенормировок. Профессор признается, что среди современных физических концепций ему ближе всего петлевая квантовая гравитация (где пространство представлено в виде графа отношений и узлов), которую он иронично называет «физикой для программистов», в противовес теории струн — «физике для электротехников».

В самом конце беседы Педро Домингос предлагает радикальный путь: для примирения квантовой механики и гравитации науке необходимо вернуться к истокам, пересмотреть базовые постулаты Исаака Ньютона и признать пространство и время латентными (скрытыми) переменными, которые наш разум искусственно вывел для описания дискретных наблюдений.

💬 Цитаты

«Вам не нужно знать, как устроен двигатель внутреннего сгорания — это работа для автомехаников и инженеров. Но вам совершенно необходимо понимать, как работают руль и педали, иначе вы никуда не уедете»

Педро Домингос 2:02

«Сторонники идеи, что интеллект можно решить исключительно градиентным спуском, должны сначала объяснить, как ученые совершают великие научные открытия, не используя в своей голове никакого градиентного спуска»

Педро Домингос 21:44
👥 Спикеры
📚 Упомянутые книги
📖 Термины
Градиентный спуск (Gradient Descent)
Метод оптимизации параметров модели (весов нейросети) путем последовательного движения в сторону наименьшего значения функции ошибки.
Предиктивное кодирование
Нейробиологическая теория, согласно которой мозг постоянно генерирует предсказания о сенсорных данных и обрабатывает только ошибки несоответствия.
Марковская логика
Комбинация логики первого порядка и вероятностных графических моделей (марковских сетей) для моделирования неопределенности.
Ядерная машина (Kernel Machine)
Класс алгоритмов машинного обучения (например, SVM), которые проецируют данные в многомерное пространство для поиска линейных зависимостей.
📊 Цифры
🗓 Хронология
  1. 1913 Андрей Марков разрабатывает теорию вероятностных последовательностей (Марковских цепей).
  2. 1997 Суперкомпьютер Deep Blue побеждает Гарри Каспарова в шахматном матче, используя исключительно символьный поиск без машинного обучения.
  3. 2012 Триумф нейросети AlexNet на конкурсе ImageNet запускает современную эпоху плотных глубоких нейросетей и доминирования GPU.
⚖️ Другая сторона
Искусственный интеллект Педро Домингос глубокое обучение Верховный алгоритм Марковские цепи Ян Лекун