Александр Мэттик: «Нейронные сети — это просто деревья решений»

Yannic Kilcher 58,4 тыс. 31 мин 3 мин 21.10.2022
Главное

Нейронные сети как деревья решений: математическая эквивалентность и практический смысл 0:00

Исследователи давно искали способы «открыть» «черный ящик» нейронных сетей, чтобы понять логику их работы. Очередным шагом в этом направлении стало обсуждение математической эквивалентности между нейронными сетями с кусочно-линейными функциями активации (например, ReLU) и деревьями решений. В недавнем выпуске подкаста Янник Килчер и Александр Мэттик разобрали статью, утверждающую, что любую такую нейронную сеть можно переписать в виде дерева решений. Однако, несмотря на математическую элегантность этого доказательства, его практическая применимость и способность сделать современные глубокие сети «прозрачными» остаются под вопросом.

Математика «разворачивания» нейросети 1:07

Суть предложенного метода заключается в том, что нейронная сеть, по сути, представляет собой последовательность взвешенных сумм с нелинейными преобразованиями между ними. Если нелинейность является кусочно-линейной (как ReLU), то для любого конкретного входа сеть можно представить как набор локальных линейных функций.

По мнению Мэттика, это доказательство абсолютно корректно, хотя и не является принципиально новым открытием. Подобные идеи всплывали в литературе начиная с 1999 года как естественное следствие теории сплайнов в глубоком обучении.

Почему это не делает нейросети понятными? 5:30

Несмотря на теоретическую стройность, превращение нейросети в дерево решений не упрощает задачу интерпретации по нескольким причинам:

  1. Экспоненциальный рост: Количество областей линейности в нейросети растет колоссально быстро. Даже для крошечной сети, если попытаться построить соответствующее ей полное дерево решений, его глубина может достигать 16 и более уровней, что дает $2^{16}$ областей — число, с которым невозможно работать человеку.
  2. Потеря параллелизма: В нейронных сетях разные признаки (например, освещенность и форма объекта) могут обрабатываться параллельно. Дерево решений вынуждено задавать вопросы последовательно, из-за чего связь между признаками «размывается» по разным веткам, и алгоритм теряет способность видеть целостную картину.
  3. Природа «черного ящика»: Истинная сложность нейросетей заключается не в том, что каждый отдельный компонент труден для понимания, а в эмерджентных свойствах миллиардов параметров, работающих вместе. Дерево решений лишь переводит эту сложность из одной формы в другую.

Производительность: CPU против GPU 23:15

Авторы обсуждаемой статьи утверждают, что дерево решений может быть вычислительно эффективнее нейросети в плане количества операций. Мэттик поясняет нюанс:

Перспективы гибридных подходов 27:31

Несмотря на скепсис в отношении полной замены нейросетей деревьями, Мэттик видит потенциал в их использовании для аугментации (дополнения):

💬 Цитаты

«Истинная сложность нейросетей заключается в эмерджентных свойствах миллиардов параметров.»

Александр Мэттик 11:22

«Если мы зафиксируем вход, сеть ведет себя как линейная функция внутри области ReLU.»

Александр Мэттик 4:24
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
ReLU
Функция активации, которая возвращает входное значение, если оно положительно, и ноль в противном случае.
Кусочно-линейная функция
Функция, график которой состоит из нескольких соединенных отрезков прямых линий.
VC-размерность
Математическая мера сложности модели, определяющая количество точек, которые она может различать.
Сплайн
Функция, заданная отдельно на каждом из последовательных сегментов; в контексте нейросетей описывает области линейности.
VQ-GAN
Архитектура нейросети, часто используемая в генеративном искусстве, которая обучается на квантованных (дискретных) представлениях данных.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Neural Networks Decision Trees ReLU Alexander Mattick Yannic Kilcher