Пол и Кейт о кризисе Deep Learning и «алхимии»

Machine Learning Street Talk 99,2 тыс. 1 ч 48 мин 3 мин 01.04.2024
Главное

Фундаментальные основы машинного обучения: зачем глубокому обучению нужна структура? 0:00

Современный подход к Deep Learning, ориентированный на бездумное масштабирование вычислений, может быть тупиковым путем. Как утверждает Пол, сооснователь компании, занимающейся исследованиями в этой области, попытка «запомнить бесконечность» через подачу колоссальных объемов данных в нейронные сети не способна привести к конвергенции функционала. Вместо того чтобы полагаться на бесконечные вычислительные мощности, необходимо вернуться к изобретательности, новым математическим структурам и формализмам. Кейт добавляет, что работа нейросетей сейчас напоминает алхимию, а инженерные методы борьбы с ошибками — лишь «затыкание дыр» в системе, которая не обладает принципиальной прозрачностью.

## Математический каркас: категория и морфизмы 🌐 5:09

По мнению собеседников, текущее понимание нейронных сетей как «черных ящиков» требует замены на более строгий базис. В качестве альтернативы предлагается теория категорий — математический язык для абстрагирования структур.

## Проектирование языков для ML: тип вместо интуиции 🛠️ 19:07

Кейт и Пол сошлись на том, что программирование — это всегда создание домен-специфичного языка (DSL). Если мы сможем создать DSL, формально описывающий архитектуру нейронных сетей, мы перейдем к «тип-ориентированному глубокому обучению» (type-driven deep learning).

  1. Формализация: Вместо отладки по принципу «проб и ошибок» (как в нейробиологии), инженеры смогут доказывать теоремы о поведении систем.
  2. Новые архитектуры: Цель — не просто улучшить текущие трансформеры, а создать архитектуры, способные к рекурсии и работе с памятью, которые фундаментально ограничены в текущих моделях.
  3. Абстракция: Как отмечал Александр Степанов, создатель Standard Template Library (STL) для C++, даже шаблонное метапрограммирование было попыткой втиснуть логику алгоритмов в типы. Теория категорий может стать следующим этапом эволюции этого процесса.

## Парадокс Тьюринга: почему нейросети не «рассуждают»? 🧠 37:38

Собеседники провели четкую границу между тем, что делают современные нейросети, и тем, что делает машина Тьюринга.

## Будущее: «наука о функциях» или формальная инженерия? 🚀 52:08

Финальный тезис дискуссии: текущее доминирование «алхимических» методов обучения — это следствие отсутствия компиляторов, которые могли бы превращать формальные высокоуровневые спецификации в эффективные нейросетевые модули.

💬 Цитаты

«Если это не очевидно, вы еще не готовы работать над этой проблемой.»

Александр Гротендик 1:04:19

«Рассуждение — это придумывание причин для вещей. Рассуждение — это объяснения.»

«Обучающие данные — это чертова программа. Нейросеть — это компилятор.»

👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Теория категорий
Математическая дисциплина, изучающая абстрактные структуры и отношения между ними.
Монада
Абстракция в теории категорий, позволяющая связывать операции и структурировать вычисления.
Геометрическое глубокое обучение (GDL)
Подход к архитектурам, учитывающий геометрические симметрии и инварианты данных.
Машина Тьюринга
Абстрактная вычислительная модель с расширяемой памятью, определяющая границы вычислимости.
Морфизм
Обобщение понятия функции; связь между двумя объектами в категории.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Category Theory Deep Learning Machine Learning Street Talk Turing Machine Monads