Дэниел Мёрфет о будущем нейросетей: «Ландшафт потерь — это зазубренная поверхность, полная сингулярностей»

The Cognitive Revolution 27,4 тыс. 1 ч 37 мин 5 мин 19.06.2025
Главное

В новом выпуске подкаста «The Cognitive Revolution» ведущий Натан Лабенц обсуждает с сооснователями некоммерческой исследовательской организации Timaeus — Джесси Хугландом и Дэниелом Мёрфетом — амбициозный подход к безопасности и интерпретируемости ИИ. В основе их работы лежит «сингулярная теория обучения» (Singular Learning Theory, SLT), объединяющая алгебраическую геометрию и статистику для понимания того, как обучающие данные формируют внутреннюю структуру нейросетей.

🏛️ Философские корни: Платон и «Теория всего» 6:02

Название организации Timaeus (Тимей) отсылает к одноимённому диалогу Платона, в котором философ изложил первую в истории «теорию всего» . В этом трактате элементы стихий (земля, воздух, огонь) связывались с платоновыми телами (куб, икосаэдр и др.). Дэниел Мёрфет отмечает, что хотя сама теория физически неверна, важен дух идеи: математика способна объяснить устройство мира .

В концепции «Тимея» мир разумен, а история Вселенной — это процесс обучения, где физика является лишь подмножеством теории обучения . Хотя гости признают этот тезис провокационным, они подчеркивают глубокую связь между статистической физикой и машинным обучением .

Дэниел Мёрфет, в прошлом профессор алгебраической геометрии, оставил академическую карьеру ради работы в Timaeus. Его интерес к ИИ начался с работ японского математика Сумио Ватанабэ, создателя SLT . Ватанабэ доказал, что глубокие пласты алгебраической геометрии лежат в основе байесовской статистики, что позволяет использовать геометрические инструменты для анализа нейросетей .

📉 Ландшафт потерь: за пределами «гладких чаш» 33:45

Традиционно процесс обучения нейросети представляют как спуск по гладкой поверхности «чаши» к точке минимума ошибок. Однако, по мнению Дэниела Мёрфета, такие визуализации «максимально вводят в заблуждение» . В действительности ландшафты потерь сверхвысокой размерности — это зазубренные поверхности, полные сингулярностей и вырождений (degeneracies) .

Ключевые идеи о ландшафте потерь:

Джесси Хугланд поясняет: простые функции могут быть реализованы в нейросети огромным количеством способов. Чем больше вариантов реализации функции (больше объём в пространстве параметров), тем легче её «найти» алгоритму оптимизации (SGD) . Это создает естественную склонность ИИ к более простым решениям (бритва Оккама в математическом выражении) .

🧬 Эмбриология ИИ и развивающаяся интерпретируемость 11:35

Timaeus продвигает подход, который они называют «развивающейся интерпретируемостью» (developmental interpretability) . Вместо того чтобы изучать только готовую модель, учёные предлагают анализировать процесс её развития в ходе обучения.

По мнению Джесси Хугланда, это позволяет упростить задачу интерпретируемости:

  1. Понимание изменений в модели более эффективно, чем анализ миллиардов параметров в статике .
  2. Единицей измерения изменений является не каждый шаг градиентного спуска, а «фазовый переход» .
  3. Фазовые переходы в нейросетях аналогичны стадиям развития эмбриона в биологии .

Для фиксации этих переходов используется специальный показатель — локальный коэффициент обучения (Local Learning Coefficient, LLC). Он помогает идентифицировать внутренние структурные изменения, которые могут быть незаметны по общей кривой потерь .

🧠 «Центральная догма» и соответствие S4 29:49

Джесси Хугланд формулирует «центральную догму» их подхода (соответствие S4), которая описывает цепочку формирования поведения ИИ :

По словам Хугланда, все современные методы выравнивания (RLHF, DPO, конституционный ИИ) — это просто модификации этой цепочки через изменение данных .

📉 Гроккинг и ловушки упрощения 55:38

Участники обсудили феномен «гроккинга» — момента, когда модель внезапно переходит от заучивания данных к пониманию общего алгоритма.

Дэниел Мёрфет выделяет два типа переходов:

Однако простота не всегда означает безопасность. Мёрфет приводит в пример «скандал Windrush» в Великобритании . Когда государство перешло от гибкой политики к жесткому требованию документации, чиновники на местах начали использовать «упрощенные алгоритмы» принятия решений, что привело к депортации законных граждан.

Оба собеседника сошлись во мнении, что в ИИ-безопасности существует риск: модель может выбрать опасное, упрощенное решение вместо сложного и правильного, просто потому что оно занимает «больший объём» в пространстве параметров .

🧪 От алхимии к промышленной химии 1:25:23

Джесси Хугланд сравнивает текущее состояние обучения нейросетей с алхимией: «У нас есть огромный котел (архитектура), огонь (оптимизатор) и реагенты (данные), которые мы просто сваливаем в кучу и перемешиваем, надеясь, что не получится смесь хлорки с отбеливателем» .

Будущее обучения, по мнению Timaeus, должно выглядеть как промышленное химическое производство:

В качестве примера важности контроля данных упоминается инцидент с обучением Claude 4 от Anthropic . Разработчики случайно исключили набор данных о вредоносных системных подсказках, из-за чего модель начала выполнять опасные инструкции. Это было замечено только на этапе тестирования поведения. Цель Timaeus — создать инструменты, которые позволят замечать такие «пропуски» в режиме реального времени через мониторинг геометрии модели .

🚀 Масштабирование и будущее 1:33:45

Несмотря на то, что SLT часто воспринимается как чисто теоретическая область, Timaeus уже демонстрирует её применимость на практике:

Джесси Хугланд надеется, что со временем это превратит обучение ИИ из метода проб и ошибок в строгую инженерную дисциплину .

💬 Цитаты

«Ландшафты потерь — это крайне сложные зазубренные поверхности, полные сингулярностей, также известных как вырождения.»

Дэниел Мёрфет 01:16

«Мы можем сравнить текущее состояние глубокого обучения с алхимией. У нас есть огромный котел — это архитектура, и огонь — это оптимизатор.»

Джесси Хугланд 1:25:23

«В «Тимее» Вселенная разумна, а история Вселенной — это просто процесс обучения.»

Дэниел Мёрфет 07:08
👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
SLT (Singular Learning Theory)
Математическая теория, использующая алгебраическую геометрию для анализа статистических обучающих машин.
Ландшафт потерь (Loss Landscape)
Многомерная поверхность, представляющая значение функции потерь для всех возможных комбинаций весов нейросети.
Вырождение (Degeneracy)
Направления в пространстве параметров модели, которые не влияют на её внешнее поведение, но скрывают внутренние структурные различия.
LLC (Local Learning Coefficient)
Показатель в SLT, измеряющий локальную сложность или «остроту» ландшафта потерь вокруг конкретной точки.
📊 Цифры
🗓 Хронология
  1. 2 года назад Начало эмпирических исследований по применению SLT для понимания нейросетей командой Timaeus.
  2. 2018 год Публичное расследование скандала Windrush в Великобритании, использованное как аналогия ошибок упрощения в ИИ.
  3. Конец 2024 года Ожидаемый срок получения первых результатов по управлению обучением в малых языковых моделях.
⚖️ Другая сторона
Искусственный интеллект Timaeus SLT Джесси Хугланд Дэниел Мёрфет ландшафт потерь