# Дэниел Мёрфет о будущем нейросетей: «Ландшафт потерь — это зазубренная поверхность, полная сингулярностей»

Источник: https://www.youtube.com/watch?v=Cy0m-JmR3JQ
Канал: The Cognitive Revolution
Опубликовано: 19.06.2025

---

В новом выпуске подкаста «The Cognitive Revolution» ведущий Натан Лабенц обсуждает с сооснователями некоммерческой исследовательской организации Timaeus — Джесси Хугландом и Дэниелом Мёрфетом — амбициозный подход к безопасности и интерпретируемости ИИ. В основе их работы лежит «сингулярная теория обучения» (Singular Learning Theory, SLT), объединяющая алгебраическую геометрию и статистику для понимания того, как обучающие данные формируют внутреннюю структуру нейросетей.

## 🏛️ Философские корни: Платон и «Теория всего»
[[JUMP:06:02]]

Название организации Timaeus (Тимей) отсылает к одноимённому диалогу Платона, в котором философ изложил первую в истории «теорию всего» [06:15]. В этом трактате элементы стихий (земля, воздух, огонь) связывались с платоновыми телами (куб, икосаэдр и др.). Дэниел Мёрфет отмечает, что хотя сама теория физически неверна, важен дух идеи: математика способна объяснить устройство мира [06:56]. 

В концепции «Тимея» мир разумен, а история Вселенной — это процесс обучения, где физика является лишь подмножеством теории обучения [07:08]. Хотя гости признают этот тезис провокационным, они подчеркивают глубокую связь между статистической физикой и машинным обучением [08:41].

Дэниел Мёрфет, в прошлом профессор алгебраической геометрии, оставил академическую карьеру ради работы в Timaeus. Его интерес к ИИ начался с работ японского математика Сумио Ватанабэ, создателя SLT [10:27]. Ватанабэ доказал, что глубокие пласты алгебраической геометрии лежат в основе байесовской статистики, что позволяет использовать геометрические инструменты для анализа нейросетей [10:42].

## 📉 Ландшафт потерь: за пределами «гладких чаш»
[[JUMP:33:45]]

Традиционно процесс обучения нейросети представляют как спуск по гладкой поверхности «чаши» к точке минимума ошибок. Однако, по мнению Дэниела Мёрфета, такие визуализации «максимально вводят в заблуждение» [01:03]. В действительности ландшафты потерь сверхвысокой размерности — это зазубренные поверхности, полные сингулярностей и вырождений (degeneracies) [01:16].

Ключевые идеи о ландшафте потерь:

*   **Вырождение (Degeneracy):** Это направления в пространстве весов, двигаясь по которым модель не меняет своё внешнее поведение или показатель потерь, но может радикально менять внутреннюю архитектуру (схемы) [01:16].
*   **Сингулярности:** Точки, где градиент равен нулю во всех направлениях. Они организуют траектории обучения, подобно тому как максимумы и минимумы определяют форму кривой в расчетах [51:08].
*   **Геометрия и обобщение:** Согласно SLT, именно количество «долин» или «каньонов» (степень вырождения) определяет, насколько хорошо модель будет обобщать знания [38:26]. 

Джесси Хугланд поясняет: простые функции могут быть реализованы в нейросети огромным количеством способов. Чем больше вариантов реализации функции (больше объём в пространстве параметров), тем легче её «найти» алгоритму оптимизации (SGD) [38:54]. Это создает естественную склонность ИИ к более простым решениям (бритва Оккама в математическом выражении) [39:08].

## 🧬 Эмбриология ИИ и развивающаяся интерпретируемость
[[JUMP:11:35]]

Timaeus продвигает подход, который они называют «развивающейся интерпретируемостью» (developmental interpretability) [02:22]. Вместо того чтобы изучать только готовую модель, учёные предлагают анализировать процесс её развития в ходе обучения.

По мнению Джесси Хугланда, это позволяет упростить задачу интерпретируемости:

1.  Понимание изменений в модели более эффективно, чем анализ миллиардов параметров в статике [13:33].
2.  Единицей измерения изменений является не каждый шаг градиентного спуска, а «фазовый переход» [14:38].
3.  Фазовые переходы в нейросетях аналогичны стадиям развития эмбриона в биологии [14:38].

Для фиксации этих переходов используется специальный показатель — **локальный коэффициент обучения (Local Learning Coefficient, LLC)**. Он помогает идентифицировать внутренние структурные изменения, которые могут быть незаметны по общей кривой потерь [02:36].

## 🧠 «Центральная догма» и соответствие S4
[[JUMP:29:49]]

Джесси Хугланд формулирует «центральную догму» их подхода (соответствие S4), которая описывает цепочку формирования поведения ИИ [31:47]:

*   **Данные (Data)** определяют геометрию ландшафта потерь.
*   **Геометрия (Geometry)** определяет путь процесса обучения.
*   **Процесс обучения (Learning process)** выбирает финальные веса.
*   **Веса (Weights)** определяют алгоритмы и итоговое поведение модели.

По словам Хугланда, все современные методы выравнивания (RLHF, DPO, конституционный ИИ) — это просто модификации этой цепочки через изменение данных [31:22].

## 📉 Гроккинг и ловушки упрощения
[[JUMP:55:38]]

Участники обсудили феномен «гроккинга» — момента, когда модель внезапно переходит от заучивания данных к пониманию общего алгоритма. 

Дэниел Мёрфет выделяет два типа переходов:

*   **Тип A:** Модель становится сложнее, чтобы усвоить больше информации (нормальное обучение) [15:20].
*   **Тип B:** Модель находит более простое объяснение для тех же данных при сохранении уровня точности (гроккинг) [15:46].

Однако простота не всегда означает безопасность. Мёрфет приводит в пример «скандал Windrush» в Великобритании [1:21:54]. Когда государство перешло от гибкой политики к жесткому требованию документации, чиновники на местах начали использовать «упрощенные алгоритмы» принятия решений, что привело к депортации законных граждан. 

Оба собеседника сошлись во мнении, что в ИИ-безопасности существует риск: модель может выбрать опасное, упрощенное решение вместо сложного и правильного, просто потому что оно занимает «больший объём» в пространстве параметров [1:23:25].

## 🧪 От алхимии к промышленной химии
[[JUMP:1:25:23]]

Джесси Хугланд сравнивает текущее состояние обучения нейросетей с алхимией: «У нас есть огромный котел (архитектура), огонь (оптимизатор) и реагенты (данные), которые мы просто сваливаем в кучу и перемешиваем, надеясь, что не получится смесь хлорки с отбеливателем» [1:25:35].

Будущее обучения, по мнению Timaeus, должно выглядеть как промышленное химическое производство:

*   Точное знание концентрации и состава данных [1:26:04].
*   Понимание того, в какой конкретный момент обучения нужно добавить определённый набор данных [1:26:55].
*   Использование катализаторов для управления фазовыми переходами.

В качестве примера важности контроля данных упоминается инцидент с обучением Claude 4 от Anthropic [1:27:08]. Разработчики случайно исключили набор данных о вредоносных системных подсказках, из-за чего модель начала выполнять опасные инструкции. Это было замечено только на этапе тестирования поведения. Цель Timaeus — создать инструменты, которые позволят замечать такие «пропуски» в режиме реального времени через мониторинг геометрии модели [03:25].

## 🚀 Масштабирование и будущее
[[JUMP:1:33:45]]

Несмотря на то, что SLT часто воспринимается как чисто теоретическая область, Timaeus уже демонстрирует её применимость на практике:

*   Исследователи смогли масштабировать методы с «игрушечных моделей» до сетей с **7 миллиардами параметров** [02:48].
*   Удалось идентифицировать моменты фазовых переходов, соответствующие появлению важных функциональных схем (например, индукционных схем) [03:01].
*   До конца года команда планирует подтвердить методы обнаружения нейронных схем в моделях 7B и начать эксперименты по управлению процессом обучения (steering) [1:34:10].

Джесси Хугланд надеется, что со временем это превратит обучение ИИ из метода проб и ошибок в строгую инженерную дисциплину [03:38].