# Джесси Хугланд: «Современное обучение ИИ — это алхимия, а нам нужна нефтепереработка»

Источник: https://www.youtube.com/watch?v=Cy0m-JmR3JQ
Канал: The Cognitive Revolution
Опубликовано: 19.06.2025

---

В новом выпуске подкаста The Cognitive Revolution ведущий Натан Лабенц обсуждает с сооснователями некоммерческой исследовательской организации Timaeus Джесси Хугландом и Дэниелом Мёрфетом революционный подход к безопасности ИИ. В основе их работы лежит «сингулярная теория обучения» (Singular Learning Theory, SLT), которая использует методы алгебраической геометрии для понимания того, как обучающие данные формируют внутреннюю структуру нейросетей и определяют их способность к обобщению.

## 🏛️ Timaeus и математические корни теории всего
[[JUMP:06:02]]

Название организации Timaeus отсылает к одноименному диалогу Платона, в котором философ представил первую «теорию всего», связав элементы природы с геометрическими формами [06:15]. По словам Дэниела Мёрфета, который ради этой работы оставил должность штатного профессора алгебраической геометрии, дух Timaeus заключается в поиске математических законов, управляющих «новой фазой материи» — системами глубокого обучения [06:56]. 

Дэниел Мёрфет пришел к изучению ИИ через работы японского математика Сумио Ватанабэ, создателя сингулярной теории обучения (SLT). Ватанабэ доказал, что глубокие разделы алгебраической геометрии имеют центральное значение для байесовской статистики [10:27]. Мёрфет утверждает, что геометрия ландшафта потерь (loss landscape) содержит критическую информацию для понимания нейросетей и управления ими, что имеет прямые приложения в области интерпретируемости и безопасности [12:39].

## 🧬 Эмбриология ИИ: интерпретируемость развития
[[JUMP:11:49]]

Timaeus продвигает концепцию «интерпретируемости развития» (developmental interpretability). В отличие от классического подхода, где анализируется уже обученная «черная коробка», Хугланд и Мёрфет предлагают изучать процесс эволюции нейросети во время обучения [12:02]. 

Джесси Хугланд выделяет следующие ключевые идеи этого подхода:

*   **Снижение сложности:** Вместо того чтобы пытаться понять триллионы параметров, можно изучать конечное число изменений (фазовых переходов), происходящих в процессе обучения [13:58].
*   **Фазовые переходы как единицы измерения:** SLT постулирует, что истинной единицей изменения является не отдельный шаг градиентного спуска, а качественный скачок в структуре модели — аналог стадий развития эмбриона в биологии [14:38].
*   **Локальный коэффициент обучения (LLC):** Это ключевой показатель в SLT, который позволяет обнаруживать внутренние фазовые переходы, часто невидимые на обычном графике функции потерь [02:36].

Джесси Хугланд отмечает, что в изученных ими системах количество таких значимых переходов намного меньше общего числа параметров, что делает задачу интерпретации выполнимой [14:51].

## 📉 Геометрия ландшафта потерь: миф о «гладких долинах»
[[JUMP:34:36]]

Одним из наиболее провокационных утверждений Дэниела Мёрфета является критика стандартных визуализаций ландшафта потерь. По его мнению, двумерные графики, изображающие потерю как гладкую чашу или долину, являются «максимально вводящими в заблуждение» [01:16]. 

Мёрфет объясняет особенности реальных ландшафтов потерь:

1.  **Сингулярности и вырожденность (Degeneracy):** Это направления в пространстве весов, двигаясь по которым модель не меняет свою внешнюю ошибку или поведение, но может радикально изменить свою внутреннюю логику (схемотехнику) [01:16].
2.  **Сложные пересечения:** На самом деле ландшафт потерь выглядит как нагромождение пересекающихся плоскостей и сложных геометрических форм, а не гладкая поверхность [35:57].
3.  **Популяционные потери:** Геометрия, определяющая способность к обобщению, — это «теоретический объект», к которому у нас нет прямого доступа, мы видим лишь его эмпирическое отражение через выборки данных [37:20].

Хугланд добавляет, что «простые» функции реализуются через более «вырожденные» (объемные) области в пространстве параметров. Согласно принципу бритвы Оккама, такие решения легче найти в процессе обучения, и именно они лучше всего обобщаются [38:54].

## 📜 Центральная догма S4 и механизмы обучения
[[JUMP:29:49]]

Джесси Хугланд формулирует «центральную догму» их подхода, которую они называют S4-соответствием. Она описывает цепочку передачи структуры:

*   **Структура в данных** определяет **структуру в геометрии** ландшафта потерь.
*   **Геометрия** определяет траекторию **процесса обучения** (SGD).
*   **Процесс обучения** выбирает конкретные **веса (структуру весов)**.
*   **Структура весов** определяет финальное **поведение и обобщение** модели [31:59].

Мёрфет подчеркивает, что сингулярности (точки, где градиент равен нулю) организуют глобальные траектории обучения [51:21]. В простых моделях, таких как автокодировщики, движение между окрестностями сингулярностей буквально соответствует «отращиванию» или «сокращению» определенных функциональных элементов модели [53:04].

## 🔄 Гроккинг и два типа фазовых переходов
[[JUMP:55:38]]

Собеседники обсуждают феномен «гроккинга» (внезапного перехода от зазубривания к пониманию алгоритма). С точки зрения SLT, существует два основных типа переходов:

1.  **Тип A (Усложнение):** Модель становится более сложной, чтобы лучше предсказывать данные. Это типичный процесс обучения [15:20].
2.  **Тип B (Упрощение/Гроккинг):** Модель находит более простой алгоритм для тех же данных при сохранении того же уровня потерь. Она «сжимает» свое внутреннее представление [15:46].

Мёрфет утверждает, что модель стремится минимизировать «свободную энергию», которая является суммой функции потерь и коэффициента сложности (LLC) [1:02:53]. Иногда модели «застревают» в простых, но не идеальных решениях. В эксперименте с контекстной линейной регрессией модель сначала учится обобщенному методу регрессии (простое решение), прежде чем перейти к запоминанию конкретных задач (сложное решение) [58:02].

## 🧪 От алхимии к нефтепереработке: будущее ИИ-инженерии
[[JUMP:1:24:05]]

Джесси Хугланд сравнивает современное обучение ИИ с алхимией: «У нас есть огромный котел (архитектура), огонь (оптимизатор) и реагенты (данные со всего интернета), которые мы просто перемешиваем в надежде на результат» [1:25:23]. 

Будущее, по мнению Timaeus, должно быть похоже на промышленную химию или нефтепереработку:

*   **Точные дозировки:** Понимание того, какие наборы данных и в какой концентрации нужно подавать на определенных этапах обучения [1:25:50].
*   **Предотвращение катастроф:** Хугланд приводит пример Claude 4 от Anthropic, где из обучающей смеси случайно выпал датасет по вредоносным системным подсказкам, что привело к нежелательному обобщению модели [1:27:08]. С помощью инструментов SLT такие ошибки можно было бы заметить еще во время обучения.
*   **Морфогены обучения:** Мёрфет проводит аналогию с биологическими морфогенами — молекулами, которые определяют развитие организма. В ИИ можно будет вводить специфические «данные-морфогены» в нужные моменты, чтобы направить развитие модели в сторону безопасности [1:16:19].

## 🔭 Масштабирование и цели
[[JUMP:1:31:06]]

Команда Timaeus уже показала, что их методы работают на моделях с 7 миллиардами параметров [02:48]. Они смогли обнаружить критические фазовые переходы, соответствующие появлению важных функциональных схем, таких как «индукционные головки» (induction heads) [1:11:54].

К концу года Timaeus планирует:

1.  Полностью валидировать методы обнаружения схем на 7B моделях [1:34:10].
2.  Провести первые эксперименты по активному управлению (steering) процессом обучения в малых моделях [1:34:17].
3.  Разработать методы аттрибуции данных на основе расширения SLT для функций влияния [1:34:23].

Хугланд и Мёрфет надеются, что их работа превратит обучение нейросетей из рискованного эксперимента в строгую инженерную дисциплину, гарантирующую безопасность создаваемых систем.