Джесси Хугланд: «Современное обучение ИИ — это алхимия, а нам нужна нефтепереработка»

В новом выпуске подкаста The Cognitive Revolution ведущий Натан Лабенц обсуждает с сооснователями некоммерческой исследовательской организации Timaeus Джесси Хугландом и Дэниелом Мёрфетом революционный подход к безопасности ИИ. В основе их работы лежит «сингулярная теория обучения» (Singular Learning Theory, SLT), которая использует методы алгебраической геометрии для понимания того, как обучающие данные формируют внутреннюю структуру нейросетей и определяют их способность к обобщению.

🏛️ Timaeus и математические корни теории всего 6:02

Название организации Timaeus отсылает к одноименному диалогу Платона, в котором философ представил первую «теорию всего», связав элементы природы с геометрическими формами . По словам Дэниела Мёрфета, который ради этой работы оставил должность штатного профессора алгебраической геометрии, дух Timaeus заключается в поиске математических законов, управляющих «новой фазой материи» — системами глубокого обучения .

Дэниел Мёрфет пришел к изучению ИИ через работы японского математика Сумио Ватанабэ, создателя сингулярной теории обучения (SLT). Ватанабэ доказал, что глубокие разделы алгебраической геометрии имеют центральное значение для байесовской статистики . Мёрфет утверждает, что геометрия ландшафта потерь (loss landscape) содержит критическую информацию для понимания нейросетей и управления ими, что имеет прямые приложения в области интерпретируемости и безопасности .

🧬 Эмбриология ИИ: интерпретируемость развития 11:49

Timaeus продвигает концепцию «интерпретируемости развития» (developmental interpretability). В отличие от классического подхода, где анализируется уже обученная «черная коробка», Хугланд и Мёрфет предлагают изучать процесс эволюции нейросети во время обучения .

Джесси Хугланд выделяет следующие ключевые идеи этого подхода:

Снижение сложности: Вместо того чтобы пытаться понять триллионы параметров, можно изучать конечное число изменений (фазовых переходов), происходящих в процессе обучения .
Фазовые переходы как единицы измерения: SLT постулирует, что истинной единицей изменения является не отдельный шаг градиентного спуска, а качественный скачок в структуре модели — аналог стадий развития эмбриона в биологии .
Локальный коэффициент обучения (LLC): Это ключевой показатель в SLT, который позволяет обнаруживать внутренние фазовые переходы, часто невидимые на обычном графике функции потерь .

Джесси Хугланд отмечает, что в изученных ими системах количество таких значимых переходов намного меньше общего числа параметров, что делает задачу интерпретации выполнимой .

📉 Геометрия ландшафта потерь: миф о «гладких долинах» 34:36

Одним из наиболее провокационных утверждений Дэниела Мёрфета является критика стандартных визуализаций ландшафта потерь. По его мнению, двумерные графики, изображающие потерю как гладкую чашу или долину, являются «максимально вводящими в заблуждение» .

Мёрфет объясняет особенности реальных ландшафтов потерь:

Сингулярности и вырожденность (Degeneracy): Это направления в пространстве весов, двигаясь по которым модель не меняет свою внешнюю ошибку или поведение, но может радикально изменить свою внутреннюю логику (схемотехнику) .
Сложные пересечения: На самом деле ландшафт потерь выглядит как нагромождение пересекающихся плоскостей и сложных геометрических форм, а не гладкая поверхность .
Популяционные потери: Геометрия, определяющая способность к обобщению, — это «теоретический объект», к которому у нас нет прямого доступа, мы видим лишь его эмпирическое отражение через выборки данных .

Хугланд добавляет, что «простые» функции реализуются через более «вырожденные» (объемные) области в пространстве параметров. Согласно принципу бритвы Оккама, такие решения легче найти в процессе обучения, и именно они лучше всего обобщаются .

📜 Центральная догма S4 и механизмы обучения 29:49

Джесси Хугланд формулирует «центральную догму» их подхода, которую они называют S4-соответствием. Она описывает цепочку передачи структуры:

Структура в данных определяет структуру в геометрии ландшафта потерь.
Геометрия определяет траекторию процесса обучения (SGD).
Процесс обучения выбирает конкретные веса (структуру весов).
Структура весов определяет финальное поведение и обобщение модели .

Мёрфет подчеркивает, что сингулярности (точки, где градиент равен нулю) организуют глобальные траектории обучения . В простых моделях, таких как автокодировщики, движение между окрестностями сингулярностей буквально соответствует «отращиванию» или «сокращению» определенных функциональных элементов модели .

🔄 Гроккинг и два типа фазовых переходов 55:38

Собеседники обсуждают феномен «гроккинга» (внезапного перехода от зазубривания к пониманию алгоритма). С точки зрения SLT, существует два основных типа переходов:

Тип A (Усложнение): Модель становится более сложной, чтобы лучше предсказывать данные. Это типичный процесс обучения .
Тип B (Упрощение/Гроккинг): Модель находит более простой алгоритм для тех же данных при сохранении того же уровня потерь. Она «сжимает» свое внутреннее представление .

Мёрфет утверждает, что модель стремится минимизировать «свободную энергию», которая является суммой функции потерь и коэффициента сложности (LLC) . Иногда модели «застревают» в простых, но не идеальных решениях. В эксперименте с контекстной линейной регрессией модель сначала учится обобщенному методу регрессии (простое решение), прежде чем перейти к запоминанию конкретных задач (сложное решение) .

🧪 От алхимии к нефтепереработке: будущее ИИ-инженерии 1:24:05

Джесси Хугланд сравнивает современное обучение ИИ с алхимией: «У нас есть огромный котел (архитектура), огонь (оптимизатор) и реагенты (данные со всего интернета), которые мы просто перемешиваем в надежде на результат» .

Будущее, по мнению Timaeus, должно быть похоже на промышленную химию или нефтепереработку:

Точные дозировки: Понимание того, какие наборы данных и в какой концентрации нужно подавать на определенных этапах обучения .
Предотвращение катастроф: Хугланд приводит пример Claude 4 от Anthropic, где из обучающей смеси случайно выпал датасет по вредоносным системным подсказкам, что привело к нежелательному обобщению модели . С помощью инструментов SLT такие ошибки можно было бы заметить еще во время обучения.
Морфогены обучения: Мёрфет проводит аналогию с биологическими морфогенами — молекулами, которые определяют развитие организма. В ИИ можно будет вводить специфические «данные-морфогены» в нужные моменты, чтобы направить развитие модели в сторону безопасности .

🔭 Масштабирование и цели 1:31:06

Команда Timaeus уже показала, что их методы работают на моделях с 7 миллиардами параметров . Они смогли обнаружить критические фазовые переходы, соответствующие появлению важных функциональных схем, таких как «индукционные головки» (induction heads) .

К концу года Timaeus планирует:

Полностью валидировать методы обнаружения схем на 7B моделях .
Провести первые эксперименты по активному управлению (steering) процессом обучения в малых моделях .
Разработать методы аттрибуции данных на основе расширения SLT для функций влияния .

Хугланд и Мёрфет надеются, что их работа превратит обучение нейросетей из рискованного эксперимента в строгую инженерную дисциплину, гарантирующую безопасность создаваемых систем.