В новом выпуске подкаста The Cognitive Revolution ведущий Натан Лабенц обсуждает с сооснователями некоммерческой исследовательской организации Timaeus Джесси Хугландом и Дэниелом Мёрфетом революционный подход к безопасности ИИ. В основе их работы лежит «сингулярная теория обучения» (Singular Learning Theory, SLT), которая использует методы алгебраической геометрии для понимания того, как обучающие данные формируют внутреннюю структуру нейросетей и определяют их способность к обобщению.
🏛️ Timaeus и математические корни теории всего 6:02
Название организации Timaeus отсылает к одноименному диалогу Платона, в котором философ представил первую «теорию всего», связав элементы природы с геометрическими формами . По словам Дэниела Мёрфета, который ради этой работы оставил должность штатного профессора алгебраической геометрии, дух Timaeus заключается в поиске математических законов, управляющих «новой фазой материи» — системами глубокого обучения .
Дэниел Мёрфет пришел к изучению ИИ через работы японского математика Сумио Ватанабэ, создателя сингулярной теории обучения (SLT). Ватанабэ доказал, что глубокие разделы алгебраической геометрии имеют центральное значение для байесовской статистики . Мёрфет утверждает, что геометрия ландшафта потерь (loss landscape) содержит критическую информацию для понимания нейросетей и управления ими, что имеет прямые приложения в области интерпретируемости и безопасности .
🧬 Эмбриология ИИ: интерпретируемость развития 11:49
Timaeus продвигает концепцию «интерпретируемости развития» (developmental interpretability). В отличие от классического подхода, где анализируется уже обученная «черная коробка», Хугланд и Мёрфет предлагают изучать процесс эволюции нейросети во время обучения .
Джесси Хугланд выделяет следующие ключевые идеи этого подхода:
- Снижение сложности: Вместо того чтобы пытаться понять триллионы параметров, можно изучать конечное число изменений (фазовых переходов), происходящих в процессе обучения .
- Фазовые переходы как единицы измерения: SLT постулирует, что истинной единицей изменения является не отдельный шаг градиентного спуска, а качественный скачок в структуре модели — аналог стадий развития эмбриона в биологии .
- Локальный коэффициент обучения (LLC): Это ключевой показатель в SLT, который позволяет обнаруживать внутренние фазовые переходы, часто невидимые на обычном графике функции потерь .
Джесси Хугланд отмечает, что в изученных ими системах количество таких значимых переходов намного меньше общего числа параметров, что делает задачу интерпретации выполнимой .
📉 Геометрия ландшафта потерь: миф о «гладких долинах» 34:36
Одним из наиболее провокационных утверждений Дэниела Мёрфета является критика стандартных визуализаций ландшафта потерь. По его мнению, двумерные графики, изображающие потерю как гладкую чашу или долину, являются «максимально вводящими в заблуждение» .
Мёрфет объясняет особенности реальных ландшафтов потерь:
- Сингулярности и вырожденность (Degeneracy): Это направления в пространстве весов, двигаясь по которым модель не меняет свою внешнюю ошибку или поведение, но может радикально изменить свою внутреннюю логику (схемотехнику) .
- Сложные пересечения: На самом деле ландшафт потерь выглядит как нагромождение пересекающихся плоскостей и сложных геометрических форм, а не гладкая поверхность .
- Популяционные потери: Геометрия, определяющая способность к обобщению, — это «теоретический объект», к которому у нас нет прямого доступа, мы видим лишь его эмпирическое отражение через выборки данных .
Хугланд добавляет, что «простые» функции реализуются через более «вырожденные» (объемные) области в пространстве параметров. Согласно принципу бритвы Оккама, такие решения легче найти в процессе обучения, и именно они лучше всего обобщаются .
📜 Центральная догма S4 и механизмы обучения 29:49
Джесси Хугланд формулирует «центральную догму» их подхода, которую они называют S4-соответствием. Она описывает цепочку передачи структуры:
- Структура в данных определяет структуру в геометрии ландшафта потерь.
- Геометрия определяет траекторию процесса обучения (SGD).
- Процесс обучения выбирает конкретные веса (структуру весов).
- Структура весов определяет финальное поведение и обобщение модели .
Мёрфет подчеркивает, что сингулярности (точки, где градиент равен нулю) организуют глобальные траектории обучения . В простых моделях, таких как автокодировщики, движение между окрестностями сингулярностей буквально соответствует «отращиванию» или «сокращению» определенных функциональных элементов модели .
🔄 Гроккинг и два типа фазовых переходов 55:38
Собеседники обсуждают феномен «гроккинга» (внезапного перехода от зазубривания к пониманию алгоритма). С точки зрения SLT, существует два основных типа переходов:
- Тип A (Усложнение): Модель становится более сложной, чтобы лучше предсказывать данные. Это типичный процесс обучения .
- Тип B (Упрощение/Гроккинг): Модель находит более простой алгоритм для тех же данных при сохранении того же уровня потерь. Она «сжимает» свое внутреннее представление .
Мёрфет утверждает, что модель стремится минимизировать «свободную энергию», которая является суммой функции потерь и коэффициента сложности (LLC) . Иногда модели «застревают» в простых, но не идеальных решениях. В эксперименте с контекстной линейной регрессией модель сначала учится обобщенному методу регрессии (простое решение), прежде чем перейти к запоминанию конкретных задач (сложное решение) .
🧪 От алхимии к нефтепереработке: будущее ИИ-инженерии 1:24:05
Джесси Хугланд сравнивает современное обучение ИИ с алхимией: «У нас есть огромный котел (архитектура), огонь (оптимизатор) и реагенты (данные со всего интернета), которые мы просто перемешиваем в надежде на результат» .
Будущее, по мнению Timaeus, должно быть похоже на промышленную химию или нефтепереработку:
- Точные дозировки: Понимание того, какие наборы данных и в какой концентрации нужно подавать на определенных этапах обучения .
- Предотвращение катастроф: Хугланд приводит пример Claude 4 от Anthropic, где из обучающей смеси случайно выпал датасет по вредоносным системным подсказкам, что привело к нежелательному обобщению модели . С помощью инструментов SLT такие ошибки можно было бы заметить еще во время обучения.
- Морфогены обучения: Мёрфет проводит аналогию с биологическими морфогенами — молекулами, которые определяют развитие организма. В ИИ можно будет вводить специфические «данные-морфогены» в нужные моменты, чтобы направить развитие модели в сторону безопасности .
🔭 Масштабирование и цели 1:31:06
Команда Timaeus уже показала, что их методы работают на моделях с 7 миллиардами параметров . Они смогли обнаружить критические фазовые переходы, соответствующие появлению важных функциональных схем, таких как «индукционные головки» (induction heads) .
К концу года Timaeus планирует:
- Полностью валидировать методы обнаружения схем на 7B моделях .
- Провести первые эксперименты по активному управлению (steering) процессом обучения в малых моделях .
- Разработать методы аттрибуции данных на основе расширения SLT для функций влияния .
Хугланд и Мёрфет надеются, что их работа превратит обучение нейросетей из рискованного эксперимента в строгую инженерную дисциплину, гарантирующую безопасность создаваемых систем.