Джесси Хугланд: «Современное обучение ИИ — это алхимия, а нам нужна нефтепереработка»

The Cognitive Revolution 27,4 тыс. 1 ч 37 мин 5 мин 19.06.2025
Главное

В новом выпуске подкаста The Cognitive Revolution ведущий Натан Лабенц обсуждает с сооснователями некоммерческой исследовательской организации Timaeus Джесси Хугландом и Дэниелом Мёрфетом революционный подход к безопасности ИИ. В основе их работы лежит «сингулярная теория обучения» (Singular Learning Theory, SLT), которая использует методы алгебраической геометрии для понимания того, как обучающие данные формируют внутреннюю структуру нейросетей и определяют их способность к обобщению.

🏛️ Timaeus и математические корни теории всего 6:02

Название организации Timaeus отсылает к одноименному диалогу Платона, в котором философ представил первую «теорию всего», связав элементы природы с геометрическими формами . По словам Дэниела Мёрфета, который ради этой работы оставил должность штатного профессора алгебраической геометрии, дух Timaeus заключается в поиске математических законов, управляющих «новой фазой материи» — системами глубокого обучения .

Дэниел Мёрфет пришел к изучению ИИ через работы японского математика Сумио Ватанабэ, создателя сингулярной теории обучения (SLT). Ватанабэ доказал, что глубокие разделы алгебраической геометрии имеют центральное значение для байесовской статистики . Мёрфет утверждает, что геометрия ландшафта потерь (loss landscape) содержит критическую информацию для понимания нейросетей и управления ими, что имеет прямые приложения в области интерпретируемости и безопасности .

🧬 Эмбриология ИИ: интерпретируемость развития 11:49

Timaeus продвигает концепцию «интерпретируемости развития» (developmental interpretability). В отличие от классического подхода, где анализируется уже обученная «черная коробка», Хугланд и Мёрфет предлагают изучать процесс эволюции нейросети во время обучения .

Джесси Хугланд выделяет следующие ключевые идеи этого подхода:

Джесси Хугланд отмечает, что в изученных ими системах количество таких значимых переходов намного меньше общего числа параметров, что делает задачу интерпретации выполнимой .

📉 Геометрия ландшафта потерь: миф о «гладких долинах» 34:36

Одним из наиболее провокационных утверждений Дэниела Мёрфета является критика стандартных визуализаций ландшафта потерь. По его мнению, двумерные графики, изображающие потерю как гладкую чашу или долину, являются «максимально вводящими в заблуждение» .

Мёрфет объясняет особенности реальных ландшафтов потерь:

  1. Сингулярности и вырожденность (Degeneracy): Это направления в пространстве весов, двигаясь по которым модель не меняет свою внешнюю ошибку или поведение, но может радикально изменить свою внутреннюю логику (схемотехнику) .
  2. Сложные пересечения: На самом деле ландшафт потерь выглядит как нагромождение пересекающихся плоскостей и сложных геометрических форм, а не гладкая поверхность .
  3. Популяционные потери: Геометрия, определяющая способность к обобщению, — это «теоретический объект», к которому у нас нет прямого доступа, мы видим лишь его эмпирическое отражение через выборки данных .

Хугланд добавляет, что «простые» функции реализуются через более «вырожденные» (объемные) области в пространстве параметров. Согласно принципу бритвы Оккама, такие решения легче найти в процессе обучения, и именно они лучше всего обобщаются .

📜 Центральная догма S4 и механизмы обучения 29:49

Джесси Хугланд формулирует «центральную догму» их подхода, которую они называют S4-соответствием. Она описывает цепочку передачи структуры:

Мёрфет подчеркивает, что сингулярности (точки, где градиент равен нулю) организуют глобальные траектории обучения . В простых моделях, таких как автокодировщики, движение между окрестностями сингулярностей буквально соответствует «отращиванию» или «сокращению» определенных функциональных элементов модели .

🔄 Гроккинг и два типа фазовых переходов 55:38

Собеседники обсуждают феномен «гроккинга» (внезапного перехода от зазубривания к пониманию алгоритма). С точки зрения SLT, существует два основных типа переходов:

  1. Тип A (Усложнение): Модель становится более сложной, чтобы лучше предсказывать данные. Это типичный процесс обучения .
  2. Тип B (Упрощение/Гроккинг): Модель находит более простой алгоритм для тех же данных при сохранении того же уровня потерь. Она «сжимает» свое внутреннее представление .

Мёрфет утверждает, что модель стремится минимизировать «свободную энергию», которая является суммой функции потерь и коэффициента сложности (LLC) . Иногда модели «застревают» в простых, но не идеальных решениях. В эксперименте с контекстной линейной регрессией модель сначала учится обобщенному методу регрессии (простое решение), прежде чем перейти к запоминанию конкретных задач (сложное решение) .

🧪 От алхимии к нефтепереработке: будущее ИИ-инженерии 1:24:05

Джесси Хугланд сравнивает современное обучение ИИ с алхимией: «У нас есть огромный котел (архитектура), огонь (оптимизатор) и реагенты (данные со всего интернета), которые мы просто перемешиваем в надежде на результат» .

Будущее, по мнению Timaeus, должно быть похоже на промышленную химию или нефтепереработку:

🔭 Масштабирование и цели 1:31:06

Команда Timaeus уже показала, что их методы работают на моделях с 7 миллиардами параметров . Они смогли обнаружить критические фазовые переходы, соответствующие появлению важных функциональных схем, таких как «индукционные головки» (induction heads) .

К концу года Timaeus планирует:

  1. Полностью валидировать методы обнаружения схем на 7B моделях .
  2. Провести первые эксперименты по активному управлению (steering) процессом обучения в малых моделях .
  3. Разработать методы аттрибуции данных на основе расширения SLT для функций влияния .

Хугланд и Мёрфет надеются, что их работа превратит обучение нейросетей из рискованного эксперимента в строгую инженерную дисциплину, гарантирующую безопасность создаваемых систем.

💬 Цитаты

«Геометрия ландшафта потерь определяет, какие алгоритмы модели выучивают в процессе обучения и как они будут обобщаться в использовании.»

Натан Лабенц 00:37

«Двумерные изображения ландшафта потерь максимально вводят в заблуждение, когда речь идет об обобщении.»

Дэниел Мёрфет 01:16

«Мы хотим превратить обучение ИИ в нечто похожее на промышленное химическое производство, где вы точно знаете, какие реагенты и в какой концентрации вы смешиваете.»

Джесси Хугланд 1:25:50
👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Singular Learning Theory (SLT)
Математическая теория, использующая алгебраическую геометрию для изучения статистических моделей с особенностями.
Ландшафт потерь (Loss Landscape)
Многомерная поверхность, представляющая значение ошибки нейросети в зависимости от ее параметров.
Local Learning Coefficient (LLC)
Показатель в SLT, измеряющий локальную сложность (вырожденность) модели в конкретной точке ландшафта потерь.
Вырожденность (Degeneracy)
Ситуация, когда разные наборы параметров модели приводят к одинаковому внешнему поведению.
📊 Цифры
🗓 Хронология
  1. 2018 Скандал Windrush в Великобритании, использованный как пример опасности упрощенных систем управления.
  2. Конец 2024 Планируемый срок валидации методов поиска цепей на 7B моделях и экспериментов по управлению обучением.
⚖️ Другая сторона
Искусственный интеллект Singular Learning Theory Timaeus Джесси Хугланд Дэниел Мёрфет интерпретируемость развития