# Нейросети как эластичное оригами: Профессор Рэндалл Балестриеро о геометрии ИИ и гроккинге

Источник: https://www.youtube.com/watch?v=l3O2J3LMxqI
Канал: Machine Learning Street Talk
Опубликовано: 08.02.2025

---

В новом выпуске Machine Learning Street Talk приглашенный профессор Брауновского университета Рэндалл Балестриеро (Randall Balestriero) объясняет, как теория сплайнов превращает «черные ящики» нейросетей в прозрачные геометрические объекты. В центре дискуссии — феномен «гроккинга» (внезапного озарения моделей), причины хрупкости систем перед лицом хакерских атак и способы сделать ИИ по-настоящему надежным без бесконечного увеличения вычислительных мощностей.

## 🧠 Нейросети как «эластичное оригами»: Суть сплайновой теории
[[JUMP:07:01]]

Профессор Балестриеро, стоявший у истоков современной сплайновой теории нейронных сетей, предложил элегантную метафору для понимания работы глубокого обучения. По его мнению, нейросеть (особенно с активацией ReLU) — это не магический вычислитель, а сложная геометрическая конструкция [01:52].

*   **Принцип работы:** Сеть разбивает входное пространство (например, множество всех возможных изображений) на «выпуклые многогранные регионы» — своего рода соты или лоскуты [08:24].
*   **Локальная линейность:** Внутри каждого такого «лоскута» нейросеть представляет собой простейшее аффинное преобразование (линейную функцию) [01:39].
*   **Эластичность:** Балестриеро называет это «эластичным оригами»: сеть складывает и растягивает входное пространство, а затем проводит в нем прямую линию (гиперплоскость), отделяющую один класс объектов от другого [02:06].

Ведущий Тим Скарф проводит параллель с хеш-таблицами, чувствительными к локальности, однако Балестриеро уточняет: в отличие от простых методов вроде K-средних, нейросети умеют экстраполировать скрытые правила из одной части пространства в другую, что и создает иллюзию «интеллекта» [11:35].

## 📉 Адверсариальный гроккинг: Почему долгое обучение — ключ к надежности
[[JUMP:12:00]]

Одним из центральных обсуждаемых вопросов стала статья Randall Balestriero и Emtiyaz Khan «Deep Networks Always Grok». Гроккинг — это явление, при котором точность на тестовых данных внезапно возрастает спустя долгое время после того, как точность на обучающей выборке вышла на плато [16:44].

Балестриеро утверждает, что гроккинг — это не редкость, а универсальное свойство нейросетей, если смотреть на него через призму «адверсариальной устойчивости» (сопротивляемости атакам) [13:10].

1.  **Первая стадия (запоминание):** Сеть агрессивно концентрирует множество мелких регионов вокруг обучающих точек. Она учится «узнавать» примеры, но остается крайне хрупкой: малейшее изменение пикселя (шум) перебрасывает пример в соседний «лоскут» с другим прогнозом [18:32].
2.  **Вторая стадия (озарение/гроккинг):** Если продолжать обучение в десятки раз дольше обычного, происходит миграция регионов. Они уходят от тренировочных точек и скапливаются у границы принятия решения [15:49].
3.  **Результат:** Вокруг самих данных образуются обширные «пустые» зоны с простой линейной логикой. Сеть становится устойчивой к атакам естественным образом, без специального «адверсариального обучения» [19:26].

По мнению профессора, это «скрытое решение» часто не достигается в индустрии, так как разработчики останавливают обучение слишком рано, ориентируясь только на стандартную точность [16:59].

## 🏗️ Проектирование «умных флопсов» и новые регуляризаторы
[[JUMP:28:44]]

Обсуждение затронуло проблему вычислительных ресурсов. Балестриеро считает, что нынешний акцент на гигантские модели («больше compute = больше возможностей») ошибочен.

*   **Smart FLOPS:** Вместо того чтобы тратить все ресурсы на огромную модель, эффективнее взять модель поменьше, но обучать её значительно дольше для достижения стадии гроккинга [31:30].
*   **Геометрическая регуляризация:** Балестриеро разработал методы, позволяющие ускорить этот процесс [28:15]. Поскольку расстояние до границы региона является дифференцируемым, его можно использовать как штраф в функции потерь прямо во время обучения [28:29].
*   **Архитектурные ограничения:** Например, отказ от параметров смещения (biases) заставляет все регионы принимать форму конусов, исходящих из центра, что фундаментально меняет свойства модели без дополнительных вычислений [29:11].

## 🖼️ Реконструкция против восприятия: Ошибка автоэнкодеров
[[JUMP:44:30]]

Вторая важная тема — критика обучения через реконструкцию (MSE loss в автоэнкодерах). Балестриеро утверждает, что попытка заставить нейросеть просто восстановить картинку пиксель-в-пиксель мешает ей понимать суть объектов [45:52].

*   **Проблема низких частот:** Основная масса энергии в изображениях (а значит, и основной сигнал для градиента) сосредоточена в низких частотах — общих размытых пятнах [47:11]. Нейросеть учит их в первую очередь.
*   **Суть в деталях:** Для человека (восприятия) важны высокие частоты — контуры и текстуры. Обычные автоэнкодеры тратят огромную емкость на бесполезный для классификации «фон» [52:32].
*   **Решение:** Переход к контрастивным методам (сравнение в скрытом пространстве) или использование специального шума (вроде маскирования в MAE), который заставляет сеть игнорировать низкочастотный шум и искать глубокие признаки [53:13].

## 🧪 Геометрия LLM: Как ломаются языковые модели
[[JUMP:54:36]]

Применив теорию сплайнов к большим языковым моделям (LLM), команда Балестриеро обнаружила, что геометрия активаций внутри MLP-блоков позволяет детектировать токсичность текста гораздо эффективнее специализированных классификаторов.

*   **Линейный зонд:** Простая линейная модель, обученная на геометрических признаках Llama 2, показала точность 99.18% в обнаружении токсичности, превзойдя популярные модели с миллионами скачиваний [59:30].
*   **Джейлбрейк (взлом):** Исследователи выяснили, что увеличение длины контекста экспоненциально увеличивает «внутреннюю размерность» пространства [1:02:53].
*   **Уязвимость:** Механизмы безопасности (RLHF) работают как «потолок сложности» — они могут контролировать простые структуры, но пасуют перед высокоразмерными данными. Добавление в промпт связанных по смыслу, но избыточных предложений позволяет «ослепить» фильтры безопасности и заставить модель генерировать запрещенный контент [1:09:48].

## 🔭 Будущее: От черных ящиков к доказуемому ИИ
[[JUMP:1:10:33]]

Рэндалл Балестриеро, недавно присоединившийся к Brown University, планирует посвятить следующие годы созданию теории «доказуемых гарантий» [1:10:48]. Он критикует современный подход «попробуй другой гиперпараметр и вернись через два дня» и призывает к созданию математически обоснованных инструментов, доступных не только математикам, но и инженерам-практикам [1:11:41].

В качестве примера альтернативных подходов упоминаются KAN (Kolmogorov-Arnold Networks), которые фактически «хардкодят» сплайновые функции в архитектуру, что позволяет им эффективно работать на малых выборках в специфических областях науки [1:16:44].