Нейросети как эластичное оригами: Профессор Рэндалл Балестриеро о геометрии ИИ и гроккинге

В новом выпуске Machine Learning Street Talk приглашенный профессор Брауновского университета Рэндалл Балестриеро (Randall Balestriero) объясняет, как теория сплайнов превращает «черные ящики» нейросетей в прозрачные геометрические объекты. В центре дискуссии — феномен «гроккинга» (внезапного озарения моделей), причины хрупкости систем перед лицом хакерских атак и способы сделать ИИ по-настоящему надежным без бесконечного увеличения вычислительных мощностей.

🧠 Нейросети как «эластичное оригами»: Суть сплайновой теории 7:01

Профессор Балестриеро, стоявший у истоков современной сплайновой теории нейронных сетей, предложил элегантную метафору для понимания работы глубокого обучения. По его мнению, нейросеть (особенно с активацией ReLU) — это не магический вычислитель, а сложная геометрическая конструкция .

Принцип работы: Сеть разбивает входное пространство (например, множество всех возможных изображений) на «выпуклые многогранные регионы» — своего рода соты или лоскуты .
Локальная линейность: Внутри каждого такого «лоскута» нейросеть представляет собой простейшее аффинное преобразование (линейную функцию) .
Эластичность: Балестриеро называет это «эластичным оригами»: сеть складывает и растягивает входное пространство, а затем проводит в нем прямую линию (гиперплоскость), отделяющую один класс объектов от другого .

Ведущий Тим Скарф проводит параллель с хеш-таблицами, чувствительными к локальности, однако Балестриеро уточняет: в отличие от простых методов вроде K-средних, нейросети умеют экстраполировать скрытые правила из одной части пространства в другую, что и создает иллюзию «интеллекта» .

📉 Адверсариальный гроккинг: Почему долгое обучение — ключ к надежности 12:00

Одним из центральных обсуждаемых вопросов стала статья Randall Balestriero и Emtiyaz Khan «Deep Networks Always Grok». Гроккинг — это явление, при котором точность на тестовых данных внезапно возрастает спустя долгое время после того, как точность на обучающей выборке вышла на плато .

Балестриеро утверждает, что гроккинг — это не редкость, а универсальное свойство нейросетей, если смотреть на него через призму «адверсариальной устойчивости» (сопротивляемости атакам) .

Первая стадия (запоминание): Сеть агрессивно концентрирует множество мелких регионов вокруг обучающих точек. Она учится «узнавать» примеры, но остается крайне хрупкой: малейшее изменение пикселя (шум) перебрасывает пример в соседний «лоскут» с другим прогнозом .
Вторая стадия (озарение/гроккинг): Если продолжать обучение в десятки раз дольше обычного, происходит миграция регионов. Они уходят от тренировочных точек и скапливаются у границы принятия решения .
Результат: Вокруг самих данных образуются обширные «пустые» зоны с простой линейной логикой. Сеть становится устойчивой к атакам естественным образом, без специального «адверсариального обучения» .

По мнению профессора, это «скрытое решение» часто не достигается в индустрии, так как разработчики останавливают обучение слишком рано, ориентируясь только на стандартную точность .

🏗️ Проектирование «умных флопсов» и новые регуляризаторы 28:44

Обсуждение затронуло проблему вычислительных ресурсов. Балестриеро считает, что нынешний акцент на гигантские модели («больше compute = больше возможностей») ошибочен.

Smart FLOPS: Вместо того чтобы тратить все ресурсы на огромную модель, эффективнее взять модель поменьше, но обучать её значительно дольше для достижения стадии гроккинга .
Геометрическая регуляризация: Балестриеро разработал методы, позволяющие ускорить этот процесс . Поскольку расстояние до границы региона является дифференцируемым, его можно использовать как штраф в функции потерь прямо во время обучения .
Архитектурные ограничения: Например, отказ от параметров смещения (biases) заставляет все регионы принимать форму конусов, исходящих из центра, что фундаментально меняет свойства модели без дополнительных вычислений .

🖼️ Реконструкция против восприятия: Ошибка автоэнкодеров 44:30

Вторая важная тема — критика обучения через реконструкцию (MSE loss в автоэнкодерах). Балестриеро утверждает, что попытка заставить нейросеть просто восстановить картинку пиксель-в-пиксель мешает ей понимать суть объектов .

Проблема низких частот: Основная масса энергии в изображениях (а значит, и основной сигнал для градиента) сосредоточена в низких частотах — общих размытых пятнах . Нейросеть учит их в первую очередь.
Суть в деталях: Для человека (восприятия) важны высокие частоты — контуры и текстуры. Обычные автоэнкодеры тратят огромную емкость на бесполезный для классификации «фон» .
Решение: Переход к контрастивным методам (сравнение в скрытом пространстве) или использование специального шума (вроде маскирования в MAE), который заставляет сеть игнорировать низкочастотный шум и искать глубокие признаки .

🧪 Геометрия LLM: Как ломаются языковые модели 54:36

Применив теорию сплайнов к большим языковым моделям (LLM), команда Балестриеро обнаружила, что геометрия активаций внутри MLP-блоков позволяет детектировать токсичность текста гораздо эффективнее специализированных классификаторов.

Линейный зонд: Простая линейная модель, обученная на геометрических признаках Llama 2, показала точность 99.18% в обнаружении токсичности, превзойдя популярные модели с миллионами скачиваний .
Джейлбрейк (взлом): Исследователи выяснили, что увеличение длины контекста экспоненциально увеличивает «внутреннюю размерность» пространства .
Уязвимость: Механизмы безопасности (RLHF) работают как «потолок сложности» — они могут контролировать простые структуры, но пасуют перед высокоразмерными данными. Добавление в промпт связанных по смыслу, но избыточных предложений позволяет «ослепить» фильтры безопасности и заставить модель генерировать запрещенный контент .

🔭 Будущее: От черных ящиков к доказуемому ИИ 1:10:33

Рэндалл Балестриеро, недавно присоединившийся к Brown University, планирует посвятить следующие годы созданию теории «доказуемых гарантий» . Он критикует современный подход «попробуй другой гиперпараметр и вернись через два дня» и призывает к созданию математически обоснованных инструментов, доступных не только математикам, но и инженерам-практикам .

В качестве примера альтернативных подходов упоминаются KAN (Kolmogorov-Arnold Networks), которые фактически «хардкодят» сплайновые функции в архитектуру, что позволяет им эффективно работать на малых выборках в специфических областях науки .