В новом выпуске Machine Learning Street Talk приглашенный профессор Брауновского университета Рэндалл Балестриеро (Randall Balestriero) объясняет, как теория сплайнов превращает «черные ящики» нейросетей в прозрачные геометрические объекты. В центре дискуссии — феномен «гроккинга» (внезапного озарения моделей), причины хрупкости систем перед лицом хакерских атак и способы сделать ИИ по-настоящему надежным без бесконечного увеличения вычислительных мощностей.
🧠 Нейросети как «эластичное оригами»: Суть сплайновой теории 7:01
Профессор Балестриеро, стоявший у истоков современной сплайновой теории нейронных сетей, предложил элегантную метафору для понимания работы глубокого обучения. По его мнению, нейросеть (особенно с активацией ReLU) — это не магический вычислитель, а сложная геометрическая конструкция .
- Принцип работы: Сеть разбивает входное пространство (например, множество всех возможных изображений) на «выпуклые многогранные регионы» — своего рода соты или лоскуты .
- Локальная линейность: Внутри каждого такого «лоскута» нейросеть представляет собой простейшее аффинное преобразование (линейную функцию) .
- Эластичность: Балестриеро называет это «эластичным оригами»: сеть складывает и растягивает входное пространство, а затем проводит в нем прямую линию (гиперплоскость), отделяющую один класс объектов от другого .
Ведущий Тим Скарф проводит параллель с хеш-таблицами, чувствительными к локальности, однако Балестриеро уточняет: в отличие от простых методов вроде K-средних, нейросети умеют экстраполировать скрытые правила из одной части пространства в другую, что и создает иллюзию «интеллекта» .
📉 Адверсариальный гроккинг: Почему долгое обучение — ключ к надежности 12:00
Одним из центральных обсуждаемых вопросов стала статья Randall Balestriero и Emtiyaz Khan «Deep Networks Always Grok». Гроккинг — это явление, при котором точность на тестовых данных внезапно возрастает спустя долгое время после того, как точность на обучающей выборке вышла на плато .
Балестриеро утверждает, что гроккинг — это не редкость, а универсальное свойство нейросетей, если смотреть на него через призму «адверсариальной устойчивости» (сопротивляемости атакам) .
- Первая стадия (запоминание): Сеть агрессивно концентрирует множество мелких регионов вокруг обучающих точек. Она учится «узнавать» примеры, но остается крайне хрупкой: малейшее изменение пикселя (шум) перебрасывает пример в соседний «лоскут» с другим прогнозом .
- Вторая стадия (озарение/гроккинг): Если продолжать обучение в десятки раз дольше обычного, происходит миграция регионов. Они уходят от тренировочных точек и скапливаются у границы принятия решения .
- Результат: Вокруг самих данных образуются обширные «пустые» зоны с простой линейной логикой. Сеть становится устойчивой к атакам естественным образом, без специального «адверсариального обучения» .
По мнению профессора, это «скрытое решение» часто не достигается в индустрии, так как разработчики останавливают обучение слишком рано, ориентируясь только на стандартную точность .
🏗️ Проектирование «умных флопсов» и новые регуляризаторы 28:44
Обсуждение затронуло проблему вычислительных ресурсов. Балестриеро считает, что нынешний акцент на гигантские модели («больше compute = больше возможностей») ошибочен.
- Smart FLOPS: Вместо того чтобы тратить все ресурсы на огромную модель, эффективнее взять модель поменьше, но обучать её значительно дольше для достижения стадии гроккинга .
- Геометрическая регуляризация: Балестриеро разработал методы, позволяющие ускорить этот процесс . Поскольку расстояние до границы региона является дифференцируемым, его можно использовать как штраф в функции потерь прямо во время обучения .
- Архитектурные ограничения: Например, отказ от параметров смещения (biases) заставляет все регионы принимать форму конусов, исходящих из центра, что фундаментально меняет свойства модели без дополнительных вычислений .
🖼️ Реконструкция против восприятия: Ошибка автоэнкодеров 44:30
Вторая важная тема — критика обучения через реконструкцию (MSE loss в автоэнкодерах). Балестриеро утверждает, что попытка заставить нейросеть просто восстановить картинку пиксель-в-пиксель мешает ей понимать суть объектов .
- Проблема низких частот: Основная масса энергии в изображениях (а значит, и основной сигнал для градиента) сосредоточена в низких частотах — общих размытых пятнах . Нейросеть учит их в первую очередь.
- Суть в деталях: Для человека (восприятия) важны высокие частоты — контуры и текстуры. Обычные автоэнкодеры тратят огромную емкость на бесполезный для классификации «фон» .
- Решение: Переход к контрастивным методам (сравнение в скрытом пространстве) или использование специального шума (вроде маскирования в MAE), который заставляет сеть игнорировать низкочастотный шум и искать глубокие признаки .
🧪 Геометрия LLM: Как ломаются языковые модели 54:36
Применив теорию сплайнов к большим языковым моделям (LLM), команда Балестриеро обнаружила, что геометрия активаций внутри MLP-блоков позволяет детектировать токсичность текста гораздо эффективнее специализированных классификаторов.
- Линейный зонд: Простая линейная модель, обученная на геометрических признаках Llama 2, показала точность 99.18% в обнаружении токсичности, превзойдя популярные модели с миллионами скачиваний .
- Джейлбрейк (взлом): Исследователи выяснили, что увеличение длины контекста экспоненциально увеличивает «внутреннюю размерность» пространства .
- Уязвимость: Механизмы безопасности (RLHF) работают как «потолок сложности» — они могут контролировать простые структуры, но пасуют перед высокоразмерными данными. Добавление в промпт связанных по смыслу, но избыточных предложений позволяет «ослепить» фильтры безопасности и заставить модель генерировать запрещенный контент .
🔭 Будущее: От черных ящиков к доказуемому ИИ 1:10:33
Рэндалл Балестриеро, недавно присоединившийся к Brown University, планирует посвятить следующие годы созданию теории «доказуемых гарантий» . Он критикует современный подход «попробуй другой гиперпараметр и вернись через два дня» и призывает к созданию математически обоснованных инструментов, доступных не только математикам, но и инженерам-практикам .
В качестве примера альтернативных подходов упоминаются KAN (Kolmogorov-Arnold Networks), которые фактически «хардкодят» сплайновые функции в архитектуру, что позволяет им эффективно работать на малых выборках в специфических областях науки .