Стефано Соатто о Graceful AI: почему клиенты боятся обновлять ИИ-модели и как биология спасает нейросети

Стефано Соатто, вице-президент по прикладным исследованиям ИИ в AWS и профессор компьютерных наук в Калифорнийском университете в Лос-Анджелесе (UCLA), в беседе с Сэмом Чаррингтоном обсуждает концепцию «Graceful AI». Диалог сосредоточен на проблемах эволюции нейронных сетей, феномене деградации моделей при обновлении (regression) и поиске биологических аналогий в обучении искусственного разума.

🧠 От философии до беспилотников: путь Стефано Соатто 0:01

Стефано Соатто прошел необычный путь для специалиста по ИИ: он вырос в Италии, изучая классику — историю, философию, латынь и греческий . Его интерес к точным наукам пробудился случайно, когда на летних курсах он столкнулся с математическими задачами, которые совершенно не понимал. Это заставило его сменить вектор и поступить на инженерный факультет.

В 1989 году Соатто познакомился с работами Эрнста Дикманса, пионера автономного вождения в Германии, чьи машины уже тогда развивали скорость до 180 км/ч на автобанах . В Caltech Соатто сфокусировался на компьютерном зрении. По его словам, причина отсутствия домашних роботов-помощников не в плохом управлении, а в неумении наделить их адекватным представлением об окружающем мире .

В 2014 году Соатто окончательно осознал мощь глубокого обучения, когда нейросети в медицинских задачах (анализ КТ-снимков) превзошли опытных радиологов . Теперь он возглавляет научные команды в AWS, где практикует «клиент-ориентированную науку» (customer-obsessed science), существенно отличающуюся от академической. В AWS цикл от идеи до запуска сервиса занимает месяцы, а не годы .

📉 Парадокс регрессии: почему «лучшие» модели отвергаются клиентами 8:00

Одной из самых острых проблем при внедрении ИИ Соатто называет нежелание клиентов обновлять модели, даже если те показывают более высокую среднюю точность. Причина кроется в феномене регрессии (regression).

В классической инженерии регрессионное тестирование — стандарт, но в глубоком обучении всё иначе . Соатто обнаружил, что если обучить одну и ту же архитектуру (например, ResNet-50) на одних и тех же данных 100 раз с разными начальными условиями, средняя ошибка будет одинаковой, но ошибки будут совершаться на РАЗНЫХ примерах .

Ключевые аспекты проблемы регрессии:

Отрицательные переходы (Negative Flips): Новая, более точная модель начинает ошибаться там, где старая работала идеально .
Разрыв доверия: Клиент может годами выстраивать процессы вокруг ошибок старой модели, но когда новая модель выдает ошибку в «очевидном» месте, клиент теряет к ней доверие .
Стоимость инфраструктуры: Обновление модели часто требует переиндексации миллиардов изображений в облаке, что крайне дорого .

Соатто утверждает, что стандартная метрика «средней точности» — слабый прокси для реальных нужд бизнеса. Клиентам важна совместимость и предсказуемость поведения системы во времени .

🧬 Искусственная нейронаука и «критические периоды» обучения 16:38

Исследования Соатто выявили удивительные параллели между глубоким обучением и биологией. Оказывается, нейросети, как и живые организмы, имеют «критические периоды обучения» .

В биологии, если дефект зрения не исправить в раннем детстве, мозг никогда не научится видеть правильно, даже если глаза станут здоровыми. Соатто обнаружил, что у нейросетей тоже есть «транзитный период» в начале обучения. Если в это время подавать плохие данные или использовать неправильный регуляризатор, сеть попадет в «неправильную долину» ландшафта потерь, из которой невозможно выбраться позже .

Интересные факты об информации в сетях:

Забывание как часть обучения: Соатто считает, что отбрасывание лишней информации (сжатие) необходимо для формирования обобщающей способности .
Эффективная связность: В сети есть параметры, которые не несут информации (их можно обнулить без вреда для результата), и те, что критически важны .
Стирание памяти: Соатто и его команда научились «забывать» конкретные данные или классы в обученной сети, вводя шум в специфические информационные направления, что важно для приватности данных .

🛠️ Методы обеспечения Graceful AI ( PCT и BCT) 29:44

Команда Соатто разработала подходы для «бесшовного» обновления систем, которые они называют Graceful AI. Основная цель — сделать новые модели совместимыми со старыми классификаторами и индексами.

Методы решения:

Backward Compatible Training (BCT): Обучение новой, более мощной модели таким образом, чтобы ее векторные представления (embeddings) были совместимы со старым классификатором. Это позволяет искать по старым индексам без полной переобработки данных .
Positive Congruent Training (PCT): Обучение, минимизирующее «отрицательные переходы». Один из лучших методов здесь — ансамблирование, но оно слишком дорого для продакшена, так как увеличивает стоимость инференса в разы .
Focal Distillation (Фокусная дистилляция): Вариант обучения «учитель-ученик», где новая модель имитирует старую только в тех моментах, где старая была права, сохраняя при этом свободу для улучшения на остальных данных .

🗣️ Будущее: пожизненное обучение и универсальность языка 42:48

Соатто видит будущее в отказе от искусственного разделения на фазы обучения и инференса. В идеале системы ИИ должны учиться постоянно (Lifelong Learning).

На данный момент лидирует сфера обработки языка (NLP). Исследователь Джованни Паолини из команды AWS разработал систему TAN, которая переводит все задачи NLP (извлечение сущностей, анализ связей и др.) в единый формат перевода между дополненными языками . Это позволяет обучать одну модель на множестве задач одновременно, используя синергию данных.

В компьютерном зрении это реализовать сложнее из-за бесконечного разнообразия визуальных воплощений концепций (в отличие от конечного набора слов) . Тем не менее, Соатто настроен оптимистично: «Никогда еще не было времени, когда ученый мог внедрить код в производство всего через полгода после защиты докторской» .