Стефано Соатто о Graceful AI: почему клиенты боятся обновлять ИИ-модели и как биология спасает нейросети

The TWIML AI Podcast 668 50 мин 4 мин 20.07.2021
Главное

Стефано Соатто, вице-президент по прикладным исследованиям ИИ в AWS и профессор компьютерных наук в Калифорнийском университете в Лос-Анджелесе (UCLA), в беседе с Сэмом Чаррингтоном обсуждает концепцию «Graceful AI». Диалог сосредоточен на проблемах эволюции нейронных сетей, феномене деградации моделей при обновлении (regression) и поиске биологических аналогий в обучении искусственного разума.

🧠 От философии до беспилотников: путь Стефано Соатто 0:01

Стефано Соатто прошел необычный путь для специалиста по ИИ: он вырос в Италии, изучая классику — историю, философию, латынь и греческий . Его интерес к точным наукам пробудился случайно, когда на летних курсах он столкнулся с математическими задачами, которые совершенно не понимал. Это заставило его сменить вектор и поступить на инженерный факультет.

В 1989 году Соатто познакомился с работами Эрнста Дикманса, пионера автономного вождения в Германии, чьи машины уже тогда развивали скорость до 180 км/ч на автобанах . В Caltech Соатто сфокусировался на компьютерном зрении. По его словам, причина отсутствия домашних роботов-помощников не в плохом управлении, а в неумении наделить их адекватным представлением об окружающем мире .

В 2014 году Соатто окончательно осознал мощь глубокого обучения, когда нейросети в медицинских задачах (анализ КТ-снимков) превзошли опытных радиологов . Теперь он возглавляет научные команды в AWS, где практикует «клиент-ориентированную науку» (customer-obsessed science), существенно отличающуюся от академической. В AWS цикл от идеи до запуска сервиса занимает месяцы, а не годы .

📉 Парадокс регрессии: почему «лучшие» модели отвергаются клиентами 8:00

Одной из самых острых проблем при внедрении ИИ Соатто называет нежелание клиентов обновлять модели, даже если те показывают более высокую среднюю точность. Причина кроется в феномене регрессии (regression).

В классической инженерии регрессионное тестирование — стандарт, но в глубоком обучении всё иначе . Соатто обнаружил, что если обучить одну и ту же архитектуру (например, ResNet-50) на одних и тех же данных 100 раз с разными начальными условиями, средняя ошибка будет одинаковой, но ошибки будут совершаться на РАЗНЫХ примерах .

Ключевые аспекты проблемы регрессии:

Соатто утверждает, что стандартная метрика «средней точности» — слабый прокси для реальных нужд бизнеса. Клиентам важна совместимость и предсказуемость поведения системы во времени .

🧬 Искусственная нейронаука и «критические периоды» обучения 16:38

Исследования Соатто выявили удивительные параллели между глубоким обучением и биологией. Оказывается, нейросети, как и живые организмы, имеют «критические периоды обучения» .

В биологии, если дефект зрения не исправить в раннем детстве, мозг никогда не научится видеть правильно, даже если глаза станут здоровыми. Соатто обнаружил, что у нейросетей тоже есть «транзитный период» в начале обучения. Если в это время подавать плохие данные или использовать неправильный регуляризатор, сеть попадет в «неправильную долину» ландшафта потерь, из которой невозможно выбраться позже .

Интересные факты об информации в сетях:

  1. Забывание как часть обучения: Соатто считает, что отбрасывание лишней информации (сжатие) необходимо для формирования обобщающей способности .
  2. Эффективная связность: В сети есть параметры, которые не несут информации (их можно обнулить без вреда для результата), и те, что критически важны .
  3. Стирание памяти: Соатто и его команда научились «забывать» конкретные данные или классы в обученной сети, вводя шум в специфические информационные направления, что важно для приватности данных .

🛠️ Методы обеспечения Graceful AI ( PCT и BCT) 29:44

Команда Соатто разработала подходы для «бесшовного» обновления систем, которые они называют Graceful AI. Основная цель — сделать новые модели совместимыми со старыми классификаторами и индексами.

Методы решения:

🗣️ Будущее: пожизненное обучение и универсальность языка 42:48

Соатто видит будущее в отказе от искусственного разделения на фазы обучения и инференса. В идеале системы ИИ должны учиться постоянно (Lifelong Learning).

На данный момент лидирует сфера обработки языка (NLP). Исследователь Джованни Паолини из команды AWS разработал систему TAN, которая переводит все задачи NLP (извлечение сущностей, анализ связей и др.) в единый формат перевода между дополненными языками . Это позволяет обучать одну модель на множестве задач одновременно, используя синергию данных.

В компьютерном зрении это реализовать сложнее из-за бесконечного разнообразия визуальных воплощений концепций (в отличие от конечного набора слов) . Тем не менее, Соатто настроен оптимистично: «Никогда еще не было времени, когда ученый мог внедрить код в производство всего через полгода после защиты докторской» .

💬 Цитаты

«Причина, по которой у нас нет домашних роботов-помощников, не в том, что мы не умеем ими управлять, а в том, что мы не можем наделить их адекватным представлением о мире.»

Стефано Соатто 01:56

«Забывание или отбрасывание информации является необходимой частью процесса обучения.»

Стефано Соатто 21:57
👥 Спикеры
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Negative Flips
Ситуация при обновлении модели ИИ, когда примеры, которые старая модель классифицировала верно, новая модель начинает классифицировать ошибочно.
Backward Compatible Training (BCT)
Метод обучения новой модели ИИ, при котором ее выходы остаются совместимыми с инфраструктурой (индексами, классификаторами) старой модели.
Distillation (Дистилляция)
Процесс обучения маленькой модели ('ученика') имитировать поведение большой и сложной модели ('учителя').
📊 Цифры
🗓 Хронология
  1. 1989 Эрнст Дикманс демонстрирует автономное вождение на высоких скоростях.
  2. 2009 Стефано Соатто читает отчет Cisco о росте видео-трафика и выбирает вектор развития в ИИ.
  3. 2014 Работа над проектом обнаружения аномалий на КТ-снимках, где ИИ превзошел радиологов.
  4. 2021 Публикация работы 'Time matters in regularizing deep networks' на NeurIPS.
⚖️ Другая сторона
Искусственный интеллект Stefano Soatto AWS Graceful AI Deep Learning университет UCLA