Закари Липтон: «Эпоха легких побед в машинном обучении закончилась»

В новом эпизоде подкаста «The TWIML AI Podcast» Сэм Чаррингтон и Закари Липтон обсуждают итоги 2021 года в области машинного и глубокого обучения. Основная идея дискуссии заключается в том, что индустрия переходит от этапа взрывного роста архитектурных инноваций к периоду зрелости, где фокус смещается на принятие решений, надежность систем в динамической среде и глубокую интеграцию ИИ в бизнес-процессы.

🍬 Кризис «пиньяты» и замедление темпов инноваций 2:41

Сэм Чаррингтон начинает беседу с наблюдения, что темп изменений в области ИИ, кажется, замедлился . Закари Липтон соглашается с этим тезисом, используя метафору пиньяты: в предыдущие годы (с 2012 по 2018) исследователи «били по пиньяте» и с пола сыпалось огромное количество «конфет» — легких и значимых результатов . По мнению Липтона, сейчас большинство этих «конфет» уже собрано, и ученые вынуждены искать инновации в более сложных, менее очевидных областях .

Закари Липтон выделяет ключевые вехи прошлых лет, которые сформировали текущий ландшафт:

2012 год: прорыв ImageNet в компьютерном зрении .
2014 год: появление моделей sequence-to-sequence.
2015 год: триумф AlphaGo.
2017 год: изобретение архитектуры трансформеров .
2018 год: появление BERT и революция в NLP.

Липтон утверждает, что сегодня поле NLP фактически «поглотило» остальные направления машинного обучения (ML) . Он иронично замечает, что современный специалист по NLP может ничего не знать о лингвистике, так как вся работа свелась к манипуляциям с последовательностями токенов с помощью универсальных инструментов, таких как трансформеры . По словам гостя, если бы коммерческий спрос был смещен в сторону музыки, те же самые модели использовались бы для генерации нот без существенных изменений архитектуры .

🎯 Куда «бить битой»: новые направления исследований 10:18

На вопрос ведущего о том, где сейчас находятся реальные возможности для прорыва, Закари Липтон отвечает, что индустрии пора перестать гнаться за точностью предсказаний на статичных данных и сосредоточиться на «мечте», которую продают крупные компании .

Основные пробелы в современных исследованиях, по мнению Липтона:

От предсказаний к решениям. Большинство систем ML оцениваются по точности в фиксированной среде, но в реальности ИИ должен помогать принимать решения (например, в здравоохранении) .
Работа в динамических средах. Модели часто обучаются на данных из одного контекста, а развертываются в другом, который постоянно меняется . Липтон приводит в пример поисковую выдачу Google: как только алгоритм меняется, SEO-специалисты тут же подстраиваются под него, меняя саму среду .
Уход от предположения IID. Традиционное ML опирается на предположение о независимых и одинаково распределенных данных (IID), которое почти никогда не соблюдается в реальном мире .

Липтон полагает, что исследователям нужно направить усилия на создание робастных (устойчивых) систем и изучение причинно-следственных связей (causal inference), вместо того чтобы пытаться выжать лишние полпроцента точности из очередной вариации BERT .

🧪 Робастность и сдвиг распределения (Distribution Shift) 21:44

Обсуждая конкретные работы 2021 года, Закари Липтон выделяет бенчмарк WILDS, созданный группой исследователей из Стэнфорда (включая учеников Перси Лянга) . Это масштабная коллекция датасетов из разных доменных областей, которая позволяет тестировать модели на устойчивость к сдвигам распределения .

Липтон отмечает важные выводы из недавних исследований:

Во многих случаях сложные методы адаптации к домену проигрывают «глупым» базовым решениям. Исследователи Алан Розенфельд (CMU) и Давид Лопес Пас (FAIR) показали, что простое обучение на всех данных сразу (ERM) часто оказывается эффективнее изощренных алгоритмов .
В лаборатории Липтона ведется работа над проблемой обнаружения новых классов в реальном времени. Если модель видит данные из категории, которой не было в обучающей выборке, она должна уметь сигнализировать об этом .

🔗 Причинно-следственный вывод (Causal Inference) и «слияние данных» 28:26

Закари Липтон считает причинно-следственный вывод одной из самых перспективных областей, так как он отвечает на вопрос: «Что произойдет, если я предприму действие X?», а не просто «Что я увижу?» . Однако он предупреждает, что эти методы часто строятся на слишком сильных допущениях (например, отсутствие ненаблюдаемых факторов — confounders) .

Ключевые фигуры и работы в этой области:

Карлос Чинелли (Carlos Cinelli): работа над анализом чувствительности (насколько сильно должны нарушиться допущения, чтобы выводы модели изменились) .
Эрик Тчетген Тчетген (Eric Tchetgen Tchetgen): разработка «проксимального причинного обучения», позволяющего работать с неидеальными прокси-переменными для скрытых факторов .
Элиас Баренбойм (Elias Bareinboim): эксперт по проблеме «слияния данных» (data fusion). По словам Липтона, Баренбойм разрабатывает алгоритмы, которые позволяют комбинировать данные из разных источников и экспериментов для получения ответа на причинный вопрос, который невозможно решить на основе одного датасета .

Липтон также упоминает «причинное открытие» (causal discovery) — попытки восстановить саму структуру графа причинно-следственных связей, когда она неизвестна заранее .

⚖️ Справедливость ИИ: критика «технических игрушек» 38:17

Разговор переходит к теме этики и справедливости (fairness) в ML. Закари Липтон цитирует недавно ушедшего философа Чарльза Миллса (Charles Mills), который разделял теоретизирование на «идеальное» и «неидеальное» . По мнению Липтона, современное ML-сообщество слишком увлечено «идеальным» моделированием: создаются элегантные математические теории справедливости, которые не имеют ничего общего с реальной борьбой за правосудие .

Основные претензии Липтона к текущим исследованиям справедливости:

Исследователи берут датасет с анонимными признаками и пытаются математически уравнять вероятности, не задумываясь о том, как возникли эти диспропорции в реальности .
Справедливость — это не техническая проблема, которую можно решить алгоритмом. Липтон хвалит работы Лили Ху (Lily Hu) и Иссы Колер-Хаусманн (Issa Kohler-Hausmann), которые критикуют узкий «каузальный» взгляд на дискриминацию .

Липтон утверждает, что нельзя просто заменить имя в резюме и считать это тестом на дискриминацию, так как системное неравенство пронизывает все характеристики человека — от образования до места жительства . По его мнению, стремление математически точно оценить каждую связь в графе жизни человека может стать препятствием для реальных действий по исправлению социальной несправедливости .

🏥 Приложения: AlphaFold и Brittleness в радиологии 54:25

Среди практических достижений 2021 года Липтон выделяет AlphaFold от DeepMind. Хотя он не является экспертом по сворачиванию белков, по его словам, специалисты в этой области подтверждают, что это легитимный и значимый научный прорыв уровня Нобелевской премии .

В медицине, особенно в радиологии, ИИ начинает сталкиваться с реальностью. Липтон отмечает «хрупкость» (brittleness) технологий: система, идеально работающая на одном сканере, может давать сбои на новом оборудовании, которое для врача-человека выглядит идентично . Гость подчеркивает, что это не «состязательные атаки» (adversarial attacks), а естественная изменчивость реального мира .

🏗️ Зрелость индустрии: от ML-исследований к ML Ops 59:13

Важнейшим трендом Липтон называет превращение ИИ из «предмета роскоши» в «ширпотреб» (commodity) . Он сравнивает текущий этап развития ИИ с внедрением SQL-баз данных: когда-то это была передовая технология элитных фирм, а теперь это стандарт даже в самых скучных компаниях .

Ключевые изменения в индустрии:

ML Ops важнее ML-исследований. Компании больше нуждаются в специалистах, способных поддерживать работу систем день за днем, чем в тех, кто умеет обучать модели .
Стабильность против инноваций. Главная боль бизнеса — не отсутствие новой модели, а необходимость надежного рабочего процесса .
ИИ в традиционном бизнесе. Липтон шутит о своем сатирическом посте про найм в Johnson & Johnson, который оказался пророческим: сейчас даже компании по управлению отходами используют ИИ для прогнозирования спроса и логистики .

🔮 Прогнозы на 2022 год: Эра «Лего» и дизайна взаимодействий 1:04:35

Закари Липтон делает несколько прогнозов на будущее, отмечая «охлаждение» рынка труда для исследователей (замораживание найма в Uber AI, снижение зарплатных предложений) при одновременном «нагреве» в секторе внедрения .

Его ожидания от 2022 года:

Фокус на экспериментах. Компании начнут массово внедрять рандомизированные контролируемые испытания (RCT) не только для цвета кнопок (как Google), но и для оценки бизнес-решений .
Дизайн систем вместо разработки моделей. Липтон использует метафору Lego: у нас уже есть отличные «детали» (модели от Hugging Face, инструменты ML Ops), теперь инновации будут приходить от тех, кто умеет изящно их соединять .
Слияние дисциплин. Будущее за пересечением компьютерных наук, операционных исследований и экономики .

В качестве примера «умной» интеграции Липтон приводит компанию Abridge AI, которая записывает разговоры врачей и пациентов . Магия продукта заключается не в одной супер-модели, а в цепочке простых решений: распознавание речи (ASR), выделение ключевых моментов, интерфейс для пациента. По мнению Липтона, великий художник в ИИ сегодня — это не тот, кто лучше всех «играет гаммы» (тренирует модели), а тот, кто обладает чувством дизайна всей системы .