# Закари Липтон: «Эпоха легких побед в машинном обучении закончилась»

Источник: https://www.youtube.com/watch?v=KXEb9w71iso
Канал: The TWIML AI Podcast
Опубликовано: 27.01.2022

---

В новом эпизоде подкаста «The TWIML AI Podcast» Сэм Чаррингтон и Закари Липтон обсуждают итоги 2021 года в области машинного и глубокого обучения. Основная идея дискуссии заключается в том, что индустрия переходит от этапа взрывного роста архитектурных инноваций к периоду зрелости, где фокус смещается на принятие решений, надежность систем в динамической среде и глубокую интеграцию ИИ в бизнес-процессы.

## 🍬 Кризис «пиньяты» и замедление темпов инноваций
[[JUMP:02:41]]

Сэм Чаррингтон начинает беседу с наблюдения, что темп изменений в области ИИ, кажется, замедлился [03:07]. Закари Липтон соглашается с этим тезисом, используя метафору пиньяты: в предыдущие годы (с 2012 по 2018) исследователи «били по пиньяте» и с пола сыпалось огромное количество «конфет» — легких и значимых результатов [09:10]. По мнению Липтона, сейчас большинство этих «конфет» уже собрано, и ученые вынуждены искать инновации в более сложных, менее очевидных областях [10:04].

Закари Липтон выделяет ключевые вехи прошлых лет, которые сформировали текущий ландшафт:

*   **2012 год:** прорыв ImageNet в компьютерном зрении [07:14].
*   **2014 год:** появление моделей sequence-to-sequence.
*   **2015 год:** триумф AlphaGo.
*   **2017 год:** изобретение архитектуры трансформеров [07:41].
*   **2018 год:** появление BERT и революция в NLP.

Липтон утверждает, что сегодня поле NLP фактически «поглотило» остальные направления машинного обучения (ML) [03:59]. Он иронично замечает, что современный специалист по NLP может ничего не знать о лингвистике, так как вся работа свелась к манипуляциям с последовательностями токенов с помощью универсальных инструментов, таких как трансформеры [04:36]. По словам гостя, если бы коммерческий спрос был смещен в сторону музыки, те же самые модели использовались бы для генерации нот без существенных изменений архитектуры [05:18].

## 🎯 Куда «бить битой»: новые направления исследований
[[JUMP:10:18]]

На вопрос ведущего о том, где сейчас находятся реальные возможности для прорыва, Закари Липтон отвечает, что индустрии пора перестать гнаться за точностью предсказаний на статичных данных и сосредоточиться на «мечте», которую продают крупные компании [10:45].

Основные пробелы в современных исследованиях, по мнению Липтона:

1.  **От предсказаний к решениям.** Большинство систем ML оцениваются по точности в фиксированной среде, но в реальности ИИ должен помогать принимать решения (например, в здравоохранении) [13:07].
2.  **Работа в динамических средах.** Модели часто обучаются на данных из одного контекста, а развертываются в другом, который постоянно меняется [12:02]. Липтон приводит в пример поисковую выдачу Google: как только алгоритм меняется, SEO-специалисты тут же подстраиваются под него, меняя саму среду [12:15].
3.  **Уход от предположения IID.** Традиционное ML опирается на предположение о независимых и одинаково распределенных данных (IID), которое почти никогда не соблюдается в реальном мире [12:40].

Липтон полагает, что исследователям нужно направить усилия на создание робастных (устойчивых) систем и изучение причинно-следственных связей (causal inference), вместо того чтобы пытаться выжать лишние полпроцента точности из очередной вариации BERT [15:42].

## 🧪 Робастность и сдвиг распределения (Distribution Shift)
[[JUMP:21:44]]

Обсуждая конкретные работы 2021 года, Закари Липтон выделяет бенчмарк **WILDS**, созданный группой исследователей из Стэнфорда (включая учеников Перси Лянга) [24:44]. Это масштабная коллекция датасетов из разных доменных областей, которая позволяет тестировать модели на устойчивость к сдвигам распределения [24:57].

Липтон отмечает важные выводы из недавних исследований:

*   Во многих случаях сложные методы адаптации к домену проигрывают «глупым» базовым решениям. Исследователи Алан Розенфельд (CMU) и Давид Лопес Пас (FAIR) показали, что простое обучение на всех данных сразу (ERM) часто оказывается эффективнее изощренных алгоритмов [26:55].
*   В лаборатории Липтона ведется работа над проблемой обнаружения новых классов в реальном времени. Если модель видит данные из категории, которой не было в обучающей выборке, она должна уметь сигнализировать об этом [27:48].

## 🔗 Причинно-следственный вывод (Causal Inference) и «слияние данных»
[[JUMP:28:26]]

Закари Липтон считает причинно-следственный вывод одной из самых перспективных областей, так как он отвечает на вопрос: «Что произойдет, если я предприму действие X?», а не просто «Что я увижу?» [28:51]. Однако он предупреждает, что эти методы часто строятся на слишком сильных допущениях (например, отсутствие ненаблюдаемых факторов — confounders) [29:03].

Ключевые фигуры и работы в этой области:

*   **Карлос Чинелли (Carlos Cinelli):** работа над анализом чувствительности (насколько сильно должны нарушиться допущения, чтобы выводы модели изменились) [29:41].
*   **Эрик Тчетген Тчетген (Eric Tchetgen Tchetgen):** разработка «проксимального причинного обучения», позволяющего работать с неидеальными прокси-переменными для скрытых факторов [30:06].
*   **Элиас Баренбойм (Elias Bareinboim):** эксперт по проблеме «слияния данных» (data fusion). По словам Липтона, Баренбойм разрабатывает алгоритмы, которые позволяют комбинировать данные из разных источников и экспериментов для получения ответа на причинный вопрос, который невозможно решить на основе одного датасета [31:34].

Липтон также упоминает «причинное открытие» (causal discovery) — попытки восстановить саму структуру графа причинно-следственных связей, когда она неизвестна заранее [34:38].

## ⚖️ Справедливость ИИ: критика «технических игрушек»
[[JUMP:38:17]]

Разговор переходит к теме этики и справедливости (fairness) в ML. Закари Липтон цитирует недавно ушедшего философа **Чарльза Миллса (Charles Mills)**, который разделял теоретизирование на «идеальное» и «неидеальное» [38:35]. По мнению Липтона, современное ML-сообщество слишком увлечено «идеальным» моделированием: создаются элегантные математические теории справедливости, которые не имеют ничего общего с реальной борьбой за правосудие [39:54].

Основные претензии Липтона к текущим исследованиям справедливости:

*   Исследователи берут датасет с анонимными признаками и пытаются математически уравнять вероятности, не задумываясь о том, как возникли эти диспропорции в реальности [40:47].
*   Справедливость — это не техническая проблема, которую можно решить алгоритмом. Липтон хвалит работы **Лили Ху (Lily Hu)** и **Иссы Колер-Хаусманн (Issa Kohler-Hausmann)**, которые критикуют узкий «каузальный» взгляд на дискриминацию [42:35].

Липтон утверждает, что нельзя просто заменить имя в резюме и считать это тестом на дискриминацию, так как системное неравенство пронизывает все характеристики человека — от образования до места жительства [46:42]. По его мнению, стремление математически точно оценить каждую связь в графе жизни человека может стать препятствием для реальных действий по исправлению социальной несправедливости [54:00].

## 🏥 Приложения: AlphaFold и Brittleness в радиологии
[[JUMP:54:25]]

Среди практических достижений 2021 года Липтон выделяет **AlphaFold** от DeepMind. Хотя он не является экспертом по сворачиванию белков, по его словам, специалисты в этой области подтверждают, что это легитимный и значимый научный прорыв уровня Нобелевской премии [55:18].

В медицине, особенно в радиологии, ИИ начинает сталкиваться с реальностью. Липтон отмечает «хрупкость» (brittleness) технологий: система, идеально работающая на одном сканере, может давать сбои на новом оборудовании, которое для врача-человека выглядит идентично [57:40]. Гость подчеркивает, что это не «состязательные атаки» (adversarial attacks), а естественная изменчивость реального мира [58:08].

## 🏗️ Зрелость индустрии: от ML-исследований к ML Ops
[[JUMP:59:13]]

Важнейшим трендом Липтон называет превращение ИИ из «предмета роскоши» в «ширпотреб» (commodity) [1:03:04]. Он сравнивает текущий этап развития ИИ с внедрением SQL-баз данных: когда-то это была передовая технология элитных фирм, а теперь это стандарт даже в самых скучных компаниях [1:02:11].

Ключевые изменения в индустрии:

*   **ML Ops важнее ML-исследований.** Компании больше нуждаются в специалистах, способных поддерживать работу систем день за днем, чем в тех, кто умеет обучать модели [59:26].
*   **Стабильность против инноваций.** Главная боль бизнеса — не отсутствие новой модели, а необходимость надежного рабочего процесса [1:03:40].
*   **ИИ в традиционном бизнесе.** Липтон шутит о своем сатирическом посте про найм в Johnson & Johnson, который оказался пророческим: сейчас даже компании по управлению отходами используют ИИ для прогнозирования спроса и логистики [1:02:49].

## 🔮 Прогнозы на 2022 год: Эра «Лего» и дизайна взаимодействий
[[JUMP:1:04:35]]

Закари Липтон делает несколько прогнозов на будущее, отмечая «охлаждение» рынка труда для исследователей (замораживание найма в Uber AI, снижение зарплатных предложений) при одновременном «нагреве» в секторе внедрения [1:05:41].

Его ожидания от 2022 года:

1.  **Фокус на экспериментах.** Компании начнут массово внедрять рандомизированные контролируемые испытания (RCT) не только для цвета кнопок (как Google), но и для оценки бизнес-решений [1:08:15].
2.  **Дизайн систем вместо разработки моделей.** Липтон использует метафору **Lego**: у нас уже есть отличные «детали» (модели от Hugging Face, инструменты ML Ops), теперь инновации будут приходить от тех, кто умеет изящно их соединять [1:16:56].
3.  **Слияние дисциплин.** Будущее за пересечением компьютерных наук, операционных исследований и экономики [1:11:06].

В качестве примера «умной» интеграции Липтон приводит компанию **Abridge AI**, которая записывает разговоры врачей и пациентов [1:13:28]. Магия продукта заключается не в одной супер-модели, а в цепочке простых решений: распознавание речи (ASR), выделение ключевых моментов, интерфейс для пациента. По мнению Липтона, великий художник в ИИ сегодня — это не тот, кто лучше всех «играет гаммы» (тренирует модели), а тот, кто обладает чувством дизайна всей системы [1:19:06].