В новом эпизоде подкаста «The TWIML AI Podcast» Сэм Чаррингтон и Закари Липтон обсуждают итоги 2021 года в области машинного и глубокого обучения. Основная идея дискуссии заключается в том, что индустрия переходит от этапа взрывного роста архитектурных инноваций к периоду зрелости, где фокус смещается на принятие решений, надежность систем в динамической среде и глубокую интеграцию ИИ в бизнес-процессы.
🍬 Кризис «пиньяты» и замедление темпов инноваций 2:41
Сэм Чаррингтон начинает беседу с наблюдения, что темп изменений в области ИИ, кажется, замедлился . Закари Липтон соглашается с этим тезисом, используя метафору пиньяты: в предыдущие годы (с 2012 по 2018) исследователи «били по пиньяте» и с пола сыпалось огромное количество «конфет» — легких и значимых результатов . По мнению Липтона, сейчас большинство этих «конфет» уже собрано, и ученые вынуждены искать инновации в более сложных, менее очевидных областях .
Закари Липтон выделяет ключевые вехи прошлых лет, которые сформировали текущий ландшафт:
- 2012 год: прорыв ImageNet в компьютерном зрении .
- 2014 год: появление моделей sequence-to-sequence.
- 2015 год: триумф AlphaGo.
- 2017 год: изобретение архитектуры трансформеров .
- 2018 год: появление BERT и революция в NLP.
Липтон утверждает, что сегодня поле NLP фактически «поглотило» остальные направления машинного обучения (ML) . Он иронично замечает, что современный специалист по NLP может ничего не знать о лингвистике, так как вся работа свелась к манипуляциям с последовательностями токенов с помощью универсальных инструментов, таких как трансформеры . По словам гостя, если бы коммерческий спрос был смещен в сторону музыки, те же самые модели использовались бы для генерации нот без существенных изменений архитектуры .
🎯 Куда «бить битой»: новые направления исследований 10:18
На вопрос ведущего о том, где сейчас находятся реальные возможности для прорыва, Закари Липтон отвечает, что индустрии пора перестать гнаться за точностью предсказаний на статичных данных и сосредоточиться на «мечте», которую продают крупные компании .
Основные пробелы в современных исследованиях, по мнению Липтона:
- От предсказаний к решениям. Большинство систем ML оцениваются по точности в фиксированной среде, но в реальности ИИ должен помогать принимать решения (например, в здравоохранении) .
- Работа в динамических средах. Модели часто обучаются на данных из одного контекста, а развертываются в другом, который постоянно меняется . Липтон приводит в пример поисковую выдачу Google: как только алгоритм меняется, SEO-специалисты тут же подстраиваются под него, меняя саму среду .
- Уход от предположения IID. Традиционное ML опирается на предположение о независимых и одинаково распределенных данных (IID), которое почти никогда не соблюдается в реальном мире .
Липтон полагает, что исследователям нужно направить усилия на создание робастных (устойчивых) систем и изучение причинно-следственных связей (causal inference), вместо того чтобы пытаться выжать лишние полпроцента точности из очередной вариации BERT .
🧪 Робастность и сдвиг распределения (Distribution Shift) 21:44
Обсуждая конкретные работы 2021 года, Закари Липтон выделяет бенчмарк WILDS, созданный группой исследователей из Стэнфорда (включая учеников Перси Лянга) . Это масштабная коллекция датасетов из разных доменных областей, которая позволяет тестировать модели на устойчивость к сдвигам распределения .
Липтон отмечает важные выводы из недавних исследований:
- Во многих случаях сложные методы адаптации к домену проигрывают «глупым» базовым решениям. Исследователи Алан Розенфельд (CMU) и Давид Лопес Пас (FAIR) показали, что простое обучение на всех данных сразу (ERM) часто оказывается эффективнее изощренных алгоритмов .
- В лаборатории Липтона ведется работа над проблемой обнаружения новых классов в реальном времени. Если модель видит данные из категории, которой не было в обучающей выборке, она должна уметь сигнализировать об этом .
🔗 Причинно-следственный вывод (Causal Inference) и «слияние данных» 28:26
Закари Липтон считает причинно-следственный вывод одной из самых перспективных областей, так как он отвечает на вопрос: «Что произойдет, если я предприму действие X?», а не просто «Что я увижу?» . Однако он предупреждает, что эти методы часто строятся на слишком сильных допущениях (например, отсутствие ненаблюдаемых факторов — confounders) .
Ключевые фигуры и работы в этой области:
- Карлос Чинелли (Carlos Cinelli): работа над анализом чувствительности (насколько сильно должны нарушиться допущения, чтобы выводы модели изменились) .
- Эрик Тчетген Тчетген (Eric Tchetgen Tchetgen): разработка «проксимального причинного обучения», позволяющего работать с неидеальными прокси-переменными для скрытых факторов .
- Элиас Баренбойм (Elias Bareinboim): эксперт по проблеме «слияния данных» (data fusion). По словам Липтона, Баренбойм разрабатывает алгоритмы, которые позволяют комбинировать данные из разных источников и экспериментов для получения ответа на причинный вопрос, который невозможно решить на основе одного датасета .
Липтон также упоминает «причинное открытие» (causal discovery) — попытки восстановить саму структуру графа причинно-следственных связей, когда она неизвестна заранее .
⚖️ Справедливость ИИ: критика «технических игрушек» 38:17
Разговор переходит к теме этики и справедливости (fairness) в ML. Закари Липтон цитирует недавно ушедшего философа Чарльза Миллса (Charles Mills), который разделял теоретизирование на «идеальное» и «неидеальное» . По мнению Липтона, современное ML-сообщество слишком увлечено «идеальным» моделированием: создаются элегантные математические теории справедливости, которые не имеют ничего общего с реальной борьбой за правосудие .
Основные претензии Липтона к текущим исследованиям справедливости:
- Исследователи берут датасет с анонимными признаками и пытаются математически уравнять вероятности, не задумываясь о том, как возникли эти диспропорции в реальности .
- Справедливость — это не техническая проблема, которую можно решить алгоритмом. Липтон хвалит работы Лили Ху (Lily Hu) и Иссы Колер-Хаусманн (Issa Kohler-Hausmann), которые критикуют узкий «каузальный» взгляд на дискриминацию .
Липтон утверждает, что нельзя просто заменить имя в резюме и считать это тестом на дискриминацию, так как системное неравенство пронизывает все характеристики человека — от образования до места жительства . По его мнению, стремление математически точно оценить каждую связь в графе жизни человека может стать препятствием для реальных действий по исправлению социальной несправедливости .
🏥 Приложения: AlphaFold и Brittleness в радиологии 54:25
Среди практических достижений 2021 года Липтон выделяет AlphaFold от DeepMind. Хотя он не является экспертом по сворачиванию белков, по его словам, специалисты в этой области подтверждают, что это легитимный и значимый научный прорыв уровня Нобелевской премии .
В медицине, особенно в радиологии, ИИ начинает сталкиваться с реальностью. Липтон отмечает «хрупкость» (brittleness) технологий: система, идеально работающая на одном сканере, может давать сбои на новом оборудовании, которое для врача-человека выглядит идентично . Гость подчеркивает, что это не «состязательные атаки» (adversarial attacks), а естественная изменчивость реального мира .
🏗️ Зрелость индустрии: от ML-исследований к ML Ops 59:13
Важнейшим трендом Липтон называет превращение ИИ из «предмета роскоши» в «ширпотреб» (commodity) . Он сравнивает текущий этап развития ИИ с внедрением SQL-баз данных: когда-то это была передовая технология элитных фирм, а теперь это стандарт даже в самых скучных компаниях .
Ключевые изменения в индустрии:
- ML Ops важнее ML-исследований. Компании больше нуждаются в специалистах, способных поддерживать работу систем день за днем, чем в тех, кто умеет обучать модели .
- Стабильность против инноваций. Главная боль бизнеса — не отсутствие новой модели, а необходимость надежного рабочего процесса .
- ИИ в традиционном бизнесе. Липтон шутит о своем сатирическом посте про найм в Johnson & Johnson, который оказался пророческим: сейчас даже компании по управлению отходами используют ИИ для прогнозирования спроса и логистики .
🔮 Прогнозы на 2022 год: Эра «Лего» и дизайна взаимодействий 1:04:35
Закари Липтон делает несколько прогнозов на будущее, отмечая «охлаждение» рынка труда для исследователей (замораживание найма в Uber AI, снижение зарплатных предложений) при одновременном «нагреве» в секторе внедрения .
Его ожидания от 2022 года:
- Фокус на экспериментах. Компании начнут массово внедрять рандомизированные контролируемые испытания (RCT) не только для цвета кнопок (как Google), но и для оценки бизнес-решений .
- Дизайн систем вместо разработки моделей. Липтон использует метафору Lego: у нас уже есть отличные «детали» (модели от Hugging Face, инструменты ML Ops), теперь инновации будут приходить от тех, кто умеет изящно их соединять .
- Слияние дисциплин. Будущее за пересечением компьютерных наук, операционных исследований и экономики .
В качестве примера «умной» интеграции Липтон приводит компанию Abridge AI, которая записывает разговоры врачей и пациентов . Магия продукта заключается не в одной супер-модели, а в цепочке простых решений: распознавание речи (ASR), выделение ключевых моментов, интерфейс для пациента. По мнению Липтона, великий художник в ИИ сегодня — это не тот, кто лучше всех «играет гаммы» (тренирует модели), а тот, кто обладает чувством дизайна всей системы .