В современном мире искусственного интеллекта доминирует подход «чем больше, тем лучше», однако в недрах AWS AI ведут поиск альтернативных путей. Алекс Смола, вице-президент и выдающийся ученый Amazon Web Services, в беседе с автором подкаста TWIML AI Сэмом Чаррингтоном раскрывает, как глубокое обучение на графах может заменить триллионные языковые модели, почему автоматизация машинного обучения (AutoML) требует отказа от поиска «идеальных» моделей и как причинно-следственный анализ помогает находить поломки в сложных облачных системах.
🎓 Путь из физики в машинное обучение: школа Вапника и Лёкуна 1:30
Алекс Смола — физик по образованию, и он с иронией цитирует известную поговорку о том, что физики не умеют ничего конкретного, но пригодны для всего . Его карьера в ML началась в 1995 году в лаборатории AT&T, где его руководителем был Владимир Вапник (создатель метода опорных векторов), а главой департамента в то время был Ян Лёкун (один из «отцов» современного глубокого обучения) .
Смола признается, что никогда в жизни не посещал полноценных лекций по Computer Science . Это порой приводило к забавным ситуациям: например, во время защиты диссертации ему пришлось в срочном порядке разбираться, в чем суть проблемы равенства классов P и NP, чтобы не провалить экзамен . Сегодня его роль в AWS заключается в стратегическом планировании алгоритмов и сервисов, а также в образовательных проектах, таких как «Dive into Deep Learning», по которому обучаются студенты в 175 университетах мира .
🕸️ Глубокое обучение на графах: замена гениальным алгоритмам 4:52
Одной из центральных тем обсуждения стало обучение на графах (Graph Learning). Смола объясняет ценность этого подхода через аналогию с алгоритмом PageRank, который лег в основу успеха Google .
- Суть PageRank: Алгоритм имитирует «случайного серфера», который переходит с одной вершины (сайта) на другую, формируя распределение авторитетности.
- Проблема: Создание такого алгоритма потребовало «удара гения» двух докторантов (Брина и Пейджа) и профессора Мотвани .
- Решение ML: Вместо поиска гениальной формулы вручную, можно научить нейросеть функции обновления вершин (vertex update functions) . Она сама поймет, как информация о качестве или надежности должна распространяться по соседям.
Смола утверждает, что такой подход позволяет решать задачи детекции фрода (мошенничества), когда репутация «хорошего парня» или «злоумышленника» переносится на связанные с ним узлы. По его мнению, большинство задач со структурированными данными из реляционных баз можно переформулировать как графовые проблемы и получить значительный прирост качества .
Автоматическое создание графов знаний 9:07
Команда Смолы в Шанхае разработала метод беспилотного извлечения графов знаний из текста, используя принцип циклической согласованности (cycle consistency) . Ранее этот метод применялся в визуальных задачах (например, превращение зебр в лошадей на видео), но в AWS его адаптировали для текста:
- Текст переводится в граф знаний.
- Граф знаний переводится обратно в текст.
- Система обучается так, чтобы итоговый текст максимально соответствовал оригиналу .
Это позволяет создавать редактируемые структуры данных без дорогостоящей разметки людьми.
🧠 Графы против «языковых монстров» 17:16
Алекс Смола высказывает скептическое отношение к текущей гонке вооружений в области больших языковых моделей (LLM). Он считает этот процесс саморегулирующимся: рано или поздно финансовые отделы компаний запретят тратить «неразумные суммы» на обучение моделей с триллионами параметров .
Главная проблема современных LLM, по мнению гостя, — это их непрозрачность («глухие блоки»).
- Пример: Если спросить модель, был ли Авраам Линкольн охотником на вампиров, она может ответить «да», потому что обучалась на данных о посредственном голливудском фильме, не отделяя вымысел от фактов .
- Решение: AWS делает ставку на компактные графы знаний как дополнение к языковым моделям. Это позволяет «редактировать» знания модели отдельно от её весов и создавать более компактные решения, которые экономически целесообразны для клиентов .
🤖 AutoML: прощание с «красивыми снежинками» 25:46
В области автоматического машинного обучения (AutoML) Алекс Смола продвигает философию, отличную от большинства конкурентов. Он критикует индустрию за охоту на «снежинок» — поиск одной единственной идеальной модели (будь то глубокая сеть или дерево решений) .
Подход AWS в AutoML базируется на других принципах:
- Ансамблирование и стекинг: Вместо выбора лучшей модели система собирает их все вместе.
- Отказ от дорогого NAS: Поиск нейронных архитектур (Neural Architecture Search) оправдан только для производителей чипов или при создании фундаментальных моделей для мобильных устройств. Для большинства задач это пустая трата «вычислительных долларов» .
- Сложные «Франкенштейны»: Система может создать монструозную модель, где эмбеддинги BERT смешиваются с табличными данными, пропускаются через деревья решений и усредняются с методом ближайших соседей.
Чтобы такие модели работали быстро, используется дистилляция . Сложный ансамбль выступает в роли «учителя», а простая и быстрая модель — в роли «ученика». Чтобы этот процесс не терял в точности, Смола описывает «хитрость с математикой»: создание синтетических данных, которые позволяют обойти классические ограничения скорости сходимости (1/√n) .
📉 Математическая чистота против реальности 36:49
Смола делится личной историей о том, как во время работы над постдоком он гордился созданием элегантных математических доказательств . Однако, когда он попытался применить свои «идеально строгие» границы (bounds) к реальному статистическому тесту, они оказались абсолютно бесполезными на практике .
По мнению гостя, современный мир изменился:
- Данных стало так много, что кросс-валидация дает более надежные оценки, чем сложные теоремы в банаховых пространствах .
- «Математическая чистота» уступила место эмпирической устойчивости.
- Единственное предостережение Алекса: не стоит «переобучаться» на валидационной выборке, подобно школьнику, который зазубривает тесты прошлых лет вместо изучения предмета .
⚙️ Причинность (Causality): поиск «сломанного выключателя» 49:14
В AWS активно исследуют тему причинно-следственного анализа под руководством Бернхарда Шёлькопфа (директор Института Макса Планка) . Это необходимо не для теоретических изысканий, а для конкретных сервисов, таких как Lookout for Metrics .
Смола выделяет два подхода к причинности:
- Стиль Джуды Перла: Сложное моделирование вмешательств (интервенций).
- Причинность по Грэнджеру (Granger causality): Более прагматичный метод. Если знание истории переменной $X$ помогает лучше предсказать будущее переменной $Y$, чем просто знание истории $Y$, то между ними есть причинная связь .
Гость объясняет важность осторожности в этой области на примере популярного метода объяснимости моделей SHAP . Команда из Тюбингена обнаружила, что хотя код в библиотеке SHAP был верным, математическое обоснование в оригинальной статье содержало неточности .
Проблема в том, что причинность крайне коварна. Если выключатель включает лампочку, их состояния коррелируют. Но если вы разобьете лампочку, выключатель не выключится сам собой . По словам Смолы, понимание этих нюансов — критическая задача для ученых AWS, так как ошибки в интерпретации данных могут стоить бизнесу очень дорого.