Алекс Смола (AWS): почему графы знаний и «модели-Франкенштейны» эффективнее языковых гигантов

В современном мире искусственного интеллекта доминирует подход «чем больше, тем лучше», однако в недрах AWS AI ведут поиск альтернативных путей. Алекс Смола, вице-президент и выдающийся ученый Amazon Web Services, в беседе с автором подкаста TWIML AI Сэмом Чаррингтоном раскрывает, как глубокое обучение на графах может заменить триллионные языковые модели, почему автоматизация машинного обучения (AutoML) требует отказа от поиска «идеальных» моделей и как причинно-следственный анализ помогает находить поломки в сложных облачных системах.

🎓 Путь из физики в машинное обучение: школа Вапника и Лёкуна 1:30

Алекс Смола — физик по образованию, и он с иронией цитирует известную поговорку о том, что физики не умеют ничего конкретного, но пригодны для всего . Его карьера в ML началась в 1995 году в лаборатории AT&T, где его руководителем был Владимир Вапник (создатель метода опорных векторов), а главой департамента в то время был Ян Лёкун (один из «отцов» современного глубокого обучения) .

Смола признается, что никогда в жизни не посещал полноценных лекций по Computer Science . Это порой приводило к забавным ситуациям: например, во время защиты диссертации ему пришлось в срочном порядке разбираться, в чем суть проблемы равенства классов P и NP, чтобы не провалить экзамен . Сегодня его роль в AWS заключается в стратегическом планировании алгоритмов и сервисов, а также в образовательных проектах, таких как «Dive into Deep Learning», по которому обучаются студенты в 175 университетах мира .

🕸️ Глубокое обучение на графах: замена гениальным алгоритмам 4:52

Одной из центральных тем обсуждения стало обучение на графах (Graph Learning). Смола объясняет ценность этого подхода через аналогию с алгоритмом PageRank, который лег в основу успеха Google .

Суть PageRank: Алгоритм имитирует «случайного серфера», который переходит с одной вершины (сайта) на другую, формируя распределение авторитетности.
Проблема: Создание такого алгоритма потребовало «удара гения» двух докторантов (Брина и Пейджа) и профессора Мотвани .
Решение ML: Вместо поиска гениальной формулы вручную, можно научить нейросеть функции обновления вершин (vertex update functions) . Она сама поймет, как информация о качестве или надежности должна распространяться по соседям.

Смола утверждает, что такой подход позволяет решать задачи детекции фрода (мошенничества), когда репутация «хорошего парня» или «злоумышленника» переносится на связанные с ним узлы. По его мнению, большинство задач со структурированными данными из реляционных баз можно переформулировать как графовые проблемы и получить значительный прирост качества .

Автоматическое создание графов знаний 9:07

Команда Смолы в Шанхае разработала метод беспилотного извлечения графов знаний из текста, используя принцип циклической согласованности (cycle consistency) . Ранее этот метод применялся в визуальных задачах (например, превращение зебр в лошадей на видео), но в AWS его адаптировали для текста:

Текст переводится в граф знаний.
Граф знаний переводится обратно в текст.
Система обучается так, чтобы итоговый текст максимально соответствовал оригиналу .

Это позволяет создавать редактируемые структуры данных без дорогостоящей разметки людьми.

🧠 Графы против «языковых монстров» 17:16

Алекс Смола высказывает скептическое отношение к текущей гонке вооружений в области больших языковых моделей (LLM). Он считает этот процесс саморегулирующимся: рано или поздно финансовые отделы компаний запретят тратить «неразумные суммы» на обучение моделей с триллионами параметров .

Главная проблема современных LLM, по мнению гостя, — это их непрозрачность («глухие блоки»).

Пример: Если спросить модель, был ли Авраам Линкольн охотником на вампиров, она может ответить «да», потому что обучалась на данных о посредственном голливудском фильме, не отделяя вымысел от фактов .
Решение: AWS делает ставку на компактные графы знаний как дополнение к языковым моделям. Это позволяет «редактировать» знания модели отдельно от её весов и создавать более компактные решения, которые экономически целесообразны для клиентов .

🤖 AutoML: прощание с «красивыми снежинками» 25:46

В области автоматического машинного обучения (AutoML) Алекс Смола продвигает философию, отличную от большинства конкурентов. Он критикует индустрию за охоту на «снежинок» — поиск одной единственной идеальной модели (будь то глубокая сеть или дерево решений) .

Подход AWS в AutoML базируется на других принципах:

Ансамблирование и стекинг: Вместо выбора лучшей модели система собирает их все вместе.
Отказ от дорогого NAS: Поиск нейронных архитектур (Neural Architecture Search) оправдан только для производителей чипов или при создании фундаментальных моделей для мобильных устройств. Для большинства задач это пустая трата «вычислительных долларов» .
Сложные «Франкенштейны»: Система может создать монструозную модель, где эмбеддинги BERT смешиваются с табличными данными, пропускаются через деревья решений и усредняются с методом ближайших соседей.

Чтобы такие модели работали быстро, используется дистилляция . Сложный ансамбль выступает в роли «учителя», а простая и быстрая модель — в роли «ученика». Чтобы этот процесс не терял в точности, Смола описывает «хитрость с математикой»: создание синтетических данных, которые позволяют обойти классические ограничения скорости сходимости (1/√n) .

📉 Математическая чистота против реальности 36:49

Смола делится личной историей о том, как во время работы над постдоком он гордился созданием элегантных математических доказательств . Однако, когда он попытался применить свои «идеально строгие» границы (bounds) к реальному статистическому тесту, они оказались абсолютно бесполезными на практике .

По мнению гостя, современный мир изменился:

Данных стало так много, что кросс-валидация дает более надежные оценки, чем сложные теоремы в банаховых пространствах .
«Математическая чистота» уступила место эмпирической устойчивости.
Единственное предостережение Алекса: не стоит «переобучаться» на валидационной выборке, подобно школьнику, который зазубривает тесты прошлых лет вместо изучения предмета .

⚙️ Причинность (Causality): поиск «сломанного выключателя» 49:14

В AWS активно исследуют тему причинно-следственного анализа под руководством Бернхарда Шёлькопфа (директор Института Макса Планка) . Это необходимо не для теоретических изысканий, а для конкретных сервисов, таких как Lookout for Metrics .

Смола выделяет два подхода к причинности:

Стиль Джуды Перла: Сложное моделирование вмешательств (интервенций).
Причинность по Грэнджеру (Granger causality): Более прагматичный метод. Если знание истории переменной $X$ помогает лучше предсказать будущее переменной $Y$, чем просто знание истории $Y$, то между ними есть причинная связь .

Гость объясняет важность осторожности в этой области на примере популярного метода объяснимости моделей SHAP . Команда из Тюбингена обнаружила, что хотя код в библиотеке SHAP был верным, математическое обоснование в оригинальной статье содержало неточности .

Проблема в том, что причинность крайне коварна. Если выключатель включает лампочку, их состояния коррелируют. Но если вы разобьете лампочку, выключатель не выключится сам собой . По словам Смолы, понимание этих нюансов — критическая задача для ученых AWS, так как ошибки в интерпретации данных могут стоить бизнесу очень дорого.