# Алекс Смола (AWS): почему графы знаний и «модели-Франкенштейны» эффективнее языковых гигантов

Источник: https://www.youtube.com/watch?v=7r03WiIkG9Y
Канал: The TWIML AI Podcast
Опубликовано: 27.05.2021

---

В современном мире искусственного интеллекта доминирует подход «чем больше, тем лучше», однако в недрах AWS AI ведут поиск альтернативных путей. Алекс Смола, вице-президент и выдающийся ученый Amazon Web Services, в беседе с автором подкаста TWIML AI Сэмом Чаррингтоном раскрывает, как глубокое обучение на графах может заменить триллионные языковые модели, почему автоматизация машинного обучения (AutoML) требует отказа от поиска «идеальных» моделей и как причинно-следственный анализ помогает находить поломки в сложных облачных системах.

## 🎓 Путь из физики в машинное обучение: школа Вапника и Лёкуна
[[JUMP:01:30]]

Алекс Смола — физик по образованию, и он с иронией цитирует известную поговорку о том, что физики не умеют ничего конкретного, но пригодны для всего [01:30]. Его карьера в ML началась в 1995 году в лаборатории AT&T, где его руководителем был Владимир Вапник (создатель метода опорных векторов), а главой департамента в то время был Ян Лёкун (один из «отцов» современного глубокого обучения) [02:09].

Смола признается, что никогда в жизни не посещал полноценных лекций по Computer Science [02:22]. Это порой приводило к забавным ситуациям: например, во время защиты диссертации ему пришлось в срочном порядке разбираться, в чем суть проблемы равенства классов P и NP, чтобы не провалить экзамен [02:49]. Сегодня его роль в AWS заключается в стратегическом планировании алгоритмов и сервисов, а также в образовательных проектах, таких как «Dive into Deep Learning», по которому обучаются студенты в 175 университетах мира [03:31].

## 🕸️ Глубокое обучение на графах: замена гениальным алгоритмам
[[JUMP:04:52]]

Одной из центральных тем обсуждения стало обучение на графах (Graph Learning). Смола объясняет ценность этого подхода через аналогию с алгоритмом PageRank, который лег в основу успеха Google [05:29].

*   **Суть PageRank:** Алгоритм имитирует «случайного серфера», который переходит с одной вершины (сайта) на другую, формируя распределение авторитетности.
*   **Проблема:** Создание такого алгоритма потребовало «удара гения» двух докторантов (Брина и Пейджа) и профессора Мотвани [06:09]. 
*   **Решение ML:** Вместо поиска гениальной формулы вручную, можно научить нейросеть функции обновления вершин (vertex update functions) [07:23]. Она сама поймет, как информация о качестве или надежности должна распространяться по соседям.

Смола утверждает, что такой подход позволяет решать задачи детекции фрода (мошенничества), когда репутация «хорошего парня» или «злоумышленника» переносится на связанные с ним узлы. По его мнению, большинство задач со структурированными данными из реляционных баз можно переформулировать как графовые проблемы и получить значительный прирост качества [08:30].

### Автоматическое создание графов знаний
[[JUMP:09:07]]

 Команда Смолы в Шанхае разработала метод беспилотного извлечения графов знаний из текста, используя принцип **циклической согласованности (cycle consistency)** [09:36]. Ранее этот метод применялся в визуальных задачах (например, превращение зебр в лошадей на видео), но в AWS его адаптировали для текста:

1.  Текст переводится в граф знаний.
2.  Граф знаний переводится обратно в текст.
3.  Система обучается так, чтобы итоговый текст максимально соответствовал оригиналу [10:57].

Это позволяет создавать редактируемые структуры данных без дорогостоящей разметки людьми.

## 🧠 Графы против «языковых монстров»
[[JUMP:17:16]]

Алекс Смола высказывает скептическое отношение к текущей гонке вооружений в области больших языковых моделей (LLM). Он считает этот процесс саморегулирующимся: рано или поздно финансовые отделы компаний запретят тратить «неразумные суммы» на обучение моделей с триллионами параметров [17:42].

Главная проблема современных LLM, по мнению гостя, — это их непрозрачность («глухие блоки»).

*   **Пример:** Если спросить модель, был ли Авраам Линкольн охотником на вампиров, она может ответить «да», потому что обучалась на данных о посредственном голливудском фильме, не отделяя вымысел от фактов [19:11].
*   **Решение:** AWS делает ставку на компактные графы знаний как дополнение к языковым моделям. Это позволяет «редактировать» знания модели отдельно от её весов и создавать более компактные решения, которые экономически целесообразны для клиентов [20:42].

## 🤖 AutoML: прощание с «красивыми снежинками»
[[JUMP:25:46]]

В области автоматического машинного обучения (AutoML) Алекс Смола продвигает философию, отличную от большинства конкурентов. Он критикует индустрию за охоту на «снежинок» — поиск одной единственной идеальной модели (будь то глубокая сеть или дерево решений) [27:18].

Подход AWS в AutoML базируется на других принципах:

*   **Ансамблирование и стекинг:** Вместо выбора лучшей модели система собирает их все вместе.
*   **Отказ от дорогого NAS:** Поиск нейронных архитектур (Neural Architecture Search) оправдан только для производителей чипов или при создании фундаментальных моделей для мобильных устройств. Для большинства задач это пустая трата «вычислительных долларов» [32:07].
*   **Сложные «Франкенштейны»:** Система может создать монструозную модель, где эмбеддинги BERT смешиваются с табличными данными, пропускаются через деревья решений и усредняются с методом ближайших соседей.

Чтобы такие модели работали быстро, используется **дистилляция** [34:07]. Сложный ансамбль выступает в роли «учителя», а простая и быстрая модель — в роли «ученика». Чтобы этот процесс не терял в точности, Смола описывает «хитрость с математикой»: создание синтетических данных, которые позволяют обойти классические ограничения скорости сходимости (1/√n) [35:42].

## 📉 Математическая чистота против реальности
[[JUMP:36:49]]

Смола делится личной историей о том, как во время работы над постдоком он гордился созданием элегантных математических доказательств [37:04]. Однако, когда он попытался применить свои «идеально строгие» границы (bounds) к реальному статистическому тесту, они оказались абсолютно бесполезными на практике [38:27].

По мнению гостя, современный мир изменился:

*   Данных стало так много, что кросс-валидация дает более надежные оценки, чем сложные теоремы в банаховых пространствах [40:13].
*   «Математическая чистота» уступила место эмпирической устойчивости.
*   Единственное предостережение Алекса: не стоит «переобучаться» на валидационной выборке, подобно школьнику, который зазубривает тесты прошлых лет вместо изучения предмета [41:03].

## ⚙️ Причинность (Causality): поиск «сломанного выключателя»
[[JUMP:49:14]]

В AWS активно исследуют тему причинно-следственного анализа под руководством Бернхарда Шёлькопфа (директор Института Макса Планка) [50:08]. Это необходимо не для теоретических изысканий, а для конкретных сервисов, таких как **Lookout for Metrics** [50:58].

Смола выделяет два подхода к причинности:

1.  **Стиль Джуды Перла:** Сложное моделирование вмешательств (интервенций).
2.  **Причинность по Грэнджеру (Granger causality):** Более прагматичный метод. Если знание истории переменной $X$ помогает лучше предсказать будущее переменной $Y$, чем просто знание истории $Y$, то между ними есть причинная связь [53:24].

Гость объясняет важность осторожности в этой области на примере популярного метода объяснимости моделей **SHAP** [58:34]. Команда из Тюбингена обнаружила, что хотя код в библиотеке SHAP был верным, математическое обоснование в оригинальной статье содержало неточности [59:01].

Проблема в том, что причинность крайне коварна. Если выключатель включает лампочку, их состояния коррелируют. Но если вы разобьете лампочку, выключатель не выключится сам собой [59:41]. По словам Смолы, понимание этих нюансов — критическая задача для ученых AWS, так как ошибки в интерпретации данных могут стоить бизнесу очень дорого.

---