Воутер Кулен о математике рекомендаций и «компиляторе исследований»

Machine Learning Street Talk 5 тыс. 1 ч 48 мин 3 мин 20.11.2020
Главное

Математика рекомендаций: исследование Воутера Кулена 0:09

Современные алгоритмы машинного обучения, отвечающие за выбор контента в лентах соцсетей или подбор лечения в медицине, опираются на фундаментальную концепцию «задачи о многоруком бандите» (multi-armed bandit). В ходе глубокого интервью для канала Machine Learning Street Talk доктор Воутер Кулен (Wouter Koolen) из CWI Amsterdam объяснил, почему эта абстрактная модель, возникшая как попытка описать выбор между немедленной выгодой и поиском новой информации, остается «золотым стандартом» для понимания принятия решений.

🎰 Что такое многорукий бандит? 1:02

Аналогия с игорным залом, где игроку нужно решить, на какой рычаг нажать и как часто это делать, чтобы максимизировать выигрыш, стала классической метафорой. По словам Кулена, каждый «рычаг» (arm) — это источник данных, скрывающий неизвестное распределение вероятностей.

Ключевым для теории является конфликт между исследованием (exploration) и эксплуатацией (exploitation):

Кулен подчеркивает, что задача о бандите — это «упрощенная версия» проблем, которые мы действительно хотим решать: от разработки вакцин до управления сложными системами ИИ, такими как Monte Carlo Tree Search (MCTS), используемый в AlphaGo.

🧪 Разница между максимизацией награды и чистым исследованием 4:18

Одной из центральных тем обсуждения стало различие целей. Кулен выделяет режим чистого исследования (pure exploration), где целью не является получение награды «здесь и сейчас».

Собеседники пришли к выводу, что это создает неразрешимое противоречие: алгоритм, оптимальный для одной задачи, крайне плохо справляется с другой.

🛠 Мечта о «компиляторе чистого исследования» 10:32

Воутер Кулен представил свою концепцию «компилятора чистого исследования» — инструмента, который позволял бы задавать структуру проблемы и априорные знания в виде контракта или доменного языка.

  1. Пользователь формулирует задачу (например, «найти лучшую руку» или «найти оптимальное действие в игровом дереве»).
  2. Система использует нижние границы (lower bounds) для вычисления оптимальной стратегии распределения выборок.
  3. Алгоритм выдает готовую стратегию, не требуя от исследователя написания кода «с нуля».

На данный момент, по признанию гостя, область еще не обладает «полным каталогом» методов, и каждый новый тип задачи требует оригинальных математических «трюков». Одним из таких элегантных трюков Кулен называет метод Murphy sampling (сэмплирование Мерфи), который позволяет эффективно решать задачи выбора в условиях, где часть вариантов контролируется «противником».

🤖 Применимость в Deep Learning и реальных системах

Дискуссия затронула и современные вопросы масштабируемости. Кулен объяснил, что добавление признаков (features) превращает обычного бандита в контекстный бандит (contextual bandit), где задача — обучить функцию отображения от признаков пользователя к лучшему решению.

В завершение гость подчеркнул, что в индустрии часто наблюдается упрощенный подход (например, A/B-тесты), но с развитием теории бандитов мы приближаемся к созданию алгоритмов, способных к «ускоренному обучению» (accelerated learning), которые могут объективно улучшить принятие решений в таких критических областях, как социальная политика и медицина.

💬 Цитаты

«Если ваш алгоритм хорошо работает для одного, он не будет хорошо работать для другого. Это огромная разница между логарифмическим и линейным распределением.»

Воутер Кулен 09:49

«Я называю это «компилятором чистого исследования»: вы заполняете детали задачи, запускаете технологию, и на выходе почти готов алгоритм.»

Воутер Кулен 10:44
👥 Спикеры
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Multi-armed bandit
Задача принятия решений, где нужно выбирать между несколькими вариантами с неизвестными наградами.
Pure exploration
Режим обучения, где цель — собрать максимум информации, а не получить награду.
Regret minimization
Задача максимизации награды путем минимизации потерь от выбора субоптимальных действий.
Murphy sampling
Алгоритм, использующий отбрасывание сэмплов для достижения оптимального поведения в специфических сценариях.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Multi-armed bandit Wouter Koolen Pure exploration Reinforcement learning Murphy sampling