# Майкл Литтман: будущее ИИ и уроки обучения с подкреплением

Источник: https://www.youtube.com/watch?v=c9AbECvRt20
Канал: Lex Fridman
Опубликовано: 13.12.2020

---

## Майкл Литтман: Обучение с подкреплением и будущее ИИ
[[JUMP:0:00]]

Майкл Литтман, профессор компьютерных наук Университета Брауна, делится своими взглядами на развитие искусственного интеллекта (ИИ), философию обучения с подкреплением и роль технологий в современном обществе в беседе с Лексом Фридманом. В ходе подкаста обсуждаются не только научные аспекты машинного обучения, но и личные истории, включая опыт Литтмана в съемках рекламных роликов, его увлечение пародийными песнями и отношение к экзистенциальным рискам ИИ.

### 🤖 Роботы, общество и вопрос контроля
[[JUMP:2:36]]

Размышляя о влиянии научной фантастики, Майкл Литтман выделяет фильм «Робот и Фрэнк» как наиболее близкий к реальности сценарий, где технологии становятся частью повседневной жизни. По мнению гостя, технологам зачастую проще изменить людей под нужды технологий, чем адаптировать сами системы под потребности человека. В этом контексте Литтман отмечает важность того, чтобы люди могли «присваивать» технологии, делая их частью своей жизни.

Оба участника сошлись во мнении, что ИИ помогает нам лучше осознать границы человеческих способностей:

*   Человеческий мозг склонен к антропоморфизации, приписывая интеллект даже простым устройствам, таким как роботы-пылесосы.
*   Социальные сети сегодня уже функционируют как своего рода «коллективный ИИ», управляющий вниманием и мнением людей.
*   Литтман полагает, что современные алгоритмы могут контролировать поведение человека, что представляет собой скрытый, но реальный риск.

### 🧠 История и механизмы обучения с подкреплением
[[JUMP:36:48]]

Литтман описывает свой путь в науке, который начался в 80-х годах, когда он самостоятельно пытался обучить компьютер играть в «крестики-нолики» на языке BASIC. Гость вспоминает, как под влиянием работ Рича Саттона (Rich Sutton) и концепции временных различий (TD-learning) он пришел к изучению обучения с подкреплением.

Основные тезисы о развитии ИИ:

*   Ключевым прорывом 90-х годов Литтман называет алгоритм Q-learning, который позволил обучаться в среде, одновременно оптимизируя поведение агента.
*   Успех проекта TD-Gammon Джерри Тессаро (Jerry Tesauro) стал для Литтмана доказательством того, что нейронные сети способны решать сложные задачи, но подчеркнул важность «интуиции» разработчика («нейронный шептун»).
*   Алгоритмы AlphaGo и AlphaZero продемонстрировали мощь самообучения через игру с самим собой, что стало «квантовым скачком» в стратегическом ИИ.

### 📈 «Горький урок» и будущее технологий
[[JUMP:1:24:36]]

Обсуждая «Горький урок» (The Bitter Lesson) Рича Саттона, Литтман соглашается с аргументом о том, что наиболее эффективными методами в истории ИИ часто оказывались простые алгоритмы, которые могли масштабироваться за счет увеличения вычислительной мощности.

*   Литтман отмечает, что закон Мура демонстрирует признаки «трения», а стоимость разработки новых поколений чипов растет, что ставит под вопрос бесконечное продолжение экспоненциального роста.
*   Относительно больших языковых моделей (LLM) гость выражает скепсис: по его мнению, они имитируют статистику языка, но не являются по-настоящему «умными», так как лишены полноценного взаимодействия с миром и необходимости «спорить» с человеком.
*   По мнению Литтмана, обучение через реальное взаимодействие с людьми критически важно для развития по-настоящему полезного интеллекта, но такая модель крайне затратна из-за ограниченности человеческого времени.