Майкл Литтман: будущее ИИ и уроки обучения с подкреплением

Lex Fridman 97,9 тыс. 1 ч 56 мин 2 мин 13.12.2020
Главное

Майкл Литтман: Обучение с подкреплением и будущее ИИ 0:00

Майкл Литтман, профессор компьютерных наук Университета Брауна, делится своими взглядами на развитие искусственного интеллекта (ИИ), философию обучения с подкреплением и роль технологий в современном обществе в беседе с Лексом Фридманом. В ходе подкаста обсуждаются не только научные аспекты машинного обучения, но и личные истории, включая опыт Литтмана в съемках рекламных роликов, его увлечение пародийными песнями и отношение к экзистенциальным рискам ИИ.

🤖 Роботы, общество и вопрос контроля 2:36

Размышляя о влиянии научной фантастики, Майкл Литтман выделяет фильм «Робот и Фрэнк» как наиболее близкий к реальности сценарий, где технологии становятся частью повседневной жизни. По мнению гостя, технологам зачастую проще изменить людей под нужды технологий, чем адаптировать сами системы под потребности человека. В этом контексте Литтман отмечает важность того, чтобы люди могли «присваивать» технологии, делая их частью своей жизни.

Оба участника сошлись во мнении, что ИИ помогает нам лучше осознать границы человеческих способностей:

🧠 История и механизмы обучения с подкреплением 36:48

Литтман описывает свой путь в науке, который начался в 80-х годах, когда он самостоятельно пытался обучить компьютер играть в «крестики-нолики» на языке BASIC. Гость вспоминает, как под влиянием работ Рича Саттона (Rich Sutton) и концепции временных различий (TD-learning) он пришел к изучению обучения с подкреплением.

Основные тезисы о развитии ИИ:

📈 «Горький урок» и будущее технологий 1:24:36

Обсуждая «Горький урок» (The Bitter Lesson) Рича Саттона, Литтман соглашается с аргументом о том, что наиболее эффективными методами в истории ИИ часто оказывались простые алгоритмы, которые могли масштабироваться за счет увеличения вычислительной мощности.

💬 Цитаты

«Мы просто ждем, когда «железо» подтянется, чтобы сделать вид, что мы выполнили свою работу.»

Майкл Литтман 1:25:53

«Программирование — это власть. Это как магические заклинания.»

Майкл Литтман 1:49:12
👥 Спикеры
📚 Упомянутые книги
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Обучение с подкреплением (Reinforcement Learning)
Метод машинного обучения, где агент учится принимать решения, максимизируя вознаграждение в среде.
Самообучение через игру (Self-play)
Техника, при которой ИИ обучается, играя партии против самого себя.
Трансформеры (Transformer network)
Архитектура нейронных сетей, ставшая основой для современных моделей обработки естественного языка.
Проблема остановки (Halting problem)
Классическая задача, доказывающая невозможность создания алгоритма, определяющего, завершится ли произвольная программа или зациклится.
📊 Цифры
🗓 Хронология
  1. 1979 Литтман получает свой первый компьютер TRS-80.
  2. 1984 Работа Литтмана в Bellcore и изучение основ RL.
  3. 2011 Литтман начинает слушать Billboard Top 10 для знакомства с современной музыкой.
⚖️ Другая сторона
Искусственный интеллект Michael Littman Reinforcement Learning AlphaZero GPT-3 Rich Sutton