Майкл Литтман: будущее ИИ и уроки обучения с подкреплением

Lex Fridman 97,9 тыс. 1 ч 56 мин 2 мин 13.12.2020

Главное

ИИ сегодня — это алгоритмическое управление поведением человека через социальные медиа.
Самообучение ИИ через игру (self-play) остается мощнейшим методом прогресса.
Вычислительная мощность часто побеждает сложные алгоритмические надстройки.
Языковые модели ограничены отсутствием полноценного социального взаимодействия.

Майкл Литтман: Обучение с подкреплением и будущее ИИ 0:00

Майкл Литтман, профессор компьютерных наук Университета Брауна, делится своими взглядами на развитие искусственного интеллекта (ИИ), философию обучения с подкреплением и роль технологий в современном обществе в беседе с Лексом Фридманом. В ходе подкаста обсуждаются не только научные аспекты машинного обучения, но и личные истории, включая опыт Литтмана в съемках рекламных роликов, его увлечение пародийными песнями и отношение к экзистенциальным рискам ИИ.

🤖 Роботы, общество и вопрос контроля 2:36

Размышляя о влиянии научной фантастики, Майкл Литтман выделяет фильм «Робот и Фрэнк» как наиболее близкий к реальности сценарий, где технологии становятся частью повседневной жизни. По мнению гостя, технологам зачастую проще изменить людей под нужды технологий, чем адаптировать сами системы под потребности человека. В этом контексте Литтман отмечает важность того, чтобы люди могли «присваивать» технологии, делая их частью своей жизни.

Оба участника сошлись во мнении, что ИИ помогает нам лучше осознать границы человеческих способностей:

Человеческий мозг склонен к антропоморфизации, приписывая интеллект даже простым устройствам, таким как роботы-пылесосы.
Социальные сети сегодня уже функционируют как своего рода «коллективный ИИ», управляющий вниманием и мнением людей.
Литтман полагает, что современные алгоритмы могут контролировать поведение человека, что представляет собой скрытый, но реальный риск.

🧠 История и механизмы обучения с подкреплением 36:48

Литтман описывает свой путь в науке, который начался в 80-х годах, когда он самостоятельно пытался обучить компьютер играть в «крестики-нолики» на языке BASIC. Гость вспоминает, как под влиянием работ Рича Саттона (Rich Sutton) и концепции временных различий (TD-learning) он пришел к изучению обучения с подкреплением.

Основные тезисы о развитии ИИ:

Ключевым прорывом 90-х годов Литтман называет алгоритм Q-learning, который позволил обучаться в среде, одновременно оптимизируя поведение агента.
Успех проекта TD-Gammon Джерри Тессаро (Jerry Tesauro) стал для Литтмана доказательством того, что нейронные сети способны решать сложные задачи, но подчеркнул важность «интуиции» разработчика («нейронный шептун»).
Алгоритмы AlphaGo и AlphaZero продемонстрировали мощь самообучения через игру с самим собой, что стало «квантовым скачком» в стратегическом ИИ.

📈 «Горький урок» и будущее технологий 1:24:36

Обсуждая «Горький урок» (The Bitter Lesson) Рича Саттона, Литтман соглашается с аргументом о том, что наиболее эффективными методами в истории ИИ часто оказывались простые алгоритмы, которые могли масштабироваться за счет увеличения вычислительной мощности.

Литтман отмечает, что закон Мура демонстрирует признаки «трения», а стоимость разработки новых поколений чипов растет, что ставит под вопрос бесконечное продолжение экспоненциального роста.
Относительно больших языковых моделей (LLM) гость выражает скепсис: по его мнению, они имитируют статистику языка, но не являются по-настоящему «умными», так как лишены полноценного взаимодействия с миром и необходимости «спорить» с человеком.
По мнению Литтмана, обучение через реальное взаимодействие с людьми критически важно для развития по-настоящему полезного интеллекта, но такая модель крайне затратна из-за ограниченности человеческого времени.

💬 Цитаты

«Мы просто ждем, когда «железо» подтянется, чтобы сделать вид, что мы выполнили свою работу.»

Майкл Литтман 1:25:53

«Программирование — это власть. Это как магические заклинания.»

Майкл Литтман 1:49:12

👥 Спикеры

Майкл Литтман — Эксперт по машинному обучению и профессор компьютерных наук в Брауновском университете.
Лекс Фридман — Ведущий подкаста, исследователь ИИ.

📚 Упомянутые книги

Program or Be Programmed, Дуглас Рашкофф — Обсуждается аналогия между важностью грамотности в прошлом и программирования в будущем.
The Alignment Problem, Брайан Кристиан — Рассматривается как исследование проблем справедливости и контроля в ИИ.
Exhalation, Тед Чан — Сборник научной фантастики, где идеи из computer science становятся основой сюжетов.

🎬 Упомянутые фильмы и сериалы

Robot & Frank (2012) — Пример реалистичного сценария взаимодействия человека и робота-помощника.
2001: A Space Odyssey (1968) — Упоминается как потенциальная тема для обсуждения в будущих эпизодах.

🔗 Упомянутые сайты и проекты

wikipedia.org — Литтман выражает больше доверия Wikipedia, чем социальным сетям в контексте рациональности.
simplysafe.com — Спонсор подкаста.
expressvpn.com — Спонсор подкаста.

📖 Термины

Обучение с подкреплением (Reinforcement Learning): Метод машинного обучения, где агент учится принимать решения, максимизируя вознаграждение в среде.
Самообучение через игру (Self-play): Техника, при которой ИИ обучается, играя партии против самого себя.
Трансформеры (Transformer network): Архитектура нейронных сетей, ставшая основой для современных моделей обработки естественного языка.
Проблема остановки (Halting problem): Классическая задача, доказывающая невозможность создания алгоритма, определяющего, завершится ли произвольная программа или зациклится.

📊 Цифры

1984 Год публикации статьи Рича Саттона по TD-обучению. — Майкл Литтман
50 человек Количество людей на съемочной площадке рекламного ролика. — Майкл Литтман

🗓 Хронология

1979 Литтман получает свой первый компьютер TRS-80.
1984 Работа Литтмана в Bellcore и изучение основ RL.
2011 Литтман начинает слушать Billboard Top 10 для знакомства с современной музыкой.

⚖️ Другая сторона

ИИ приведет к созданию сверхразума, который уничтожит человечество.

Литтман считает этот сценарий маловероятным, так как ИИ не обладает собственной волей или мотивацией к выживанию.
Языковые модели демонстрируют зачатки интеллекта.

Скептики утверждают, что модели лишь имитируют статистические закономерности языка, не понимая контекста.