Майкл Литтман: Обучение с подкреплением и будущее ИИ 0:00
Майкл Литтман, профессор компьютерных наук Университета Брауна, делится своими взглядами на развитие искусственного интеллекта (ИИ), философию обучения с подкреплением и роль технологий в современном обществе в беседе с Лексом Фридманом. В ходе подкаста обсуждаются не только научные аспекты машинного обучения, но и личные истории, включая опыт Литтмана в съемках рекламных роликов, его увлечение пародийными песнями и отношение к экзистенциальным рискам ИИ.
🤖 Роботы, общество и вопрос контроля 2:36
Размышляя о влиянии научной фантастики, Майкл Литтман выделяет фильм «Робот и Фрэнк» как наиболее близкий к реальности сценарий, где технологии становятся частью повседневной жизни. По мнению гостя, технологам зачастую проще изменить людей под нужды технологий, чем адаптировать сами системы под потребности человека. В этом контексте Литтман отмечает важность того, чтобы люди могли «присваивать» технологии, делая их частью своей жизни.
Оба участника сошлись во мнении, что ИИ помогает нам лучше осознать границы человеческих способностей:
- Человеческий мозг склонен к антропоморфизации, приписывая интеллект даже простым устройствам, таким как роботы-пылесосы.
- Социальные сети сегодня уже функционируют как своего рода «коллективный ИИ», управляющий вниманием и мнением людей.
- Литтман полагает, что современные алгоритмы могут контролировать поведение человека, что представляет собой скрытый, но реальный риск.
🧠 История и механизмы обучения с подкреплением 36:48
Литтман описывает свой путь в науке, который начался в 80-х годах, когда он самостоятельно пытался обучить компьютер играть в «крестики-нолики» на языке BASIC. Гость вспоминает, как под влиянием работ Рича Саттона (Rich Sutton) и концепции временных различий (TD-learning) он пришел к изучению обучения с подкреплением.
Основные тезисы о развитии ИИ:
- Ключевым прорывом 90-х годов Литтман называет алгоритм Q-learning, который позволил обучаться в среде, одновременно оптимизируя поведение агента.
- Успех проекта TD-Gammon Джерри Тессаро (Jerry Tesauro) стал для Литтмана доказательством того, что нейронные сети способны решать сложные задачи, но подчеркнул важность «интуиции» разработчика («нейронный шептун»).
- Алгоритмы AlphaGo и AlphaZero продемонстрировали мощь самообучения через игру с самим собой, что стало «квантовым скачком» в стратегическом ИИ.
📈 «Горький урок» и будущее технологий 1:24:36
Обсуждая «Горький урок» (The Bitter Lesson) Рича Саттона, Литтман соглашается с аргументом о том, что наиболее эффективными методами в истории ИИ часто оказывались простые алгоритмы, которые могли масштабироваться за счет увеличения вычислительной мощности.
- Литтман отмечает, что закон Мура демонстрирует признаки «трения», а стоимость разработки новых поколений чипов растет, что ставит под вопрос бесконечное продолжение экспоненциального роста.
- Относительно больших языковых моделей (LLM) гость выражает скепсис: по его мнению, они имитируют статистику языка, но не являются по-настоящему «умными», так как лишены полноценного взаимодействия с миром и необходимости «спорить» с человеком.
- По мнению Литтмана, обучение через реальное взаимодействие с людьми критически важно для развития по-настоящему полезного интеллекта, но такая модель крайне затратна из-за ограниченности человеческого времени.