RDLY
.ru
Тренды
Статьи
Темы
Люди
Э
Эмма Бранскилл
Профессор Стэнфордского университета, ведущая лекции по обучению с подкреплением.
5
статей
190 тыс.
просмотров
2024–2025
период
1
канал
💬 Заметные цитаты
Удивление от успеха RL
«Это должно быть своего рода шокирующим, что обучение с подкреплением вообще работает.»
→
Эмма Бранскилл о DQN: «Реплей-буфер — ключ к прогрессу»
Суть обучения на опыте
«Идея в том, чтобы автоматизированный агент обучался на опыте принимать хорошие решения.»
→
Профессор Бранскилл: «Обучение с подкреплением — это ключ к интеллекту»
Интеллект как принятие решений
«Интеллект — это не только восприятие, но и умение принимать решения.»
→
Профессор Бранскилл: «Обучение с подкреплением — это ключ к интеллекту»
Марковское свойство систем
«Будущее независимо от прошлого, если известно настоящее.»
→
Профессор Бранскилл: «Обучение с подкреплением — это ключ к интеллекту»
ИИ как дополнение человека
«Самые ценные инструменты дополняют человеческие способности и открывают новые горизонты возможностей.»
→
Как ИИ-агенты меняют программирование: взгляд экспертов из Anthropic и Стэнфорда
«Мы не меняем мозг, когда выполняем разные задачи, но имеем один и тот же алгоритм обучения.»
→
Эмма Бранскилл о DQN: «Реплей-буфер — ключ к прогрессу»
«Теоретические границы, хотя официально и подтверждают статус PAC-алгоритма, могут быть очень консервативными в оценке количества возможных ошибок.»
→
Профессор Эмма Бранскилл об эволюции алгоритмов исследования в обучении с подкреплением
«Трансформер поймет, что может более компактно закодировать структуру, и при развертывании на новой задаче вы получите поведение, будто вы передали ему эту неизвестную структуру.»
→
Профессор Эмма Бранскилл об эволюции алгоритмов исследования в обучении с подкреплением
👥 Часто вместе с
Адитья Чаллапалли
1
Арчит Шарма
1
Борис Черный
1
Эрик Митчелл
1
Рафаэль Рафайлов
1
📺 Где появляется
Stanford Online
5
🧠 Ключевые концепции
Reward Hacking
2
Direct Preference Optimization (DPO)
1
KL-дивергенция
1
Q-learning
1
SARSA
1
Experience Replay
1
Bootstrapping
1
Deadly Triad
1
RLHF
1
MDP
1
🎬 Упомянутые фильмы
AlphaGo
1
📈 Темы
Reinforcement Learning
3
Stanford University
3
CS234
2
DeepMind
2
Reward Hacking
1
Claude Code
1
ChatGPT
1
Q-learning
1
DQN
1
RLHF
1
Эмма Бранскилл
1
Markov Decision Processes
1
📺 Материалы с участием
55 мин
🛠 Как ИИ-агенты меняют программирование: взгляд экспертов из Anthropic и Стэнфорда
Stanford Online · 01.10.25 · 4,8 тыс. просм.
1ч 19м
🚀 Профессор Бранскилл: «Обучение с подкреплением — это ключ к интеллекту»
Stanford Online · 30.10.24 · 150 тыс. просм.
1ч 18м
🧠 Эмма Бранскилл о DQN: «Реплей-буфер — ключ к прогрессу»
Stanford Online · 30.10.24 · 19 тыс. просм.
1ч 18м
🎓 Как аналитический метод DPO изменил выравнивание LLM и столкнулся со взломом наград
Stanford Online · 30.10.24 · 12 тыс. просм.
1ч 10м
🎮 Профессор Эмма Бранскилл об эволюции алгоритмов исследования в обучении с подкреплением
Stanford Online · 30.10.24 · 4,7 тыс. просм.