Поиск

Найдено: 50

19 мин
🤖 Обучение на чужих ошибках: Янник Кильхер разбирает бенчмарк D4RL для Offline RL
Yannic Kilcher · 16.04.20
49 мин
🔄 От слепого робопса до Tesla Optimus: как алгоритмы Reinforcement Learning меняют робототехнику
Stanford Online · 08.12.25
1ч 19м
🚀 Профессор Бранскилл: «Обучение с подкреплением — это ключ к интеллекту»
Stanford Online · 30.10.24
1ч 02м
🤖 Градиент стратегии в Reinforcement Learning: от REINFORCE до Importance Sampling
Stanford Online · 08.12.25
26 мин
🔄 Шмидхубер выворачивает ИИ наизнанку: детальный разбор концепции Upside-Down RL
Yannic Kilcher · 11.12.19
1ч 10м
🎮 Профессор Эмма Бранскилл об эволюции алгоритмов исследования в обучении с подкреплением
Stanford Online · 30.10.24
37 мин
🧠 Гокул Свами: «Многие маршруты в Google Maps рассчитываются через инверсное обучение с подкреплением»
The TWIML AI Podcast · 21.08.23
1ч 18м
🤖 От случайного блуждания до Q-Learning: как ИИ учится на своих ошибках
Stanford Online · 09.03
53 мин
🚀 Якоб Фёрстер: «RL на GPU — наш момент ImageNet»
Machine Learning Street Talk · 18.02.25
28 мин
CURL: обучение ИИ на «сырых» пикселях без учителя
Yannic Kilcher · 11.04.20
1ч 44м
🎮 От Atari до ChatGPT: как ИИ учится на своих ошибках?
Stanford Online · 31.10.25
39 мин
🕹 Как ИИ от DeepMind научился играть в Atari: разбор классической статьи от Янника Килчера
Yannic Kilcher · 26.07.20
1ч 13м
🧠 Стэнфордский университет: как самообучение и MCTS сделали AlphaGo непобедимым
Stanford Online · 30.10.24
1ч 14м
🚀 Тим Скарфе: «Почему самообучение нейросетей эффективнее человеческой разметки?»
Machine Learning Street Talk · 17.04.20
29 мин
Янник Килчер: как заставить роботов «думать на ходу»?
Yannic Kilcher · 23.04.20
22 мин
🤖 Заменяет ли простая аугментация годы исследований в сфере RL?
Yannic Kilcher · 06.05.20
1ч 18м
🛠 От PPO до Dagger: современные методы обучения агентов
Stanford Online · 30.10.24
40 мин
🤖 Пессимизм как стратегия: Аравинд Раджесваран о безопасности офлайн-обучения ИИ
The TWIML AI Podcast · 05.01.21
44 мин
🧠 Авторы ChibiT о переносе знаний из текстов Wikipedia в Offline RL
Yannic Kilcher · 28.02.22
1ч 02м
🚀 Преподаватель Стэнфорда о методах обучения языковых моделей: от RLHF к DPO
Stanford Online · 08.12.25
1ч 48м
🚀 DeepSeek-R1: Как Китай совершил революцию в рассуждениях ИИ
The Cognitive Revolution · 25.01.25
24 мин
Янник Килчер о PCGRL: «Дизайн уровня как игра»
Yannic Kilcher · 04.08.20
13 мин
🔄 Дэвид Сильвер о Deep RL: «В нейросетях с миллиардом параметров нет локальных минимумов»
Lex Fridman · 06.05.20
1ч 25м
🧠 Камьяр Азиззаденешели: интеграция LLM и алгоритмов AlphaGo определит будущее робототехники
The TWIML AI Podcast · 05.02.24
54 мин
🚀 Эван Рейзер (Poolside): «Обучение на исполнении кода — это путь к созданию AGI»
Eye on AI · 24.09.25
1ч 38м
🧠 Харри Валпола: как обучить ИИ планированию и защитить его от системных иллюзий
Machine Learning Street Talk · 25.05.20
24 мин
🎮 Почему ИИ учится неделями, а человек адаптируется мгновенно?
Yannic Kilcher · 10.05.19
2ч 44м
📸 Как победить технологических гигантов: правила игры Кевина Систрома
Lex Fridman · 23.11.21
3ч 31м
🧠 Как устроены LLM: от «зип-файла интернета» до рассуждающих моделей
Andrej Karpathy · 05.02.25
2ч 55м
🤖 Почему ИИ обманывает: инженерный подход к безопасности алгоритмов
80,000 Hours · 27.05.24