Поиск

Найдено: 50

🤖 Обучение на чужих ошибках: Янник Кильхер разбирает бенчмарк D4RL для Offline RL

Yannic Kilcher · 16.04.20

🔄 От слепого робопса до Tesla Optimus: как алгоритмы Reinforcement Learning меняют робототехнику

Stanford Online · 08.12.25

🚀 Профессор Бранскилл: «Обучение с подкреплением — это ключ к интеллекту»

Stanford Online · 30.10.24

🤖 Градиент стратегии в Reinforcement Learning: от REINFORCE до Importance Sampling

Stanford Online · 08.12.25

🔄 Шмидхубер выворачивает ИИ наизнанку: детальный разбор концепции Upside-Down RL

Yannic Kilcher · 11.12.19

🎮 Профессор Эмма Бранскилл об эволюции алгоритмов исследования в обучении с подкреплением

Stanford Online · 30.10.24

🧠 Гокул Свами: «Многие маршруты в Google Maps рассчитываются через инверсное обучение с подкреплением»

The TWIML AI Podcast · 21.08.23

🤖 От случайного блуждания до Q-Learning: как ИИ учится на своих ошибках

Stanford Online · 09.03

🚀 Якоб Фёрстер: «RL на GPU — наш момент ImageNet»

Machine Learning Street Talk · 18.02.25

CURL: обучение ИИ на «сырых» пикселях без учителя

Yannic Kilcher · 11.04.20

🎮 От Atari до ChatGPT: как ИИ учится на своих ошибках?

Stanford Online · 31.10.25

🕹 Как ИИ от DeepMind научился играть в Atari: разбор классической статьи от Янника Килчера

Yannic Kilcher · 26.07.20

🧠 Стэнфордский университет: как самообучение и MCTS сделали AlphaGo непобедимым

Stanford Online · 30.10.24

🚀 Тим Скарфе: «Почему самообучение нейросетей эффективнее человеческой разметки?»

Machine Learning Street Talk · 17.04.20

Янник Килчер: как заставить роботов «думать на ходу»?

Yannic Kilcher · 23.04.20

🤖 Заменяет ли простая аугментация годы исследований в сфере RL?

Yannic Kilcher · 06.05.20

🛠 От PPO до Dagger: современные методы обучения агентов

Stanford Online · 30.10.24

🤖 Пессимизм как стратегия: Аравинд Раджесваран о безопасности офлайн-обучения ИИ

The TWIML AI Podcast · 05.01.21

🧠 Авторы ChibiT о переносе знаний из текстов Wikipedia в Offline RL

Yannic Kilcher · 28.02.22

🚀 Преподаватель Стэнфорда о методах обучения языковых моделей: от RLHF к DPO

Stanford Online · 08.12.25

🚀 DeepSeek-R1: Как Китай совершил революцию в рассуждениях ИИ

The Cognitive Revolution · 25.01.25

Янник Килчер о PCGRL: «Дизайн уровня как игра»

Yannic Kilcher · 04.08.20

🔄 Дэвид Сильвер о Deep RL: «В нейросетях с миллиардом параметров нет локальных минимумов»

Lex Fridman · 06.05.20

🧠 Камьяр Азиззаденешели: интеграция LLM и алгоритмов AlphaGo определит будущее робототехники

The TWIML AI Podcast · 05.02.24

🚀 Эван Рейзер (Poolside): «Обучение на исполнении кода — это путь к созданию AGI»

Eye on AI · 24.09.25

🧠 Харри Валпола: как обучить ИИ планированию и защитить его от системных иллюзий

Machine Learning Street Talk · 25.05.20

🎮 Почему ИИ учится неделями, а человек адаптируется мгновенно?

Yannic Kilcher · 10.05.19

📸 Как победить технологических гигантов: правила игры Кевина Систрома

Lex Fridman · 23.11.21

🧠 Как устроены LLM: от «зип-файла интернета» до рассуждающих моделей

Andrej Karpathy · 05.02.25

🤖 Почему ИИ обманывает: инженерный подход к безопасности алгоритмов

80,000 Hours · 27.05.24