Поиск

Найдено: 19

⚖ Методы Offline RL: от имитации к оптимизации стратегий

Stanford Online · 08.12.25

🤖 Обучение на чужих ошибках: Янник Кильхер разбирает бенчмарк D4RL для Offline RL

Yannic Kilcher · 16.04.20

🧠 Авторы ChibiT о переносе знаний из текстов Wikipedia в Offline RL

Yannic Kilcher · 28.02.22

🧠 Стэнфордский курс CS234: принципы офлайн-RL и преодоление неопределенности

Stanford Online · 30.10.24

🔄 От симуляции такси до ChatGPT: как максимизация энтропии и отзывы людей обучают современный ИИ

Stanford Online · 30.10.24

🤖 Сергей Левин об эволюции обучения с подкреплением: от «бандитов» в ChatGPT до роботов-трансформеров

The TWIML AI Podcast · 16.01.23

🤖 Как проект RT-X объединил 34 лаборатории и ускорил обучение роботов

Eye on AI · 17.03.24

🧠 Как предобучение трансформеров на Википедии помогает в обучении роботов

Yannic Kilcher · 26.02.22

🧠 Когнитивное зеркало: почему ИИ лечит лучше алгоритмических соцсетей

Machine Learning Street Talk · 08.08.24

🧠 Почему роботы бьют посуду и как ИИ обретает здравый смысл

Lex Fridman · 14.07.20

🧠 Профессор Челси Финн об основах глубокого обучения с подкреплением в Стэнфорде

Stanford Online · 08.12.25

🤖 Как превратить обучение с подкреплением в задачу для GPT: разбор Decision Transformer

Yannic Kilcher · 05.06.21

🎮 Как ошибка в медиане влияет на оценку ИИ

The TWIML AI Podcast · 14.02.22

🚀 Тони Джебара о будущем: «Алгоритмы должны мыслить долгосрочно»

The TWIML AI Podcast · 29.12.22

🛠 Ориоль Виньялс: «Масштабирование — это не единственный путь к интеллекту»

The TWIML AI Podcast · 20.12.21

🔄 Лекция Стэнфорда о Reward Learning: как научить искусственный интеллект понимать человеческие цели

Stanford Online · 08.12.25

🔄 Подход Model-Based RL: как Стэнфорд обучает сложных роботов за четыре часа

Stanford Online · 08.12.25

🤖 Пессимизм как стратегия: Аравинд Раджесваран о безопасности офлайн-обучения ИИ

The TWIML AI Podcast · 05.01.21

🤖 Использование физических моделей для обучения роботов ловкой манипуляции

Stanford Online · 25.11.24