RDLY
.ru
Тренды
Статьи
Темы
Люди
Поиск
Найти
Найдено: 50
19 мин
🤖 Обучение на чужих ошибках: Янник Кильхер разбирает бенчмарк D4RL для Offline RL
Yannic Kilcher · 16.04.20
49 мин
🔄 От слепого робопса до Tesla Optimus: как алгоритмы Reinforcement Learning меняют робототехнику
Stanford Online · 08.12.25
1ч 19м
🚀 Профессор Бранскилл: «Обучение с подкреплением — это ключ к интеллекту»
Stanford Online · 30.10.24
1ч 02м
🤖 Градиент стратегии в Reinforcement Learning: от REINFORCE до Importance Sampling
Stanford Online · 08.12.25
26 мин
🔄 Шмидхубер выворачивает ИИ наизнанку: детальный разбор концепции Upside-Down RL
Yannic Kilcher · 11.12.19
1ч 10м
🎮 Профессор Эмма Бранскилл об эволюции алгоритмов исследования в обучении с подкреплением
Stanford Online · 30.10.24
37 мин
🧠 Гокул Свами: «Многие маршруты в Google Maps рассчитываются через инверсное обучение с подкреплением»
The TWIML AI Podcast · 21.08.23
1ч 18м
🤖 От случайного блуждания до Q-Learning: как ИИ учится на своих ошибках
Stanford Online · 09.03
53 мин
🚀 Якоб Фёрстер: «RL на GPU — наш момент ImageNet»
Machine Learning Street Talk · 18.02.25
28 мин
CURL: обучение ИИ на «сырых» пикселях без учителя
Yannic Kilcher · 11.04.20
1ч 44м
🎮 От Atari до ChatGPT: как ИИ учится на своих ошибках?
Stanford Online · 31.10.25
39 мин
🕹 Как ИИ от DeepMind научился играть в Atari: разбор классической статьи от Янника Килчера
Yannic Kilcher · 26.07.20
1ч 13м
🧠 Стэнфордский университет: как самообучение и MCTS сделали AlphaGo непобедимым
Stanford Online · 30.10.24
1ч 14м
🚀 Тим Скарфе: «Почему самообучение нейросетей эффективнее человеческой разметки?»
Machine Learning Street Talk · 17.04.20
29 мин
Янник Килчер: как заставить роботов «думать на ходу»?
Yannic Kilcher · 23.04.20
22 мин
🤖 Заменяет ли простая аугментация годы исследований в сфере RL?
Yannic Kilcher · 06.05.20
1ч 18м
🛠 От PPO до Dagger: современные методы обучения агентов
Stanford Online · 30.10.24
40 мин
🤖 Пессимизм как стратегия: Аравинд Раджесваран о безопасности офлайн-обучения ИИ
The TWIML AI Podcast · 05.01.21
44 мин
🧠 Авторы ChibiT о переносе знаний из текстов Wikipedia в Offline RL
Yannic Kilcher · 28.02.22
1ч 02м
🚀 Преподаватель Стэнфорда о методах обучения языковых моделей: от RLHF к DPO
Stanford Online · 08.12.25
1ч 48м
🚀 DeepSeek-R1: Как Китай совершил революцию в рассуждениях ИИ
The Cognitive Revolution · 25.01.25
24 мин
Янник Килчер о PCGRL: «Дизайн уровня как игра»
Yannic Kilcher · 04.08.20
13 мин
🔄 Дэвид Сильвер о Deep RL: «В нейросетях с миллиардом параметров нет локальных минимумов»
Lex Fridman · 06.05.20
1ч 25м
🧠 Камьяр Азиззаденешели: интеграция LLM и алгоритмов AlphaGo определит будущее робототехники
The TWIML AI Podcast · 05.02.24
54 мин
🚀 Эван Рейзер (Poolside): «Обучение на исполнении кода — это путь к созданию AGI»
Eye on AI · 24.09.25
1ч 38м
🧠 Харри Валпола: как обучить ИИ планированию и защитить его от системных иллюзий
Machine Learning Street Talk · 25.05.20
24 мин
🎮 Почему ИИ учится неделями, а человек адаптируется мгновенно?
Yannic Kilcher · 10.05.19
2ч 44м
📸 Как победить технологических гигантов: правила игры Кевина Систрома
Lex Fridman · 23.11.21
3ч 31м
🧠 Как устроены LLM: от «зип-файла интернета» до рассуждающих моделей
Andrej Karpathy · 05.02.25
2ч 55м
🤖 Почему ИИ обманывает: инженерный подход к безопасности алгоритмов
80,000 Hours · 27.05.24
18 мин
🧱 Как Salesforce Research ускоряет иерархическое обучение с подкреплением через World Graphs
Yannic Kilcher · 08.08.19
1ч 05м
🔄 Лекция Стэнфорда о Reward Learning: как научить искусственный интеллект понимать человеческие цели
Stanford Online · 08.12.25
47 мин
🕹 Как классическая игра NetHack помогает обучать нейросети будущего
The TWIML AI Podcast · 14.10.21
1ч 02м
🔄 Стэнфордский курс CS224R: математический вывод градиентов политики в RL
Stanford Online · 08.12.25
1ч 03м
🔄 Stanford Online: «Методы Actor-Critic — база для обучения LLM и роботов»
Stanford Online · 08.12.25
1ч 10м
🤖 Курс CS224R в Стэнфорде: разбор многозадачного RL и алгоритма Hindsight Relabeling
Stanford Online · 08.12.25
1ч 13м
🧩 Stanford CS234 Reinforcement Learning I Tabular MDP Planning I 2024 I Lecture 2
Stanford Online · 30.10.24
52 мин
🧠 Профессор Челси Финн об основах глубокого обучения с подкреплением в Стэнфорде
Stanford Online · 08.12.25
1ч 09м
🏗 Stanford CS224R: Как иерархический ИИ решает задачи с длинным горизонтом
Stanford Online · 08.12.25
55 мин
🧠 Как решать новые задачи в RL без переобучения: разбор Янника Килчера
Yannic Kilcher · 23.08.20
1ч 09м
⚖ Stanford CS224R: PPO и SAC как стандарты обучения с подкреплением
Stanford Online · 08.12.25
1ч 14м
⚖ Stanford CS234 Reinforcement Learning I Exploration 1 I 2024 I Lecture 11
Stanford Online · 30.10.24
1ч 12м
DREAM: как научить ИИ исследовать и обучаться эффективнее
Stanford Online · 08.12.25
1ч 03м
🔄 Эволюция алгоритмов Actor-Critic: как Стэнфорд обучает нейросети на ошибках
Stanford Online · 08.12.25
1ч 22м
🤖 Как глубокое обучение с подкреплением меняет робототехнику и теорию управления
The TWIML AI Podcast · 21.02.22
1ч 20м
Методы оценки политики: Монте-Карло против Temporal Difference
Stanford Online · 30.10.24
37 мин
🕹 AlphaStar: как ИИ достиг уровня Grandmaster в StarCraft II
Yannic Kilcher · 02.11.19
49 мин
⚖ Лекция в Стэнфорде: развитие интеллекта роботов через RL
Stanford Online · 08.12.25
1ч 18м
🧠 Эмма Бранскилл о DQN: «Реплей-буфер — ключ к прогрессу»
Stanford Online · 30.10.24
1ч 07м
🤖 Сергей Левин об эволюции обучения с подкреплением: от «бандитов» в ChatGPT до роботов-трансформеров
The TWIML AI Podcast · 16.01.23