RDLY
.ru
Тренды
Статьи
Темы
Люди
Поиск
Найти
Найдено: 36
45 мин
Янник Килчер о Q-Learning: «Возможно, это не связано с Q*»
Yannic Kilcher · 25.11.23
45 мин
🤖 Янник Килчер о Q-Learning: как ИИ учится принимать решения
Yannic Kilcher · 25.11.23
1ч 18м
🧠 Эмма Бранскилл о DQN: «Реплей-буфер — ключ к прогрессу»
Stanford Online · 30.10.24
1ч 01м
🔄 Эволюция Q-Learning: от уравнений Беллмана до алгоритмов DQN и Double DQN
Stanford Online · 08.12.25
1ч 18м
🤖 От случайного блуждания до Q-Learning: как ИИ учится на своих ошибках
Stanford Online · 09.03
1ч 20м
🧠 Стэнфордский курс CS234: принципы офлайн-RL и преодоление неопределенности
Stanford Online · 30.10.24
50 мин
Аникайт из Стэнфорда: «Почему ваше Q-обучение нестабильно?»
Stanford Online · 08.12.25
1ч 07м
🤖 Сергей Левин об эволюции обучения с подкреплением: от «бандитов» в ChatGPT до роботов-трансформеров
The TWIML AI Podcast · 16.01.23
55 мин
🧠 Как решать новые задачи в RL без переобучения: разбор Янника Килчера
Yannic Kilcher · 23.08.20
46 мин
🚀 Уэс Рот: «Gemini 2.5 Pro — это абсолютный зверь в кодинге»
Wes Roth · 28.03.25
35 мин
🚀 Почему будущее ИИ за логикой (Reasoning), а не просто масштабом
Y Combinator · 14.11.24
1ч 07м
⚖ Методы Offline RL: от имитации к оптимизации стратегий
Stanford Online · 08.12.25
39 мин
🕹 Как ИИ от DeepMind научился играть в Atari: разбор классической статьи от Янника Килчера
Yannic Kilcher · 26.07.20
26 мин
🔄 Шмидхубер выворачивает ИИ наизнанку: детальный разбор концепции Upside-Down RL
Yannic Kilcher · 11.12.19
1ч 13м
🧠 Лекция Stanford CS221: От табличных методов к Actor-Critic
Stanford Online · 09.03
1ч 05м
🔄 Лекция Стэнфорда о Reward Learning: как научить искусственный интеллект понимать человеческие цели
Stanford Online · 08.12.25
44 мин
🎨 Даг Эк: как проект Magenta обучает нейросети искусству и музыке
Y Combinator · 21.07.17
1ч 56м
🤖 Майкл Литтман: будущее ИИ и уроки обучения с подкреплением
Lex Fridman · 13.12.20
2ч 55м
🤖 Почему ИИ обманывает: инженерный подход к безопасности алгоритмов
80,000 Hours · 27.05.24
1ч 06м
🛠 Зачем Стэнфорд убрал классические задачи ради PyTorch и Einops?
Stanford Online · 09.03
12 мин
🏗 [ML Olds] Meta Research Supercluster | OpenAI GPT-Instruct | Google LaMDA | Drones fight Pigeons
Yannic Kilcher · 23.02.22
52 мин
🧠 Профессор Челси Финн об основах глубокого обучения с подкреплением в Стэнфорде
Stanford Online · 08.12.25
1ч 08м
🔄 Градиент стратегии и алгоритм REINFORCE: от робототехники до ChatGPT
Stanford Online · 30.10.24
1ч 12м
✂ Как алгоритм ReBeL научился обыгрывать людей в покер с помощью теории игр
Yannic Kilcher · 16.12.20
56 мин
🤖 Как превратить обучение с подкреплением в задачу для GPT: разбор Decision Transformer
Yannic Kilcher · 05.06.21
1ч 38м
🤖 Дарио Амодеи об OpenAI, рисках AGI и о том, как попасть в индустрию безопасности ИИ
80,000 Hours · 24.08.18
52 мин
🤖 Исследователи из Университета Пердью обучили робота за рекордные сроки с помощью физических априоров дифференциальных уравнений
Stanford Online · 16.01
1ч 10м
🎯 Профессор Стэнфорда разобрал ключевые вызовы и методологию исследований Deep RL
Stanford Online · 08.12.25
1ч 17м
🧠 Стэнфордский профессор объяснил, как сэмплирование Томпсона спасает рекомендательные системы от задержек данных
Stanford Online · 30.10.24
1ч 13м
🔄 От симуляции такси до ChatGPT: как максимизация энтропии и отзывы людей обучают современный ИИ
Stanford Online · 30.10.24
1ч 17м
🔄 Лекция Стэнфорда CS221: основы байесовских сетей и вероятностное программирование
Stanford Online · 09.03
13 мин
🚀 The AI Scientist: Как система от Sakana AI автоматизирует научные открытия за $15
Wes Roth · 17.08.24
18 мин
🔄 Возвращение Сэма Альтмана и загадка Q-Star: что на самом деле произошло в OpenAI
Yannic Kilcher · 23.11.23
1ч 55м
🔬 Как Future House автоматизирует научные открытия с помощью ИИ-агентов
The Cognitive Revolution · 05.12.24
1ч 20м
📊 Как ценовые роботы учатся монопольному сговору без человека
MIT OpenCourseWare · 27.09.24
1ч 18м
🎓 Как аналитический метод DPO изменил выравнивание LLM и столкнулся со взломом наград
Stanford Online · 30.10.24