Поиск

Найдено: 36

Янник Килчер о Q-Learning: «Возможно, это не связано с Q*»

Yannic Kilcher · 25.11.23

🤖 Янник Килчер о Q-Learning: как ИИ учится принимать решения

Yannic Kilcher · 25.11.23

🧠 Эмма Бранскилл о DQN: «Реплей-буфер — ключ к прогрессу»

Stanford Online · 30.10.24

🔄 Эволюция Q-Learning: от уравнений Беллмана до алгоритмов DQN и Double DQN

Stanford Online · 08.12.25

🤖 От случайного блуждания до Q-Learning: как ИИ учится на своих ошибках

Stanford Online · 09.03

🧠 Стэнфордский курс CS234: принципы офлайн-RL и преодоление неопределенности

Stanford Online · 30.10.24

Аникайт из Стэнфорда: «Почему ваше Q-обучение нестабильно?»

Stanford Online · 08.12.25

🤖 Сергей Левин об эволюции обучения с подкреплением: от «бандитов» в ChatGPT до роботов-трансформеров

The TWIML AI Podcast · 16.01.23

🧠 Как решать новые задачи в RL без переобучения: разбор Янника Килчера

Yannic Kilcher · 23.08.20

🚀 Уэс Рот: «Gemini 2.5 Pro — это абсолютный зверь в кодинге»

Wes Roth · 28.03.25

🚀 Почему будущее ИИ за логикой (Reasoning), а не просто масштабом

Y Combinator · 14.11.24

⚖ Методы Offline RL: от имитации к оптимизации стратегий

Stanford Online · 08.12.25

🕹 Как ИИ от DeepMind научился играть в Atari: разбор классической статьи от Янника Килчера

Yannic Kilcher · 26.07.20

🔄 Шмидхубер выворачивает ИИ наизнанку: детальный разбор концепции Upside-Down RL

Yannic Kilcher · 11.12.19

🧠 Лекция Stanford CS221: От табличных методов к Actor-Critic

Stanford Online · 09.03

🔄 Лекция Стэнфорда о Reward Learning: как научить искусственный интеллект понимать человеческие цели

Stanford Online · 08.12.25

🎨 Даг Эк: как проект Magenta обучает нейросети искусству и музыке

Y Combinator · 21.07.17

🤖 Майкл Литтман: будущее ИИ и уроки обучения с подкреплением

Lex Fridman · 13.12.20

🤖 Почему ИИ обманывает: инженерный подход к безопасности алгоритмов

80,000 Hours · 27.05.24

🛠 Зачем Стэнфорд убрал классические задачи ради PyTorch и Einops?

Stanford Online · 09.03

🏗 [ML Olds] Meta Research Supercluster | OpenAI GPT-Instruct | Google LaMDA | Drones fight Pigeons

Yannic Kilcher · 23.02.22

🧠 Профессор Челси Финн об основах глубокого обучения с подкреплением в Стэнфорде

Stanford Online · 08.12.25

🔄 Градиент стратегии и алгоритм REINFORCE: от робототехники до ChatGPT

Stanford Online · 30.10.24

✂ Как алгоритм ReBeL научился обыгрывать людей в покер с помощью теории игр

Yannic Kilcher · 16.12.20

🤖 Как превратить обучение с подкреплением в задачу для GPT: разбор Decision Transformer

Yannic Kilcher · 05.06.21

🤖 Дарио Амодеи об OpenAI, рисках AGI и о том, как попасть в индустрию безопасности ИИ

80,000 Hours · 24.08.18

🤖 Исследователи из Университета Пердью обучили робота за рекордные сроки с помощью физических априоров дифференциальных уравнений

Stanford Online · 16.01

🎯 Профессор Стэнфорда разобрал ключевые вызовы и методологию исследований Deep RL

Stanford Online · 08.12.25

🧠 Стэнфордский профессор объяснил, как сэмплирование Томпсона спасает рекомендательные системы от задержек данных

Stanford Online · 30.10.24

🔄 От симуляции такси до ChatGPT: как максимизация энтропии и отзывы людей обучают современный ИИ

Stanford Online · 30.10.24