Поиск

Найдено: 19

🧠 Эмма Бранскилл о DQN: «Реплей-буфер — ключ к прогрессу»

Stanford Online · 30.10.24

🧠 Стэнфордский курс CS234: принципы офлайн-RL и преодоление неопределенности

Stanford Online · 30.10.24

🎨 Даг Эк: как проект Magenta обучает нейросети искусству и музыке

Y Combinator · 21.07.17

🤖 Янник Килчер о Q-Learning: как ИИ учится принимать решения

Yannic Kilcher · 25.11.23

✂ Как алгоритм ReBeL научился обыгрывать людей в покер с помощью теории игр

Yannic Kilcher · 16.12.20

🤖 Дарио Амодеи об OpenAI, рисках AGI и о том, как попасть в индустрию безопасности ИИ

80,000 Hours · 24.08.18

🧠 Стэнфордский профессор объяснил, как сэмплирование Томпсона спасает рекомендательные системы от задержек данных

Stanford Online · 30.10.24

🔄 От симуляции такси до ChatGPT: как максимизация энтропии и отзывы людей обучают современный ИИ

Stanford Online · 30.10.24

🔄 Эволюция Q-Learning: от уравнений Беллмана до алгоритмов DQN и Double DQN

Stanford Online · 08.12.25

Аникайт из Стэнфорда: «Почему ваше Q-обучение нестабильно?»

Stanford Online · 08.12.25

🚀 Уэс Рот: «Gemini 2.5 Pro — это абсолютный зверь в кодинге»

Wes Roth · 28.03.25

🕹 Как ИИ от DeepMind научился играть в Atari: разбор классической статьи от Янника Килчера

Yannic Kilcher · 26.07.20

🔄 Градиент стратегии и алгоритм REINFORCE: от робототехники до ChatGPT

Stanford Online · 30.10.24

🧠 Профессор Челси Финн об основах глубокого обучения с подкреплением в Стэнфорде

Stanford Online · 08.12.25

🔄 Лекция Стэнфорда о Reward Learning: как научить искусственный интеллект понимать человеческие цели

Stanford Online · 08.12.25

⚖ Методы Offline RL: от имитации к оптимизации стратегий

Stanford Online · 08.12.25

🧠 Как решать новые задачи в RL без переобучения: разбор Янника Килчера

Yannic Kilcher · 23.08.20

🎯 Профессор Стэнфорда разобрал ключевые вызовы и методологию исследований Deep RL

Stanford Online · 08.12.25

🔬 Как Future House автоматизирует научные открытия с помощью ИИ-агентов

The Cognitive Revolution · 05.12.24