Поиск

Найдено: 50

🔄 Эволюция Q-Learning: от уравнений Беллмана до алгоритмов DQN и Double DQN

Stanford Online · 08.12.25

🤖 Как система SayCan от Google объединяет нейросети и робототехнику

Yannic Kilcher · 30.04.22

🔄 Эволюция алгоритмов Actor-Critic: как Стэнфорд обучает нейросети на ошибках

Stanford Online · 08.12.25

🛠 Профессор Стивен Бойд объяснил конструктивный анализ выпуклости в Стэнфорде

Stanford Online · 14.03.24

🧠 Илья Суцкевер: «Мы возвращаемся из эпохи масштабирования в эпоху исследований»

Dwarkesh Patel · 25.11.25

📉 Стивен Бойд: «Любой локальный оптимум выпуклой задачи является глобальным»

Stanford Online · 15.03.24

🛡 Стэнфорд о PPO: «Почему это самый полезный метод в RL»

Stanford Online · 30.10.24

🤖 Как Google SayCan объединяет языковые модели и робототехнику

Yannic Kilcher · 02.05.22

🚀 Stanford CS336: секреты обучения reasoning-моделей DeepSeek-R1, Kimi и Qwen

Stanford Online · 01.07.25

🧱 Как научить робота крутить вентили за 10 кликов: разбор Dynamical Distance Learning

Yannic Kilcher · 12.04.20

🧠 Алгоритмы внутри нас: как хакнуть мозг с помощью науки

Huberman Lab · 18.11.24

🌐 Минчи Цзян: «Графики метрик скрывали реальные слепые зоны агента»

Yannic Kilcher · 26.04.22

🛠 Тюнинг LLM: как методы PPO и DPO превращают нейросети из автодополнителей в полезных помощников

Stanford Online · 14.11.25

📸 Как победить технологических гигантов: правила игры Кевина Систрома

Lex Fridman · 23.11.21

🔄 Дэвид Сильвер о Deep RL: «В нейросетях с миллиардом параметров нет локальных минимумов»

Lex Fridman · 06.05.20

🎮 Как ошибка в медиане влияет на оценку ИИ

The TWIML AI Podcast · 14.02.22

🤖 Как обучить робота-дворцкого? Новые подходы Стэнфорда к обобщению задач

Stanford Online · 14.07.25

🤖 Как проект RT-X объединил 34 лаборатории и ускорил обучение роботов

Eye on AI · 17.03.24

🧠 Как RAG, Tool Calling и агенты связывают LLM с реальным миром: лекция CME295 в Стэнфорде

Stanford Online · 18.11.25

🌐 Проклятие размерности: почему нейросети всегда занимаются экстраполяцией

Machine Learning Street Talk · 04.01.22

🚀 Тони Джебара о будущем: «Алгоритмы должны мыслить долгосрочно»

The TWIML AI Podcast · 29.12.22

🎯 Профессор Стэнфорда разобрал ключевые вызовы и методологию исследований Deep RL

Stanford Online · 08.12.25

🔄 Подход Model-Based RL: как Стэнфорд обучает сложных роботов за четыре часа

Stanford Online · 08.12.25

🌍 Как обучить робота без вознаграждений? Разбор алгоритма Plan2Explore

Yannic Kilcher · 17.05.20

🎮 Мартин Шмид о Player of Games: „Универсальный алгоритм для любой игры“

Yannic Kilcher · 02.01.22

🎯 Стэнфорд: «Ваша языковая модель — это на самом деле скрытая модель вознаграждения»

Stanford Online · 14.11.25

Методы оценки политики: Монте-Карло против Temporal Difference

Stanford Online · 30.10.24

🧠 Теория всего от нейробиологии: как Карл Фристон связывает физику, разум и машинное обучение

Machine Learning Street Talk · 13.12.20

🔄 Шмидхубер выворачивает ИИ наизнанку: детальный разбор концепции Upside-Down RL

Yannic Kilcher · 11.12.19

🤖 Илья Суцкевер: «Возможно создать ИИ, желающий подчиняться человеку»

Lex Fridman · 09.05.20