Поиск

Найдено: 33

1ч 51м
🚀 Стэнфорд CME295: Итоги 2025 года в мире трансформеров и диффузионных моделей
Stanford Online · 09.12.25
1ч 20м
🚀 Stanford CS336: секреты обучения reasoning-моделей DeepSeek-R1, Kimi и Qwen
Stanford Online · 01.07.25
1ч 47м
🧠 Стэнфорд CME295: Как алгоритм GRPO и DeepSeek R1 изменили логику нейросетей
Stanford Online · 14.11.25
53 мин
🔄 Янник Кильчер разобрал метод Reinforced Self-Training от Google DeepMind
Yannic Kilcher · 03.09.23
1ч 44м
🎮 От Atari до ChatGPT: как ИИ учится на своих ошибках?
Stanford Online · 31.10.25
1ч 09м
🧠 Обучение с подкреплением: главные вызовы и прорывы стэнфордского курса CS234
Stanford Online · 30.10.24
1ч 05м
⚖ Сара Хукер: «Пороги вычислений в законах об ИИ бессмысленны»
Machine Learning Street Talk · 18.07.24
1ч 09м
⚖ Stanford CS224R: PPO и SAC как стандарты обучения с подкреплением
Stanford Online · 08.12.25
1ч 47м
🎯 Стэнфорд: «Ваша языковая модель — это на самом деле скрытая модель вознаграждения»
Stanford Online · 14.11.25
1ч 19м
🛡 Стэнфорд о PPO: «Почему это самый полезный метод в RL»
Stanford Online · 30.10.24
53 мин
🚀 Якоб Фёрстер: «RL на GPU — наш момент ImageNet»
Machine Learning Street Talk · 18.02.25
1ч 18м
🛠 От PPO до Dagger: современные методы обучения агентов
Stanford Online · 30.10.24
1ч 20м
🧠 Стэнфордский курс CS234: принципы офлайн-RL и преодоление неопределенности
Stanford Online · 30.10.24
1ч 18м
📉 Direct Preference Optimization: почему исследователи переходят на DPO
Stanford Online · 30.10.24
1ч 14м
🔄 Как устроен посттренинг языковых моделей: от SFT до RLHF
Stanford Online · 20.06.25
1ч 47м
🛠 Тюнинг LLM: как методы PPO и DPO превращают нейросети из автодополнителей в полезных помощников
Stanford Online · 14.11.25
1ч 08м
🧬 Нейтан Ламберт о жизни после DPO: почему PPO все еще лучше, но сложнее
Stanford Online · 04.03.25
1ч 19м
🕰 Мин Дин об эволюции ИИ: от больших языковых к мультимодальным моделям
Stanford Online · 30.05.24
49 мин
🔄 От слепого робопса до Tesla Optimus: как алгоритмы Reinforcement Learning меняют робототехнику
Stanford Online · 08.12.25
1ч 01м
🔄 Эволюция Q-Learning: от уравнений Беллмана до алгоритмов DQN и Double DQN
Stanford Online · 08.12.25
1ч 08м
🔄 Градиент стратегии и алгоритм REINFORCE: от робототехники до ChatGPT
Stanford Online · 30.10.24
1ч 13м
🔄 От симуляции такси до ChatGPT: как максимизация энтропии и отзывы людей обучают современный ИИ
Stanford Online · 30.10.24
22 мин
🤖 Заменяет ли простая аугментация годы исследований в сфере RL?
Yannic Kilcher · 06.05.20
45 мин
Янник Кильхер о RIMs: «Это не мета-обучение, а разделение»
Yannic Kilcher · 29.05.21
1ч 17м
🧠 Стэнфордский профессор объяснил, как сэмплирование Томпсона спасает рекомендательные системы от задержек данных
Stanford Online · 30.10.24
1ч 18м
🎯 Юньчжу Ли на CS231N: от моделей мира к большим моделям поведения
Stanford Online · 02.09.25
45 мин
📝 Learning to summarize from human feedback (Paper Explained)
Yannic Kilcher · 07.09.20
45 мин
Янник Килчер о Q-Learning: «Возможно, это не связано с Q*»
Yannic Kilcher · 25.11.23
35 мин
🎮 Экономика под управлением ИИ: как Salesforce научила нейросети собирать налоги
Yannic Kilcher · 30.04.20
35 мин
🎮 Янник Килчер разобрал симуляцию AI Economist: как ИИ предлагает оптимизировать налоги
Yannic Kilcher · 30.04.20