Поиск

Найдено: 33

🚀 Стэнфорд CME295: Итоги 2025 года в мире трансформеров и диффузионных моделей

Stanford Online · 09.12.25

🚀 Stanford CS336: секреты обучения reasoning-моделей DeepSeek-R1, Kimi и Qwen

Stanford Online · 01.07.25

🧠 Стэнфорд CME295: Как алгоритм GRPO и DeepSeek R1 изменили логику нейросетей

Stanford Online · 14.11.25

🔄 Янник Кильчер разобрал метод Reinforced Self-Training от Google DeepMind

Yannic Kilcher · 03.09.23

🎮 От Atari до ChatGPT: как ИИ учится на своих ошибках?

Stanford Online · 31.10.25

🧠 Обучение с подкреплением: главные вызовы и прорывы стэнфордского курса CS234

Stanford Online · 30.10.24

⚖ Сара Хукер: «Пороги вычислений в законах об ИИ бессмысленны»

Machine Learning Street Talk · 18.07.24

⚖ Stanford CS224R: PPO и SAC как стандарты обучения с подкреплением

Stanford Online · 08.12.25

🎯 Стэнфорд: «Ваша языковая модель — это на самом деле скрытая модель вознаграждения»

Stanford Online · 14.11.25

🛡 Стэнфорд о PPO: «Почему это самый полезный метод в RL»

Stanford Online · 30.10.24

🚀 Якоб Фёрстер: «RL на GPU — наш момент ImageNet»

Machine Learning Street Talk · 18.02.25

🛠 От PPO до Dagger: современные методы обучения агентов

Stanford Online · 30.10.24

🧠 Стэнфордский курс CS234: принципы офлайн-RL и преодоление неопределенности

Stanford Online · 30.10.24

📉 Direct Preference Optimization: почему исследователи переходят на DPO

Stanford Online · 30.10.24

🔄 Как устроен посттренинг языковых моделей: от SFT до RLHF

Stanford Online · 20.06.25

🛠 Тюнинг LLM: как методы PPO и DPO превращают нейросети из автодополнителей в полезных помощников

Stanford Online · 14.11.25

🧬 Нейтан Ламберт о жизни после DPO: почему PPO все еще лучше, но сложнее

Stanford Online · 04.03.25

🕰 Мин Дин об эволюции ИИ: от больших языковых к мультимодальным моделям

Stanford Online · 30.05.24

🔄 От слепого робопса до Tesla Optimus: как алгоритмы Reinforcement Learning меняют робототехнику

Stanford Online · 08.12.25

🔄 Эволюция Q-Learning: от уравнений Беллмана до алгоритмов DQN и Double DQN

Stanford Online · 08.12.25

🔄 Градиент стратегии и алгоритм REINFORCE: от робототехники до ChatGPT

Stanford Online · 30.10.24

🔄 От симуляции такси до ChatGPT: как максимизация энтропии и отзывы людей обучают современный ИИ

Stanford Online · 30.10.24

🤖 Заменяет ли простая аугментация годы исследований в сфере RL?

Yannic Kilcher · 06.05.20

Янник Кильхер о RIMs: «Это не мета-обучение, а разделение»

Yannic Kilcher · 29.05.21

🧠 Стэнфордский профессор объяснил, как сэмплирование Томпсона спасает рекомендательные системы от задержек данных

Stanford Online · 30.10.24

🎯 Юньчжу Ли на CS231N: от моделей мира к большим моделям поведения

Stanford Online · 02.09.25

📝 Learning to summarize from human feedback (Paper Explained)

Yannic Kilcher · 07.09.20

Янник Килчер о Q-Learning: «Возможно, это не связано с Q*»

Yannic Kilcher · 25.11.23

🎮 Экономика под управлением ИИ: как Salesforce научила нейросети собирать налоги

Yannic Kilcher · 30.04.20

🎮 Янник Килчер разобрал симуляцию AI Economist: как ИИ предлагает оптимизировать налоги

Yannic Kilcher · 30.04.20