Поиск

Найдено: 50

⚖ Stanford CS224R: PPO и SAC как стандарты обучения с подкреплением

Stanford Online · 08.12.25

🧬 Нейтан Ламберт о жизни после DPO: почему PPO все еще лучше, но сложнее

Stanford Online · 04.03.25

🎓 Как аналитический метод DPO изменил выравнивание LLM и столкнулся со взломом наград

Stanford Online · 30.10.24

🛡 Стэнфорд о PPO: «Почему это самый полезный метод в RL»

Stanford Online · 30.10.24

🛠 От PPO до Dagger: современные методы обучения агентов

Stanford Online · 30.10.24

🔄 Янник Кильчер разобрал метод Reinforced Self-Training от Google DeepMind

Yannic Kilcher · 03.09.23

🛠 Тюнинг LLM: как методы PPO и DPO превращают нейросети из автодополнителей в полезных помощников

Stanford Online · 14.11.25

🧠 Обучение с подкреплением: главные вызовы и прорывы стэнфордского курса CS234

Stanford Online · 30.10.24

📊 Исследование Google Brain: как правильно настроить on-policy RL-агента

Yannic Kilcher · 20.08.20

📉 Direct Preference Optimization: почему исследователи переходят на DPO

Stanford Online · 30.10.24

🎮 От Atari до ChatGPT: как ИИ учится на своих ошибках?

Stanford Online · 31.10.25

🎯 Стэнфорд: «Ваша языковая модель — это на самом деле скрытая модель вознаграждения»

Stanford Online · 14.11.25

🤖 Заменяет ли простая аугментация годы исследований в сфере RL?

Yannic Kilcher · 06.05.20

🧠 Стэнфордский курс CS234: принципы офлайн-RL и преодоление неопределенности

Stanford Online · 30.10.24

⚖ Сара Хукер: «Пороги вычислений в законах об ИИ бессмысленны»

Machine Learning Street Talk · 18.07.24

🔄 Как устроен посттренинг языковых моделей: от SFT до RLHF

Stanford Online · 20.06.25

🔄 Подход Model-Based RL: как Стэнфорд обучает сложных роботов за четыре часа

Stanford Online · 08.12.25

📝 Learning to summarize from human feedback (Paper Explained)

Yannic Kilcher · 07.09.20

🔄 Будущее LLM в 2025 году: от авторегрессии к диффузии и аналоговым чипам

Stanford Online · 09.12.25

🧠 DeepSeek R1 против OpenAI o1: как алгоритм GRPO изменил правила игры в ИИ

Stanford Online · 14.11.25

🏗 Натан Ламберт: «RLHF — это необходимый инструмент выравнивания ИИ»

Stanford Online · 10.05.24

🚀 Stanford CS336: секреты обучения reasoning-моделей DeepSeek-R1, Kimi и Qwen

Stanford Online · 01.07.25

🤖 Пессимизм как стратегия: Аравинд Раджесваран о безопасности офлайн-обучения ИИ

The TWIML AI Podcast · 05.01.21

💰 Джон Грубер об экономических дисбалансах систем Medicaid и Medicare

MIT OpenCourseWare · 04.02

🏛 Как 15 ученых смогли превзойти ИИ-гигантов уровня Meta?

The Cognitive Revolution · 21.11.24

🔄 Эволюция Q-Learning: от уравнений Беллмана до алгоритмов DQN и Double DQN

Stanford Online · 08.12.25

🚀 Стэнфорд CME295: Итоги 2025 года в мире трансформеров и диффузионных моделей

Stanford Online · 09.12.25

🔄 Градиент стратегии и алгоритм REINFORCE: от робототехники до ChatGPT

Stanford Online · 30.10.24

🧠 Стэнфорд CME295: Как алгоритм GRPO и DeepSeek R1 изменили логику нейросетей

Stanford Online · 14.11.25

🚀 Якоб Фёрстер: «RL на GPU — наш момент ImageNet»

Machine Learning Street Talk · 18.02.25