RDLY
.ru
Тренды
Статьи
Темы
Люди
Поиск
Найти
Найдено: 50
1ч 09м
⚖ Stanford CS224R: PPO и SAC как стандарты обучения с подкреплением
Stanford Online · 08.12.25
1ч 08м
🧬 Нейтан Ламберт о жизни после DPO: почему PPO все еще лучше, но сложнее
Stanford Online · 04.03.25
1ч 18м
🎓 Как аналитический метод DPO изменил выравнивание LLM и столкнулся со взломом наград
Stanford Online · 30.10.24
1ч 19м
🛡 Стэнфорд о PPO: «Почему это самый полезный метод в RL»
Stanford Online · 30.10.24
1ч 18м
🛠 От PPO до Dagger: современные методы обучения агентов
Stanford Online · 30.10.24
53 мин
🔄 Янник Кильчер разобрал метод Reinforced Self-Training от Google DeepMind
Yannic Kilcher · 03.09.23
1ч 47м
🛠 Тюнинг LLM: как методы PPO и DPO превращают нейросети из автодополнителей в полезных помощников
Stanford Online · 14.11.25
1ч 09м
🧠 Обучение с подкреплением: главные вызовы и прорывы стэнфордского курса CS234
Stanford Online · 30.10.24
38 мин
📊 Исследование Google Brain: как правильно настроить on-policy RL-агента
Yannic Kilcher · 20.08.20
1ч 18м
📉 Direct Preference Optimization: почему исследователи переходят на DPO
Stanford Online · 30.10.24
1ч 44м
🎮 От Atari до ChatGPT: как ИИ учится на своих ошибках?
Stanford Online · 31.10.25
1ч 47м
🎯 Стэнфорд: «Ваша языковая модель — это на самом деле скрытая модель вознаграждения»
Stanford Online · 14.11.25
22 мин
🤖 Заменяет ли простая аугментация годы исследований в сфере RL?
Yannic Kilcher · 06.05.20
1ч 20м
🧠 Стэнфордский курс CS234: принципы офлайн-RL и преодоление неопределенности
Stanford Online · 30.10.24
1ч 05м
⚖ Сара Хукер: «Пороги вычислений в законах об ИИ бессмысленны»
Machine Learning Street Talk · 18.07.24
1ч 14м
🔄 Как устроен посттренинг языковых моделей: от SFT до RLHF
Stanford Online · 20.06.25
1ч 13м
🔄 Подход Model-Based RL: как Стэнфорд обучает сложных роботов за четыре часа
Stanford Online · 08.12.25
45 мин
📝 Learning to summarize from human feedback (Paper Explained)
Yannic Kilcher · 07.09.20
1ч 51м
🔄 Будущее LLM в 2025 году: от авторегрессии к диффузии и аналоговым чипам
Stanford Online · 09.12.25
1ч 47м
🧠 DeepSeek R1 против OpenAI o1: как алгоритм GRPO изменил правила игры в ИИ
Stanford Online · 14.11.25
1ч 16м
🏗 Натан Ламберт: «RLHF — это необходимый инструмент выравнивания ИИ»
Stanford Online · 10.05.24
1ч 20м
🚀 Stanford CS336: секреты обучения reasoning-моделей DeepSeek-R1, Kimi и Qwen
Stanford Online · 01.07.25
40 мин
🤖 Пессимизм как стратегия: Аравинд Раджесваран о безопасности офлайн-обучения ИИ
The TWIML AI Podcast · 05.01.21
1ч 19м
💰 Джон Грубер об экономических дисбалансах систем Medicaid и Medicare
MIT OpenCourseWare · 04.02
1ч 49м
🏛 Как 15 ученых смогли превзойти ИИ-гигантов уровня Meta?
The Cognitive Revolution · 21.11.24
1ч 01м
🔄 Эволюция Q-Learning: от уравнений Беллмана до алгоритмов DQN и Double DQN
Stanford Online · 08.12.25
1ч 51м
🚀 Стэнфорд CME295: Итоги 2025 года в мире трансформеров и диффузионных моделей
Stanford Online · 09.12.25
1ч 08м
🔄 Градиент стратегии и алгоритм REINFORCE: от робототехники до ChatGPT
Stanford Online · 30.10.24
1ч 47м
🧠 Стэнфорд CME295: Как алгоритм GRPO и DeepSeek R1 изменили логику нейросетей
Stanford Online · 14.11.25
53 мин
🚀 Якоб Фёрстер: «RL на GPU — наш момент ImageNet»
Machine Learning Street Talk · 18.02.25
49 мин
🔄 От слепого робопса до Tesla Optimus: как алгоритмы Reinforcement Learning меняют робототехнику
Stanford Online · 08.12.25
48 мин
🧠 Янник Килчер: «Градиенты — это не всё, что вам нужно»
Yannic Kilcher · 16.11.21
12 мин
🏗 [ML Olds] Meta Research Supercluster | OpenAI GPT-Instruct | Google LaMDA | Drones fight Pigeons
Yannic Kilcher · 23.02.22
24 мин
🦩 Как DeepMind Flamingo и Google LiT меняют мультимодальный ИИ
Yannic Kilcher · 13.05.22
2ч 05м
🤖 Как попасть в OpenAI без PhD за шесть недель
80,000 Hours · 31.05.19
1ч 10м
🎯 Профессор Стэнфорда разобрал ключевые вызовы и методологию исследований Deep RL
Stanford Online · 08.12.25
1ч 05м
🔄 Лекция Стэнфорда о Reward Learning: как научить искусственный интеллект понимать человеческие цели
Stanford Online · 08.12.25
1ч 14м
🚀 Тим Скарфе: «Почему самообучение нейросетей эффективнее человеческой разметки?»
Machine Learning Street Talk · 17.04.20
1ч 12м
🧬 Разбор POET: Как открытые алгоритмы от Uber генерируют задачи и решения
Machine Learning Street Talk · 09.04.20
45 мин
Янник Кильхер о RIMs: «Это не мета-обучение, а разделение»
Yannic Kilcher · 29.05.21
1ч 13м
🔄 От симуляции такси до ChatGPT: как максимизация энтропии и отзывы людей обучают современный ИИ
Stanford Online · 30.10.24
1ч 17м
🧠 Стэнфордский профессор объяснил, как сэмплирование Томпсона спасает рекомендательные системы от задержек данных
Stanford Online · 30.10.24
35 мин
🧠 Exploring Large Language Models with ChatGPT - 603
The TWIML AI Podcast · 08.12.22
1ч 18м
🎯 Юньчжу Ли на CS231N: от моделей мира к большим моделям поведения
Stanford Online · 02.09.25
39 мин
🧠 Как случайные нейросети учатся ходить с помощью пластичности Хебба
Yannic Kilcher · 12.08.20
1ч 03м
🔄 Stanford Online: «Методы Actor-Critic — база для обучения LLM и роботов»
Stanford Online · 08.12.25
1ч 03м
🔄 Эволюция алгоритмов Actor-Critic: как Стэнфорд обучает нейросети на ошибках
Stanford Online · 08.12.25
45 мин
Янник Килчер о Q-Learning: «Возможно, это не связано с Q*»
Yannic Kilcher · 25.11.23
1ч 33м
🌊 Йошуа Бенжио: «GFlowNets — это обучаемая замена методам Монте-Карло»
Machine Learning Street Talk · 22.02.22
1ч 02м
🔄 Стэнфордский курс CS224R: математический вывод градиентов политики в RL
Stanford Online · 08.12.25