RLHF

60 статей

1ч 48м
🛠 Кайл Корбитт из CoreWeave: «Мы уже находимся в петле рекурсивного самосовершенствования ИИ»
The Cognitive Revolution · 01.05
1ч 19м
🤖 Как устроены современные языковые модели: от обучения до системных ограничений
Stanford Online · 09.03
1ч 17м
🧠 Джейкоб Андреас: «Как современные языковые модели учатся рассуждать»
MIT OpenCourseWare · 11.02
35 мин
🧠 Уэс Рот: как «документ души» и Конституция формируют характер Claude
Wes Roth · 23.01
1ч 25м
📉 Мэтт Фитцпатрик: «Внутренние ИИ-команды корпораций в два раза менее эффективны»
20VC (Harry Stebbings) · 31.12.25
1ч 25м
📉 Мэтт Фицпатрик: «Внутренние ИИ-проекты корпораций обречены на провал в 95% случаев»
20VC (Harry Stebbings) · 31.12.25
1ч 10м
🎯 Профессор Стэнфорда разобрал ключевые вызовы и методологию исследований Deep RL
Stanford Online · 08.12.25
1ч 05м
🔄 Лекция Стэнфорда о Reward Learning: как научить искусственный интеллект понимать человеческие цели
Stanford Online · 08.12.25
1ч 02м
🚀 Преподаватель Стэнфорда о методах обучения языковых моделей: от RLHF к DPO
Stanford Online · 08.12.25
1ч 47м
🛠 Тюнинг LLM: как методы PPO и DPO превращают нейросети из автодополнителей в полезных помощников
Stanford Online · 14.11.25
1ч 47м
🎯 Стэнфорд: «Ваша языковая модель — это на самом деле скрытая модель вознаграждения»
Stanford Online · 14.11.25
1ч 44м
🎮 От Atari до ChatGPT: как ИИ учится на своих ошибках?
Stanford Online · 31.10.25
1ч 22м
📊 Чип Хьюен: как создавать ИИ-продукты, которые действительно работают
Lenny's Podcast · 23.10.25
31 мин
🤖 Айзек Артур: «Проблема выравнивания ИИ — это попытка научить джинна понимать намерения»
Isaac Arthur · 16.10.25
1ч 16м
📚 Обучение ИИ на человеческих предпочтениях: лекция Сэми Куа в Стэнфорде
Stanford Online · 11.09.25
19 мин
🎓 Почему нейросети галлюцинируют? OpenAI нашла решение проблемы «уверенной лжи»
Wes Roth · 08.09.25
1ч 42м
🌪 Эпоха фабрик данных: как CEO Labelbox строит конвейер для обучения AGI с экспертами на $250k в год
The Cognitive Revolution · 08.07.25
1ч 16м
Механика обучения моделей: лектор Стэнфорда о GRPO
Stanford Online · 08.07.25
41 мин
⚖ Инженерная оптимизация: как математика помогает выбирать между безопасностью и скоростью
Stanford Online · 03.07.25
1ч 20м
🚀 Stanford CS336: секреты обучения reasoning-моделей DeepSeek-R1, Kimi и Qwen
Stanford Online · 01.07.25
1ч 14м
🔄 Как устроен посттренинг языковых моделей: от SFT до RLHF
Stanford Online · 20.06.25
50 мин
🚀 13 инженеров против OpenAI: как удержать миллионы пользователей ИИ
Machine Learning Street Talk · 26.05.25
58 мин
Генеративный ИИ в медицине: как работают большие языковые модели
Stanford Online · 30.04.25
1ч 23м
🧠 Макс Бартоло из Cohere: почему человеческая обратная связь — это не золотой стандарт для ИИ
Machine Learning Street Talk · 18.03.25
1ч 08м
🧬 Нейтан Ламберт о жизни после DPO: почему PPO все еще лучше, но сложнее
Stanford Online · 04.03.25
1ч 19м
📈 Пост-обучение больших языковых моделей: от контекстного промптинга до алгоритмов RLHF и DPO
Stanford Online · 04.03.25
1ч 19м
🤖 Арчит Шарма о будущем LLM: как обучают ChatGPT?
Stanford Online · 04.03.25
1ч 54м
🧠 Тан Чжи Сюань: «ИИ не должен просто угадывать наши желания — он должен соблюдать социальные нормы»
The Cognitive Revolution · 30.11.24
1ч 13м
🔄 От симуляции такси до ChatGPT: как максимизация энтропии и отзывы людей обучают современный ИИ
Stanford Online · 30.10.24
1ч 18м
📉 Direct Preference Optimization: почему исследователи переходят на DPO
Stanford Online · 30.10.24