RDLY
.ru
Тренды
Статьи
Темы
Люди
DPO
10 статей
1ч 02м
🚀 Преподаватель Стэнфорда о методах обучения языковых моделей: от RLHF к DPO
Stanford Online · 08.12.25 · 5 тыс. просм.
1ч 47м
🛠 Тюнинг LLM: как методы PPO и DPO превращают нейросети из автодополнителей в полезных помощников
Stanford Online · 14.11.25 · 41,1 тыс. просм.
1ч 47м
🎯 Стэнфорд: «Ваша языковая модель — это на самом деле скрытая модель вознаграждения»
Stanford Online · 14.11.25 · 41,1 тыс. просм.
1ч 16м
📚 Обучение ИИ на человеческих предпочтениях: лекция Сэми Куа в Стэнфорде
Stanford Online · 11.09.25 · 81,1 тыс. просм.
1ч 14м
🔄 Как устроен посттренинг языковых моделей: от SFT до RLHF
Stanford Online · 20.06.25 · 32,3 тыс. просм.
1ч 08м
🧬 Нейтан Ламберт о жизни после DPO: почему PPO все еще лучше, но сложнее
Stanford Online · 04.03.25 · 13,1 тыс. просм.
1ч 19м
📈 Пост-обучение больших языковых моделей: от контекстного промптинга до алгоритмов RLHF и DPO
Stanford Online · 04.03.25 · 23,4 тыс. просм.
1ч 19м
🤖 Арчит Шарма о будущем LLM: как обучают ChatGPT?
Stanford Online · 04.03.25 · 23,4 тыс. просм.
1ч 18м
📉 Direct Preference Optimization: почему исследователи переходят на DPO
Stanford Online · 30.10.24 · 12,4 тыс. просм.
1ч 16м
🏗 Натан Ламберт: «RLHF — это необходимый инструмент выравнивания ИИ»
Stanford Online · 10.05.24 · 30 тыс. просм.