DPO

10 статей

🚀 Преподаватель Стэнфорда о методах обучения языковых моделей: от RLHF к DPO

Stanford Online · 08.12.25 · 5 тыс. просм.

🛠 Тюнинг LLM: как методы PPO и DPO превращают нейросети из автодополнителей в полезных помощников

Stanford Online · 14.11.25 · 41,1 тыс. просм.

🎯 Стэнфорд: «Ваша языковая модель — это на самом деле скрытая модель вознаграждения»

Stanford Online · 14.11.25 · 41,1 тыс. просм.

📚 Обучение ИИ на человеческих предпочтениях: лекция Сэми Куа в Стэнфорде

Stanford Online · 11.09.25 · 81,1 тыс. просм.

🔄 Как устроен посттренинг языковых моделей: от SFT до RLHF

Stanford Online · 20.06.25 · 32,3 тыс. просм.

🧬 Нейтан Ламберт о жизни после DPO: почему PPO все еще лучше, но сложнее

Stanford Online · 04.03.25 · 13,1 тыс. просм.

📈 Пост-обучение больших языковых моделей: от контекстного промптинга до алгоритмов RLHF и DPO

Stanford Online · 04.03.25 · 23,4 тыс. просм.

🤖 Арчит Шарма о будущем LLM: как обучают ChatGPT?

Stanford Online · 04.03.25 · 23,4 тыс. просм.

📉 Direct Preference Optimization: почему исследователи переходят на DPO

Stanford Online · 30.10.24 · 12,4 тыс. просм.

🏗 Натан Ламберт: «RLHF — это необходимый инструмент выравнивания ИИ»

Stanford Online · 10.05.24 · 30 тыс. просм.