RDLY
.ru
Тренды
Статьи
Темы
Люди
А
Арчит Шарма
Аспирант Стэнфордского университета, исследователь в области глубокого обучения и языковых моделей.
4
статьи
71 тыс.
просмотров
2024–2025
период
1
канал
💬 Заметные цитаты
Эффективность метода DPO
«DPO дает сопоставимое с RLHF качество при многократно меньших затратах вычислительных ресурсов.»
→
Пост-обучение больших языковых моделей: от контекстного промптинга до алгоритмов RLHF и DPO
Риски взлома reward-модели
«Когда вы оптимизируете модель против обученной метрики, она будет пытаться взломать reward-модель.»
→
Арчит Шарма о будущем LLM: как обучают ChatGPT?
Эмерджентность предсказания следующего токена
«Модели становятся всё более разумными, просто пытаясь предсказать следующий токен.»
→
Арчит Шарма о будущем LLM: как обучают ChatGPT?
Природа креативности в ИИ
«Креативность моделей во многом является побочным продуктом их склонности к галлюцинациям.»
→
Пост-обучение больших языковых моделей: от контекстного промптинга до алгоритмов RLHF и DPO
Специфика взаимодействия с LLM
«При взаимодействии с LLM нужную модель поведения часто приходится «выманивать», опираясь на понимание структуры данных предобучения.»
→
Пост-обучение больших языковых моделей: от контекстного промптинга до алгоритмов RLHF и DPO
«Оптимизация этой простой функции позволяет моделям формировать внутренние репрезентации убеждений и действий агентов.»
→
Пост-обучение больших языковых моделей: от контекстного промптинга до алгоритмов RLHF и DPO
«Недостижимая статистическая сумма Z(x) полностью сокращается, поскольку она зависит только от входного промта x и одинакова для обоих сравниваемых ответов»
→
Как аналитический метод DPO изменил выравнивание LLM и столкнулся со взломом наград
👥 Часто вместе с
Эрик Митчелл
2
Рафаэль Рафайлов
2
Эмма Бранскилл
1
Эмма Бруско
1
📺 Где появляется
Stanford Online
4
🧠 Ключевые концепции
RLHF
3
DPO
2
Reward Hacking
2
KL-дивергенция
2
Пост-обучение (Post-training)
1
Контекстное обучение (In-context learning)
1
Chain of Thought (CoT)
1
Инструктивная тонкая настройка (SFT)
1
DPO (Direct Preference Optimization)
1
Взлом награды (Reward hacking)
1
📈 Темы
RLHF
4
DPO
3
Stanford University
2
CS224N
1
LLM
1
PPO
1
Reward hacking
1
Рафаэль Рафайлов
1
Direct Preference Optimization
1
Пост-обучение
1
Reward Hacking
1
Chain of Thought
1
📺 Материалы с участием
1ч 19м
📈 Пост-обучение больших языковых моделей: от контекстного промптинга до алгоритмов RLHF и DPO
Stanford Online · 04.03.25 · 23,4 тыс. просм.
1ч 19м
🤖 Арчит Шарма о будущем LLM: как обучают ChatGPT?
Stanford Online · 04.03.25 · 23,4 тыс. просм.
1ч 18м
📉 Direct Preference Optimization: почему исследователи переходят на DPO
Stanford Online · 30.10.24 · 12,4 тыс. просм.
1ч 18м
🎓 Как аналитический метод DPO изменил выравнивание LLM и столкнулся со взломом наград
Stanford Online · 30.10.24 · 12 тыс. просм.