А

Арчит Шарма

Аспирант Стэнфордского университета, исследователь в области глубокого обучения и языковых моделей.

4статьи
71 тыс.просмотров
2024–2025период
1канал

💬 Заметные цитаты

Эффективность метода DPO
«DPO дает сопоставимое с RLHF качество при многократно меньших затратах вычислительных ресурсов.»
Риски взлома reward-модели
«Когда вы оптимизируете модель против обученной метрики, она будет пытаться взломать reward-модель.»
Эмерджентность предсказания следующего токена
«Модели становятся всё более разумными, просто пытаясь предсказать следующий токен.»
Природа креативности в ИИ
«Креативность моделей во многом является побочным продуктом их склонности к галлюцинациям.»
Специфика взаимодействия с LLM
«При взаимодействии с LLM нужную модель поведения часто приходится «выманивать», опираясь на понимание структуры данных предобучения.»
«Оптимизация этой простой функции позволяет моделям формировать внутренние репрезентации убеждений и действий агентов.»
«Недостижимая статистическая сумма Z(x) полностью сокращается, поскольку она зависит только от входного промта x и одинакова для обоих сравниваемых ответов»

📺 Где появляется

📈 Темы RLHF4DPO3Stanford University2CS224N1LLM1PPO1Reward hacking1Рафаэль Рафайлов1Direct Preference Optimization1Пост-обучение1Reward Hacking1Chain of Thought1

📺 Материалы с участием