Арчит Шарма

Аспирант Стэнфордского университета, исследователь в области глубокого обучения и языковых моделей.

4статьи

71 тыс.просмотров

2024–2025период

1канал

💬 Заметные цитаты

Эффективность метода DPO

«DPO дает сопоставимое с RLHF качество при многократно меньших затратах вычислительных ресурсов.»

→ Пост-обучение больших языковых моделей: от контекстного промптинга до алгоритмов RLHF и DPO

Риски взлома reward-модели

«Когда вы оптимизируете модель против обученной метрики, она будет пытаться взломать reward-модель.»

→ Арчит Шарма о будущем LLM: как обучают ChatGPT?

Эмерджентность предсказания следующего токена

«Модели становятся всё более разумными, просто пытаясь предсказать следующий токен.»

→ Арчит Шарма о будущем LLM: как обучают ChatGPT?

Природа креативности в ИИ

«Креативность моделей во многом является побочным продуктом их склонности к галлюцинациям.»

→ Пост-обучение больших языковых моделей: от контекстного промптинга до алгоритмов RLHF и DPO

Специфика взаимодействия с LLM

«При взаимодействии с LLM нужную модель поведения часто приходится «выманивать», опираясь на понимание структуры данных предобучения.»

→ Пост-обучение больших языковых моделей: от контекстного промптинга до алгоритмов RLHF и DPO

«Оптимизация этой простой функции позволяет моделям формировать внутренние репрезентации убеждений и действий агентов.»

→ Пост-обучение больших языковых моделей: от контекстного промптинга до алгоритмов RLHF и DPO

«Недостижимая статистическая сумма Z(x) полностью сокращается, поскольку она зависит только от входного промта x и одинакова для обоих сравниваемых ответов»

→ Как аналитический метод DPO изменил выравнивание LLM и столкнулся со взломом наград