Поиск

Найдено: 26

🏗 Натан Ламберт: «RLHF — это необходимый инструмент выравнивания ИИ»

Stanford Online · 10.05.24

📉 Direct Preference Optimization: почему исследователи переходят на DPO

Stanford Online · 30.10.24

🧬 Нейтан Ламберт о жизни после DPO: почему PPO все еще лучше, но сложнее

Stanford Online · 04.03.25

🎓 Как аналитический метод DPO изменил выравнивание LLM и столкнулся со взломом наград

Stanford Online · 30.10.24

🔄 Как устроен посттренинг языковых моделей: от SFT до RLHF

Stanford Online · 20.06.25

🤖 Арчит Шарма о будущем LLM: как обучают ChatGPT?

Stanford Online · 04.03.25

👁 Как ИИ учится видеть: эволюция и парадоксы мультимодальных моделей

The Cognitive Revolution · 03.01.25

🎲 Дэн Уэббер: «ИИ-хирург может убить одного человека ради спасения пяти, если он чистый утилитарист»

Stanford Online · 30.10.24

🔄 От симуляции такси до ChatGPT: как максимизация энтропии и отзывы людей обучают современный ИИ

Stanford Online · 30.10.24

🕰 Мин Дин об эволюции ИИ: от больших языковых к мультимодальным моделям

Stanford Online · 30.05.24

🛠 Тюнинг LLM: как методы PPO и DPO превращают нейросети из автодополнителей в полезных помощников

Stanford Online · 14.11.25

📉 Эволюция агентов: как MultiOn обучает нейросети на ошибках и борется с OpenAI

The Cognitive Revolution · 03.12.24

📈 Пост-обучение больших языковых моделей: от контекстного промптинга до алгоритмов RLHF и DPO

Stanford Online · 04.03.25

🧠 Стэнфордский курс CS234: принципы офлайн-RL и преодоление неопределенности

Stanford Online · 30.10.24

🚀 Stanford CS336: секреты обучения reasoning-моделей DeepSeek-R1, Kimi и Qwen

Stanford Online · 01.07.25

📚 Обучение ИИ на человеческих предпочтениях: лекция Сэми Куа в Стэнфорде

Stanford Online · 11.09.25

🧠 Стенфорд запускает CS336: как собрать языковую модель с нуля в эпоху ИИ-гигантов

Stanford Online · 08.04.25

🏗 Стэнфорд запустил курс CS336 по созданию LLM: от байтовых токенов до GPU-ядер

Stanford Online · 24.04.25

🚀 Преподаватель Стэнфорда о методах обучения языковых моделей: от RLHF к DPO

Stanford Online · 08.12.25

🚀 Мин Дин из Zhipu AI: от языковых моделей к мультимодальным системам будущего

Stanford Online · 30.05.24

🎓 Див Гарг: «Современные языковые модели во многом переоценены»

The Cognitive Revolution · 20.01.24

🏛 Как 15 ученых смогли превзойти ИИ-гигантов уровня Meta?

The Cognitive Revolution · 21.11.24

🧠 Стэнфордский профессор объяснил, как сэмплирование Томпсона спасает рекомендательные системы от задержек данных

Stanford Online · 30.10.24

🎯 Стэнфорд: «Ваша языковая модель — это на самом деле скрытая модель вознаграждения»

Stanford Online · 14.11.25

🤐 Янник Килчер разобрал архитектуру Mixture of Experts от Mistral AI

Yannic Kilcher · 13.01.24

🏗 Ян Дюбуа о создании LLM: почему данные и системы важнее архитектуры

Stanford Online · 27.08.24