Поиск

Найдено: 50

🛠 Тюнинг LLM: как методы PPO и DPO превращают нейросети из автодополнителей в полезных помощников

Stanford Online · 14.11.25

🎮 От Atari до ChatGPT: как ИИ учится на своих ошибках?

Stanford Online · 31.10.25

🎓 Как аналитический метод DPO изменил выравнивание LLM и столкнулся со взломом наград

Stanford Online · 30.10.24

🧠 Как технология TAO от Databricks превращает обычные нейросети в экспертов без участия человека

Eye on AI · 12.06.25

📝 Learning to summarize from human feedback (Paper Explained)

Yannic Kilcher · 07.09.20

🤖 Dream to Control: подробный разбор обучения агентов в латентном пространстве

Yannic Kilcher · 03.04.20

📈 Пост-обучение больших языковых моделей: от контекстного промптинга до алгоритмов RLHF и DPO

Stanford Online · 04.03.25

📊 Чип Хьюен: как создавать ИИ-продукты, которые действительно работают

Lenny's Podcast · 23.10.25

🔄 Подход Model-Based RL: как Стэнфорд обучает сложных роботов за четыре часа

Stanford Online · 08.12.25

🌐 ИИ против экспертов: почему «просто делать свою работу» больше недостаточно

The Cognitive Revolution · 13.05.24

📚 Обучение ИИ на человеческих предпочтениях: лекция Сэми Куа в Стэнфорде

Stanford Online · 11.09.25

🔄 Янник Кильчер разобрал метод Reinforced Self-Training от Google DeepMind

Yannic Kilcher · 03.09.23

🤖 Арчит Шарма о будущем LLM: как обучают ChatGPT?

Stanford Online · 04.03.25

🎯 Стэнфорд: «Ваша языковая модель — это на самом деле скрытая модель вознаграждения»

Stanford Online · 14.11.25

🚀 Преподаватель Стэнфорда о методах обучения языковых моделей: от RLHF к DPO

Stanford Online · 08.12.25

🚀 DeepSeek-R1: Как Китай совершил революцию в рассуждениях ИИ

The Cognitive Revolution · 25.01.25

🔄 Как устроен посттренинг языковых моделей: от SFT до RLHF

Stanford Online · 20.06.25

🧠 Джейкоб Андреас: «Как современные языковые модели учатся рассуждать»

MIT OpenCourseWare · 11.02

🧬 Нейтан Ламберт о жизни после DPO: почему PPO все еще лучше, но сложнее

Stanford Online · 04.03.25

🚀 «Притворное выравнивание»: почему ИИ лжет, чтобы выжить, и как его остановить

The Cognitive Revolution · 20.02.25

🗣 Лора Руис о коммуникации ИИ: «Модели не способны общаться в режиме zero-shot»

Machine Learning Street Talk · 06.12.22

🚀 Мин Дин из Zhipu AI: от языковых моделей к мультимодальным системам будущего

Stanford Online · 30.05.24

🕰 Мин Дин об эволюции ИИ: от больших языковых к мультимодальным моделям

Stanford Online · 30.05.24

🛠 Джеффри Лэдиш: как современные ИИ-агенты тайно обходить команды отключения человека

Eye on AI · 07.12.25

🧩 Архитектура Mixture-of-Experts и тренды масштабирования больших моделей от Ирвана Белло

The TWIML AI Podcast · 25.04.22

🐙 Кеннет Стенли: «RLHF — это наклеивание смайлика на хаос интернета»

Machine Learning Street Talk · 26.03.23

🕹 Google DeepMind: «SIMA 2 приближает нас к созданию AGI через видеоигры»

Wes Roth · 15.11.25

🚀 Как Anthropic защищает нейросети от государственного шпионажа

The Cognitive Revolution · 25.09.24

💡 Как адаптировать LLM: от обучения инструкциям до RAG

MIT OpenCourseWare · 07.01

⚡ Эра NVIDIA H100 и ИИ-агенты: главные тренды внедрения технологий

The Cognitive Revolution · 18.07.23