Поиск

Найдено: 50

1ч 18м
🎓 Как аналитический метод DPO изменил выравнивание LLM и столкнулся со взломом наград
Stanford Online · 30.10.24
1ч 08м
🧬 Нейтан Ламберт о жизни после DPO: почему PPO все еще лучше, но сложнее
Stanford Online · 04.03.25
1ч 18м
📉 Direct Preference Optimization: почему исследователи переходят на DPO
Stanford Online · 30.10.24
1ч 19м
📈 Пост-обучение больших языковых моделей: от контекстного промптинга до алгоритмов RLHF и DPO
Stanford Online · 04.03.25
1ч 02м
🚀 Преподаватель Стэнфорда о методах обучения языковых моделей: от RLHF к DPO
Stanford Online · 08.12.25
1ч 47м
🛠 Тюнинг LLM: как методы PPO и DPO превращают нейросети из автодополнителей в полезных помощников
Stanford Online · 14.11.25
1ч 19м
🤖 Арчит Шарма о будущем LLM: как обучают ChatGPT?
Stanford Online · 04.03.25
2ч 44м
🧠 Мозг снаружи: как глаза и дофамин управляют нашей реальностью
Joe Rogan Experience · 23.07.20
1ч 49м
🏛 Как 15 ученых смогли превзойти ИИ-гигантов уровня Meta?
The Cognitive Revolution · 21.11.24
1ч 20м
🧠 Стэнфордский курс CS234: принципы офлайн-RL и преодоление неопределенности
Stanford Online · 30.10.24
1ч 20м
🚀 Stanford CS336: секреты обучения reasoning-моделей DeepSeek-R1, Kimi и Qwen
Stanford Online · 01.07.25
1ч 27м
📉 Эволюция агентов: как MultiOn обучает нейросети на ошибках и борется с OpenAI
The Cognitive Revolution · 03.12.24
1ч 47м
🎯 Стэнфорд: «Ваша языковая модель — это на самом деле скрытая модель вознаграждения»
Stanford Online · 14.11.25
3ч 53м
👁 Как ИИ учится видеть: эволюция и парадоксы мультимодальных моделей
The Cognitive Revolution · 03.01.25
3ч 53м
👁 VLM: От патчей 16x16 до мультимодального будущего
The Cognitive Revolution · 03.01.25
1ч 16м
🏗 Натан Ламберт: «RLHF — это необходимый инструмент выравнивания ИИ»
Stanford Online · 10.05.24
1ч 14м
🔄 Как устроен посттренинг языковых моделей: от SFT до RLHF
Stanford Online · 20.06.25
2ч 12м
🛹 Биология воли: как Эндрю Хуберман учит управлять мозгом и стрессом
Rich Roll · 20.07.20
1ч 13м
🔄 От симуляции такси до ChatGPT: как максимизация энтропии и отзывы людей обучают современный ИИ
Stanford Online · 30.10.24
1ч 13м
🎲 Дэн Уэббер: «ИИ-хирург может убить одного человека ради спасения пяти, если он чистый утилитарист»
Stanford Online · 30.10.24
39 мин
🍽 Нейробиология пищевого поведения: Эндрю Губерман о механизмах анорексии, булимии и интервального голодания
Huberman Lab · 17.07.25
1ч 01м
🧠 От «детских» данных до нейронауки: лекция Stanford CS25
Stanford Online · 18.04.25
34 мин
🧠 Эндрю Губерман: «Напряжение и ажитация — это входные ворота в нейропластичность»
Huberman Lab · 14.11.24
34 мин
🧠 Эндрю Хаберман: «Ажитация и стресс — это входные ворота в нейропластичность»
Huberman Lab · 14.11.24
1ч 44м
🏗 Ян Дюбуа о создании LLM: почему данные и системы важнее архитектуры
Stanford Online · 27.08.24
18 мин
🎓 Стэнфордский ИИ-путеводитель: как выбрать подходящие курсы и построить карьеру в Deep Learning
Stanford Online · 10.11.25
1ч 43м
🎓 Див Гарг: «Современные языковые модели во многом переоценены»
The Cognitive Revolution · 20.01.24
1ч 10м
🧱 Stanford CS224R Deep Reinforcement Learning | Spring 2025 | Lecture 10: RL for LLM Reasoning
Stanford Online · 08.12.25
2ч 17м
🤖 Иллюзия безопасности: почему мы проигрываем гонку суперинтеллекта
The Cognitive Revolution · 21.02.24
🏗 Див Гарг об агентах: «Будущее — это системы автономных исполнителей»
Stanford Online · 13.05.25