Поиск

Найдено: 50

🎓 Как аналитический метод DPO изменил выравнивание LLM и столкнулся со взломом наград

Stanford Online · 30.10.24

🧬 Нейтан Ламберт о жизни после DPO: почему PPO все еще лучше, но сложнее

Stanford Online · 04.03.25

📉 Direct Preference Optimization: почему исследователи переходят на DPO

Stanford Online · 30.10.24

📈 Пост-обучение больших языковых моделей: от контекстного промптинга до алгоритмов RLHF и DPO

Stanford Online · 04.03.25

🚀 Преподаватель Стэнфорда о методах обучения языковых моделей: от RLHF к DPO

Stanford Online · 08.12.25

🛠 Тюнинг LLM: как методы PPO и DPO превращают нейросети из автодополнителей в полезных помощников

Stanford Online · 14.11.25

🤖 Арчит Шарма о будущем LLM: как обучают ChatGPT?

Stanford Online · 04.03.25

🧠 Мозг снаружи: как глаза и дофамин управляют нашей реальностью

Joe Rogan Experience · 23.07.20

🏛 Как 15 ученых смогли превзойти ИИ-гигантов уровня Meta?

The Cognitive Revolution · 21.11.24

🧠 Стэнфордский курс CS234: принципы офлайн-RL и преодоление неопределенности

Stanford Online · 30.10.24

🚀 Stanford CS336: секреты обучения reasoning-моделей DeepSeek-R1, Kimi и Qwen

Stanford Online · 01.07.25

📉 Эволюция агентов: как MultiOn обучает нейросети на ошибках и борется с OpenAI

The Cognitive Revolution · 03.12.24

🎯 Стэнфорд: «Ваша языковая модель — это на самом деле скрытая модель вознаграждения»

Stanford Online · 14.11.25

👁 Как ИИ учится видеть: эволюция и парадоксы мультимодальных моделей

The Cognitive Revolution · 03.01.25

👁 VLM: От патчей 16x16 до мультимодального будущего

The Cognitive Revolution · 03.01.25

🏗 Натан Ламберт: «RLHF — это необходимый инструмент выравнивания ИИ»

Stanford Online · 10.05.24

🔄 Как устроен посттренинг языковых моделей: от SFT до RLHF

Stanford Online · 20.06.25

🛹 Биология воли: как Эндрю Хуберман учит управлять мозгом и стрессом

Rich Roll · 20.07.20

🔄 От симуляции такси до ChatGPT: как максимизация энтропии и отзывы людей обучают современный ИИ

Stanford Online · 30.10.24

🎲 Дэн Уэббер: «ИИ-хирург может убить одного человека ради спасения пяти, если он чистый утилитарист»

Stanford Online · 30.10.24

🍽 Нейробиология пищевого поведения: Эндрю Губерман о механизмах анорексии, булимии и интервального голодания

Huberman Lab · 17.07.25

🧠 От «детских» данных до нейронауки: лекция Stanford CS25

Stanford Online · 18.04.25

🧠 Эндрю Губерман: «Напряжение и ажитация — это входные ворота в нейропластичность»

Huberman Lab · 14.11.24

🧠 Эндрю Хаберман: «Ажитация и стресс — это входные ворота в нейропластичность»

Huberman Lab · 14.11.24

🏗 Ян Дюбуа о создании LLM: почему данные и системы важнее архитектуры

Stanford Online · 27.08.24

🎓 Стэнфордский ИИ-путеводитель: как выбрать подходящие курсы и построить карьеру в Deep Learning

Stanford Online · 10.11.25

🎓 Див Гарг: «Современные языковые модели во многом переоценены»

The Cognitive Revolution · 20.01.24

🧱 Stanford CS224R Deep Reinforcement Learning | Spring 2025 | Lecture 10: RL for LLM Reasoning

Stanford Online · 08.12.25

🤖 Иллюзия безопасности: почему мы проигрываем гонку суперинтеллекта

The Cognitive Revolution · 21.02.24

🏗 Див Гарг об агентах: «Будущее — это системы автономных исполнителей»

Stanford Online · 13.05.25