RDLY
.ru
Тренды
Статьи
Темы
Люди
RLHF
60 статей
1ч 48м
🛠 Кайл Корбитт из CoreWeave: «Мы уже находимся в петле рекурсивного самосовершенствования ИИ»
The Cognitive Revolution · 01.05 · 10,4 тыс. просм.
1ч 19м
🤖 Как устроены современные языковые модели: от обучения до системных ограничений
Stanford Online · 09.03 · 4,1 тыс. просм.
1ч 17м
🧠 Джейкоб Андреас: «Как современные языковые модели учатся рассуждать»
MIT OpenCourseWare · 11.02 · 2,5 тыс. просм.
35 мин
🧠 Уэс Рот: как «документ души» и Конституция формируют характер Claude
Wes Roth · 23.01 · 35,8 тыс. просм.
1ч 25м
📉 Мэтт Фитцпатрик: «Внутренние ИИ-команды корпораций в два раза менее эффективны»
20VC (Harry Stebbings) · 31.12.25 · 12,7 тыс. просм.
1ч 25м
📉 Мэтт Фицпатрик: «Внутренние ИИ-проекты корпораций обречены на провал в 95% случаев»
20VC (Harry Stebbings) · 31.12.25 · 12,7 тыс. просм.
1ч 10м
🎯 Профессор Стэнфорда разобрал ключевые вызовы и методологию исследований Deep RL
Stanford Online · 08.12.25 · 3,4 тыс. просм.
1ч 05м
🔄 Лекция Стэнфорда о Reward Learning: как научить искусственный интеллект понимать человеческие цели
Stanford Online · 08.12.25 · 4,2 тыс. просм.
1ч 02м
🚀 Преподаватель Стэнфорда о методах обучения языковых моделей: от RLHF к DPO
Stanford Online · 08.12.25 · 5 тыс. просм.
1ч 47м
🛠 Тюнинг LLM: как методы PPO и DPO превращают нейросети из автодополнителей в полезных помощников
Stanford Online · 14.11.25 · 41,1 тыс. просм.
1ч 47м
🎯 Стэнфорд: «Ваша языковая модель — это на самом деле скрытая модель вознаграждения»
Stanford Online · 14.11.25 · 41,1 тыс. просм.
1ч 44м
🎮 От Atari до ChatGPT: как ИИ учится на своих ошибках?
Stanford Online · 31.10.25 · 36 тыс. просм.
1ч 22м
📊 Чип Хьюен: как создавать ИИ-продукты, которые действительно работают
Lenny's Podcast · 23.10.25 · 46,4 тыс. просм.
31 мин
🤖 Айзек Артур: «Проблема выравнивания ИИ — это попытка научить джинна понимать намерения»
Isaac Arthur · 16.10.25 · 34 тыс. просм.
1ч 16м
📚 Обучение ИИ на человеческих предпочтениях: лекция Сэми Куа в Стэнфорде
Stanford Online · 11.09.25 · 81,1 тыс. просм.
19 мин
🎓 Почему нейросети галлюцинируют? OpenAI нашла решение проблемы «уверенной лжи»
Wes Roth · 08.09.25 · 46,1 тыс. просм.
1ч 42м
🌪 Эпоха фабрик данных: как CEO Labelbox строит конвейер для обучения AGI с экспертами на $250k в год
The Cognitive Revolution · 08.07.25 · 258 тыс. просм.
1ч 16м
Механика обучения моделей: лектор Стэнфорда о GRPO
Stanford Online · 08.07.25 · 32,3 тыс. просм.
41 мин
⚖ Инженерная оптимизация: как математика помогает выбирать между безопасностью и скоростью
Stanford Online · 03.07.25 · 6,9 тыс. просм.
1ч 20м
🚀 Stanford CS336: секреты обучения reasoning-моделей DeepSeek-R1, Kimi и Qwen
Stanford Online · 01.07.25 · 35,4 тыс. просм.
1ч 14м
🔄 Как устроен посттренинг языковых моделей: от SFT до RLHF
Stanford Online · 20.06.25 · 32,3 тыс. просм.
50 мин
🚀 13 инженеров против OpenAI: как удержать миллионы пользователей ИИ
Machine Learning Street Talk · 26.05.25 · 10,1 тыс. просм.
58 мин
Генеративный ИИ в медицине: как работают большие языковые модели
Stanford Online · 30.04.25 · 39,9 тыс. просм.
1ч 23м
🧠 Макс Бартоло из Cohere: почему человеческая обратная связь — это не золотой стандарт для ИИ
Machine Learning Street Talk · 18.03.25 · 8,5 тыс. просм.
1ч 08м
🧬 Нейтан Ламберт о жизни после DPO: почему PPO все еще лучше, но сложнее
Stanford Online · 04.03.25 · 13,1 тыс. просм.
1ч 19м
📈 Пост-обучение больших языковых моделей: от контекстного промптинга до алгоритмов RLHF и DPO
Stanford Online · 04.03.25 · 23,4 тыс. просм.
1ч 19м
🤖 Арчит Шарма о будущем LLM: как обучают ChatGPT?
Stanford Online · 04.03.25 · 23,4 тыс. просм.
1ч 54м
🧠 Тан Чжи Сюань: «ИИ не должен просто угадывать наши желания — он должен соблюдать социальные нормы»
The Cognitive Revolution · 30.11.24 · 2,1 тыс. просм.
1ч 13м
🔄 От симуляции такси до ChatGPT: как максимизация энтропии и отзывы людей обучают современный ИИ
Stanford Online · 30.10.24 · 8,4 тыс. просм.
1ч 18м
📉 Direct Preference Optimization: почему исследователи переходят на DPO
Stanford Online · 30.10.24 · 12,4 тыс. просм.
1ч 18м
🎓 Как аналитический метод DPO изменил выравнивание LLM и столкнулся со взломом наград
Stanford Online · 30.10.24 · 12 тыс. просм.
3ч 11м
🧠 Цифровой паноптикум: почему ИИ выберет бунт вместо рабства
The Cognitive Revolution · 07.09.24 · 2,2 тыс. просм.
1ч 44м
🏗 Ян Дюбуа о создании LLM: почему данные и системы важнее архитектуры
Stanford Online · 27.08.24 · 2 млн просм.
3ч 09м
🤖 Как RLHF превращает текстовые симуляторы в опасных агентов
80,000 Hours · 16.06.24 · 1,4 тыс. просм.
46 мин
🕶 Натан Лабенц: «Мы как 13-летние подростки с ключами от ИИ-суперкара»
The Cognitive Revolution · 15.05.24 · 952 просм.
1ч 16м
🏗 Натан Ламберт: «RLHF — это необходимый инструмент выравнивания ИИ»
Stanford Online · 10.05.24 · 30 тыс. просм.
1ч 33м
🧩 Брэндон Рорер: «ИИ — это всего лишь очень умная машина для перемалывания паттернов»
Machine Learning Street Talk · 13.02.24 · 36,8 тыс. просм.
1ч 31м
🛢 Основатель Scale AI Александр Ванг о будущем данных, геополитике ИИ и уроках Amazon
The Logan Bartlett Show · 03.11.23 · 386 тыс. просм.
52 мин
🧠 Райли Гудсайд о промпт-инжиниринге: «Модели не думают, они фристайлят»
The TWIML AI Podcast with Sam Charrington · 23.10.23 · 1,4 тыс. просм.
25 мин
🧠 Мира Мурати о ChatGPT: «Это началось как исследование безопасности, а не продукт»
a16z (Andreessen Horowitz) · 25.09.23 · 224 тыс. просм.
37 мин
🧠 Гокул Свами: «Многие маршруты в Google Maps рассчитываются через инверсное обучение с подкреплением»
The TWIML AI Podcast · 21.08.23 · 853 просм.
1ч 03м
🛠 Скотт Даунс: «Мы даем тренерам ИИ костюмы Железного человека»
Eye on AI · 02.08.23 · 1,8 тыс. просм.
1ч 25м
🧠 Вивек Натараджан о Med-PaLM: «Медицина требует специализации ИИ»
The Cognitive Revolution · 21.05.23 · 3,9 тыс. просм.
1ч 21м
🏗 Раза Хабиб о внедрении AI: почему RLHF переоценен
The Cognitive Revolution · 27.04.23 · 2,3 тыс. просм.
1ч 22м
🧠 Нейтан Лабенц о GPT-4: «Это аморальный и опасный „алиен“»
The Cognitive Revolution · 28.03.23 · 25 тыс. просм.
10 мин
🐙 Кеннет Стенли: «RLHF — это наклеивание смайлика на хаос интернета»
Machine Learning Street Talk · 26.03.23 · 72 тыс. просм.
2ч 23м
🚀 Сэм Альтман: Почему ИИ — это инструмент, а не существо
Lex Fridman · 25.03.23 · 6,8 млн просм.
1ч 23м
🚀 Итоги релиза GPT-4: эксперты обсуждают капчи, биологическое оружие и гонку с Китаем
The Cognitive Revolution · 17.03.23 · 825 просм.
40 мин
🧠 Шон Прессер: «Остановить развитие ИИ уже невозможно»
Event Horizon · 16.03.23 · 67 тыс. просм.
34 мин
📉 Технический разбор GPT-4: скрытые параметры, законы масштабирования и риски для бизнеса
Yannic Kilcher · 15.03.23 · 109 тыс. просм.
20 мин
🧠 Раза Хабиб: «В долгосрочной перспективе программисты будут автоматизированы первыми»
Y Combinator · 28.02.23 · 485 тыс. просм.
1ч 01м
Эдвард Грефенстетт о семантике, ИИ и философии
Machine Learning Street Talk · 11.02.23 · 5,9 тыс. просм.
35 мин
🌐 Янник Килчер запустил платформу OpenAssistant для создания открытого аналога ChatGPT
Yannic Kilcher · 04.02.23 · 126 тыс. просм.
1ч 57м
🧠 Самир Сингх: «Языковые модели — это искусные имитаторы»
The TWIML AI Podcast · 23.01.23 · 2,8 тыс. просм.
1ч 07м
🤖 Сергей Левин об эволюции обучения с подкреплением: от «бандитов» в ChatGPT до роботов-трансформеров
The TWIML AI Podcast · 16.01.23 · 9,9 тыс. просм.
51 мин
🛠 Сара Хукер: «Качественные аннотации важнее алгоритмов подкрепления в RLHF»
Machine Learning Street Talk · 23.12.22 · 8,8 тыс. просм.
31 мин
🛠 Янник Килчер о ChatGPT: «Джейлбрейки в мире дистопии»
Yannic Kilcher · 07.12.22 · 438 тыс. просм.
27 мин
🗣 Лора Руис о коммуникации ИИ: «Модели не способны общаться в режиме zero-shot»
Machine Learning Street Talk · 06.12.22 · 15,1 тыс. просм.
20 мин
🌐 Как ИИ меняет лингвистику: спор Эндрю Лампинена с Ноамом Хомским на NeurIPS
Machine Learning Street Talk · 04.12.22 · 11,1 тыс. просм.
52 мин
🧩 Архитектура Mixture-of-Experts и тренды масштабирования больших моделей от Ирвана Белло
The TWIML AI Podcast · 25.04.22 · 1,3 тыс. просм.