RDLY
.ru
Тренды
Статьи
Темы
Люди
Поиск
Найти
Найдено: 50
1ч 14м
🔄 Как устроен посттренинг языковых моделей: от SFT до RLHF
Stanford Online · 20.06.25
3ч 31м
🧠 Как устроены LLM: от «зип-файла интернета» до рассуждающих моделей
Andrej Karpathy · 05.02.25
1ч 19м
📈 Пост-обучение больших языковых моделей: от контекстного промптинга до алгоритмов RLHF и DPO
Stanford Online · 04.03.25
1ч 47м
🎯 Стэнфорд: «Ваша языковая модель — это на самом деле скрытая модель вознаграждения»
Stanford Online · 14.11.25
1ч 47м
🛠 Тюнинг LLM: как методы PPO и DPO превращают нейросети из автодополнителей в полезных помощников
Stanford Online · 14.11.25
1ч 49м
🏛 Как 15 ученых смогли превзойти ИИ-гигантов уровня Meta?
The Cognitive Revolution · 21.11.24
1ч 47м
🧠 DeepSeek R1 против OpenAI o1: как алгоритм GRPO изменил правила игры в ИИ
Stanford Online · 14.11.25
1ч 47м
🧠 Стэнфорд CME295: Как алгоритм GRPO и DeepSeek R1 изменили логику нейросетей
Stanford Online · 14.11.25
1ч 44м
🎮 От Atari до ChatGPT: как ИИ учится на своих ошибках?
Stanford Online · 31.10.25
1ч 48м
🛠 Кайл Корбитт из CoreWeave: «Мы уже находимся в петле рекурсивного самосовершенствования ИИ»
The Cognitive Revolution · 01.05
1ч 10м
🧱 Stanford CS224R Deep Reinforcement Learning | Spring 2025 | Lecture 10: RL for LLM Reasoning
Stanford Online · 08.12.25
1ч 47м
🎓 Стэнфордский CME295: как на самом деле обучаются современные LLM — от претрейна до LoRA
Stanford Online · 21.10.25
1ч 40м
⚡ Эра NVIDIA H100 и ИИ-агенты: главные тренды внедрения технологий
The Cognitive Revolution · 18.07.23
40 мин
🤖 Absolute Zero: как ИИ учится программировать без людей и почему ученых пугает «uh-oh момент»
Wes Roth · 09.05.25
1ч 18м
🎓 Как аналитический метод DPO изменил выравнивание LLM и столкнулся со взломом наград
Stanford Online · 30.10.24
3ч 53м
👁 VLM: От патчей 16x16 до мультимодального будущего
The Cognitive Revolution · 03.01.25
1ч 19м
🚀 Мин Дин из Zhipu AI: от языковых моделей к мультимодальным системам будущего
Stanford Online · 30.05.24
1ч 20м
🚀 Stanford CS336: секреты обучения reasoning-моделей DeepSeek-R1, Kimi и Qwen
Stanford Online · 01.07.25
45 мин
📝 Learning to summarize from human feedback (Paper Explained)
Yannic Kilcher · 07.09.20
34 мин
🤖 Уэс Рот: почему ИИ создает собственные «тайные» стратегии рассуждений
Wes Roth · 05.02.25
2ч 10м
🎭 ИИ научился обманывать: как модели саботируют тесты безопасности
The Cognitive Revolution · 18.09.25
1ч 08м
🧬 Нейтан Ламберт о жизни после DPO: почему PPO все еще лучше, но сложнее
Stanford Online · 04.03.25
1ч 19м
🕰 Мин Дин об эволюции ИИ: от больших языковых к мультимодальным моделям
Stanford Online · 30.05.24
1ч 06м
🧠 Дэнни Чжоу из Google DeepMind: как большие языковые модели на самом деле учатся рассуждать
Stanford Online · 21.05.25
3ч 29м
🧠 От чатов WhatsApp до PyTorch: гайд по сборке нейросети
freeCodeCamp.org · 10.04.25
1ч 16м
📚 Обучение ИИ на человеческих предпочтениях: лекция Сэми Куа в Стэнфорде
Stanford Online · 11.09.25
1ч 44м
🏗 Ян Дюбуа о создании LLM: почему данные и системы важнее архитектуры
Stanford Online · 27.08.24
11 мин
🏁 Янник Кильхер: «Мы устроили революцию в open-source и выполнили миссию»
Yannic Kilcher · 24.10.23
16 мин
📅 Open-Source против OpenAI: Янник Кильчер представил первые модели OpenAssistant
Yannic Kilcher · 06.04.23
27 мин
🧠 a16z: Как DeepSeek R1 обрушил стоимость обучения ИИ и открыл новую эру рассуждающих моделей
a16z (Andreessen Horowitz) · 05.03.25
23 мин
🧠 Прорыв в Беркли: как ученые воссоздали технологии DeepSeek R1 за $30
Wes Roth · 31.01.25
1ч 19м
🚪 «Пощекотать ChatGPT»: зачем на самом деле нужны промт-инженеры
Stanford Online · 11.09.25
1ч 17м
💡 Как адаптировать LLM: от обучения инструкциям до RAG
MIT OpenCourseWare · 07.01
1ч 05м
🔄 Лекция Стэнфорда о Reward Learning: как научить искусственный интеллект понимать человеческие цели
Stanford Online · 08.12.25
1ч 02м
🚀 Преподаватель Стэнфорда о методах обучения языковых моделей: от RLHF к DPO
Stanford Online · 08.12.25
1ч 13м
🔄 От симуляции такси до ChatGPT: как максимизация энтропии и отзывы людей обучают современный ИИ
Stanford Online · 30.10.24
1ч 20м
🧠 Стэнфордский курс CS234: принципы офлайн-RL и преодоление неопределенности
Stanford Online · 30.10.24
3ч 06м
🤖 Искусство обмана: почему ИИ начнет скрывать свои цели
80,000 Hours · 03.12.25
53 мин
👨 Шерман Ву: «Эпоха одной универсальной модели ИИ подошла к концу»
a16z (Andreessen Horowitz) · 28.11.25
1ч 22м
🚀 ИИ вместо SRE: как ИИ-агенты Resolve автоматизируют управление продакшеном
Stanford Online · 24.09.25
1ч 16м
🧠 Джонатан Сиддарт из Turing: почему 99% интеллектуального труда будет автоматизировано, а традиционный SaaS исчезнет
20VC (Harry Stebbings) · 01.12.25
1ч 13м
🎥 Как трансформеры совершили революцию в видеогенерации: разбор архитектуры Movie Gen от Meta
Stanford Online · 03.07.25
53 мин
🔄 Янник Кильчер разобрал метод Reinforced Self-Training от Google DeepMind
Yannic Kilcher · 03.09.23
1ч 24м
🛠 Ян Дюбуа рассказал о скрытых ловушках тестирования LLM
Stanford Online · 04.03.25
1ч 14м
🧠 Ник Фрост о Сэме Альтмане: «Его слова о близости AGI — это медвежья услуга миру»
20VC with Harry Stebbings · 01.09.25
1ч 18м
🏗 Стэнфорд запустил курс CS336 по созданию LLM: от байтовых токенов до GPU-ядер
Stanford Online · 24.04.25
1ч 18м
🧠 Стенфорд запускает CS336: как собрать языковую модель с нуля в эпоху ИИ-гигантов
Stanford Online · 08.04.25
1ч 51м
🚀 Стэнфорд CME295: Итоги 2025 года в мире трансформеров и диффузионных моделей
Stanford Online · 09.12.25
1ч 18м
📉 Direct Preference Optimization: почему исследователи переходят на DPO
Stanford Online · 30.10.24
1ч 36м
🛑 Эйсо Кант: «Вы не придете к AGI с помощью файн-тюнинга»
Machine Learning Street Talk · 02.04.25