RDLY
.ru
Тренды
Статьи
Темы
Люди
Поиск
Найти
Найдено: 50
1ч 01м
🔄 Эволюция Q-Learning: от уравнений Беллмана до алгоритмов DQN и Double DQN
Stanford Online · 08.12.25
28 мин
🤖 Как система SayCan от Google объединяет нейросети и робототехнику
Yannic Kilcher · 30.04.22
1ч 03м
🔄 Эволюция алгоритмов Actor-Critic: как Стэнфорд обучает нейросети на ошибках
Stanford Online · 08.12.25
1ч 20м
🛠 Профессор Стивен Бойд объяснил конструктивный анализ выпуклости в Стэнфорде
Stanford Online · 14.03.24
1ч 36м
🧠 Илья Суцкевер: «Мы возвращаемся из эпохи масштабирования в эпоху исследований»
Dwarkesh Patel · 25.11.25
1ч 20м
📉 Стивен Бойд: «Любой локальный оптимум выпуклой задачи является глобальным»
Stanford Online · 15.03.24
1ч 19м
🛡 Стэнфорд о PPO: «Почему это самый полезный метод в RL»
Stanford Online · 30.10.24
58 мин
🤖 Как Google SayCan объединяет языковые модели и робототехнику
Yannic Kilcher · 02.05.22
1ч 20м
🚀 Stanford CS336: секреты обучения reasoning-моделей DeepSeek-R1, Kimi и Qwen
Stanford Online · 01.07.25
22 мин
🧱 Как научить робота крутить вентили за 10 кликов: разбор Dynamical Distance Learning
Yannic Kilcher · 12.04.20
2ч 34м
🧠 Алгоритмы внутри нас: как хакнуть мозг с помощью науки
Huberman Lab · 18.11.24
57 мин
🌐 Минчи Цзян: «Графики метрик скрывали реальные слепые зоны агента»
Yannic Kilcher · 26.04.22
1ч 47м
🛠 Тюнинг LLM: как методы PPO и DPO превращают нейросети из автодополнителей в полезных помощников
Stanford Online · 14.11.25
2ч 44м
📸 Как победить технологических гигантов: правила игры Кевина Систрома
Lex Fridman · 23.11.21
13 мин
🔄 Дэвид Сильвер о Deep RL: «В нейросетях с миллиардом параметров нет локальных минимумов»
Lex Fridman · 06.05.20
50 мин
🎮 Как ошибка в медиане влияет на оценку ИИ
The TWIML AI Podcast · 14.02.22
28 мин
🤖 Как обучить робота-дворцкого? Новые подходы Стэнфорда к обобщению задач
Stanford Online · 14.07.25
42 мин
🤖 Как проект RT-X объединил 34 лаборатории и ускорил обучение роботов
Eye on AI · 17.03.24
1ч 49м
🧠 Как RAG, Tool Calling и агенты связывают LLM с реальным миром: лекция CME295 в Стэнфорде
Stanford Online · 18.11.25
3ч 19м
🌐 Проклятие размерности: почему нейросети всегда занимаются экстраполяцией
Machine Learning Street Talk · 04.01.22
45 мин
🚀 Тони Джебара о будущем: «Алгоритмы должны мыслить долгосрочно»
The TWIML AI Podcast · 29.12.22
1ч 10м
🎯 Профессор Стэнфорда разобрал ключевые вызовы и методологию исследований Deep RL
Stanford Online · 08.12.25
1ч 13м
🔄 Подход Model-Based RL: как Стэнфорд обучает сложных роботов за четыре часа
Stanford Online · 08.12.25
35 мин
🌍 Как обучить робота без вознаграждений? Разбор алгоритма Plan2Explore
Yannic Kilcher · 17.05.20
54 мин
🎮 Мартин Шмид о Player of Games: „Универсальный алгоритм для любой игры“
Yannic Kilcher · 02.01.22
1ч 47м
🎯 Стэнфорд: «Ваша языковая модель — это на самом деле скрытая модель вознаграждения»
Stanford Online · 14.11.25
1ч 20м
Методы оценки политики: Монте-Карло против Temporal Difference
Stanford Online · 30.10.24
1ч 51м
🧠 Теория всего от нейробиологии: как Карл Фристон связывает физику, разум и машинное обучение
Machine Learning Street Talk · 13.12.20
26 мин
🔄 Шмидхубер выворачивает ИИ наизнанку: детальный разбор концепции Upside-Down RL
Yannic Kilcher · 11.12.19
18 мин
🤖 Илья Суцкевер: «Возможно создать ИИ, желающий подчиняться человеку»
Lex Fridman · 09.05.20
1ч 01м
🎲 Янник Кильхер разобрал ИИ-агента CICERO от Meta AI, вошедшего в топ-10% игроков в „Дипломатию“
Yannic Kilcher · 25.11.22
52 мин
🧠 Профессор Челси Финн об основах глубокого обучения с подкреплением в Стэнфорде
Stanford Online · 08.12.25
1ч 10м
🧱 Stanford CS224R Deep Reinforcement Learning | Spring 2025 | Lecture 10: RL for LLM Reasoning
Stanford Online · 08.12.25
1ч 13м
🧩 Stanford CS234 Reinforcement Learning I Tabular MDP Planning I 2024 I Lecture 2
Stanford Online · 30.10.24
50 мин
Аникайт из Стэнфорда: «Почему ваше Q-обучение нестабильно?»
Stanford Online · 08.12.25
1ч 01м
📈 Даг Адамик: как сократить цикл сделки и почему скидки не работают
20VC (Harry Stebbings) · 08.09.23
1ч 23м
🎯 Профессор Ральф Кини: «Решения — единственный способ осознанно менять жизнь»
Rational Reminder · 02.02.23
1ч 47м
🧠 DeepSeek R1 против OpenAI o1: как алгоритм GRPO изменил правила игры в ИИ
Stanford Online · 14.11.25
1ч 47м
🧠 Стэнфорд CME295: Как алгоритм GRPO и DeepSeek R1 изменили логику нейросетей
Stanford Online · 14.11.25
1ч 15м
🧩 Лекция в Стэнфорде: приближенные offline-методы планирования в пространствах убеждений
Stanford Online · 25.02
3ч 09м
🤖 Как RLHF превращает текстовые симуляторы в опасных агентов
80,000 Hours · 16.06.24
3ч 48м
🧠 Цена конца света: почему экзистенциальные риски — это экономика
80,000 Hours · 03.11.24
2ч 32м
🦈 Иллюзия реальности: Эндрю Хьюберман о скрытых механизмах мозга
Lex Fridman · 16.11.20
54 мин
🎭 Патологическая продуктивность: как распознать скрытую депрессию за внешней успешностью
Talks at Google · 15.05.25
40 мин
📈 Построение функции SDR в стартапе: опыт Сэма Блонда из Brex
SaaStr · 13.02.24
2ч 38м
🛸 Кризис науки, калибровочная экономика и Геометрическое Единство Эрика Вайнштейна
Lex Fridman · 23.02.21
2ч 29м
💡 От блефа к доверию: как ИИ учится договариваться с людьми
Lex Fridman · 06.12.22
3ч 35м
🚀 Java для профи: от первого кода до архитектуры объектов
freeCodeCamp.org · 27.09.23
6ч 27м
🌐 Цифровая трансформация с Google Cloud: архитектура, безопасность и экономика
freeCodeCamp.org · 23.10.24
2ч 37м
🧠 Феномен AlphaGo: как сжать бесконечный поиск в нейросеть
Dwarkesh Patel · 15.05