reinforcement learning

128 статей

🧠 Лекция Stanford CS221: От табличных методов к Actor-Critic

Stanford Online · 09.03

Теория игр: Minimax, Alpha-Beta и поиск оптимальной стратегии

Stanford Online · 09.03

🤖 От случайного блуждания до Q-Learning: как ИИ учится на своих ошибках

Stanford Online · 09.03

🧠 Вес Рот о Grok 4.20: «Четыре агента спорят друг с другом перед ответом»

Wes Roth · 17.02

🤖 Филип Исола: «Поиск — это новый двигатель глубокого обучения»

MIT OpenCourseWare · 11.02

DREAM: как научить ИИ исследовать и обучаться эффективнее

Stanford Online · 08.12.25

🧠 Как Meta-RL позволяет агентам адаптироваться к новым задачам „на лету“

Stanford Online · 08.12.25

🏗 Stanford CS224R: Как иерархический ИИ решает задачи с длинным горизонтом

Stanford Online · 08.12.25

Аникайт из Стэнфорда: «Почему ваше Q-обучение нестабильно?»

Stanford Online · 08.12.25

⚖ Stanford CS224R: PPO и SAC как стандарты обучения с подкреплением

Stanford Online · 08.12.25

🤖 Имитационное обучение: почему простого копирования действий недостаточно

Stanford Online · 08.12.25

🔄 Stanford Online: «Методы Actor-Critic — база для обучения LLM и роботов»

Stanford Online · 08.12.25

⚖ Лекция в Стэнфорде: развитие интеллекта роботов через RL

Stanford Online · 08.12.25

🧠 Джонатан Сиддарт из Turing: почему 99% интеллектуального труда будет автоматизировано, а традиционный SaaS исчезнет

20VC (Harry Stebbings) · 01.12.25

🎓 Стэнфордский ИИ-путеводитель: как выбрать подходящие курсы и построить карьеру в Deep Learning

Stanford Online · 10.11.25

🧠 Шеф по ИИ в Cohere: почему законы масштабирования выстоят, а термин «экзистенциальный риск» пора запретить

20VC (Harry Stebbings) · 03.11.25

🧠 Джоэль Пино из Cohere: почему законы масштабирования работают и как ИИ повысит продуктивность в 10 раз

20VC (Harry Stebbings) · 03.11.25

🤖 Пирамида данных для манипуляций: как Stanford обучает роботов сложному поведению

Stanford Online · 31.10.25

🧬 Уэс Рот и Дилан: «ИИ помогает нам понять природу сознания»

Wes Roth · 27.10.25

💻 Марк Андриссен и Амджад Масад: «Английский — это новый язык программирования»

a16z (Andreessen Horowitz) · 23.10.25

📉 Натан Лабенц: «Худшая ошибка — недооценить, как далеко зайдет ИИ»

a16z (Andreessen Horowitz) · 14.10.25

🛠 Как ИИ-агенты меняют программирование: взгляд экспертов из Anthropic и Стэнфорда

Stanford Online · 01.10.25

💻 Мария Ша о будущем программирования и обучении нейросетей

Wes Roth · 30.09.25

🚀 Эван Рейзер (Poolside): «Обучение на исполнении кода — это путь к созданию AGI»

Eye on AI · 24.09.25

🚀 Почему Grok 4 Fast в 47 раз дешевле конкурентов: разбор стратегии xAI

Wes Roth · 20.09.25

🤝 Скотт Ву (Cognition) о сделке с Windsurf и будущем ИИ-агентов

20VC (Harry Stebbings) · 18.07.25

🤖 Восемь лет до сингулярности: как ИИ построит «Потемкинскую деревню»

80,000 Hours · 08.07.25

🚀 Уэс Рот о новой революции в RL: «Эра компактных и дешевых учителей ИИ настала»

Wes Roth · 23.06.25

🚀 Демис Хассабис о «интеллектуальном взрыве» и будущем самосовершенствующегося ИИ

Wes Roth · 26.05.25

🧠 Дэнни Чжоу из Google DeepMind: как большие языковые модели на самом деле учатся рассуждать

Stanford Online · 21.05.25