Обучение с подкреплением

26 статей

🤖 Ловушка оптимизации: как ИИ учится и где ошибается

CS50 · 07.07 · 20,2 тыс. просм.

🧠 Путь к безопасному ИИ: от имитации к объективной реальности

80,000 Hours · 07.05 · 17,8 тыс. просм.

🔄 Эволюция алгоритмов Actor-Critic: как Стэнфорд обучает нейросети на ошибках

Stanford Online · 08.12.25 · 10,5 тыс. просм.

🔄 Стэнфордский курс CS224R: математический вывод градиентов политики в RL

Stanford Online · 08.12.25 · 12,6 тыс. просм.

💎 Основатель Mariana: «Мы потеряли способность строить сложную инфраструктуру»

a16z (Andreessen Horowitz) · 23.07.25 · 5,8 тыс. просм.

🧩 Натан Лабенц об автономном ИИ: «Не пытайтесь повторить это дома»

The Cognitive Revolution · 14.06.25 · 36,2 тыс. просм.

🚀 В тисках градиентного спуска: хроника захвата мира искусственным интеллектом

The Cognitive Revolution · 01.05.25 · 28,8 тыс. просм.

🎓 Кэл Ньюпорт: почему пятиминутный тайм-менеджмент больше не работает

Deep Questions with Cal Newport · 14.04.25 · 24,4 тыс. просм.

🚀 Эйсо Кант: «Вы не сможете дообучить свой путь к AGI»

Machine Learning Street Talk · 02.04.25 · 33,7 тыс. просм.

🧠 Прорыв в Беркли: как ученые воссоздали технологии DeepSeek R1 за $30

Wes Roth · 31.01.25 · 284 тыс. просм.

🏛 Как 15 ученых смогли превзойти ИИ-гигантов уровня Meta?

The Cognitive Revolution · 21.11.24 · 8,7 тыс. просм.

🧠 Обучение с подкреплением: главные вызовы и прорывы стэнфордского курса CS234

Stanford Online · 30.10.24 · 9,9 тыс. просм.

🤖 Почему ИИ обманывает: инженерный подход к безопасности алгоритмов

80,000 Hours · 27.05.24 · 2,6 тыс. просм.

🚀 Сергий Нестеренко: «Разводка плат должна стать похожей на компиляцию кода»

The Cognitive Revolution · 25.04.24 · 843 просм.

🎯 Мэтью Лодж: «Большие языковые модели жертвуют точностью ради универсальности»

Eye on AI · 19.07.23 · 6,5 тыс. просм.

📈 Как AlphaTensor побил 50-летний рекорд умножения матриц

Quanta Magazine · 22.05.23 · 1,8 млн просм.

🎮 NVIDIA научила AI двигаться: 10 лет тренировок за 10 дней

Two Minute Papers · 19.07.22 · 1,3 млн просм.

🤖 Как Google SayCan объединяет языковые модели и робототехнику

Yannic Kilcher · 02.05.22 · 6,8 тыс. просм.

🌐 Минчи Цзян: «Графики метрик скрывали реальные слепые зоны агента»

Yannic Kilcher · 26.04.22 · 4,3 тыс. просм.

🧭 Как естественный язык помогает ИИ исследовать сложные виртуальные миры?

Yannic Kilcher · 02.04.22 · 4,4 тыс. просм.

🧠 Как научить ИИ размышлять: Андреа Банино о механизмах PonderNet

The TWIML AI Podcast · 18.10.21 · 570 просм.

🎮 Экономика под управлением ИИ: как Salesforce научила нейросети собирать налоги

Yannic Kilcher · 30.04.20 · 22,6 тыс. просм.

🎮 Янник Килчер разобрал симуляцию AI Economist: как ИИ предлагает оптимизировать налоги

Yannic Kilcher · 30.04.20 · 22,6 тыс. просм.

🤖 Почему классический ИИ падает в ямы, а алгоритм POET побеждает?

Yannic Kilcher · 06.04.20 · 3,4 тыс. просм.

🕹 Как Agent57 от DeepMind превзошел человека в бенчмарке Atari

Yannic Kilcher · 31.03.20 · 9,4 тыс. просм.

🎮 Янник Килчер разобрал ИИ-агента LeDeepChef для текстовых игр

Yannic Kilcher · 15.10.19 · 2,7 тыс. просм.