Поиск

Найдено: 50

🔄 Как устроен посттренинг языковых моделей: от SFT до RLHF

Stanford Online · 20.06.25

🧠 Как устроены LLM: от «зип-файла интернета» до рассуждающих моделей

Andrej Karpathy · 05.02.25

📈 Пост-обучение больших языковых моделей: от контекстного промптинга до алгоритмов RLHF и DPO

Stanford Online · 04.03.25

🎯 Стэнфорд: «Ваша языковая модель — это на самом деле скрытая модель вознаграждения»

Stanford Online · 14.11.25

🛠 Тюнинг LLM: как методы PPO и DPO превращают нейросети из автодополнителей в полезных помощников

Stanford Online · 14.11.25

🏛 Как 15 ученых смогли превзойти ИИ-гигантов уровня Meta?

The Cognitive Revolution · 21.11.24

🧠 DeepSeek R1 против OpenAI o1: как алгоритм GRPO изменил правила игры в ИИ

Stanford Online · 14.11.25

🧠 Стэнфорд CME295: Как алгоритм GRPO и DeepSeek R1 изменили логику нейросетей

Stanford Online · 14.11.25

🎮 От Atari до ChatGPT: как ИИ учится на своих ошибках?

Stanford Online · 31.10.25

🛠 Кайл Корбитт из CoreWeave: «Мы уже находимся в петле рекурсивного самосовершенствования ИИ»

The Cognitive Revolution · 01.05

🧱 Stanford CS224R Deep Reinforcement Learning | Spring 2025 | Lecture 10: RL for LLM Reasoning

Stanford Online · 08.12.25

🎓 Стэнфордский CME295: как на самом деле обучаются современные LLM — от претрейна до LoRA

Stanford Online · 21.10.25

⚡ Эра NVIDIA H100 и ИИ-агенты: главные тренды внедрения технологий

The Cognitive Revolution · 18.07.23

🤖 Absolute Zero: как ИИ учится программировать без людей и почему ученых пугает «uh-oh момент»

Wes Roth · 09.05.25

🎓 Как аналитический метод DPO изменил выравнивание LLM и столкнулся со взломом наград

Stanford Online · 30.10.24

👁 VLM: От патчей 16x16 до мультимодального будущего

The Cognitive Revolution · 03.01.25

🚀 Мин Дин из Zhipu AI: от языковых моделей к мультимодальным системам будущего

Stanford Online · 30.05.24

🚀 Stanford CS336: секреты обучения reasoning-моделей DeepSeek-R1, Kimi и Qwen

Stanford Online · 01.07.25

📝 Learning to summarize from human feedback (Paper Explained)

Yannic Kilcher · 07.09.20

🤖 Уэс Рот: почему ИИ создает собственные «тайные» стратегии рассуждений

Wes Roth · 05.02.25

🎭 ИИ научился обманывать: как модели саботируют тесты безопасности

The Cognitive Revolution · 18.09.25

🧬 Нейтан Ламберт о жизни после DPO: почему PPO все еще лучше, но сложнее

Stanford Online · 04.03.25

🕰 Мин Дин об эволюции ИИ: от больших языковых к мультимодальным моделям

Stanford Online · 30.05.24

🧠 Дэнни Чжоу из Google DeepMind: как большие языковые модели на самом деле учатся рассуждать

Stanford Online · 21.05.25

🧠 От чатов WhatsApp до PyTorch: гайд по сборке нейросети

freeCodeCamp.org · 10.04.25

📚 Обучение ИИ на человеческих предпочтениях: лекция Сэми Куа в Стэнфорде

Stanford Online · 11.09.25

🏗 Ян Дюбуа о создании LLM: почему данные и системы важнее архитектуры

Stanford Online · 27.08.24

🏁 Янник Кильхер: «Мы устроили революцию в open-source и выполнили миссию»

Yannic Kilcher · 24.10.23

📅 Open-Source против OpenAI: Янник Кильчер представил первые модели OpenAssistant

Yannic Kilcher · 06.04.23

🧠 a16z: Как DeepSeek R1 обрушил стоимость обучения ИИ и открыл новую эру рассуждающих моделей

a16z (Andreessen Horowitz) · 05.03.25